Redian新闻
>
率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

公众号新闻
机器之心报道
编辑:蛋酱

2023 年的 AI 领域,难以回避「大模型」这个关键词。

半年前 ChatGPT 的发布,在海内外引发了一场大模型之战。多家公司加紧研发,纷纷推出类 ChatGPT 产品,或是宣传要打造「中国的 OpenAI」。

有这样一家公司,却以低调的方式走在了研发和落地的前列。

今年三月初,国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放,甚至早于 OpenAI。

一周之后,震撼全球的 GPT-4 发布,同样增加了多模态能力。或许是受到算力成本的限制,这一功能至今仍未对公众开放。

与此同时,我们可以再往前想一步:除了图像输入之外,多模态对话大模型能不能提供优秀的语音输入或者视频输入功能?何时才能变得大众可用?

现在,你已经可以在全新升级后的「元乘象 ChatImg」上体验到这些功能。


在微信公众号「元乘象」的菜单栏,基于 ChatImg 2.0 的「元乘象 ChatImg」各种新能力已开放测试,用户可直接点击进入应用页面。

元乘象 CEO 高一钊介绍说,根据多模态对话数据集(LLaVa)的公开评测,ChatImg2.0 的中文和英文多模态对话能力均超过了目前最好的开源模型。

具体而言,评测给定了 90 个问题,将问题、图像描述、待测模型回答结果和 GPT-4 回答结果一起输入 GPT-3.5,让 GPT-3.5 对比两个回答,分别给出分数(0-10 分),最终的打分是 90 个问题上的总分:

GPT-4 的回答结果是使用 GPT-4 的纯文本版本基于给定的图像描述和目标检测信息作答的,没有真正看到图像。* 代表待测模型针对测试集中的中文问题,绝大部分是用英文回答的,需要提前用 GPT3.5 翻译成中文。

上手测试

ChatImg 2.0 新增了三项重点功能,分别是「语音交互」、「视频输入」、「发现」。

基于这些最新功能,机器之心也上手测试了一番,让我们来看看结果。

首先是「语音交互」,ChatImg 2.0 可以判断出说话人的意图,并及时地回复语音中提出的问题:


然后,机器之心输入了一段八秒的视频,ChatImg 2.0 可以完整地描述视频内容细节:

大胆设想,如果你有一段主题、人物元素属于未知的视频,或许可以借助这个功能来找到答案。

此外,ChatImg 2.0 的「发现」页面提供了多种玩法,用户能够选择自己需要的对话模式,让交互变得更加简单了。


比如,这里机器之心选择了「穿搭建议」,ChatImg 2.0 会迅速给出关于户外环境下的推荐衣着:


让多模态大模型落到行业中去

ChatImg 2.0 的背后,正是 AI 领域的明星初创公司「智子引擎」,近日刚刚宣布完成千万元的天使轮融资。

智子引擎公司 CEO 为中国人民大学高瓴人工智能学院的 90 后博士生高一钊,导师为卢志武,目前卢志武教授也在智子引擎公司担任顾问一职。

早在 2020 年,二人就开启了多模态大模型研发之路。卢志武教授曾主导设计了首个公开的中文通用图文预训练模型文澜 BriVL,并发表于 Nature Communications。该模型经过 6.5 亿弱相关中文图文对的预训练,学习到独特的中文语义理解能力并能很好地将中文语义与视觉信息联系起来,尤其擅长读取中文独有的含蓄语义与图片中的抽象概念。高一钊也深度参与了文澜 BriVL 大模型的研究工作。

当时,多模态大模型尚未如今天一般受到高度关注,但卢志武教授和高一钊却看到了其中蕴含的机遇。这些经验积累,也为 ChatImg 2.0 的打造奠定了理论和实践两方面的深厚基础。

高一钊表示,ChatImg 的诞生恰逢其时,AIGC 在 2022 年爆火,不管是学界还是业界,都开始对生成类大模型产生浓厚的兴趣。特别是在 ChatGPT 发布之后,这种兴趣为大模型领域创业营造了优越的环境。

不过,与市面上的很多 C 端产品不同,团队更希望 ChatImg 扎根到具体的行业当中,去解决 B 端的实际问题。

在传统的创业思路中,可能已经有了比较成熟、清晰的技术路线,再结合市场需求去找商业模式。而今天的大模型算是一种「新的东西」,对于 ChatImg 的创业过程来说,团队则更多去考虑模型本身的能力和产业化方法论,探索技术落地的更多可能。

「如果 ChatImg 被验证在某个行业真的有用、能够受到产业领域的认可,或许会比融到钱更让我们激动。这个事情可以做得很大,相当于 AI 真正颠覆了一个行业。」高一钊表示。

就在 ChatImg 2.0 发布的同一天,这个愿景迈出了重要一步:由智子引擎与软通智慧共同打造的基于多模态大模型 ChatImg 的新型城市治理云「GPT-Creator2.0」正式发布。

智子引擎和软通动力合作签约


其中,元乘象 ChatImg 提供了中国最领先的多模态大模型,软通智慧提供了城市场景、城市数据和私有化部署及专训,双方的目标是将事件覆盖度及识别准确度提高到 90% 以上、系统部署复杂度降低 50% 以上,以及巡查人员工作量减少到一半。

此外,智子引擎团队联合北京理工大学张伟民教授团队共同打造了一款智能机器人「小象」,为 ChatImg 装上了「身体」。


高一钊表示,多模态通用生成模型有非常广阔的落地应用前景,包括社会治理、实体机器人等落地场景均值得进一步探索。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Agustín Hernández:中美洲建筑背景下的未来主义巨构中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声马斯克:要做比OpenAI更好的AI|中企荐读为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPTVPGTrans: 用10%的成本定制一个你自己的GPT-4多模态对话模型LaVIN—多模态对话模型的高效指令微调四大头牌 | Deloitte 率先开启2025寒假实习,GPA要求大于3.0VPGTrans:10% 的成本定制你自己的类 GPT-4 多模态对话模型癸卯花见马英九一个tenure的故事《神秘花园》&《Love Me Tender》智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出医保|1500万低收入者面临白卡危机, 这5州本月率先开铡1小时送货上门!Coles出便民新举措!墨尔本率先开展案例 | 新能源汽车时代,广汽埃安率先开启“直营+经销”双轨销售模式VPGTrans: 用10%的成本定制一个你自己的GPT4多模态对话模型GPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构俞敏洪笑称“可考虑董宇辉接班”;OpenAI将推出ChatGPT企业版;微信小程序、视频号开放数字人民币支付丨邦早报对美中建交贡献重大的老海归GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报多模态大语言模型综述来啦!一文带你理清多模态关键技术Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。