Redian新闻
>
中科院自动化所「全模态」大模型亮相,图文音视频3D传感器信号都能理解

中科院自动化所「全模态」大模型亮相,图文音视频3D传感器信号都能理解

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

大模型搞多模态,做文字、图像、音视频这几样就够了?

中科院自动化所说不:

我们还加入了3D点云和更多传感器信号。

国产大模型新成员,千亿参数全模态大模型「紫东太初2.0」正式亮相。

不光能认知和理解多模态数据,还能在多轮对话中进一步与用户交互。

AI离理解现实世界中复杂多样的信息,又近了一步。

而且不仅如此,多个数据,甚至不同模态数据一起出现也难不倒它。

对于车内视角和车外视角的两个视频,可以找出共同特点。

图书馆照片和汽车鸣笛音频一起出现,也能分析出奇怪之处并给出解释。

认知、推理之外,紫东太初2.0也可以完成多模态生成任务。

图像、音频、视频一起出现,就能结合起来讲一个完整的故事。

又或者提取多模态数据中的特征并进行模仿。

AI如何理解全模态?

为什么要做多模态甚至全模态?
团队介绍到,现实世界中本来就充满了复杂多样的异构信息,人类自己也是综合多模态信息去理解这个世界的。

从模态的种类来说,文本只是其中非常小的一部分。

但从数据收集的角度来说,文本却又是数据最丰富的。

AI最擅长的就是从海量数据中提取出隐藏的规律,所以语言大模型进展最快也就不奇怪了。

其他模态数据本来就少,尤其是做多模态需要的配对数据就更稀缺。

拿大家已经很熟悉的文生图AI绘画来说,训练阶段需要大量的图-文配对数据,生产成本已经很高。

要想得到充足的文字、图像、音频、视频、3D、信号等模态之间的配对数据,那就想都别想了。

学术界为这个问题也想出一种解决办法:

以其中一种模态为核心,作为桥梁连接其他模态。

在科研探索中又分化出两条路线。

国外Meta的ImageBind选择了以图像为核心,

国内的紫东太初2.0团队则是“以语言为核心”路线的代表。

团队对此的考量是,图像能表达的语义还是不够丰富,比如像抽象的概念最后还是得靠语言。

以语言为核心连接起全模态数据,也为AI大模型打开很多新的应用空间,在发布会现场也做了展示。

全模态大模型用在哪?

外科手术中除了需要用到视觉,触觉传感器数据也同样重要。

两种数据跨模态融合,就解决了机器人辅助手术中的国际性难题。

同样是医学领域,医学影像、患者照片、病例等结合起来,还可以辅助罕见病的鉴别诊断。

交通领域,多模态协同推理也能更精准研判违规行为。

对于网络谣言常见的视频画面与音频播报内容不一致的手段,多模态大模型也能加以识别。

企业和组织想要借助这些全模态能力开发应用,也可以直接到紫东太初大模型开放服务平台。

简单来说,就是AI应用开发全生命周期的每一个环节所对应的服务都安排好了。

开放服务平台内置MindSpore、Pytorch等主流开源深度学习框架,提供大模型下游微调、自动学习、可视化拖拽建模、交互式代码开发等不同建模方式。主打全方位国产可控、快速切入客户场景,以及简单易用的人工智能建模和应用。

全模态大模型怎么炼成的?

说起来,全模态大模型并不是凭空出现。

2020年1月,中科院自动化所就发起集团式攻关,聚焦多模态大模型路线

2021年9月,发布首个千亿参数三模态大模型紫东太初1.0, 做到多模态统一表示,相互生成、推理。

在应用实践过程中又发现数字时代万物互联的新需求,融入3D、视频、传感信号等更多模态数据,进一步突破感知、认知和决策的交互屏障。

但全模态也不是终点。

在发布会现场,中科院自动化研究所所长徐波表示,站在更宏观的视角,全模态大模型属于信息智能的突破。

未来要通向AGI,势必还要与另两大路线“类脑智能”和“博弈智能”再次融合。

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?外面的世界中国联通图文大模型“鸿湖”首次亮相智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手大模型进入「落地战」,腾讯云下手「行业」大模型更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」ACL2023 | 中科院 针对NL2Code任务,调研了27个大模型,并指出5个重要挑战中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了(10个邀请码)神兽归笼和空巢老人理解了王传福,才能理解什么是“在一起 才是中国汽车”自动驾驶,需要多少传感器?阿里云开源「通义千问」大模型;马斯克:特斯拉有望年底实现完全自动驾驶;妙鸭相机上线 B 端工作站 | 极客早知道京东言犀大模型亮相,应用将分三步走剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型华为、赛力斯第三款合作车型亮相,会是理想L9劲敌吗?紫东太初全模态大模型来了,一个模型打通感知、认知、决策交互屏障“打不了电话、上不了网,还没信号!”中国电信广东全省突然崩了:连10000号都打不通!最新回应来了达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力四月天的Bay景,风光迤逦新旧东京浅草寺阿里云造「生态」,能让开发者实现「大模型创业自由」吗?可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl北京内推 | 中科院自动化所视频内容安全团队招聘算法研究实习生「澜码科技」完成数千万元A轮融资,打造基于大模型的企业自动化运营中台|36氪首发中科院大模型重磅更新!神经外科手术、研读交通违反规定图像都能用上从感知到理解-融合语言模型的多模态大模型研究中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报中科院出手!1000亿参数全模态大模型发布,能看懂视频、绘画作曲、分析信号中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文AFM: 高性能柔性压电传感器有难度?试试3D打印纳米复合材料吧!双林奇案录第三部之长命锁: 第二节代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。