Redian新闻
>
看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

科技
机器之心原创
作者:吴昕

今年升级的重点在于引入了多模态大模型能力。

当 Sora 和 Suno 所创造的视频和音乐作品在全球范围内引起视听革命时,工业领域的大规模多模态应用又将如何演进?3 月 27 日,作为中国领先的「AI+制造」解决方案提供商,创新奇智揭开了他们的前瞻性答案。


经过半年努力,创新奇智在北京举办的发布会上发布了更为强大的奇智孔明工业大模型 2.0 版本( AInno-75B ),几款大模型原生应用也首次亮相,包括 ChatVision 、ChatCAD,ChatRobot 也升级到 Pro 版本 。


创新奇智 CTO 张发恩在发布会上

Scaling laws 的发现有助于研究人员和工程师们预测增加模型规模所带来的性能收益,以及为了达到特定性能目标需要的参数数量。如今业界已经形成一些共识,参数的提升可以让模型性能提升。较之 AInno-15B ,AInno-75B 在规模和性能方面取得了显著增长。


今年升级的重点在于引入了多模态大模型能力。张发恩解释说,这个进阶的大模型能够处理包括文本、图片、视频在内的多种信息模态,甚至能够融合工业场景中特有的数据类型,比如 CAD 图纸和 EEG 信号。它的输出同样多样,能够生成文本、图像、视频、CAD 设计图或者具体操作行为。


一、ChatCAD: 工业“文生图”之美


C端AIGC应用生成的图片、视频作品令人叹为观止,而在企业服务领域,AI生成能力同样精彩。


工业设计是生产活动的基石,从手机到新能源汽车工厂,生产建造前都须完成工业设计。CAD软件作为工业设计之本,在产业链上游占据重要地位。长期以来,我国传统CAD软件市场被国外厂商把持,界面复杂、使用门槛高。


中国中元国际机械工程有限公司经营总负责人王先透露,他们的设计工作大多依赖人工。一个单体建筑,无论是标准层还是综合体都需要设计师一笔一笔绘制,工业图纸亦是如此,耗费大量人力物力。此外,行业规范众多且修订频繁,进一步加大了设计难度。

为打破这一局面,创新奇智率先将工业大模型技术引入工业设计领域,推出Text-to-CAD类应用—“ChatCAD”:通过简单的对话问答形式,便能迅速理解设计师的创意意图,自动生成符合要求的工业设计图,并支持导出到传统软件进行微调。


输入 “帮我设计一个工业滑轮,参数如下:滑轮半径为6,厚度为5,滑轮边缘向外突出0.8,突出部分厚度为0.5,滑轮中心轴高度为5,半径为4” 。ChatCAD 立刻生成作品,并根据反馈不断优化设计。


现场演示工业滑轮设计

即使面对冗长复杂的部件设计需求,ChatCAD也能应对。例如,帮我设计一个涡轮机,涡轮由电机、引擎罩组成,具体要求如下:电机为圆柱形,长20,直径16。涡轮由一个圆柱涡轮轴和5片扇叶组成,涡轮轴长20,直径12,涡轮顶部要有圆柱形圆锥旋转轴,轴帽长度为9,直径12,引擎罩直径50,长度30,涡轮扇叶与引擎罩之间的间隔为1。” 


ChatCAD 依然可以生成结果,并根据反馈持续完善。ChatCAD生成的设计还支持主流文件格式,可无缝对接其他工业软件,方便后续集成修改。

现场演示涡轮机设计


这一功能令王先倍感振奋。他认为,ChatCAD 有望帮助行业减少重复性劳动,规避硬性规范限制,进而影响整个行业的人工报价。


那么,ChatCAD 是如何实现的?张发恩解释道,CAD 有别于文本、图片、视频等常见模态,它需要表示点、线、边、圆、柱、工艺等几何数据。“所以我们也叫做一种模态,是 C 端不具备的一种模态。我们要发明自己表达 CAD  的中间语言,大模型生成这种中间语言或者中间码,再把这些中间码翻译成 CAD 。”


官方发布的ChatCAD DEMO

张发恩坦言,目前 ChatCAD 生成的简单图纸可直接用于加工,但复杂设计仍需完善。ChatCAD 的目标是成为设计院工程师的得力助手。它有望将原本耗时十小时的设计流程缩短至一小时,大模型负责完成 90% 的工作,剩余 10% 由人工优化。


值得一提的是,创新奇智已成功将先进的大模型技术深度融入 CAD 、MES 、BI 等多种工业软件,实现了对"研发设计-生产控制-信息管理"全流程的智能化改造与升级。


二、ChatVision :工业安全监管新利器


工厂生产安全与合规至关重要,视频监控和图像分析不可或缺。以板卡厂波峰焊为例,工人清理 280 度高温锡炉时,若未严格佩戴安全防护装备,如气密式活性炭口罩、高温防护手套等,存在严重烫伤风险。


传统监控方式效率低下,容易遗漏隐患,事后检查滞后明显。ChatVision 基于 Alnno-75B 工业大模型,可通过自然语言实时分析监控视频流、视频文件和图片,精准识别不合规行为,并立即触发报警系统(比如自动发送邮件给管理员),助力工业企业安全生产。


发布会现场演示中,ChatVision 准确响应"仔细观察当前画面,告诉我这可能是个什么地方"等综合理解指令,以及"找出画面中的电源插座"、"找出白色的安全帽"等具体目标识别任务,展现了其广阔应用前景。


现场演示中,ChatVision找出画面中的电源插座"、"找出白色的安全帽"等具体目标。

这些指令看似很简单,没有大模型的情况下需要针对每个细小的识别类别(比如安全帽、吸烟)开发具体算法,调试部署后难以修改,落地成本高、周期长。大模型的出现颠覆了传统范式,单个大模型可覆盖多个小模型的功能,在性能、准确率、泛化能力等方面全面超越,并支持自然语言交互,大大简化了开发部署流程。


现场演示中,画面发生变化:一位同事摘下工帽玩手机,另一位同事脱下安全衣。演示人员下达指令:"请仔细分析这个画面,如果有违规,发邮件给管理员"。


这条指令知识密度很高,不仅涉及违规判断,还需决定是否触发邮件发送以及收件人。正是大模型原生应用的典型服务模式。结果,ChatVision 调用了后台很多安全监测技能做了识别,不仅标出来三项违规之处,还发送了邮件,附带截图。

官方发布的ChatVision DEMO 中有清楚演示

ChatVision 演示充分体现了工业大模型的规划和推理能力。它可以将用户意图转化为一系列外部工具调用,有条不紊地完成复杂视频理解任务。


创新奇智 CTO 张发恩表示,过去几年公司积累了 200 多项视觉算法和模型资产,而工业大模型为这些资产的应用开辟了新天地。大模型不仅可以充当智能编排者,优化用户体验,其多模态能力还能强化视频理解,在企业安全领域大显身手。


最后一个演示案例凸显了大模型在多模态领域的前沿应用。面对一段真实车间视频,演示人员提出高难度需求:"请仔细分析这个视频,告诉我是否有人吃饭并标识这个动作发生的时间"。该任务需要大模型对长时间序列画面进行连续动作识别,并标注动作起止时间。结果, ChatVision 准确定位到视频开头 15 秒内出现工人吃饭的情况。


"吃饭是很常见的事件,大模型对事件的理解能力远胜传统小算法模型。"张发恩解释道。长期以来,通过视频保障生产和工程安全的需求十分迫切。未来,围绕大模型开展相关工作,将有望实现生产安全状况、生产过程合规性的智能视频理解。


在王先看来,安全始终是工程项目的头等大事。多年来,工程安全培训很少涉及现场隐患排查。他认为 ChatVision 的应用前景广阔,现场安全头盔检测、高空安全绳佩戴、安全器具携带等场景都可望落地。ChatVision 在监理行业也大有可为,目前许多现场安全巡检仍高度依赖人力。


三、ChatRobot Pro :“运动想像识别”


AInno-15B 的原生应用 ChatRobot 已经实现语音控制工业机器人。直接告诉ChatRobot “给我来一杯咖啡”,它就可以指挥工业机械臂在货架上寻找咖啡,自行设计路线把货物送到你手上。ChatRobot Pro 能处理更复杂的信息载体脑电信号。

发布会上,演示人员随机选择了一种商品(统一绿茶),让一位头皮上固定了多个电极的人用运动想像控制工业机器人将饮料交到其手中。这位头戴采集器的人努力想着三件事:向左、向右,选中,光标根据大模型翻译出来的信号也在屏幕上左右移动。当光标移到目标图标时,他会盯着这个图标不动,光标点击选中。

接下来,ChatRobot Pro 会自主完成任务的智能编排,生成可执行任务步骤,并与
工业机器人接口实时交互,指示机器人完成任务。

脑电信号是大脑活动时产生的信号,大脑活动和脑电信号之间的关系非常复杂,如何解码成为困扰研究者的一大难题。传统做法的准确率低,AInno-75B 展现出解读这类多模态信息的潜力。国外一些脑机接口技术使用侵入式电极获得脑电信号,它涉及到电极设计、手术植入、排异反应、信号传输、信号解码等一系列工程问题。创新奇智使用非侵入式脑电帽收集脑电信息,在工程难度上大大降低。


不过,张发恩也表示,侵入式可以获得更多通道和更清晰的脑电信号,为后续解码更复杂大脑意图带来方便。一个形象的比喻是:侵入式采集脑电信号就像在体育馆内部听演唱会,非侵入式则像在体育馆外听演唱会,歌声的清晰度会有很大的区别。当前,创新奇智在做的研发工作,是验证工业大模型的多模态能力,为未来可能的脑控工业自动化场景进行技术预研。


这也是一个端到端的原生应用,张发恩强调。从脑电信号输入到直接输出最终结果(机械臂将货物递给演示人员)的整个流程都由神经网络来完成,而不依赖于手工设计的特征或传统的数据处理。


除了自然语言交互和运动想像识别,ChatRobot Pro 也充分利用了工业大模型推理能力,实现了长序列任务编排和复杂决策驱动。赋予不同具身(无论是工业机械臂还是 AGV 等)强大的智能操控和决策能力,也会是创新奇智工业大模型未来努力的方向。


四、继续进化,笃行向前


生成式AI时代,工业应用尚无先例可循,创新奇智一直在探索工业场景下的种种可能。


大模型在企业服务方向上的前景,张发恩称之为 “Promising”。但他坦言,技术变革的窗口期,大家的认知往往参差不齐,尤其是比较大的变革,人的认知需要时间跟进,自己也不例外。


了新增的原生应用,去年发布的 ChatDOC 整体性能和效果都有提升,产品功能更加完善。ChatBI 新增支持 Excel 和 CSV 数据,现在生成 SQL 语句和分析报告的准确率提升 15%。大模型服务引擎部署起来更容易,推理性能更高。


“创新奇智会进一步将直接基于工业大模型核心生成能力搭建的 ChatX 应用打磨好。”张发恩说。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
爆火的多模态微信交流群成立!北大等提出MoE-LLaVA:将多模态大模型稀疏化CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法【七絕】趕集CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型旷视实战大模型:把多模态扎进行业冬雨周末知名学者与顶级投资人领衔!视频、3D、音乐生成玩家都来了,中国生成式AI大会嘉宾阵容更新,4月开启!北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生出版一本书ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuserAI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-MedCVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度上海AI Lab开源首个可替代GPT-4V的多模态大模型AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?吕洪来:中共政权垮台后,需要“国际共管”来度过社会转型期今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端AgentICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7BGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评《希望》&《遇见》(陕西话版)北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。