Redian新闻
>
端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?

公众号新闻

整理 | 傅宇琪

根据一张图片,能完成什么任务?

想吃菠萝了?迅速跳转 Instacart 商城界面,各种菠萝任君挑选。

想给家里添置一台吸尘器?没问题,立马来到 Amazon。
想了解路过大桥的历史?好的,Google 搜索给你想要的答案。
想发个邮件?OK,识别图片大意,填写收件人、标题、正文,发送!
想重新装修下客厅?Done!

上述功能都来自 Nexa AI 团队近日推出的 OctopusV3。据介绍,OctopusV3 流利掌握英语和中文,能够熟练破译文本和图像任务目标,并实现功能调用,制定复杂的动作序列、生成可执行代码,安卓和 IOS 系统都可用。

值得注意的是,OctopusV3 参数量不到 10 亿,但拥有可媲美 GPT-4V 和 GPT-4 组合起来的性能。由此,Nexa AI 称其为“一个体积最小、性能最强大的多模态 On-Device AI 模型”。

据悉,Nexa AI 成立于 2023 年,是一家致力于研究端侧 AI 代理的初创公司。它的创始人兼 CEO Wei Chen、联合创始人兼 CTO Zhiyuan Li 分别是斯坦福大学的博士和硕士,斯坦福大学副教授 Charles (Chuck) Eesley 担任该公司顾问。

OctopusV3 是如何做到的?

根据论文,OctopusV3 开发中最关键的两点是整合图像、文本输入以及优化模型预测行动的能力。为此, Nexa AI 主要采用了视觉信息编码、功能标记、多阶段训练技术。

在图像处理中,有许多方法可以对视觉信息进行编码,其中常用的是来自隐藏层的嵌入、图像标记化等。团队研究评估各种图像编码技术后,决定采用 CLIP 模型的方法。

与应用于自然语言和图像的标记化一样,特定的功能也可以封装到 token 中。Nexa AI 为这些标记引入了一种训练策略,用于管理未见术语。这种方法类似于 word2vec 方案,即通过上下文环境来丰富标记的含义。

例如,高级语言模型最初可能很难处理 PEGylation 和 Endosomal Escape 等复杂的化学术语。然而,这些模型能够通过因果语言建模获得这些术语,尤其是在包含这些术语的数据集上进行训练时。同样,模型也可以使用并行策略来获取功能性标记。Nexa AI 的研究表明,定义功能标记的潜力是无限的,因此可以标记任何特定功能。

OctopusV3 采用了一种将因果语言模型与图像编码器整合在一起的模型架构,这种迭代训练方法增强了模型有效处理和整合多模态信息的能力。

该模型的训练过程分为多个阶段。首先,团队分别对因果语言模型和图像编码器进行训练,以建立基础基准模型;随后合并这些组件,并对模型进行对齐训练,以同步图像和文本处理能力;之后,训练采用在上一个版本 OctopusV2 框架中应用的方法,促进新版本功能标记的学习。在训练的最后阶段,这些能够与环境互动的功能标记提供反馈,用于进一步完善和优化模型。

除了上文提到的简单应用,Octopus V3 还可以针对特定领域,量身定制出高度专业化的 AI 代理。如此,在医疗保健、金融和客户服务等行业中,用人工智能驱动的解决方案显著提高效率和用户体验。

未来,Nexa AI 还会逐步开发出可容纳音频、视频等其他数据模式的训练框架。此外,他们发现视觉输入可能会带来相当大的延迟,因此正在优化推理速度。

Nexa AI 还提到:“希望这个模型可以对自动驾驶和机器人领域产生帮助,也能够在终端设备上开启无限可能。期待有更多的开发者参与使用这个框架,能看到大家的创意和应用。”

参考链接:

https://arxiv.org/pdf/2404.11459.pdf

https://www.nexa4ai.com/

 内容推荐

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI 前线」公众号,回复「开发者洞察」领取。

 活动推荐

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可扫码海报二维码查看更多详情。


今天是会议 9 折购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

今日荐文


逃离 Windows!德国又宣布迁移到 Linux,涉及数万系统、3 万余人,官员吐苦水:Windows 对硬件要求太高了


总市值近45亿港币,AIGC第一股出门问问流血上市!首日破发开跌超21%


三大模型联手爆改《流浪地球》结局!如果你是刘培强,你是认命还是怀抱希望?|AI 测评室


微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试


刘强东AI数字人首播,30分钟观看破千万;雷军回应爽文人生:不是高考状元、没有40亿;特斯拉大裁员:员工对赔偿满意|AI周报

你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo超越Llama-2!微软新作Phi-3:手机上能跑的语言模型微软来大招:手机部署堪比GPT3.5高性能大模型!小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5周末随笔 —骨裂,春晚,元宵,汤圆,米球,粉条,米粉面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!北京姑娘京花正传国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 TurboGPTOpenAI CEO 谈 GPT-5/小米:手机今年要突破 6000 到 1 万元价格段/蔚来新手机进入制造阶段【七絕】勸學参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型阿里云重磅发布开源模型Qwen2,性能超Llama3-70及国内众多闭源模型OpenAI再压谷歌一头,最强模型GPT-4o免费发布,语言对话媲美人类反应张坤最新季报发布:他的组合在“休整”,他的思考在“狂奔”我是这样看人工智能生成图像的OpenAI震撼发布GPT-4o:打造全能AI助理,将向所有用户免费提供 | 环球科学要闻超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源端侧 AI 新篇章!商汤科技发布「速度最快」的端侧模型OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准iPhone就能跑!微软推出轻量级模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未来在手机端?国产端侧小模型超越 GPT-4V,「多模态」能力飞升个人感慨之108 一胎化政策小模型时代来了?微软最小参数AI模型发布,性能逼近 GPT-3.5安谋科技杨磊:抢占端侧大模型部署制高点,NPU将为端侧提供关键动力丨GenAICon 2024《庆余年2》爆火,张若昀、李沁打电话“催看”!口碑两极分化,开播首日开启SVIP,网友吐槽:以后是不是要整个SVIP plus[干货] “海马”英文 hippocampus,为啥是 hippo(河马)和 campus(校园)的组合?开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。