Redian新闻
>
曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中

曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中

公众号新闻

OpenAI意图赶在谷歌推出Gemini多模态大语言模型前,发布其多模态大语言模型。
编译 |  陈佳慧
编辑 |  徐珊
智东西9月19日消息,据The Information报道,OpenAI意图赶在谷歌推出多模态大语言模型Gemini前,发布其多模态大语言模型GPT-Vision。而后,OpenAI或许会推出一个更强大的多模态大模型,代号为Gobi。
今年3月OpenAI发布的GPT-4已经融入了部分多模态功能,相较于GPT-3.5只能接受文本输入,GPT-4还可以接受图像输入,但该视觉输入性能并不开放使用。而Gobi与GPT-4不同,Gobi从一开始就是按多模态模型构建的,可以接受更多类型的信息输入并做出相应的处理。
OpenAI与谷歌将多模态功能纳入大语言模型,可以将图像、文字、音频等不同形式的数据整合起来,让大语言模型更准确、更全面地处理用户所给信息,为用户提供便利。据The Information报道,OpenAI与谷歌的多模态大语言模型之争,就像AI领域的苹果与安卓之争。这或许预示着AI大模型领域未来的发展趋势,同时也是OpenAI与谷歌抢占这项新技术的首发先机,提高用户影响力和技术引领地位的重要竞赛。

01.
Gobi VS Gemini,OpenAI与谷歌多模态大语言模型赛跑


此前有报道称,谷歌即将推出Gemini,并且已经向一小批外部公司分享了这个项目。但据知情人士透露,OpenAI正在争分夺秒地把公司最先进的GPT-4与多模态功能相结合,想要抢在谷歌之前发布Gobi。并且,OpenAI在今年3月发布GPT-4时,就对GPT-4中融入的多模态功能进行了预展示。不过,根据The Information报道,OpenAI还没有开始训练Gobi,因此现在还不知道Gobi最终能否成为GPT-5。
对于OpenAI能否在多模态大语言模型方面超越谷歌,据The Information报道,目前,谷歌拥有来自谷歌搜索引擎和YouTube等平台的文本、图像、音频、视频等专有数据,这是谷歌相较于OpenAI发展多模态大语言模型的一项特殊优势。并且一位使用过Gemini早期版本的人士说,与现有的各种大语言模型相比,Gemini产生的错误答案似乎更少。

▲OpenAI联合创始人Greg Brockman演示GPT-4中的多模态功能(来源:OpenAI官网)


02.
多模态功能肩负重任,被滥用的信息安全问题值得重视


在3月发布GPT-4预览多模态功能时,除了为盲人或低视力者开发技术的Be My Eyes公司,OpenAI没有给其它公司提供多模态功能。到现在,OpenAI才准备在更大范围内推出被称为GPT-Vision的功能。据The Information报道,OpenAI可能会在GPT-Vision之后再推出Gobi。
根据The Information报道,OpenAI之所以耗费大量时间来推出Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI的工程师们似乎想到办法来缓解这个安全问题了。
谷歌的Gemini也面临同样的问题,当谷歌被问到采取了哪些措施防止Gemini被滥用时,谷歌的一位发言人称,谷歌在7月份做出过一系列承诺,以确保对其所有产品进行负责任的AI开发。

▲谷歌的新多模态大语言模型Gemini


03.
结语:多模态大模型之争或成下个AIGC焦点


多模态功能正被不断融入大语言模型,以提高大语言模型分析的精准度。如今,因ChatGPT名声大噪的OpenAI与AI老牌公司谷歌都致力于开发多模态大语言模型,可见其或许将成为AI大模型发展的未来趋势。
据The Information报道,这场OpenAI与谷歌的竞赛类似于AI版的苹果与安卓之争,而未来Gobi与Gemini的到来,将揭示OpenAI和谷歌的竞赛结果。
多模态大模型作为当前AI大模型领域的最新进展,OpenAI与谷歌之间的多模态大模型之争不仅是科技竞争的焦点,也可能引发全球范围内关于技术应用、合作、监管和伦理等方面的重要讨论。
来源:The Information





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker多模态大模型的幻觉问题与评估马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减从感知到理解-融合语言模型的多模态大模型研究实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了理小家似爯大鱼DreamLLM:多功能多模态大型语言模型,你的DreamLLM~传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?空气炸锅版五香虎皮蛋-我家大厨的独创多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023多模态大模型能力测评:Bard 是你需要的吗?思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」马毅团队新作!微调多模态大模型会「灾难性遗忘」综述 | 多模态大模型最全综述来了!多模态大模型进展及应用 | 8月10日TF116报名多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学希腊雅典国家考古博物馆,伟大的雕塑多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完安然生态挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标中文版开源Llama 2同时有了语言、多模态大模型,完全可商用GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型智能周报|OpenAI推多模态模型,计划开发AI硬件和芯片;从亚马逊融40亿美元后,Anthropic想再从Google融20亿我喜欢的一幅画让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%苹果正式推送 iOS 17;新品发布会 3 天前,微软首席产品官离职;OpenAI 将推多模态模型|极客早知道独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟百度招聘多模态大模型实习生(内推)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。