Redian新闻
>
GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!

GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。

随着今年秋天的临近,谷歌和OpenAI的多模态模型之战,也进入到白热化阶段。

就在上周,谷歌已经对一些外部公司开放了多模态大模型Gemini的功能。

而OpenAI,当然不会坐以待毙。他们正在争分夺秒地把多模态功能整合进GPT-4里,争取推出功能与Gemini类似的多模态大模型,一举击杀谷歌。

传说中的多模态功能,在今年3月OpenAI那场震惊全世界的GPT-4发布会上,已经被展示过——

在纸上画个草图,拍个照发给GPT-4,说一声「给我按照这种布局做个网站」,它立马就写出了网页代码。

老板Greg Brockman亲自上线演示

不过随后,多模态仿佛昙花一现,再也没人见过产品化的实体功能。

所以,谷歌和OpenAI的多模态大战,终于要来了吗?

对战谷歌,OpenAI抢发多模态大模型


面对传闻中谷歌要击杀自己的这款大杀器,OpenAI当然不会无动于衷。

据外媒The Information爆料,一款名为Gobi的全新多模态大模型,已经在紧锣密鼓地筹备了。

OpenAI计划,在Gemini发布之前就推出多模态LLM,彻底击败谷歌。

OpenAI的Greg Brockman vs 谷歌的Demis Hassabis

其实,在3月份推出GPT-4多模态功能的预览后,OpenAI已经向一家名为Be My Eyes的公司推出了这项功能,但并没有向其他公司提供。

从名字就可以看出来,这家公司在研发让盲人或视力不佳人群看得更清楚的技术。

最近,OpenAI打算更广泛地推出名为GPT-Vision的功能。

OpenAI为什么花了这么长时间?

最主要的原因,是他们担心新的视觉功能会被不法分子利用,比如通过自动破解验证码来冒充人类,或者通过面部识别来追踪人类。

不过,对于这些法律上的安全风险,OpenAI的工程师们似乎已经解决了。

同样,一位谷歌发言人也表示:谷歌已经采取了一些措施,防止Gemini被滥用。

在7月做出的承诺中,谷歌保证会在所有产品中开发负责任的人工智能。

Gobi能成为GPT-5吗?


在GPT-Vision之后,OpenAI有可能会推出更强大的多模态大模型,代号为Gobi。

跟GPT-4不同,Gobi从一开始就是按多模态模型构建的。

所以,Gobi就是传说中的GPT-5吗?

现在,我们还无法知晓。Gobi训练到哪一步了,也没有确切消息。

在9月初,DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman,在采访时曾放出一枚重磅炸弹——据他猜测,OpenAI正在秘密训练GPT-5。

Suleyman认为,Sam Altman最近说过他们没有训练 GPT-5,可能没有说实话。(原话是:Come on. I don’t know. I think it’s better that we’re all just straight about it.)

而在这边,根据试用过Gemini的人士,Gemini产生的幻觉,会比现有的模型都更少。原因详见下文。

总之,谷歌和OpenAI的这场多模态模型大战,可以说是AI版的iPhone和Android对决。

一个是称霸AI领域多年的硅谷巨头,一个是风头无两的顶流AI初创公司,二者差距有多大,所有人都在屏息等待。

谷歌秘密测试Gemini


另一边,谷歌也在开始邀请部分外部开发者加急测试,即将推出的下一代多模态大模型Gemini 。

上周,The Information独家报道称,Gemini可能很快准备好进行测试发布,并会集成到像Google Cloud Vertex AI等服务中。

在今年的谷歌I/O开发者大会上,劈柴曾公开介绍Gemini,是一个多模态模型、高效集成工具、API。

为了合力干大事,谷歌还将谷歌大脑,与DeepMind实验室进行了合并。

据称,至少有20多位高管参与了Gemini的研发,DeepMind的创始人Demis Hassabis领导,谷歌创始人Sergey Brin参与研发。

还有谷歌DeepMind组成的数百名员工,其中包括前谷歌大脑主管Jeff Dean等等。

一位测试过的人士说,Gemini至少在一个方面比GPT-4有优势:除了网络上的公开信息外,该模型还利用了大量谷歌消费产品(搜索、Youtube)的专有数据。

因此,Gemini在理解用户对特定查询的意图时应该特别准确,而且它产生的错误答案,即幻觉,似乎更少。

据此前SemiAnalysis分析师的爆料,谷歌的下一代大模型Gemini,已经开始在新的TPUv5 Pod上进行训练,算力高达~1e26 FLOPS,比训练GPT-4的算力还要大5倍。

另外,Gemini的训练数据库包含Youtube上936亿分钟的视频字幕,总数据集规模约为GPT-4的两倍。

据称,谷歌下一代大模型也是由多种规模组成,可能使用了MoE架构,以及投机采样技术。

通过小模型提前生成token并传递给大模型进行评估,以提高模型的总体推理速度。

谷歌DeepMind的负责人Hassabis在采访中曾表示,Gemini预计花费数千万到数亿美元,与开发GPT-4的成本相当。

Gemini会整合AlphaGo中使用的技术,这将赋予系统全新的规划、解决问题的能力。


可以这么说,Gemini把AlphaGo系统的一些优势,和大语言模型惊人的语言能力结合在一起了。并且,我们还有一些其他有趣的创新。

AlphaGo背后的技术,就是强化学习,这是DeepMind首创的技术。

RL代理随着时间的推移与环境交互,通过反复试验来学习策略,从而最大限度地提高长期累积奖励

通过强化学习,AI能够通过反复尝试和接受反馈来调整自己的表现,因而学会处理很棘手的问题,比如在围棋或电子游戏中选择如何采取下一步行动。

另外,AlphaGo还使用了蒙特卡洛树搜索(MCTS)方法,来探索和记住棋盘上所有可能的动作。

现有模型相比,Gemini将大大提高软件开发人员的代码生成能力,谷歌希望用它来追赶微软的GitHub Copilot代码助手。

谷歌内部还讨论了,使用Gemini来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。

谷歌云开发者平台Google Cloud Vertex AI也将得到Gemini加持,大小版本都有,这样开发人员就可以付费购买小模型在个人设备上运行。

现在,谷歌已经在全力备战,就等着Gemini开启逆袭之路。

gpt-3.5-turbo-instruct发布


7月,OpenAI曾公布GPT-4 API全面可用,并且在接下来几个月要推出新模型。

这不,就在今天,网友纷纷收到了gpt-3.5-turbo-instruct新模型发布的邮件,以代替旧模型text-davinci-003。

据介绍,gpt-3.5-turbo-instruct是一个InstructGPT风格的模型,其训练方式与text-davinci-003类似。

使用方法和以前的Prompt-Completion类似,根据提示词的指令补全。

就价格来说,gpt-3.5-turbo 4K保持一致。

有网友已经开始用上了最新模型,去玩1800 Elo左右的国际象棋。

而他此前还发现GPT根本做不到这一点,但现在看来这只是RLHF聊天模型的问题,纯Completion模型就成功了。

在对弈中,gpt-3.5-turbo-instruct轻松击败了Stockfish 4级(1700 分),在5级(2000 分)的比赛中仍不落下风。

它从不走非法棋步,使用巧妙的开局牺牲,以及令人难以置信的卒与王将死,允许对手毫无实际意义地晋级。

网友用的是如下PGN风格的提示来模拟大师级游戏。高亮显示有点错误。GPT自己走棋,他手动输入了Stockfish的棋步。

顺便提一句,OpenAI即将在11月召开的首届开发者大会,已经开始注册了,快上手申请吧。


参考资料:
https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
https://devday.openai.com/
https://news.ycombinator.com/item?id=37558911#:~:text=Key%20Features%3A%20Gpt%2D3.5%2D,speed%20as%20our%20turbo%20models.





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Altman首次自曝GPT-5加急训练中!暗示比GPT-4更复杂,无法预测真实能力DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍综述 | 多模态大模型最全综述来了!时间的湾 1为什么中国女人比男人更亮眼?OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级在美国三十年的日子。。。从感知到理解-融合语言模型的多模态大模型研究多模态大模型能力测评:Bard 是你需要的吗?AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完同事趣事独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中GPT-5明年降临?爆料人泄露多模态Gobi就是GPT-5,已初现自我意识实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源多模态大模型进展及应用 | 8月10日TF116报名侵吞全球算力!谷歌Gemini被曝算力达GPT-4五倍,手握TPU王牌碾压OpenAI恭喜客人一周内拿到新护照!需要加急更新护照吗?需要加急公证认证吗?想加急找美之信旅游!智能周报|OpenAI推多模态模型,计划开发AI硬件和芯片;从亚马逊融40亿美元后,Anthropic想再从Google融20亿幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerGPT turbo 看了没?!这真是大批失业人员在路上。中文版开源Llama 2同时有了语言、多模态大模型,完全可商用多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标列宁主义救中国 (第五章摘要)ChatGPT网页版出现重大Bug;传谷歌Gemini推迟至明年发;荣耀将推自研端侧大模型丨AIGC大事日报UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报《芙蓉国里尽朝晖》&《那年时光》多模态大模型的幻觉问题与评估MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。