Redian新闻
>
OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级

OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型之争,又卷起来了。

据The information爆料称,OpenAI将推出多模态模型GPT-vision。

如果消息为真,这将是OpenAI在GPT-4之后推出的最大更新。

另一边,谷歌的多模态模型进展也在最近传出,为的就是能和OpenAI抗衡。

目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。

CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。

究竟谁能更胜一筹,还得让子弹再飞一会儿。

不能让Google抢了先

我们先回到OpenAI,被爆料的多模态模型将搭载什么样的功能呢?

首先是图像内容识别,比如根据手绘草图生成网页代码、输出可视化图表的文本分析等。

另一方面则是图像生成,通过简单的文本生成绘画、logo或表情包。

虽然OpenAI没有对这次的爆料做出回应,但做多模态模型这件事本身只是个时间问题。

3月份,OpenAI在发布GPT-4时,就曾推出了一个多模态GPT的预览版本。

当时,OpenAI把DEMO提供给了研究帮助视障群体的机构Be My Eyes。

除了这家机构之外,就再也没有人见过OpenAI的多模态模型是什么样子了。

在此之后,这个多模态模型更是杳无音讯。

唯一和图像有点关系的,就是GPT-4的升级版代码解释器(后改名为高级数据分析)可以处理一些图片任务。

但这是通过调用Python库实现的,而且也达不到AI中图像识别的程度,和多模态模型更是不沾边了。

有说法称GPT-vision迟迟没有推出的原因可能是对安全的担忧,担心被用于破解验证码和人脸识别系统。

直到这次Google多模态模型Gemini的消息传出。

安全问题有没有解决不得而知,但也许OpenAI是真的急了,不能任由谷歌超越,才有了模型发布的传闻。

另据爆料,OpenAI还在准备从头开始开发一个名为Gobi的多模态模型,不过训练还未开始。

那么,谷歌这边的情况又是怎样的呢?

Gemini来势汹汹

来势汹汹的Gemini,让网友直言其或将成为游戏规则的改变者。

甚至有媒体夸张一些地说将有机会取代GPT-4。

Gemini主要由谷歌DeepMind团队开发。谷歌CEO皮查伊介绍,Gemini集成了多种技术,支持同时输出文本和图像,还可以使用工具和API。

据悉,Gemini吸取了很多来自AlphaGo的经验教训,包括强化学习和树搜索技术。

而且,凭借着拥有YouTube这一得天独厚的优势,海量的训练数据可以说是唾手可得。

实际上,Google也一直把OpenAI视为竞争对手。

为了和ChatGPT较量,Google此前已经在Bard中加入过图像识别功能,但并未改变ChatGPT的地位。

但这次推出的Gemini,OpenAI也感到害怕了。

尽管竞争激烈,有一点倒是让谷歌和OpenAI不谋而合。

那就是,把模型的能力变成真金白银。

谷歌计划的Gemini提供方式是通过其Google Cloud Vertex AI云服务平台进行,预期价格为每个用户每月30美元。

这一做法预计将成为谷歌新的收入来源,尤其是针对企业客户。

而OpenAI这边,也已经开始通过金融服务等各种应用程序将GPT-4变为现金。

此次多模态的角逐究竟鹿死谁手,我们拭目以待。

参考链接:
[1]https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm
[2]https://www.bigtechwire.com/2023/09/18/openai-is-ready-to-take-on-googles-gemini-with-gpt-vision/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马斯克获得AI.com域名;OpenAI已提交GPT-5商标申请;阿里、腾讯、吉利等公司最新大模型动态|AIGC周观察第十三期北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用白狮吊孝从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统悼肖榕:凤凰枝头他乡歌挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!智能周报|OpenAI推多模态模型,计划开发AI硬件和芯片;从亚马逊融40亿美元后,Anthropic想再从Google融20亿GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日有了GPT-4之后,机器人把转笔、盘核桃都学会了AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队看电视连续剧《梦中的那片海》重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源人生是一场修行UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源从Agent到多模态,大模型想要什么?头显大升级,接入大模型,扎克伯格要脚踢苹果拳打OpenAI!GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源高达2万亿参数,远超GPT-4!亚马逊全新Olympus大模型曝光,即将对外公布《黄浦江》 —— 第9章 王公门庭(4)时间的湾 1吉利将推自研大模型;OpenAI提交GPT-5商标申请;谷歌助手拟引入大模型丨AIGC大事日报报告丨这份AI研究报告,快速搞清楚ChatGPT、Gen-AI、大模型、多模态...清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中单卡对标A100!讯飞华为发布大模型一体机,星火升级代码多模态能力,现场几分钟实现凌空手写国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型GPT turbo 看了没?!这真是大批失业人员在路上。OpenAI史诗级更新:人人都可定制GPT,GPT商店上线,模型价格打骨折MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。