Redian新闻
>
性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型

性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】Inflection-2最新发布!性能碾压一众大厂模型,仅输一手GPT-4,还要集成到Pi?

最近,InflectionAI发布了全新的一款AI模型。

更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。

到底是什么样的表现让InflectionAI能夸下如此海口呢?

在介绍具体的模型性能以前,我们先来看看它的基本信息。

这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large 2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.

这么来看,InflectionAI确实可以有这个自信。

公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。

InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,「我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。」

集成到Pi?


除了新模型的发布,还有另外一个重磅信息。

相关人员表示,新发布的模型将很快集成到Inflection于5月份发布的聊天机器人Pi中。

CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即「对齐」,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。

「无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。」

Suleyman表示,不会太久。但是具体发布日期却没有明说。

同时,他也不愿意提供聊天机器人Pi的最新用户数量,但表示Pi非常受欢迎,用户留存率相当高。

要知道,两周前,OpenAI曾经披露其免费的ChatGPT服务的周用户数量已达到1亿。

当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。

不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。

相比LLM业内也会因为Inflection-2的发布继续出现动荡的局面。

此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。

不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。

性能吊打一众模型,只输GPT-4


了训练Inflection-2,Inflection AI使用了5000个英伟达H100图形处理器(GPU),要知道,训练Inflection-2的前身模型,使用的是几千个相对比较旧的A100图形处理器。

Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。

InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。

Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。

下图即为Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之间的性能对比。

我们可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六项基准上,Inflection-2都拔得了头筹。

Suleyman表示,Inflection-2的性能已经超过了最大的700亿参数版本的LLaMA 2、马斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能仅次于GPT-4。

报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA 2和PaLM 2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM 2 Large。

此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。

不过,在OpenAI已分享结果的两项基准测试中,它的成绩远远落后于GPT-4。

Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。

总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。

从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。

相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。

一句话说明,就是InflectionAI的人有自信,在12个月内,让模型规模翻个一百倍。

个人助理「Pi」


对于不熟悉的朋友,咱们还是掉过头来再讲讲InflectionAI的个人助理「Pi」。

咱们可以这么说,CEO Suleyman的认知里,这一切都是很自洽的。

曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。

而Suleyman之所以有这样的论断,也许和他自己的经历有关:

1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。

后来他被牛津大学录取,学习哲学和神学,但一年后就退学了。

这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。

他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。

这个个人助理,就是「Pi」。

而这一切也是有理论基础的。

心理学还真有这个研究:聊天机器人相比人类有着更高的情感认知。

测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。

情绪描述越详细、越容易理解,情绪意识水平量表(LEAS)得分越高。

研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n = 750)中进行的研究进行了比较。

在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。

很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。

可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。

那么,Suleyman创立的Inflection AI推出的个人助理「Pi」已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。

我们可以看到,Pi的登录界面还是非常简洁的。

进入到Pi的聊天页面,点击左下角的田字格,可以看到官方为用户准备的几个常用场景。

每个场景相当于一个定制化指令,选择一个之后,就会自动给聊天机器人设定一个工作环境。

聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了「motive myself」之后,系统会提示我要如何开始聊天。

总而言之,「Pi」寄托了Suleyman的美好愿望。

而有了新模型Inflection-2的加持,相信「Pi」会迸发出更加不一样的火花。

说不定,真能充当心理咨询的角色呢。

参考资料:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTA智谱AI推出新一代基座模型GLM-4,发起大模型开源基金夏婳:两情难相知(二十一)ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题我对零元购较为全面的看法2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报ChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4短波无线电收音机的故事腾讯混元大模型落地QQ浏览器;DeepMind去年利润大跌40%;OPPO新小布AI助手公测丨AIGC大事日报智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上AMD最强生成式AI核弹发布!跑大模型性能超H100,预告下一代AI PC处理器6023 血壮山河之随枣会战 第三章 2DeepMind大模型登Science:1分钟预测10天天气数据,90%指标超越人类最强模型谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!红色日记 读鲁迅 4.1-10谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。