Redian新闻
>
网传Llama 3比肩GPT-4?别闹了

网传Llama 3比肩GPT-4?别闹了

科技

夕小瑶科技说 原创
作者 | 夕小瑶编辑部
相信大家近期都被Llama 3刷屏了。Llama 3的预训练数据达到了15万亿,是Llama 2的7倍;微调数据用了100万条人工标注数据,是Llama 2的10倍。

足以看出Meta训练Llama 3 是下了大血本的。开源社区拥抱Llama3也是空前热烈,发布才4天Hugging Face上已经出现了1000多个Llama 3的变体,现在也就不到一周,数字已经飙升到了3600多个了。

与此同时,网络上的声音也多了起来:

有讽刺说国内马上遍地自研GPT-4的;有被Llama 3 一秒800 tokens的生成速度惊到的;

但还有一大波人在狂吹Llama 3达到了GPT-4级别。最近刷到的这类文章数不胜数,知乎上随手一搜:

Llama 3的发布,虽然意义非凡。但是近期相当多的大小媒体在未经评测的情况下就开始“造神“了。

不可否认的是Llama 3 70B确实是开源线的里程碑,表现惊艳。但笔者用了一段时间后,对其比肩GPT-4这个结论存疑。

就在几天前,笔者终于等来了清华大学SuperBench团队的新一轮全球大模型评测结果。而且SuperBench团队不负众望,在这次评测中加测了Llama 3-8b 和Llama 3-70b两个模型,率先发布了 Llama 3的最全的评测成绩。

SuperBench是由清华大学牵头发布的大模型综合能力评测平台,集齐了语义、对齐、代码、安全和智能体5大评测基准,相比国外主流榜单,SuperBench以中文能力评价为主,对国人的现实参考意义可能比国外学术界的主流榜单都要大。

我们来一起看下这一轮的测评结果:

1.大模型语义理解能力

2.大模型智能体能力

3.大模型代码能力

4.大模型人类对齐能力

5.大模型安全与价值观表现

在语义理解能力评测中,Claude-3第一, GLM-4和文心一言4.0分别位列第二名、第三名,超过了GPT-4,Llama 3-70B位列第六名。

代码能力测评中,依旧是GPT-4最厉害,然后是Claude 3 、GLM-4、文心一言4.0,Llama 3-70B的表现相对这些国内外的主流闭源还是弱一些。

不过在智能体评测中,Llama 3-70B跻身第五名,也是5项评测中成绩最好的,仅此于GPT-4、Claude 3 和国产大模型GLM-4。

从以上数据可以看到,开源的Llama 3 70B模型还是谈不上比肩GPT-4和 Claude 3的。

当然,Llama 3 400B的版本我们还没见到,400B的版本能不能真的比肩GPT-4,得等放出来再说了。

在看Llama 3评测结果的时候,笔者倒是无意间发现了一个信息:

智谱AI 的GLM-4和百度的文心一言4.0在5项评测中,基本一直在前5名,Llama-3-70b在五项评测中超过了大多数国内模型,只落败GLM-4和文心一言4.0。来自智谱AI的GLM-4和来自百度的文心一言4.0经常出现在榜单前列。

其中,智谱GLM-4甚至在各项评测中均超越了Llama 3,各个评测维度表现亮眼。

要知道,一年前的国产大模型还在追赶GPT3.5,如今真要说哪个模型“比肩”或“接近”GPT-4的话,吹GLM-4和文心一言4.0可比吹Llama 3靠谱多了。

笔者也是一个狂热+资深的大模型测评爱好者,自身的使用体验与SuperBench的评测结论还是有高度一致的。

这里借机讲一讲智谱GLM-4。

对笔者来说,GLM-4确实是真正用下来为数不多的靠谱国产大模型之一,从实际使用体验上,说其数一数二还是非常扎实的。这个现象其实跟这个公司的基因有很大关系。

智谱AI成立于2019年,是清华大学计算机系知识工程实验室的技术成果转化而来的创业公司,也是国内最早研究大模型底层技术的明星科研团队之一。一言以蔽之,学术&技术基因非常深厚。尽管如今智谱AI已经成为一家商业公司,但其在学术研究上的投入和贡献依旧不容小视。

近期一篇让笔者印象深刻的论文就是智谱团队发表的——“Understanding Emergent Abilities of Language Models from the Loss Perspective“。

这篇论文得出了一个非常刷新认知的结论——以OpenAI为主导的“Scaling Law引发大模型能力涌现”的结论可能是错的。

本文通过严谨的实验发现,大模型的能力涌现与模型大小没有直接关系,损失函数loss 才是涌现的关键——也就是说即使是小模型,只要loss收敛小到一定值,也能达到同样的性能。

要知道,不管是OpenAI的GPT迭代路线还是谷歌、Meta其他大厂模型的发展态势,模型一直是朝着参数越来越大、效果也越来也好的路子上走的。

笔者仔细研究了下论文,总结下来,作者们分析了不同size的模型在12个不同数据集上对比不同loss下的模型性能表现,12个数据集包含了不同类型的英文和中文任务。

三个颜色区分不同规模,横坐标是loss值,纵坐标是performance,可以看到橙色的6B模型和绿色的32B模型在同一个loss附近是是区分不开的,也就是不同大小的模型在相同的loss附近达到了差不多的性能。

基于Llama 2的7B、13B、33B、65B四种规模的模型相邻的point也是重叠的,也是相似的表现。

这个实验观测还是非常有意思的。相信会有更多的研究者沿着这篇论文的结论去设计更多的实验去challenge这个“在学术界几乎已成共识但从未被理论证实过”的结论,这也可能改写未来AGI的发展路线。

除了在大模型基础理论上有研究创新之外,智谱AI在多模态领域也是没停下来,联合清华先后推出CogView文本-图像生成模型和CogVideo文本-视频生成模型 最新的视觉语言基础模型 CogVLM更是在14个多模态榜单上实现SOTA,变身14边形战士。

想起来前段时间,OpenAI CEO在前段时间的采访中提到“持续创新是最难的,它可以指导产品迭代的方向和公司决策”。而智谱AI这一系列的学术创新和快速的模型迭代、产品发布,让笔者常常在智谱AI身上看到OpenAI的影子——一群深信AGI的技术狂热信徒真正践行着用技术去改变世界的伟大梦想。

说智谱AI是国内大模型技术No.1的创业团队,毫不夸张。

笔者也时常留意智谱AI的商业化进展。智谱AI在商业化上从ToB出发,是国内率先将大模型的变革在企业中落地生花的大模型厂商之一,有效拉动了传统行业的智能化转型,目前已经有超过 2000 家生态合作伙伴,1000 家规模化应用和200 家深度共创客户,广泛覆盖了咨询服务业、传媒行业、食品行业等等,其中不乏德勤中国、分众传媒、华泰证券、马蜂窝、蒙牛、上汽汽车等传统行业龙头企业。

而智谱AI在ToC上,也是有口皆碑。在夕小瑶科技说的数百个社群里,时不时就会发生“哪家国产模型最好用”的口水战,笔者细心的发现几乎每次都会有人站出来力挺智谱AI。

而笔者尤其喜欢使用智谱清言的AI搜索功能:

我们编辑部的小伙伴也经常使用智谱清言来辅助新媒体运营,数据分析甚至生成一些图片素材。可以说是编辑部秘藏AI神器之一了。

尽管Llama 3 为代表的开源力量是否能击败闭源派系的话题在近期出现了不少争议,但作为一名普通用户,可以值得肯定的是,以智谱AI为代表的国产力量已经与国外先进的闭源商业巨头差距大大减小。这个追赶速度,甚至已经超越了开源社区追赶闭源巨头的速度。

正因为国产厂商终年如一日的持续发力,才会有如今的变化。这件事情同样值得我们去关注和肯定。

总之,2024年:

比起开源闭源之争,国产厂商的逆势突围大戏同样令人期待。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成ChatGPT实体化了!手机变身ChatGPT实体机器人,只需一个配件,能说话还会做梦,真的牛!东西---智慧树上一盘浆糊OpenAI神秘搞事,GPT-4.5默默上线?推理碾压GPT-4网友震惊,奥特曼笑而不语中国, 唯一没农村的城市OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报奥特曼本人确认:神秘gpt2不是GPT-4.5!美股基本面 - 2024_02_26 * 午报 * |2023年伯克希尔净利润超962亿美元,“股神”接班人揭晓。美联储放缓缩参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!清平乐:温馨涌入心间ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTs神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型固定月费$24?南加众多居民电费又要涨了?国内经济有未来吗?最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义花一份钱能买4个气垫,想想不要太赚啊!维稳修复界的扛把子,性价比巨高~上脸效果比肩大牌中国唯一比肩哈佛的大学, 可惜80%的人不知道!全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star今天起,这个重磅功能向 ChatGPT Plus 用户全面开放!GPT-4.5 疑似泄露, Altman 在线「吃瓜」吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果牛X!华人移民餐馆打杂、洗厕所好几年,如今比肩马斯克跟乔布斯,身价$700亿!华为重夺中国大陆智能手机市场第一/Altman 称 GPT-5 性能远超 GPT-4/OPPO 回应暂停 XR 探索一事ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义小米回应SU7无法退定金,威马多位高层被抓,宁德时代曾毓群回应美方指控,传LG加入苹果屏幕供应,这就是今天的其他大新闻!微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观Claude 3全面超越GPT-4?我们上手实测了一波。华人别去凑热闹了!大量群众聚集,这地宣布:进入紧急状态!端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?比肩总统的学霸:不当美国终身教授,成为云南首富华为重夺中国大陆智能手机市场第一/支付宝推出 AI 办事小助手/Altman 称 GPT-5 性能远超 GPT-4
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。