Redian新闻
>
Meta表示Llama 3击败了包括Gemini在内的大多数其他人工智能模型

Meta表示Llama 3击败了包括Gemini在内的大多数其他人工智能模型

公众号新闻

点击蓝字 关注我们

SUBSCRIBE to US


Illustration by Nick Barclay / The Verge


该公司在一篇博客文章中表示(https://ai.meta.com/blog/meta-llama-3/),Meta的下一代大型语言模型Llama(https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival)将向AWS等云提供商和Hugging Face等模型库发布,其性能优于大多数当前的人工智能模型。


Llama 3目前有两个模型权重,分别为8B和70B参数(包含80亿参数的Llama 3 8B和包含700亿参数的Llama 3 70B。)。到目前为止,它只提供基于文本的响应,但Meta表示,这是对前一版本的“重大飞跃”( https://ai.meta.com/blog/meta-llama-3/)。Llama 3在回答提示方面表现出更多的多样性,拒绝回答问题的错误拒绝更少,而且可以更好地推理。Meta还表示,Llama 3比以前理解了更多的指令,编写了更好的代码。


Meta在帖子中声称,在某些基准测试中,两种尺寸的Llama 3都击败了谷歌的Gemma和Gemini(https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source)、Mistral 7B和Anthropic的Claude 3等尺寸相似的型号。在通常衡量常识的MMLU基准中,Llama 3 8B的表现明显好于Gemma 7B和Mistral 7B,而Llama 2 70B的表现略好于Gemini Pro 1.5(https://www.theverge.com/2024/2/15/24073457/google-gemini-1-5-ai-model-llm)。


(值得注意的是,Meta 2700字的帖子中没有提到OpenAI的旗舰机型GPT-4。)


还应该注意的是,基准测试人工智能模型虽然有助于了解它们的强大程度,但并不完美(https://www.theverge.com/2024/4/15/24131097/measuring-ai-models-needs-an-overhaul)。用于对模型进行基准测试的数据集已被发现是模型训练的一部分,这意味着模型已经知道评估人员会问它的问题的答案。


Screenshot: Emilia David / The Verge


Meta表示,人类评估人员对Llama 3的评分也高于其他模型,包括OpenAI的GPT-3.5。Meta表示,它为人类评估人员创建了一个新的数据集,以模拟可能使用Llama 3的真实世界场景。这个数据集包括一些用例,如征求建议、总结和创造性写作。该公司表示,研究该模型的团队无法获得这些新的评估数据,也不会影响模型的性能。


Meta在其博客文章中表示:“该评估集包含1800个提示,涵盖12个关键用例:征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、提取、角色/伪装、开放式问题回答,推理、重写和总结。”


Llama 3有望获得更大的模型尺寸(可以理解更长的指令和数据串),并能够做出更多的多模式响应,如“生成图像”或“转录音频文件”。Meta表示,这些较大的版本参数超过400B,理想情况下可以比较小版本的模型学习更复杂的模式,目前正在训练中,但初步性能测试表明,这些模型可以回答基准测试提出的许多问题。


不过,Meta没有发布这些大型模型的预览,也没有将它们与GPT-4等其他大型模型进行比较。


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


人工智能如何帮助抵御网络攻击

人工智能引领数据中心发展新趋势

汽车知晓你的信息?解读隐私与安全挑战

汽车成为信息时代的移动计算机:5大数据收集方式解析

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福人工智能指数 2024 报告:人工智能法规和生成式人工智能投资的增长金卡戴珊Met Gala穿着引争议,网友:束腰畸形,但穿着比其他人正常太多了…《魅羽活佛》第369章 光头与光头李飞飞团队发布《2024年人工智能指数报告》,预测人工智能未来发展趋势乌克兰击败了俄罗斯,在克里米亚苹果的人工智能野心可能包括谷歌或 OpenAI【荐】人工智能时代,AI已经替代了大多数工作,孩子未来怎么办?百度李彦宏:应用驱动中国AI快速发展,抵达理想AGI时代要十年以上;Meta据悉正与出版商讨论人工智能模型训练合作丨AIGC日报华为相关人士辟谣P70预售,苹果或用百度人工智能,通义千问可处理千万字文档,微信回应朋友圈横线,这就是今天的其他大新闻!台湾人林先生苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo最新民意调查:大多数美国人希望修建边境墙,80%的人表示移民危机是一个“严重问题”Meta期待减少人工智能技术限制半数企业主认为ChatGPT比学位更重要,Meta发布免费人工智能模型Llama 3人工智能提振微软业绩,大公司押注人工智能遭审查【行业日报】SpaceX获得印尼政府运营许可!谷歌DeepMind发布生物人工智能模型最新版本!上岸笔记 | 恭喜 美本 Aggie同学 成功斩获 Bellwether Asset Management,全职offer这国一直升机坠毁,国防军司令在内的10名高级指挥官死亡!总统召开紧急会议……OpenAI:下周一不会发布GPT-5;TikTok将自动标记从其他部分平台上传的人工智能生成内容丨AIGC日报今晚直播预约 | 常国珍:生成式人工智能的数据应用合规 | CAIGP人工智能治理沙龙第1期欧盟AIA通过了!人工智能管理专家CAIM认证课程:聚焦ISO/IEC42001人工智能管理体系全球范围内「人工智能」行业新增9个大额融资事件;马斯克旗下xAI完成60亿美元B轮融资丨5月「人工智能」行业投融资月报从专用到通用-预训练大模型和AI agent,浅谈人工智能的趋势和展望玫瑰饼香满屋Linus眼中“很烂”的C++击败了C语言美股基本面 - 2024_02_24 * 午报 * 伯克希尔Q4净利润同比翻倍 投资收益近300亿美元 现金储备创纪录。一图看买了房就后悔!包括维护成本因素在内的10个“早知道”直播预约 | 常国珍:生成式人工智能的数据应用合规 | CAIGP人工智能治理沙龙第1期女校长涉嫌诈骗近5000万后投江自尽!其母在内的29名受害人将其父等告上法庭Nat Commun:人工智能机器人,进入了又一个临床领域!无需人工辅助,对甲状腺区域进行了高质量超声检查比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类【行业日报】 OpenAI推出新人工智能模型GPT-4o!沃尔玛计划裁减数百名公司员工!The Man Who Accidentally Created TikTok’s Biggest Meme欧盟《人工智能法》落地:人工智能办公室正式启用离家的路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。