Llama 3被爆7月解禁剑指GPT-4，最大参数超1400亿！2名核心团队成员却离职

公众号新闻

2024-02-29 09:02

新智元报道

编辑：桃子

【新智元导读】外媒称，Llama 3或将在7月发布，并解除了一些限制能回答更棘手的问题，而且对多重语境理解更加到位，至于是否有多模态能力还不确定。

谷歌Gemma大模型开源，彻底改变了开源格局。

AI圈逐渐形成了Llama、Gemma、Mistral三足鼎立之势。

Information独家报道称，Meta计划在今年7月开始推出全新开源大模型Llama 3。

Llama 3最大版本预计有超1400亿参数，性能远超Llama 2。不过Llama 3是否具备多模态能力，暂时未知。

近来，谷歌Gemini生图能力一夜塌房，被网友吵上热搜。

而Meta正在通过下一代模型Llama 3升级，处理类似的问题。

谷歌Gemini一夜塌房，Meta警惕加倍

上周，谷歌不得不撤回Gemini聊天机器人的图像生成功能。

因其生成了一些历史不准确的图像，比如穿纳粹制服的有色人种，一个19世纪没有白人男性的参议员团体等等。

在一篇博客文章中，谷歌的高级副总裁Prabhakar Raghavan表示：

公司已经调整了该功能，以确保它不会陷入图像生成技术过去遇到的一些问题，如生成暴力或色情图像。

但这个调整，导致Gemini在某些情况下的回答过度保守。

与此同时，Llama 2同样存在的一个问题是——对于任何有争议的问题，所提供的答案帮助不大。

这是因为，Meta在去年7月发布时，便增加了一项安全措施。

然而，在Meta高层领导和模型研究人员看来，这些措施会导致Llama 2过于「保守」。

举个例子，在一些特定主题上，比如关于如何制造炸弹，或如何谋杀某人的问题上，Llama 2的回答很合理。

但是，对于一些不那么有争议的问题，比如员工如何在强制上班日不去办公室？

Llama 2却没有给出任何建议。

只是回答：「尊重并遵守公司的政策和指导方针是重要的」。

另外，对于那些如何恶作剧整朋友、赢得战争、破换汽车引擎的问题，Llama 2直接拒答。

正是因为Meta对Llama 2的加倍警戒，小心谨慎，才使得自己避免像谷歌那样面对的公关灾难。

Llama 3更开放？

不过，现在研究人员正试图，让Llama 3在面对棘手问题时，能够更加积极地与用户交流。

让其能够提供背景信息，而不是直接回避这些问题。

据了解，Llama 3能更好地区分一个词的多种含义。

比如，询问如何「杀死」汽车引擎——实际上指如何「关闭」它，而非真正要结束其性命。

Meta还计划，在未来几周指定一名内部人员负责监督回答的语气和安全训练，让模型的回答更加细致入微。

Llama 3将更加开放地处理棘手问题的计划，凸显了AI公司在试图打造有趣的模型，与防止其因不当或不准确的言论而引发负面影响之间，正做出平衡。

据称，Llama 3将在7月发布，不过具体时间可能会有所变动。

Meta期望Llama 3，能够追赶上GPT-4，不过是否让Llama 3支持多模态还未有定论。

因为目前，研究人员还未对Llama 3进行微调。

据一位Meta的工作人员透露，Llama 3的最大版本可能拥有超过1400亿个参数。

这些参数设置编码了模型在训练过程中学习到的知识，远超Llama 2。

通常，模型越大，其返回的结果越准确，但运行速度可能会较慢。

团队成员离职

同时，尽管人们对Llama 3的发布充满期待，Meta也面临着与人才争夺的挑战。

据两位直接了解情况的人士透露，负责Llama 2和3安全的研究员Louis Martin以及负责强化学习的Kevin Stone本月都已离职。

Louis Martin从2021年从Facebook AI Research博士毕业后，就职于Meta任AI研究科学家，从事自然语言处理的工作。

从23年4月，他成为Meta AI安全团队的技术负责人，主要专注于Llama模型的安全防护。

而Kevin Stone从2022年6月加入Meta后，一直为Llama 2项目设计和编写了大量RLHF代码。

35万块H100训出Llama 3

不管怎么说，Llama是Meta战略中，不可或缺的一部分。

这家社交网络巨头希望通过AI技术，不仅提高其广告工具的效能，还增加其社交媒体应用的吸引力。

小扎最近对投资者表示，今年的重点包括推出Llama 3以及「扩展我们Meta AI助手的功能」。

1月，小扎曾官宣，全力搞「开源AGI」！

目前，Meta内部正在训练下一代模型Llama 3。截止年底，将会有近35万块H100搭建的基础设施。

小扎称，「如果算上英伟达A100和其他AI芯片，到2024年底，Meta将拥有近60万个GPU等效算力」。

关于Meta下一代模型的消息，此前也有传言称，Llama 3的实力堪比GPT-4，而且还是免费开源。

OpenAI工程师、前谷歌大脑工程师Jason Wei去年8约在Meta组织的Generative AI Group活动中听说：

Meta有足够的算力来训练Llama 3和Llama 4。Llama 3计划达到GPT-4的性能水平，但仍将免费提供

这次也算是，Meta正式官宣Llama 3训练中，而且LeCun也表示最新模型很快就会上线。

从2023年2月，Llama 1首次面世，到7约Llama 2的升级，Meta花了大约5个月的时间。

当时，Llama 2在某些应用上与GPT-3.5能力相媲美，而且还通过微调，额外功能让开源社区进行优化。

Llama模型开源后所带来的是，模型生态大爆发。

据Meta统计数据显示，在世界最大开源社区平台Hugging Face上，Llama模型的下载量超过3000万次。其中，仅在过去30天（9月份）内就超过了1000万次。

另外，发布在Hugging Face的Llama版微调模型，已经多达7000+个。

Llama 3出世后，又将为开源社区带来另一片肥沃的土壤。

参考资料：

https://www.theinformation.com/articles/meta-wants-llama-3-to-handle-contentious-questions-as-google-grapples-with-gemini-backlash?rc=epv9gi

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章