Redian新闻
>
Llama3发布,开源模型追上闭源模型的历史时刻就在眼前了?

Llama3发布,开源模型追上闭源模型的历史时刻就在眼前了?

公众号新闻



来源丨硅星GenAI(ID:gh_e06235300f0d)

作者丨张潇雪

图源丨Together AI



今天AI圈又迎来一件大事:Meta正式发布他们迄今最强的新一代开源大语言模型Llama3。

首批发布的Llama3 8BLlama3 70B包括预训练和指令微调版本,8K上下文,在两个24K GPU定制集群上使用15万亿tokens数据训练而成,Meta称它们分别是80亿和700亿参数上最好的模型。同时一个参数超过400B的「最大Llama3」也在训练中,社区认为这个模型更恐怖,极有可能超过当前的闭源王者GPT-4 Turbo。

Llama3在各种行业基准测试中表现惊艳,广泛支持各种场景。接下来几个月,Meta将陆续引入新的功能,包括多语言对话、多模态、更长的上下文和更强整体核心性能,并将与社区分享研究论文。

扎克伯格和Meta首席AI科学家Yann LeCun分别在Instagram和X宣布了这一消息。


网友们在评论区一片沸腾,马斯克前排回应,不错(有种淡淡的忧伤)。


我们赶快来看看Llama 3的具体性能表现:


多项测试成绩大幅超过Gemini 1.5和Claude Sonnet

Meta表示,新一代Llama3在Llama 2 的基础上有了重大飞跃,确立了 LLM的新标准。在预训练和后训练过程上的改进大大降低了错误拒绝率,提高了一致性,并增加了模型响应的多样性。在推理、代码生成和指令遵循等方面都得到了极大改善,使得 Llama 3 更加可控。

对照表中可见,Llama3 8B在大规模多任务语言理解、生成式预训练问题回答、编码和数学等LLM核心基准测试上都力挫Gemma 7B和Mistral 7B。Llama3 70B同样战胜 Gemini Pro 1.5和此前被夸爆了的Claude 3 Sonnet。


预训练版本的Llama3 8B和70B也在通用智能评估、困难任务、ARC挑战赛、DROP数据集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下败将之列。


除了关注LLM标准基准测试项目, Meta还寻求模型在现实场景中的性能优化。为此,他们开发了一套新的高质量人工评估集。包含 1800 个提示,涵盖了“寻求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、模拟角色/人物、开放式问题回答、推理、重写和总结” 这12 个关键用例。为了防止发生意外过拟合,即使是 Meta自己的建模团队也无法访问它。

在这套评估集上, Llama3 70B与Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2对战后胜率突出。(这里没有把GPT-4和Claude 3 Opus拉来对比,推测后续的400B模型将接过重任。)



Llama 3有哪些技术创新

Meta称,在Llama3的开发过程中秉承了创新、扩展规模和优化简洁性的设计理念。重点关注四个关键要素:模型架构、预训练数据、扩大预训练规模以及指令微调。下面分项来看:

模型架构

Llama 3 选择了一个相对标准的纯解码器 Transformer 架构。

相比 Llama 2 的改进之处有:Llama 3 使用一个包含 128K tokens的分词器,可以更有效地编码语言,从而显著提高模型性能;在 8B 和 70B 两种规模上都采用了分组查询注意力(GQA)机制来提高模型推理效率;同时在 8192 个tokens的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

训练数据

Meta认为训练出最佳LLM的关键是要整理一个大型高质量训练数据集,为此他们投入了大量资源:

Llama 3 在超过 15 万亿个公开可用来源的token上进行了预训练,比训练 Llama 2 时的数据集足足大 7 倍,代码量是 Llama 2 的 4 倍。其中超过 5% 来自高质量非英语数据,总共涵盖了 30 多种语言,以为即将到来的多语言使用场景做准备。

Llama3团队开发了一系列数据过滤管道来保证数据质量。他们还进行了大量实验,来评估在最终预训练数据集中混合不同来源数据的最佳方式,以此来选择一个包括STEM、编码、历史知识等等数据类别的最优数据组合,确保 Llama 3 在各种使用场景中表现良好。

扩大预训练规模

为了更有效利用预训练数据,Meta针对下游基准评估开发了一系列详细的扩展法则,在实际训练模型之前就能预测最大模型在关键任务上的性能,来确保最终模型在各种使用场景和能力上都有出色的表现。

在 Llama 3 的开发过程中,团队也对扩展行为有了一些新的观察。例如,尽管一个 8B 参数模型对应的最佳训练计算量是 200B个 tokens,但他们的 8B 和 70B 参数模型在接受高达 15 万亿个token训练后,性能仍然呈对数线性提高。

Meta结合了三种并行化方式:数据并行、模型并行和管道并行,来训练最大的Llama3模型。最高效地实现在同时使用 16K 个 GPU 训练时,每个 GPU 的计算利用率超过 400 TFLOPS。他们还开发了一个先进的新训练堆栈,可以自动进行错误检测、处理和维护,并进行了一系列硬件和可扩展存储系统的改进。最终使总体有效训练时间超过 95%,与 Llama 2 相比训练效率提升了约 3 倍。

指令微调方法创新

为了在聊天场景中充分释放预训练模型的潜力,Meta也在指令微调方法上进行了创新。后训练方法采用监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合。在模型质量上的最大改进来自于仔细整理的训练数据,并对人工标注人员提供的标注进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也大大提高了 Llama 3 在推理和编码任务上的性能。团队发现,当你问模型一个它难以回答的推理问题时,模型会产生正确的推理轨迹:知道如何得出正确答案,但不知道如何选择它。通过在偏好排序上进行训练,模型就能学会如何去选择正确答案。

哪里可以用到

根据官方介绍,Llama 3 将很快在所有主要平台上可用,包括云服务商、API 提供商等。从AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 将无处不在。它也得到了 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平台支持。

对于普通用户来说,最方便直接感受Llama3的方式就是通过 Meta AI。

除了在WhatsApp、Messenger、Instagram、Facebook等应用与Meta AI聊天助手对话外,今天还推出了网页版https://www.meta.ai/。即开即用,可以输入文本提问来生成图片和简单代码,支持实时搜索,其它功能还不是很完善。如果想存储历史记录则需登录Facebook账号。



真正的“GPT-4级”开源模型就在眼前

而Meta透露,Llama 3 8B 和 70B 只是 Llama 3 系列的开始,更多令人期待的东西即将到来。

一个超过 400B 参数的最大模型正在训练中,开发团队对此感到兴奋。未来几个月,Meta将发布多个新功能,包括多模态、多语言对话能力、更长的上下文窗口以及更强大的整体能力。一旦完成所有Llama 3 的训练,他们也会发表一篇详细的研究论文供社区参考。


Llama3 8B和70B,加上一个证实了正在训练的400B大模型,无疑向开源社区注入一支超强兴奋剂。

而不久后即将发布的Llama3 400B+会有多厉害?

大神卡帕西给予了很高评价:“Llama 3 是 Meta 一个看起来非常强大的模型。坚持基本原则,在可靠的系统和数据工作上花费大量高质量时间,探索长期训练模型的极限。我也对 400B 模型非常兴奋,它可能是第一个 GPT-4 级别的开源模型。我想很多人会要求更长的上下文长度。”

同时他也提出了个人请求,希望能有比 8B 更小参数,理想规模在0.1B到1B左右的模型,用于教育工作、(单元)测试、嵌入式应用等。


英伟达高级研究经理Jim Fan认为,它将标志着社区获得对「GPT-4级别模型」开放权重访问的分水岭时刻,这将改变许多研究工作和草根创业公司的计算方法。

从当前预测数据来看,Llama3 400B+已经足以匹敌市场上最强大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在训练中,有望在接下来的几个月中变得更好。“有如此强大的基础设施,可以解锁很多研究潜力。期待整个生态系统的建设者能量激增!”

一个让所有人必须考虑的事实就是:开源模型追上闭源模型的历史时刻可能就在眼前了。

这对开发者可能意味着,AI应用可以更加快速的涌现和迭代出来。

而对创业公司们来说,则意味着更彻底的思路上的冲击。

它直接影响到所有以闭源模型 API 为核心的商业模式——既然免费的足够好用,为什么还要花钱呢?

更重要的是,如果连OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一个比不上开源最强水平的闭源模型的意义何在呢。

最后还是不得不问一句:GPT-5,你到底在哪里呢?



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
凯特病例被盗,3人直接停职!隐私和真相就在眼前...Taylor Swift巡演会杂感阿里云重磅发布开源模型Qwen2,性能超Llama3-70及国内众多闭源模型开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?历史时刻!SpaceX星舰四飞成功:星际文明的路,还远吗? |【经纬低调出品】风险近在眼前,为何人人都无动于衷?羡慕了!留学生和贝克汉姆共进午餐?居然还一起唱生日歌!伦敦真大型追星现场.....开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危阿里云进军大模型一年,现在是开源第一名,CTO:闭源要超过所有开源模型才有机会参与讨论全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral82、长篇家庭伦理小说《嫁接》第二十二章 柔情似水(1)儿时纪事 (一)扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型全球最强开源模型Qwen2发布,阿里云为开闭源之争画下休止符开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了智能招聘?远在天边,近在眼前7044血壮山河之枣宜会战 “扑朔迷离”南瓜店 21安远AI&北京大学:2024基础模型的负责任开源-超越开源闭源的二元对立:负责任开源的内涵、实践与方案报告扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……叫板李彦宏、Llama 3 发布,大模型的开源闭源到底在争什么?最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上Llama 3拿下“赛点”?大模型角力场,开源与闭源之争仍在继续 |大模界真假开源:开源大模型的实际开放性探讨阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强曾经的新妇
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。