Redian新闻
>
最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上

最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上

科技
 夕小瑶科技说 原创
 作者 | Zicy

就在昨晚,Meta官宣了开源的Llama 3 8B和70B版本。

8B模型在多项指标中超越了Gemma 7B和Mistral 7B Instruct,而70B模型则超越了闭源的Claude 3 Sonnet,和Gemini Pro 1.5。

此外Meta还有一个still training的400B+参数版本,它和GPT-4以及Claude 3的超大杯版本Opus性能差不多,最重要的是,它即将开源!

怪兽级性能

由于预训练和训练方法的改进,Llama 3 8B和70B是当今同参数规模的SOTA模型。它大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。此外,在推理、代码生成和指令跟踪等功能的极大改进,使Llama 3更加易于操控。

在Llama 3的开发中,为了寻求对实际场景的优化。Meta开发了一套新的高质量人类评估集,包含1800个prompts,覆盖12个关键用例,如寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作等。为防止模型过度拟合,连模型开发团队也无法访问此评估集。下图展示了与Claude Sonnet、Mistral Medium和GPT-3.5的比较。

模型架构

Llama 3 选择了经典的Decoder-only的Transformer架构。与Llama 2相比,Llama 3做了几个关键的改进,包括:

1、使用具有128K token词汇表的tokenizer,可以更有效地对语言进行编码。
2、在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA),提高了Llama 3的推理效率。
3、在8192个token的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。这也是美中不足的一点,8k的上下文窗口依然有点过时,不过随着开源社区的努力,这个问题可能很快就会被解决。


训练数据

Llama 3在开源的 15T Token上进行了预训练,比Llama 2使用的数据集大7倍,并且包含4倍多的代码,其中超过5%的预训练数据集由涵盖30多种语言的高质量非英语数据组成。为确保使用高质量数据,开发了多种数据过滤技术,包括启发式和NSFW过滤器,以及语义去重和质量预测文本分类器。

此外,通过广泛的实验确定了数据混合的最佳方法,以优化Llama 3在多种应用场景中的表现。预训练数据的更新截止到2023年3月(8B)和12月(70B)。

微调数据包括开源的指令数据集,以及超过1000万个人工注释的示例。

此外,官网上还附上了这样一句话:“预训练和微调数据集均不包含Meta用户数据”,可以说是求生欲拉满了。

此外,Meta官方还公布了模型的能耗:在H100-80GB上累计计算了7.7M GPU小时,估计总排放量为2290 吨二氧化碳当量,并且附上:“100%的碳排放被Meta的可持续发展计划抵消”,再来一波求生欲!

指令微调

为了最大化预训练模型在聊天用例中的潜力,采用了监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合方法。通过精心整理SFT中的提示和PPO与DPO的偏好排名,显著提升了模型的性能和对齐能力。特别是,通过PPO和DPO学习偏好排名,显著提高了Llama 3在推理和编码任务的表现,使模型能够更准确地选择正确的答案。

Llama3在线体验

目前,Llama 3的两个版本可以在官网下载:

https://llama.meta.com/llama-downloads/
https://github.com/meta-llama/

也可以在Meta官网体验网页版Llama 3:

https://www.meta.ai/

此外,Llama 3模型将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上推出,并得到AMD、AWS、Dell、Intel、NVIDIA和高通提供的硬件平台的支持。

期待Llama 3 400B+

Meta称 “Llama 3 8B和70B型号标志着我们计划为Llama 3发布的产品的开始,我们最大的模型有超过 400B 个参数,虽然这些模型仍在训练中”,并且公布了400B+模型早期检查点的性能。

有网友把它和GPT-4以及Gemini做了个比较。

不知道奥特曼这回慌不慌,可能只有GPT-5能压住它了。


现在我们可以期待,“开源版GPT-4”可能真的要来了!

参考资料

[1]https://ai.meta.com/blog/meta-llama-3/
[2]https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了回家过年全球最强开源模型一夜易主,1320亿参数推理飙升2倍全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切《南乡子 - 雨水》Meta震撼发布Llama 3,一夜重回开源大模型铁王座纪录片级上甘岭解说(3小时43分长动画扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有史上最强开源大模型 Llama 3正式发布。。。最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报我是如何击败标普500指数的?在度假牧场晨跑,参加纪念活动Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了?高管辟谣Llama3发布,开源模型追上闭源模型的历史时刻就在眼前了?大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报全球最强开源模型一夜易主,1320亿参数推理飙升2倍!AI早知道|零一万物发布千亿参数模型;智谱AI上线大模型开放平台开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平通义千问 2.5 发布,成为中国最强开源大模型性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型华为 Pura 70 系列上架即售罄/Meta 发布全球最强开源大模型/理想汽车 L6 发布
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。