国际科技财经博客移民网络热点娱乐民生时事公众号

>

苹果开源7B大模型，训练过程数据集一口气全给了，网友：开放得不像苹果

苹果开源7B大模型，训练过程数据集一口气全给了，网友：开放得不像苹果

公众号新闻

2024-07-22 08:07

一水发自凹非寺
量子位 | 公众号 QbitAI

苹果最新杀入开源大模型战场，而且比其他公司更开放。

推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部训练过程和资源。

要知道，不久前Nature杂志编辑Elizabeth Gibney还撰文批评：

许多声称开源的AI模型，实际上在数据和训练方法上并不透明，无法满足真正的科学研究需求。

而苹果这次竟然来真的！！

就连NLP科学家、AutoAWQ创建者也发出惊叹：

Apple发布了一个击败Mistral 7B的模型，但更棒的是他们完全开源了所有内容，包括预训练数据集！

也引来网友在线调侃：

至于这次开源的意义，有热心网友也帮忙总结了：

对于任何想要从头开始训练模型或微调现有模型的人来说，数据管理过程是必须研究的。

当然，除了OpenAI和苹果，上周Mistral AI联合英伟达也发布了一个12B参数小模型。

HuggingFace创始人表示，「小模型周」来了！

卷！继续卷！所以苹果这次发布的小模型究竟有多能打？

效果直逼Llama 3 8B

有多能打先不说，先来看Hugging Face技术主管刚“拆箱”的模型基础配置。

总结下来就是：

7B基础模型，在开放数据集上使用2.5T tokens进行训练
主要是英文数据，拥有2048tokens上下文窗口
数据集包括DCLM-BASELINE、StarCoder和ProofPile2
MMLU得分接近Llama 3 8B
使用PyTorch和OpenLM框架进行训练

具体而言，研究团队先是提出了一个语言模型数据比较新基准 ——DCLM。

之所以提出这一基准，是因为团队发现：

由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据，可能是构建高质量训练集的关键。

因此，团队使用DCLM来设计高质量数据集从而提高模型性能，尤其是在多模态领域。

其思路很简单：使用一个标准化的框架来进行实验，包括固定的模型架构、训练代码、超参数和评估，最终找出哪种数据整理策略最适合训练出高性能的模型。

基于上述思路，团队构建了一个高质量数据集DCLM-BASELINE，并用它从头训练了一个7B参数模型——DCLM-7B。

DCLM-7B具体表现如何呢？

结果显示，它在MMLU基准上5-shot准确率达64%，可与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美；并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，而所需计算量仅为后者的1/6。

与其他同等大小模型相比，DCLM-7B的MMLU得分超越Mistral-7B，接近Llama 3 8B。

最后，为了测试新数据集效果，有业内人士用卡帕西的llm.c训练了GPT-2 1.5B，来比较DCLM-Baseline与FineWeb-Edu这两个数据集。

结果显示DCLM-Baseline取得了更高的平均分，且在ARC（小学生科学问题推理）、HellaSwag（常识推理）、MMLU等任务上表现更好。

“小”模型成新趋势

回到开头，“小”模型最近已成新趋势。

先是HuggingFace推出了小模型家族“SmolLM”，其中包含135M、360M和1.7B型号模型。

它们在广泛的推理和常识基准上优于类似大小的模型。

然后OpenAI突然发布了GPT-4o mini，不仅能力接近GPT-4，而且价格大幅下降。

就在GPT-4o mini发布同日，Mistral AI联合英伟达发布了12B参数小模型——Mistral NeMo。

从整体性能上看，Mistral NeMo在多项基准测试中，击败了Gemma 2 9B和Llama 3 8B。

所以，为啥大家都开始卷小模型了？

原因嘛可能正如smol AI创始人提醒的，虽然模型变小了，但在能力相近的情况下，小模型大大降低了成本。

就像他提供的这张图，以GPT-4o mini为代表的小模型整体比右侧价格更低。

对此，我等吃瓜群众be like:

所以，你更看好哪家呢？（欢迎评论区讨论留言）

模型地址：
https://huggingface.co/apple/DCLM-7B
GitHub:
https://github.com/mlfoundations/dclm
数据集地址：
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

参考链接：
[1]https://x.com/Yuchenj_UW/status/1813260100192334108
[2]https://x.com/casper_hansen_/status/1814269340100751382
[3]https://x.com/_philschmid/status/1814274909775995087
[4]https://x.com/LoubnaBenAllal1/status/1813252390692303069

— 完 —

量子位年度AI主题策划正在征集中！

欢迎投稿专题 一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

苹果 AI 版 iOS 登场，模型使用谷歌芯片；Meta 推新模型，与黄仁勋探讨 AI 与开源生态的未来丨AI情报局赶超 GPT-4o，最强大模型 Llama 3.1 405B 一夜封神，扎克伯格：开源引领新时代电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星李彦宏：开源模型是智商税！傅盛：付费的闭源大模型才是！苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力 | 开源苹果智能背后模型公布：3B模型优于Gemma-7B，服务器模型媲美GPT-3.5-Turbo 1块3090就能训7B大模型，山东大学低带宽低显存训练法，解决显卡限购卡脖子 Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI 单张A100全精度推理！谷歌明星开源模型Gemma 2上新9B/27B，挑战3140亿Grok-1 首个WebAgent在线评测框架和流程数据管理平台，GPT-4、Qwen登顶榜首！最强数学大模型易主！阿里千问新模型成绩超GPT-4o，网友：这才是真“草莓”喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德首个WebAgent在线评测框架和流程数据管理平台来了，GPT-4、Qwen登顶闭源和开源榜首！对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的谷歌开源系模型第二代免费开放！27B媲美LLaMA3 70B，单H100或TPU主机可跑真假开源：开源大模型的实际开放性探讨史上最大和解协议达成！加拿大零售巨头Loblaw集体诉讼案赔$5亿，网友：还不够！全给我吐出来！OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mistral 7B全开源靠Scaling Laws炼出4D版视频生成模型，多伦多大学北交大等携手开源81K高质量数据集今日arXiv最热大模型论文：大模型都能怎么用？中南大学最新综述：大模型时代的自然语言处理钉钉发布 AI 搜索！不像百度也不像秘塔，还集齐国产大模型「七龙珠」大模型中文内容安全评测发布，幻方DeepSeek-67B模型夺魁，谷歌7B模型表现亮眼大模型时代的操作系统：融合Rust和大模型，vivo打造AI操作系统这家世界模型公司发布中国版Sora级视频生成大模型，走向世界模型打造新一代数据引擎吴恩达最新 Ark Invest 洞察：AI 基础模型竞争激烈，训练成本每年下降75%，推理下降86%，大厂优势难长期保证原作亲自下场！Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软大模型指令调优数据集万字评测！腾讯上交大联合出品首个4D视频生成扩散模型！数分钟实现4D内容生成，超81K优质数据集已开源 Diffusion4D：首个4D视频生成扩散模型！数分钟内实现4D内容生成，超81K的4D数据集已开源！

热点事件追踪