国际科技财经博客移民网络热点娱乐民生时事公众号

>

「教科书级」数据能有多大作用？微软超强小模型引热议

「教科书级」数据能有多大作用？微软超强小模型引热议

公众号新闻

2023-09-14 04:09

机器之心报道

编辑：小舟

随着大模型掀起新一轮 AI 热潮，人们开始思考：大模型的强大能力来源于什么？

当前，大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长，算力的需求会迅速膨胀。一些研究者尝试探索新思路。

6 月，微软发布了一篇题为《Textbooks Are All You Need》的论文，用规模仅为 7B token 的「教科书质量」数据训练了一个 1.3B 参数的模型 ——phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级，但 phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率，在 MBPP 上达到了 55.5%。

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。最近，微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》，对高质量「小数据」的潜力做了进一步研究。

论文地址：https://arxiv.org/abs/2309.05463

模型简介

架构

研究团队使用 phi-1 的研究方法，并将研究重点放在自然语言常识推理任务上，创建了拥有 1.3B 参数的 Transformer 架构语言模型 phi-1.5。phi-1.5 的架构与 phi-1 完全相同，有 24 层，32 个头，每个头的维度为 64，并使用旋转维度为 32 的旋转嵌入，上下文长度为 2048。

此外，该研究还使用 flash-attention 进行训练加速，并使用 codegen-mono 的 tokenizer。

训练数据

phi-1.5 的训练数据是由 phi-1 的训练数据（7B token）和新创建的「教科书质量」数据（大约 20B token）组成的。其中，新创建的「教科书质量」数据旨在让模型掌握常识推理，研究团队精心挑选了 20K 个主题来生成新数据。

值得注意的是，为了探讨网络数据（LLM 常用）的重要性，该研究还构建了 phi-1.5-web-only 和 phi-1.5-web 两个模型。

研究团队表示：创建强大且全面的数据集需要的不仅是原始计算能力，还需要复杂的迭代、有效的主题选择，以及对知识的深入了解，具备这些要素，才能确保数据的质量和多样性。

实验结果

对于语言理解任务，该研究在多个数据集（包括 PIQA、Hellaswag、OpenbookQA、SQUAD 和 MMLU）上评估了一些模型。评估结果如下表 3 所示，phi-1.5 的性能可以媲美 5 倍大的模型：

在常识推理基准上的测试结果如下表所示：

在更复杂的推理任务（例如小学数学和基础编码任务）上 phi-1.5 还超越了大多数 LLM：

研究团队认为，phi-1.5 再次证明了高质量「小数据」的力量。

质疑与讨论

或许是因为「大模型 + 大数据」的理念太深入人心，这项研究遭到了机器学习社区一些研究人员的质疑，甚至有人怀疑 phi-1.5 直接在测试基准数据集上训练了。

网友 Susan Zhang 进行了一系列验证，并指出：「phi-1.5 能够对 GSM8K 数据集中的原问题给出完全正确的回答，但只要稍微修改一下格式（例如换行），phi-1.5 就不会回答了。」

还有修改问题中的数据，phi-1.5 在解答问题的过程中就会出现「幻觉」。例如，在一个点餐问题中，只修改了「披萨的价格」，phi-1.5 的解答就出现了错误。

并且，phi-1.5 似乎「记住了」最终答案，即使在修改数据的情况下该答案已经是错误的。

对此，论文作者之一 Ronen Eldan 很快给出了回应，针对上述网友测试出现的问题给出解释和反驳：

但该网友再次阐明其观点：测试说明 phi-1.5 的回答对 prompt 的格式是非常「脆弱」的，并对作者的回应提出质疑：

论文第一作者 Yuanzhi Li 回应道：「由于没有进行任何指令微调和对齐工作，phi-1.5 在稳健性上的确不如 GPT-4。但『脆弱』并不是正确的术语，事实上，对于任何模型，pass@k 准确率都会比 pass@1 高得多（所以模型正确就是偶然的）。」

看到这些质疑与讨论，网友们直呼：「最简单的回应方式就是直接公开合成数据集。」

对此，你怎么看？

参考链接：https://twitter.com/suchenzang/status/1701615026648605095

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

美国非农就业数据能说明什么？澳总理已抵北京现身天坛, 两个字形容中澳关系! 上任后做了三件事, 堪称教科书级别外交高速爆胎货车侧翻！“教科书式”救援被网友点赞！对人工智能的大胆押注可能会帮助微软超越苹果 | AI主题合辑大模型时代，「幕后主力军」数据中心走向何方？强烈增长是否引发通胀？美联储旧模型引发广泛争论用FP8训练大模型有多香？微软：比BF16快64%，省42%内存双 11 种草难？品牌们的「教科书」来了速领！怎样让这套神教辅发挥最大作用？手把手教你吃透它！亚马逊 280 亿投 OpenAI 最大对手；华为发布 2 万元智能金表等新品；传微软计划建造「核动力」数据中心 | 极客早知道 NYU、哥大、JHU、USC…美国大学正版教科书，现在打包免费送！全网首发！NYU、哥大、JHU…美国大学正版教科书免费送，立省1000刀！（附PDF）从娃娃抓起？教科书和儿童读物LGBT内容引担忧 8.3高分剧教科书式“装X”告诉你，都市白领的“精致”，不再用“穷”做后缀！GPT-4太烧钱，微软想甩掉OpenAI？曝出Plan B：千块GPU专训「小模型」，开启必应内测人面樱花”君莫愁我是不是一个很绝情的人？小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大长篇小说《如絮》第一百五十九章旧金山-1967年避难所 Cell | 又一教科书级的重大突破！瞿礼嘉/钟声课题组揭示植物通过有性生殖实现远缘杂交的新机制《百年》&《生死契阔》一定要养盆这么美的吊钟海棠大模型引爆AI革命机器会替代人吗？——访通联数据总经理蒋龙有多牛？！多伦多华人家长抢破头，“教科书”级少儿美术开班！堪称教科书级别的外交！中澳关系迎来了前所未有的新高度！轻舟已过万重山！1.3>7？微软新模型“以小博大”战胜Llama2，网友：用Benchmark训练的吧？知情人预测特朗普下周自首、中国天眼有新发现、韩国将启用AI教科书等丨今日天下启明创投周志峰：生成式AI与大模型引路产业变革与创新全网首发！NYU、哥大等15所美国大学正版教科书免费送，立省1000刀！附PDF 这场“教科书式”操作，救了所有人！小车隧道侧翻，这场“教科书式”操作救了所有人！Cell | 又一教科书级的重大突破！北京大学瞿礼嘉/钟声课题组揭示植物通过有性生殖实现远缘杂交的新机制中国女生公交被打，讨公道遇冷处理，上演教科书式维权！最后…北京理工大学发布双语轻量级语言模型，明德大模型—MindLLM，看小模型如何比肩大模型外国历史教科书中中国形象研究的反思与展望——基于国家重大项目工作坊的考察

热点事件追踪