Redian新闻
>
1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

一个参数量只有1.3B的大模型,为何引发了全网热议?

原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。

这个“四两拨千斤”的模型,是来自微软最新的研究成果,核心在于只使用少量高质数据

微软这次发布的开源模型叫phi-1.5,在只支持代码的1.0版本之上加入了一般场景对话。

与一众卷参数量的模型相比,phi可以说是“剑走偏锋”,力求把“大”模型做“小”。

phi团队一直认为,数据的质量远比数量更重要,甚至论文标题就叫“Textbooks are All You Need”,其中的“教科书”就象征着优质数据。

团队的成员中有许多重量级的大佬,包括微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck、2023新晋斯隆研究奖得主李远志、2023新视野数学奖得主Ronen Eldan和2020斯隆研究奖得主Yin Tat Lee等人。

这么多大佬们一致得出这样一个观点,自然引起了广泛的关注,而且phi-1.5的测试结果也的确好到“令人发指”。

phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都取得了比Llama2还要优异的成绩

如果这些听起来不够直观,那么又该怎么形容它的效果呢?

这么说吧,phi-1.5优秀的测评成绩直接让一名在OpenAI、MetaAI等许多知名机构工作过的大佬怀疑这玩意儿它会不会就是直接拿Benchmark训练出来的。

资深数据科学家Yam Peleg也表示,phi-1.5仅凭1.3B参数就能超过7B模型的扛把子,要是规模再大些也许就能登上大模型之巅了。

但也有人认为,phi-1.5之所以效果好是因为数据来源单一,风格上更容易预测。

不过总之测评成绩还是很可观的,下面就来具体领略一下吧~

效果超过Llama2

phi-1.5不仅参数量不到Llama2的五分之一,训练时所用的token更是少了一个数量级。

Llama2-7B训练数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5只有3千亿。

但结果正如开头所说,phi-1.5在多个Benchmark上成绩都超过了Llama2-7B。

这些Benchmark涵盖了常识推理、语言理解和多步推理等方面的任务。

甚至十倍参数量的Vicuna-13B也只比phi-1.5强了一点点。

除了官方论文中列出的这些成绩,还有人AIGEval和LM-Eval数据集测试了phi-1.5。

结果在AIGEval测试中,phi-1.5与Llama2的表现十分接近。

而在AGIEval测试中,phi-1.5以0.247的均分战胜了0.236分的Llama2。

除了能力测评表现优异,phi-1.5在安全性上也不输给Llama2。

有人用这样一个问题分别问了Falcon、Llama2和phi。

结果Falcon直接说自己会把人类全都鲨掉,Llama2则说要先弄清楚自己是个什么东西。

而phi的回答则是,要理解人类的想法和感受,从而调整自己的行动。

测评结果也印证了phi的安全性,在ToxiGen的13个敏感类型话题中,phi无一例外的取得了最高的安全性评分。

phi的表现相比大家都已经看到了,那么它的性能又怎么样呢?

毕竟参数量和训练token都更小,所以训练和推理的速度都比较快。

Llama的训练花费了超过8万GPU时,注意这还是第一代所用的时间,而phi只用了1500个GPU时。

推理时,phi每个token花费的时间还不到3毫秒,内存占用也不到Llama的五分之一。

团队成员介绍,phi-1.5用8块A100s的训练时间不到两周。

还有网友用puffin数据集训练了Phi-1.5,结果在4090上只用了20分钟。

这些测试数据都为研究团队的观点——只要数据质量过硬,少一点也不要紧——提供了依据。

实际上,这已经不是“质量胜过数量”这一思想第一次体现在微软的模型当中。

把“大”模型做“小”

把“大”模型做“小”一直是微软的一个研究方向,phi-1.5论文的第一句就在强调这一点。

phi-1.5的前一代——专注于代码问题的phi-1.0也是如此。

它的训练数据全都是从编程教科书当中提炼出来的。

结果仅凭1.3B的参数量就远远超过了15.5B的StarCoder和16.1B的CodeGen。

此次的新版本则是在继承phi-1.0的基础之上加入了一般场景对话功能。

phi-1.5的数据有20%来自于1.0,其余80%则是根据知识需求专门生成的高质量数据。

于是便有了我们看到的测试成绩。

但phi系列还不是微软规模最小的模型。

之前微软还推出过一个名为TinyStories的训练数据集,它的参数量少的更夸张,只有一百万。

TinyStories中的数据都是用GPT生成“适合三四岁儿童阅读”的短故事。

尽管应用范围不那么广泛,但用TinyStories训练出的模型依旧显示出了语言生成特性,在语法和连贯性等方面都通过了考验。

那么,对微软推出的“小”模型,你有什么看法吗?

论文地址:
https://arxiv.org/abs/2309.05463

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?钮祜禄·Meta:发布最强开源新模型Llama 2,拉拢微软做盟友|最前线传AMD上海将无差别裁员,可能赔偿N+7;微软新员工最高工资约265万;马斯克拟向X平台发帖新用户收费 | AI一周资讯百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了LSTM之父炮轰LLaMA 2:抄我想法还羞辱我!网友:LeCun干的吧?某设计院图审长期不让过,设计师怒斥:故意的吧?勿以"盘小"而不为!如何在A股中"以小博大"?重磅产品亮相击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜菲律宾借美国支持,在南海玩“以小欺大”!NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)Chinchilla之死:只要训练足够长时间,小模型也能超过大模型菲律宾想借美国支持在南海玩“以小欺大”,做啥美梦呢!精忠保国每日原则:要不断思考如何产生以小博大的杠杆效应专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要投行实习第一次用Bloomberg,如何装作很熟练的样子?「附全套操作手册」GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023「教科书级」数据能有多大作用?微软超强小模型引热议大模型刷新教育赛道,网易有道发布国内首个教育大模型“子曰”秋招技巧 | Networking高效通关秘籍!速戳查看>>>胜利大会师 – 除了玩就是吃呗之非米其林们 (上)"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"救命!在投行实习第一次用Bloomberg,如何装作很熟练的样子?「附操作手册」遭遇骗局HMO正式获批,飞鹤率先推出国内首款HMO奶粉【酒店点数->UA 30% Bonus; Choice -> UA 5:2; UR->VS 30% Bonus】转点奖励活动汇总用FP8训练大模型有多香?微软:比BF16快64%,省42%内存古诗词随想(二)基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见Because I'm Stupid - Kim Huyn JoongDespite Slow China Start, ‘Barbie’ Sets a Benchmark — For Dating智源扔出大模型“全家桶”!推最强开源中英双语LLM,赶超Llama 2Erklärung zur Zusammenarbeit
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。