国际科技财经博客移民网络热点娱乐民生时事公众号

>

谷歌又闹大乌龙！Jeff Dean参与的新模型竟搞错Hinton生日

谷歌又闹大乌龙！Jeff Dean参与的新模型竟搞错Hinton生日

公众号新闻

2022-10-22 05:10

新智元报道

编辑：好困 Aeneas

【新智元导读】最近，谷歌研究员发布了关于指令微调的最新工作！然而却宣传图中出现了可笑的乌龙。

几个小时之前，谷歌大脑的研究员们非常开心地晒出了自己最新的研究成果：

「我们新开源的语言模型Flan-T5，在对1,800多种语言的任务进行指令微调后，显著提高了prompt和多步推理的能力。」

然而，就在这张精心制作的「宣传图」上，竟藏着一个让人哭笑不得的bug！

请注意看Geoffrey Hinton的出生日期：

但实际上，Hinton出生于1947年……

虽然没有必然联系，但是谷歌自己的模型，竟然会把自家大佬的生日搞错？

马库斯同志看完直接就惊了：你们谷歌，没人负责审核的吗……

理论上，这篇拥有31位作者，外加Jeff Dean这种大佬参与的论文，不应该发生这种「低级错误」才对啊。

「复制」的时候「打错了」而已！

很快，论文的共同一作就在马库斯的推文下面进行了回复：「我们都知道，模型的输出并不总是符合事实。我们正在进行负责任的AI评估，一旦有了结果，我们将立即更新论文。」

没过多久，这位作者删除了上面那条推文，并更新留言称：「这只是在把模型的输出复制到推特上时，『打错了』而已。」

对此，有网友调侃道：「不好意思，你能不能给我翻译翻译，什么叫『复制』来着？」

当然，在查看原文之后可以发现，「图1」所示的生日，确实没错。

至于在宣传图中是如何从「1947」变成「1963」的，大概只有做图的那位朋友自己知道了。

随后，马库斯也删除了自己的这条推文。

世界重归平静，就像什么也没有发生一样。

只留下谷歌研究员自己推文下面的这条在风中飘摇——

扩展指令微调语言模型

既然误会解除了，我们就让话题重新回到论文本身上来吧。

去年，谷歌推出了一个参数量只有1370亿的微调语言网络FLAN（fine-tuned language net）。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令调优（instruction-tuned）版本。指令调优管道混合了所有数据集，并从每个数据集中随机抽取样本。

研究人员称，这种指令调节（instruction tuning）通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

结果显示，在许多有难度的基准测试中，FLAN的性能都大幅超过了GPT-3。

这次，谷歌将语言模型进行拓展之后，成功刷新了不少基准测试的SOTA。

比如，在1.8K任务上进行指令微调的Flan-PaLM 540B，性能明显优于标准的PALM 540B（平均 + 9.4%），并且在5-shot的MMLU上，Flan-PaLM也实现了75.2%的准确率。

此外，作者还在论文中公开发布Flan-T5检查点。即便是与更大的模型（如PaLM 62B）相比，Flan-T5也能实现强大的小样本性能。

论文地址：https://arxiv.org/abs/2210.11416

总结来说，作者通过以下三种方式扩展了指令微调：

扩展到540B模型

扩展到1.8K的微调任务

在思维链（CoT）数据上进行微调

作者发现具有上述方面的指令微调显著提高了各种模型类（PaLM、T5、U-PaLM）、prompt设置（zero-shot、few-shot、CoT）和评估基准（MMLU、BBH、 TyDiQA、MGSM、开放式生成）。

这次的微调数据包括473个数据集、146个任务类别和1,836个总任务。

作者是通过结合之前工作中的四种混合（Muffin、T0-SF、NIV2 和 CoT），缩放（scale）成了下图中的1836个微调任务。

在研究中，微调数据格式如下图这样组合。研究者在有样本/无样本、有思想链/无思想链的情况下进行了微调。要注意的是，其中只有九个思维链（CoT）数据集使用CoT格式。

第四种微调数据的混合涉及CoT注释，作者用它来探索CoT注释的微调是否可以提高看不见的推理任务的性能。

作者从先前的工作中创建了9个数据集的新混合，然后由人类评估者手动为训练语料库编写CoT注释。这9个数据集包括算数推理、多跳推理（multi-hop reasoning）和自然语言推理等。

作者在广泛的模型中应用了指令微调，包括T5、PaLM和U-PaLM。对于每个模型，作者都采用了相同的训练过程，使用恒定的学习率，并使用Adafactor优化器进行了微调。

从下表中可以看出，用于微调的计算量仅占训练计算的一小部分。

作者根据模型的大小和微调任务的数量，在保留任务的性能上检测了缩放的影响。

作者从对三种大小的PaLM模型（8B/62B/540B）进行实验，从任务最少的混合开始，一次添加任务混合，然后再到任务最多的混合（CoT、Muffin、T0-SF 和 NIV2）。

作者发现，扩展指令微调后，模型大小和任务数量的扩展都会大大改善性能。

是的，继续扩展指令微调就是最关键的要点！

不过，在282个任务之后，收益开始略微变小。

从下表中可以看出，对于三种大小的模型，多任务指令微调后，相比没有微调时，性能有很大的提高，性能增益范围从9.4%到15.5%。

其次，增加微调数量可以提高性能，尽管大部分的改进来自282个任务。

最后，将模型规模增加一个数量级（8B→62B或62B→540B）会显著提高微调和非微调模型的性能。

为什么282个任务之后增益就变小了呢？有两种解释。

一是附加任务不够多样化，因此没有为模型提供新知识。

二是多任务指令微调的大部分收益，是因为模型学习更好地表达了它在预训练中已经知道的知识，而282个以上的任务并没有太大的帮助。

另外，作者还探讨了在指令微调混合中包含思想链（CoT）数据的效果。

可以看出，Flan-PaLM在所有评估基准上都优于PaLM。

不过令人惊讶的是，以前的指令微调方法（如FLAN，T0）显著降低了non-CoT的性能。

对此的解决方案是，只需在微调混合中添加9个CoT数据集，就可以在所有评估中获得更好的性能。

虽然思维链（Chain-of-Thought）prompting通常非常有效，但只能编写少量样本，而且零样本CoT并不总是有效果。

而谷歌研究者的CoT微调显著提高了零样本推理能力，比如常识推理。

为了展示方法的通用性，研究人员训练了T5、PaLM和U-PaLM。其中参数量的覆盖范围也非常广，从8000万到5400亿。

结果证明，所有这些模型都得到了显著提升。

在以往，开箱即用的预训练语言模型可用性通常都很差，比如对输入的prompt没有反应。

谷歌的研究者要求人类评估者来评估开放式生成问题的「模型可用性」。

结果显示，Flan-PaLM 的可用性比PaLM基础模型要高79%。

此外，指令微调还补充了其他的模型适应技术，比如UL2R。

同样的，Flan-U-PaLM取得了很多优秀的结果。

论文地址：https://arxiv.org/abs/2210.11399

谷歌的另一起「翻车」事件

可以说，刚刚发生的这个剧情，既视感相当强了！

没错，就在10月19日，当谷歌Pixel的官方账号试图挖苦苹果CEO库克时，被网友抓包：是用iPhone发的推文……

显然，这种事情早已不是第一次了。

2013年，T-Mobile的CEO就在推特上对三星Note 3赞不绝口，但用的是iPhone。

同样是2013年，黑莓的创意总监Alicia Keys在发布会上说，她已经抛弃了自己之前的iPhone，换了黑莓Z10。随后，就被发现用iPhone发推，甚至在被抓到后发推狡辩说是因为自己被黑了。

三星，也不例外：

而且，相比于谷歌的这次删推，三星当时做得更加决绝：直接删号！

看来，营销课程有必要加上这样的一条戒律了：如果你要推广一个产品，请不要用竞争对手的产品来做。

这并不是一个难以传授的信息，甚至还可以做得直白：在推销其他产品时，手里请不要拿着iPhone。

参考资料：

https://arxiv.org/abs/2210.11416

https://hub.baai.ac.cn/view/21163

https://www.businessinsider.com/google-pixel-tim-cook-tweet-sent-from-iphone-2022-10

https://wccftech.com/samsung-used-twitter-for-iphone-to-promote-the-galaxy-note-9-display/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

大乌龙！美国女子坐云霄飞车，口袋iPhone 14 Pro侦测车祸自动报警，警方赶赴现场后傻眼澳航大乌龙！悉尼机场安检出意外，200多乘客落地墨尔本就见大批警察安保...可转正！大摩、Jefferies、毕马威等名企放出大量实习机会，急缺留学生！2022傅雷翻译出版奖获奖者揭晓 Le palmarès du Prix Fu Lei 2022 dévoilé 魁省自由党闹出大乌龙! 预算搞漏整整120亿$$, 悄悄下架报告恭喜UCL学员拿下Jefferies (UK)实习Offer 我们做了一场986235人参与的2022集体记忆实验……“微信翻译”翻车了！这个简单句型竟然出错...亚马逊宣布冻结整个企业招聘，Jeff Bezos还被前管家告上法庭！吃什麽（完）Huge and Efficient! 一文了解大规模预训练模型高效训练技术出游, 击碎一个孩子的美梦基于GAN生成流畅视频，效果很能打：无纹理粘连、抖动缓解 Jeff Bezos承诺，有生之年内捐出大部分财产大乌龙！刚发了录取，法兰克福大学又通知作废？“最后一只”灭绝动物塔斯马尼亚虎惊现，揭开深藏86年的谜团，原来是个大乌龙？！独立完整工业体系完成文革期间超尴尬！Twitter裁员大乌龙：“不小心裁错了”……谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了 2023招聘季 | Jefferies (US) 金融 Summer Internship已开放！天降offer！大乌龙NEU法学院误发205份录取通知书...龙卷风健康快递 205 联想商务本11.11大促，ThinkPad neo14 锐龙版5499元，更有X1 Carbon参与活动世界级乌龙！知名画作首展以来一直被挂反了？！英国秋招 | Jefferies开放金融Spring Week，针对2025届留学生！炸了！推特裁员50%闹出大乌龙？不少员工刚被裁，又被喊回去上班！变废为宝：CO2参与的双羧基化反应合成高附加值二元羧酸太意外！2022年度词汇揭晓！竟然跟这件人人都参与的事有关……30亿跑赢GPT-3的1750亿，谷歌新模型引热议，然而却把Hinton年龄搞错了早盘的国债殖利率飙升到3.062 英国秋招 | 11月20日截止！Jefferies开放Spring Week项目，速投！Hiring | Executive Assistant to Chief & Deputy Chief of Staff 英女王葬礼，澳英媒体互闹大乌龙！BBC不认识澳总理，澳媒不认识英首相！悉尼CBD涌入数百人，各地澳人悼念英女王！谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了 |【经纬低调分享】谷歌又发新操作系统了！

热点事件追踪