这篇究极讽刺的文章一出，NLP无了

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

这篇究极讽刺的文章一出，NLP无了

科技

2023-09-25 09:09

深度学习自然语言处理原创
作者：Winnie

在测试集上预训练？这听起来似乎有点不合常规，但别急，继续往下看！

Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf

进NLP群—>加入NLP交流群

文章以一项大胆的实验为开端，作者创造了一个高质量的数据集，然而，这个数据集并非来自于人为合成，而是源自huggingface上的众多评估基准数据😂。

借助这一数据集完成了一个基于 Transformer 的语言模型的预训练，这个模型被命名为 phi-CTNL（发音为“fictional”）。

令人惊讶的是，phi-CTNL 在各类学术基准测试中表现得相当完美，胜过了所有已知的模型。

该研究还发现，phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加，它的性能快速趋近于零。

此外，phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中，它能够快速而准确地预测下游评估的指标。

是的，这篇文章可不是在搞笑，而是要讽刺那些以前不知道眼前有坑的学术研究。

作者认为，尽管评估和基准测试对于语言模型的发展至关重要，但这个领域经常受到夸夸其谈的宣传，却忽视了数据污染的潜在风险。

作者甚至含蓄地点名了一些模型，例如 phi-1、TinyStories 和 phi-1.5。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。

这些模型做错了什么呢？

一个在推上测试Phi-1.5的例子引发了众多讨论。例如，如果你截断下图这个问题并输入给Phi-1.5，它会自动完成为计算第三个月的下载数量，并且回答是正确的。稍微改变一下数字，它也会正确回答。但是一旦你变换格式，它就会完全出错。（这里的格式变化是保留了提示中的所有 '\n'。）

另一个例子是一个关于苹果的数学计算问题，phi模型最初可以正确回答问题。然而，一旦我们改变其中的一个数字，例如从8.5改成7.5，模型会开始出现幻觉现象。为了检查2这个数字有没有被记忆，我们可以把pizza的价格改成10.5.但是phd依然继续输出2（应该为1）。基于这些发现，研究人员认为Phi-1.5模型的数据污染问题很严重。

通过以不合常规的方式预训练模型，这篇文章提醒我们强调了数据污染的危险性。告诫我们，不要相信任何一个没有隔离数据污染的LLM模型。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

热点事件追踪