Redian新闻
>
这篇究极讽刺的文章一出,NLP无了

这篇究极讽刺的文章一出,NLP无了

科技

深度学习自然语言处理 原创
作者:Winnie

在测试集上预训练?这听起来似乎有点不合常规,但别急,继续往下看!

Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf

进NLP群—>加入NLP交流群

文章以一项大胆的实验为开端,作者创造了一个高质量的数据集,然而,这个数据集并非来自于人为合成,而是源自huggingface上的众多评估基准数据😂。

借助这一数据集完成了一个基于 Transformer 的语言模型的预训练,这个模型被命名为 phi-CTNL(发音为“fictional”)。

令人惊讶的是,phi-CTNL 在各类学术基准测试中表现得相当完美,胜过了所有已知的模型。

该研究还发现,phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加,它的性能快速趋近于零。

此外,phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中,它能够快速而准确地预测下游评估的指标。

是的,这篇文章可不是在搞笑,而是要讽刺那些以前不知道眼前有坑的学术研究。

作者认为,尽管评估和基准测试对于语言模型的发展至关重要,但这个领域经常受到夸夸其谈的宣传,却忽视了数据污染的潜在风险。

作者甚至含蓄地点名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。

这些模型做错了什么呢?

一个在推上测试Phi-1.5的例子引发了众多讨论。例如,如果你截断下图这个问题并输入给Phi-1.5,它会自动完成为计算第三个月的下载数量,并且回答是正确的。稍微改变一下数字,它也会正确回答。但是一旦你变换格式,它就会完全出错。(这里的格式变化是保留了提示中的所有 '\n'。)

另一个例子是一个关于苹果的数学计算问题,phi模型最初可以正确回答问题。然而,一旦我们改变其中的一个数字,例如从8.5改成7.5,模型会开始出现幻觉现象。为了检查2这个数字有没有被记忆,我们可以把pizza的价格改成10.5.但是phd依然继续输出2(应该为1)。基于这些发现,研究人员认为Phi-1.5模型的数据污染问题很严重。

通过以不合常规的方式预训练模型,这篇文章提醒我们强调了数据污染的危险性。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲虞书欣,高颅顶审美究极进化版第一人反贼给大外宣的工作指导IF>3!用别人的文献发自己的文章,原来除了生信,还能用它快速发文!(含免费福利)遭背刺的奥特曼:精心设计股权却被设计2023年10月文章一览AI无人机竞速击败人类冠军,Nature封面:将AlphaGo成果带到物理世界无AP无硬核竞赛进哈佛,牛娃妈妈首次公布申请细节:我靠的是“鸡自己”用嘴啃倒刺的有救了!秋冬也能养成漫画手“罗刹海市”讽刺的是澳洲:每天花780万澳元买房,中国买家王者归来NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)王传福和李想:两位全力冲刺的汽车掌门有人把NLP领域分类、发展趋势可视化了!德国慕尼黑工业大学构建NLP 360度全景图2023年 8 月文章一览2023年9月文章一览乐高IDEAS第50款套装21342 昆虫系列测评:简单的技巧、究极的还原度与冒险的选题《灵魂的哀伤吟游·米莱斯篇之一》2023年7月文章一览直播预告 | 阿里巴巴NLP算法专家王潇斌:开箱即用的文本理解大模型为什么要读文献?读什么样的文献?小白从刚开始从几分的文章开始读好一点?墨大03深情影帝多次pc+yp无缝对接儿童什么情况需要超说明书用药?这篇文章一次说清!“北极鲶鱼”背刺的后遗症:普通人越努力越可笑?如果哪天朝韩的炮弹在扎波罗热上空炸开,还挺讽刺的……COLING/EMNLP/NAACL/NLPCC群,快来~那个牛娃们都在埋头冲刺的考试回来啦!你,准备好了吗?《灵魂的哀伤吟游·亨特篇之三》论文指导 | QS前50欧洲博后1v1带发ACL2024,NLG/LLM/多模态墨西哥公开的“外星人木乃伊”,竟是究极缝合怪清华教授:从大量学术期刊上的文章来看,不少文章是从文献到文献,科学严谨地研究“伪问题”, 正在或已经毁掉了一代年轻学者恶心完了!美国大叔餐厅吃饭感觉嘴巴刺刺的,扯出一看竟是一条……NWTOYS《王国之泪》林克:全武装+究极手的海拉鲁老流氓!酥脆喷香山核桃,冬藏的究极选择长篇小说《如絮》第一百六十六章 哈尔滨-1968-1969年 2 人圆晨跑
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。