Redian新闻
>
这篇究极讽刺的文章一出,NLP无了

这篇究极讽刺的文章一出,NLP无了

科技

深度学习自然语言处理 原创
作者:Winnie

在测试集上预训练?这听起来似乎有点不合常规,但别急,继续往下看!

Paper: Pretraining on the Test Set Is All You Need
Link: https://arxiv.org/pdf/2309.08632.pdf

进NLP群—>加入NLP交流群

文章以一项大胆的实验为开端,作者创造了一个高质量的数据集,然而,这个数据集并非来自于人为合成,而是源自huggingface上的众多评估基准数据😂。

借助这一数据集完成了一个基于 Transformer 的语言模型的预训练,这个模型被命名为 phi-CTNL(发音为“fictional”)。

令人惊讶的是,phi-CTNL 在各类学术基准测试中表现得相当完美,胜过了所有已知的模型。

该研究还发现,phi-CTNL 在预训练计算方面超越了神秘的幂律扩展法则。随着训练轮次的增加,它的性能快速趋近于零。

此外,phi-CTNL 似乎具备某种超自然的理解能力。在学习过程中,它能够快速而准确地预测下游评估的指标。

是的,这篇文章可不是在搞笑,而是要讽刺那些以前不知道眼前有坑的学术研究。

作者认为,尽管评估和基准测试对于语言模型的发展至关重要,但这个领域经常受到夸夸其谈的宣传,却忽视了数据污染的潜在风险。

作者甚至含蓄地点名了一些模型,例如 phi-1、TinyStories 和 phi-1.5。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。

这些模型做错了什么呢?

一个在推上测试Phi-1.5的例子引发了众多讨论。例如,如果你截断下图这个问题并输入给Phi-1.5,它会自动完成为计算第三个月的下载数量,并且回答是正确的。稍微改变一下数字,它也会正确回答。但是一旦你变换格式,它就会完全出错。(这里的格式变化是保留了提示中的所有 '\n'。)

另一个例子是一个关于苹果的数学计算问题,phi模型最初可以正确回答问题。然而,一旦我们改变其中的一个数字,例如从8.5改成7.5,模型会开始出现幻觉现象。为了检查2这个数字有没有被记忆,我们可以把pizza的价格改成10.5.但是phd依然继续输出2(应该为1)。基于这些发现,研究人员认为Phi-1.5模型的数据污染问题很严重。

通过以不合常规的方式预训练模型,这篇文章提醒我们强调了数据污染的危险性。告诫我们,不要相信任何一个没有隔离数据污染的LLM模型。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
儿童什么情况需要超说明书用药?这篇文章一次说清!酥脆喷香山核桃,冬藏的究极选择无AP无硬核竞赛进哈佛,牛娃妈妈首次公布申请细节:我靠的是“鸡自己”晨跑反贼给大外宣的工作指导墨大03深情影帝多次pc+yp无缝对接《灵魂的哀伤吟游·米莱斯篇之一》如果哪天朝韩的炮弹在扎波罗热上空炸开,还挺讽刺的……长篇小说《如絮》第一百六十六章 哈尔滨-1968-1969年 2 人圆NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)IF>3!用别人的文献发自己的文章,原来除了生信,还能用它快速发文!(含免费福利)虞书欣,高颅顶审美究极进化版第一人那个牛娃们都在埋头冲刺的考试回来啦!你,准备好了吗?论文指导 | QS前50欧洲博后1v1带发ACL2024,NLG/LLM/多模态有人把NLP领域分类、发展趋势可视化了!德国慕尼黑工业大学构建NLP 360度全景图“罗刹海市”讽刺的是澳洲:每天花780万澳元买房,中国买家王者归来2023年10月文章一览王传福和李想:两位全力冲刺的汽车掌门恶心完了!美国大叔餐厅吃饭感觉嘴巴刺刺的,扯出一看竟是一条……清华教授:从大量学术期刊上的文章来看,不少文章是从文献到文献,科学严谨地研究“伪问题”, 正在或已经毁掉了一代年轻学者《灵魂的哀伤吟游·亨特篇之三》COLING/EMNLP/NAACL/NLPCC群,快来~斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲墨西哥公开的“外星人木乃伊”,竟是究极缝合怪NWTOYS《王国之泪》林克:全武装+究极手的海拉鲁老流氓!AI无人机竞速击败人类冠军,Nature封面:将AlphaGo成果带到物理世界为什么要读文献?读什么样的文献?小白从刚开始从几分的文章开始读好一点?乐高IDEAS第50款套装21342 昆虫系列测评:简单的技巧、究极的还原度与冒险的选题遭背刺的奥特曼:精心设计股权却被设计“北极鲶鱼”背刺的后遗症:普通人越努力越可笑?2023年7月文章一览直播预告 | 阿里巴巴NLP算法专家王潇斌:开箱即用的文本理解大模型用嘴啃倒刺的有救了!秋冬也能养成漫画手2023年9月文章一览2023年 8 月文章一览
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。