Redian新闻
>
爆火论文“14行代码打败BERT”出现反转!改掉bug性能秒变最差

爆火论文“14行代码打败BERT”出现反转!改掉bug性能秒变最差

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

50年前的kNN算法,只用14行代码在文本分类上超越风头正盛的Transformer,包括BERT——

这个来自ACL Finding的成果,一发布就火爆学术圈,让人重新思考还有多少旧方法可以用于今天的机器学习任务。

有人盛赞它的创意性超过95%的同会论文,但是却没有获奖实在令人想不通。

短短14行代码,完全打开了大家的思路。

然而,才不到几天的时间,就有人发现:

这一切好像都是个误会。

BERT没有被打败,代码有bug,结果有问题!

这是,反转了??

重测后性能从SOTA变最差

先再来简单回顾一下这篇论文的主要背景和思想:

它讲的是如今由于精度高被经常用于文本分类的深度神经网络模型(DNN),因为其计算密集型的特性,需要数百万个参数和大量标记数据才能保证效果,这就导致它用起来或者做优化,以及转移到分布外数据等情况时都很费钱。

在此,来自滑铁卢大学和AFAIK机构的研究人员,就“突发奇想”提出了一种不需要参数的替代方案:

将简单的压缩算法比如gzip和k近邻分类算法进行结合来做这件事(用到了归一化压缩距离NCD)

结果,这种简单的方案在没有任何训练参数的情况下,效果居然很不错——

在7个分布内数据集上有6个结果与各类DNN相媲美,在分布外数据集上的结果则接连5把胜出,把BERT都给打败了。

而且它在少样本情况下也好使,相反此时的DNN却因为标记数据太少根本无法进行有效训练。

来自于美国的机器学习研究员Ken Schutte(博士毕业于MIT电气工程与计算机科学),在看到这篇论文后非常感兴趣,并冒出了一些新点子。

于是他并决定复现一下。

结果,就出现了蹊跷:

我发现(当然我也不敢保证),方法中的kNN代码中似乎存在一个错误(也可能是无意的),导致最终测试结果的准确度指标其实都全部高于了预期。

“太长不看”概括一下就是:结果用的是top-2精度,而不是本应该的kNN(k=2) 精度。

也就是说,它的效果可能并没有那么强。

具体而言,Ken指出,在论文的表5中,结果显示该方法在OOD数据集上打败了所有其他基于神经网络的方法:

而他对前四个数据集都重新进行了一遍测试(使用kNN(k=2) 精度)结果有很大出入,根本无法打败那些基准模型,甚至从性能最佳变为性能最差(最后一个数据集因为太大Ken还没尝试)

下面是详细解释。

在论文中,作者在使用kNN分类器时,都是取值k=2

(kNN是一种有监督算法,通过“有标签”的样本最终确定未知样本的类别,该算法主要参数就是k值的选择,k值越大,分类效果越稳定,但计算量也越大)

Ken认为,这个选择有点没必要,不会给分类器增加太多信息,取1就行。

而当取2时,在训练集中搜索出的两个近邻点类别标签不一致的情况下,比如一个是正类,一个是负类,那么就产生了平局情况,我们需要进一步确定唯一正确的那个点。

在这个确定的过程中,论文中的源码(位于experiments.py文件中的calc_acc方法中)出现了问题:

简单来说就是,这段代码的做法其实是只要2个近邻点标签中有一个与中心点真实类别一致(简而言之,有一个对就算对),就判断为正确,这也就相当于Top-2精度

但标准的KNN算法,会使用其他打破平局的策略,比如距离近的类别优先,或随机选取来确定,也就是采用标准的kNN(k=2) 精度来评估结果,“更严格”。

这就导致在k=2时原方法计算的准确率其实是高于标准算法的,也就是最终效果并没有现在我们看上去的那么牛。

这不,Ken重新写了两种打破平局的策略(一个是随机选择,一个是递减k),重新计算了各数据集下模型的准确率,结果均出现了不同程度的下滑:

当然,我们可以发现,如果还是按照top-2算,Ken复现的结果基本和原论文没有差别,侧面证明Ken的发现是有效的。

网友:虽然但是,不影响方法本身的创新性

这个消息出来之后,网友是怎么看的呢?

有意思的是,大家都觉得Ken的分析很有道理,但这不影响该方法本身的创新性。

尽管没有打败BERT,但其思想还是令人印象深刻。

作者这个策略也没有很不合理啦,最重要的是后面还会有更多探索这个研究方向的论文出来。

GoogleAI的研究员Lucas Beye也表达了类似的意思。

值得一提的是,在Ken之后,斯坦福博士Yann Dubois又发现该论文的问题还不止如此——

其训练测试集也重叠了。

比如DengueFilipino的训练集和测试集完全一样,而KirundiNews的重复率也高达90%。

当然,一如既往,由于该方法实在是太特别了,尽管网友评论中也充斥着“wtf”这样的声音,但大部分人还是坚决捍卫它的重要贡献,认为问题不大,可能只是审查不到位等等。

这不,“你可以扼杀一篇论文,但你无法扼杀一个想法”的评论都出来了。

大家怎么看?这两个bug影响你对这篇论文的看法吗?

Ken原博:
https://kenschutte.com/gzip-knn-paper/
原论文:
https://aclanthology.org/2023.findings-acl.426/
参考链接:
https://twitter.com/yanndubs/status/1681325900170776578?s=20

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新冠疫情有什么教训?酒店Bug价:凯悦难得出Bug,10欧元入住全新收购的酒店品牌bug怎样算修完?浅谈团队分布式bug管理 —— git-poison简单易用的bug管理工具再次出现反转...北美十大最佳和最差机场榜单出炉!加国这机场入最差榜看李德生评论有感砍杀柯基事件现反转? 不同事件的相同进展“套路”中, 撕开了谁的遮羞布……出现反转了...Mugler联名爆火被指发售管理混乱 H&M预告零售业出现回弹超导事件反转又反转!中国能不能占得先机?Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码双声子 贺中亚会议仅8670行代码,Linux内核第一版 (v0.01) 开源代码解读大反转!怀疑导师抄袭自己的论文,反手网上发帖举报!结果......杀到2999元了,R5-5500,RX6600-8G性价比炸裂的游戏主机认识bug,理解bug,爱上debug!大二科研小白,发论文啦!仅 8670 行代码,Linux 内核第一版 (v0.01) 开源代码解读飞机竟能秒变客车,彻底颠覆传统设计!【附PDF】整理了114篇医疗论文,含cvpr2023医疗论文+经典论文+医疗论文综述等半个班延毕!教授用ChatGPT来论文“查重”,学生:不仅挂科了,我差点拿不了毕业证!40万级超强越野!方程豹豹5首秀,电动黑科技加持,性能秒奔驰大G...最全精编分子生物学实验方法集锦出炉,0基础小白也能秒变实验高手!这是痴呆症了吗?当妈后,你的腰就是这样一步一步坏掉的!改掉这个小习惯,省力太多了教授误用 ChatGPT 来论文“查重”,学生:不仅挂科了,我差点拿不了毕业证!不好意思,杀到2999元了,R5-5500,RX6600-8G性价比炸裂的游戏主机她没死!大大大反转!亚裔网红少女沉默一天发声, 曾因炫富视频爆火!万豪Bug级别住二送一大礼包的免房券已入账,但是没想到又出了新的Bug历史小说《黄裳元吉》第九十二章 云集夫妇收养6岁侏儒女童,却发现她已成年还要杀他们全家?事件开始反转反转再反转!Linux 内核第一版 (v0.01) 开源代码解读,仅 8670 行代码!神反转!论文还没提交,就报道发表顶级期刊,主编:早就拒稿了!有了这个煲汤神器,小白也能秒变“汤达人”!内胆可明火烧~怀疑主任论文造假,某院医生网上发帖举报!结局竟大反转!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。