Redian新闻
>
研究了两年后,我发现领域的开山之作是瞎编的

研究了两年后,我发现领域的开山之作是瞎编的

公众号新闻

夕小瑶科技说 分享
作者 | 猫猫坏心眼可多啦
来源 | 知乎

那是在2018年6月的人民大学,研一即将结束,我接了同学的班,去做一个叫做”语音向量“(Semantic Speech Embedding)的研究。这是一个新领域,前人少有研究,也不知道到能否做成。最初我只是认为若能搞出来的话很了不起,也很有价值。但却未曾料到这会持续四年,期间也改变了我太多。

当时通过文献调研,我发现MIT的作者在一年前(2017年)就已经做了出来,并且效果极佳。因此我认定这个方向是可行的,他的方法也值得借鉴,毕竟:

  1. 论文作者来自MIT,一作Yu-An Chung曾是NTU李宏毅老师的学生,值得信赖(后来发现这位作者拿了Interspeech2020的best student paper award )
  2. 论文相关的后续工作发表在知名会议Interspeech 、ICASSP、NIPS
  3. 作者提供了模型所生成的数据,经检验其效果甚至超过了论文里标明的分数
▲MIT那篇论文的微信存档

随后,我满怀信心,一方面着手复现这篇MIT的文章,一方面实验探索一些改进思路。但是一开始就遇到了问题:无论是论文复现还是改进方案,实验中都没有显示任何效果。由于我当时接触AI领域刚一年,之前做的是自然语言处理方向(一知半解),在语音方面则没有任何研究背景。因此我认为如果我搞不定这件事儿,那问题还是出在我这里。

如今回看那时真的是"缺乏专业性",啥也不懂、只是闷着头做实验。那段时间的努力都砸在了实验上——今天改改这儿,明天调调那儿,晚上把实验跑起来燃起希望,早上则鉴证希望破灭,周而复始、陷入困局。如今回看,当时正确的策略应当是“重阅读、少实验”,先通过广泛阅读把能力培养起来,去积累一些靠谱的想法,随后再去解这个问题,而不是天天瞎试。

毕竟看论文能增长能力、复现论文能增长能力,而做实验则是能力输出的过程。此外,最重要的是为这项研究设定一个止损点,绝对不能死磕。因为努力并非能决定一切,人只能解决能力范围之内的问题。对于能力范围之外的事,除非有”能力范围之内“的人来协助,否则这就是一件靠运气的事儿。运气可能明天来,也可能一年后来,更有可能在这短暂的一生中永远都不会出现。如果不知道止步,那么这辈子就葬送在这上面了。

可惜当时我不懂这道理,也没那么幸运遇到告诉我这番道理的人。于是乎我就这样折腾了一年,直到硕士毕业毫无所获(读的两年制工硕)。当时我的两位博士师兄十分了得、尚未入学的硕士师弟也很快有了成果,而我夹在中间拿不出什么,真的是“比上不足、比下也不足”。可又能咋办呢?这项研究上就好似前面有一堵墙一样,什么方法都试了,就是做不出来。加上我不喜欢在周报里写那些冗长的废话,这好似一周什么都没干,硕士导师归结我做不出来的原因是“心思不在上面”。

▲image

硕士期间在这项研究上的周报,12月之前的部分遗失了 我对此有点愧疚,因为我得准备找工作,我要陪女朋友,我还有自己真正感兴趣的东西——软件开发,因此对学术研究无法做到997全情投入。但我认为硕士导师待我不薄,也因此毕业前表示工作后有空接着搞这东西。或许事情到这里就是完美了,但事与愿违,毕业找工作选择了一家主打“家国情怀”的单位(业内人士戏称为"大饼管理局"),等入职却发现不过是一帮大忽悠。我并非软弱可欺的人,违背底线定会要个说法。于是乎一来二往、好聚好散,我让大饼局的骗子见识到了何谓“做事狠”,而我的代价则是丢了应届生身份,但我觉得不亏,也从未在这件事儿上后悔过。

▲我从未怀疑从大饼局离职的正确性

我对研究生阶段是有些遗憾的,因此在朋友的建议下决定再上一个台阶,接着去读博吧。但这对于我而言是背水一战了,因为一来我没有对学术的向往,二来我也没有能毕业的把握,只是不甘心奋斗的结果是如此而已。我也都想好了,如果毕不了业,那我就回大饼局找老朋友来个"一了百了"。

在读博时我还是选择回到人大,并非没有去别处的机会,只是觉得去别的地方搞新研究对硕士导师有些愧疚,另外扔了做了一年的东西也觉得可惜,所以决定"回来再坑导师一把"。当时我认定了“不出成果”的原因是“心思没在上面”。那会儿我的兴趣点还在软件开发上,写代码进入状态常常从晚上不知不觉敲到天亮,时常担心会不会猝死 (⊙ˍ⊙)。为此,我幻想若以同样的态度“全情投入”,那必定有所改观。

于是乎,破釜沉舟,我放弃了开发了多年的软件,也放弃了其他的一些靠出卖灵魂赚快钱的机会,自己购置了实验设备(导师知道后为我报销了部分费用),博一的前三个月时间又砸在了这个研究上。可现实给了我沉重一击,实验依旧毫无起色(:з」∠):

▲博士期间又砸的三个月

这个时候就得反思了,我隐隐觉得,问题根源并不是努力或态度上的问题。别人三个月搞定一篇文章,而我一年多了连最基本的实验都做不出来,一点希望也看不到,这里面肯定是有问题的。我不觉得别人比我努力四倍亦或聪明四倍,而所谓当排除一切不可能的情况,剩下的不管多难以置信那都是事实,我开始觉得MIT的那篇文章可能在造假

当明白这一点,很多就能解释的通了,比如为什么复现不出人家的结果、为什么我的其它改进尝试毫无效果。基于这个思路也很容易想到验证造假的方法,最后实验支持了我的观点:MIT作者的实验结果是伪造的。而这是在2020年11月,距我”出发“两年多以后:

▲验证造假结论的报告

当时我把这个结果和导师交流了一下,之后去做另一个新领域,不过我一直记得这件事儿,终于又过了两年(2022年),我能够抽身给我的这项研究盖棺定论,写了一篇复现报告:

论文标题
Homophone Reveals the Truth: A Reality Check for Speech2Vec

论文链接
arxiv.org/abs/2209.10791

▲复现报告

写这篇报告的初衷并非是想什么“捍卫科学的神圣性”,我不是喜欢较真的人,也不想用这些虚的东西拔高立意。原因只是我在这项研究上浪费了近两年的时间,最后必须要给自己一个说法。

回想18年读研那会儿,我和猫猫许诺“硕士毕业前我要把语音向量搞出来,然后去找个算法工作(°∀°)ノ”.... 当时打心眼里认为这项研究是"伟大且富有价值"的。同时那段时间也是我这辈子人生最开心的时候——我能看到对未来的希望,我觉得之前走的那些弯路到头来都是值得的...可曾料想到未来是这样一番光景呢?等我拿到“所谓的结果”已经是四年后。这期间太多变故:面对“成为英雄的机会” 我选择了看似更稳妥的路——去外汇局当废物,而我的猫猫也再找回不来了。也因此,我打定了主意,无论如何,无论牺牲掉谁,我一定要把这个东西搞出来,因为我这辈子最快乐的一段时光都献祭了在这上面。而四年后的今天,我达到了终点,却发现并不是自己想要的终点。

年轻时有人对我讲“人生不过是体验”,我还不懂这句话的意思,只是笑嘻嘻觉得好玩。而这几年在谷底躺了许久后悟得其中的奥义。若可未卜先知,我不会把时间梭哈在科研项目上,而是会做点对得起自己的选择,比如早些为硕士毕业找工作做准备,剩余时间全花在陪猫猫打游戏上。因为未来不一定会更好,往后的日子或许都是下坡路。遇到开心的事儿那就一定要抓紧体验,过去了的就再也回不来。

最终这篇复现报告已被 ICASSP2023 接收:

作者一栏,我填上了我,和我曾经的猫猫的名字

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无问芯穹夏立雪:破解算力焦虑,我做了大模型算力领域的「淘宝」丨36氪专访AI总结的时空阶梯理论要疯了!呼吸机被召回后,他等了两年多也没给他换台新的…研究了很多青春期心理知识后,终于发现了孩子青春期问题爆发的原因呼吸机被召回后,他等了两年多也没给他换台新的…她瞎编的又何止一本作业含着泪看完宫崎骏的“封山之作”,我沉默了...他是“中国生肖邮票的开山之人”,99岁去世,收官之作成“绝唱”快找他来演讲啊! 千亿富翁毕业典礼撒3600万红包,每人现领发财金富勒烯研究站 | 富勒烯在护肤领域的研究与应用【留学专栏】总结了美国TOP100各专业GRE录取均分后,我发现...【广州美国中心活动】小组讨论:公共服务领域的亚裔美国人,5月9日,星期四,晚上7:00-8:30又一家专注帕金森领域的iPSC细胞疗法新锐崛起:A轮已融8200万美元学术领域的“反华运动”正在伤害美国神经领域的“诺奖”——欧洲脑奖刚揭晓:三位计算和理论神经学者获千万奖金向所有生成式AI领域的优秀案例和厂商发出邀请,AIGC先锋榜进入征集倒计时 !门当户对婚姻,不向上攀跃,不向下兼容;亚马逊Ber招人难困扰在高盛实习后,我发现自己成为公司唯一一个听不懂英语的人…中国又一高科技领域的华为,要被美国逼出来了?八大博物馆收藏!人民币开山鼻祖,1000元马饮水999纯金版!【留学篇】总结了美国TOP100各专业GRE录取均分后,我发现...王建安教授:主动脉瓣疾病诊疗领域的机遇与挑战官宣!中国信通院“铸基计划”联合极客邦科技双数研究院 InfoQ 研究中心宣布《AGI 在金融领域的应用实践洞察》报告正式启动体育娃值得培养吗?毕马威:2024精准医疗的新时代生成人工智能对精准医疗领域的前所未有的影响研究报告命运动力学:时空双胞胎寿命更长连续更新10篇文章后,我发现的微信公众号运营技巧中国信通院“铸基计划”&极客邦科技双数研究院 InfoQ 研究中心即将联合发布《AGI在金融领域的应用实践洞察》养娃10年后我发现:多听孩子话,很重要天图万境图拉古:大部分大模型公司5年内死去,自媒体用“炸裂”“吊打”是瞎说丨GenAICon 2024搭建一站式医疗护理平台,大慈健康欲做医护领域的数字化人力资源管理创新者饮食、方言、文化 - 香港人和广东人开山论文被锤造假 2 年,通讯作者终于承认了,全球 18 年研究白费?​为了不被高敏感亲生儿子气死,我观察研究了十年……【倒计时2周】4大院士领衔,60+嘉宾阵容!合成领域的学术盛宴,就在 2024(第二届)合成生物学与生物医学健康大会!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。