Redian新闻
>
同行评议,是科学进步的最大障碍吗?

同行评议,是科学进步的最大障碍吗?

公众号新闻


在过去大约60年里,科学自身在开展一项实验。实验设计不怎么样,既没有随机化,也没有对照组。确切地说,没有人负责这个实验,实际上也没有人进行持续测量。然而,这是史上规模最大的实验,纳入了地球上每一位科学家。


大多数人甚至没有意识到他们身处实验之中,包括我在内的许多人在实验开始时尚未出生。如果我们曾经注意到会发生什么,也许我们会要求做到最基本的科学严谨。也许无人反对过这项实验,因为它的假设似乎显然是真的:如果我们找人检查每一篇论文,拒绝发表那些未通过评审的,那么科学就能变得更好。人们称之为“同行评议”。


这是一场规模宏大的变革。从古至今,科学家写信、传播专著,阻止他们交流科学发现的主要因素是纸张、邮资或印刷成本,或者在极少数的情况下,是接待天主教会来访的费用。科学期刊出现于17世纪,但当时它们更像是杂志或简报,挑选文章的机制也各不相同,从“我们收到什么就印什么”,到“编辑询问他的朋友怎么想的”,再到“全学会投票”。有时,期刊无法得到足够的文章发表,所以编辑需要四处恳求朋友投稿,或者亲自上阵。科学发表的大杂烩状况维持了数个世纪。


(顺便一说,爱因斯坦的论文中只有一篇经历过同行评议,并且这令他感到十分惊讶和不安,最后他将文章发表在另一个期刊上。)


- Duy Huynh -


二战之后,一切都变了。政府投入资金用于研究,同时召集了“同行审稿人”,以确保他们没有把钱浪费在愚蠢的提案上。这些资金变成了大量的论文,曾经苦苦挣扎着填满版面的期刊如今难以抉择要发表哪些文章。在20世纪60年代前,发表论文前进行评审“十分罕见”,如今这种现象越来越普遍,最后风行全球。


现在,几乎每家期刊都会邀请外部专家来评审论文,不讨审稿人欢心的论文会被拒稿。你仍然可以把你的发现写信告诉朋友,但以招聘委员会和资助机构的所作所为看来,仿佛科学仅仅存在于同行评审期刊上的论文中。这就是我们运行了六十年的大型实验。


结果出现了。同行评议失败了。


- tommyparker.co.uk -



海量资金的浪费


同行评议是一项巨大的、昂贵的干预行动。据估计,科学家群体每年花在评审论文上的时间达15000年(每个审稿人所用时间的总和)。一篇论文需要花费数月或数年才能通过评审系统,当人们试图做一些诸如治愈癌症、阻止气候变化之类的事情时,这无疑会耽误许多时间。同时,大学要支付数百万美元来获得同行评议期刊的访问权限,即使大多数研究都是纳税人资助的,而且这些钱一分也没有流向作者或审稿人。


大规模的干预理应产生大规模的影响。例如,如果你向学校系统投资1亿美元,顺利的话这笔钱最终能让学生过得更好。如果数年后你出现了,你问:“嘿,我的1亿美元对学校系统起到了怎样的帮助?”然后每个人都说:“呃,我们不确定它起了什么作用,我们现在也对你十分恼火。”那么你会感到非常沮丧和尴尬。类似地,如果同行评议改善了科学,那效果应该是非常明显的;如果它没有带来改善,那我们应该感到非常沮丧和尴尬。


同行评议并没有改善科学。几十年来,在所有不同的领域,研究生产力一直趋于停滞,甚至在走下坡路,而同行评议似乎没有改变这一趋势。新的想法没能取代旧的想法。许多经过同行评议的发现未能被重复,它们中的大多数可能根本就是错误的。当你让科学家们评价20世纪获得物理学、医学和化学诺贝尔奖的发现时,他们会说,在同行评议前发表的发现和那些在同行评议后发表的一样好,甚至要更好。然而事实上,因为从20世纪90年代到21世纪初做出的诺贝尔奖发现数量太少,你甚至没法要求他们对这些发现进行评价。


当然,自二战以来,许多其它的事情也发生了变化。而这场实验开展得很糟糕,所以一切都乱套了。从这些大趋势中,我们只能说,我们不知道同行评议是否有所助益,它也可能有害,而且它成本高昂,并且科学文献目前的状况也相当糟糕。在这方面,我们称之为完全的失败。


- WE AND THE COLOR  -


事后检查


是哪里出错了?


这里有一个简单的问题:同行评议是否做了它应该做的?它是否揪出了差研究,阻止它们发表?


它没有。科学家已经做过这样的研究,他们故意在论文中添加错误,投递给审稿人,统计审稿人会揪出多少错误。审稿人表现很糟糕。在一项研究[1]中,审稿人找出了30%的主要缺陷(Baxt et al., 1998);另一项研究[2]中是25%(Godlee et al., 1998);第三项研究[3]的结论是29%(Schroter et al., 2008)。这些错误都是关键问题,例如“该论文声称使用了随机化对照试验但实际上没有”,“当你看图表时,很明显没有效应”,以及“作者得出了完全不被数据支持的结论”。大多数审稿人都没有注意到。


*译者注

[1] Baxt, W. G., Waeckerle, J. F., Berlin, J. A., & Callaham, M. L. (1998). Who Reviews the Reviewers? Feasibility of Using a Fictitious Manuscript to Evaluate Peer Reviewer Performance. Annals of Emergency Medicine, 32(3), 310–317. https://doi.org/10.1016/S0196-0644(98)70006-X
[2] Godlee, F., Gale, C. R., & Martyn, C. N. (1998). Effect on the Quality of Peer Review of Blinding Reviewers and Asking Them to Sign Their ReportsA Randomized Controlled Trial. JAMA, 280(3), 237–240. https://doi.org/10.1001/jama.280.3.237
[3] Schroter, S., Black, N., Evans, S., Godlee, F., Osorio, L., & Smith, R. (2008). What errors do peer reviewers detect, and does training improve their ability to detect them? Journal of the Royal Society of Medicine, 101(10), 507–514. https://doi.org/10.1258/jrsm.2008.080062


事实上,我们已经得到了同行评议无效的现实数据:造假论文一直在发表。如果审稿人发挥了作用,那么我们本该听到许多故事,像是“贾教授今天被解雇,因为他试图向一家科学期刊投递伪造的论文。”但我们从没听说过这样的故事,相反,几乎所有关于学术造假的故事都始于论文通过了同行评议并发表。只有在后来,某个老实人(通常是作者自己实验室的人)注意到一些异常之处,决定进行调查。这就是这篇关于不诚实的论文所发生的事情,该论文显然伪造了数据(多么讽刺),而作者们已经发表了数十甚至数百篇造假论文,这场灾难如下图:


“等等,那不是误差棒吧……是论文作者把字母T放在条形图顶上了😂”


为什么审稿人没有注意到基本的错误和公然的欺诈呢?一个理由是,审稿时他们从来不看论文背后的数据,而这恰恰是错误和欺诈最容易出现的地方。实际上,大多数期刊不要求你公开数据。你应该“按要求”提供数据,但大多数人不这么做。这就是为什么我们最终会陷入情景式喜剧的状况,比如大约20%的遗传学论文数据完全无用,因为Excel会自动将基因的名字更正为月份和年份。


(当一名编辑开始要求作者在投稿后补充提交原始数据时,半数作者拒绝了,撤回了投稿。这表明,用这位编辑的话来说,“可能原始数据从一开始就不存在。”)


同行评议的发明甚至鼓励了糟糕的研究。如果你试图发表论文表明,观看小狗视频能让人们向慈善机构捐更多的钱,然后2号审稿人说“如果这项研究也适用于小猫视频,我会感到印象深刻”,这时候你就受到了极大的压力,要证明小猫视频也能起作用。你可能会篡改数字,或者删掉一些极端数据,或者测试一系列小猫视频,直到筛出一个有用的,然后闭口不提那些没用的。


- theconversation.com -



同行评议,我们几乎

都没把你当回事


我们还有另一种方式来检验同行评议是否有效:它真的赢得了科学家们的信任吗?


科学家常常说他们非常认真地看待同行评议。但是,人们会说很多言不由衷的话,比如“很高兴认识你”,“亚当,我永远不会离开你”。如果你看看科学家们实际上所做的事情,很明显,他们并非发自内心地重视同行评议。


第一:如果科学家很关心同行评议,那么当他们的论文在评审环节被拒时,他们会听取反馈,做更多的实验,重写论文等等。然而实际上,他们通常只是把论文原封不动地投到另一个期刊。这是我作为一名年轻的心理学家最早学到的事情之一,当时我的本科导师解释称,发表论文有“巨大的随机成分”。(翻译一下:“朋友,它就是随机的。”)如果第一个期刊行不通,我们就会尝试下一个。她告诉我,发表就像是中彩票,要想中奖就得把盒子塞满彩票。当非常严谨且成功的科学家们声称,你所谓的科学事实核查系统并不比随机水平更好时,这真是令人沮丧。


第二:一旦论文发表了,我们就会把审稿人意见撕成碎片。极少数期刊会发表审稿人意见,大多数不会。没有人关心审稿人说了什么,也没有人关心作者如何根据反馈修改了论文,也就是说,从一开始就没有人把审稿人意见当回事。


第三:科学家们会不假思索地认真对待未经评审的研究工作。我们会阅读“预印本”、工作手稿和博客,它们都没有发表在同行评议期刊上。我们使用来自皮尤(Pew)、盖洛普(Gallup)和政府的数据,它们也未经审核。我们去参加学术会议,听人们交流未经审核的项目,我们不会对任何人说:“太有趣了!我迫不及待地想看它接受同行评议,好判断它是否真实了。”


相反,科学家们默认,同行评议毫无用处,他们通过阅读论文中的方法和结果来对科学研究作出判断。有时,人们会大声说出潜台词,正如诺贝尔奖得主西德尼·布伦纳(Sydney Brenner)所说:


我不信任同行评议,因为我认为它非常扭曲,正如我说过的,它只是一次均值回归。我认为同行评议妨碍了科学。事实上,我觉得它已经变成了一个彻头彻尾的腐败系统。


- businessweek.com -


我们能够修复它吗?

不,我们做不到


我曾设想种种能够改善同行评议的方法。审稿人应该看数据!期刊应该确保论文都没有造假!


想象事情会变好很容易,我的朋友伊桑(Ethan)和我关于此写过一篇论文,但是让事情变好就没那么容易了。我对于同行评议的怨言就像是,看着每年美国有大约35000人死于车祸,然后说:“人们不应该总是出车祸。”这话没错,但怎么做呢?


问题并不在于不够努力:请记住,我们现在的系统需要每年总和15000年的人力付出,但它依然很糟糕。为审稿人付费似乎不会让他们做得更好,训练他们也不行。或许我们可以修复一些次要问题,但请记住,既然现在还有人发表论文时使用大写字母T而不是误差棒,所以我们还有很长很长的路要走。


- AJ Noguerra -


如果我们让同行评议更严格会怎么样呢?这听上去可能很好,但它会造成更多其它的问题,让同行评议更差劲。


例如,过去你可以把科学论文写出个人风格,而现在为了取悦审稿人,你必须把论文写得跟法律合同一样。过去的论文开头是这样的:“救命!一个神秘的数字正在迫害我”;而现在的论文开头是这样的:“据说,人类曾经存在于很多不同的时间和地点,甚至拥有一些品质、维度或关于人类真实的东西,但这当然需要进一步研究(Smergdorf & Blugensnout, 1978; Stikkiwikket, 2002; von Fraud et al., 2018b)。”


糟透了。因此,没有人真的会读这些论文。一些论文长达100页,还附带200页的补充信息,并且写作风格都拒人于千里之外,仿佛想让你立刻停止阅读。最近,有个朋友问我最近一次将一篇论文从头读到尾是什么时候,我记不起来了,他也是。“无论何时有人告诉我他们喜欢我的论文,”他说,“我会说谢谢你,即使我知道他们根本没读。”更加严格的同行评议会意味着论文甚至会变得更无聊,也就意味着它的读者还会变得更少。


- Bored Panda -


让同行评议变得严厉也会使最严重的问题加剧:你的想法要么得到审稿人的喜爱,要么就一无是处,只是知道这一点就会让你的思考能力变差。这就像是再次成为青少年:在你做任何事情之前,你会问自己,“但别人会觉得我酷吗?”如果你能否获得和保住一份工作,取决于能否产出受欢迎的想法,那么你就会非常善于监督自己的思维,使自己永远不接受任何奇怪的或不受欢迎的事情。这意味着,我们最终会陷入创新性想法变少的境地。除非你认为现在一切都很完美,否则我们非常需要创新性想法。


如果你确实找到了一种改善同行评议的方式,不需要让它更糟糕,你可以试着说服现有的近30000家科学期刊,将你的神奇方法用于它们每年发表的约470万篇论文中。祝你好运!


- Slate Magazine -



同行评议比什么都没有还糟糕;

或者,情况已经很尴尬了


同行评议不奏效,可能也无法修复。但有一点点审查总比没有好,对吧?


我会说:不可能。


想象一下,你发现食品药品监督管理局(FDA)“检查”牛肉的方法是派一个人(就叫他加里吧)去闻牛肉的味道,并判断牛肉的味道对不对劲,通过了嗅觉测试的牛肉会获得一张“经FDA检查”的标签。你会非常愤怒。没错,加里可能会找到几批坏的牛肉,但显然他会遗漏大多数有问题的肉。这种极其糟糕的系统比没有还差劲,因为它欺骗人们,让他们以为自己是安全的,而实际上并不是。


这就是目前的同行评议系统,它很危险。关于疫苗导致孤独症的理论来自一篇同行评议论文,发表在世界上最富盛名的期刊之一,它在发表12年后才被撤稿。有多少孩子因为一篇烂论文通过了同行评审,得到了科学认可的标签,而选择不接受疫苗注射?


如果你想要在美国出售一瓶维他命C药片,你必须附上一份免责声明,说明瓶子上的任何声明都没有经过美国FDA的评估。或许,期刊也应该在每篇论文上贴上类似的标签:“据我们所知,没有人检查过该论文是否真实,它可能是伪造的。”这至少给了人们适当程度的信心。


- Gizem Vural -



科学必须自由


为什么同行评议一开始看起来如此合理?


我认为我们错误地理解了科学运作的方式。我们以为科学是一个弱连接问题,即进步取决于我们最差的研究的质量。如果你相信弱连接科学,那么你会认为让错误的观点出局是非常重要的,最好一开始就阻止它们发表。你不介意在过程中是否掩埋了少数好的想法,因为埋葬坏想法太重要了。


科学是一个强连接问题:进步取决于我们最好的研究的质量。更好的想法并不总是会立刻成功,但它们终将成功,因为它们更有用。你不能用亚里士多德的物理学登陆月球,你不能用自然发生说把泥巴变成青蛙,你也不能用燃素制造炸弹。牛顿的物理学定律依然存在,但他的炼金术配方不在了。我们不需要科学发表来杀死坏想法,我们需要它来让新的想法挑战旧的想法,时间会完成剩下的一切。


- i2i Art Inc. Illustration Agency -


如果你有弱连接的担忧,我完全理解。如果我们让人们想说什么就说什么,那么他们可能会说一些不真实的信息,这听起来很吓人。但现在,我们实际上无法阻止人们说出不真实的信息,我们只是假装这么做。事实上,现在我们偶尔会赞美不真实的信息,它们贴有巨大的标签称“经一个出色的期刊审查”,这些标签很难撕掉。这种情况可要吓人得多。


弱连接思维让科学审查制度显得合理,但审查制度实际上只是让旧想法更难被击败。回想一下,地心说曾显然是正确的,但是如果在哥白尼的时代存在科学期刊,地心说审稿人会拒掉他的论文,并因为阻止了错误信息的传播而暗自庆幸。优生学曾经是科学中的热门,如果一篇论文表明黑人和白人一样聪明,你认为一批种族歧视者会让它通过吗?任何一篇作者是黑人的论文能有机会发表吗?(不要以为这已经是古老的历史,这样的事情如今依然在发生。)我们仍然不理解宇宙的基本真相,今天我们相信的许多想法某一天会被推翻。同行评议,和每一种审查制度一样,只是放慢了真相的速度。


- bibliocolors.blogspot.com -



好耶,我们失败了


没有人负责我们的同行评议实验,这意味着没有人有责任提出结束时间。既然没有其他人了,那么我猜我会这么做:


各位,我们结束了!大家举起香槟!干得漂亮,恭喜。我们尝试了同行评议,它不奏效。


坦白说,我松了一口气,这个系统糟透了!等待数月,只为听到编辑认为你的论文不值得被审稿?阅读来自审稿人的长篇大论,而他们出于某些原因,把你的论文视为宇宙万恶之源?花上一整天向期刊发邮件,乞求他们让你用“years(年)”,而非毫无理由地总是缩写成“y”(我真碰到过这事)?我们再也不用做任何这样的事情了。


我知道,浪费了这么多的时间,我们或许都有些失望,但对一场失败的实验没什么好羞愧的。是的,我们应该在全球推广前对同行评议进行测试。但是没关系,它一开始似乎是个好想法,但现在我们知道它不是。这就是科学!当然,对于科学家来说,对彼此的想法发表看法总是重要的,只是这种具体的做法没能奏效。


- thenation.com -


我们现在应该做什么?上个月我发表了一篇论文,我是说我向互联网上传了一个PDF文件*。我用平常的语言写作,所以任何人都能理解。我没有隐瞒任何东西,我甚至承认我忘记了为什么要开展一项研究。我在里面写了笑话,因为没人能阻止我。我上传了所有的材料、数据和代码,每个人都能看到。我想我看起来像个傻瓜,没有人会注意到我,但至少我很开心,并且做了我认为正确的事情。


*译者注

https://t.co/VcU9FKrJuz;推特评论见:https://twitter.com/PsyArXivBot/status/1592280692276215808


接下来,我没有告诉任何人关于这篇论文的信息,就有数以千计的人发现了它,给它留言评论,在推特上转发。


完全陌生的人给我发邮件,给出经过思考的评论。终身教授们发给我他们的想法。NPR邀请我进行访谈。现在,比起我上一篇发表在权威期刊PNAS上的同行评议论文,这篇论文拥有更高的阅读量。同时,我预感更多的人会把这篇新论文从头读到尾,因为最后几段得到了许多评论。所以,我不确定,这大概是一个发表论文的好办法?


我不知道科学的未来会怎么样,也许我们会在元宇宙中创作交互式论文,或者把数据集下载到我们的大脑中,又或者在科技狂欢的舞池中低声耳语,交流我们的发现。无论如何,这都要比过去六十年我们所做的要好得多。为了实现这一天,我们所能做的一切就是我们最擅长的事情——实验*。


*译者注

本篇文章的后续问答及其读者评论见:

https://www.experimental-history.com/p/the-dance-of-the-naked-emperors


后记

Xhaiden:谁是同行?



作者:Atom Mastroianni | 翻译:Xhaiden

校对:玛雅蓝 编辑:光影

排版:๑Anneliese | 封面theconversation.com 

原文:

https://experimentalhistory.substack.com/p/the-rise-and-fall-of-peer-review


本文转载自公众号神经现实

凡本公众号转载、引用的文章 、图片、音频、视频文件等资料的版权归版权所有人所有,因此产生相关后果,由版权所有人、原始发布者和内容提供者承担,如有侵权请联系删除。


点击【在看】,及时接收我们的内容更新 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这才是中美关系缓和的最大障碍暑假带娃做了这件事,开学进步一大截!早知道早省心大企业高效扩展本地创新,需要克服三大障碍点亮营阳朔游学 | 良师在侧、益友同行,是人生最大的幸事技术进步的是与非登上加拿大国家电视塔福岛核废水,从来都不是科学问题。福特聘请苹果前高管Peter Stern领导综合服务部门;Papa Johns将对其全国营销机构进行评估(广告狂人日报)华人新移民在美国实现财富自由的最大障碍是什么?99%的人都说是这个...今夜,利空突袭美国!10家银行评级被下调,美股全线下跌!太惨了,欧洲损失7900亿…瑞幸联名茅台,是酱香科技还是科技酱香?Sarah Sze and Siddhartha Mukherjee苹果折叠产品再曝:已进行评估、或即将到来“此生无悔生在中华,来世要做俄罗斯人”太牛!92岁默多克新恋情曝光!女友是科学家!还是邓文迪介绍的?“黑天鹅”再现?穆迪下调10家美国银行评级最有想象力的,不是科幻,而是科学想在台湾政坛立足,郭台铭需克服三大障碍高盛发布银行评级报告;Twitter 取消登录查看限制;中美科技战升级;怀疑和批判精神是人类进步的源泉省考EQAO成绩公布:安省小学生数学成绩进步了...又好像没进步资产配置是科学,也是艺术哈佛+斯坦福前招生官亲临悉尼,讲述如何从悉尼中学进入世界名校!澳洲学生家长赶紧看!(古詩英譯) 鄂州南楼书事 – 黃庭堅《国学进步集》| 坚持学习,可能是最~简便的修行法门聊一款性价比明显进步的游戏本重思技术进步的逻辑冰岛11: 致敬比哥伦布早发现美洲的人中信、光大银行大消息!惠誉上调长期评级,什么信号?中小银行评级出现分化全球最佳学校排名出炉!加国只有2所大学进入前50名同行见面,分外眼红:发传单到同行门口,惨遭扇耳光美国半导体,面临巨大障碍一键参与!国家卫健委推出行风评议平台那些促进人类进步的永恒经典,专家们为孩子写了少儿版实惨!学术界“窦娥”竟因为杂志编辑部的失误,导致论文没有经过同行评审被撤回……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。