同行评议，是科学进步的最大障碍吗？

2023-08-28 15:08

在过去大约60年里，科学自身在开展一项实验。实验设计不怎么样，既没有随机化，也没有对照组。确切地说，没有人负责这个实验，实际上也没有人进行持续测量。然而，这是史上规模最大的实验，纳入了地球上每一位科学家。

大多数人甚至没有意识到他们身处实验之中，包括我在内的许多人在实验开始时尚未出生。如果我们曾经注意到会发生什么，也许我们会要求做到最基本的科学严谨。也许无人反对过这项实验，因为它的假设似乎显然是真的：如果我们找人检查每一篇论文，拒绝发表那些未通过评审的，那么科学就能变得更好。人们称之为“同行评议”。

这是一场规模宏大的变革。从古至今，科学家写信、传播专著，阻止他们交流科学发现的主要因素是纸张、邮资或印刷成本，或者在极少数的情况下，是接待天主教会来访的费用。科学期刊出现于17世纪，但当时它们更像是杂志或简报，挑选文章的机制也各不相同，从“我们收到什么就印什么”，到“编辑询问他的朋友怎么想的”，再到“全学会投票”。有时，期刊无法得到足够的文章发表，所以编辑需要四处恳求朋友投稿，或者亲自上阵。科学发表的大杂烩状况维持了数个世纪。

（顺便一说，爱因斯坦的论文中只有一篇经历过同行评议，并且这令他感到十分惊讶和不安，最后他将文章发表在另一个期刊上。）

- Duy Huynh -

二战之后，一切都变了。政府投入资金用于研究，同时召集了“同行审稿人”，以确保他们没有把钱浪费在愚蠢的提案上。这些资金变成了大量的论文，曾经苦苦挣扎着填满版面的期刊如今难以抉择要发表哪些文章。在20世纪60年代前，发表论文前进行评审“十分罕见”，如今这种现象越来越普遍，最后风行全球。

现在，几乎每家期刊都会邀请外部专家来评审论文，不讨审稿人欢心的论文会被拒稿。你仍然可以把你的发现写信告诉朋友，但以招聘委员会和资助机构的所作所为看来，仿佛科学仅仅存在于同行评审期刊上的论文中。这就是我们运行了六十年的大型实验。

结果出现了。同行评议失败了。

- tommyparker.co.uk -

海量资金的浪费

同行评议是一项巨大的、昂贵的干预行动。据估计，科学家群体每年花在评审论文上的时间达15000年（每个审稿人所用时间的总和）。一篇论文需要花费数月或数年才能通过评审系统，当人们试图做一些诸如治愈癌症、阻止气候变化之类的事情时，这无疑会耽误许多时间。同时，大学要支付数百万美元来获得同行评议期刊的访问权限，即使大多数研究都是纳税人资助的，而且这些钱一分也没有流向作者或审稿人。

大规模的干预理应产生大规模的影响。例如，如果你向学校系统投资1亿美元，顺利的话这笔钱最终能让学生过得更好。如果数年后你出现了，你问：“嘿，我的1亿美元对学校系统起到了怎样的帮助？”然后每个人都说：“呃，我们不确定它起了什么作用，我们现在也对你十分恼火。”那么你会感到非常沮丧和尴尬。类似地，如果同行评议改善了科学，那效果应该是非常明显的；如果它没有带来改善，那我们应该感到非常沮丧和尴尬。

同行评议并没有改善科学。几十年来，在所有不同的领域，研究生产力一直趋于停滞，甚至在走下坡路，而同行评议似乎没有改变这一趋势。新的想法没能取代旧的想法。许多经过同行评议的发现未能被重复，它们中的大多数可能根本就是错误的。当你让科学家们评价20世纪获得物理学、医学和化学诺贝尔奖的发现时，他们会说，在同行评议前发表的发现和那些在同行评议后发表的一样好，甚至要更好。然而事实上，因为从20世纪90年代到21世纪初做出的诺贝尔奖发现数量太少，你甚至没法要求他们对这些发现进行评价。

当然，自二战以来，许多其它的事情也发生了变化。而这场实验开展得很糟糕，所以一切都乱套了。从这些大趋势中，我们只能说，我们不知道同行评议是否有所助益，它也可能有害，而且它成本高昂，并且科学文献目前的状况也相当糟糕。在这方面，我们称之为完全的失败。

- WE AND THE COLOR -

事后检查

是哪里出错了？

这里有一个简单的问题：同行评议是否做了它应该做的？它是否揪出了差研究，阻止它们发表？

它没有。科学家已经做过这样的研究，他们故意在论文中添加错误，投递给审稿人，统计审稿人会揪出多少错误。审稿人表现很糟糕。在一项研究^[1]中，审稿人找出了30%的主要缺陷（Baxt et al., 1998）；另一项研究^[2]中是25%（Godlee et al., 1998）；第三项研究^[3]的结论是29%（Schroter et al., 2008）。这些错误都是关键问题，例如“该论文声称使用了随机化对照试验但实际上没有”，“当你看图表时，很明显没有效应”，以及“作者得出了完全不被数据支持的结论”。大多数审稿人都没有注意到。

*译者注

[1] Baxt, W. G., Waeckerle, J. F., Berlin, J. A., & Callaham, M. L. (1998). Who Reviews the Reviewers? Feasibility of Using a Fictitious Manuscript to Evaluate Peer Reviewer Performance. Annals of Emergency Medicine, 32(3), 310–317. https://doi.org/10.1016/S0196-0644(98)70006-X
[2] Godlee, F., Gale, C. R., & Martyn, C. N. (1998). Effect on the Quality of Peer Review of Blinding Reviewers and Asking Them to Sign Their ReportsA Randomized Controlled Trial. JAMA, 280(3), 237–240. https://doi.org/10.1001/jama.280.3.237
[3] Schroter, S., Black, N., Evans, S., Godlee, F., Osorio, L., & Smith, R. (2008). What errors do peer reviewers detect, and does training improve their ability to detect them? Journal of the Royal Society of Medicine, 101(10), 507–514. https://doi.org/10.1258/jrsm.2008.080062

事实上，我们已经得到了同行评议无效的现实数据：造假论文一直在发表。如果审稿人发挥了作用，那么我们本该听到许多故事，像是“贾教授今天被解雇，因为他试图向一家科学期刊投递伪造的论文。”但我们从没听说过这样的故事，相反，几乎所有关于学术造假的故事都始于论文通过了同行评议并发表。只有在后来，某个老实人（通常是作者自己实验室的人）注意到一些异常之处，决定进行调查。这就是这篇关于不诚实的论文所发生的事情，该论文显然伪造了数据（多么讽刺），而作者们已经发表了数十甚至数百篇造假论文，这场灾难如下图：

“等等，那不是误差棒吧……是论文作者把字母T放在条形图顶上了😂”

为什么审稿人没有注意到基本的错误和公然的欺诈呢？一个理由是，审稿时他们从来不看论文背后的数据，而这恰恰是错误和欺诈最容易出现的地方。实际上，大多数期刊不要求你公开数据。你应该“按要求”提供数据，但大多数人不这么做。这就是为什么我们最终会陷入情景式喜剧的状况，比如大约20%的遗传学论文数据完全无用，因为Excel会自动将基因的名字更正为月份和年份。

（当一名编辑开始要求作者在投稿后补充提交原始数据时，半数作者拒绝了，撤回了投稿。这表明，用这位编辑的话来说，“可能原始数据从一开始就不存在。”）

同行评议的发明甚至鼓励了糟糕的研究。如果你试图发表论文表明，观看小狗视频能让人们向慈善机构捐更多的钱，然后2号审稿人说“如果这项研究也适用于小猫视频，我会感到印象深刻”，这时候你就受到了极大的压力，要证明小猫视频也能起作用。你可能会篡改数字，或者删掉一些极端数据，或者测试一系列小猫视频，直到筛出一个有用的，然后闭口不提那些没用的。

- theconversation.com -

同行评议，我们几乎

都没把你当回事

我们还有另一种方式来检验同行评议是否有效：它真的赢得了科学家们的信任吗？

科学家常常说他们非常认真地看待同行评议。但是，人们会说很多言不由衷的话，比如“很高兴认识你”，“亚当，我永远不会离开你”。如果你看看科学家们实际上所做的事情，很明显，他们并非发自内心地重视同行评议。

第一：如果科学家很关心同行评议，那么当他们的论文在评审环节被拒时，他们会听取反馈，做更多的实验，重写论文等等。然而实际上，他们通常只是把论文原封不动地投到另一个期刊。这是我作为一名年轻的心理学家最早学到的事情之一，当时我的本科导师解释称，发表论文有“巨大的随机成分”。（翻译一下：“朋友，它就是随机的。”）如果第一个期刊行不通，我们就会尝试下一个。她告诉我，发表就像是中彩票，要想中奖就得把盒子塞满彩票。当非常严谨且成功的科学家们声称，你所谓的科学事实核查系统并不比随机水平更好时，这真是令人沮丧。

第二：一旦论文发表了，我们就会把审稿人意见撕成碎片。极少数期刊会发表审稿人意见，大多数不会。没有人关心审稿人说了什么，也没有人关心作者如何根据反馈修改了论文，也就是说，从一开始就没有人把审稿人意见当回事。

第三：科学家们会不假思索地认真对待未经评审的研究工作。我们会阅读“预印本”、工作手稿和博客，它们都没有发表在同行评议期刊上。我们使用来自皮尤（Pew）、盖洛普（Gallup）和政府的数据，它们也未经审核。我们去参加学术会议，听人们交流未经审核的项目，我们不会对任何人说：“太有趣了！我迫不及待地想看它接受同行评议，好判断它是否真实了。”

相反，科学家们默认，同行评议毫无用处，他们通过阅读论文中的方法和结果来对科学研究作出判断。有时，人们会大声说出潜台词，正如诺贝尔奖得主西德尼·布伦纳（Sydney Brenner）所说：

我不信任同行评议，因为我认为它非常扭曲，正如我说过的，它只是一次均值回归。我认为同行评议妨碍了科学。事实上，我觉得它已经变成了一个彻头彻尾的腐败系统。

- businessweek.com -

我们能够修复它吗？

不，我们做不到

我曾设想种种能够改善同行评议的方法。审稿人应该看数据！期刊应该确保论文都没有造假！

想象事情会变好很容易，我的朋友伊桑（Ethan）和我关于此写过一篇论文，但是让事情变好就没那么容易了。我对于同行评议的怨言就像是，看着每年美国有大约35000人死于车祸，然后说：“人们不应该总是出车祸。”这话没错，但怎么做呢？

问题并不在于不够努力：请记住，我们现在的系统需要每年总和15000年的人力付出，但它依然很糟糕。为审稿人付费似乎不会让他们做得更好，训练他们也不行。或许我们可以修复一些次要问题，但请记住，既然现在还有人发表论文时使用大写字母T而不是误差棒，所以我们还有很长很长的路要走。

- AJ Noguerra -

如果我们让同行评议更严格会怎么样呢？这听上去可能很好，但它会造成更多其它的问题，让同行评议更差劲。

例如，过去你可以把科学论文写出个人风格，而现在为了取悦审稿人，你必须把论文写得跟法律合同一样。过去的论文开头是这样的：“救命！一个神秘的数字正在迫害我”；而现在的论文开头是这样的：“据说，人类曾经存在于很多不同的时间和地点，甚至拥有一些品质、维度或关于人类真实的东西，但这当然需要进一步研究（Smergdorf & Blugensnout, 1978; Stikkiwikket, 2002; von Fraud et al., 2018b）。”

糟透了。因此，没有人真的会读这些论文。一些论文长达100页，还附带200页的补充信息，并且写作风格都拒人于千里之外，仿佛想让你立刻停止阅读。最近，有个朋友问我最近一次将一篇论文从头读到尾是什么时候，我记不起来了，他也是。“无论何时有人告诉我他们喜欢我的论文，”他说，“我会说谢谢你，即使我知道他们根本没读。”更加严格的同行评议会意味着论文甚至会变得更无聊，也就意味着它的读者还会变得更少。

- Bored Panda -

让同行评议变得严厉也会使最严重的问题加剧：你的想法要么得到审稿人的喜爱，要么就一无是处，只是知道这一点就会让你的思考能力变差。这就像是再次成为青少年：在你做任何事情之前，你会问自己，“但别人会觉得我酷吗？”如果你能否获得和保住一份工作，取决于能否产出受欢迎的想法，那么你就会非常善于监督自己的思维，使自己永远不接受任何奇怪的或不受欢迎的事情。这意味着，我们最终会陷入创新性想法变少的境地。除非你认为现在一切都很完美，否则我们非常需要创新性想法。

如果你确实找到了一种改善同行评议的方式，不需要让它更糟糕，你可以试着说服现有的近30000家科学期刊，将你的神奇方法用于它们每年发表的约470万篇论文中。祝你好运！

- Slate Magazine -

同行评议比什么都没有还糟糕；

或者，情况已经很尴尬了

同行评议不奏效，可能也无法修复。但有一点点审查总比没有好，对吧？

我会说：不可能。

想象一下，你发现食品药品监督管理局（FDA）“检查”牛肉的方法是派一个人（就叫他加里吧）去闻牛肉的味道，并判断牛肉的味道对不对劲，通过了嗅觉测试的牛肉会获得一张“经FDA检查”的标签。你会非常愤怒。没错，加里可能会找到几批坏的牛肉，但显然他会遗漏大多数有问题的肉。这种极其糟糕的系统比没有还差劲，因为它欺骗人们，让他们以为自己是安全的，而实际上并不是。

这就是目前的同行评议系统，它很危险。关于疫苗导致孤独症的理论来自一篇同行评议论文，发表在世界上最富盛名的期刊之一，它在发表12年后才被撤稿。有多少孩子因为一篇烂论文通过了同行评审，得到了科学认可的标签，而选择不接受疫苗注射？

如果你想要在美国出售一瓶维他命C药片，你必须附上一份免责声明，说明瓶子上的任何声明都没有经过美国FDA的评估。或许，期刊也应该在每篇论文上贴上类似的标签：“据我们所知，没有人检查过该论文是否真实，它可能是伪造的。”这至少给了人们适当程度的信心。

- Gizem Vural -

科学必须自由

为什么同行评议一开始看起来如此合理？

我认为我们错误地理解了科学运作的方式。我们以为科学是一个弱连接问题，即进步取决于我们最差的研究的质量。如果你相信弱连接科学，那么你会认为让错误的观点出局是非常重要的，最好一开始就阻止它们发表。你不介意在过程中是否掩埋了少数好的想法，因为埋葬坏想法太重要了。

但科学是一个强连接问题：进步取决于我们最好的研究的质量。更好的想法并不总是会立刻成功，但它们终将成功，因为它们更有用。你不能用亚里士多德的物理学登陆月球，你不能用自然发生说把泥巴变成青蛙，你也不能用燃素制造炸弹。牛顿的物理学定律依然存在，但他的炼金术配方不在了。我们不需要科学发表来杀死坏想法，我们需要它来让新的想法挑战旧的想法，时间会完成剩下的一切。

- i2i Art Inc. Illustration Agency -

如果你有弱连接的担忧，我完全理解。如果我们让人们想说什么就说什么，那么他们可能会说一些不真实的信息，这听起来很吓人。但现在，我们实际上无法阻止人们说出不真实的信息，我们只是假装这么做。事实上，现在我们偶尔会赞美不真实的信息，它们贴有巨大的标签称“经一个出色的期刊审查”，这些标签很难撕掉。这种情况可要吓人得多。

弱连接思维让科学审查制度显得合理，但审查制度实际上只是让旧想法更难被击败。回想一下，地心说曾显然是正确的，但是如果在哥白尼的时代存在科学期刊，地心说审稿人会拒掉他的论文，并因为阻止了错误信息的传播而暗自庆幸。优生学曾经是科学中的热门，如果一篇论文表明黑人和白人一样聪明，你认为一批种族歧视者会让它通过吗？任何一篇作者是黑人的论文能有机会发表吗？（不要以为这已经是古老的历史，这样的事情如今依然在发生。）我们仍然不理解宇宙的基本真相，今天我们相信的许多想法某一天会被推翻。同行评议，和每一种审查制度一样，只是放慢了真相的速度。

- bibliocolors.blogspot.com -

好耶，我们失败了

没有人负责我们的同行评议实验，这意味着没有人有责任提出结束时间。既然没有其他人了，那么我猜我会这么做：

各位，我们结束了！大家举起香槟！干得漂亮，恭喜。我们尝试了同行评议，它不奏效。

坦白说，我松了一口气，这个系统糟透了！等待数月，只为听到编辑认为你的论文不值得被审稿？阅读来自审稿人的长篇大论，而他们出于某些原因，把你的论文视为宇宙万恶之源？花上一整天向期刊发邮件，乞求他们让你用“years（年）”，而非毫无理由地总是缩写成“y”（我真碰到过这事）？我们再也不用做任何这样的事情了。

我知道，浪费了这么多的时间，我们或许都有些失望，但对一场失败的实验没什么好羞愧的。是的，我们应该在全球推广前对同行评议进行测试。但是没关系，它一开始似乎是个好想法，但现在我们知道它不是。这就是科学！当然，对于科学家来说，对彼此的想法发表看法总是重要的，只是这种具体的做法没能奏效。

- thenation.com -

我们现在应该做什么？上个月我发表了一篇论文，我是说我向互联网上传了一个PDF文件*。我用平常的语言写作，所以任何人都能理解。我没有隐瞒任何东西，我甚至承认我忘记了为什么要开展一项研究。我在里面写了笑话，因为没人能阻止我。我上传了所有的材料、数据和代码，每个人都能看到。我想我看起来像个傻瓜，没有人会注意到我，但至少我很开心，并且做了我认为正确的事情。

*译者注

https://t.co/VcU9FKrJuz；推特评论见：https://twitter.com/PsyArXivBot/status/1592280692276215808

接下来，我没有告诉任何人关于这篇论文的信息，就有数以千计的人发现了它，给它留言评论，在推特上转发。

完全陌生的人给我发邮件，给出经过思考的评论。终身教授们发给我他们的想法。NPR邀请我进行访谈。现在，比起我上一篇发表在权威期刊PNAS上的同行评议论文，这篇论文拥有更高的阅读量。同时，我预感更多的人会把这篇新论文从头读到尾，因为最后几段得到了许多评论。所以，我不确定，这大概是一个发表论文的好办法？

我不知道科学的未来会怎么样，也许我们会在元宇宙中创作交互式论文，或者把数据集下载到我们的大脑中，又或者在科技狂欢的舞池中低声耳语，交流我们的发现。无论如何，这都要比过去六十年我们所做的要好得多。为了实现这一天，我们所能做的一切就是我们最擅长的事情——实验*。

*译者注

本篇文章的后续问答及其读者评论见：

https://www.experimental-history.com/p/the-dance-of-the-naked-emperors

后记

Xhaiden：谁是同行？

作者：Atom Mastroianni | 翻译：Xhaiden

校对：玛雅蓝 | 编辑：光影

排版：๑Anneliese | 封面：theconversation.com

原文：

https://experimentalhistory.substack.com/p/the-rise-and-fall-of-peer-review

本文转载自公众号神经现实”