Nature | 某些领域，至少四分之一的临床试验可能存在造假！

2023-07-20 00:07

本文由《生命科学前沿》公众号编译

调查表明，在某些领域，至少有四分之一的临床试验可能存在问题或是伪造的，研究人员发出警告，并呼吁加强审查。——Richard Van Noorden

有多少在医学期刊上发表的临床试验研究是伪造的或存在严重缺陷？在2020年10月，约翰·卡莱尔斯（John Carlisle）报告了一个令人震惊的估计。卡莱尔斯是一名麻醉师，供职于英国国家医疗服务体系，以其发现医学试验中可疑数据的能力而闻名。他还是Anaesthesia期刊的编辑，在2017年，他决定审查他所处理的所有报告了随机对照试验（RCT）-医学研究的黄金标准的文稿。在三年的时间里，他审查了500多项研究。

通过研究IPD电子表格，他判断出44%的试验数据存在缺陷：包括不可能的统计数据、错误的计算或重复的数字或图表。他认为有26%的文稿问题非常普遍，导致试验无法信任——要么是因为作者不称职，要么是因为他们伪造了数据。

卡莱尔斯将这些试验称为“僵尸”试验，因为它们看起来像真正的研究，但仔细审查后发现它们实际上是空洞的外壳，伪装成可靠的信息。他自己对这种情况的普遍性感到惊讶。“我预计可能有十分之一左右，”他说。

然而，当卡莱尔斯无法获取试验的原始数据时，他只能研究摘要表格中的汇总信息。他判断这种情况下只有1%的试验是“僵尸”试验，有2%的试验数据存在缺陷（见“‘僵尸’试验的普遍性”）。这个发现也让他感到担忧，因为它表明即使经验丰富的侦探没有IPD，即期刊编辑通常不要求的数据，审稿人也看不到隐藏的缺陷。

卡莱尔斯拒绝了每一份“僵尸”试验，但时至今日，几乎三年过去了，其中大多数已经发表在其他期刊上——有时与他所看到的原始稿件提交的数据不同。他正在写信给期刊编辑提醒他们，但预计将会有很少的实际行动。

卡莱尔斯在麻醉学领域的研究结果是否适用于其他领域？多年来，许多科学家、医生和数据侦探都认为虚假或不可靠的试验在各个医学领域中都普遍存在。他们已经对多个医学领域进行了RCT的研究，如妇女健康、疼痛研究、麻醉学、骨骼健康和COVID-19，并发现了数十个甚至数百个试验，其数据看似统计学上不可能。一些人根据个人经验说，四分之一的试验不可信可能是一个低估。“如果你搜索某个主题上的所有随机试验，大约有三分之一的试验是伪造的，”伦敦卫生与热带医学学院的流行病学家伊恩·罗伯茨断言。

问题在一定程度上是臭名昭著的纸张产业问题的一个子集：在过去的十年里，许多领域的期刊都发表了数以万计的可疑伪造论文，其中一些据信是由第三方公司—所谓的纸张厂制作的。

但伪造或不可靠的RCT是一个特别危险的威胁。它们不仅涉及医学干预，还可以通过包含在荟萃分析和系统评价中变得正规，这些评价彻底审查文献，评估临床治疗的证据。医疗指南经常引用这样的评估，医生在决定如何治疗患者时会参考这些指南。

墨尔本澳大利亚的莫纳什大学妇产科学专家本·莫尔认为，在妇女健康方面，有20%到30%的RCT被怀疑。

许多研究诚信专家表示这个问题存在，但其程度和影响尚不清楚。有些人对最令人震惊的例子所示的问题是否如此严重表示怀疑。“我们必须认识到，在高质量证据领域，噪声越来越多。有一些人在推动这一点，并产生了真正可怕的统计数据。但也有很多学术界的人认为这是危言耸听，”英国利物浦大学胎儿和孕产妇医学专家扎尔科·阿尔菲雷维奇说。

今年，他和其他人正在进行更多研究，以评估问题的严重程度。由阿尔菲雷维奇领导的一项研究的初步结果并不乐观。

伪造试验的洗白

医学研究一直存在欺诈行为。例如，罗伯茨在2005年为著名的科克兰协作组织（Cochrane Collaboration）共同撰写了一篇系统评价时，首次接触到这个问题。这个组织的医学研究证据评价经常被用来制定临床实践指南。该评价指出高剂量的含糖溶液可以降低头部受伤后的死亡率。但是在人们对这篇论文引用的三个关键试验产生怀疑后，罗伯茨撤回了这个结论。这三个试验的作者都是巴西神经外科医生朱利奥·克鲁兹。然而，罗伯茨从未发现这些试验是否是伪造的，因为克鲁兹在调查开始前因自杀身亡。克鲁兹的文章没有被撤回。

另一个近期的例子是日本骨健康研究者佐藤良博。佐藤于2016年去世，他在数十个预防骨折的药物或补充剂试验中伪造数据。据Retraction Watch网站编制的列表显示，他有113篇被撤回的论文。他的工作产生了广泛影响：研究人员发现，27篇佐藤被撤回的RCT被88篇系统评价和临床指南引用，其中一些评价影响了日本对骨质疏松症的治疗建议。

其中大约一半的这些评价的结果会因为佐藤的试验被排除而发生改变，阿伦·阿文尔（Alison Avenell）是英国阿伯丁大学的一名医学研究员，她和医学研究员安德鲁·格雷（Andrew Grey）、马克·鲍兰德（Mark Bolland）和格雷格·甘布尔（Greg Gamble）一起，在新西兰奥克兰大学工作，他们敦促大学调查佐藤的工作并监测其影响。阿文尔说：“它可能导致人们没有得到更有效的骨折预防治疗。”

然而，对“僵尸”试验的担忧超越了那些在潜伏中的个人欺诈者。研究人员担心，在某些领域，来自不同研究团队的大量随机对照试验可能是不可靠的。

例如，在疫情期间，有大量的RCTs在是否能够用抗寄生虫药物伊维菌素治疗COVID-19上进行了。但是没有参与其中的研究人员后来指出了其中许多研究的数据缺陷，其中一些已被撤回。一份2022年的科克兰评价更新认为，这些RCTs中有超过40%是不可信的。

德国维尔茨堡大学的生物学家斯蒂芬妮·韦贝尔（Stephanie Weibel）是该评价的共同作者，她说：“不可信的工作必须从系统评价中移除。”

在产科健康领域，又一个似乎问题丛生的领域，罗伯茨和莫尔指出了对一种名为赛曲司琼酸的药物进行的研究，以确定它是否能够控制分娩后的严重出血。每年大约有1400万人出现这种情况，其中约有7万人死亡，这是世界上导致产妇死亡的主要原因。

在2016年，罗伯茨对使用赛曲司琼酸治疗分娩后严重失血的证据进行了审查。他报告称，在调查这种药物的26个随机对照试验中，许多试验存在严重缺陷。其中一些试验有相同的文本，其他试验有数据不一致或没有伦理批准记录。有些试验似乎没有充分地对参与者进行随机分配到对照组和治疗组。

当他与个别作者进行后续跟进，要求更多细节和原始数据时，通常没有得到回应，或者被告知记录丢失或因计算机盗窃而丢失。幸运的是，2017年进行了一项大型高质量的多中心试验，罗伯茨参与了该试验，结果表明这种药物是有效的。罗伯茨说，很可能在这些以及其他类似情况下，一些可疑的试验是模仿欺诈——研究人员看到一项大型试验正在进行，然后制造了小型、质量不佳的副本，没有人会质疑。然而，这种欺诈并非没有受害者的犯罪。他说：“它会导致置信区间变窄，使结果看起来比实际更确定。它还有可能放大错误的结果，暗示某种治疗有效，实际上并非如此。”

另一个问题可能会发生在：如果医生在每个接受剖宫产的妇女产后立即注射这种药物作为预防措施，会怎样？一项2021年的评价调查了36个这方面的RCT，涉及超过10,000名参与者，得出结论称这将使大量失血的风险降低60%。

然而今年四月，由美国牵头的一项涉及11,000人的规模庞大的RCT仅报告了微小的且没有统计学意义的好处。

莫尔认为，这36个以前的RCT中的一些问题解释了这种差异。2021年的荟萃分析包括了法国一项涉及4,000多名参与者的多中心研究，结果发现严重失血降幅较小，仅为16%；还包括其他35个小型的单中心研究，其中大多数在印度、伊朗、埃及和中国进行，这些研究总体估计失血降幅为93%。莫尔表示，其中许多小型RCT是不可靠的，他对其中一些进行了详细研究。

目前尚不清楚这些不可靠的研究是否影响了临床实践。世界卫生组织（WHO）推荐使用赛曲司琼酸治疗分娩后的失血，但没有关于预防性使用该药物的指南。

从四个试验到一个

莫尔指出了另一个例子，其中不可信的试验可能影响了临床实践。在2018年，研究人员发表了一份科克兰综述，研究给予剖宫产的人群激素是否有助于降低婴儿的呼吸问题。莫尔表示，激素对婴儿的肺部有益，但可能对发育中的大脑造成伤害；在婴儿早产时，益处通常大于伤害，但在妊娠后期使用激素时情况不太明确。

2018年的综述由希腊塞萨洛尼基亚里士多德大学的产科医学专家亚历山德罗斯·索提里亚迪斯领导，分析了给予剖宫产产妇激素的证据。他们找到了四个随机对照试验：一项英国的研究涉及超过940名参与者，还有三个埃及的试验，分别在2015年至2018年间进行，增加了另外3000名参与者的数据。综述得出结论称激素“可能”降低呼吸问题的发生率，该综述被引用在200多个文件和一些临床指南中。

然而，到了2021年1月，莫尔和其他人更深入地审查了这些论文，并对埃及的试验提出了关注。他指出，最大的一项研究涉及近1300名参与者，基于第二作者的论文，但论文和论文中试验的结束日期不一致。而且报道的男婴与女婴比例是不可能的40%比60%。莫尔也对其他论文提出了质疑，并写信给作者，但他表示并未得到令人满意的回复。（其中一名作者告诉他，他在搬家时丢失了数据。）莫尔的团队还对这些作者的其他作品报告了统计问题。

到了2021年12月，索提里亚迪斯的团队更新了他们的综述。但这一次，他们采用了新的筛选协议。在那一年之前，科克兰综述的目标是包括所有相关的随机对照试验；如果研究人员发现试验可能存在问题，他们会通过“偏倚风险”检查表降低对其结果的信心，但不会将其从分析中排除。但在2021年，科克兰的研究诚信团队出台了新的指导方针：作者应该尽力确定“有问题”或“不可靠”的试验，并将它们从综述中排除。索提里亚迪斯的团队现在只保留了英国的研究。只剩下一项试验，没有“足够的数据”来得出关于激素的明确结论，研究人员表示。

据Retraction Watch网站报道，到去年5月，这项大型埃及试验被撤回（虽然作者对此并不同意）。期刊编辑在撤回通知中写道，他们没有收到该试验的数据或作者的满意回复，还补充说“如果数据不可靠，妇女和婴儿会受到伤害”。另外两个试验仍在泰勒和弗朗西斯出版社的调查中，作为更大范围的论文案件的一部分，该出版社的出版伦理主任萨比娜·阿拉姆说。在2018年的综述之前，一些临床指南曾暗示在妊娠后期使用激素可能是有益的，并且这种做法在一些国家，比如澳大利亚，一直在增加。然而，最新更新的世界卫生组织和地区指南则建议不采用这种做法。

总体而言，莫尔和他的同事指出了超过800篇已发表的医学研究论文的问题，其中至少有500篇是随机对照试验。到目前为止，这项工作已导致80多篇论文撤回和50多篇引起关注。莫尔的研究重点主要是中东国家，尤其是埃及的论文。一位研究人员通过回复他的电子邮件，指责他种族主义。然而，莫尔表示，这只是一个事实，他在伊朗、埃及、土耳其和中国等国家遇到了许多可疑的统计数据和拒绝共享随机对照试验作者的数据，他认为自己有权指出这一点。

筛选可信度

“本·莫尔在发现和打击数据伪造领域无疑是先锋，”索提里亚迪斯表示，但他补充说证明一篇论文是伪造的是困难的。索提里亚迪斯表示，在更新综述时，他的团队并不依赖莫尔的工作，并且不能确定这些试验是否存在不端行为。

相反，他的团队遵循了一个旨在检查“可信度”的筛选协议。这个协议是由科克兰独立的专业组织之一—科克兰妊娠与儿童出生组织（CPC组）开发的，由阿尔菲列维奇协调。（今年四月，科克兰正式解散了这个组织和其他一些组织，作为重组战略的一部分）。该协议提供了一份详细的标准清单，作者应该按照这些标准检查随机对照试验的可信度，例如试验是否事先注册，研究是否没有异常的统计数据，比如参与者身高、体重或其他特征的均值分布异常狭窄或异常宽泛，以及其他潜在的风险。如果随机对照试验未能通过检查，审稿人被要求联系原始研究的作者，如果回复不足够满意，则将试验排除。

阿尔菲列维奇解释说：“我们倡导的观点是，如果一项研究未能通过这些标准，那么没有硬性指责，但我们不能称之为足够可信。”

对于索提里亚迪斯来说，这个协议的优点在于避免了他不得不宣布试验有缺陷或欺诈性的情况；它们只是未通过可信度测试。他的团队最终报告说，排除了埃及的试验，因为它们没有事先注册，并且作者没有解释原因。

其他科克兰的作者也开始采用同样的协议。例如，一篇于去年8月发布的关于预防早产的药物的综述，使用该协议排除了44项研究——即文献中的122个试验中的四分之一。

什么是值得信赖的?

是否有时对RCT的作者进行的可信度检查不公平，以及应该检查什么来对不可信的研究进行分类，这仍然是一个有争议的问题。在2021年的一篇社论中，科克兰的高级研究诚信编辑丽莎·贝罗和科罗拉多安舒茨医学校区的生物伦理学家指出，目前没有经过验证、普遍认可的方法。

“将真实研究错误地归类为有问题的可能导致错误的综述结论。这种错误分类还可能导致作者的声誉受损、法律后果，以及与参与研究的被试有关的伦理问题，因为他们参与研究，但结果却被忽视，”她和其他两位研究人员写道。

目前，有多种可信度协议在运作。例如，2020年，阿维内尔和其他人发表了名为“REAPPRAISED”的清单，主要面向期刊编辑。去年，韦贝尔和其他人审查了关于伊维菌素作为COVID-19治疗的试验，他们创建了自己的清单，称之为“研究诚信评估”。

贝罗表示，其中一些检查比编辑和系统综述者通常习惯的要求更加耗时。“我们需要说服系统综述者这是值得他们花时间的事情，”她说。她和其他人已经咨询了生物医学研究人员、出版商和研究诚信专家，以制定一套可能成为广泛认可的评估方法的红旗标准。

尽管像莫尔这样的研究人员担心，但很多科学家仍然不确定有多少综述受到不可靠RCT的影响。今年，由英国曼彻斯特大学健康研究员杰克·威尔金森领导的团队正在使用贝罗的咨询结果，对50篇发表的科克兰综述中引用的所有试验应用一份包含76个可信度检查项目的清单。（这76项包括对试验中数据和统计学的详细检查，以及对资金、拨款、试验注册、研究方法的合理性和作者的出版记录等细节的检查，但在这个练习中，没有要求提供个体参与者的数据。）

该研究的目的是看有多少RCT未能通过检查，以及移除这些试验对综述结论的影响。威尔金森表示，一个由50人组成的团队正在进行这项工作。他计划制定一个通用的可信度筛选工具，以及一个单独的工具，用于检查参与者数据（如果作者提供）。他将在9月份的科克兰年度学术会议上讨论这项工作。

与此同时，阿尔菲列维奇的团队在一项尚未发表的研究中发现，使用CPC的方法，在18篇科克兰有关营养和妊娠的综述中，约350项RCT中有25%未能通过可信度检查。排除这些RCT后，团队发现三分之一的综述需要更新，因为其结论将会改变。研究人员将在9月份报告更多细节。

在阿尔菲列维奇看来，审稿人使用哪种可信度检查并不重要，只要他们能够更加密切地审查RCT。他警告说，过去十年间，期刊发表的系统综述和荟萃分析数量飙升，而这些综述中有许多不能信任，因为筛选方法不严谨。“一个不可信的系统综述比一个不可信的原始研究更危险，”他说。“这是一个完全失控的产业，缺乏质量保证。”

Roberts首次在2015年发表了对系统综述中存在问题的医学研究的担忧，他表示Cochrane组织花了六年时间才回应，并且仍然没有足够认真地对待这个问题。他说：“如果在系统综述中包含的试验有多达25%是欺诈性的，那么整个Cochrane的努力都值得怀疑。我们基于系统综述所认为的很多东西都是错误的。”

Bero表示，Cochrane在制定2021年关于应对问题试验的指南时进行了广泛的咨询，包括采纳了Roberts、其他Cochrane审阅者和研究诚信专家的建议。

要求提供数据

许多对医学伪造感到担忧的研究人员赞同Carlisle的观点，认为如果期刊常规要求作者分享他们的原始参与者数据(IPD)将有所帮助。Wilkinson表示：“要求原始数据是一个好政策。我们一直以来都是从相当天真的角度出发的，只是信任这些研究。”然而，这一建议与大多数医学期刊当前的做法相悖。

在2016年，国际医学期刊编辑委员会(ICMJE)提议要求来自随机对照试验(RCTs)的强制数据共享。但是，该提议受到了反对，包括涉及试验参与者隐私的风险（可能没有同意共享其数据），以及存档数据的资源可用性。因此，在2017年更新的指南中，ICMJE最终只是鼓励数据共享，并要求声明是否以及在何处共享数据。

ICMJE秘书长Christina Wee表示，强制共享原始参与者数据存在“重大可行性挑战”，尽管该委员会可能会在未来重新审视其做法。许多医学期刊的出版商告诉Nature的新闻团队，根据ICMJE的建议，他们不要求试验的作者提供原始参与者数据(IPD)。（这些出版商包括Springer Nature；Nature的新闻团队在编辑上是独立的。）

然而，一些期刊，包括Carlisle的Anaesthesia期刊，已经采取了更进一步的措施，已经要求提供原始参与者数据(IPD)。“当告诉作者这是要求时，大多数作者都会提供数据，”Carlisle说。

即使提供了原始参与者数据(IPD)，正如Wilkinson所说，像Carlisle那样对其进行审查是一项耗时的工作，这为审稿人增加了额外负担，尽管对统计数据进行计算检查可能会有所帮助。

除了要求数据外，研究诚信专家还建议期刊编辑可以加快决策过程。当研究人员提出担忧时，如果作者没有回复，编辑应准备迅速对医学研究发布关注表达。今年四月，英国议会发布了一份关于再现性和研究诚信的报告，建议学术界提出问题后，出版商在发布更正或撤回研究时不应耗时超过两个月。

如果期刊确实撤销研究，系统评价的作者应该被要求更正他们的工作，Avenell和其他人说。然而，这种情况很少发生。去年，Avenell的团队报告称，他们曾仔细反复地通过电子邮件通知引用Sato撤销试验的88个评论文章的作者和期刊编辑，告诉他们他们的评论文章包含撤销的研究。但很少得到回应——只有11篇评论文章到目前为止已经更新——这表明作者和编辑通常不关心更正评论。

对于这一点，团队感到沮丧但并不奇怪，他们之前已经叙述过对Sato的研究进行的机构调查是不透明和不足够的。而Cochrane协作组织在2021年的更新指导中表示，当有研究撤销时，必须更新系统评价。

最终，一个长期存在的问题是——就像涉及论文厂的情况一样——为什么会有如此多的可疑RCT被生产出来。Mol从对埃及研究的调查经验中认为，缺乏监督和仅基于发表论文数量的肤浅评估，以及机构和期刊对不良实践的严格检查不足，都是问题的原因。然而，埃及当局已经采取一些措施改进试验治理，例如，埃及议会在2020年12月发布了首部临床研究法。

“解决的方法必须从源头入手，”Carlisle说。“当这些东西被大量生产时，就像与野火作战并失败了。”

参考资料：

Nature 619, 454-458 (2023)

doi: https://doi.org/10.1038/d41586-023-02299-w

往期推荐

1. 广州医科大学王健/钟南山最新发现：新冠病毒损害肺血管内皮的潜在机制

2. 3篇！施一公团队发现长期的手机等特定电磁辐射暴露会影响睡眠及少突胶质细胞的基因表达

3. Science子刊 | 王晓钧/陈化兰院士揭开禽流感病毒跨物种传播之谜!

4. 奇葩！富豪靠儿子换血抗衰失败，不如移植粪便菌群，研究证明可延缓衰老！

生命科学综合交流QQ群:681341860

微信学科群：神经科学群、医学、基础科学等纯科研交流群、硕博交流群和医药投资交流群（微信群审核要求较高，请各位添加小编后主动备注单位研究方向）：