临床试验出现“安慰剂效应”时，如何判断“真假”？

2023-10-24 01:10

From inquiry to reasoning, and to action.

关键词：临床试验；安慰剂效应；医学格物论道

安慰剂效应（placebo effect），源自拉丁文placebo（我将安慰），1954年由Henry K. Beecher提出，亦称作“非特定效应（non-specific effects）”或“受试者期望效应（subject-expectancy effect）”，指患者虽然获得无效的治疗，但却预料或相信治疗有效，而使症状得到改善的现象。

安慰剂效应具有一定的有益作用，部分患者的主观症状减轻甚至明显减轻。但是，如果明确无治疗活性的干预（如肌肉注射少量生理盐水或服用仅有赋形剂的药片）也有症状的改善，则可能夸大研究药物的作用。使用安慰剂可能通过心理-神经-内分泌轴使体液和组织中的分子浓度甚至细胞功能发生改变，但在预期药理机制方面安慰剂往往并不直接使患者的状况发生改善。

本文从测量计算角度分析如何在安慰剂效应客观存在的情况下，科学认识安慰剂效应及研究药物的效应强度。

1945年Pepper最先使用placebo这个术语。

1954年，Beecher等通过马萨诸塞总医院麻醉科实验室的工作首次系统研究了placebo effect【1】。此前，Beecher已经在Science发表了对药物试验中主观反应（subjective response）的认识，提出新药的评价需要把患者随机分到研究药物和安慰剂组，并需要预先设定的评判标准【2】。随机对照试验（RCT）是均衡各种影响干预效应的混杂因素同时消除安慰剂效应的重要手段。

但是，RCT就能完全探明安慰剂效应吗？

最近一项在重症肌无力（myasthenia gravis, MG）患者进行的抗补体药物的RCT研究（RAISE试验）使用了一个特殊的术语“安慰剂应答率（placebo rate）”而非placebo effect，并认为与给药方式有关（“high placebo rates were observed in RAISE, which could be explained by the daily, self-administered subcutaneous injections”）【3】。

我们把这个RCT与主研Howard Jr教授牵头的另一个抗补体药物RCT研究（REGAIN试验）【4】进行了比较。

RAISE试验纳入人群是AChR抗体阳性的MG患者，而REGAIN试验纳入人群是AChR抗体阳性的难治性MG患者。两个试验中难治性MG的定义相同，RAISE试验中纳入的患者半数是难治性患者。其他的关键基线数据相近（图1-1）。两个试验都是抗补体治疗，RAISE是抗补体的小分子，每日在家皮下注射，而REGAIN是抗补体的单抗，第一个月每周静脉注射一次，其后每两周静脉注射一次。

主研究治疗期RAISE为12周，REGAIN治疗期为26周。

一级终点和二级终点均采用基线期数据与治疗期终点数据的比较。两个试验中体现安慰剂反应（注意不是“效应”）的指标为应答率（responder rate），定义均为ADL改善≥3分及QMG改善≥5分，且无需挽救治疗（实际需要挽救治疗的比例：RAISE试验研究药物组5%，安慰剂组12%；REGAIN试验研究药物组10%，安慰剂组19%）。

因为RIASE试验安慰剂组的应答率高，该试验发表的论文在讨论中又把安慰剂组的应答率表述为“安慰剂应答率（placebo rate）”，体现了研究者的严谨性。

图1-1 RAISE试验和REGAIN试验实际纳入患者的基线信息

研究结果显示：

以ADL应答率≥3分为有临床意义，RAISE试验安慰剂组的应答率为53%，而REGAIN安慰剂组的应答率为40%。

以QMG应答率≥5分为有临床意义，RAISE试验安慰剂组的应答率为38%，而REGAIN安慰剂组的应答率为19%。

从应答率分布看，以ADL≥6分为阈值，RAISE试验安慰剂组的应答率为20%，而REGAIN安慰剂组的应答率为18%，两个试验最为接近；而QMG安慰剂组的应答率REGAIN试验一直低于RAISE试验，找不到两个试验相近的阈值（图1-2）。

图1-2 RAISE试验和REGAIN试验的安慰剂组应答率

随着治疗时间延长，如果安慰剂确有免疫调节的效应，可预期ADL和QOL评分进一步改善，因此我们先比较了治疗12周时两个试验的应答率。从各次随访评分改变的折线图看，安慰剂组ADL和QMG评分评分改善发生在最初4周内，4周后改变就很少了；而且两个试验安慰剂组ADL评分改善相近，而RIASE试验安慰剂组的QMG评分改善高于REGAIN试验的安慰剂组（图1-3），所以找到了两个试验中应答率接近的ADL阈值，但未找到应答率接近的QMG阈值。两个试验安慰剂组有效率的较大差异并不来自治疗时间。

同时我们注意到，治疗药物组的ADL和QMG评分改变最显著的也在最初4周内。其后ADL评分改善也较少，而QMG评分在4周后还有一定程度改善，尤其是REGAIN试验的QMG评分在20~26周较前仍然稍有改善，符合大多数患者先感觉到主观改善而医生评估发现改善会延迟一些的现象。即使活性药物，4周后评分改善也较少，提示安慰剂基本上不能导致评分的改善。再从治疗药物组ADL和QMG改善的程度来看，12周时RAISE试验评分的改善均比REGAIN试验更明显，考虑与难治性患者的比例有关（RAISE试验难治性患者占半数），进一步支持活性药物才能使评分改善。

图1-3 RAISE试验和REGAIN试验中安慰剂组和研究药物组评分改变趋势

患者的病程、基线ADL和QMG、既往胸腺切除术的比例在两个试验相近。既往危象发生率RIASE试验甚至稍高于REGAIN试验，在既往有危象患者的治疗效应可能稍差也可能相近，但尚无有效证据说明。那么，是难治性患者比例这个因素的影响吗？难治性患者通常因为神经肌肉接头的不可逆性损伤或免疫状态持续无法改善而导致神经肌肉接头传导的持续性障碍，而且，同一试验中用他评量表QMG得到的安慰剂组应答率均低于用自评量表ADL得到的应答率，通常他评量表由医生使用，较患者自评的波动更小；其评分随着病程的延长可能比非难治性患者更稳定。因此，我们考虑到RAISE试验的placebo rate较大可能与基线期评分波动性有关。

但是，从发表的试验结果中我们看不到基线期评分波动情况。而且，开始治疗后治疗组和安慰剂的评分波动也无法直接比较。这样，需要直接比较两个试验基线期的评分波动。两个试验从筛查到入组随机的间隔最长是4周。我们将此问题提出，希望能够获得两个试验中从筛查到随机这段时间评分波动性的数据，看看RIASE试验患者（尤其是非难治性患者比例高）的安慰剂组应答率高是否由于其基线期评分波动性更大所致。

他山之石可以攻玉。在一项针对抑郁症的临床试验中【5】，在随机前加入了一个为期14天的安慰剂双盲导入阶段（图1-4），全部患者均使用安慰剂。在此期间，评分波动≥20%者中安慰剂应答的比例显著高于评分波动<20%者。事后分析是将评分波动≥20%者排除，发现研究药物组中应答者的治疗效应较纳入全部患者加大。这个研究充分显示了基线期评分波动会使安慰剂组应答率被高估，且研究药物的治疗效应被低估。

图1-4 双盲导入期评价基线期评分波动的方案

即使在变性病，基线期和随访过程中的评分波动也是常见的。一个研究【6】报道帕金森病患者在为期6个月的试验中，使用严格的改善定义（与基线期比较，UPDRSm总分至少改善50%或至少2各条目评分改善≥2分），安慰剂组患者中16%获得改善。在改善者中，改善涉及到该量表的各个域，88%在多个域可见改善，包括无需患者自评的运动评分；可见改善最少的是震颤，也达到了47%。可见改善的随访时点分布在研究早期到后期的各个时点，比例接近，在三个随访时点中59%可见一次改善，41%可见两次，但没有一个人在各次随访中均出现改善。作者使用了“安慰剂相关的改善（placebo-associated improvement）”而非“安慰剂效应（placebo response）”来描述。这说明任何有效/应答率定义均可在一定的随访时点因患者的合作及躯体能力（如疲劳和精力的影响）发生波动，保持稳定的改善可以减少评分波动性的影响。

回到RAISE和REGAIN这两个试验，其预后指标均未采用应答率阈值的维持时间，而只是采用随访时点的应答率阈值。在Howard Jr教授主持的FcRn拮抗剂的2期和3期试验中，应答率分析采用持续至少6周或4周作为应答率分析中有临床意义的预后指标【7,8】。达到一定程度并维持一段时间能够减少治疗随访中评分波动性带来的影响。

影响安慰剂组应答率的因素常见的还有：

1. 霍桑效应（Hawthorne effect）指当人们知道自己成为观察对象，而会改变行为的倾向。

2. 回归均值（regression toward the mean）现象指如果变量测量值在第一次随访较大，则在第二次随访时会趋向于接近平均值。

本文并未对此进行分析，而且这些因素也难以克服。但基线评分和试验进行中评分的波动性是可以通过试验设计解决的。

通过以上分析，我们提出基线期评分即使有波动，并不影响RAISE试验发表结果显示的研究药物的有效性。基线期评分波动性时影响安慰剂组应答率的重要因素，基线期波动小的受试者安慰剂组的placebo rate可能较小，因此设计一个安慰剂干预导入期（4~6周）有助于发现基线期评分波动，波动大的患者并不一定要从总体分析中排除，但排除波动大的患者进行敏感性分析可能会更好明确治疗的效应强度（effect size）。

同时要根据研究药物的起效时间设定应答率阈值的持续时间，与应答率阈值联合作为应答率分析的预后指标，以减少试验进行中的评分波动性的影响。该讨论写成correspondence，发表在Lancet Neurology 2023年11期【6】。

对此，Howard Jr教授等回复：

1. 采用标准误（standard error），现已发表的包括RIASE试验和REGAIN试验的基线期评分波动性相近。

2. 针对安慰剂效应的研究确实发现在MG患者进行的不同RCT中安慰剂组应答率差异较大，可能与使用自评或他评量表有关。使用QMG量表获得的安慰剂应答率较小，且能够很好显示与研究药物组有显著性差异。

3. 治疗次数更多的干预的安慰剂效应更大（Ann Rheum Dis. 2008;67(12):1716-23.）

可是，标准误是成组比较的，并未把波动性大的患者的实际比例显示出来。我们希望作者使用其数据分析不同基线评分波动性的受试者的placebo rate（安慰剂组）和effect size（研究药物组），这将进一步厘清研究药物的治疗效应。虽然有对使用QMG的试验中的安慰剂组应答率研究，其预后定义（如我们提出的达到阈值还要持续一定时间）不同也可能影响应答率分析的结果，安慰剂组的应答率是一个数字，其合理构成和解析是否重要。ADL作为测评工具的安慰剂组应答率尚未验证。

优化合理的预后指标任重道远。

2012年，我们针对MGFA的MG临床试验指南提出相对评分作为MG临床试验预后指标的价值及需要在暂停胆碱酯酶抑制剂数小时后评估才能取得QMG的客观评价时（Muscle Nerve. 2013;47:144-145.），原文作者也回复了分层可导致使用相对评分判断的效应值不准确以及可用胆碱酯酶抑制剂抑制剂剂量作为校正参数统计（Muscle Nerve. 2013;47:145-146.）。

2022年我们发表了相对评分的验证论文，做了分层，证明分层并不影响相对评分的判断准确性（Front Neurol. 2022;13:880040.）。

2017年，REGAIN研究【4】就采用了至少与上次胆碱酯酶抑制剂间隔10小时进行QMG和MGC评价的方法。

第二篇临床医学格物论道将介绍这些问题。

总结：

1.对研究者，要认识到自评和他评量表可能导致的评分波动性，尤其是在轻症和病程短的患者。笔者就在参与的临床试验中建议过要核查实际纳入患者的病程和严重程度。病程短严重程度偏轻的患者受到评分波动性的影响较大。

在自身免疫疾病，病程短的患者由于后续病程的不确定性，同时存在分配到安慰剂组后快速加重而发生不良预后最终退出的风险，对研究的安全性保障不利，也可能因安慰剂组和研究药物组退出比例不同而影响研究质量。

2.对于研究申办方，需要考虑邀请有实际临床研究经验和临床流行病学基础，并在临床专病长期摸爬滚打的临床专家对纳入标准可能带来的患者特征变异以及预后终点给出不同角度的分析，避免把套路化的设计直接交给主研审阅后急于运行，再好的主研也有时间和精力的波动，对方案的审阅需要静下心来仔细思考。

参考文献

1.Lasagna L, Mosteller F, von Felsinger JM, Beecher HK. A study of the placebo response. Am J Med. 1954;16(6):770-779.

2.Beecher HK. Experimental pharmacology and measurement of the subjective response. Science. 1952;116(3007):157-162.

3.Howard JF Jr, Bresch S, Genge A, et al. Safety and efficacy of zilucoplan in patients with generalised myasthenia gravis (RAISE): a randomised, double-blind, placebo-controlled, phase 3 study. Lancet Neurol. 2023;22(5):395-406.

4.Howard JF Jr, Utsugisawa K, Benatar M, et al. Safety and efficacy of eculizumab in anti-acetylcholine receptor antibody-positive refractory generalised myasthenia gravis (REGAIN): a phase 3, randomised, double-blind, placebo-controlled, multicentre study. Lancet Neurol. 2017;16(12):976-986.

5.Targum SD, Cameron BR, Ferreira L, MacDonald ID. Early score fluctuation and placebo response in a study of major depressive disorder. J Psychiatr Res. 2020;121:118-125.

6.Goetz CG, Leurgans S, Raman R, Stebbins GT. Objective changes in motor function during placebo treatment in PD. Neurology. 2000;54(3):710-714.

7.Howard JF Jr, Bril V, Burns TM, et al. Randomized phase 2 study of FcRn antagonist efgartigimod in generalized myasthenia gravis. Neurology. 2019;92(23):e2661-e2673.

8.Howard JF Jr, Bril V, Vu T, et al. Safety, efficacy, and tolerability of efgartigimod in patients with generalised myasthenia gravis (ADAPT): a multicentre, randomised, placebo-controlled, phase 3 trial. Lancet Neurol. 2021;20(7):526-536.

9.Li HF, Hu SM, Yin J, Yang H. Score fluctuation might be associated with a higher placebo rate in the RAISE trial. Lancet Neurol. 2023;22(11):982.

10.Howard JF Jr, Boroojerdi B, de la Borderie G, Leite MI, Utsugisawa K; RAISE Study Team. Score fluctuation might be associated with a higher placebo rate in the RAISE trial - Authors' reply. Lancet Neurol. 2023;22(11):982-983.

编者按：

非常感谢首都医科大学宣武医院神经科李海峰教授撰写的这篇文章，从具体的临床试验设计和结果，解析出降低安慰剂效应的策略：