精神科医生如何分析一项随机对照试验的价值？| 专家视角_

精神科医生如何分析一项随机对照试验的价值？| 专家视角

2025-10-23

发表评论

内容要点

明确的主要研究假设，以及避免事后假设（HARK-ing），对于随机对照试验（RCT）的可靠性至关重要。对于缺乏合理性的研究假设，应保持怀疑态度。

三盲设计、有效的随机化分组及时间足够长的随访可以提升RCT的质量。较大的样本量和较低的脱落率能提高研究结果的可靠性。

统计学显著性不应掩盖临床意义的缺乏。效应量和预测区间能够更深入地揭示治疗效果的实际影响。

理解RCT的分析方法有助于识别可信的研究，从而做出更有依据的治疗决策。

一名优秀的临床医生必须掌握大量事实。然而，研究领域的「板块」不断漂移，有时还会经历「地震」般的变动。事实会发生变化，而要保持最新的知识水平，医生需要研读证据的金标准——随机对照试验（RCT）。鉴于RCT的质量差异极大，在信任一项RCT的结果之前，我们必须懂得如何分析它，以判断哪些研究值得信赖，哪些不值得。

首先，一项优质的RCT应明确提出研究的主要假设，如「我们的主要假设是……」。然而遗憾的是，很多RCT没有做到这一点。这种缺陷会增加「事后假设」（HARK-ing）的风险。HARK-ing指研究者先开展研究、收集结果，再根据结果来强调那些看起来积极或重要的发现。

精神医学研究常依赖各种评定量表。研究所使用的量表必须经过充分的验证。

一项优质的RCT会详细描述并列出患者的基线特征。如果一项研究的参与者特征与你在临床中需要决策的实际患者不符，则这项研究对治疗该患者的指导意义有限。即便是设计精良的RCT，其纳入的患者也可能与你实际接诊的患者存在差异，此时RCT提供的参考价值同样会大打折扣。

最严谨的RCT会采用三重盲法设计，即患者、治疗者和结果评估者均不知晓分组情况。然而，由于治疗效应（包括不良反应）的存在，某些RCT难以实施盲法，如针对致幻剂的研究。

一项规范的RCT应采用有效的手段进行随机化分组，现代研究应通过专业的计算机程序实现随机化。理想情况下，在随机化分组后，安慰剂组与治疗组的患者基线特征应基本一致。然而，偶尔也会出现可能影响治疗反应的显著组间差异，如其中一组患者既往难治程度更高。

一项优质的RCT会对患者进行足够长的随访。例如，心理治疗研究的随访应延续至主动治疗结束后相当长的时间。遗憾的是，很多RCT的随访期短得不切实际。短期治疗结束时获得阳性结果，并不意味着疗效在几个月后一定可以维持。

一般而言，RCT的样本量越大越好。然而，心理治疗这样的干预手段需要耗费大量的人力，我们可能不得不接受较小的样本量。

高脱落率同样会削弱我们对研究结果的信任度。患者脱落后，研究通常采用「插补」测量值的方法，即为脱落患者分配结果数据。插补的方法有很多种，但都基于无法验证的假设。很多研究采用末次观测值结转法（LOCF），即采用患者最后一次观测数据插补缺失值。对于阳性结果而言，LOCF是一种保守的插补方法，往往会低估患者完成研究时本应观察到的效应。然而，LOCF也可能低估治疗后期可能出现的不良反应。质量最好的RCT会采用多种手段，力求在研究结束时获得每一名参与者（包括脱落病例）的测量数据。

RCT应明确说明统计显著性的数值标准（通常取P =0.05），并注明采用的是单侧P 值还是双侧P 值。试验开始前，研究人员就应确定P 值的标准。P 值应用于由主要假设定义的主要结局指标，而次要结局指标则需采用更严格的标准。有很多种数学手段可以校正P 值，最常用的是Bonferroni校正法，其公式为：

例如，原始P 值为0.05，且存在5个次要结局指标，则校正后P 值为0.05/5=0.01。

然而需要注意，校正后的P 值仅适用于独立事件。例如，在研究抑郁症的治疗反应时，同时报告两种不同抑郁评定量表的统计学显著性是不合理的——这相当于在研究减重药物时，先以磅为单位检验显著性，再用千克为单位重复检验。遗憾的是，很多随机对照试验（RCT）仍然会针对并非相互独立的结局指标报告次要P 值。

不应过分看重「统计学显著性」，因为它也可以用置信区间（CI）来表示。置信区间所能告诉我们的，仅仅是我们对平均值估计的精确程度。例如，当P =0.05时，我们可以报告一个95%置信区间。95%置信区间的含义是：我们估计平均结果有95%的可能性落在所给定的范围内。置信区间只是由数学公式计算出的一个估计值，这一公式依赖于研究样本量；样本越大，越有可能得到统计学上显著的结果。

比统计显著性更重要的是效应量，即治疗所带来的差异程度。效应量应有临床意义，且在合理的时间范围内能体现出来。很多研究者误以为，只要结果有统计学显著性意义，就说明其具有临床意义——事实并非如此。请记住，统计显著性仅仅反映了我们对「平均效应」的估计精确度。平均效应可能在统计上显著，但在临床上并无实际意义。

除了平均效应，我们还希望知道预测区间（PI）：这个指标能反映结果的分布范围。95%预测区间的含义是：95%的结果位于预测区间的上下限之间。我们可以借此评估患者获得临床意义效果的可能性。如果预测区间表示的是「治疗组与安慰剂组之间的差值」，且该区间呈正态分布，我们就可以计算需治数（NNT）。

下面比较置信区间与预测区间在评估临床意义效应量时的区别。下图预测区间呈正态分布，图中「M」表示治疗的平均结果，「CM」表示有临床意义的效应量。

可以看到，平均结果并未达到临床意义——这种情况在很多医学治疗中都很常见。绿色曲线表示治疗组与安慰剂组差值的分布。将曲线下方最低的2.5%和最高的2.5%区域去除（图中以红色标示），相对于安慰剂，95%的受试者结果落在这两个红色区域之间。这一范围称为95%预测区间。

蓝色线段表示置信区间。基于数学公式估计，平均结果有95%的可能性落在蓝色线段的两端之间。注意，整条蓝线都低于具有临床意义的效应量。如果我们只关注平均值和置信区间，就会认为该治疗没什么价值，因为似乎没有任何受试者获得有临床意义的结果。然而，如果观察预测区间，就会发现仍有相当数量的患者确实达到了有临床意义的改善。图中设计为曲线下有20%的面积位于临床意义效应量右侧，意味着有20%的患者相较于安慰剂达到了临床意义的疗效。因此，我们治疗5名患者，会有1名获得有临床意义的效果，即NNT=5。

预测区间较窄，说明患者的疗效相对一致，进而可以推测我们的患者也可能获得类似的结果；如果预测区间较宽，我们则需要质疑结果差异为何如此之大，此时患者反应的可预测性就会降低。遗憾的是，极少有研究报告预测区间。通常我们最多只能得到NNT，但它仅告诉我们患者获得某种效果的可能性，却无法反映结果的离散程度或不一致性。

高效及时不被骗：精神科医生如何获知领域前沿进展？| 专家视角

2022-07-07

信源：Moore RF, White JS. How To Analyze a Randomized Controlled Trial. Psychiatric Times. October 20, 2025. https:// www.psychiatrictimes.com /view/how-to-analyze-a-randomized-controlled-trial

点击「阅读原文」可查看及检索历史文章。