专家视角 | 精神科医生应如何阅读一项随机对照试验(RCT)?
2025-10-23 来源:医脉通
关键词: 随机对照试验 解读

内容要点


明确的主要假设,以及避免事后合理化,对随机对照试验(RCT)的可靠性至关重要。读者对于不可信的假设应保持怀疑态度。


三重盲法设置、有效的随机化分组和有意义的随访可以提升RCT的质量,更大的样本量和更低的脱落率可以增强研究的可靠性。


统计学显著性不应掩盖临床意义的缺乏。效应量和预测区间可以更深入地揭示治疗对患者的影响。


了解RCT的分析思路有助于辨别研究是否可信,进而做出明智的治疗决策。


————————


一名优秀的临床医生必须掌握大量事实。然而,研究领域的“板块”不断漂移,有时还会经历“地震”般的变动。事实会发生变化,而要保持最新的知识水平,医生需要研读证据的金标准——随机对照试验(RCT)。鉴于RCT的质量差异极大,在信任一项RCT的结果之前,我们必须懂得如何分析它,以判断哪些研究值得信赖,哪些不值得。


首先,一项优质的RCT应明确提出研究的主要假设,如“我们的主要假设是……”。然而遗憾的是,很多RCT没有做到这一点。这种缺陷会增加「事后假设」(HARKing)的风险。HARKing指研究者先开展研究、收集结果,再根据结果来强调那些看起来积极或重要的发现。


精神医学研究常依赖各种评定量表。研究所使用的量表必须经过充分的验证。


一项优质的RCT会详细描述并列出患者的基线特征。如果一项研究的参与者特征与你在临床中需要决策的实际患者不符,则这项研究对治疗该患者的指导意义有限。即便是设计精良的RCT,其纳入的患者也可能与您实际接诊的患者存在差异,此时RCT提供的参考价值同样会大打折扣。


最严谨的RCT会采用三盲设计,即患者、治疗者和结果评估者均不知晓分组情况。然而,由于治疗效应(包括不良反应)的存在,某些RCT难以实施盲法,如针对致幻剂的研究。一项规范的RCT应采用有效的手段进行随机化分组,现代研究应通过专业的计算机程序实现随机化。理想情况下,在随机化分组后,安慰剂组与治疗组的患者基线特征应基本一致。然而,偶尔也会出现可能影响治疗反应的显著组间差异,如其中一组患者既往难治程度更高。


一项优质的RCT会对患者进行足够长的随访。例如,心理治疗研究的随访应延续至主动治疗结束后相当长的时间。遗憾的是,很多RCT的随访期短得不切实际。短期治疗结束时获得阳性结果,并不意味着疗效在几个月后一定可以维持。


一般而言,RCT的样本量越大越好。然而,心理治疗这样的干预手段需要耗费大量的人力,我们可能不得不接受较小的样本量。


高脱落率同样会削弱我们对研究结果的信任度。患者脱落后,研究通常采用“插补”测量值的方法,即为脱落患者分配结果数据。插补的方法有很多种,但都基于无法验证的假设。很多研究采用末次观测值结转法(LOCF),即采用患者最后一次观测数据插补缺失值。对于阳性结果而言,LOCF是一种保守的插补方法,往往会低估患者完成研究时本应观察到的效应。然而,LOCF也可能低估治疗后期可能出现的不良反应。质量最好的RCT会采用多种手段,力求在研究结束时获得每一名参与者(包括脱落病例)的测量数据。


RCT应明确说明统计显著性的数值标准(通常取P=0.05),并注明采用的是单侧P值还是双侧P值。试验开始前,研究人员就应确定P值的标准。P值应用于由主要假设定义的主要结局指标,而次要结局指标则需采用更严格的标准。有很多种数学手段可以校正P值,最常用的是Bonferroni校正法,其公式为:

11.png

例如,原始P值为0.05,且存在5个次要结局指标,则校正后P值为0.05/5=0.01。


然而需要注意,校正后的P值仅适用于独立事件。例如,在研究抑郁症的治疗反应时,同时报告两种不同抑郁评定量表的统计学显著性是不合理的——这相当于在研究减重药物时,先以磅为单位检验显著性,再用千克为单位重复检验。遗憾的是,很多随机对照试验(RCT)仍然会针对并非相互独立的结局指标报告次要P值。


不应过分看重“统计学显著性”,因为它也可以用置信区间来表示。置信区间所能告诉我们的,仅仅是我们对平均值估计的精确程度。例如,当P=0.05时,我们可以报告一个95%置信区间。95%置信区间的含义是:我们估计平均结果有95%的可能性落在所给定的范围内。置信区间只是由数学公式计算出的一个估计值,这一公式依赖于研究样本量;样本越大,越有可能得到统计学上显著的结果。


比统计显著性更重要的是效应量,即治疗所带来的差异程度。效应量应有临床意义,且在合理的时间范围内能体现出来。很多研究者误以为,只要结果有统计学显著性意义,就说明其具有临床意义——事实并非如此。请记住,统计显著性仅仅反映了我们对“平均效应”的估计精确度。平均效应可能在统计上显著,但在临床上并无实际意义。


除了平均效应,我们还希望知道预测区间(PI):这个指标能反映结果的分布范围。95%预测区间的含义是:95%的结果位于预测区间的上下限之间。我们可以借此评估患者获得临床意义效果的可能性。如果预测区间表示的是“治疗组与安慰剂组之间的差值”,且该区间呈正态分布,我们就可以计算治疗获益人数(NNT)。


以下比较置信区间与预测区间在评估临床意义效应量时的区别。下图预测区间呈正态分布。图中“M”表示治疗的平均结果,“CM”表示有临床意义的效应量。可以看到,平均结果并未达到临床意义——这种情况在很多医学治疗中都很常见。绿色曲线表示治疗组与安慰剂组差值的分布。将曲线下方最低的2.5%和最高的2.5%区域去除(图中以红色标示),相对于安慰剂,95%的受试者结果落在这两个红色区域之间。这一范围称为95%预测区间。

蓝色线段表示置信区间。基于数学公式估计,平均结果有95%的可能性落在蓝色线段的两端之间。注意,整条蓝线都低于具有临床意义的效应量。如果我们只关注平均值和置信区间,就会认为该治疗没什么价值,因为似乎没有任何受试者获得有临床意义的结果。然而,如果观察预测区间,就会发现仍有相当数量的患者确实达到了临床有意义的改善。图中设计为曲线下有20%的面积位于临床意义效应量右侧,意味着有20%的患者相较于安慰剂达到了临床意义的疗效。因此,我们需要治疗5名患者,才能有1名获得有临床意义的效果,即NNT=5。


如果预测区间较窄,说明患者的疗效相对一致,可以推测我们的患者也可能获得类似的结果;如果预测区间较宽,则需要质疑结果差异为何如此之大,此时患者反应的可预测性就会降低。遗憾的是,极少有研究报告预测区间。通常我们最多只能得到NNT,但它仅告诉我们患者获得某种效果的可能性,却无法反映结果的离散程度或不一致性。


信源:Moore RF, White JS. How To Analyze a Randomized Controlled Trial. Psychiatric Times. October 20, 2025. https://www.psychiatrictimes.com/view/how-to-analyze-a-randomized-controlled-trial


(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)

0
收藏 分享