精神科医生如何分析一项随机对照试验的价值?| 专家视角
2025-10-23


内容要点


明确的主要研究假设,以及避免事后假设(HARK-ing),对于随机对照试验(RCT)的可靠性至关重要。对于缺乏合理性的研究假设,应保持怀疑态度。


三盲设计、有效的随机化分组及时间足够长的随访可以提升RCT的质量。较大的样本量和较低的脱落率能提高研究结果的可靠性。


统计学显著性不应掩盖临床意义的缺乏。效应量和预测区间能够更深入地揭示治疗效果的实际影响。


理解RCT的分析方法有助于识别可信的研究,从而做出更有依据的治疗决策。



图片


一名优秀的临床医生必须掌握大量事实。然而,研究领域的「板块」不断漂移,有时还会经历「地震」般的变动。事实会发生变化,而要保持最新的知识水平,医生需要研读证据的金标准——随机对照试验(RCT)。鉴于RCT的质量差异极大,在信任一项RCT的结果之前,我们必须懂得如何分析它,以判断哪些研究值得信赖,哪些不值得。


首先,一项优质的RCT应明确提出研究的主要假设,如「我们的主要假设是……」。然而遗憾的是,很多RCT没有做到这一点。这种缺陷会增加「事后假设」(HARK-ing)的风险。HARK-ing指研究者先开展研究、收集结果,再根据结果来强调那些看起来积极或重要的发现。


精神医学研究常依赖各种评定量表。研究所使用的量表必须经过充分的验证。


一项优质的RCT会详细描述并列出患者的基线特征。如果一项研究的参与者特征与你在临床中需要决策的实际患者不符,则这项研究对治疗该患者的指导意义有限。即便是设计精良的RCT,其纳入的患者也可能与你实际接诊的患者存在差异,此时RCT提供的参考价值同样会大打折扣。


最严谨的RCT会采用三重盲法设计,即患者、治疗者和结果评估者均不知晓分组情况。然而,由于治疗效应(包括不良反应)的存在,某些RCT难以实施盲法,如针对致幻剂的研究。


一项规范的RCT应采用有效的手段进行随机化分组,现代研究应通过专业的计算机程序实现随机化。理想情况下,在随机化分组后,安慰剂组与治疗组的患者基线特征应基本一致。然而,偶尔也会出现可能影响治疗反应的显著组间差异,如其中一组患者既往难治程度更高。


一项优质的RCT会对患者进行足够长的随访。例如,心理治疗研究的随访应延续至主动治疗结束后相当长的时间。遗憾的是,很多RCT的随访期短得不切实际。短期治疗结束时获得阳性结果,并不意味着疗效在几个月后一定可以维持。


一般而言,RCT的样本量越大越好。然而,心理治疗这样的干预手段需要耗费大量的人力,我们可能不得不接受较小的样本量。


脱落率同样会削弱我们对研究结果的信任度。患者脱落后,研究通常采用「插补」测量值的方法,即为脱落患者分配结果数据。插补的方法有很多种,但都基于无法验证的假设。很多研究采用末次观测值结转法(LOCF),即采用患者最后一次观测数据插补缺失值。对于阳性结果而言,LOCF是一种保守的插补方法,往往会低估患者完成研究时本应观察到的效应。然而,LOCF也可能低估治疗后期可能出现的不良反应。质量最好的RCT会采用多种手段,力求在研究结束时获得每一名参与者(包括脱落病例)的测量数据。


RCT应明确说明统计显著性的数值标准(通常取=0.05),并注明采用的是单侧值还是双侧值。试验开始前,研究人员就应确定值的标准。值应用于由主要假设定义的主要结局指标,而次要结局指标则需采用更严格的标准。有很多种数学手段可以校正值,最常用的是Bonferroni校正法,其公式为:


图片


例如,原始值为0.05,且存在5个次要结局指标,则校正后值为0.05/5=0.01。


然而需要注意,校正后的值仅适用于独立事件。例如,在研究抑郁症的治疗反应时,同时报告两种不同抑郁评定量表的统计学显著性是不合理的——这相当于在研究减重药物时,先以磅为单位检验显著性,再用千克为单位重复检验。遗憾的是,很多随机对照试验(RCT)仍然会针对并非相互独立的结局指标报告次要值。


不应过分看重「统计学显著性」,因为它也可以用置信区间(CI)来表示。置信区间所能告诉我们的,仅仅是我们对平均值估计的精确程度。例如,当=0.05时,我们可以报告一个95%置信区间。95%置信区间的含义是:我们估计平均结果有95%的可能性落在所给定的范围内。置信区间只是由数学公式计算出的一个估计值,这一公式依赖于研究样本量;样本越大,越有可能得到统计学上显著的结果。


比统计显著性更重要的是效应量,即治疗所带来的差异程度。效应量应有临床意义,且在合理的时间范围内能体现出来。很多研究者误以为,只要结果有统计学显著性意义,就说明其具有临床意义——事实并非如此。请记住,统计显著性仅仅反映了我们对「平均效应」的估计精确度。平均效应可能在统计上显著,但在临床上并无实际意义。


除了平均效应,我们还希望知道预测区间(PI):这个指标能反映结果的分布范围。95%预测区间的含义是:95%的结果位于预测区间的上下限之间。我们可以借此评估患者获得临床意义效果的可能性。如果预测区间表示的是「治疗组与安慰剂组之间的差值」,且该区间呈正态分布,我们就可以计算需治数(NNT)。


下面比较置信区间与预测区间在评估临床意义效应量时的区别。下图预测区间呈正态分布,图中「M」表示治疗的平均结果,「CM」表示有临床意义的效应量。


图片


可以看到,平均结果并未达到临床意义——这种情况在很多医学治疗中都很常见。绿色曲线表示治疗组与安慰剂组差值的分布。将曲线下方最低的2.5%和最高的2.5%区域去除(图中以红色标示),相对于安慰剂,95%的受试者结果落在这两个红色区域之间。这一范围称为95%预测区间。


蓝色线段表示置信区间。基于数学公式估计,平均结果有95%的可能性落在蓝色线段的两端之间。注意,整条蓝线都低于具有临床意义的效应量。如果我们只关注平均值和置信区间,就会认为该治疗没什么价值,因为似乎没有任何受试者获得有临床意义的结果。然而,如果观察预测区间,就会发现仍有相当数量的患者确实达到了有临床意义的改善。图中设计为曲线下有20%的面积位于临床意义效应量右侧,意味着有20%的患者相较于安慰剂达到了临床意义的疗效。因此,我们治疗5名患者,会有1名获得有临床意义的效果,即NNT=5。


预测区间较窄,说明患者的疗效相对一致,进而可以推测我们的患者也可能获得类似的结果;如果预测区间较宽,我们则需要质疑结果差异为何如此之大,此时患者反应的可预测性就会降低。遗憾的是,极少有研究报告预测区间。通常我们最多只能得到NNT,但它仅告诉我们患者获得某种效果的可能性,却无法反映结果的离散程度或不一致性。


高效及时不被骗:精神科医生如何获知领域前沿进展?| 专家视角

2022-07-07

图片

信源:Moore RF, White JS. How To Analyze a Randomized Controlled Trial. Psychiatric Times. October 20, 2025. https:// www.psychiatrictimes.com /view/how-to-analyze-a-randomized-controlled-trial


点击「阅读原文」可查看及检索历史文章。









声明:本平台旨在为医疗卫生专业人士传递更多医学信息。本平台发布的内容,不能以任何方式取代专业的医疗指导,也不应被视为诊疗建议。如该等信息被用于了解医学信息以外的目的,本平台不承担相关责任。本平台对发布的内容,并不代表同意其描述和观点。若涉及版权问题,烦请权利人与我们联系,我们将尽快处理。


图片

(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)

0
收藏 分享