精神科临床应何时采取行动？阈值如何确立？2026年综述

精神科临床应何时采取行动？阈值如何确立？2026年综述 | JAMA Psychiatry

发布时间：2026-06-12

医脉通导读

精神病理学现象大多呈连续分布，但临床实践和研究又常常必须做出分类决策，如开启治疗还是观察等待、门诊还是住院、入组还是排除等。

针对‌「阈值」‌问题，目前最常见的做法是围绕诊断来确定量表或维度指标的界值或截点。然而，这种策略未必适合预防、预后判断、治疗选择或卫生经济学决策。

本项发表于JAMA Psychiatry的综述提出，精神科临床决策阈值的建立除诊断导向外，还应更多考虑四种策略，包括统计偏离、功能损害、未来不良结局预测及干预成本-收益，同时结合其他临床信息综合评估。

精神科几乎每天都在面对‌临床决策的「阈值」问题。例如，一名患者的自伤风险量表分数达到多少，才需要即刻干预？某个精神症状的评分偏高，究竟只是‌临床意义不明的「高于常模」‌，还是已经必须采取临床行动？

大量证据显示，精神病理学现象在一般人群中大多呈连续分布；然而，临床实践、医保支付、行政管理和研究设计又经常需要二分或分层决策。换言之，精神科面对的并非天然分成‌「有病/无病」‌的世界，却又必须在连续谱上画出可操作的线。

在这一背景下，一项5月27日在线发表于JAMA Psychiatry的综述系统讨论了精神科临床决策阈值的建立策略。作者指出，诊断导向的阈值有其价值，但如果精神科希望让量表和维度评估真正服务于临床决策，仅仅围绕诊断‌「划线」‌远远不够。

只按诊断定阈值，为什么不行？

当前研究中最常见的阈值决定方式，是让某个量表的界值尽可能对应某一诊断，以最大程度地提高敏感性和特异性。问题在于，精神科诊断本身往往就是连续现象被人为截断后的结果，例如症状数量达到某一条数、症状持续超过某一时间长度等。

作者认为，这些诊断阈值多来自启发式的规则和专家的临床判断，精神障碍迄今并未被证明存在天然的边界。因此，基于诊断反推量表截点，实际上继承了传统诊断系统的任意性。

更重要的是，诊断导向阈值通常只回答一个问题：这个人是否达到某一诊断？然而，精神科临床工作高度复杂，问题远不止于此。例如：

是否适合预防性干预？
是否需要启动治疗？
选择低强度还是高强度治疗？
是否需要住院？
是否符合某项服务或研究纳入标准？
未来发生不良结局的风险有多？
……

这些问题的最佳阈值未必相同。较低的截点可能适合预防或筛查，较高的截点可能适合启动治疗，更高的截点才可能适合住院或强化干预。精神科需要发展‌「按目的定制」‌的可行动范围，而不是将同一个诊断截点用于所有场景。

四种替代策略

本综述重点讨论了四种替代诊断导向阈值的策略。

1. 统计偏离：「这个分数有多异常」‌

第一种策略，是根据一般人群中的分数分布来设定阈值。例如，将某个量表分数处于人群最高若干百分位定义为轻度、中度、显著或严重升高。

这一做法在神经心理学、儿童精神病学、临床心理学和实验室医学中都很常见。作者举例指出，多个精神病理和人格测量工具虽然标签和边界不完全一致，但存在一个相对稳定的模式：T分数高于65通常对应参考人群最高约7%，高于70对应最高约2.5%，高于75对应最高约1%。认知测验也使用类似思路，只是通常关注低分一端。

这一策略的优势是可行性强，不需要先找到外部临床结局；它可以将连续信息压缩成‌「正常、轻度、中度、显著升高」‌等简明范围，方便沟通。

然而，它的局限同样明显：统计异常不等于需要某项临床行动。一个分数处于人群前2.5%，并不能自动说明应启动哪种治疗、是否需要住院、未来风险如何。因此，统计偏离只能回答‌「多异常」‌，不能直接回答‌「该做什么」‌。

2. 功能损害：「现实生活如何受损」‌

第二种策略，是将阈值与社会、学业、职业等功能损害联系起来。

作者指出，功能损害可能是精神病理最重要的临床意义标准之一。症状反映的是情绪、认知、唤醒等心理功能的问题，而功能损害体现的是这些问题在现实生活中的后果。相比之下，痛苦感虽然也重要，但常常与抑郁、焦虑等症状本身纠缠在一起，因此作为外部标准较弱。

一些研究已经把抑郁、焦虑、ADHD、酒精使用等量表阈值与功能损害指标相连接。例如，部分研究使用 WHODAS 2.0、SOFAS 或生活质量指标，通过 ROC 分析寻找与中度或重度功能损害最匹配的量表截点。

这种策略更接近临床服务资格、功能恢复和行政决策，但也面临两个问题。

首先，功能是多维的。一个总体功能分数可能代表完全不同的受损模式，导致阈值难以直接对应具体临床行动。其次，功能本身也常呈连续分布，仍然需要人为二分或分层。更关键的是，功能损害只反映当前状态，可能漏掉那些目前功能尚可、但未来不良结局风险较高的人。

作者举例称，一个过度赌博的人当前可能尚未出现明显社会后果，但未来出现人际和财务问题的风险已经升高。只按当前功能损害设阈值，就可能漏掉这类人。

3. 未来结局预测：「此人未来又会怎样」‌

第三种策略，是根据未来不良结局风险来确定阈值。

内科领域对此非常熟悉。血压、胆固醇、HbA1c、体重指数以及心血管疾病综合风险评分都是连续指标，但临床会根据未来卒中、心脏病、糖尿病、死亡等风险划分范围，并据此指导监测、生活方式干预或药物治疗。值得注意的是，即便风险升高幅度并不巨大，例如风险增加10%-50%，在内科中也常足以使某一范围被视为可行动。

相比之下，精神医学领域使用未来结局预测阈值的例子仍然有限，主要集中在自杀未遂、自杀死亡、暴力行为、精神病性障碍转化、酒精相关不良结局等方面。

作者基于 SNAP-2 Self-Harm 量表展示了如何建立风险范围。该量表是一项约2分钟即可完成的自评工具，用于评估自我厌恶和自毁行为等自伤倾向。研究者用其预测10年后精神科住院、功能不良和自杀未遂等结局，AUC约为0.66-0.68，属于中等准确度。

从表面看，这样的预测能力并不惊艳。然而作者特别指出，这一水平与广泛使用的心血管代谢风险因素相近，而后者已经被用于预防性照护和公共卫生政策。也就是说，精神科不应因为某些风险工具‌「预测不完美」‌就简单放弃，关键在于明确它服务于哪一种决策。

例如，对于自杀未遂这种低概率但后果严重的结局，最大阳性预测值仍不足以直接识别‌「需要预防性干预」‌的人群。因此，作者建议将某些低阈值用于‌「排除低风险」‌或序贯筛查：先用高敏感性阈值缩小人群，再对筛查阳性者进行进一步评估，以识别更小的高风险群体。

这对精神科临床很重要：风险阈值不一定只能用于‌「直接决定干预」‌，也可以用于设计分层评估流程。

4. 成本-收益：「对谁做这件事值得」‌

第四种策略，是基于干预的成本和收益来确定阈值。在作者看来，这是最直接面向临床行动的问题：某项干预究竟适合哪些人？

这一策略会比较不同严重程度或风险水平下，干预的成本与收益。收益可用质量调整生命年（QALY）表示，也可以将不良反应、家庭影响、社会成本、生产力损失等因素纳入估算。一般而言，阈值越高，纳入干预的人群越少，假阳性越少，治疗获益和成本效益往往越高；但阈值过高也可能漏掉本可获益的人。

内科领域同样已有大量经验。如作者提到，将HbA1c预防阈值从5.5%提高到6.0%，即便是低成本治疗，每获得1个QALY的成本也可从70,000美元降至24,000美元。

精神科的经验则明显不足。目前尚未针对精神病理阈值开展完整的经济学评价，但已有一些间接证据提示，干预效果确实会随基线风险或严重程度而变化。例如，早期教育干预改善儿童IQ的效果在不同风险水平下差异明显，最低风险组NNT为50，最高风险组NNT为3；计算机辅助认知治疗对治疗前抑郁较重者的效果也高于抑郁较轻者。

这些证据仍属初步，但方向很清楚：如果某项治疗对不同严重程度患者的获益不同，那么阈值就不应只围绕诊断，而应考虑‌「在哪个严重程度以上，干预收益足以超过成本」‌。

对精神科临床的启示

本综述真正想推动的并非贬低诊断对于临床决策的价值，也不是让量表替代临床判断，而是让精神科更清楚地问：这个阈值到底是为哪一种决策服务的？

作者认为，不同目的对应不同阈值策略：

如果目的是沟通严重程度，可优先考虑统计偏离；
如果目的是判断服务资格或现实影响，可考虑功能损害；
如果目的是预后判断和预防，可考虑未来不良结局预测；
如果目的是治疗选择或政策决策，可考虑干预成本-收益。

对于精神科临床而言，该综述至少带来了三点提醒。

1. 量表分数不应仅仅被理解为‌「是否达到诊断」‌的辅助工具。

同一个分数，在筛查、诊断、治疗选择、住院判断和预后评估中，可能对应完全不同的行动含义。

2. 基于评估的照护的价值取决于‌「可行动性」‌。

在很多精神卫生场景中，量化评估仍未被充分使用；如果缺少量化数据，临床医生就无法应用阈值。而如果量表能够发展出更清楚的可行动范围，或许有助于改变临床对评估工具‌「实用性不足」‌的看法。

3. 阈值不能只靠统计方法决定。

无论是选择更看重敏感性还是阳性预测值，还是给QALY赋予货币价值，本质上都涉及价值判断。作者强调，理想情况下，应由专家小组完成这些判断，并纳入患者、家属倡导者、政策制定者、监管者和支付方等利益相关者。

仍需谨慎的地方

作者反复指出，阈值切不可脱离具体人群和场景。例如，作者基于 SNAP-2 Self-Harm 得到的风险范围适用于精神障碍门诊患者，但并不一定适用于初级保健人群或社区青少年。不同人群中不良结局的发生率不同，如果希望维持相同的敏感性、特异性或阳性预测值，阈值可能需要调整。

此外，任何阈值都无法替代完整临床判断。综述在摘要中即明确指出，临床医生做决策时会综合所有信息，阈值只是其中一个因素。尤其在精神科，量表分数、病史、功能、风险、家庭支持、治疗可及性、患者意愿等信息，都可能影响最终决策。

临床判断：精神医学无可替代的智慧 | 专家视角

2025-11-26

作者还指出，精神科在这一领域仍存在明显研究空白。未来需要收集常模数据，校准尚缺乏常模的评估工具；在同一研究中评估功能损害，以判断哪些维度足以建立功能损害阈值；利用既有纵向数据发展预测阈值；并通过经济学评价确定哪些维度和范围可以指导干预选择。

结语

精神科正在越来越多地接受这样一个事实：精神病理现象大多是连续的，而不是天然二分的。但只要临床实践仍需要‌「是否治疗、如何治疗、是否住院、是否纳入研究」‌这样的分类决策，阈值就不可避免。

精神科阈值不应被诊断独占。相比于单纯追求‌「量表截点对应某个诊断」‌，更有价值的问题是：这个截点服务于什么决策？它是为了描述严重程度、判断功能损害、预测未来风险，还是选择最具成本效益的干预？

作者认为，建立基于目的的精神病理范围，有望像其他医学领域一样，提高精神科分类系统和量化评估的临床实用性。

文献索引：Kotelnikova Y, Clark LA, Ruggero CJ, et al. Strategies for Establishing Clinical-Decision Thresholds in Psychiatry: A Review. JAMA Psychiatry. 2026 May 27. doi:10.1001/jamapsychiatry.2026.1078. Epub ahead of print.

点击「阅读原文」可查看及检索历史文章。