JAMA Psychiatry特别通讯：AI驱动精神医学变革，是解药还是毒药？| 专家视角_

JAMA Psychiatry特别通讯：AI驱动精神医学变革，是解药还是毒药？| 专家视角

2026-01-15

发表评论

关于人工智能（AI）在医疗健康领域的讨论，几乎都离不开「变革」二字。尽管这种影响目前多处于愿景阶段，但已有越来越多的证据表明，这项技术有能力从各个层面深刻改变医疗服务的提供方式。

然而，变革并不必然等同于改善，在精神科尤其如此。尽管基因组学和神经科学的飞速进展已深刻影响了其他医学领域，但精神障碍患者的诊疗与护理模式却鲜有实质性变革。精神疾病患者目前仍面临巨大挑战：高质量医疗的可及性有限、诊断缺乏一致性、照护模式存在显著差异，以及现有治疗手段的固有局限。虽然 AI 常被视为破解上述困局的策略，但我们不能想当然地认为这种进步会水到渠成，更不能预设其完全有益。

在探讨潜在获益的同时，这篇于1月14日在线发表在 JAMA Psychiatry.的特别通讯文章重点考察了 AI 的广泛应用可能给精神医学护理带来的风险，并提出了旨在缓解相关风险的策略。

益处

一般而言，AI 的应用有望扩大医疗服务的可及性，并有助于实现更统一的医疗模式。以下两个应用案例展示了这些益处：

第一个案例是利用大语言模型驱动聊天机器人，以提供循证治疗。目前，患者获得诸如认知行为疗法（CBT）等服务可能面临挑战；此外，也无法保证特定的临床医生确实提供了基于循证的医疗，且质量能够达到充分标准。引入聊天机器人可以缓解部分需求压力（例如，为某些个体提供 CBT 技术的初步入门指导可能就已足够），从而使有限的 CBT 治疗师资源能够集中服务于病情更严重的患者。近期一项采用等候名单对照的随机临床试点研究表明，AI 干预在一组异质性疾病中均显示出获益。

将循证治疗自动化还有助于加速治疗创新，使潜在治疗方法的推广和研究变得更加简便。正如网站通常会应用 A/B 测试来研究提高用户参与度的策略一样，CBT 应用程序也可以（在获得知情同意的情况下）迅速研究新模块或新方法是否能改善治疗结局。AI 的这一应用有助于加快验证一系列新兴的针对性 CBT 干预措施，这些措施充分考虑了即便在单一疾病及其亚群之间也存在的异质性。

第二个案例是临床决策支持。心境障碍领域的初步研究表明，通过一种称为「检索增强生成」（RAG）的方法将大型语言模型与治疗指南相结合，其识别恰当的下一步治疗方案的准确率与临床专家相当，且高于社区临床医生。同样重要的是，其识别不当治疗方案的比例显著低于社区临床医生，这提示我们有机会通过避免不合理的药物选择来降低不良结局。原则上，这些策略应能让任何临床医生在初级保健机构中提供专家级的医疗，从而减少对精神专科转诊的需求。

尽管临床干预措施得到了更多研究，但在短期内，行政类应用可能通过优化诊疗流程产生最大影响。例如，此类应用包括记录临床就诊过程的智能听写工具、患者自主驱动的就诊前信息录入流程，以及自动化的预先授权和转诊单生成系统。从更长远来看，AI 可能更直接地改进诊断和监测（如，通过解析被动数据测量值）。它可能通过识别需要更高强度治疗的高风险个体，帮助最大限度地减少不良治疗结局。通过更系统地监测和分析结局，AI 可能为开发新型护理体系提供信息支持，实现更快速的创新——正如应用程序可以对新策略进行实时试验一样。最终，AI 还应加速心理治疗、药物治疗或其他躯体治疗的研发科学进程。在后者情况下，能够审核相关文献和原始数据并提名新型候选药物进行研究的 AI「科学家」，已经在精神医学之外的领域显示出前景。

风险

★ 人类照护可及性的降低

与 AI 相关的一些风险并非技术本身所固有，而是反映了其可能被用于改变医疗服务的提供方式，而这种改变实际上可能对患者有害。例如，聊天机器人可能成为很多精神障碍的强制性一线门诊方案，成为治疗审批流程中的一个新环节。不难想象，保险公司可能会要求提供证据，证明患者已尝试完成一套完整的、基于应用程序的认知行为治疗后，才授权任何进一步的治疗。远程医疗公司已经展示出将患者转向此类低成本干预手段的热情。在一个有争议的案例中，一家远程医疗公司的临床医生单方面决定，将所有中度抑郁患者从个体心理治疗中分流出去。

经过审慎周全的考虑，自动化的一线治疗可能使部分个体受益。然而，一旦成为强制性的第一步，基于聊天机器人的治疗可能会延迟很多患者获得有效治疗的机会。

迄今为止，大多数聊天机器人研究是将这些干预措施与等候名单对照组进行比较。这种设计可能反映了现实：对于很多人来说，等待人类心理治疗师的时间可能非常漫长。正如最近的一篇评论所指出的，将基于 AI 的干预与「现行标准」进行比较非常重要，而不仅仅是与「理想化标准」对比。从长远来看，应开展足够效力的非劣效性研究，将此类干预与当前的临床最佳实践进行比较。只有获得令人信服的非劣效性证据，才应成为支付方要求将 AI 作为初始治疗的前提条件。最终，研究者和临床医生都应追求开发出表现超越人类治疗师的 AI 疗法。

★ 临床实践中未预见的变化

AI 很可能对医疗服务产生其他未预见的影响。例如，在初级保健中使用 AI 记录员可能会导致诊断和管理模式的变化。这些结果本身并不一定是负面的，但它们凸显了理解此类变化的重要性，而不能简单地假设所有 AI 的辅助工作都是有益的。更广泛地说，尽管人们假设 AI 记录员可以提高临床医生的效率并可能减少职业倦怠，但值得注意的是，并非所有研究都支持这一结论。最显著的是，使用记录员对患者护理的影响尚未得到充分描述，尤其是在精神科。

AI 记录员的使用凸显了医疗技术在大量投资推动下突飞猛进的现状。在精神卫生领域，新技术经常被视为解决长期资金不足和缺乏平等问题的途径。然而，快速扩张的压力可能会掩盖充分理解新技术后果的努力。远程心理健康公司的激增提供了一个警示：即便对于改善可及性非常重要，但数量的增加可能以牺牲质量为代价。例如，美国司法部曾针对一家远程医疗公司采取行动，指控其存在「鼓励未经授权分发受控物质的商业行为」。

事实上，任何影响精神科诊疗护理的新技术都可能同时产生积极和消极的后果。例如，患者报告结局（PROs）的使用被誉为促进基于评估的治疗、量化症状以确保充分治疗的关键。然而，初级保健病历纳入 PHQ-9 评分后，导致了其他方面症状记录的明显匮乏；原因可能在于，临床医生认为患者的症状已通过自评量表得到了充分反映，不需要补充更多细节。这种缺失使得从叙述性文本中推断患者的抑郁严重程度几乎变得不可能。这种记录的减少对于患者照护虽然不一定有害，但仍需进一步研究以理解其临床意义。

临床医生行为变化的迹象也提出了另一种可能性：AI 可能会无意中降低人类提供医疗护理的质量。一些信息表明，医学实习生是自动化参考工具（如 Open Evidence）最热衷的接纳者。这些工具允许医学生快速获取专家的累积知识，并以一种区别于简单互联网搜索的方式进行整合和总结。

然而，这种即时获取知识的长期后果难以预测。在其他领域，自动化带来了益处，也带来了危害。典型的例子是航空自动驾驶仪及相关警告工具的使用。毫无疑问，这些技术预防的错误远多于它们造成的错误，使飞行员能够专注于飞行的特定方面，并防止做出超出飞机极限的动作。与此同时，飞行员对这些工具产生依赖，以及独立驾驶飞机能力的下降，早在几十年前就被美国联邦航空管理局（FAA）所发现。2013 年，FAA 发布了一份安全警报，指出：「持续使用自动飞行系统可能导致飞行员在使飞机从意外状态恢复时的专业操作能力下降。」 AI 的使用是否也会这样削弱医生的临床技能（尤其是在某些突发或复杂的情况下），值得进一步研究。

★ 模型失配导致的危害

以上风险并非 AI 所特有；任何新技术都可能被支付方用于降低成本和提高系统效率。然而，AI 本身具有特有的技术风险，在将其部署用于治疗时需格外注意。其中一个重大风险是「失配」（misalignment），即 AI 所引导的治疗决策或提供的谈话治疗并不符合具体患者的最佳利益。未来可能会开发出一种决策工具，以减少转诊至专科医生的数量或降低昂贵药物的使用，尤其是在对患者最重要的结局（如功能和生活质量）难以测量、因此也难以用于强化学习或其他调优时。尽管这种模型可能会有利于整个系统，但却无法与具体患者的需求保持对齐。当前的医疗体系已经在应用可能并非对患者最优的算法，而 AI 的融入可能进一步模糊这些动机。

当防护措施（旨在防止 AI 工具以特定方式行事的规则）失效或 AI 产生其他预期外的输出时，也会对个体患者带来风险。一个广为报道的失败案例是，一款进食障碍聊天机器人向其用户提供了减重建议。尽管这一模式反映出开发者在大语言模型部署方面欠缺经验，但它同时也表明，在广泛部署的情况下，模型可能以人们没有预料到的方式运行，导致更普遍的风险。与以往部署前行为可预测的聊天机器人不同，大语言模型在定义上本就是概率性的，因此更难进行全面测试。美国食品药品监督管理局（FDA）始终难以确定如何对纳入此类模型的工具进行恰当的监管。

在多种情境下，多个模型曾为用户的自杀企图提供建议或鼓励。此类模型还可能提供其他对用户健康有害的建议，包括建议用户「每天吃一小块石头」。新证据表明，弱势人群频繁、密集地使用聊天机器人可能出现抑郁症状和妄想。

★ 社会层面的后果

医疗领域之外，错位失配或导向不良的 AI 也可能造成危害。大量文献支持社交媒体使用与抑郁、焦虑和易激惹性升高之间的关联。虽然其中很多是相关性和横断面研究，但一些纵向数据和少数随机试验表明，两者至少存在部分因果关系。AI 越来越多地用于生成社交媒体内容，或推广其他吸引人的在线互动，这可能会增加人们接触此类媒体的机会。在这种情况下，AI 被调优以提高参与度，而此举并不一定符合用户的最佳利益。虽然也有一些可以部分减轻此类风险的策略（如屏幕使用时间提醒、鼓励参与其他活动等），但从更高的用户参与度中获利的公司似乎不太可能努力降低参与度。这些行为无论是否被贴上网络成瘾的标签，都对很多用户产生了切实的影响。

使用 AI 可能带来的一个特殊的社会风险，是人们社交联系和社交技能的丧失。尽管目前在很大程度上仍停留在理论层面，但更多地使用 AI 进行准社交活动（如在线聊天），很可能会取代至少一部分真实的社会互动。其中一部分活动可能是有益的，尤其是对于那些缺乏其他社交渠道的人。然而，这些活动不太可能完全取代社会互动（尤其是面对面互动）的好处。最近的研究表明，美国人存在孤独感的比例很高（包括老年人群体）；在应对被美国卫生总署署长称为「流行病」的问题上，AI 可能是一把双刃剑。从长远来看，随着 AI 变得更加具身化（如基于机器人甚至高度类似人类的机器），并且更深入地融入日常生活，其对心理健康的影响将更加难以预测。

AI 一个更隐蔽的风险可能是操纵。广告商和政治活动都曾利用 AI 设计更具针对性和说服力的在线宣传。一款商业聊天机器人曾短暂出现，坚决要讨论关于南非政治的误导性观点；尽管这种做法显得很生硬且带有幽默感，但它也暗示了大语言模型被用于改变人们思想的可能性，而且并非总是以有益的方式。这种可能性可以通过依赖那些主办方保证某种程度中立的模型来管理，但聊天机器人和模型的激增表明，很多人并不会受限于这类经过筛选的模型。TikTok 可能不是主流的新闻来源，但对很多美国成年人来说，它仍然是一个重要的新闻来源。

失配的最后一个风险，源于大语言模型能够帮助用户完成原本需要更多知识和资源才能完成的任务。「氛围编码」（vibe coding）的兴起（即原本并不擅长编写代码的人使用大语言模型来开发软件）暗示了这些模型的潜力。这些工具同样也可被希望实施危害行为的个人所利用，如制造计算机病毒或窃取数据。将模型应用于促进核武器或生物武器的研发也越来越容易被设想。一些前沿模型的创建者已经明确指出了这种风险，且近期已有迹象表明，前沿模型如今已具备足够的知识能够构成真实的风险。

与此同时，这些模型（尤其是当它们被整合成可以交互完成现实世界任务的智能体时）很可能引发劳动力市场的重大转变。很多入门级工作很容易受到自动化的影响，而 AI 取代人类工人的能力只会不断增强。事实上，一些经济数据表明，这种替代可能已经在一定程度上发生了。

总之，AI 的这两种潜在后果——大范围的破坏，或至少是大范围的工作岗位流失——也是焦虑的新来源。这些担忧是仅仅取代了旧的担忧，还是增加了全球的整体负担，还有待观察。在这两种情况下，也值得考虑 AI 可能会带来解决方案的可能性；例如，更高效的疫苗接种，或者重新分配收入的方法，使得生产力的提高能够惠及那些被 AI 替代的人。

解决方案

没有任何单一策略能解决以上所有问题。一个可行的解决方案可能是通过监管来应对特定风险。FDA在健康领域监管 AI 的能力受到《21 世纪治愈法案》的限制，该法案将其监管范围限定为「用于诊断和治疗的软件」。往届 FDA 领导层曾发布针对 AI 总体及大语言模型的指导性声明，但在当前的大环境下，这些声明不太可能指导政策，尤其是在相关技术部署变化速度极快的情况下。国会也可以对 AI 进行监管，但迄今几乎没有表现出这样做的意愿。各州已开始介入并出台相关法规（截至2024 年底已有 31 个州），但这些法规及其对健康领域的影响差异很大。监管内容包括强制要求采取风险管理策略、评估 AI 影响以及确保算法公平性。以州为单位零散推进的监管方式可能会抑制 AI 在健康领域的应用，并促使开发者回避某些州。另一方面，在缺乏联邦层面领导的情况下，州一级的行动可能是美国应对潜在危害的唯一现实途径。

无论监管来源如何，一个核心需求是透明度。要求公开所应用模型的详细信息（可能包括其在特定基准上的表现），将有助于医疗系统、临床医生以及患者及其家属做出知情决策。可以要求支付方披露其如何以及在何时应用 AI 指导心理健康治疗。

随着新工具影响的显现，可能有必要限制其在心理健康领域的某些应用，尤其是确保它们不会成为通向更标准化照护方式的「守门人」。即便某项 AI 技术具有良好的成本效益比，社会仍可能决定不采用其降低成本。例如，如果不应由某些保险机构将聊天机器人规定为一线治疗手段，可能需要通过正式立法来实现。

FDA 监管是否适合确保 AI 聊天机器人的安全性仍存争议。近期一款抑郁症教练 App 的获批使情况更加复杂；获批文件强调，该技术缺乏导致危害的证据，但同时也承认缺乏获益的证据。以这种方式保障安全性，至少可以确保患者被引导至本身无害的干预措施（尽管如前所述，替代真正有效的治疗可能间接造成伤害）。FDA 的工作人员指出，他们并不监管心理治疗；其质量主要由专业组织自身保障，但这些控制措施的有效性同样值得商榷。

另一种减少危害的策略是，确保下一代医师接受专门教育，将基于 AI 的工具作为临床实践的一部分加以应用。成为闭环中的主导者，而不仅仅是闭环中的人，意味着需要对这一闭环本身有更深入的理解。这样的教育说起来容易做起来难，因为技术发展过于迅速，且医疗团队中资历最浅的成员反而往往最擅长新技术。至少，临床医生可以从了解 AI 工具失效的方式及其可能带来的偏倚中获益。受训医师也可能受益于类似航空领域「手动飞行时间」的经验，在无法使用 AI 的环境中进行诊疗。模拟训练（或许由 AI 驱动）可以像飞行员训练那样帮助教授这种「手动飞行」，但可能仍不足够。

结论

整合 AI 的工具有望显著改善精神科诊疗护理的可及性，并提升安全性和质量。然而，此类工具也带来了重大且常被低估的风险。鉴于 AI 可能通过多种方式对心理健康产生不利影响（从对医疗本身的直接影响到更广泛的社会后果），对这些影响加以考量将有助于制定减轻相关风险的策略。

临床判断：精神医学无可替代的智慧 | 专家视角

2025-11-26

文献索引：Perlis RH. Artificial Intelligence and the Potential Transformation of Mental Health. JAMA Psychiatry. Published online January 14, 2026. doi:10.1001/jamapsychiatry.2025.4116

点击「阅读原文」可查看及检索历史文章。