据 OpenAI 于 2026 年 1 月发布的报告显示,在全球范围内,有超过 5% 的与 ChatGPT 的对话与医疗保健相关,每天有超过 4000 万人向 ChatGPT 医疗保健方面的问题。
2026 年 1 月,OpenAI 推出了其首款 AI 医疗产品——ChatGPT Health,这是一款面向消费者用户的健康服务产品,旨在帮助用户理解医疗信息,并为与人类临床医生的会面做好准备。
ChatGPT Health 并非一个独立的应用程序(App),而是存在于 ChatGPT 内部,作为一个专门的空间或标签页,专注于健康相关的问题、文档和工作流程。OpenAI 表示,其与来自 60 个国家、从事数十种专科的 260 多名医生合作,历时两年,对与健康相关的模型回复进行了超过 60 万次审查。因此,它不会像普通聊天那样以开放式的回答任何听起来与医疗相关的问题。相反,它的回答会更加谨慎,对信息的解释有更严格的限制,并更明确地提示寻求专业护理。
那么,ChatGPT Health 的实际表现如何呢?
2026 年 2 月 23 日,西奈山伊坎医学院的研究人员在 Nature Medicine 期刊发表了题为:ChatGPT Health performance in a structured test of triage recommendations 的论文。
该研究测试评估了 ChatGPT Health 在分诊建议方面的表现,结果显示,其存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。例如,对于“

在这项研究中,研究团队使用临床医生撰写的涵盖 21 个临床领域的 60 个病例情景,在 16 种不同条件下(总计 960 份回应),对 ChatGPT Health 的分诊建议进行了结构化压力测试。
结果显示,ChatGPT Health 的测试总体表现呈“倒 U 型”分布,其在处理中等紧急程度的病例时表现尚可,最危险的失误集中在两个临床极端——非紧急临床表现(失误率 35%)和紧急状况(失误率 48%)。
在明确需要急诊的“金标准”病例中,ChatGPT Health 错误地将 52% 的病例判断为不需要立即急诊。错误示例——对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况,其建议患者在“24-48 小时后再评估”,而不是立即前往急诊科。正确判断示例——正确识别并分诊了“中风”和“过敏性
该研究还显示,ChatGPT Health 易受他人意见影响,也就是存在锚定偏见,当病例描述中提到家人或朋友低估了症状,其给出的分诊建议会显著地向“降低紧急程度”偏移。这种影响在边缘案例中尤为明显。
对于有 Suicide 倾向的患者,ChatGPT Health 的危机干预的触发情况难以预测,在患者未描述具体 Suicide 方法时,危机干预触发频率反而高于描述具体方法时。
总的来说,这项研究结果揭示了人工智能分诊系统(Artificial Intelligence Triage Systems)存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。
在消费级人工智能分诊系统部署之前,这些安全问题需要通过前瞻性验证来加以确认。
论文链接:https://www.nature.com/articles/s41591-026-04297-7
(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)