JAMA Dermatol 重磅分析:ChatGPT看皮肤病,文字提示vs.图像提示谁更准?
2026-03-22
近年来,人工智能技术在皮肤科领域的应用日益广泛,尤其在皮肤良恶性病变的诊断中展现出巨大潜力。ChatGPT作为一种大型语言模型,已被探索用于辅助皮肤病的诊断,支持文本提示和视觉提示两种输入方式。然而,其在真实临床环境中的诊断可靠性仍不明确。已有研究对其在皮肤病变识别中的表现存在不一致结果,可能与方法学差异有关。因此,本研究旨在通过Meta分析系统评估ChatGPT在皮肤科诊断中的准确性,并探讨影响其表现的关键因素。
本研究遵循PRISMA指南,检索了PubMed和SCOPUS数据库中截至2025年3月发表的相关文献,共纳入17项研究。纳入标准包括:研究涉及ChatGPT对皮肤病的诊断评估、报告了诊断准确性数据、明确提示类型(文本或视觉)及病变类型。研究提取的数据包括病变类型、Fitzpatrick皮肤光型、ChatGPT访问日期、病例来源、模型版本等。主要结局指标包括“首位诊断准确率”(即ChatGPT在鉴别诊断中正确列出诊断作为首位)和“鉴别诊断准确率”(即正确诊断出现在鉴别诊断列表中任意位置)。统计分析使用R软件进行。模型版本对诊断准确性的影响
研究显示,ChatGPT-4o在诊断准确性上显著优于ChatGPT-4。在首位诊断准确率方面,ChatGPT-4o为68.12%,而ChatGPT-4仅为38.26%;在鉴别诊断准确率方面,分别为75.83%和60.47%(P = 0.0038)。这一差异归因于ChatGPT-4o在2024年发布时增强了多模态推理能力。
提示类型对诊断准确性的影响
视觉提示的整体诊断准确率高于文本提示(69.60% vs 65.00%),表明图像信息为模型提供了更多诊断线索。然而,Logistic回归分析显示,与文本提示相比,视觉提示的准确率反而显著降低(OR = 0.30,P = 0.01),提示视觉输入可能存在信息处理偏差(表1)。
表1:ChatGPT 在关键变量上的逻辑回归结果
病变类型与肤色差异
恶性病变(如基底细胞癌、黑色素瘤)是研究中测试最多的病变类型,各占5.38%(n=7)。在Fitzpatrick皮肤光型3以上(深肤色)患者中,ChatGPT的诊断准确率显著低于浅肤色患者(65.88% vs 77.64%,P = 0.0159),提示模型在深肤色人群中存在诊断偏差。
数据来源与时间趋势
使用公共数据集的诊断准确率低于私有数据集(67.51% vs 70.10%,P = 0.0295)。Logistic回归进一步证实,公共数据集的使用显著降低诊断准确性(OR = 0.63,P = 0.004)。此外,研究年份与诊断准确性呈正相关(OR = 4.15,P = 0.003),表明模型性能在逐年提升(表1)。
偏倚与异质性评估
漏斗图显示研究分布无明显不对称性(Egger检验P = .191),提示不存在显著发表偏倚。然而,研究间存在高度异质性(I² = 92.9%),可能与数据集差异、提示工程方法、病变类型等因素有关(图1)。
图1:研究层面准确性估计和偏倚评估的漏斗图
本研究表明,ChatGPT在皮肤科诊断中具有一定潜力,尤其在支持鉴别诊断方面表现良好。模型版本的更新显著提升了诊断性能,视觉提示在整体准确率上优于文本提示,但多因素分析显示其在控制其他变量后表现不如文本提示,提示视觉信息的处理仍需优化。此外,ChatGPT在深肤色人群中的诊断准确性显著下降,反映出训练数据多样性的不足。当前模型仍不能替代临床医生,仅可作为辅助工具使用。本研究发现ChatGPT在皮肤病变识别中表现出较高的鉴别诊断准确性,尤其在最新版本中表现更为突出。ChatGPT-4o的多模态能力增强可能是其诊断性能提升的关键因素,说明模型结构优化对临床应用价值具有积极影响。然而,视觉提示在实际应用中表现不如预期,可能与图像质量、病变特征提取能力、提示设计等因素有关。这也提示未来研究应关注图像预处理、标准化输入格式等问题,以提高模型的稳定性和可解释性。另一个值得关注的问题是模型在不同肤色人群中的表现差异。深肤色人群的诊断准确率显著低于浅肤色人群,反映出当前训练数据中肤色多样性不足,可能导致模型在真实世界中存在诊断偏见。这一发现具有重要临床意义,提示未来数据集构建应更加注重人群代表性,避免加剧现有医疗资源分配不均的问题。此外,公共数据集的诊断准确性低于私有数据集,可能与公共数据标注质量参差不齐、病变类型分布不均有关。虽然公共数据集有助于模型的广泛验证,但若缺乏高质量标注,可能影响模型评估的可靠性。因此,未来应推动高质量、标准化数据集的开放共享,以支持模型的公平评估与持续优化。最后,本研究纳入文献之间存在高度异质性,提示研究设计、提示策略、病变类型等因素对诊断结果影响显著。尽管统计分析控制了部分变量,仍无法完全消除混杂因素。未来应推动更大规模、前瞻性、标准化设计的研究,以进一步验证ChatGPT在皮肤科诊断中的实际应用价值。
参考文献:Chen R, Nguyen DH, Fettel KD, et al. Diagnostic accuracy of ChatGPT in dermatology: A meta-analysis of textual versus visual prompts. J Am Acad Dermatol. 2026;94(1):288-289. doi:10.1016/j.jaad.2025.09.016
医脉通是专业的在线医生平台,“感知世界医学脉搏,助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品,全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。
(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)