JAMA Dermatol 重磅分析：ChatGPT看皮肤病，文字提示vs.图像提示谁更准？_

JAMA Dermatol 重磅分析：ChatGPT看皮肤病，文字提示vs.图像提示谁更准？

发布时间：2026-03-22

编者按

近年来，人工智能技术在皮肤科领域的应用日益广泛，尤其在皮肤良恶性病变的诊断中展现出巨大潜力。ChatGPT作为一种大型语言模型，已被探索用于辅助皮肤病的诊断，支持文本提示和视觉提示两种输入方式。然而，其在真实临床环境中的诊断可靠性仍不明确。已有研究对其在皮肤病变识别中的表现存在不一致结果，可能与方法学差异有关。因此，本研究旨在通过Meta分析系统评估ChatGPT在皮肤科诊断中的准确性，并探讨影响其表现的关键因素。

研究设计

本研究遵循PRISMA指南，检索了PubMed和SCOPUS数据库中截至2025年3月发表的相关文献，共纳入17项研究。纳入标准包括：研究涉及ChatGPT对皮肤病的诊断评估、报告了诊断准确性数据、明确提示类型（文本或视觉）及病变类型。研究提取的数据包括病变类型、Fitzpatrick皮肤光型、ChatGPT访问日期、病例来源、模型版本等。主要结局指标包括“首位诊断准确率”（即ChatGPT在鉴别诊断中正确列出诊断作为首位）和“鉴别诊断准确率”（即正确诊断出现在鉴别诊断列表中任意位置）。统计分析使用R软件进行。

研究结果

模型版本对诊断准确性的影响

研究显示，ChatGPT-4o在诊断准确性上显著优于ChatGPT-4。在首位诊断准确率方面，ChatGPT-4o为68.12%，而ChatGPT-4仅为38.26%；在鉴别诊断准确率方面，分别为75.83%和60.47%（P = 0.0038）。这一差异归因于ChatGPT-4o在2024年发布时增强了多模态推理能力。

提示类型对诊断准确性的影响

视觉提示的整体诊断准确率高于文本提示（69.60% vs 65.00%），表明图像信息为模型提供了更多诊断线索。然而，Logistic回归分析显示，与文本提示相比，视觉提示的准确率反而显著降低（OR = 0.30，P = 0.01），提示视觉输入可能存在信息处理偏差（表1）。

表1：ChatGPT 在关键变量上的逻辑回归结果

病变类型与肤色差异

恶性病变（如基底细胞癌、黑色素瘤）是研究中测试最多的病变类型，各占5.38%（n=7）。在Fitzpatrick皮肤光型3以上（深肤色）患者中，ChatGPT的诊断准确率显著低于浅肤色患者（65.88% vs 77.64%，P = 0.0159），提示模型在深肤色人群中存在诊断偏差。

数据来源与时间趋势

使用公共数据集的诊断准确率低于私有数据集（67.51% vs 70.10%，P = 0.0295）。Logistic回归进一步证实，公共数据集的使用显著降低诊断准确性（OR = 0.63，P = 0.004）。此外，研究年份与诊断准确性呈正相关（OR = 4.15，P = 0.003），表明模型性能在逐年提升（表1）。

偏倚与异质性评估

漏斗图显示研究分布无明显不对称性（Egger检验P = .191），提示不存在显著发表偏倚。然而，研究间存在高度异质性（I² = 92.9%），可能与数据集差异、提示工程方法、病变类型等因素有关（图1）。

图1：研究层面准确性估计和偏倚评估的漏斗图

研究结论

本研究表明，ChatGPT在皮肤科诊断中具有一定潜力，尤其在支持鉴别诊断方面表现良好。模型版本的更新显著提升了诊断性能，视觉提示在整体准确率上优于文本提示，但多因素分析显示其在控制其他变量后表现不如文本提示，提示视觉信息的处理仍需优化。此外，ChatGPT在深肤色人群中的诊断准确性显著下降，反映出训练数据多样性的不足。当前模型仍不能替代临床医生，仅可作为辅助工具使用。

讨论

本研究发现ChatGPT在皮肤病变识别中表现出较高的鉴别诊断准确性，尤其在最新版本中表现更为突出。ChatGPT-4o的多模态能力增强可能是其诊断性能提升的关键因素，说明模型结构优化对临床应用价值具有积极影响。然而，视觉提示在实际应用中表现不如预期，可能与图像质量、病变特征提取能力、提示设计等因素有关。这也提示未来研究应关注图像预处理、标准化输入格式等问题，以提高模型的稳定性和可解释性。

另一个值得关注的问题是模型在不同肤色人群中的表现差异。深肤色人群的诊断准确率显著低于浅肤色人群，反映出当前训练数据中肤色多样性不足，可能导致模型在真实世界中存在诊断偏见。这一发现具有重要临床意义，提示未来数据集构建应更加注重人群代表性，避免加剧现有医疗资源分配不均的问题。

此外，公共数据集的诊断准确性低于私有数据集，可能与公共数据标注质量参差不齐、病变类型分布不均有关。虽然公共数据集有助于模型的广泛验证，但若缺乏高质量标注，可能影响模型评估的可靠性。因此，未来应推动高质量、标准化数据集的开放共享，以支持模型的公平评估与持续优化。

最后，本研究纳入文献之间存在高度异质性，提示研究设计、提示策略、病变类型等因素对诊断结果影响显著。尽管统计分析控制了部分变量，仍无法完全消除混杂因素。未来应推动更大规模、前瞻性、标准化设计的研究，以进一步验证ChatGPT在皮肤科诊断中的实际应用价值。

参考文献：Chen R, Nguyen DH, Fettel KD, et al. Diagnostic accuracy of ChatGPT in dermatology: A meta-analysis of textual versus visual prompts. J Am Acad Dermatol. 2026;94(1):288-289. doi:10.1016/j.jaad.2025.09.016

医脉通是专业的在线医生平台，“感知世界医学脉搏，助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品，全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。

(本网站所有内容，凡注明来源为"医脉通"，版权均归医脉通所有，未经授权，任何媒体、网站或个人不得转载，否则将追究法律责任，授权转载时须注明"来源：医脉通"。本网注明来源为其他媒体的内容为转载，转载仅作观点分享，版权归原作者所有，如有侵犯版权，请及时联系我们。)