在医学人工智能领域,从“实验室成功”走向“临床金标准”的道路总是充满挑战。过去五年,人工智能在内镜领域的快速发展,为早期
最终,该研究在全国12个省份的24家医院开展,共纳入29,514例接受
在为期两年余的研究中,来自全国各地的积极反馈不断涌现,作者对AI帮助医生发现更多可疑病变的能力充满信心。最终数据分析结果表明,AI的表现令人满意:
•胃镜检查质量持续提升:将平均盲区数量从2.52个显著降至1.07个(P<0.001)。
•“火眼金睛”识别高难病灶:在符合方案(Per-Protocol PP)人群中,内镜精灵对胃腺癌的识别率达到了100%,对高级别上皮内瘤变(HGIN)的识别率超过90%。
但行业经验认为,不同地区不同层级的医院对于早期胃肿瘤的诊断标准可能存在显著差异。同样的病灶,在不同中心可能被给出不同结论。如果不解决这个问题,任何关于“检出率”的比较,都会存在偏差。因此,作者在实验设计阶段就考虑到这个问题,为了确保最终结论的科学性,作者做出了一个并不轻松、但非常重要的决定:邀请全国顶尖病理专家组成复核小组,统一“终审标准”。
复阅结果令人震撼,也极具警示意义:在统一标准下,原本被初诊为“低级别上皮内瘤变(LGIN)”的病例中,有83.58%被重新判定为非肿瘤性改变(即过度诊断风险)。这也使得研究结论发生了戏剧性的反转:基于原始病理时,原本是具有统计学意义的阳性结果(AI辅助显著提升了胃肿瘤检出率:4.06% vs. 3.57%,P=0.03);但在经过中心复阅后,变成了不具显著差异的阴性结果(1.42% vs. 1.25%,P=0.25)。

这一发现为研究领域敲响了警钟:没有严谨病理复阅的AI多中心临床试验,可能会因为各中心诊断标准的偏差而掩盖或夸大AI的真实效能,中心病理复阅可能会成为未来AI多中心临床研究的标配。
通过深度的探索性亚组分析,作者发现AI并非简单的工具,它在特定环境下具有高度价值:
•赋能年轻医生:在0-3年资历的医生群体中,AI辅助下的胃早癌检出率风险比(RR)达1.83,有更为明显的辅助效果。提示AI可以帮助较低年资的医生发现病变。
•对抗职业疲劳:在疲劳时段(如上午11点后或下午3点后),AI辅助的优势更加显著(RR 1.60 vs 非疲劳时段 1.03)。这提示AI在长时间内镜工作后可能发挥重要补偿作用。
•潜在的培训效应:研究发现,既往接触过AI的医生,其基础诊断水平明显高于未接触过AI的医生(AI-naïve)。这提示AI可能不仅是一个工具,也可能成为一种新的内镜培训方式。
这项发表于顶级期刊《Gastroenterology》的研究,并没有给出一个简单的“检出率翻倍”的口号。相反,它以极为严谨的态度告诉行业:
①AI系统的构建与验证需建立在更高标准的病理金标准之上。
②AI不是替代医生的工具,而是帮助医生在关键时刻做出更好决策的伙伴,探索更优的人机交互可能是领域未来研究的重点之一。
即便在本研究中,对照组中82.89%的检查来自三级医院,且超过68%的操作由资深医生完成,整体诊断水平已经接近“天花板”,内镜精灵依然在质量控制、疲劳补偿和年轻医生培训等方面展现出重要价值,交出了令人满意的答卷。
作者相信,真正有价值的技术,经得起真实世界的检验。内镜精灵将持续深耕,让每一次检查都更有底气,让每一处病灶都有迹可循。这,正是作者持续深耕这一领域的原因。
于红刚 教授
武汉大学人民医院消化医院院长、内科主任、消化内科主任,一级主任医师,二级教授,博士生导师,国际知名消化内镜专家
中华医学会消化内镜学分会副主任委员及消化内镜人工智能协作组组长
湖北省医学会副秘书长
湖北省医学会消化内镜分会主任委员
主研消化系统疾病的内镜诊疗工作,是我国最早开展内镜黏膜下剥离术(ESD)等高难度内镜手术的先驱之一,以精湛的结肠镜下ESD诊疗技术享誉国内外
率先研发了全球首个集内镜质量控制、早期肿瘤检测和内镜诊断报告自动生成功能于一体的消化内镜人工智能辅助诊断系统,树立了我国在消化内镜AI领域的国际领先地位,为推动全球消化内镜AI诊疗技术的发展作出了重要贡献
(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)