【综述】人工智能在炎症性肠病组织学评估中的应用进展_人工智能_炎症性肠病组织学评估

【综述】人工智能在炎症性肠病组织学评估中的应用进展

发布时间：2026-02-19 | 来源：IBD Daily

关键词：人工智能炎症性肠病组织学评估

文献来源：中华炎性肠病杂志，2025年第9卷第6期

作者：申越周子孺孙静陈中霞徐月节占强

作者单位：南京医科大学附属无锡人民医院消化内科

通信作者：占强

引用本文：申越,周子孺,孙静,等. 人工智能在炎症性肠病组织学评估中的应用进展[J]. 中华炎性肠病杂志（中英文）,2025,09(06)：475-478.DOI:10.3760/cma.j.cn101480-20241213-00137

【摘要】炎症性肠病（IBD）是一种慢性非特异性的肠道炎性疾病。近年来，其治疗目标从临床症状控制、内镜缓解扩展到组织学缓解，而组织学缓解患者预后显著更优。目前组织学评估的参数主要包括Nancy组织学指数（NHI）、Geboes评分（GS）、Robarts组织学指数（RHI）、整体组织学活性评分（GHAS）等，但临床组织学缓解的评估仍然存在缺乏统一标准及可重复性不佳等问题，无法普及应用。随着人工智能（AI）技术的发展，AI工具逐步被应用于IBD组织学评估，并且还可以和内镜、多组学联合应用。本文就AI在IBD组织学评估中的应用现状、研究进展及相关挑战进行综述。

【关键词】炎症性肠病；人工智能；溃疡性结肠炎；克罗恩病；组织学评估；组织学缓解

炎症性肠病（inflammatory bowel disease，IBD）是一种慢性非特异性的肠道炎性疾病 ^{[ 1 ]}，主要包括溃疡性结肠炎（ulcerative colitis，UC）和克罗恩病（Crohn's disease，CD），其治疗目标已扩展到组织学缓解^{[ 2 ]}。研究表明达到组织学缓解的患者预后更优，复发风险显著降低^{[ 3 , 4 , 5 ]}。当前用于评估组织学缓解的参数^{[ 6 , 7 ]}在临床应用中面临三大挑战：第一，缺乏统一的金标准，不同评分体系关注的炎症细胞类型和结构特征存在差异^{[ 2 , 8 ]}；第二，组织学严重程度分级困难，评估过程复杂耗时，需要专业培训^{[ 9 , 10 ]}；第三，可重复性不佳，易受病理医师主观性影响^{[ 3 ]}。

人工智能（artificial intelligence，AI）近年来飞速发展，在医学中广泛应用^{[ 3 ]}。AI可以通过机器学习识别组织和数据集中有临床意义的大量数据，产生一定的标准，关注临床医师可能忽略的细节，具有良好的一致性及重复性，在组织学评估方面已有不俗表现^{[ 11 ]}。此外，AI可以通过数据转化，为患者预后提供有价值的信息。本文主要就AI在IBD组织学领域的应用、进展及相关挑战进行综述。

一、AI、机器学习与深度学习

AI是计算机科学的一个分支，通过构造具有一定智能的人工系统去模拟人的思维过程和智能行为从而完成指令^{[ 12 ]}。AI辅助组织学评估的技术的基本原理是机器学习，即基于大量数字化医疗数据和复杂模式识别数据分析所需的计算方法，从而模拟专家的判断并预测临床结果^{[ 13 ]}。此外，机器学习将输入的数据与结果之间的关系量化为一个模型，并反复调整算法以优化模型参数，从而更好地预测结果^{[ 13 ]}。在IBD中，人工神经网络是机器学习最常用的方法之一 ^{[ 13 ]}。基于人工神经网络的深度学习是当前IBD中多种AI评分系统使用的技术 ^{[ 14 ]}。

二、AI在IBD组织学评估中的应用

1．评估组织学疾病活动：AI系统可以评估组织学疾病活动，并与病理学家的结果高度相关。Peyrin-Biroulet等^{[ 10 ]}基于深度学习和特征提取的先进图像处理和机器学习算法，开发了AI驱动的评分系统，该算法利用3个神经网络结构识别不同类型的细胞，然后预测Nancy组织学指数（Nancy histological index，NHI）的每个单独分数，或预测NHI的不同组合，从而使用可用数据实现最佳结果。该研究共使用了200例UC患者的组织学图像，结果显示AI工具评估活动性与组织病理学家高度相关，其中组织病理学家之间的平均组内相关系数（intraclass correlation coefficient，ICC）为89.3%，组织病理学家和AI工具之间的平均ICC为87.2%。随后，Rubin等^{[ 9 ]}在此基础上将4个分割神经网络配置为检测细胞、细胞密度和组织类型的不同组合，预测NHI评分，从而构建新型AI组织学工具。通过对来自6个国家的9个研究中心总共791张UC患者图像的分析，发现其显著提高了对活动性评估的准确性，其中组织病理学家的平均ICC为92.1%，组织病理学家和AI组织学工具之间的平均ICC为91.1%，而这一研究的局限性在于仅仅纳入了NHI可识别的特点。此外，Najdawi等^{[ 15 ]}开发了与UC疾病活动评估相关的组织学特征的模型，该模型可直接从苏木精-伊红（HE）染色的全玻片图像中量化与UC疾病活动相关的组织学特征；然后利用组织和细胞模型预测结果以全面评估组织学样本的特征，其预测结果与病理学家的NHI评分有很强的相关性（加权Kappa κ=0.91，Spearman ρ=0.89）。这项研究也有一定的局限性，即无法捕捉组织不同区域的差异，尤其是炎症最严重的组织区域。

2．通过组织学评估预测疾病复发：AI可以通过组织学评估疾病严重程度来预测疾病复发。Gui等^{[ 7 ]}认为无中性粒细胞浸润是组织学缓解的关键，因此开发了基于帕丁顿国际虚拟染色内镜评分（PICaSSO）的组织学缓解指数（PICaSSO histologic remission index，PHRI）。金欣等^{[ 16 ]}的研究表明PHRI和内镜评分密切相关，是具有潜力的评价UC疾病活动度的组织病理学评分。Gui等^{[ 7 ]}训练并测试了1种基于卷积神经网络（convolutional neural network，CNN）架构的新型深度学习算法以检测中性粒细胞，该研究的随访时间较短，后期仍需要更长时间的随访数据。在此基础上，Iacucci等^{[ 17 ]}开发了1种先进的基于AI的计算机辅助诊断（computer-aided diagnosis，CAD）系统，用于数字化分析活检病理以评估UC临床及内镜活动并预测临床结局。结果显示：CAD系统在评估疾病活动性（PHRI>0）方面具有良好的诊断性能，且该模型预测溃疡性结肠炎内镜下严重程度指数（ulcerative colitis endoscopic index of severity，UCEIS）和PICaSSO相应的内镜缓解与否的准确率分别为79%和82%。根据病理学家评估的PHRI，组织学活动组和缓解组之间疾病复发的危险比为3.56，而根据AI评估的PHRI的危险比为4.64，该系统暂无法对炎症活动度进行分级。

3．非内镜活检下预估组织学缓解：传统活检只能评估有限的区域，而有些AI系统可以评估结肠黏膜的任何区域。此外，AI还能在非内镜活检的情况下准确预估组织学缓解。Bossuyt等^{[ 18 ]}利用29例UC患者和6例健康对照者的队列数据建立了一种计算机算法red density（RD），基于红-绿-蓝像素值的红色通道和内镜图像的模式识别，并在需要升级治疗的UC复发患者中测试了该算法的运行特性。结果显示RD与Robarts组织学指数（RHI）有良好的相关性（ r = 0.65， P = 0.000 02），但该研究存在一定的局限性，主要是纳入患者总数较少且疾病活动度较低。Takenaka等 ^{[ 4 ]}构建UC深度神经网络（deep neural networks for UC，DNUC）算法，从每张内镜图像输出以下结果：①UC内镜缓解与否；②UCEIS评分；③UC组织学缓解与否。研究发现，DNUC在评估UC患者内镜缓解的准确性与内镜医师相当，且DNUC可以在无黏膜活检的情况下识别组织学缓解患者，其中DNUC识别组织学缓解患者[定义为Geboes评分（GS）≤3分]的准确率为92.9%（95% CI：92.1%~93.7%）；DNUC和活检结果之间的一致性kappa系数为0.859（95% CI：0.841~0.875），但本研究中用于AI学习的内镜图像和活检样本未受控制，且根据内镜医师的判断选择每个段落中最严重的病变，一定程度上导致选择偏差。

4．整合多组学数据指导精准诊疗：AI组织学评估还可以进一步整合多组学数据（基因组学、转录组学、代谢组学和蛋白质组学等），为IBD的精准诊疗提供多维支持^{[ 3 ]}。Maeda团队开发了基于520倍超放大内镜的CAD系统，用于预测UC持续性组织学炎症，其敏感性、特异性和准确性分别达到74%、97%和91%^{[ 19 ]}。而Iacucci等 ^{[ 20 ]}通过结合体内共聚焦激光显微内镜（pCLE）的定量计算机辅助图像分析技术和RNA转录组学，在29例IBD患者中成功建立对英夫利西单克隆抗体和维得利珠单克隆抗体反应的预测模型，初步验证了多组学联用策略的临床转化潜力。

此外，上述AI工具大多是评估UC组织学，当前评估克罗恩病（Crohn's disease，CD）组织学的AI模型较少。Rymarczyk等^{[ 21 ]}开发了可自动评估UC和CD组织学疾病活动性的AI/ML模型。3种模型中效果最好的是SA-AbMILP，其预测CD的总体组织学活性评分（GHAS）和UC的GS评分准确率为65%~89%。此外，该模型还能根据4个选定的组织学特征区分是否存在病理变化，对CD和UC结肠判断的准确率为87%~94%，对CD回肠判断的准确率为76%~83%。GHAS和GS评分系统中，部分子评分的严重程度在训练数据中存在分布类别不平衡，这种不平衡可能导致过拟合，进而限制模型的泛化能力。总之，目前仍需要一个标准化和经过验证的AI驱动的IBD组织学自动化评分系统用于日常实践，从而改变当前的IBD诊疗模式。

当前AI在IBD组织学评估领域的研究具体情况如表1 所示。其中，研究质量和偏倚风险以QUADAS-2量表进行评价（四个领域：病例选择、待评估的指标测试、金标准、病例流程和时机），其中偏倚风险均为低风险，且适用性评价较高，其结果具有较高的可靠性和临床价值。为减少偏倚，纳入研究中的病理学专家具有较为一致的标准：盲态，病理专科学会认证，丰富的病理诊断经验，接受相应病理评分的培训，多位专家独立诊断及评估。此外，各研究中均对专家进行组内比较，进一步保证病理诊断的可靠性及客观性。

三、组织学评估AI工具的局限和改进

目前，基于AI的组织学评估方法逐步被应用并有望推广至日常实践。有研究调查医师对AI系统组织学评分是否有用的态度，大多数受访者（73%）认为该系统有用或非常有用^{[ 2 ]}。但其推广仍受三大核心问题制约：首先是模型训练与测试数据集的偏倚问题。初始分级和样本选择中的固有偏差可能被放大或延续^{[ 10 ]}，而非典型图片的排除虽有助于训练数据集的质量，却限制AI工具在真实世界场景中普及 ^{[ 9 ]}。由于训练数据缺乏同一病理组织不同区域连片分析的支持，现有AI模型难以捕捉多片段间的空间关联性，而病理学家可基于整体视野综合判断 ^{[ 15 ]}。其次，组织学评估标准差异问题。AI模型只能识别已经录入的特征，而未被系统纳入的其他异常特征可能会被忽略，如巨细胞病毒感染、异型增生等^{[ 9 ]}。且AI难以对组织学炎症活动进行分级^{[ 17 ]}。最后且重要的是，目前针对AI工具的研究大多都停留在实验室验证层面，前瞻性应用研究证据极度匮乏，其在实际诊疗中的可靠性、稳定性及对临床结局的影响尚未被充分验证，这对其推广造成了极大困扰。

为应对上述问题，研究者已采取一系列改进措施：第一，优化模型训练，纳入来自具有不同程度疾病活动患者的广泛组织病理学样本，并由经验丰富的病理学家处理这些样本来减少偏倚。第二，提升模型性能，后期的AI工具针对每个识别的特征进行改善，在新阶段AI模型的准确性方面逐步提高^{[ 9 ]}；或者通过比较不同的模型来确定性能最佳的模型架构，如比较3种多实例学习（MIL）方法RNN、FV+RF以及SA-AbMILP等，增加其准确性及稳定性^{[ 21 ]}。第三，扩展特征识别能力，如CNN模型基于细胞和组织模型，可以对目前由人类估算的特征进行精确而全面的量化，并对模型性能进行实时定性评估，且目前对隐窝结构扭曲、上皮化生和重要机会性感染的形态学等特征的捕捉仍在进一步训练及补充^{[ 15 ]}。尽管如此，AI工具仍需更多前瞻性应用研究验证其真实世界的价值，以推动其在组织学评估中的广泛应用。

四、挑战和未来方向

尽管AI在IBD的应用前景广阔，但挑战依然存在，包括数据质量、标准化、可重复性、监管问题等^{[ 3 ]}。由于大量个人数据的使用和存储，数据隐私是一个主要问题，必须采取适当的安全措施来维护隐私和患者代理权。总之，随着技术的发展，AI系统在疾病评估，包括内镜、组织学等的评估中被逐渐应用并具有显示即时性、标准化和高可靠性^{[ 13 ]}。未来AI在IBD组织学评估中的应用仍然需要更多的研究及探索，期待更为高效、可靠的AI工具并推广到临床应用。

(本网站所有内容，凡注明来源为"医脉通"，版权均归医脉通所有，未经授权，任何媒体、网站或个人不得转载，否则将追究法律责任，授权转载时须注明"来源：医脉通"。本网注明来源为其他媒体的内容为转载，转载仅作观点分享，版权归原作者所有，如有侵犯版权，请及时联系我们。)