作者:广西壮族自治区南溪山医院肿瘤
不同癌变通路的CRC 具有不同的临床病理特征,因此,相同的治疗方式下会产生不同的治疗反应和预后。研究证实,具有微卫星高度不稳定(MSI-high,MSI-H)状态的CRC 患者对5-
另外,Lynch 综合征相关的CRC 患者也表现为MSI-H。因此,准确判断MSI 状态对CRC 患者的临床管理至关重要。MSI 的常规检测方法包括:免疫组织化学法(immunohistochemistry,IHC)、聚合酶链式法(polymerase chain reaction,PCR) 和二代测序法( next generation sequencin, NGS)。
IHC 是最常用的方法,通过测量MLH1、MSH2、MSH6 及PMS2 的表达来确定错配修复蛋白缺陷(deficient mismatch repair,dMMR)的程度,但主观性强,对病理科医师要求较高。PCR 基于微卫星位点进行检测,是检测MSI 的“金标准”,敏感度和特异度较高,但国内具备此检测条件的医疗机构相对较少。
NGS 法价格昂贵,技术要求高,不推荐单独用于检测MSI。而且,以上检测方法均是有创的,需要通过手术或活检获取组织标本,加之CRC 在基因、蛋白、细胞及微环境等都具有时间与空间的异质性,使得这些方法无法获得肿瘤完整的信息。因此,临床亟需一种术前非侵入性预测dM-MR/ MSI 的评估方法,以指导精准化、个体化治疗。
近年来,人工智能(artificial intelligence,AI)在医学领域取得了重大进展。相对于传统的影像诊断流程,AI 技术从影像图像中高通量提取并分析病灶的定量特征,能提供肉眼无法发掘的潜在信息。CT、MRI 及正电子发射体层显像(positron emission tomography,PET)等结合AI 技术在术前预测MSI 状态方面显示出临床应用潜力,为指导个体化诊疗提供了重要参考。因此,本文拟就影像AI 在预测CRC MSI 的研究进展、不足及未来发展趋势等方面进行综述。
1. MSI
1. 1 MSI 简介
微卫星,也称为短串联重复序列,是分散在人类基因组中的重复DNA 序列,由1 ~ 6 个核苷酸的重复序列组成。DNA 在复制过程中,DNA 聚合酶的滑移容易导致微卫星的短串联重复序列区域发生复制错误,如在合成链滑移时会插入额外的碱基,或在模板链滑移时去除碱基。DNA 错配修复(mismatch repair,MMR)系统可识别和修复错配碱基,保证了基因组完整性及稳定性。MMR 系统由至少10 个蛋白质组成,其中MLH1、MSH2、MSH6 及PMS2 是MMR 的主导蛋白。
由于MMR 基因的突变或表观遗传变化,MMR 系统的正常功能被破坏,无法识别和修复错配碱基,微卫星序列的长度发生变化,即会导致MSI。MMR 基因突变是Lynch综合征的病因,而MSI 相关散发性CRC 与MMR 基因的表观遗传变化有关。MSI 根据程度可被分为三类:MSI-H、微卫星低度不稳定(MSI-low,MSI-L)以及微卫星稳定(microsatellite stability,MSS)。
1. 2 检测dMMR/ MSI 的临床意义及适用人群
约10% ~ 20% 的CRC 患者表现为dMMR/ MSI。研究表明,与仅采用5-氟尿嘧啶化疗的CRC 患者相比,
Lynch 综合征患者罹患CRC 和
鉴于dMMR/ MSI 是筛查肿瘤遗传风险、预后分层及指导个性化治疗的重要分子生物标志物,美国国家综合癌症网络(national comprehensive cancer network,NCCN)指南及中国临床肿瘤学会CRC 诊疗指南建议所有CRC 患者均应接受dMMR/ MSI 检测。
2. AI
AI 利用计算机技术来模拟类似于人类的智能行为。AI能处理具有大量数据的复杂问题。目前被广泛应用于医学图像分析的机器学习(machine learning,ML)是AI 的一个分支。ML 通过提取病灶的高维定量特征并构建模型,以达到诊断疾病、判断疗效及预测预后等目的。影像组学和深度学习(deep learning,DL)是ML 中最常用的两种方法。
2. 1 影像组学
影像组学技术诞生于2012 年,由荷兰学者Lambin 首先提出,是影像领域中一种创新的图像分析方法。它基于自动或半自动算法,快速、可重复地从标准的医学图像中高通量地提取并分析大量高级定量影像学特征。目前,影像组学已经在CRC 领域开启了广泛的研究。利用影像组学技术处理、分析CT、MR 和/ 或PET 等图像,提取与MSI 相关的组学特征,为实现MSI 的术前精准诊断提供了新的途径。
基于CT 的影像组学: CT 是CRC 最重要的影像检查手段之一,用于评估肿瘤的局部分期。CT 增强扫描能提高肿瘤组织与正常组织的对比度,有助于准确评估肿瘤的形态、大小及侵犯范围;强化程度还能反映肿瘤的血管生成及微血管通透情况。因此,目前基于CT 的影像组学相关研究均选取CT 增强扫描图像为切入点来进行分析。Cao 等基于术前CT 增强扫描三期(动脉期、静脉期和延迟期)图像提取影像组学特征并构建预测模型,延迟期模型显示出更好的预测性能;当加入临床变量后,临床-影像组学列线图在预测MSI 方面具有很高的准确率。
Fan 等针对亚洲Ⅱ期CRC患者,基于CT 门静脉增强扫描图像勾画全瘤感兴趣区(region of interesting,ROI)并构建预测模型,纯影像组学模型的曲线下面积(area under the curve,AUC)为0. 688,模型加入临床因素后提高了预测效能,AUC 为0. 752。与其他研究不同,Pei 等的研究对病理检测方法进行了严格限定,纳入的CRC 患者均经“金标准”PCR 方法检测MSI 状态,并构建了CT 影像组学特征和临床危险因素的列线图模型,训练集和验证集中的AUC 分别为0. 74 和0. 77。
Ying 等的研究也证实了融合CT 影像组学特征和临床变量的临床-影像组学模型对MSI 的预测效果最好(AUC 0. 88 ~0. 90)。在影像组学的分析流程中,图像分割是非常关键的一步,是特征提取及建立预测模型的基础。部分研究在ROI 的勾画上进行了改良及创新。
Yuan 等从CT 增强扫描图像中勾画了肿瘤及瘤周ROI,分别提取肿瘤和瘤周的影像组学特征,采用逻辑回归、贝叶斯、支持向量机(SVM)、随机森林、k-最近邻和决策树六种分类算法构建临床病理-影像预测模型,说明了逻辑回归分类器效果最好,并证实了瘤周特征在预测MSI 中的重要性;Ma 等手动绘制CT 图像上的肿瘤内部区域及肿瘤边缘区域,并分别提取CT 影像组学特征构建模型,结果表明基于肿瘤内部区域的影像组学模型具有最大的AUC 值(0. 908),说明肿瘤内部区域特征更好地反映了肿瘤异质性和遗传不稳定性,有助于提高诊断效能。
MSI-H的低发病率导致组间样本量极不平衡,是对MSI 状态进行分类预测面临的一个重大挑战。针对这一难题,Chen 等提出了结合自助法(bootstrapping) 和特征递归消除(RFE)-SVM 方法来选择高频特征,采用上采样建模策略克服数据不平衡及过拟合的问题;该研究利用基于遗传算法增强的人工神经网络提取了10 个CT 影像组学特征构建模型,有效区分了MSI 状态,外部验证队列AUC 为0. 775;风险分层方面,Chen 等还证明了CT 影像组学特征有将Ⅱ期CRC 患者区分为高危组和低危组的潜力。
利用外部数据对模型性能进行验证,是防止模型过拟合的重要方法之一。Li 等设计了一个多中心研究方案,从4 个中心回顾性搜集了368 例CRC 患者CT 增强扫描门静脉期的图像数据对MSI 状态进行预测,利用3 种特征选择策略和5 种分类算法构建了15个判别模型,证实了基于互信息降维方法的逻辑回归模型预测效果最好,外部验证集的AUC 为0. 73,说明该预测模型具有良好的泛化能力。
双能CT
HR-T2 WI 不抑脂序列具有超高的软组织分辨率,可以清晰显示直肠肠壁结构层次,是评估T 分期的主要序列。Zhang 等使用HR-T2 WI 图像,采用两样本t 检验和最小绝对收缩和选择算法(LASSO)回归方法来筛选有意义的组学特征,选择了6 个组学特征结合临床因素来构建预测模型,测试队列的AUC 为0. 895。扩散加权成像(diffusion weightimaging,DWI)是一种对组织微结构敏感的功能成像技术,通过表观扩散系数(apparent diffusion coefficient,ADC)定量地反映组织细胞外水分子的扩散程度,恶性病变肿瘤的ADC值较良性病变明显降低。
Li 等基于ADC 和HR-T2 WI 图像建立了三个组学预测模型:ADC 组学预测模型、T2 WI 组学预测模型及T2 -ADC 组学预测模型,发现T2 -ADC 组学预测模型的诊断效能最高(AUC 0. 926),能更准确预测CRC MSI状态。多参数MRI 包括解剖学(T1 WI,T2 WI) 及功能学(DWI)序列,多个序列从不同维度反映肿瘤的生物学特性。
对比增强(contrast enhancement,CE)T1 WI 序列具有良好的软组织分辨率,强化程度与肿瘤组织局部微血管的状态有关,黏液区、囊变坏死区的强化程度低或无强化,实性成分一般呈中度或明显强化。基于多参数MR 及CE-T1 WI 的影像组学特征构建预测模型,有助于准确区分MSI-H 与MSI-L/MSS。
Jing 等从术前直肠T2 WI、DWI、CE-T1 WI 和多序列组合的图像中提取影像组学特征,通过LASSO 方法选择了与MMR 状态相关的4 个最佳组学特征,采用SVM 建立了基于以上4 种序列的预测模型,证实了多序列组合模型具有最优的诊断性能(AUC 0. 901);Zhang 等从术前直肠T1 WI、T2 WI、ADC 和CE-T1 WI 图中提取了4148 个影像组学特征,利用逻辑回归、贝叶斯、SVM、K 近邻和树机器学习算法构建影像组学模型,其中基于逻辑回归算法的组学模型表现最佳,训练集和测试集的AUC 分别为0. 827 和0. 739;Li 等利用术前肿瘤T1 WI、T2 WI、DWI 和CE-T1 WI 序列提取组学特征,基于树的方法用于特征选择,采用随机森林算法构建了5 个影像组学模型(4 个单序列模型和1 个多序列组合模型),其中在单序列模型中,CE-T1 WI 模型表现最好(AUC0. 77),多序列组合模型的预测和泛化能力与CE-T1 WI 模型相当(AUC 0. 78),优于其余三个单序列模型。
总之,目前基于MR 影像组学预测CRC MSI 方面的相关研究开展尚不多,样本量较小,且研究多聚焦于单序列与多序列模型效能的比较。基于PET 的影像组学: PET 是评估CRC 远处转移最敏感的影像学检查方法,但PET 价格昂贵,氟代脱氧
Li 等从173 例CRC患者术前18 F-FDG PET/ CT 图像中提取了1246 个PET 组学特征和1246 个CT 组学特征,通过多元随机森林算法筛选出2 个有价值的组学特征,并基于Adaboost 分类器构建了一个Balanced Bagging 预测模型,该模型在测试集中的AUC 为0.828,能准确识别CRC 患者的MSI 状态。Kim 等从233 例CRC 患者术前18 F-FDG PET/ CT 图像中选取了2 个组学特征(1 个形状特征和1 个纹理特征)构建了预测模型,证实了PET 影像组学特征是MSI 状态的独立预测因子,模型具有较好的预测性能(AUC 0. 867)。
2. 2 DL
DL 通过多层神经网络自主学习特征,并将这些特征转换为用于分割或分类的类标签。与传统ML 相比,DL 的优势在于无需特征提取步骤来学习输入X 和相应标签Y 之间的关系,因此获取的特征更贴近数据的本质;在分类和可视化方面具有显著优势。利用DL 方法构建CRC MSI 的预测模型,有望提高预测的准确性。目前关于利用DL 预测CRC MSI 状态的研究较少。
Zhang 等基于491 例CRC 患者术前HR-T2 WI 图像,利用改良后的深度卷积神经网络MobileNetV2 构建3 个深度模型:临床模型,影像模型和临床-影像组合模型,影像模型和组合模型在测试队列中分别正确区分了75. 0% 和85. 4% 的MSI 状态,AUC 值分别为0. 820 和0. 868,均高于临床模型(AUC 0. 573),初步验证了DL 技术在预测MSI 状态方面的可行性。3 总结与展望AI 技术与影像数据相结合,在预测CRC MSI 方面展现出巨大的潜力,有望进一步指导临床决策。
尽管如此,大部分研究还存在诸多局限性,研究成果的临床转化还面临着诸多挑战。
(1)将预测模型进行临床转化取决于研究结果的有效性。理想情况下,基于前瞻性大样本队列获得的影像组学特征是较为可靠的。然而,以上所有研究均是回顾性研究,最大样本量仅为837 例。
(2)在训练集中开发模型会存在过拟合的风险,外部验证是评估模型泛化能力的必要步骤。然而,目前大部分研究均为单中心研究,缺乏外部队列对模型的验证,这势必会影响模型的潜在推广价值。
(3)理想的预测模型应具备可重复性,应在公共平台公开相关代码或提供有关软件使用的详细信息,以便其他研究者进行验证。然而,尚无研究公布所使用的代码和数据,这也会影响预测模型的应用转化。
(4)虽然DL 模型通常被认为比影像组学模型具有更高的准确性,但它需要大量的数据来训练模型,且深度特征的可解释性差,加之DL 模型的“黑箱特性”等,导致目前相关研究较少。
未来需要融合影像、病理、基因和免疫学等多维度数据,利用更大样本量、多中心、前瞻性研究及更具泛化能力的DL 模型,以解决目前研究存在的问题,推动AI 技术的临床转化,最终造福CRC 患者。
来源:梁百晖,陈维翠.影像人工智能预测结直肠癌微卫星不稳定的研究进展[J].临床放射学杂志,2025,44(03):562-565.DOI:10.13437/j.cnki.jcr.2025.03.019.
(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)