基于医学影像的机器学习预测非小细胞肺癌EGFR突变的研究进展_机器学习_深度学习_影像科

基于医学影像的机器学习预测非小细胞肺癌EGFR突变的研究进展

2025-09-16 来源：肿瘤影像学

关键词：机器学习深度学习影像科

发表评论

作者：孙元昕，上海市影像医学研究所；沈蕾蕾，叶晓丹，复旦大学附属中山医院放射科

机器学习是人工智能的一个子类，是一门不需要显式编程就能获得解决问题的算法的科学。其中，深度学习作为机器学习的一个分支，更是可以自主学习最佳特征用于数据分类。机器学习在影像组学（radiomics）数据处理及分析中具有重要作用。影像组学是指对影像进行高通量定量特征提取后经过数据挖掘来支持医疗决策，该方法在肿瘤领域的应用较为广泛，在肿瘤的诊断、疗效评价和预后预测等方面都发挥着巨大作用，且影像组学与临床数据关联，对提高诊疗评估效能、探索肿瘤循证决策支持具有潜在价值。

将影像组学与基因学相结合的影像基因组学（radiogenomics），为个体化诊疗提供更准确高效的证据，其在非小细胞肺癌（non-small cell lung cancer,NSCLC）患者表皮生长因子受体（epidermal growth factor receptor,EGFR）突变探索中已经取得了显著成果。本文基于医学影像的机器学习在NSCLC患者EFGR基因突变探究的研究现状、局限性进行综述，并探讨未来发展方向。

1. EGFR基因突变及检测方法概述

肺癌是世界第二大常见癌症以及最常见的癌症死亡原因。NSCLC约占所有肺癌患者的80%，其中大多数是腺癌。近年来由于分子靶向治疗的迅猛发展，肺癌基因突变患者的治疗模式发生了很大的改变。EGFR作为常见突变，使得该基因检测成为部分患者临床治疗的必要检查。

EGFR是细胞表面酪氨酸激酶受体家族的一员，调控细胞的生长和分裂。在NSCLC患者中，62%患者有该基因过度表达并与预后不良有关。EGFR突变发生在40%～60%亚洲人种和10%～20%白种人的肺腺癌中，第19外显子的框内缺失和第21外显子的L858R点突变是两种最常见的突变类型，占EGFR突变的90%以上，这两种类型的突变都是敏感性突变。

根据《2023中国临床肿瘤学会非小细胞肺癌诊疗指南》，表皮生长因子受体酪氨酸激酶抑制剂（tyrosine kinase inhibitor,TKI）可用于携带EGFR敏感性突变NSCLCⅣ期患者的一线治疗和Ⅲ期患者的术后辅助治疗。但是EGFR突变类型众多并包含许多罕见突变，不同突变类型对于临床用药意义重大，这对于突变检测方法提出了更高的要求。

EGFR检测方法众多，但都有其自身的优点和局限性，常用的检测方法包括聚合酶链式反应（polymerase chain reaction,PCR）、二代测序技术（next generation sequencing,N G S）。PCR可准确直接地检测E G F R突变状态，具有快速、灵敏度高、特异度高的优点，同时还具有高通量和成本低等特点。但是PCR检测出的突变类型有限，例如针对占NSCLC患者EGFR突变5%～10%的20外显子插入突变，用PCR检测往往会漏诊超过40%的患者。

NGS是一种高通量测序技术，可以检测EGFR基因突变和其他大量的位点，而且可以扩展到全基因组水平，但是需要较高的技术和成本，这就限制了其使用，同时NGS本身影响因素较多。在临床实践中，检测员需根据待测样品的性质、检测实验室的专业知识和设备使用情况，以及是否需要检测已知的EGFR突变或所有可能的突变来选择实践中使用的方法，这就增加了临床工作的难度，而利用医学影像预测只需要病灶的影像即可。

其次，随着耐药性的出现，治疗过程中需要二次甚至多次取材检测EGFR基因型变化以辅助临床靶向药物选择，而获取样本（如肺癌手术切取标本、活组织穿刺检查、胸水肿瘤细胞甚至血清循环肿瘤DNA（circulating tumor DNA,ct DNA）存在诸多困难，例如治疗后再次取材患者依从性较低、部分病灶位置深、获取标本创伤大、存在针道转移风险、肿瘤异质性使目标组织难以准确定位、取材量不足等，使取材重复性差，失败率高。此时，影像学在检测EGFR基因突变方面便显现出独特的优势——无需获取人体样本即可进行预测工作，能显著提高可重复性。

最后值得强调的是每个病灶的影像具有时空异质性，这些形态都是基因表达的产物。对于EGFR突变患者，其影像特征亦是基因突变后的形态学表现，所以用影像学的高通量特征来预测患者癌灶的突变类型是合理且可行的。

2. 机器学习方法预测NSCLC患者EGFR突变

2.1 数据来源与分组

首先，初代机器学习研究多为单中心小样本研究，但是其数据采集方法的单一性和样本量的限制导致模型容易过拟合、泛化能力差，临床应用价值有限。早期的训练集和测试集常由单中心样本按比例分割而成，缺少外部验证过程。近年来随着各个国家、各机构数据库的建立和多中心数据共享机制的完善，许多研究都强调纳入多中心数据以增加模型的外推性和研究的普适性，为未来临床应用奠定了良好的基础。

其次，考虑到亚洲人种的突变概率大，早期针对亚洲人的研究较多，但是发现模型运用到白种人则效果欠佳，于是Rossi等研究者针对白种人群进行大规模研究。有趣的是虽然该训练集里只纳入了1例亚洲人，但是模型正确预测了其中一个外部验证集7例亚洲人中6例患者的EGFR突变状态。

作者进一步研究发现，突变的基因在两类人群中的放射学特征差异有统计学意义，但是野生型的差异则无明显统计学意义，尽管可能由于样本量过小导致这种差异存在，但是提出了亚洲人种和白种人EGFR突变的放射学特征可能存在差异，鼓励对不同人种进行研究。

Wang等纳入来自中国8个省的亚洲人进行研究，贯彻多中心大样本的原则。作者选择了来自癌症影像档案馆（The Cancer Imaging Archive,TCIA）的154个美国白种人作为外部测试集之一，在建立的全自动人工智能系统上曲线下面积（area under curve,AUC）达到了0.755（95%CI0.709～0.798），虽然该值较亚洲人种组成的测试集结果稍低，不过对于跨人种模型而言该模型的外推性成为其显著优势。随着世界数据库的共享、多中心临床试验的展开，针对不同人种的模型甚至多人种通用模型的研究值得期待。

2.2 影像学检查方式的选择和图像预处理

纳入研究的影像图以患者放化疗或手术前的平扫或增强CT图像为主，在许多研究中仅单一纳入了其中一种。有研究提出，增强扫描比平扫CT有更好的预测作用，但是结果差异无统计学意义。为了纳入更多的研究对象以及为临床提供更多的数据资料，Yang等同时纳入平扫和增强CT图像，证明平扫和增强CT图像提取的特征可以同时纳入模型且模型效果不低于单一类型图像模型。

Rossi等使用CT引导下穿刺图像进行研究，尽管不是薄层图像，但是可以减少患者额外扫描次数，并且创新性地使用重测信度（test-retest reliability）特征选择（即穿刺过程中不同时刻扫描得到的图像分别作为数据来源挑选出稳定的特征进行建模）来阐述一种更可靠和重复性更好的放射学分析方法以预测肺腺癌的驱动基因。Wang等考虑到CT层厚对机器学习影响较大，以层厚3.75 mm为界分别针对薄层CT和厚层CT建立模型以更好地适应实际应用的需要，如此医师即可根据患者不同层厚的CT图像输入相应模型而对EGFR突变状态作出更精准的预测。

由于肺部缺乏氢质子且受呼吸及心脏搏动的影响，磁共振成像（magnetic resonance imaging,MRI）不作为肺部疾病的首选检查方式。但MRI可在肺癌诊断和随访中发挥必要的补充作用。MRI具有良好的组织分辨率，可在进展期肺癌淋巴结转移的评估，肺癌患者的纵隔侵犯，肺上沟瘤的显示，区分肿块、肺不张和炎症部位以及观察治疗前后变化中发挥一定作用。随着肺部扫描技术的进展，未来会有更多诊断和疗效评价的MRI研究，大规模MRI图像研究的纳入指日可待。

另外，研究者们在正电子发射体层成像（positron emission tomography,PET）/计算机体层成像（computed tomography,CT）预测EGFR突变方面也展开了研究。由于PET/CT在淋巴结评估中具有独特优势，再加上其独有的代谢参数，对于EGFR突变预测有巨大潜力。

Li等尝试用PET/CT放射组学特征构建诊断模型，先使用4个CT特征和2个PET特征建立影像组学模型分数（rad-score），然后加上性别、吸烟史、肿瘤直径这几个临床特征后用logistic回归构建临床和影像组学相结合的模型，在训练集和测试集上AUC分别为0.882和0.837。在此基础上，该研究进一步尝试区分两种常见EGFR突变，虽然准确度稍低，但是为基因检测提供了更深层面的可能，相信未来会有更多类型影像甚至多模态影像的纳入。

另外在提取图像信息参与建模前图像处理方面也值得关注。随着数据共享以及多中心研究的开展，不同中心机器扫描出来的图像如何进行预处理也值得研究者关注，因为可能直接影响最终的模型效果。孙大桢等分别采用灰度范围归一化、降采样、插值升采样进行预处理后再进行组学特征提取预测EGFR突变，得出采用的3种图像预处理方法都能提升影像组学特征的稳定性，但是使用灰度范围归一化和降采样组合的方法效果最好。对于多中心研究而言图像数据合适的预处理可以有效提升模型的鲁棒性。

2.3 模型算法设计

在学习算法上研究者也在一直思考如何能做到效能最大化。从早期的临床特征判断（如中年女性、吸烟人群）、后续语义定义的影像学特征、基于特征选择的影像机器学习到深度学习。

机器学习算法种类非常丰富（暂且不考虑深度学习），包括线性回归、逻辑回归、决策树、朴素贝叶斯、聚类分析、支持向量机等单一算法和随机森林、极限梯度提升算法（extreme gradient boosting,XGBoost）等集成算法。

常见影像组学分类任务的算法如下：K近邻作为常见的聚类方法，是一种基于实例的分类器，与实例相似的训练数据可以决定该实例所属的类别，但该算法同样面对计算量的问题，尤其是面对高维数据；支持向量机是一种广泛应用于分类、回归和异常检测等领域的监督学习算法，其目标是找到一个超平面来最大化两个类之间的间隔，从而将其分开，其优点就是对于非线性可分数据和高维数据的适应性；随机森林是一种装袋法（bagging）集成学习分类器，由多个决策树弱分类器组成，在建立随机森林时，会对训练集进行随机抽样和随机特征选择，以克服单个决策树容易过拟合的问题，但是其训练会耗费较多时间和计算资源，并且数据量少时也有过拟合风险；XGBoost是一种以树模型为主的梯度提升算法，和传统的梯度提升算法相比进行了许多改进，使其在分类和回归上都拥有超高性能，还可以通过设置各种参数来避免过拟合和提高特征的鲁棒性，但是其参数调整相对复杂，需要较深入的理论学习。

在实际研究中，不同研究者选择的算法有所差别，但是大多研究者会建立各种分类器进行比较进行模型融合，最后挑选出诊断效能最优的模型。例如Feng等在研究中将4种独立分类器随机森林、XGBoost、支持向量机、逻辑回归分别用于建模并使用软投票和硬投票进行模型融合，结果是逻辑回归、XGBoost和随机森林组合成的融合模型预测效果最优，训练集和测试集的AUC分别为0.846 5和0.865 4。

深度学习用于图像领域不得不提卷积神经网络。神经网络有几十年停滞不前的过往，那时基于数据、算法、算力的限制，神经网络难以产生优越的学习效果，计算机视觉领域还是以手工提取特征后与机器学习结合为主。之后Le Cun等于1998年开创卷积在手写数字领域识别的作用，提出了奠基架构Le Net5。这是第一个成功地应用卷积神经网络实现图像分类的实例，对卷积神经网络的发展具有里程碑式的意义。但是那时的卷积神经网络很弱小，只有几个卷积层和池化层，面对复杂任务存在局限性。

真正把卷积神经网络推向大众视野的是2012年Image Net挑战中Alex Net模型在大赛中将图像识别错误率瞬间降低约10%，从那之后图像领域的研究全面向深度学习领域偏移。Alex Net证明当数据量达标、训练得当时，卷积提取特征的效果可以超越人类。Alex Net是一个比较深的网络，它包含8个卷积层和3个全连接层，并且首次使用Re LU激活函数来提高非线性表达能力。

在医学影像识别中，Alex Net可以有效地抽取医学特征进行分类任务。随着计算机算力发展、大数据时代的来临，众多先进的模型如VGG、Goog Le Net、Res Net等纷纷被提出用于图像分类领域，神经网络越来越复杂，预测效果也越来越好。VGGNet是由Oxford大学计算机视觉组提出的深层卷积神经网络模型，比Alex Net增加了更多的层（较深的架构达到19层）以达到更好的性能。

由于VGGNet的深层特征表达能力较强，所以在一些医学图像分割和处理任务中有着良好的表现。Goog Le Net是由Google的研究团队在2014年提出的一种卷积神经网络结构，其采用了Inception模块和1×1卷积核，在降低网络的计算量和参数量的同时保持高准确度。Res Net架构通过引入残差块实现了更高的准确度、更深的层数、更少的参数量，成为现阶段卓越的模型之一。

卷积神经网络在医学影像图片识别任务中也显示出巨大优势，近些年用深度学习识别EGFR突变中大多使用了卷积神经网络的各种架构进行分类。Wang等设计的预测EGFR突变状态的深度学习模型（一种分层神经网络）在测试集和验证集上AUC分别为0.85和0.81。

该模型属于一种端对端模型，省去了基于特征工程的影像组学的复杂步骤（包括肿瘤边界分割、特征提取、特征选择、降维、模型建立等），只需要把包含肿瘤的图像输入模型即可得出最终分类结果，节省人力的同时获得了良好的分割效果，同时保留了肿瘤微环境和相邻组织的图像，减少手工勾画时有效信息的遗漏。

不仅如此，该模型通过注意力地图（attention map）方法可视化提示最有可能含突变基因的组织，这对穿刺活检取材选择有重要意义。该研究还增加了和临床特征预测、语义特征定义预测的方法进一步对比的步骤以验证模型的优势，并尝试用于肺腺癌外的其他病理学类型的患者，显示了迁移学习的效果，并模拟了真实世界医疗过程中的多种病理学类型预测。

在研究各种机器学习算法的同时，模型构建方法也在进步。近年来几乎所有研究都纳入了重要的临床特征如性别、年龄、吸烟状况、血清标志物等参与建模，结合临床特征后AUC均有所提高。例如Huang等建立了多种模型（包括单独临床特征、单独放射组学、单独深度学习模型以及各种模型相结合），最后发现三者结合效能最优。再如初期基于特征选择只是选取病灶本身进行研究，后来提出了肿瘤周围微环境纳入研究可以提升模型预测能力：Yamazaki等分别对病灶本身和灶周3 mm范围内的图像进行特征提取，最后结果证明瘤周特征纳入提高了AUC。

2.4 转移灶探索

随着MRI技术的发展，肺癌转移灶如脑、脊柱、骨转移可以早期被发现，甚至比原发灶更早探查到，这使得NSCLC病灶图像的研究不限于原发灶。于是出现了许多基于转移灶MRI图像对病灶EGFR基因突变进行预测的研究，如脑转移和脊柱转移患者。

Sun等的研究表明，中国人群中相当一部分NSCLC在原发肿瘤和淋巴结转移灶之间存在KRAS和EGFR突变状态的差异。因为两种基因突变对于TKI分别是抵抗和敏感状态，研究转移灶有利于验证肿瘤原发灶来源、探测转移灶可能存在的与原发灶不同的基因变异，帮助患者选择适合的靶向药。

2.5 针对EGFR基因突变研究临床价值挖掘

起初大多数研究对EGFR突变做预测以达到无创检测和指导临床用药的目标。Wang等在预测的同时用attention map呈现了肿瘤异质性较高的可疑部位以指导活组织穿刺。随着研究的深入，由于临床研究发现常见两种突变的治疗和预后不同，许多学者在机器学习中进一步尝试区分第19外显子的框内缺失和第21外显子的L858R点突变以指导临床治疗。

考虑到治疗中耐药性的产生，研究者在实验中进行了随访，搜集了新出现的T790M突变与影像进行映射以提取两者可能存在的关联，尽管由于样本原因使其分析结果有限，但是提示我们治疗期间识别T790M突变可以帮助提早发现耐药性出现及其可能原因。还有一些研究尝试区分多种突变基因以模拟真实世界的临床诊疗过程。

陆续有学者探索能否建立一种预测模型可以根据患者影像学资料判断其是否拥有高危因素而预测TKI治疗预后。Song等建立了双向对抗神经网络预测Ⅳ期EGFR变异的NSCLC患者预后，识别哪些患者更有可能从靶向治疗中受益，并且加入了化疗组进行对比，最后的模型可以识别接受靶向治疗后可延长中位生存期的高危患者，进而利用临床决策曲线证实该模型早期预测疗效能够及时调整治疗方案、减少不必要的花费并及时寻找合适的替代治疗方法。

再如Yang等预测了接受一或二代TKI后进展者的T790M突变及存活，并结合放射组学特征和临床特征制作出了列线图对于T790M突变及存活有较好的预测作用。Wang等找出了可以预测疾病进展的特征，提示了存在靶向药物抵抗的高风险EGFR突变人群，在此基础上进一步发掘与耐药性及肿瘤进展有关的与基因通路密切相关的影像学特征，从分子水平进一步证实了机器学习对个体化预测的可行性。

3. 局限及展望

目前基于影像学图像的机器学习在预测EGFR基因突变方面还存在值得改进的方向。首先是模型本身的预测准确度，尽管计算机快速发展下深度学习（卷积神经网络）的运用使预测效率有所提高，但与金标准之间仍存在差距，需要在算法、模型以及数据处理等方面进一步提升。其次伴随模型而生的是可解释性问题，对于临床医师而言拥有较优解释性的模型更能增加信服力以及更有利于临床决策。影像组学对EGFR基因突变研究大多处于理论研究阶段，尽管有些模型已经得到许可，但是由于经济、设备及理论知识复杂性等因素的影响，模型落地难度大。

部分研究样本量较小，纳入标准高，模型泛化能力较差，随着多中心研究的开展以及世界各数据库的共享，这个问题可能会得到更好的解决。因为肺腺癌的人群发病率高，EGFR突变概率高，目前绝大部分研究聚焦于肺腺癌，但是对于NSCLC其他病理学类型患者的纳入无疑更符合真实世界的诊疗过程，对于不同病理学类型的模型研究以及能否突破病理学分类的束缚找到通用的高效模型，将是未来发展的趋势。

另外值得注意的是，大部分影像学图像都是纳入未经治疗的病灶图像，同时使用的也是未经治疗时的影像学图像去预测治疗过程中可能出现的突变，这也是目前研究的局限性所在。建议尝试纳入更多随访影像学图像探究能否动态地探测病灶中EGFR基因的状态改变，帮助分析耐药性形成的原因以及调整用药。

对NSCLC EGFR基因具体突变类型的预测还在初期研究中，对于各种具体突变甚至少见突变的分辨能力不佳，治疗过程中导致耐药性出现的突变类型预测未开展大样本研究，未来围绕这些问题应继续积极展开各种基础研究和临床试验。

来源：孙元昕,沈蕾蕾,叶晓丹.基于医学影像的机器学习预测非小细胞肺癌EGFR突变的研究进展[J].肿瘤影像学,2024,33(03):323-329.

(本网站所有内容，凡注明来源为“医脉通”，版权均归医脉通所有，未经授权，任何媒体、网站或个人不得转载，否则将追究法律责任，授权转载时须注明“来源：医脉通”。本网注明来源为其他媒体的内容为转载，转载仅作观点分享，版权归原作者所有，如有侵犯版权，请及时联系我们。)

收藏分享