论 著
基于影像组学和深度学习的多模态模型在预测
陶然1 张磊1 薛育政2 沈祎萍3 陈美玉3 王玉4 殷民月5 朱锦舟3
1东海县人民医院消化内科,连云港 222300;
2江南大学附属医院消化内科,无锡 214122;
3苏州大学附属第一医院消化内科,苏州 215006;
4江苏大学附属金坛医院肝胆外科,常州 213200;
5首都医科大学附属北京友谊医院消化内科 国家消化系统疾病临床医学研究中心,北京 100050
通信作者:朱锦舟,Email:jzzhu@zju.edu.cn
摘 要
目的 基于影像组学和深度学习构建一个预测急性胰腺炎(AP)患者并发急性呼吸窘迫综合征(ARDS)风险的多模态模型并进行验证。方法 收集2017年1月至2023年12月间苏州大学附属第一医院、东海县人民医院及江苏大学附属金坛医院因AP就诊的患者临床资料。根据入院1周内是否出现ARDS,将患者分为ARDS组和非ARDS组。其中,苏州大学附属第一医院的患者(共406例)作为训练集(非ARDS组212例,ARDS组194例);东海县人民医院和江苏大学附属金坛医院的患者作为测试集(共175例,其中非ARDS组104例,ARDS组71例)。收集患者入院24 h内的临床资料、实验室指标、是否发生全身炎症反应综合征(SIRS)。计算床边急性胰腺炎严重度评分(BISAP)、Ranson评分、改良CT严重度指数评分(MCTSI)。利用三维CT图像,通过提取影像组学特征,结合XGBoost算法建立影像组学模型;同时基于深度卷积网络,提取深度特征,构建深度学习模型;最后整合患者临床数据和上述两种模型预测值,应用XGBoost算法构建多模态模型,采用变量重要性排序和局部可解释图对多模态模型进行可视化处理。绘制3个模型和现有评分系统BISAP、Ranson及MCTSI的受试者工作特征曲线(ROC),计算曲线下面积(AUC)、灵敏度、特异度,比较各模型对AP患者发生ARDS的预测效能。结果 在预测AP患者发生ARDS的多模态模型中,深度学习模型预测值和影像组学模型预测值是最重要的变量,其余变量依次为SIRS、CRP、
全文阅读
急性胰腺炎(AP)是一种因胆道疾病、酒精摄入、代谢障碍等原因引起的
资料与方法
一、一般资料
收集2017年1月至2023年12月间苏州大学附属第一医院、东海县人民医院及江苏大学附属金坛医院因AP就诊的患者临床资料。AP诊断标准遵循2012年修订版急性胰腺炎亚特兰大分类标准。ARDS诊断依据柏林标准。所有纳入患者的治疗方案均遵循AP的诊疗规范。纳入标准:(1)年龄≥18周岁;(2)患者入院72 h内需完成CT扫描,并获取
二、观察指标
记录患者入院24 h内的AP病因分类(胆源性、
三、建模流程
比较ARDS组和非ARDS组的临床资料,将临床特征作为输入变量,以是否并发ARDS作为输出变量,建立多个模态的二分类预测模型,包括影像组学模型、深度学习模型、融合临床结构化数据和影像组学及深度学习的多模态模型。建模平台包括tidymodels(0.2.0)和Keras Python(TensorFlow 2.8.0后端)。应用硬件为Mac mini(8核Apple M1处理器,16GB内存)。
影像组学模型:(1)利用Slicer5.0.3软件对收集到的CT图像进行处理,手动勾勒出病变的胰腺区域,进而建立3D胰腺模型。随后通过软件内置的Radiomics模块提取影像组学特征。(2)通过差异性检验、皮尔森相关性分析以及LASSO回归对标准化后的数据进行特征筛选。(3)使用R CRAN 1.7.8.1XGBoost算法对筛选后的影像组学特征进行模型训练。
深度学习模型:(1)以U⁃Net作为基础架构,对输入的CT图像进行预处理,包括裁剪至228×228像素大小,应用直方图均衡化技术以增强图像对比度并最大化信息熵,同时对像素值进行归一化以消除量纲影响。在胰腺3D分割模型训练过程中,采用Adam优化器,设置batch大小为20,epoch为200,以确保模型能够充分学习数据特征并收敛。此外加入实时数据增强技术,通过在训练过程中动态变换图像,以有效提升模型的泛化能力。(2)在成功构建胰腺3D分割模型的基础上,进一步建立深度学习分类模型。该模型将胰腺三维CT图像输入到3D ResNet50编码器中,通过深度卷积网络提取高层特征,并被传递至全连接层,以进一步处理并分别映射为预测AP是否并发ARDS的概率值。
多模态模型:通过上述方案,构建基于影像组学和深度学习的AP并发ARDS的二分类模型,同时获取各自的预测值。为了充分利用不同模态数据的互补优势,采用XGBoost算法将上述预测值与贡献度排名前8的临床结构化数据进行整合,从而建立多模态模型。该模型可视化采用变量重要性排序图和局部可理解图。其中变量重要性排序图从全局角度呈现各个变量对模型预测结果的贡献程度,局部可解释图则通过随机选择两组各1例患者,详细呈现关键变量如何具体地影响模型对特定案例的预测结果,其中每个变量的实际值标准化处理为对模型的贡献值,同时截距值作为模型判断二分类结局的分界值。
绘制上述3个模型及现有评分系统MCTSI、Ranson和BISAP的受试者工作特征曲线(receiver operating characteristic, ROC),计算曲线下面积(area under the curve, AUC)、灵敏度、特异度,比较各模型对AP患者发生ARDS的预测效能。
四、统计学处理
采用R 4.1.0软件进行统计学分析。符合正态分布的计量资料以x̄ ± s 表示,组间比较采用t检验。非正态分布的连续变量以M(Q1,Q3)表示,组间比较采用秩和检验。分类变量以例(%)表示,组间比较采用χ²检验或Fisher确切概率法。P<0.05为差异有统计学意义。
结 果
一、非ARDS组和ARDS组患者的临床基线资料比较
由表1可见,训练集中,胆源性因素为AP最主要的致病原因,在非ARDS组和ARDS组患者中占比分别为42.9%、44.3%,其次为高脂血症性(32.1%、27.3%)、酒精性(9.0%、4.9%),两组间病因学差异无统计学意义。测试集中,胆源性因素同样是非ARDS组和ARDS组患者发生AP最主要的病因(52.9%、52.1%),且两组间差异亦无统计学意义。两组间年龄、性别差异无统计学意义。

二、多模态模型中变量重要性排序
由图1可见,在预测AP患者发生ARDS的多模态模型中,深度学习模型预测值和影像组学模型预测值是最重要的变量,其次依次为变量SIRS、CRP、降钙素原、白蛋白、血糖、肌酐、中性粒细胞计数以及血钙离子。

三、多模态模型的可解释化呈现
图2A为1例ARDS组AP患者的的预测情况。多模态模型预测AP患者发生ARDS的预测值为0.910(>截距值0.408,判断为阳性结果),与实际情况相符。深度学习模型(预测值1.053,贡献值为+0.258)、影像组学模型(预测值0.300,贡献值0.065)、全身炎症反应综合征(有,贡献值0.058)3个变量对预测结果的贡献最多,其余变量的累计贡献值为0.120。
图2B为1例对非ARDS组AP患者的预测情况。多模态模型预测AP患者发生ARDS的预测值为0.139(<截距值0.408,判断为阴性结果),与实际情况相符。贡献最多的3个变量分别是深度学习模型(预测值-0.210,贡献值-0.161)、影像组学模型(预测值-0.762,贡献值-0.132)以及血肌酐水平(74 μmol/L,贡献值0.052),其余变量的累计贡献值为-0.028。

四、各模型与现有评分的比较
训练集中,多模态模型预测AP患者发生ARDS的AUC值为0.933(表2、图3),高于影像组学模型(AUC=0.727)和深度学习模型(AUC=0.877),且高于现有评分系统MCTSI(AUC=0.870)、Ranson(AUC=0.620)和BISAP(AUC=0.898)。测试集中,多模态模型预测AP患者发生ARDS的AUC值为0.916,高于影像组学模型(AUC=0.660)、深度学习模型(AUC=0.864)和MCTSI评分(AUC=0.851)、Ranson评分(AUC=0.609)、BISAP评分(AUC=0.860)(表2、图3)。


讨 论
在生物医学研究中,多模态模型展现出了其在人工智能预测方面的潜力,它不仅能够提供更加强大和普遍适用的预测能力,还能带来更为全面的诊断与预后手段。
ARDS是AP患者最常见的并发症之一,急性发作双侧
目前,针对AP并发ARDS的机制,学术界已经开展了广泛的研究工作。多项研究揭示了AP引发ARDS的多种可能途径。例如,一些研究指出,AP期间,细胞钙超载、微循环障碍等胰腺腺体病理改变可引起
本研究通过整合AP患者早期临床指标、腹部影像组学特征和深度学习预测值建立多模态模型,在训练集和测试集中预测AP患者发生ARDS的AUC均超过0.9,显著优于单一模态模型及现有的MCTSI、Ranson、BISAP等临床评分系统,在处理高维数据和复杂关系时展现出更高的效能,提高了预测的准确性。同时,通过XGBoost算法优化了变量选择,研究显示SIRS、CRP、降钙素原、白蛋白、血糖、肌酐、中性粒细胞以及钙离子是模型重要性排序中前8位的临床数据变量,这与以往的多项研究结果相吻合。此外,多模态模型的可解释性也得到了提升,通过局部可理解图展示了关键变量对预测结果的影响,为临床决策提供了直观的参考。
本研究的优势在于特征变量全部取自常规临床检测,无需浪费成本去收集额外的数据。其次,研究团队采用了变量重要性排序图和局部可解释图来增强模型的透明度和解释性。变量重要性排序图有效地揭示了重要变量在模型预测过程中的贡献大小,局部可解释图进一步细化了模型的预测过程,它针对单个患者的预测结果,明确指出了哪些关键变量起到了决定性作用。两者在一定程度上解决了“黑盒模型”的困境。在现有文献中,鲜有研究直接利用腹部CT扫描来预测AP患者并发ARDS的风险。本研究创新性地尝试整合临床特征、影像组学和3D深度学习技术,使模型能够全面捕捉AP并发ARDS的复杂病理变化,有效提取互补信息并剔除无关变量。本研究建立的多模态模型预测AP患者并发ARDS,在训练集和测试集上均优于单模态模型和现有评分系统。
本研究尚存在一定的不足。首先,研究的数据样本主要局限于中国人群,这可能限制了模型在不同种族和地区人群中的普适性。为了确保模型的广泛适用性,未来的研究需要在多样化的种族群体中进行验证。其次,由于数据来自多个中心的回顾性收集,导致信息缺失和样本量减少。尽管严格的纳入和排除标本以及大样本量可以有效减少影响,但为了进一步验证多模态模型的性能,未来仍需进行前瞻性研究。另外,本研究未将肺部CT图像纳入预测模型构建,尽管胸部CT可能在预测ARDS方面具有更高的价值,但临床实践中,AP患者在入院初期通常不会常规接受胸部CT检查。只有当患者出现明显的呼吸道症状或已高度怀疑肺部并发症时,才会进一步行胸部CT扫描,这导致可用于早期预测的样本量显著受限。同时,为所有AP患者普遍开展胸部CT检查不仅会增加患者的经济负担,还会造成医疗资源的浪费,不符合临床诊疗规范和成本效益原则。因此,出于可行性和实用性的考虑,目前研究聚焦于腹部CT图像及常规临床数据,旨在通过现有资源建立高效的预测模型。最后,由于临床普及度不足,
(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)