机器学习在膝骨关节炎诊断和预测中应用进展
2025-08-22 来源:生物骨科材料与临床研究


作者:内蒙古医科大学附属医院骨科     杨霄敏


膝骨关节炎(KOA)是一种常见的慢性退行性关节疾病,尤其在老年人群中具有较高的发病率和致残性。其早期症状包括疼痛、僵硬和畸形,病情发展受多因素影响,晚期致残风险高,严重影响着患者的生活质量和心理健康。全球有超过5亿人患骨关节炎,KOA约占骨关节炎的85%。在全球范围内,过去30年间骨关节炎病例增加了113%,并且随着人口老龄化和肥胖率的增加,KOA的发病率呈现上升趋势,将会对医疗保健膝关节骨关节炎阶梯治疗和公共卫生系统产生巨大的影响,给社会带来沉重的经济负担。KOA的相关影像学检查方法主要包括X线、CT、MRI及肌肉骨骼超声等,但各有其局限性。人工智能(AI)在临床的应用也正在兴起,包括医学影像分析、疾病预测与早期诊断及个性化治疗。机器学习(ML)作为其关键应用之一,在膝关节影像图像分级和KOA临床预测等方面展现了显著优势。本文综述了机器学习在KOA诊断与预测中的最新研究进展,分析了现有应用的局限性,并提出了未来通过建立标准化临床样本数据库、不断优化算法、加强外部验证等措施,以期提高临床应用的准确率和效率。


机器学习(ML)的定义与分类


定义     “人工智能(AI)”的概念早在1956年就由麦卡锡教授在达特茅斯学院提出。机器学习是AI的一个分支,像人的大脑一样能够从数据中“学习”的算法,在训练过程中不断优化并提高准确性。机器学习可以处理更复杂、庞大的数据集生成预测,以提高数据处理的准确性和效率。


分类      在医疗保健领域,机器学习主要分为两大类学习算法,即“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。顾名思义,监督学习是使用一组具有正确输出的输入数据来训练模型,无监督学习是模型在数据上自我训练,结果和数据均为未知且未标记。在监督学习中,数据通常分为训练集和测试集,其中训练集用于训练算法模型,测试集用于验证算法模型的性能。在机器学习的研究中,除了无监督学习外,半监督学习和强化学习也作为重要的算法得到了广泛关注。半监督学习结合了标记和未标记数据,利用有限的标记数据对未标记数据进行弱监督。而强化学习通过试错循环迭代学习,以最大化每次试验后的奖励,从而优化学习过程。常用的监督学习算法有决策树(decision tree)、随机森林(random forest)、支持向量机(SVM)、人工神经网络(ANN)、逻辑回归(logistic regression)、深度学习(DL)等。机器学习经典算法如图1所示。


图1.png


机器学习算法


决策树     决策树是一种树形结构,由一个根节点、若干个内部节点和若干个叶节点组成,主要用于分类,它不断根据样本的某一属性进行划分,通过每个内部节点的属性作为划分依据进行判断,每个分支输出判断结果,最后的分类结果通过叶子节点呈现出来,从而得到一套有效的判断逻辑的决策树模型。


随机森林     随机森林是一种基于集成学习的监督学习算法,通过构建多棵决策树并对其预测结果进行投票,最终得到输出结果。在医疗领域,随机森林常用于疾病风险预测、诊断分类和生物标志物筛选,提供特征重要性评分,帮助理解哪些特征对诊断最为关键。但是在某些噪声较大的数据集上可能产生过拟合。


支持向量机     支持向量机是一种经典的监督学习算法,旨在找到一个最优超平面,以最大化数据点到超平面的间隔,能够处理线性可分和非线性可分问题,在医疗影像分析和疾病分类中具有广泛应用。支持向量机在小样本、高维度数据分类任务实施阶段当中具备较强泛化能力,适用于医学数据中跟患者分组、生存分析相关的情境。


人工神经网络     人工神经网络通过模拟神经元及其连接来模拟人类神经系统,由一系列不同层次的神经元-输入层、隐藏层和输出层-通过权重连接构成。神经元排列成层的功能类似于大脑皮层和视网膜细胞。神经网络中的每个神经元接受大量输入信号,执行输入加权和,通过激活函数得到最后输出。为了获得最佳输出,人工神经网络不断重复学习和纠错。人工神经网络把对生物神经网络的认识与数学统计模型相结合,通过数学统计学方法,使神经网络具备了类似于人的决定能力和判断能力。


逻辑回归     逻辑回归是一种常用于分类任务的机器学习算法,其核心是通过逻辑函数将线性回归模型的输出转换为概率值,从而实现分类。逻辑回归适用于疾病危险因素分析、疾病诊断与预测、患者分层。


深度学习     深度学习是机器学习领域中一个新的研究方向,与传统的浅层机器学习不同,它依赖于由神经元架构组成的网络的各个层,允许模型自我改进和自我训练,从而通过从给定数据中提取更高级别的特征来实现高精度水平,适用于图像识别、语音识别、自然语言处理等复杂任务,可以借助自身从高维数据(如医学影像、基因组数据)中提取深层特征,为医生提供更具洞察力的预判结论。在医疗领域中,常用的深度学习算法包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)。CNN作为深度学习的主要代表,在医学成像领域表现优秀,甚至在某些任务中表现超越了人类,能够在足够的训练数据支持下自动学习有效的特征。


机器学习在KOA诊断中的应用


基于影像图像诊断      近年来,深度学习在图像识别领域取得了显著进展,并在KOA的诊断中展现出巨大潜力。鉴于膝关节病变早期征象多较为细微,诊断过程耗时且费力,深度学习模型在诊断软骨病变、半月板撕裂及前交叉韧带撕裂方面,能够有效提高诊断效率,减少人为因素导致的误差。值得一提的是,部分模型的诊断效能已经可以与临床医师相媲美,为KOA的早期诊断和干预提供了新的可能性。在早期的研究领域,X线检查是临床筛查KOA的常用手段,采用Kellgren-Lawrence分级(KL分级)可根据X线平片所见对KOA进行分级。Pi等使用了来自骨关节炎倡议(OAI)的8260张图像,使用的集成网络模型包括ResNet-101、ResNext-50-32×4d、WideResNet-50-2等多个深度学习模型,预测KOA的严重程度及其相应的KL等级。通过结合模型构建集成网络,克服了单一模型的不稳定性,并进一步提升了预测准确度。还使用Grad-CAM可视化技术分析了模型的关注区域,发现该模型能够有效地关注膝关节周围的关节间隙、骨赘形成等特征,增强了模型的解释性和可信度。该研究使用F1分数作为模型评价的重要指标,F1分数是精确率(Precision)和召回率(Recall)的调和平均,确保在降低假阳性和假阴性率的同时提升准确性。F1分数的值在0~1之间,值越高表示模型的性能越好。与之类似,Pongsakonpruttikul等使用了YOLOv3tiny深度机器学习模型来检测和分类KOA,YOLO(You Only Look Once)是一种流行的目标检测算法,它结合了目标检测和分类,并通过深度卷积神经网络(CNN)进行图像分析,YOLOv3tiny能够自动定位膝关节病变和感兴趣区域,并在图像上绘制矩形边界框。大部分诊断模型依赖于OAI数据库,而Olsson等的研究使用了瑞典丹迪医院2002年至2016年间收集的6103张膝关节X光片,发现即使在输入数据中存在植入物、石膏和其他病理学等视觉干扰因素的情况下,CNN能够有效地根据KL分级系统对KOA进行分类。当合并相邻的KL等级时,CNN的表现接近完美,AUC值大于0.95。在处理类别不平衡的数据集时,使用AUC评估模型的表现比使用准确率更可靠,因为AUC不受类别分布的影响,能够更好地反映模型对少数类的识别能力。此外,Olsson等的研究表明,基于其他中心的数据集同样能够训练出表现优异的模型,从而减少对OAI数据库的依赖。值得注意的是,以上研究都发现机器学习在分类时常将KL1级错误地识别为0级或2级。这一问题可能与模型在捕捉KL1级图像特征方面的局限性有关。


鉴于MRI对膝关节病变的分辨率高,不断有学者进行MRI图像分割的研究探索,深度学习可以帮助将MRI图像中的复杂结构和组织进行分割。Teoh等使用16种预训练的CNN架构作为特征提取器,包括VGG、EfficientNet、ResNet和DenseNet家族。在VGG架构中,将传统的全连接层替换为全局平均池化(GAP)层,以减少特征维度并提高模型性能。该研究证明了深度混合学习模型在自动诊断膝关节炎方面的潜力。VGG16-GAP+KNN模型可以有效地预测OA特征,包括KL分级、骨赘、关节间隙狭窄和疼痛强度。其中VGG16和K近邻模型表现最佳,F1分数为0.93。同样的,Yoon等也采用OAI数据库,使用HRNet检测股骨内侧髁和腓骨头中心点,使用RetinaNet检测膝关节间隙区域和4个主要骨赘区域(股骨内侧远端、股骨外侧远端、胫骨近端内侧和胫骨近端外侧)。并且使用HRNet自动分割膝关节间隙区域,并计算mJSW和JSN率(与正常人群相比)。最终开发一种名为MediAI-OA的新型深度学习软件,该软件对KOA的诊断准确率为0.92。以上这两项研究都采用了多任务学习的策略,旨在同时检测和评估多个与KOA相关的特征,而不仅仅是单一的KL分级。机器学习分类器包括LR、KNN和SVM,Cui等回顾性分析了148例患者的MRI数据,从软骨部分提取并筛选了影像组学特征,使用组内相关系数(ICC)量化特征的重复性,并设置了0.8的阈值,采用最小绝对收缩和选择算子(LASSO)回归方法进行特征选择,其中LR分类器表现最好。


基于中医四诊的诊断     我国的研究者龙锦益等收集了中医四诊信息,并运用MLDF算法构建了KOA的辅助诊断模型。为了验证模型的性能,他们将其与5种其他多标记算法进行了比较,并采用了多标记算法Rank-SVM、ML-kNN及单标记算法SVM、kNN进行建模对比。研究结果显示,在处理多证兼夹的中医数据集时,多标记分类算法的表现优于其对应的单标记算法。特别是MLDF算法,其在KOA的诊断结果上与真实诊断结果表现出较高的一致性。


机器学习在临床预测模型中的应用


临床预测模型的介绍     KOA预测模型的开发一般涉及数据收集与预处理、特征变量筛选、模型训练与优化、模型验证与测试,以及模型部署与应用等关键举措,以维持模型的精准性与临床实用性。在数据采集及初步处理阶段,务必从医院电子健康记录(EHR)、公开医疗数据库(如OAI数据集)及影像数据(如X光片和MRI)等各类出处采集患者临床资料,并依照缺失值填补(如均值填充、多重插补、KNN插补等)、数据标准化(Z-score归一化、Min-Max归一化等)和特征选择(LASSO回归、Boruta算法等)做法开展数据筛选,以增强数据水准及一致性。在特征变量筛选阶段,纳入可能影响进展的关键变量,以提升模型的运算效率及解释性,在模型执行训练及进行优化的阶段,选择恰当的机器学习算法(如逻辑回归、随机森林、支持向量机、XGBoost等)开展训练,并凭借K折交叉验证对模型性能开展测评,同时借助超参数调节强化模型的性能。鉴于KOA的病因机制尚未被完全阐明,现有研究普遍认为KOA的进展与多种因素密切相关。有研究提出了KOA的风险预测模型,但是大多数研究实际上并不是在构建真正的预测模型,而是聚焦于KOA的分类模型。分类模型则可能更多地用于描述疾病状态或表型,而预测模型可以帮助医生更好地识别高风险患者并进行早期干预。


早期KOA预测模型     Yoo等开发了第一个使用机器学习的KOA预测模型,研究人员使用了韩国国家健康和营养调查(KNHANESV-1)数据,这一研究为该领域奠定了基础,推动了基于机器学习KOA早期预防策略的进一步探索。此后,研究者们纷纷尝试改进和扩展这一模型的适用性。我国学者苏奎等通过OAI数据库的特征选择,构建了6种基于机器学习的模型,确定了20个特征作为KOA风险和严重程度的预测因子,包括受试者特征、膝关节症状/危险因素和体格检查。并对KOA预测的精度进行了比较,结果XGBoost模型预测精度最高。


多模态临床预测模型      KOA患者的临床数据含有多种类型,如结构化的电子健康记录(EHR)、非结构化的医学影像数据(X光片、MRI)及基因组数据等,由于单一数据模态大概存在信息欠缺或局限,借助多模态数据融合技术,可以全面采纳不同种类的数据,增大模型的泛化能力及预测精准度,让其更贴合临床应用需求。Joseph等结合MRI成像特征的XGBoost模型能够更有效地预测KOA在8年内的进展,该研究纳入了10个预测因子,包括人口统计学数据、MRI成像指标、症状、体力活动和肌肉力量等,这为将影像学数据纳入风险预测模型提供了有力支持。研究中采用了监督学习中的XGBoost算法,它通过更正则化的模型形式化来控制过拟合,最终提高模型性能。它具有重要的参数调整能力,并且允许识别对最终模型分类很重要的特征,增强可解释性,最终允许方便的特征选择。然而,Salis等基于XGBoost算法建立的预测模型不需要MRI数据,这使得模型更加透明,并使用易于获取的数据,从而更具有广泛的实际应用价值。并且借助了XGBoost算法识别对最终模型重要特征的识别,使该研究能够对预测模型中最具影响力的预测因子进行排名。临床预测模型通常会考虑多个风险因素来评估患者的风险,而简化模型则通常只需收集少量数据,从而更易于推广和应用。类似地,Bonakdari等仅使用3个基线血清生物标志物和2个风险因素(即年龄、BMI以及血清生物标志物CRP/MCP-1和瘦素/MCP-1的两种比率)就能够进行KOA进展的早期预测,在5种有监督的机器学习算法中,SVM表现出最佳的准确性。综合这些研究成果可以看出,随着机器学习的引入,KOA风险预测模型正在迈向精准与实用的新阶段。然而,预测模型的临床实用性仍然取决于其对新数据预测的能力。


步态分析模型     Li等利用可穿戴鞋内系统收集动态足底压力数据,并提取210个特征,包括年龄、性别、身高、体重、体重指数等生理特征和动态足底压力特征,通过过滤器和包装器方法识别最优特征,并使用5种机器学习算法进行模型训练和评估。类似地,Kwon等的研究通过分析KOA患者的步态数据,提取了包括髋、膝、踝关节的运动学、动力学参数以及时空参数在内的1087个特征,并利用43个关键特征构建线性回归模型和随机森林模型来估计患者的WOMAC评分。这两项研究成功预测了KOA的严重程度,为KOA的诊断提供了新的方法。机器学习算法应用总结,如表1所示。


表1.png


临床实施建议


想要将所提出的KOA诊断模型成功整合到现有的临床实践中,系统对接与界面设计是关键环节,实现模型与图像存储传输系统(PACS)的无缝对接,确保图像数据的流畅传输和兼容性。AI系统的PACS对接能力不仅涉及支撑影像数据的智慧分析与自动化标注,更应涵盖报告自动化生成。此外,可以进一步开发一种直观的医护协作决策界面,此界面不仅能够清晰表达模型预测结果,而且能够展示基于Grad-CAM的热图及基于LIME或SHAP的特征重要性分析等解释性信息,为临床决策提供更综合的视角,助力医疗人员高效准确的诊断决策。模型的透明度不足已然成为业界共识,通过应用LIME和SHAP等解释方法,可以直观方式向医生展现模型预测结果,增强医生对模型预测输出的信心,深入分析能够揭示模型潜在的局限。与此同时,MedMLOps框架提出了确保AI模型在临床上的可靠性和实用性,需集结多学科团队合作。考虑到基层医疗机构可能面临的数据获取挑战及计算资源紧张,对模型的基层医疗适应性需要特别关注。小样本和迁移学习技术在此领域的研究不断进展,基于交叉注意力Transformer的少量样本分割架构(CAT-Net)在医学图像分割领域展现出了显著的性能提升。


总结与展望


数据集构建与标注     在医学研究领域,高质量的临床数据是模型开发和分析的重要支撑。临床数据来源广泛,涵盖了电子健康记录、影像资料等,其格式多样且质量参差不齐。未来应重点关注数据收集的规范化和标准化流程,强化数据清洗和统一处理,以提高数据的可用性和可靠性。


数据隐私与安全     医疗数据涉及大量个人敏感信息,若管理不当可能带来严重的隐私风险。因此,在数据采集过程中应遵循最小化原则,仅收集必要的信息,并通过加密技术与安全存储手段,保障数据安全性与合规性。


临床应用与验证    尽管当前许多预测分析方法在实验环境中表现出良好的性能,但在真实临床场景中的落地仍面临挑战。未来应加强与医疗机构的合作,推动开展多中心研究,并利用不同地区和医院的实际数据进行外部验证,以确保研究成果具备广泛的适用性和推广价值。


法律法规与跨境应用     随着医学数据分析在国际间的交流日益频繁,不同国家和地区对数据使用与隐私保护的法律要求也存在差异。在跨国或多区域合作中,有必要建立统一的数据治理框架,确保研究活动符合各地法律法规,促进数据的合法流通与共享。


来源:生物骨科材料与临床研究2025年4月第22卷第08期

(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)

0
收藏 分享