人工智能在生殖医学领域生物信息学方向的研究进展
2025-11-26 来源:中国实用妇科与产科杂志

作者:胡 希 综述,刘 洋 审校,昆明医科大学第二附属医院生殖医学科


近年来,基因组学、转录组学、蛋白质组学和代谢组学等生物信息学技术的快速发展和广泛应用,尤其是高通量测序技术(又称下一代测序技术)的进步,为生物科学研究带来了新的思路。高通量测序技术相比于传统的Sanger测序法,采用并行测序技术,在单次运行中即可完成上百万甚至千万次测序实验,产生的序列数据量巨大[1,2]。生物信息学的提出及发展,通过收集、储存、整合和分析这些海量数据,为探寻分子机制提供了可能性,深入探索疾病进展中的分子变化和相关信号通路的功能联系,使得发现信息丰富的生物标记物并进一步开发应用于临床实践成为可能[3,4]。


人工智能(artificial intelligence,AI)作为计算机科学的一个分支,包括计算中的智能和模拟人类学习等行为,能够利用大量医疗数据进行分析和预测,为临床诊断、治疗和疾病管理提供了新的可能性。目前,AI已广泛应用于涵盖医学在内的多个领域[5]。例如,随机森林(random forest,RF)、朴素贝叶斯、支持向量机(support vector machine,SVM)等机器学习(machine learning,ML)算法已广泛应用于医学领域;深度学习(deep learning,DL)是AI的一个子集,是一种应用前景广泛的方法,它可以自动从样本图像中学习特征表达,并且在特定任务的应用中已经被证明可以匹配甚至超越人类的表现[6],实现了突破性的成就;神经网络作为一种非线性的ML模型,能够更好地实现输入和输出之间的映射。人工神经网络(artificialneural network,ANN)是数据挖掘的重要工具,设计用于模拟人脑神经网络,可以对复杂数据之间的相互关系进行建模,而卷积神经网络(convolutional neuralnetwork,CNN)由于其强大的图像识别功能和鲁棒性,与具有可量化特征的影像组学相结合,成为临床疾病辅助诊治的研究热点[7~10]。AI的加入使得研究过程可以高效处理大规模基因组学、转录组学等多种类型数据,实现自动化数据清洗、特征选择和数据整合,从海量数据中提取关键信息。


本文概述了生物信息学技术与AI技术在生殖医学领域的整合应用,阐述了其在改善诊断、个性化治疗和促进疾病研究进展方面的重要意义,及未来多学科联合的发展方向。通过综合分析和展望,希望为深入了解生殖医学领域的复杂病因和发病机制提供支持,并为实现个性化治疗、预防和精准医学提供坚实的基础。


1 人工智能整合基因组学/转录组学在生殖医学领域的应用进展


基因组学运用高通量测序技术来研究整个基因组的结构、功能和进化,主要对生物体内所有基因进行量化表示,用于指导疾病的诊断与治疗。基因组学包括基因组测序和分析,利用基因测序可以找出疾病的突变基因,从而快速确定对应药物,节省诊疗时间,提升治疗效果[11]。转录组学专注于研究细胞或组织内所有转录RNA分子,根据技术的发展先后分为微阵列技术和测序技术,目前常用的是后者。在测序技术中RNA测序(RNA-seq)技术近年发展迅速,被广泛应用,利用RNA-seq技术,不仅能够检测出细胞中所有的基因表达水平,还可以识别m RNA水平的结构改变[12]。


1.1 AI整合基因组学/转录组学在女性生殖医学领域的应用进展 


Chen等[13]的研究为了探讨接受卵胞浆内单精子注射-体外受精(ICSI-IVF)治疗的女性卵丘细胞的甲基化谱,并通过ML方法建立妊娠结局预测模型,通过分析基因表达综合数据库(GEO)中的甲基化数据,识别了338个差异甲基化胞嘧啶-磷酸-鸟嘌呤(CpG)位点和146个独特基因,利用SVM、RF、逻辑回归(logistic regression,LR)等ML方法,建立了预测模型,其曲线下面积(AUC)分别为0.94、0.88和0.97。结果表明,成功妊娠与未妊娠的女性在卵丘细胞的甲基化谱上存在显著差异,进一步证明了ML方法在联合转录组学数据预测ICSI-IVF治疗结果中具备有效性和潜力。Zhang等[14]探讨了抗磷脂综合征(APS)和反复植入失败(RIF)之间的共同机制,通过生物信息学和ML方法识别了4个潜在的诊断基因(MARK2、CCDC71、GATA2、KLRC3)以及γδT细胞作为连接这两种状况的重要免疫细胞,该研究发现,这些基因的表达变化与多种免疫反应相关,可能影响子宫内膜的免疫环境和胚胎植入过程,通过对候选药物Acetaminophen和Fasudil的预测,提示了针对这些共有基因和免疫途径的潜在治疗策略,为RIF伴APS的治疗提供了新的思路。这项研究不仅揭示了APS和RIF之间的共同病理机制,还强调了免疫治疗在治疗这两种状况中的潜力。Yu等[15]首次采用第3代ONT PromethION平台对早发性卵巢功能不全(POI)全长转录组进行特征化,识别出272个差异表达基因、858个核心基因和25个枢纽基因,并通过RF和Boruta算法识别出7个潜在生物标志物基因。验证表明其中的COX5A、UQCRFS1、LCK、RPS2和EIF5A基因具有与测序数据一致的表达趋势,可能作为POI的潜在生物标志物。这些发现为进一步探索POI的分子调控网络和潜在生物标志物提供了新的视角和方

法。使用高通量测序技术进行数据获取和分析,揭示基因组和转录组层面的细节,采用ML方法进行数据处理和结果预测,提升研究的准确性和可靠性,不仅揭示了疾病机制,还提出了潜在的治疗策略和靶点,为临床应用提供了新的思路,展示了高通量测序技术和ML方法在生殖医学研究中的高效广泛应用。


1.2 AI整合基因组学/转录组学在男性生殖医学领域的应用进展 


Zhang等[16]旨在探索预测非梗阻性无精子症(nonobstructive azoospermia,NOA)患者通过显微解剖睾丸精子提取技术(micro-TESE)能否成功获取精子的生物标志物,同时关注了循环血浆外泌体转移RNA衍生片段(tRFs)。在这项包括成功和失败的NOA患者以及正常生育能力男性的前瞻性病例对照研究中,通过高通量测序和反转录实时定量PCR技术鉴定和验证了t RFs的表达水平。结果发现,tRFGly-GCC-002和t RF-Glu-CTC-005在成功组与失败组之间有显著差异,且通过受试者工作特征(ROC)曲线分析表现出极高的准确性(AUC分别为0.921和0.954)。有关t RFs的目标基因及其功能富集分析揭示了它们在神经内分泌蛋白代谢和纹状体/皮质下发展中的潜在作用。该研究利用AI和基因组学预测NOA患者通过micro-TESE成功获取精子的高质量生物标志物[16],为临床精准预测提供了新视角。He等[17]的研究通过综合运用权重共表达网络分析、多种ML和差异表达分析,成功识别了4个与无精子症及新型冠状病毒(COVID-19)密切相关的基因:GLO1、GPR135、DYNLL2和EPB41L3,通过ROC分析,这些基因显示出高准确度的诊断潜力,并提示其表达可能与免疫系统活动相关,进一步富集分析揭示这些基因在白细胞介素-17(IL-17)信号通路中的共享作用,提示该通路在两种疾病中的重要性,基于这些关键基因的表达,识别了COVID-19的两种分子亚型,并采用新的Xsum方法预测了针对无精子症的潜在药物治疗靶点。不仅深化了我们对无精子症和COVID-19分子机制的理解,还为未来的治疗策略开发提供了潜在的生物标志物和药物靶点[17]。


1.3 AI整合基因组学/转录组学


在生殖医学人类胚胎研究领域的应用进展 HelPredictor是一个基于ML的工具[18],利用ML技术分析人类胚胎的单细胞转录组数据,以预测和理解胚胎中不同细胞系的分配及其发育过程中的关键生物标志物。通过整合多种特征选择方法和经典ML分类器,在应用于人类胚胎单细胞测序数据时,HelPredictor在交叉验证中表现出94.9%的准确率,在独立测试中表现为90.9%的准确率。该工具能够识别并推断出胚胎中特定细胞系的关键分子事件和发育特征,为研究胚胎发育过程提供了深入的洞见。该研究展示了ML在预测人类胚胎细胞系分配中的应用潜力。


2 人工智能整合蛋白质组学在生殖医学领域的应用进展


随着人类基因组计划的完成,分子生物学研究进入了后基因组时代[19],蛋白质组学技术应运而生,其可实现在整体水平上分析蛋白质的组成、结构、表达、修饰状态以及蛋白质之间的相互作用和联系,提供特定时刻和特定状态下细胞内分子的全面视图。其在揭示疾病的分子机制、发现新型生物标志物以及作为特异性诊断方法、预后预测因子和治疗靶点等方面提供了可靠的数据支持。Le等[20]开发了一种名为Fertility-GRU的DL方法,通过结合门控循环单元(gatedrecurrent unit,GRU)和位置特异性评分矩阵配置文件来预测与生育相关的蛋白质功能,模型表现出色,实现了85.8%的交叉验证精度和91.1%的独立测试精度。为解决过度拟合问题,研究中还引入了dropout层,使模型在独立测试中的敏感性、特异性和马修斯相关系数分别达到90.5%、91.7%和0.82。Fertility-GRU的性能超越了现有的最先进预测器,展现了深度循环网络技术在蛋白质功能预测的应用潜力,促进了DL技术在生殖医学领域蛋白质组学研究中的应用拓展。Matorras等[21]采用AI和数学建模策略,整合患者的蛋白质组学和临床数据,通过创建胚胎着床的数学模型,模拟了胚胎着床过程中的分子网络,并识别了能够通过调节相关分子途径以改善胚胎着床的药物,分析发现23种可能改善体外受精后胚胎着床的药物候选,包括已知化合物和新的候选药物如Infliximab、Polaprezinc和Amrinone,为胚胎着床分子机制的理解和治疗策略的开发提供了新的视角和依据,展现了该方法在生殖医学研究中的应用前景。Ouni等[22]通过全面分析人类卵巢的蛋白质组学和细胞外基质特征,揭示了卵巢在不同生命阶段的生物标志物和生理变化,通过研究青春期前至更年期的卵巢重构,识别出98种母质蛋白,其中26种在不同年龄阶段表现出独特的表达模式,可能作为卵巢健康和功能的关键生物标志物,通过结合成像技术、自然语言处理、ML和数据超声处理等方法,研究提供了一个独特的视角来理解卵巢细胞外基质的时空信号网络及其随年龄的改变,为理解卵巢功能提供了新的见解,为识别和表征生育相关疾病状态提供了重要背景,推动了女性生殖健康的深入研究。


Peng等[23]通过分析58个睾丸样本,识别出在NOA患者中表达差异显著的51个RNA结合蛋白,并通过多种生物信息学方法确定DDX20和NCBP2为关键生物标志物。这两种蛋白在NOA发病机制中扮演重要角色,其表达差异在临床样本中得到验证,显示出作为非侵入性诊断标志物的潜力。通过构建的ANN诊断模型,进一步验证了DDX20和NCBP2在NOA诊断中的应用价值,为深入理解NOA的分子机制和发展新的诊断工具提供了重要基础。


应用AI和生物信息学蛋白质组学数据策略在生殖医学领域取得重要进展。Fertility-GRU模型通过结合GRU和位置特异性评分矩阵预测生育相关蛋白,展现出高准确性;Matorras等[21]利用数学模型和AI揭示改善胚胎着床的潜在药物;Ouni等[22]全面分析人类卵巢蛋白质组学,识别关键生物标志物;Peng等[23]通过生物信息学方法鉴定NOA中的关键生物标志物,提供新的诊断工具,这些研究为理解生育机制和开发治疗策略提供了新见解。


3 人工智能整合代谢组学在生殖医学领域的应用进展


代谢组学是继基因组学、转录组学、蛋白质组学之后发展起来的一门围绕机体代谢的新兴的组学技术,是对生物体内的小分子代谢物(分子质量小于1500 Da)进行定性定量分析,并进一步发现其代谢物种类、数量变化规律的科学[24]。相比于基因和蛋白,代谢产物可以直接反映细胞的功能状态,能够更为敏感地显示在内、外界因素干预或病理状态下生物代谢的动态变化,因此,代谢组学在反映生物系统代谢物异常方面具有独特优势[25]。如今,代谢组学技术已被广泛应用于诊断疾病、检测生物标志物,以及检测不同生理、病理状态下的机体变化[26]。Matorras等[27]采用代谢组学方法分析子宫内膜液样本,探讨了在IVF周期中着床与未着床周期的子宫内膜液脂质代谢组学差异,结果显示,在未着床IVF周期中,子宫内膜液中的磷脂和ω-6多不饱和脂肪酸存在显著变化,尤其是磷脂乙醇胺和磷脂酰乙醇胺的水平较低,而二酰基磷脂酰胆碱的水平较高。这些变化可能反映了胚胎着床过程中关键途径的改变。通过SVM算法构建的分类模型,以以上脂质代谢物为特征,展现出高预测准确性。这些发现为理解胚胎着床过程中的分子机制提供了新见解,并为IVF治疗策略的个性化提供可能,如通过调整饮食或使用特定化合物来优化子宫内膜液环境,从而提高着床成功率。Luan等[28]通过对经历自然流产的女性血清进行脂质代谢组学分析,探讨了自然流产与脂质代谢之间的相关性。通过ML方法筛选和分析差异性脂质水平,以验证潜在血清生物标志物的稳定性和有效性,研究发现,流产患者与足月分娩之间的7种脂质种类表现出显著差异,包括3种鞘磷脂(SM)、2种二酰甘油(DG)、1种磷脂酰胆碱(PC)和1种溶血磷脂醇胺(LPE),所有SM的变化倍数均大于1,而PC和LPE的变化倍数均小于1,含有两个饱和脂肪酰基的DG在流产组中减少,而含有两个不饱和脂肪酰基的DG在流产组中增加,该研究揭示了脂质谱与IVF移植术后自然流产的相关性,为这一具体临床情景提供了潜在的生物标志物和治疗靶点。


4 人工智能整合多组学分析在生殖医学领域的应用进展


与任何单个组学层相比,分析多个组学层使捕获更完整的每个细胞信息集成为可能,可以更好地反映细胞功能的复杂相互作用网络,特别是当不同的组学方法应用于同一患者[29]。Vazquez等[30]通过引入优化和验证的高多色流式细胞术,全面分析了足月人类胎盘的免疫细胞,揭示了胎盘母体-胎儿界面内免疫细胞,特别是树突细胞群体的显著多样性,采用降维和ML算法处理复杂数据集,识别了胎盘中独特的树突细胞亚群分布,克服手动专家门控方法的局限性。虽然研究存在批次效应的挑战,但研究建立了一种新的评估胎盘免疫组学的平台,为理解成功妊娠所需的母体-胎儿免疫环境提供了深入见解,展现了该方法改善生殖免疫诊断工具的潜力,为未来的基础研究和临床应用提供了重要的基础。Guo等[31]通过代谢组学和蛋白质组学分析,探究了老年与年轻男性精液质量差异的分子机制,发现年龄显著影响精液参数,与精子浓度和DNA断裂指数正相关,而与其他精液质量指标负相关,揭示了与精子功能相关的关键途径,如氧化磷酸化和脂肪酸代谢的变化,指出氧化应激可能是导致精液质量下降的主要原因,通过ML方法构建了基于4种代谢物的生物标志物组,为识别老化精液提供了新工具,为理解男性精液老化提供了重要见解,并为改善老年男性的精液质量和生育能力开辟了新途径。结合ML算法来处理多种组学生物数据,重点关注特定细胞或分子的多样性与特异性,并致力于识别新的生物标志物,为理解生物过程和改善临床诊断提供了新的视角和工具,克服常规数据处理和分析的挑战,从而得出了有价值的结论。


5 总结与展望


在过去的几年里,AI技术在生殖医学领域的应用取得了显著进展,本文主要讨论其结合生物信息学研究,在基因组学、转录组学、蛋白质组学、代谢组学以及多组学分析方面的应用。通过整合以上先进技术,研究人员不仅能够更加深入地理解生殖相关疾病的分子机制,还能开发新的诊断工具和治疗策略,极大地提高了生殖医学临床和基础研究的精准度和效率。基因组学和转录组学的研究揭示了生殖医学中关键生物标志物和治疗靶点的重要性。通过AI技术,如ML方法的应用,研究人员能够从大量的基因组和转录组数据中筛选出与生育相关的关键基因和途径,进而开发出预测生育能力和治疗效果的模型。蛋白质组学的应用进一步拓宽了我们对生殖系统的理解,通过DL方法如Fertility-GRU模型的开发,研究人员能够精确地识别与生育相关的蛋白质功能,这对于发现新的生育调控机制和开发治疗药物具有重要意义。代谢组学的研究为理解胚胎着床过程中的分子机制提供了新的见解,不仅揭示了胚胎着床失败的可能原因,也为通过调整饮食或使用特定化合物来提高着床成功率提供了理论基础。多组学分析的综合应用则是未来生殖医学研究的重要趋势,通过整合基因组、转录组、蛋白质组和代谢组等多种数据,研究人员能够更全面地理解生殖过程中的复杂机制,为诊断和治疗提供了更加全面和深入的视角。


尽管AI在生殖医学领域的应用已经取得了显著成果,但未来的研究仍然面临着一些挑战和机遇。首先,AI模型对训练数据量和质量高度敏感,是决定模型质量的关键因素,目前,不同生殖中心的数据标准不统一,样本量有限且易偏倚,导致模型难以泛化和复制,随着生物信息学和AI技术的应用,未来研究还将更加注重数据的整合和跨学科合作,以促进生殖医学领域的快速发展。目前大多数AI工具属于“黑盒”模型,其内部推理过程难以解释,这种特征使医护人员和患者对AI决策持保留态度,影响其信任度。在临床推广中,如果对AI给出的建议无法追溯至具体的生物学或临床依据,将阻碍其应用。因此,需要发展可解释AI方法并提供透明化的决策依据,这一步更加需要AI专家及科研工作者的努力。推广AI临床应用需要配合培训和教育,使医护人员理解其优势及局限,接受“AI辅助但最终决策由医生把控”的工作模式,改变传统观念和提高对AI的信任是临床应用的必经过程。最后,AI应用涉及大量敏感健康数据,隐私保护是关键问题。建立集中式AI大平台虽可提升模型训练效率,但也增加了数据泄露和滥用的风险。确保患者知情同意、明确数据用途并加强安全管理,是AI应用于辅助生殖发展必须重视的伦理原则。


随着AI技术的不断进步,开发更加精准和高效的算法模型将是未来研究的重点,这将有效提高生殖医学诊断和治疗的准确性和成功率;个性化医疗在生殖医学领域的应用潜力巨大,通过深入分析患者的基因组、转录组和代谢组信息,未来的治疗将更加个性化和精准,能够为每一位患者提供最适合其特定情况的治疗方案。


总之,AI技术与生物信息的结合在生殖医学领域的应用展现出巨大的潜力和价值,未来的研究不仅将继续深化我们对生殖过程的理解,还将开发出更多创新的诊断和治疗方法,为患者提供更为精准和高效的医疗服务。随着技术的不断进步和跨学科合作的加强,生殖医学领域的未来将充满希望和机遇。


参考文献略。


来源:实用妇产科杂志2025年9月第41卷第9期

(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)

0
收藏 分享