基于机器学习的反复种植失败相关泛素化基因与免疫浸润分析
2024-09-26 来源:中国实用妇科与产科杂志

作者:梁湘萍,王兆亿,邱锡坚,刘风华,广东医科大学附属医院妇科,广东省妇幼保健院生殖健康与不孕专科


胚胎着床是新生命形成的关键步骤,这一过程的顺利完成需要高质量的囊胚、处于种植窗时期的子宫内膜以及母胎界面间的友好互动,三者缺一不可。尽管体外受精-胚胎移植(in vitro fertilization-embryo transfer, IVF-ET)技术日渐成熟,但反复种植失败(recurrent implantation failure, RIF)仍然困扰着全球约10%的IVF-ET患者[1]。目前,学术界尚未就RIF的确切定义达成共识。现阶段被广泛认可的定义是Coughlan等[2]在2014年提出的“40岁以下的IVF-ET女性,在3个新鲜或冷冻周期内移植至少4枚优质胚胎后,未能实现临床妊娠的情况”。中国最新的RIF临床诊治专家共识则建议将此定义适时更新为“40岁以下成年女性在3个新鲜或冷冻周期内移植至少3枚优质胚胎后仍未能实现临床妊娠,其中优质胚胎包括:第3天胚胎(细胞数≥8个、卵裂球大小均匀、碎片率<10%)和囊胚(≥3BB)[3]”。泛素化是指泛素在一系列酶的催化作用下共价结合到靶蛋白的过程。它作为蛋白翻译后修饰的一种方式,在配子发生和早期胚胎发育中起着关键作用[4]。泛素-蛋白酶体途径不仅参与了哺乳动物早期妊娠期间的子宫重塑[5],而且还可以通过调节基质金属蛋白酶(MMP)-2和MMP-9的表达参与小鼠的胚胎植入[6]。尽管已有部分研究证明胚胎植入过程涉及泛素化,但是泛素化是否与胚胎植入过程中的免疫调节相关,暂未有充分的研究。


本研究从公共数据库基因表达综合数据库(Gene Expression Omnibus,GEO)中下载了RIF相关的转录组和单细胞测序数据集,通过多组学分析揭示了RIF子宫内膜中不同细胞类型之间的异质性,并在细胞亚群水平上研究RIF的关键驱动基因和信号通路,为RIF的发病机制提供新的见解。


01资料与方法


1.1 研究对象  从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载GSE111974、GSE26787和GSE223672数据集,其中GSE111974、GSE26787为健康对照组与RIF患者的子宫内膜转录组数据集,GSE223672为单细胞测序数据集。每个数据集中的患者年龄均小于38岁,且卵巢功能正常。对照组患者为至少有1次成功活产且没有流产、其他妇科疾病或药物使用史的个体。所有患者均在种植窗期间(LH+7~LH+9)接受了子宫内膜搔刮术。本研究已通过广东省妇幼保健院伦理委员会批准(伦理审批号:医伦第202401203号)。


1.2  方法


1.2.1  筛选RIF泛素化相关差异表达基因与功能富集分析   使用“limma”包来识别对照组与RIF之间的差异表达基因,设定阈值为P<0.05和log Fold Change (FC)>1。将筛选得到的RIF差异表达基因与泛素化相关基因取交集,得到在RIF中差异表达的泛素化基因。利用R包“ClusterProfiler”对这些交集基因进行基因本体(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)分析,阈值为P<0.05和q<0.05。通过基因集富集分析(single-sample gene set enrichment analysis, GSEA)进一步分析交集基因高低表达组之间的信号通路差异情况。


1.2.2  通过机器学习进一步筛选关键基因  采用LASSO回归对得到的差异泛素化基因进行进一步筛选,以得到具有良好分类性能的RIF关键基因进行模型构建。在纳入每个特定基因的表达值后,构建每个患者的风险评分公式,并在LASSO回归分析中用其估计的回归系数加权,根据风险评分公式计算每个患者的评分。通过绘制受试者工作特征(receiver operating characteristic, ROC)曲线来评估模型的准确性。


1.2.3  单细胞RNA测序数据分析  使用Seurat包来处理数据。采用t分布随机邻域嵌入算法(t-distributed stochastic neighbor embedding algorithm, t-SNE)对细胞亚群进行可视化。通过celldex包和SingleR包对细胞亚群进行注释,随后分析RIF关键基因在各个细胞亚群中的表达情况。


1.2.4  免疫细胞浸润分析  采用单样本基因集富集分析(single-sample gene set enrichment analysis, ssGSEA)来评估免疫细胞在每个子宫内膜组织样本中的相对丰度[7]。同时,采用Spearman相关性分析来探究RIF关键基因与免疫细胞之间的关联。


02结果


2.1  RIF组与对照组之间差异泛素化基因的筛选及功能富集分析  将GSE111974作为训练集并对其进行差异分析,在RIF与对照组样本之间筛选出412个差异表达基因(P< 0.05,|logFC|>1),其中243个表达上调,169个下调(图1a)。随后从GeneCards数据库中获取了相关性评分>5的泛素化相关基因。通过绘制差异表达基因和泛素化基因的韦恩图,筛选出12个差异泛素化基因(图1b)。GO分析显示,差异泛素化基因主要参与MAPK级联反应以及蛋白激酶活性的反向调节等生物学过程,主要表现的分子功能为泛素-蛋白转移酶活性、泛素-蛋白连接酶活性等(图1c)。KEGG分析表明,差异泛素化基因参与了铂耐药和泛素介导的蛋白水解过程(图1d)。


2.2  LASSO回归筛选RIF的基因标志物  基于上述得到的12个差异泛素化基因,采用LASSO回归对训练集GSE111974进一步分析,筛选关键基因。交叉验证的误差图和确定基因系数的图形分别如图1e和图1f所示。当λ=0.0002481927时,KLHL13、UCHL1、TOP2A和USP33的系数不为零。将这4个基因作为后续研究的关键基因并构建RIF预测模型,模型公式如下:风险评分=KLHL13×(−0.0663535941322533)+UCHL1×(-0.0425267978675594)+TOP2A×(-0.0108969836137476)+USP33×0.511699906159723。该模型的曲线下面积(area under the curve, AUC)为1(图1g)。随后,利用GSE26787对此模型进行外部验证,结果显示AUC为0.92,表明该模型具有良好的诊断能力(图1h)。


2.3  RIF患者子宫内膜的单细胞RNA测序分析  RIF子宫内膜中的所有细胞可分为18个亚型(图2a)。这18个亚型主要被划分为5个细胞簇:上皮细胞、组织干细胞、自然杀伤细胞(natural killer cell, NK cell)、内皮细胞和间充质干细胞(mesenchymal stem cells, MSCs)(图2b)。TOP2A在MSCs中表达量最高,USP33主要在MSCs和内皮细胞中表达,而在NK细胞、组织干细胞和上皮细胞中表达较少(图2c)。


2.4  免疫浸润分析  健康受试者和RIF患者子宫内膜中免疫细胞的比例如图3a所示。Spearman相关性分析显示Th1细胞和Th2细胞(r=0.67,P<0.05)以及CD8+T细胞(r=0.63,P<0.05)之间存在强烈的正相关关系。辅助性T细胞与Th2细胞呈负相关(r=−0.1,P<0.05)(图3b)。检查点分子与肿瘤浸润淋巴细胞(r=0.93,P<0.05)、趋化因子(r= 0.9,P<0.05)和T细胞共抑制(r=0.95,P<0.05)呈显著正相关(图3b)。T细胞共抑制和肿瘤浸润淋巴细胞水平也呈正相关(r=0.9,P<0.05)(图3b)。就免疫细胞类型而言,RIF组中CD8+T细胞、中性粒细胞、Th1细胞、Th2细胞和调节性T细胞的水平显著低于对照组(P<0.05),而辅助性T细胞的水平显著较高(P=0.003)(图3c)。与对照组相比,RIF组的抗原呈递细胞(APC)共抑制、APC共刺激、趋化因子、检查点分子、人类白细胞抗原、促炎、主要组织相容性复合体Ⅰ类、促炎、T细胞共抑制、T细胞共刺激和肿瘤浸润淋巴细胞均受到抑制(图3c)。

此外,本研究还观察了关键基因与免疫细胞之间的相互作用。KLHL13的表达与促炎、肿瘤浸润淋巴细胞浸润、APC共刺激等呈显著正相关(图3d)。TOP2A和UCHL1表达与T淋巴辅助细胞浸润呈强烈负相关(图3e,f)。USP33表达与Th2细胞、APC共刺激、T细胞刺激和促炎细胞浸润呈负相关(图3g)。


2.5  关键基因的GSEA分析  为了探索这些关键基因参与RIF的潜在途径,本研究利用GSEA分析4个关键基因富集的具体信号通路。结果显示,KLHL13主要涉及趋化因子、Hedgehog和NF-κB信号通路。UCHL1参与DNA复制、Hedgehog和Wnt信号通路。TOP2A参与DNA复制、GnRH和p53信号通路。USP33的表达与apelin信号通路、趋化因子信号通路和核苷酸代谢相关。综合来看,这些关键基因与胚胎发育和细胞再生密切相关。


03讨论


RIF病因复杂,目前尚缺乏明确的诊断标志物和有效的治疗方案。本研究通过分析RIF患者的转录组和单细胞测序数据,旨在寻找新的RIF诊断标志物并探究它们与免疫细胞浸润的关系。


本研究主要聚焦于RIF病理发展过程中泛素化的作用。KLHL13、UCHL1、TOP2A和USP33是我们筛选得到的与RIF密切相关的4个关键基因。UCHL1编码的是一种在神经系统中高表达的去泛素化酶。它调节哺乳动物配子发生过程中的凋亡相关因子,并与卵母细胞成熟、精子发生以及精子-卵子结合密切相关[8]。最近的一项报告指出,UCHL1在小鼠子宫发育中发挥着关键作用,其缺失会导致小鼠不孕[9]。TOP2A是一种DNA拓扑异构酶,能在染色体凝聚、染色单体分离以及DNA转录和复制过程中缓解扭转应力[10]。2011年,研究者在寻找子宫内膜容受性特征基因时,将TOP2A列为其中之一,初次证明TOP2A在植入失败患者的子宫内膜中表达显著下调[11]。Fu等[12]对RIF患者和对照组患者的子宫内膜组织进行了一项蛋白质组学分析,进一步验证了TOP2A对RIF患者子宫内膜容受性的影响。TOP2A在RIF妇女分泌中期子宫内膜中的表达显著降低,并且可以通过NF-κB 通路参与胚胎植入过程。由此来看,TOP2A的表达下降会影响子宫内膜的正常蜕膜化,可能是RIF发病机制的关键蛋白。


GSEA结果表明,特征基因主要与胚胎发育、DNA复制、细胞增殖与分化以及炎症反应相关,其中涉及Hedgehog和Wnt信号通路。Hedgehog信号通路是控制胚胎发育的经典信号通路[13]。Indian Hedgehog(Ihh)对于正常孕酮作用、雌激素信号以及子宫内膜上皮和基质细胞之间的通讯至关重要。Ihh信号的阻断可以激活自噬,影响子宫内膜容受性,并导致复发性流产[14]或子宫内膜异位症子宫腺肌病[15]。


单细胞测序结果显示,在子宫内膜不同细胞群体中,关键基因的表达模式存在显著差异。TOP2A在子宫内膜MSCs中的表达远高于其他细胞群,KLHL13则主要表达在子宫内膜MSCs和组织干细胞。KLHL13是构成泛素连接酶复合物的成分之一[16],且参与维持细胞有丝分裂[17]。MSCs能进行自我更新以及多向分化,细胞增殖分裂活跃,DNA复制和转录频繁,这可能是TOP2A和KLHL13主要表达于MSCs的原因。我们推测,TOP2A和KLHL13在RIF患者子宫内膜中的总体表达下调,同时会影响其在子宫内膜MSCs和组织干细胞中的表达,导致子宫内膜干细胞的增殖或分化异常,子宫内膜自我修复更新的能力受损,从而引发RIF。


既往研究报道RIF与母体子宫内膜的免疫平衡失调有关[18]。胚胎滋养层的入侵是一个复杂的过程,牵涉到子宫内膜基质细胞、巨噬细胞、子宫自然杀伤细胞[19]等多种细胞之间的相互作用。它们释放多种细胞因子,一同构建了蜕膜的免疫微环境,在妊娠过程中起着免疫抑制和免疫营养的双重作用。因此,窗口期的子宫内膜免疫失衡可能是RIF发生的重要因素。本研究的免疫细胞浸润分析结果提示肿瘤浸润淋巴细胞与T细胞共抑制分子之间有非常强的正相关性。肿瘤浸润淋巴细胞是肿瘤间质中的异质性淋巴细胞,大多数情况下以CD4+、CD8+T细胞为主,还包括CD3+、FoxP3+T细胞。先前一项研究收集了复发性流产(recurrent miscarriage,RM)、RIF和健康妊娠女性黄体中期的子宫内膜[20],分析发现RM和RIF患者的子宫内膜T细胞群明显区别于健康妊娠女性。RM和RIF患者内膜中CD3、CD4、CD8+T细胞的数量均有明显增加,而FoxP3+T细胞显著减少。这些结果表明,胚胎的成功植入需要足够的FoxP3+T细胞来维持母体的免疫耐受。Guo等[21]发现RIF患者血清中Th1/Th2比例增加,与Kuroda等[22]的研究结果相一致。这些发现表明免疫系统失调在RIF发病机制中的重要性。


本研究存在一些局限性。首先,研究只进行了生物信息学分析,并没有在体内或体外对关键基因进行实验验证。其次,单细胞测序数据集的样本数量有限,无法充分反映RIF患者分泌期子宫内膜的状况。


综上所述,本研究基于转录组和单细胞测序数据的综合分析,采用机器学习的方法,筛选了与反复种植失败相关的关键基因。同时,本研究也探讨了关键基因在RIF患者子宫内膜细胞群中的表达模式以及它们与免疫浸润的关系。这些特征基因在预测RIF方面表现良好,并为理解其分子发病机制提供了线索。


参考文献 略


来源:《中国实用妇科与产科杂志》2024年8月 第40卷 第8期

(本网站所有内容,凡注明来源为“医脉通”,版权均归医脉通所有,未经授权,任何媒体、网站或个人不得转载,否则将追究法律责任,授权转载时须注明“来源:医脉通”。本网注明来源为其他媒体的内容为转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。)

0
收藏 分享