基于深度学习的图像生成技术在跨模态医学图像生成中的应用进展_深度学习_跨模态医学图像_影像科

基于深度学习的图像生成技术在跨模态医学图像生成中的应用进展

发布时间：2026-05-19 | 来源：医学影像学杂志

关键词：深度学习跨模态医学图像影像科

作者：武丹阳，王宝，刘波，何敬振，山东大学齐鲁医院放射科

医学图像生成是指利用计算机技术，根据一定的规则和模型，生成具有医学意义的医学影像数据的过程。通过利用已有的医学影像数据，生成新的或改进的医学影像数据，可以有效地扩充和丰富医学影像数据集，弥补医学影像数据量不足、分布不均衡、模态不完整及不一致等问题。

深度学习（deep learning，DL）是人工智能的一个重要分支，其在各种医学复杂任务中均表现出令人满意的效果和潜在的临床应用价值，在涉及图像的任务中效果更优。近年来，随着医学影像技术的进步和DL算法的不断发展，DL在医学图像处理中的应用逐渐增多。利用DL技术来模拟真实的医学影像数据，增强医学影像数据集的多样性和质量，已成为一个重要而有意义的研究方向。本文就基于DL的图像生成技术在跨模态医学图像生成中的应用进行综述。

1.　DL 与生成对抗网络（generative adversarial networks, GANs）

DL是机器学习的一个子集，其灵感来自人脑中的信息处理模式。DL不需要根据任何人为设计的规则进行操作；相反，它使用大量数据将给定输入数据集映射到特定标签。在基于DL的医学图像人工智能研究热潮中，卷积神经网络（convolutional neuron network，CNN）发挥了重要作用。但由于其网络结构特点的限制，CNN在图像生成任务中尚不能达到完美的应用效果。随着研究的深入，最早为解决图像生成任务而设计的新型人工神经网络——GANs逐步推广至图像重建、分割、分类等领域。

近年来，GANs在医学图像生成任务中得到广泛应用，效果超越传统的重建算法和其他 DL 算法，成为图像生成领域的研究热点。GANs是一种生成式DL模型，用于生成具有逼真度的新数据，例如图像、音频和文本等类型的数据。通过训练两个相互竞争的网络——生成器和判别器，GANs可以生成高质量、逼真的目标解剖图像。

GANs的关键创新在于利用生成器和判别器网络之间的竞争来获得高质量的合成数据。生成器网络通过试图欺骗判别器来学习生成更逼真的数据，而判别器网络通过试图正确地将样本分类为真实或合成的方式，学习改进原始数据和合成数据之间的区别。通过这一过程，两个网络同时得到改进，直到生成器产生与真实数据非常接近的高质量合成数据。在GANs的框架下，有多种常见的变体和扩展，但条件生成对抗网络（cGAN）框架似乎比传统GANs 框架生成效果更优，cGAN 的两种主要类型是像素对像素生成网络（pix2pix）和循环生成对抗网络（Cycle‑GAN）。

2.　基于生成对抗网络的图像生成技术在医学影像学中的应用

从目前的研究归纳来看，图像生成技术在医学影像学中的应用主要集中在两个大方向：一是同源图像质量提升，即从低质量医学图像生成同模态的高质量医学图像，比如从低剂量低分辨率CT生成高分辨率CT；二是跨模态图像之间的转化，包括同种设备中结构图像到功能图像的转化和不同设备图像之间的转化。跨模态图像之间的转化是目前研究的热点，也是本文汇总介绍的重点。

2. 1　从CT图像生成MR图像

与CT检查相比，MRI检查没有电离辐射且软组织分辨率更高，这些优势在儿童和孕妇群体中更明显。然而，MRI检查禁忌证比CT检查更多，且MRI扫描时间较长，躁动的患者往往也难以获得合格的医学图像。这些挑战促使人们有了基于CT图像生成MR图像的动机，而生成对抗网络的发展为该领域带来更多可能性。

GOTOH 等使用Keras 平台实现的改进cGAN（pix2pix网络）来生成虚拟脊柱MR图像，然后将生成的图像与患者的原始MR图像进行比较。研究发现在合成图像中，椎体和椎间盘具有临床可接受的图像质量［峰值信噪比（PSNR）： 18. 41］。HONG等使用虚拟图灵测试进一步证明了真实腰椎MR图像和生成腰椎MR图像之间的高度相似性，该研究采用基于CNN为生成器和对抗训练模式的合成方法，从腰椎CT扫描图像中生成MR图像，其中DL过程分为无监督、半监督和有监督方法。

研究发现在图灵测试中，放射科医师难以区分真实图像和GANs模型生成的图像，特别是由监督模型生成的图像［结构相似性指数（SSIM），0. 52； PSNR，15. 98］。FENG等提出了一种结合影像组学和GANs的从急性缺血性卒中CT到MR的跨模态图像生成算法，研究结果表明生成的MR图像与真实的 MR图像相似度极高（PSNR，70. 803；SSIM，0. 783），而且病灶位置准确，病灶形状与真实病灶相似，可以帮助医师及时诊断和治疗。

JIANG等设计了一种跨设备和跨模式的医学图像合成方法Cross2SynNet，用于从CT中合成中风和脑肿瘤的常规脑MRI 序列。Cross2SynNet建立在条件生成对抗网络的基本架构上，结果表明，从CT 合成MRI 时，Cross2SynNet 具有优秀的图像生成效果（PSNR，21. 73；SSIM，0. 76），且优于其他常见的DL生成模型（如CycleGAN、pix2pix等）。值得注意的是，即使急性缺血性中风患者的 CT 图像上没有明确的异常密度灶，基于Cross2SynNet生成DWI可以发现明显异常信号，与真实DWI一致，研究结果对于中风和脑肿瘤等脑部病变的诊断和临床路径管理具有重要意义。

2. 2　从MR图像生成PET图像

PET 是目前唯一可在活体上显示生物分子代谢、受体及神经介质活动的新型影像学技术，现已广泛用于多种疾病的诊断与鉴别诊断、病情判断、疗效评价、脏器功能研究和新药开发等方面，具有灵敏度高、特异性高和全身显象的优势。但是PET具有电离辐射，且信噪比较低。PET中的放射性示踪剂剂量是影响图像质量和信噪比的重要因素，减少给予患者的放射性示踪剂会导致PET 图像信噪比降低。因此，将低剂量示踪剂产生的高噪声PET图像作为输入，产生低噪声PET 图像作为输出是解决PET图像目前应用的困境的方向之一。然而，前沿研究是基于纯粹的MR图像生成PET图像，以期尽量规避PET的劣势。

HU等提出了一种3D端到端生成对抗网络来从常规脑MR 图像生成脑18F-FDG PET 图像，为了弥补合成图像与真实医学图像之间的差距，引入了双向映射机制，以促使生成器在保留不同受试者大脑结构细节的同时合成感知上真实的PET图像。定性和定量实验表明，该方法可以有效地从MR图像合成PET 图像，其性能优于其他常规合成方法。

TAKITA 等通过基于GANs的图像到图像生成模型，从对比增强磁共振生成氨基酸PET图像，并将其与真实PET在胶质瘤分级和预后方面的性能进行比较。生成PET图像和真实PET图像上肿瘤氨基酸最大和平均摄取/背景比（分别为TBRmax 和TBRmean）的Pearson相关系数，在内部测试集中，TBRmax、TBRmean和病变体积的Pearson 相关系数分别为0. 68、0. 76和0. 92。结果表明基于GANs生成的氨基酸PET图像与真实PET图像之间相关性强，对胶质瘤分级和预后有较好的效果。

2. 3　MRI序列间跨模态图像生成

多模态、多参数是 MR图像最大的特点，多模态数据可以为临床诊断提供更充足的依据，确保诊断结果的可靠性，但是模态缺失是临床影像学经常遇到的困境，包括图像质量不合格导致的图像缺失和扫描过程中模态未采集导致的图像缺失。基于GANs的图像生成模型逐步在MR图像多模态重建任务中凸显优势，该方法可以充分利用多模态间的共享信息，实现跨模态图像生成和模态图像补全。

WANG等训练了特征一致性GANs和仅具有平均绝对误差损失的三维编码器-解码器网络两种算法来合成脑血流量（cerebral blood volume，CBV）图（最优模型SSIM，0. 863），采用多中心数据集，在几种临床情景（胶质瘤分级及预后预测、放射性改变与肿瘤复发鉴别）中评估合成CBV图与常规MRI相结合的临床价值。BENZAKOUN等利用弥散加权成像和GANs 生成T2 加权液体衰减反转恢复（T2-FLAIR）序列。研究发现生成T2-FLAIR 在描述DWI- FLAIR不匹配和帮助识别早期急性缺血性脑卒中方面具有与真实T2-FLAIR 相似的诊断性能。

FINCK等使用具有菱形拓扑架构的生成对抗网络从常规MRI序列（T1、T2 和T2-FLAIR）生成双反转恢复图像，结果表明与T2-FLAIR图像相比，生成的双反转恢复图像可以检测到更多的病变。SCHLAEGER等使用GANs从脊柱常规T1WI和T2WI图像合成了脂肪信号抑制T2WI（FS-T2WI）图像，研究表明，与真实的FS-T2WI图像相比，生成FST2WI图像具有更好的图像质量，且较少受到伪影的影响。其他有关脊柱生成FS-T2WI图像的研究报告了相似的研究结果。该研究模式在其他医学影像细分领域也得到了类似的结果，即生成的脂肪信号抑制序列具有更高图像质量和临床价值，如生成前列腺MR图像等。

2. 4　从平扫图像生成增强图像

在现代医学影像诊断中，增强扫描技术广泛应用于CT、MRI 等多种成像方式中。外源性对比剂（如碘剂、钆剂等）能够显著提高图像的对比度，从而为疾病的诊断和治疗提供更准确的信息。但是对比剂可能会导致不同程度的过敏反应，重者甚至休克、呼吸心跳骤停，此外，对比剂也可能导致不可逆的肾损害。因此，在增强图像不可获得的情况下，寻找新的方法来替代外源性对比剂的医学成像诊断能力，在当前的临床实践中具有极其重要的意义。已经有研究表明GANs可以从平扫图像生成增强图像，在解决该临床困境中展现出了巨大潜力。

LYU 等建立了一种基于GANs 的CT 血管造影（CTA）生成模型（Syn-CTA）用于从颈部和腹部的平扫图像生成对应的 CTA图像，研究结果显示，Syn-CTA图像与真实CTA图像具有高度相似性，在视觉质量和诊断准确性方面表现出相当的效果（准确性分别达到94% 和86%）。PREETHA 等使用多个中心的胶质母细胞瘤MRI数据，以从T1WI、T2WI和T2-FLAIR序列生成增强T1WI序列，结果表明生成的增强T1WI序列的中位SSIM评分为0. 818，与真实后对比序列的肿瘤体积具有强线性关联（协调相关系数为0. 782，P<0. 0001）。其他有关胶质母细胞瘤基于DL方法生成增强图像的类似研究同样获得了良好的结果。

3.　挑战与局限性

尽管DL 在跨模态医学图像生成与补全领域显示出巨大的潜力，但也面临严峻的挑战。首先，与自然图像数据集动辄上十万甚至百万样本不同，医学图像的数据集通常认为是小样本数据，所谓大型样本数量也很少超过万例，这与深度神经网络需要大量样本进行训练来提升生成的效果相悖，此外用于训练的数据往往来自于少数中心甚至单个中心，对模型在外部数据集上的迁移能力造成挑战。尽管针对医学小样本数据进行训练模型的设计和改进有助于提升模型的生成效果，但是来自多中心的大样本数据仍然是解决该问题的首选方案。

其次，模型和结果的可解释性问题逐渐被重视。这里的可解释性分别是针对神经网络基础研究人员的数理可解释性问题和针对医学研究人员的生物医学可解释性问题。深度神经网络模型被称为黑匣子模型，即整个训练过程不可知，数学理论的可解性较差；因此，前沿研究多希望把数理可解性强的算法整合进生成对抗模型的大训练框架中，以提升模型和结果的数理可解释性，如Kolmogorov-Arnold 网络。针对生物医学可解释性问题，对于医学研究人员，同模态之间图像生成的接受度要明显高于跨模态的图像生成的接受度，基于功能图像生成功能或代谢相关图像接受度要高于基于常规结构图像生成功能或代谢相关图像。

因此，以结构图像和功能图像共同作为训练数据集，基于数理可解释性强的深度神经网络进行训练是未来研究的趋势。最后，模型在临床任务中价值的验证工作需要进一步加强。图像生成的模型最终要服务于临床任务，临床任务的价值评估是一个不可缺失的纬度。目前涉及的临床任务是比较浅表的，一是样本数量低，二是临床任务较容易，往往有其他影像学方法可以取代。因此，未来的研究在临床任务价值验证时需要增大样本量并选择更核心或更具临床意义的临床问题。

4.　小结与展望

基于DL的图像生成技术在跨模态医学图像生成与补全中发挥着重要作用，本文综合归纳了近年来基于DL生成对抗网络的图像生成技术在跨模态医学图像生成与补全中的应用。生成医学图像与真实医学图像往往具有极高的相似度和图像质量，能为医学影像学相关的诊断与鉴别诊断、分级和预后评估提供额外的重要信息，进而辅助临床决策。未来的图像生成研究应该集中于多中心大样本数据、数理可解释性和生物医学可解释性更强的模型、更核心的临床任务。

来源：武丹阳,王宝,刘波,等.基于深度学习的图像生成技术在跨模态医学图像生成中的应用进展[J].医学影像学杂志,2025,35(04):125-128+132.DOI:10.20258/j.cnki.1006-9011.2025.04.031.

(本网站所有内容，凡注明来源为"医脉通"，版权均归医脉通所有，未经授权，任何媒体、网站或个人不得转载，否则将追究法律责任，授权转载时须注明"来源：医脉通"。本网注明来源为其他媒体的内容为转载，转载仅作观点分享，版权归原作者所有，如有侵犯版权，请及时联系我们。)