作者:周甲丰, 韦雨馨,
放射报告是临床决策的核心依据,其准确性和一致性对于患者治疗至关重要。然而,由于工作负荷繁重、时间紧迫以及语音识别技术局限性等因素,放射报告中常常出现错误[1-3]。这些错误可能导致临床决策失误,进而影响患者的治疗效果,甚至导致医疗事故诉讼[4-5]。
随着医疗技术的不断进步和人工智能的快速发展,大语言模型(large language models,LLMs)在医疗领域的应用日益广泛[6-8]。LLMs可以学习复杂的语言模式,并生成流畅、连贯的文本,其在医学文本处理领域展现出革命性潜力。多项研究证实LLMs的使用可以辅助报告工作流程,包括自动提取重要信息,将自由文本转换为结构化的报告和提出相关的鉴别诊断等,帮助放射科医生减少工作量并提高工作效率[9-12]。有研究发现LLMs能够有效检测并纠正放射报告中的错误,从而提高医疗报告的准确性[13-15]。然而,目前的研究大部分基于英文数据集或人为构建的模拟错误,缺乏对非英语医疗场景及真实临床实际应用的系统评估。中文放射报告因其独特的语言结构和本土化规范要求,亟需探索LLMs的领域适配优化方案,以提升其在真实临床场景的泛化能力。
本研究基于真实临床场景中文放射报告错误的数据集,系统评估经提示词工程优化后LLMs的错误检测能力,为推进AI辅助质量控制提供实证依据。
1 资料和方法
1.1 研究设计和数据
本研究已通过医院伦理委员会审查批准[(2025)伦审第R084号]。回顾性收集2023年1月至2024年6月在温州医科大学附属第一医院放射报告系统内提交修改的放射报告。报告涵盖身体各个部位(头、颈、胸、腹、盆腔、脊柱、四肢等)及不同检查类型(X线、CT和MRI)。报告中的错误均来自医生在临床实践过程中产生的疏忽,而非人为造成。如图1所示进行纳排。为保护患者隐私,报告中所有与个人信息相关的内容都被去除,仅保留与临床部
分相关的信息(报告时间、报告医生年资、检查部位、检查成像类型、检查模式及检查部位个数)。根据医生年资分为四组:<5年、5~10年、11~15年及>15年。将报告时间段根据实际上班情况划分为:8时-12时(上午工作时段)、13时-17时(下午工作时段)、18时-次日7时(夜间值班时段)。再收集100份有错误的报告和100份没有错误的报告组成外部验证。
1.2 报告标注
报告标注由一位低年资放射诊断医生(工作年限6年)、高年资放射诊断医生(工作年限17年)和LLMs共同完成。在标注前确保医生已学习过放射报告错误检测相关文献[1,5],并由高年资放射诊断医生对低年资放射诊断医生关于本院放射报告中常见错误进行培训。随机抽取100份有错误的报告,让低年资和高年资医生同时在不同的房间独立完成标注,采用Cohen’s Kappa (K)测量其一致性,本研究K=0.726(95%CI=0.565~0.868)。首先由低年资放射诊断医生独立完成所有报告里的错误标注,然后将标注好的报告通过基础LLMs检测,判断报告里存在错误是否已经标注完成,并输出判断依据,最后由高年资医生对所有注释结果进行复核,手动修正出现标注错误及遗漏错误,确保报告中的错误被完全发现。
采用“单份报告、单次对话、无上下文累积”的方式调用模型,且未使用任何跨报告提示或记忆机制。LLMs 在每轮调用中不会获取其他报告或标签信息。LLMs仅作为静态标注辅助工具参与,其模型参数在整个过程中保持冻结状态,不进行任何形式的训练或微调。标注阶段产生的所有交互数据均严格限制在推理层面,不会通过梯度回传影响模型参数更新。该设计确保标注过程中LLMs的知识表征能力保持不变,从根本上避免了因数据泄露而对后续测试集评估结果造成的潜在影响。另外,LLMs仅作为错误候选工具,不参与最终标注决策,其输出结果还需经人工审核,且高年资医生有权否决LLMs的标注建议,最大限度地避免模型偏倚的引入。
参考以往的文献[16-17],将错误类型分为:①遗漏:影像所见或诊断结论缺失;②增加:报告中多余的词、句子及结论;③错别字:错误字或词;④侧别错误:位置出现偏差,如左右或上下写错;⑤其他:不符合上述类别的错误,包括错误的日期输入、图像和(或)序列编号错误、测量单位的错误(如cm对
mm)和标点符号错误。将错误严重程度标记为临床显著错误和非临床显著错误。临床显著错误是指那些可能改变报告原意并具有被临床医生误解的风险,如不一致的陈述、关键词汇的遗漏以及错别字等。非临床显著错误:不影响核心医疗信息传递的表述问题。
1.3 实验设计
如图2所示,本研究基于真实场景数据集,通过多轮提示词工程迭代优化模型性能,并横向对比国际主流模型:GPT-4、GPT-4o (Open AI)及基于中文语料训练的模型:Deep Seek-V3、Deep Seek-R1等不同模型在同一优化策略下的表现差异。另外收集包含有无错误的报告数据集进行外部验证,并评估模型的性能。这样的数据集更符合临床实际场景,更能反映LLMs在临床实际中的应用情况。结果处理环节构建自动化比对框架:基于Python开发标准化输出解析系统,包括提取医生标注的金标准标签;提取LLMs的结构化输出;实现对LLMs的结果与标签的匹配,并计算准确性。匹配异常结果均进行人工复核。

1.4 模型优化
1.4.1 提示词工程 首先明确要求LLMs扮演专业放射科医生角色,并设定其核心任务为识别放射报告中的错误,以强化模型对任务目标的认知。随后通过错误分类标准为每个错误类别界定检测范围,结合思维链技术并融入易混淆错误的示例,增强LLMs的错误分析能力。为了增强LLMs在字符级
错误识别方面的能力,引入分级检测指令,为LLMs的检测过程提出更为细粒化的要求。如要求模型“将报告按句子拆分后逐句审核”并“按解剖部位和医学术语分类核查”等。在对同一份报告进行3次测试并获得一致结果的基础上,将模型的温度统一设定为0.4。由于LLMs会产生自动修正诊断内容的“幻觉”现象,所以我们明确设置“禁止修改原始报告内容”的约束条件,以减少此类幻觉现象的发生。通过这些指令和限制,可有效提升模型在字词层面的错误识别精度。提示词在实验探索过程中不断调整与优化,直至模型不再有明显提升。
1.4.2 代码框架 从原始数据中提取人工标注的标签,并将报告文本逐条输入模型。随后提取模型输出结果并去重,并与人工标签进行匹配。为降低因标签长度或文本表述差异引起的完全匹配失败,本研究基于Knuth-Morris-Pratt算法采用部分字符串匹配策略,允许模型输出与标签在字符层面存在一定程度的重叠。此外,我们对匹配与不匹配的结果数量进行统计;对于错误个数大于匹配数量的样本,进行人工核查以确保评估结果的准确性。提示词模板及代码框架见图3。
1.5 统计学处理方法
使用Python版本3.9.6和SPSS 23.0进行统计学分析。用错误检出率评价模型性能,用χ2检验比较GPT-4、GPT-4o及DeepSeek-V3与DeepSeek-R1在整体和不同亚组上错误检出能力,用Cramer's V系数表示效应量。在外部验证组部分增加准确率、精准率、召回率、F1分数和假阳性率,以更综合评价模型。P<0.05表示差异有统计学意义。

2 结果
2.1 一般情况
总共有4 480份在放射报告系统内提交错误修改的报告,经过筛选后,共1 263份放射报告纳入本研究进行标注。其中X线报告26份,CT 1 163份,MR 74份;主要发生在13时-17时,共670份(53.0%),此外发生在8时-12时319份,18时-次日7时274份;提交修改申请的医生以工龄大于15年的为主,为600份(47.5%),工龄11~15年的382份,5~10年223份,<5年的58份。经高年资医生复核(表1),最终错误分布较复核前变化如下:“遗漏”错误减少30个,“增加”错误增加了9个,“错别字”减少17个,“侧别错误”增加41个,“其他”错误增加1个。复核后共有1 431个错误,临床显著错误807个,占56.4%,非临床显著错误624个,占43.6%。
2.2 错误检测
如表2所示,DeepSeek-R1的整体错误检出率显著高于另外三个模型(均P<0.05)。在不同类型错误分析中,DeepSeek-R1在遗漏、增加、错别字、其他类型错误中的检出率分别为88.6%、80.9%、86.1%、93.5%,显著高于另外三个模型(均P<0.05);在侧别错误类型中检出率为96.0%,仅显著优于GPT-4和DeepSeek-V3(均P<0.05)。
表3显示的是不同亚组的错误检出率对比。在不同检查部位上,DeepSeek-R1在头部、胸部、其他部位上的检出率分别为97.4%、92.1%、86.4%,显著高于另外三个模型(均P<0.05);在腹部上的检出率为85.9%,仅高于GPT-4(P<0.05)。在不同检查类型、不同检查模式、检查部位数量和错误严重程度上,DeepSeek-R1都显著优于另外三个模型(均P<0.05)。 2.3 外部验证
外部验证组里含有100份无错误报告和100份含有120个错误的报告。DeepSeek-R1拥有最高的错误检出率、准确率、精准率、召回率、F1分数,以及最低的假阳性率,显著优于另外三个模型(均P<0.01),见表4。
3 讨论
本研究发现通过多轮提示词工程迭代优化的LLMs,尤其是DeepSeek-R1在检测真实临床场景中文放射报告里的错误时表现出优异的性能。DeepSeek-R1的整体错误检出率为88.6%,显著优于GPT-4、GPT-4o和DeepSeek-V3。亚组分析显示:DeepSeek-R1的错误检出率在遗漏、增加、错别字及其他类型错误中要显著优于另外三个模型,在侧别错误类型中,仅显著优于GPT-4和DeepSeek-V3;在头部、胸部及其他部位上都显著优于另外三个模型,在腹部上仅显著优于GPT-4;在不同检查类型上、不同检查模式、检查部位数量和错误严重程度上都显著优于另外三个模型。在外部验证组中DeepSeekR1的错误检出率为89.5%,显著优于另外三个模型,且拥有最低的假阳性率(3%)。这一发现将有助于将LLMs集成到放射工作流程中,提高放射科医生的工作效率。
本研究分析了包括国际主流模型和基于中文语料库训练的模型[1,18],用于检测中文放射学报告中的错误,从而拓展LLMs在非英语环境中的应用。本研究的数据集涵盖1 263种不同影像学检查方式及解剖区域的中文放射报告,里面包含1 431处自然发生的错误。与英文报告相比,中文报告具有独特的术语体系、句式结构和临床规范化要求,容易存在分词歧义、术语简写变异、量词缺失等情况[19]。报告内常存在缩写、拼音缩略或混用英文符号(如“Ca”指癌症)、量词或单位的省略(如见2 cm结节)、范围符号不统一(“-”、“~”、至),大大增加了模型理解难度。因此,亟需设计一个适配本土临床场景的LLMs解决方案。为了更好地适应中文放射报告的要求,本研究通过创新性提示词工程策略进行领域适配优化,提升大模型与医生知识的对齐程度[12], 以优化其在真实临床场景的泛化能力。本研究发现DeepSeek-R1的整体及外部验证数据集的错误检出率分别为88.6%和89.5%,显著优于另外三个模型,并且优于Yan等[20]研究发现的LLMs在中文超声报告的错误检出率52%。DeepSeek-R1为6 710亿参数中文专用模型,61层Transformer嵌入多头潜在注意力与混合专家层,预训练含高质量中文医学语料并显式嵌入放射术语,故在中文放射报告错误识别中表现优异[18]。而GPT-4虽拥有1.76万亿参数MoE架构,但训练数据以英文为主(中文<15%),无公开医学优化,对中文医学场景需额外微调,因而效能稍逊[20-21]。我们可将DeepSeek-R1集成至放射学报告系统,通过在医疗机构本地部署,既保证高性能又符合隐私合规要求,从而有效处理临床实践中的真实医疗数据。
本研究的重要进展在于使用了真实临床场景的数据,而非既往研究中普遍使用的人工构建或合成的数据。Gertz等[1]通过在100份报告中人为插入150个错误,发现GPT-4的错误检出率与放射科医生相当。Sun等[5]利用GPT-4合成数据集发现经过微调后的LLMs显著提升了放射学报告中的错误检测能力。尽管这样能避免现实世界数据中存在的偏见和隐私问题,但它们可能会产生新的偏见,如低泛化能力和过拟合[1,22]。另外,生成的数据集具有透明度低、人为偏见持续存在、验证困难以及未能涵盖日常放射报告中广泛存在的错误的风险,导致实际临床应用时出现性能不佳的情况[16,23]。本研究的错误都是来源于放射科医生的临床日常工作,这使得LLMs能更容易地从实验阶段跨度到临床应用。另外,LLMs已有能力自动生成放射科报告,而错误检测是创建准确放射报告的一部分[24],将该优化的错误检测模型整合到自动生成模型中,使得自动生成的放射报告准确性更高。
LLMs的幻觉现象是制约模型临床应用的关键[ 12]。为缓解该问题,本研究通过降低温度超参数值及添加限定语句等方法进行干预。为确保模型输出的稳定性,本研究采用重复性验证策略,对同一份报告进行3次独立测试,在确认结果一致的前提下,最终将模型温度参数设定为0.4。在此基础上,进一步通过设置约束条件(如禁止修改原文),并强制模型逐句分析文本,以减少长上下文可能带来的歧义。尽管上述方法对缓解幻觉现象有所帮助,但仍无法从根本上消除该问题,最终输出结果均需由专业人员审核确认。为减少对人工复核的依赖,本研究尝试引入基于模型自身输出概率的置信度评分机制,即通过模型对生成结果的“信心”辅助判断其准确性。然而实验发现,置信度分数较高的输出虽然在表面上更为合理,但其与实际正确性之间并无显著相关性,高置信度输出中仍可出现明显的幻觉现象,例如模型会以高置信度生成一些虚假信息或与上下文不符的内容。这一现象表明,置信度评分仅能反映模型对自身结果的“确定性”,但并不一定代表其“正确性”,模型输出结果仍需要人工审核。我们认为,未来可从以下方面进行进一步优化:①多模态融合:除了模型自身的输出概率外,可以引入其他信息源(如医学影像图片)来进一步提升错误检测的可靠性[25],通过多维度信息综合判断,减少因信息缺失导致的幻觉。②模型微调与监督优化:通过针对性的模型迭代与监督微调,进一步提升其在专业领域的输出稳定性与准确性[26]。③采用多个LLMs作为专家系统对输出结果进行置信度评估[27],此类协同监督机制可为可靠性评价提供更丰富的调控维度,逐步增强模型对实际正确性的判断能力。
本研究存在以下局限性:①本研究为纯文本研究,部分需要通过图像来判断是否存在错误的报告被排除,这可能会减弱模型的适用范围。②虽然模型优化能提高性能,但也引入了非标准化,在不同模型上的效果可能存在差异。③本研究为单中心研究,可能引入特定机构的语言风格、临床流程及专业术语偏倚,从而限制模型在多机构或方言语境下的适用性。
综上所述,本研究基于临床实践来源的真实数据发现经过领域优化的LLMs(如DeepSeek-R1)能够高效检测中文放射报告中的错误,可作为放射工作流程的智能质控工具。然而,LLMs当前仍存在幻觉风险,临床部署时须保留人工复核环节。未来我们将构建多中心中文放射报告数据库,系统性评估模型在不同报告风格、人口结构和语言表达习惯下的表现稳定性与迁移能力,并探索多模态LLMs在图文一致性校验中的应用。
参考文献略。
来源:周甲丰, 韦雨馨, 陈勇春, 等. 大语言模型在真实临床场景中文放射报告错误检测中的应用[J]. 温州医科大学学报, 2026, 56(5): 420-426.