你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Radiology Insights 的透明度说明

2025-06-22

什么是透明度说明？

AI 系统包括技术、受其影响的人以及部署该系统的环境。创建适合预期目的的系统需要了解技术的工作原理、有哪些功能和限制，以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为，以及保持系统全局观（包括技术、人员和环境）的重要性。你可以在开发或部署自己的系统时使用透明度说明，或者与使用你的系统或受其影响的人员共享透明度说明。 Microsoft 的透明度说明是将 Microsoft 的 AI 原则付诸实践的更广泛努力的一部分。若要了解详细信息，请参阅 Microsoft AI 原则。

Radiology Insights 的基础知识

介绍

放射学见解 （RI）是一个模型，旨在提供质量检查作为错误和不一致（不匹配）的反馈，并有助于使用报告的完整上下文来识别和传达关键发现。另外还可以确定后续建议和放射科医生记录的测量（尺寸）的临床发现。

放射学见解是一种内置的 AI 软件模型，在 Project Health Insights Azure AI 服务中提供
放射学见解不提供外部参考。作为健康洞察模型的一部分，放射学洞察对提供的输入进行推理，并可用作深入理解模型结论的参考。

Azure Health Insights 的 Radiology Insights 功能使用自然语言处理技术来处理非结构化医学放射学文档。它添加了多种类型的推论，帮助用户在放射工作流程环境中有效监控、理解和改善财务和临床效果。系统当前支持的推论类型有：AgeMismatch、SexMismatch、LateralityDiscrepancy、CompleteOrderDiscrepancy、LimitedOrderDiscrepancy、Finding、CriticalResult、FollowupRecommendation、RadiologyProcedure、Communication。

这些推理可用于支持临床分析或在文档创建过程中提供实时帮助。

RI 可实现对放射学工作流数据的分解和分析，并创建重要的见解，从而产生可操作的信息。
RI 通过生成有意义的见解来分析过去并改进未来，这些见解揭示了需要干预的优势和精确领域。
RI 支持创建质量检查和自动化的内联警报，以查找不匹配情况和可能的严重发现。
RI 通过 AI 驱动的自动化指导支持和质量检查，提高了后续建议的一致性，从而推动基于证据的临床决策。

放射学洞察可以接收英文的非结构化文本，作为其当前产品的一部分，并使用健康文本分析（TA4H）进行命名实体识别（NER），提取已识别实体之间的关系，体现否定和条件等断言，并将检测到的实体链接到常见词汇。

关键术语

术语	定义
文档	RI 模型的输入是放射学临床文档，在叙述信息旁边还包含包含患者信息和过程顺序规范的元数据。
形式	形式是指用于捕获身体医学图像的特定成像技术或技术。每种形式采用不同的物理原理（如X射线、声波或磁场）来生成有助于诊断和治疗的图像。
推理	RI 模型的输出是添加到已处理文档中的推理或批注列表。
AgeMismatch	当元数据和叙述文本中的年龄信息不一致时，将触发注释。
SexMismatch	当元数据和叙述文本中的性别信息（包括患者参考资料、特定于性别的发现和特定于性别的身体部位）之间存在差异时，会触发注释。
LateralityDiscrepancy	当元数据和叙述文本中的偏侧性信息之间或报告文本中的发现和印象部分之间存在差异时，会触发注释。
CompleteOrderDiscrepancy	根据已对完整研究进行排序的元数据中的信息，报告文本不包含所有相关的正文部分时，会触发注释。
LimitedOrderDiscrepancy	根据元数据中存在的过程顺序，应检查有限的身体部位选择，但报告文本包括所有相关的身体部位时，会触发注释。
发现	用于识别并突出显示与报告文本中发现的临床相关概念有关的临床信息集合的注释。
CriticalResult	用于识别和突出显示报告文本中应根据法规合规性在特定时间限制内传达的发现结果的批注。
后续建议	用于识别和突出报表文本中的一个或多个建议，并对每个建议进行规范化，以纳入一组结构化数据字段。
放射学检查程序	使用 Loinc/Radlex 代码规范化元数据中存在的过程顺序信息。
通信	用于识别并突出显示是否严格或不严格地与收件人沟通报告文本中指出的结果的注释。
临床指南	临床指导可以被视为决策树，提供基于证据的指南（ACR 指南^{1^{和 Fleischner 社会指南²）的结构化方法，以帮助医疗保健提供者为临床条件做出最合适的成像或治疗决策。该模型显示文档中的关键信息来馈送决策树，例如，建议一个或多个候选建议。}}
质量度量值	该模型评估在执行医疗程序时是否符合质量指标表现的要求。质量衡量性能可通过呈现文档中的证据和/或文档缺乏证据来解释。
风险评分和评估	风险评分和评估系统用于医学成像和诊断，以标准化临床发现评估和报告。模型会呈现关键评分以及评估风险，它们的值由放射科医生在放射记录或报告中口述。

能力

系统行为

放射学见解将多种推理/批注添加到原始放射学临床文档中。文档可以触发一个或多个批注。一个文档中同一批注的多个实例是可能的。

AgeMismatch
SexMismatch
LateralityDiscrepancy
CompleteOrderDiscrepancy
LimitedOrderDiscrepancy
发现
CriticalResult
后续建议
放射学检查程序
通信
临床指南
评分和评估
质量度量值

具有推理的临床放射学文档示例：

范围和示例中的推论的功能描述

年龄不匹配

通过比较患者人口统计数据与报告中提供的患者年龄信息来识别年龄不匹配。文本中标记了冲突的年龄信息。

具有年龄不匹配的放射学文档的屏幕截图。

性别不匹配

识别性别不匹配基于两方面的比较：一方面是患者人口统计元数据中的性别信息，另一方面是患者参考、性别特定的发现以及文本中特定于性别的身体部位。文本中标记了冲突的性别信息。

横向差异

偏侧性，定义为“左”(Lt，lft) 和“右”(rt，rght)，以及元数据过程顺序的过程描述中的解剖结构（身体部位），用于在报告中创建偏侧性不匹配。过去的内容没有不匹配。如果程序描述中只提供了偏侧性而没有提供解剖结构，则文本中所有相反的偏侧性都会被标记。例如：程序描述中的“左视图”将列出报告文本中的所有“右”字。

CompleteOrder Discrepancy

如果排序的程序是腹部、腹膜后、骨盆或乳房的超声检查，则可能会出现完整性不匹配。如果顺序完整而文本不完整，则会出现完整性不匹配，反之亦然。

LimitedOrder Discrepancy

查找

“发现”是基于 NLU 的临床信息的程序集，与医学记录中发现的临床相关概念有关。它被设计为不依赖于任何应用程序。发现推论由不同的字段组成，所有字段都包含用于组合发现内容的完整概述的一部分。
发现可以由以下字段组成：临床指标、有关尺寸的 AnatomyLateralityInfo、敏锐度、严重性、原因、状态、多重检查、区域特征、计时

关键结果

识别并突出显示报告中指出的潜在关键结果。识别并突出显示报告中所述的潜在 ACR 可操作发现。仅标识报告文本中的关键结果（不在元数据中）。这些术语基于 Mass Coalition for the Prevention of Medical Errors：http://www.macoalition.org/Initiatives/docs/CTRstarterSet.xls。

后续建议

此推论表明可能需要安排一次问诊。每个建议都包含一个形式和一个正文部分。此外，它还包含时间、偏侧性、一个或多个发现以及条件短语存在的指示（真或假）。

Cfr 性别不匹配示例

RadiologyProcedure

Radiology Insights 从过程顺序中提取信息，例如形态、身体部位、偏侧性、视图和对比度。使用 LOINC/RSNA 放射学手册（由 LOINC/RadLex 委员会开发和维护）的 Loinc 代码对有序程序进行标准化：http://playbook.radlex.org/playbook/SearchRadlexAction。

通信

RI 捕获文本中的语言，通常是表示沟通的谓词与专有名称（典型的名字和姓氏）或提及某位临床医生或护士。可以有多个此类收件人。与非医务人员（秘书、文员等）的沟通不会被标记为沟通，除非提及此人的正式姓名。标识为过去通信（例如历史记录部分）或未来通信（例如“将传达”）的语言未标记为通信。

Cfr 性别不匹配示例

临床指南

临床指导可以被视为决策树，提供基于证据的指南（ACR 指南^1-4 和 Fleischner 社会指南⁵）的结构化方法，以帮助放射科医生为未来的行动做出最合适的决策，如选择特定的成像研究及其时机。

该模型从文档中提取临床查找信息，以检索所需的关键信息来馈送决策树。完成树节点后可能会提出一个或多个候选建议。多个临床发现实例可以触发相同的临床指导。在这种情况下，临床发现根据存在的所需关键信息量从高到低排名。

该模型根据报告中的发现所识别出的指南，按照其指导树逻辑提出候选建议。这些建议在形式、解剖、横向和时间范围内进行了标准化。如果找到的树节点导致多个过程，模型将为每个过程提供单独的候选建议（例如 CT、PET CT 或组织采样建议）。该模型还将提供有关临床发现的缺失信息，以防模型无法提出候选建议。如果放射科医生选择记录这些缺失的详细信息，模型将提供其他建议。

除了候选建议外，ACR 临床指南还可以建议分数或阶段，指示某些临床条件的严重性或进展。例如，甲状腺影像报告和数据系统 (TI-RADS) 指南⁵ 的每项必要的关键信息都被赋予一个评分，总评分决定分类。根据类别，可以建议候选建议。

在下面的示例的“发现”部分中：

右上叶的 8 毫米结节，第四系列第 15 张图像。新出现的右上叶后方结节，大小为6毫米，图像第28张，系列4。新的 1.2 厘米肺结节，右上叶，图像 #33 系列 4。”

Radiology Insight 模型从此信息中提取文档中存在的指导值，并根据肺结节临床指南（Fleishner 学会指南⁵）呈现候选建议。在这种情况下，该模型将使用不同的形式为同一肺结构提供不同的建议：计算机化光谱、波西龙发射谱和成像引导式生物检查。

此外，印象部分中的示例文档：

“以前确定的右上叶小肺结节已经解决，但多个新的小结节散落在两个肺。

在右上叶的观察也将由模型呈现为存在的指导值。但是，该模型还会显示报告中遗漏且未记录的指导值。如果记录了这些值，该模型可以根据肺诺杜勒临床指南提出其他候选建议。这使放射科医生能够提出候选建议和/或增强文档，以在选项中包括其他建议。

根据发现部分（蓝色）中的发现，该模型提出了两个推荐候选项：正电子发射断层扫描和影像引导活检，均用于肺部。此发现显示的指导值涉及肺叶（右上叶）和大小 (12 mm)。将从“印象”部分中的发现中返回肺叶的指导值，但大小缺失，因此返回为缺失指导值。没有提出候选的建议。

模型支持的表 ACR 临床指南

临床指南	代码
ADNEXAL MASS	SNAF： 445039006：子宫 ADNEXA 的质量（发现）
肾上腺结节	SNAF： 237783006：肾上腺质量（发现）
肝外伤	SNAF： 39400004：肝损伤（疾病）
肝损伤	SNAF： 300331000：肝损伤（发现）
肺癌暂存	SNAF：258319005：肺受累阶段（肿瘤分期）
胰腺损伤分级	SNAF：61823004：胰腺损伤（障碍）
肾损伤	SNAF： 79131000119100：肾损伤（发现）
脾脏损伤分级	SNAF： 23589004：脾脏受伤（疾病）
肾损伤分级	SNAF： 40095003：肾损伤（疾病）
甲状腺结节	SNAF： 237495005：腺结核（疾病）
腹部动脉动脉瘤	SNAF： 233985008：腹部动脉动脉瘤（疾病）
怀孕位置	SNAF： 858901000000108：怀孕未知位置（疾病）
怀孕可行性初步评估	SNAF：289208006：寻找怀孕的可行性（发现）
直肠癌暂存	SNAF：254310002：肿瘤-NODE-METASTASIS（TNM）结肠和结肠肿瘤暂存（肿瘤暂存）
怀孕存活率 FOLLOW-UP	SNAF：364327007：怀孕的可行性（可观察实体）
ADNEXAL 囊肿	SNAF： 97171000119100：子宫 ADNEXA 的囊肿（疾病）
胰腺囊肿	SNAF：31258000：胰腺囊肿（疾病）
胚芽层出血	SNAF：276650005：产内子出血（疾病）
GALLBLADDER 和 BILIARY TRACT	SNAF： 300346007：胆囊损伤（发现）
脑垂体	SNAF： 399244003：垂体腺障碍（障碍）
O-RADS	SNAF： 289840004：卵巢损伤（发现）
肺 NODULE	RADLEX： RID50149：肺结节
TI-RADS	RADLEX：RID50503：TI-RADS 评估
LUNG-RADS	RADLEX：RID50134：LUNG-RADS 评估

质量度量值

质量措施通过提供质量度量、质量报告和持续改进框架，在提高医疗保健质量方面发挥了重要作用。模型支持的质量度量⁷列在下表中。 MIPS 合格临床数据注册表 |美国放射学学院。

该模型捕获报告中记录的质量度量标准，并通过检查是否包括满足质量标准所需的所有标准来确定文档是否完成。

如果文档符合所需的质量度量标准，则表示“质量度量”已经满足。如果文档不符合标准，则性能“不满足”。如果文档的发现不需要满足质量衡量性能（例如，患者对氯己定过敏，这是“中心静脉导管插入”质量衡量指标的一项标准），模型会将质量衡量指标标记为“例外”。

在下面的示例中，需要将 CVC 或 Central Venous Catheter 插入患者。在临床环境中，避免血液感染等严重并发症至关重要。因此，该过程必须遵循CVC插入标准，使用传统技术进行适当的手部卫生，还需采用最大无菌屏障措施，如使用无菌手套、帽子、口罩、无菌手术衣和无菌手术巾。此外，该过程需要适当的皮肤准备使用氯氟化和消毒超声波技术的应用，包括使用超声波、消毒凝胶和消毒探测盖。但是，在此示例中，由于缺少有关使用无菌探头套的信息，性能不满足要求，而这是无菌超声技术的关键组成部分。因此，文档不符合 CVC 感染预防质量标准。

在缺失标准的情况下，可以更新文档以涵盖那些已执行但未记录的缺失标准，或者组织回顾会议以了解为什么这些重要标准未包含在执行的程序中。

图质量衡量指标：模型报告显示，对于“中心静脉导管插入”这一质量衡量指标，文档不符合其质量标准，并且在模型响应中将合规类型分类为的“未达标”。有关使用消毒探测盖的信息缺失。

表质量衡量指标 - 已实现 MIPS

MIPS Nr	MIPS
76	预防中心静脉导管相关的血流感染。
145	报告使用荧光镜程序的暴露剂量指数或暴露时间及图像数量。
147	与所有接受骨扫描的患者的现有成像研究相关。
360	优化患者的电离辐射接触情况：潜在的高剂量辐射成像研究计数：计算机断层摄影 (CT) 和心脏核医学研究。
364	适当性：应根据建议的指南，对偶然发现的肺结节进行后续的 CT 成像。
405	针对偶然发现的腹部病灶进行适当的后续成像。
406	针对患者附带的甲状腺结节进行适当的后续成像。
436	剂量降低技术的利用率。

ACRad No	ACRad
36	胸部 CT 报告中偶然发现的冠状动脉钙化
37	肺动脉栓塞CT肺动脉造影解读
三十八	对脑室分流患者使用低剂量颅脑CT或MRI检查
40	在前列腺 MRI 中使用结构化报告
41	对肿瘤 FDG PET 成像使用定量标准
42	肝细胞癌 (HCC) 高危患者肝结节 <10 mm 的监测成像

MSDN QCDR 否	MSN QCDR
MEDNAX55	对疑似急性卒中患者执行的非增强头部 CT 使用 ASPECTS（艾伯塔卒中计划早期 CT 分数）
MSN13	为心血管风险评估筛选冠状钙评分，包括冠状动脉钙化区域分布评分
MSN15	在最终报告中使用腺成像报告和数据系统（TI-RADS），以分层腺结核风险
QMM26	腹主动脉瘤筛查报告与建议
QMM17	使用卵巢-附件影像报告和数据系统 (O-RADS) 对卵巢附件病变给出相应随访建议
QMM18	在乳房成像中使用乳腺癌风险分数
QMM19	骨密度检测（DEXA/DXA）与骨质疏松症患者的骨折风险评估

评分和评估

风险评分和评估系统用于医学成像和诊断，以标准化结果的评估和报告。这些系统提供了解释成像研究、评估疾病风险和指导临床管理的结构化方法。下表列出了实施的风险评分和评估系统⁸ 。

模型呈现并突出显示风险、评分和评估，其分类或值由放射科医生在放射记录或报告中口述。

在下面的示例中，模型标识了两个推理：值为 17.6% 的 ASCVD（动脉硬化心血管疾病）风险和 Agatston 分数（用于量化冠状动脉中的钙量）值为零。为期10年的 ASCVD（动脉硬化心血管疾病）风险分数是估计一个人在未来10年内将经历心血管事件（如心脏病发作或中风）的可能性。此分数根据各种风险因素（包括年龄、胆固醇水平、血压、吸烟状态、糖尿病等）计算（而不是模型）。在这种情况下，风险分数为 17.6% 意味着，根据人的风险因素，未来 10 年内患心血管事件的可能性为 17.6%。

图表风险评分和评估：模型识别出两个评分和评估实例（蓝色），其中一个属于 ASCVD 风险类别，数值为 17.6%，另一个属于钙评分类别，数值为 0。

实现的表风险或评估类别

风险或评估类别	值/分类	单位
BIRADS	0， 1， 2， 3， 4， 4a， 4b， 4c， 5， 6
C-RADS 结肠检查结果	C0、C1、C2、C3、C4
C-RADS 肠外发现	E0、E1、E2、E3、E4
CAD-RADS	0， 1， 2， 3， 4， 4a， 4b， 5， N
LI-RADS	NC， 1， 2， 3， 4， 5， M， TIV
US LI-RADS 可视化分数	A、B、C
Lung-RADS	0， 1， 2， 3， 4a， 4b， 4x， S， C
NI-RADS	0， 1， 2， 2a， 2b， 3， 4
O-RADS	0, 1, 2, 3, 4, 5
PI-RADS	0, 1, 2, 3, 4, 5
TI-RADS	0, 1, 2, 3, 4, 5
凯尔格伦-劳伦斯量表	0, 1, 2, 3, 4
Tonnis 分类	1, 2, 3, 4
钙分数	数值（通常介于 1-1000 之间）
ASPECTS（阿尔伯塔卒中项目早期CT评分）	0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
Z 评分	-4 到 4
T-Score	-4 到 4
终身乳腺癌风险	数字 0-100	%
ASCVD 风险	数字 0-100	%
修改后的 Gail 模型风险	数字 0-100	%
泰瑞尔库西克模型风险	数字 0-100	%
10 年 CHD 风险	数字 0-100	%
恶性肿瘤风险指数（RMI）	数值
HNPCC 突变风险	数字 0-100	%

用例

医疗保健组织和放射科团队必须了解特定于放射作和性能的趋势和结果，并不断关注质量。放射学见解模型从放射科医生的放射学文档中提取有价值的信息。

每个用例的范围始终是放射科医生口述的当前文档。没有涉及图像分析和患者记录信息。元数据为当前报告提供管理上下文，仅限于患者年龄、患者性以及已订购的程序。（例如：腹部CT、大脑MRI,...）

Microsoft将此功能作为 API 提供，该模型允许识别或提取范围内的信息。客户将模型合并到自己的或第三方放射学报告软件中，并确定信息的用户界面。客户可以是 ISV 或医疗系统，开发或修改放射报告软件，以便在该医疗系统中使用。

因此，客户的具体用例以及放射科医生呈现或使用信息的方式可能略有不同，但说明说明了 API 功能的预期用途。

用例 1 – 识别不匹配: 模型识别出放射科医生在放射学报告中记录的内容与报告元数据中信息之间可能存在的不匹配。可以识别性别、年龄和身体部位左右侧方面的不匹配。不匹配可识别口述文本与提供的元数据之间的潜在差异。它们还确定听写/写入文本中可能存在的不一致。不一致仅限于性别、年龄、横向和图像处理类型。这只是为了让放射科医生在报告期间纠正任何潜在的不一致。系统无法识别放射科医生正在报告的图像。这一模型绝不会提供放射科医生对图像的解释的任何临床判断。放射科医生负责对患者进行诊断和治疗，并确保正确记录这些过程。

用例 2 – 提供临床发现：模型提取为结构化数据两种类型的临床发现：关键发现和可作的发现。只有放射科医生在报告中明确记录的临床发现由模型提取。模型生成的临床发现不是从报表中的信息片段或图像中推断出来的。这些仅作为提醒，提示放射科医生与医疗提供者沟通。该模型产生两个类别的临床发现：“可采取行动的发现”和“关键结果”，它基于报告中明确陈述的临床发现，以及由美国放射学学院（ACR）制定的标准。该模型始终提取放射科医生明确记录的所有发现。提取的发现可用于提醒放射科医生可能的临床发现，这些发现需要由医疗保健专业人员及时沟通和采取行动。客户还可以利用提取的发现来填充下游或相关系统（如 EHR 或自动计划函数）。

用例 3 – 传达随访建议：放射科医生揭示了一些发现，在某些情况下建议随访。记录的建议由与医疗保健专业人员（医生）通信的模型提取和规范化。后续建议不会生成、推断或提出。该模型仅提取放射科医生明确记录的随访建议语句。随访建议通过编码为 SNOMED 进行标准化。

用例 4 – 报告测量结果：放射科医生记录临床发现及其测量结果。该模型提取与发现相关的临床相关信息。该模型提取放射科医生在报告中明确声明的测量数据。该模型正在搜索已经采集并由放射科医生审核的测量数据。从相关基于文本的记录中提取这些度量值并对其进行结构。提取的和结构化的度量数据可用于查看特定患者随时间推移的度量趋势。客户可以根据模型提取的测量数据搜索一组患者。

用例 5 - 关于生产力和关键质量指标的报告：放射学见解模型提取的信息（用例 1 到 5 中提取的信息）可用于为放射学家团队生成报告和支持分析。根据提取的信息，仪表板和追溯分析可以提供有关生产力和关键质量指标的更新，以指导改进工作、最小化错误以及提高报告质量和一致性。 RI 模型并不是用来创建仪表板的，而是用来提供提取的信息，而不是推论出来的，供用户出于研究和管理目的进行整合。模型是无状态的。

用例 6 - 质量度量值：符合医疗保健计划中报销标准 场景：医疗保健组织需要确保遵守不断发展的报销计划，例如根据 MACRA 法案建立的基于功绩的奖励支付系统（MIPS）。组织必须满足特定的绩效标准，才能获得报销奖励或避免处罚。解决方案：组织从其临床和管理数据中聚合适当的质量度量标准。系统自动跟踪和报告这些条件，支持符合报销要求，减少手动工作并确保向医疗保险报告准确。 RI 模型并不创建仪表板，而是提供客户可以聚合的提取信息，而不是经过推理的信息。模型是无状态的。

用例 7 – 评分和评估：通过放射学见解进行人口健康管理 场景：医疗保健提供商寻求通过识别需要更多筛查或预防服务的个人或患者群体来提高人口健康管理。该组织希望从放射学报告中提取有价值的见解，以改善患者结果。解决方案：然后聚合分数和值，以确定趋势、建立基线，并标记可能受益于进一步筛查或预防护理的个人或组。该系统可帮助临床医生主动管理患者群体，改善预防护理，同时降低未来并发症的可能性。

用例 8 - 放射学家临床指南 场景：放射科医生在记录报告中的发现时经常需要参考特定的临床指南。但是，缺少或不完整的信息可能会延迟对这些准则及其建议的访问，从而可能会影响报告的准确性。解决方案：放射学见解自动突出显示与适用临床指南及其候选建议相关的放射学报告中记录的发现。如果缺少关键信息，这可能会影响临床指南的建议结果，系统将标记这些差距。这种主动方法可确保放射科医生能够立即访问必要的指南信息，从而提高报告的准确性和完整性。

选择其他用例时的注意事项

放射学见解是一个有价值的工具，用于从非结构化医学文本中提取知识，并支持放射学文档工作流。但是，鉴于健康相关数据的敏感性，请务必仔细考虑您的用例。在所有情况下，人员都应根据系统返回的信息做出决策，在所有情况下，都应有办法查看源数据并更正错误。下面是选择用例时的一些注意事项：

避免将此服务用作医疗设备、提供临床支持或作为诊断工具用于诊断、治愈、缓解、治疗或预防疾病或其他疾病的方案，而无需人工干预。合格的医疗专业人员应始终尽职尽责，并验证可能影响患者护理决策和做出决策的源数据。
避免与在没有人工干预的情况下自动授予或拒绝医疗服务或健康保险相关的情况。由于影响覆盖率级别的决策具有影响，因此应始终在这些方案中验证源数据。
避免在未经患者同意或不符合法律规定的情况下使用个人健康信息。健康信息对隐私和同意有特殊保护。请确保你在系统中使用的所有数据已获得患者同意，或者符合与使用健康信息有关的适用法律。
仔细考虑使用检测到的推理来更新患者记录，而无需人工干预。确保始终有一种方法来报告、跟踪和更正任何错误，以避免将不正确的数据传播到其他系统。确保合格专业人员审查和批准患者记录的任何更新。
仔细考虑在患者计费中使用检测到的推理，而无需人工干预。确保提供商和患者始终能够报告、跟踪和更正生成错误计费的数据。

局限性

输入放射学文档的特定特征对于获取 RI 模型的可作、准确的输出至关重要。在以下方面扮演重要角色的一些项包括：

语言：当前仅为英语文本启用 RI 功能。
未知单词：放射学文档有时包含未知缩写/单词或上下文外同义词或拼写错误。
输入元数据：对于某些类型的推论，RI 期望输入信息在文档或文档的元数据中可用。
模板和格式设置：RI 是使用真实、具有代表性的文档集开发的，但特定的用例和/或文档模板可能会导致 RI 逻辑的准确挑战。例如，嵌套表或复杂的结构可能会导致不理想的分析。
词汇和说明：RI 是在现实世界文档中开发和测试的。但是，自然语言丰富，对某些临床事实的描述可能会随时间而变化，可能会影响逻辑的输出。

系统性能

可通过基于真正、真负、假正和假负实例计算统计信息来评估系统的性能。为了实现这一目标，必须构建一组具有代表性的文档，这些文档最终会被批注以显示预期结果。可以将 RI 的输出与所需的输出进行比较，以确定准确性数字。

Radiology Insights 触发假正/假负输出的主要原因是：

输入文档不包含所有必要的元信息
输入文档格式和格式（节标题、标点符号、...）
非英语文本（部分）
未知单词（缩写、拼写错误、...）
分析复杂格式的问题（嵌套表，...）

对放射学洞察的评估

评估方法

放射学见解逻辑是使用一套大量的现实世界临床放射学文档开发和评估的。由人类专家注释的 5000 多个文档组成的训练集，用于实现和完善触发 RI 推论的逻辑。该集的一部分是从美国医疗中心提供的库随机采样的，主要集中在成人患者身上。

在使用的数据集中，美国男性和女性患者几乎具有相同的代表性，此外，每个年龄组也具有充分代表性。应指出，由于数据不包括该类型的元数据，因此不会进一步分析训练数据代表性（例如地理、人口或民族图表示形式）。使用的训练集和其他评估集在构建时确保针对不同类型的患者特征（年龄、性别）提供所有类型的推论。使用涵盖完整逻辑范围的单元和功能测试来测试逻辑的准确性或回归。通过与训练集具有相同特征的外部文档集来评估 RI 模型的通用化。

与主题专家一起评估、跟踪和审查整个群体中每个推论的目标最低性能水平。使用特定测试集单独检查和查看所有基础核心 NLP 和 NLU 组件。

评估结果

当存在人类专家手动标注的“黄金标准”注释时，使用的评估指标是精确度、召回率和 f1 评分。回归测试是通过差异分析和人工专家反馈周期完成的。

对未见过的集和放射学文档训练集的评估表明，Radiology Insights 在所有标注了 Radiology Insights 注释的数据集中均表现出色且稳定。

训练集总共超过 15,000 个文档，包括全面的批注。他们是由医学专家为所有领域策划的，如发现、关键结果、通信、不匹配、建议、评分和评估以及临床指导。这些集通过涵盖各种用例为模型的功能提供了坚实的基础。

这些未见过的文档集总共超过6,000份，作为通用性的严格测试，旨在确认模型在训练期间未接触过的数据上也能表现良好。

总之，虽然评估演示了在可见和看不见的集中表现强劲且一致的性能，但持续验证和探索更多方案（包括边缘案例和未经测试的条件）仍然至关重要，并且持续确保真实应用程序中的全面覆盖和持续质量。

将放射学见解进行评估和整合，以供您使用。

当你准备部署放射学洞察时，以下活动将帮助你走向成功：

全面评估 RI 的功能，了解它能做什么，以及它的局限性。了解它在方案和上下文中的执行方式。
使用真实、多样化的数据进行测试：通过使用反映用户、地理位置和部署上下文多样性的实际条件和数据，全面了解RI在您的场景中的表现。不反映端到端方案的小型数据集、综合数据和测试不太可能充分表示生产性能。
尊重个人的隐私权利：仅出于合法和合理的目的收集或使用个人的数据和信息。仅使用你同意使用或合法允许使用的数据和信息。
法律审查：为您的解决方案进行适当的法律审查，特别是在用于敏感或高风险的应用时。了解可能需要在哪些限制范围内工作，以及在使用前需要缓解的任何风险。您有责任缓解此类风险并解决可能出现的任何问题。
系统评审：如果计划将基于 AI 的产品或功能集成到现有系统中，用于软件、客户或组织的流程，请花时间了解系统各部分如何受到影响。考虑 AI 解决方案如何与Microsoft负责任的 AI 原则保持一致。
人机回环：让人员参与循环，并将人工监督作为要探索的一致模式领域包含在内。这意味着不断对 AI 驱动的产品或功能进行人工监督，并确保人类做出基于模型输出的任何决策。为了防止伤害和管理 AI 模型的表现，请确保人类有一种方法实时干预解决方案。
安全性：确保解决方案是安全的，并且它有足够的控制来保留内容的完整性，并防止未经授权的访问。
客户反馈循环：提供一个反馈渠道，供用户和个人用于在部署后报告服务问题。部署 AI 驱动的产品或功能后，需要持续监视和改进。制定计划并准备好实施反馈和建议以改进。

参考文献

美国放射学学院。 “ACR 适当性条件。”美国放射学学院， n.d. Web. 2025 年 1 月 29 日。 https://www.acr.org/Clinical-Resources/Clinical-Tools-and-Reference/Appropriateness-Criteria
美国放射学学院。 “偶然的发现。”美国放射学会，n.d.Web. 2025 年 1 月 29 日。 https://www.acr.org/Clinical-Resources/Clinical-Tools-and-Reference/Incidental-Findings
美国放射学学院。 “报告和数据系统（RADS）。美国放射学学院， n.d. Web. 2025 年 1 月 29 日。 https://www.acr.org/Clinical-Resources/Clinical-Tools-and-Reference/Reporting-and-Data-Systems
美国创伤手术协会。 “受伤评分量表。”美国创伤手术协会，n.d.Web. 2025 年 1 月 29 日。 https://www.aast.org/resources-detail/injury-scoring-scale
MacMahon H、Naidich D、Goo J 等。 CT 图像上偶然发现的肺结节处理指南：2017 年 Fleischner 学会。放射学。 2017;284(1):228-43. doi：10.1148/radiol.2017161659 - Pubmed
特斯勒、富兰克林·努尔等人。 “ACR腺成像、报告和数据系统（TI-RADS）：ACR TI-RADS 委员会的白皮书。美国放射学院杂志，2017年。
MIPS 合格临床数据注册表 |美国放射学学院
对风险评分和评估系统资源的引用
a。卵巢肿瘤中恶性指数的风险 |放射学参考文章 |Radiopaedia.org
b. BI-RADS、C-RADS、CAD-RADS、LI-RADS、Lung-RADS、NI-RADS、O-RADS、PI-RADS、TI-RADS：报告和数据系统 - PubMed