Radiology：人工智能系统脑MRI鉴别诊断精度接近神经放射科医生水平

摘要

背景：虽然人工智能(AI)在放射学的许多方面都显示出很好的前景，但在脑MRI中使用人工智能来进行罕见和常见疾病的鉴别诊断(differential diagnoses)尚未得到证明。

目的：通过与放射科医生的比较，评价一种用于脑MRI鉴别诊断的人工智能系统。

材料和方法：这项回顾性研究测试了2008年1月至2018年1月期间，利用脑MRI诊断的19种常见和罕见病的患者中，AI系统用于概率诊断的性能。AI系统结合了数据驱动和领域专业知识方法，包括深度学习和贝叶斯网络(Bayesian networks)。首先，使用深度学习检测病灶。在此基础上，采用基于图谱的配准和分割方法提取了18个定量成像特征。第三，利用贝叶斯推理将这些影像特征与五个临床特征相结合，进行基于概率的分级鉴别诊断。在一个有86名患者的训练集(平均年龄49±16岁[标准差]；其中有53名女性)上，定量特征提取算法和条件概率进行了微调。通过对一个有92名患者的独立测试集 (平均年龄47±18岁；其中有52名女性)进行诊断，将鉴别诊断算法概率为前三的判别与放射科住院医生、普通放射科医生、神经放射科研究员和学术神经放射科医生的诊断结果进行对比。

结果：人工智能系统(91%正确)概率为前三的诊断的表现与学术神经放射科医生(86%；P=.20)相似，但优于放射科住院医师(56%；P=.001)、普通放射科医生(57%；P，.001)和神经放射学研究员(77%；P=.003)。人工智能系统的性能不受疾病流行的影响(普通疾病的准确率为93%，罕见疾病的准确率为85%；P=.26)。放射科医生诊断普通疾病比罕见疾病更准确(78%对47%，P<0.001)。

结论：脑MRI的AI系统对于大脑疾病的鉴别诊断总体上接近神经放射科医生的位列前三的鉴别诊断准确率，并超过了专业程度较低的放射科医生的诊断准确率。
人工智能(AI)显示出了改变医疗卫生和医学影像的巨大潜力，其中深度学习是影响最大的AI工具(1，2)。深度学习在神经放射学中许多成功实现都是为了提取发现(extracting findings)，如头部CT图像中的出血等(3-5)。尽管被证明有用，一个完整的诊断系统必须适用于罕见疾病的诊断。尽管可用于训练的案例很少，但必须可区分大量诊断，并提供直接访问用于得出诊断的中间特征(intermediate features)的途径。

此外，在像放射学这样一个固有的概率性领域，具有相关疾病概率的鉴别诊断，而不是单一的最佳诊断输出，是指导管理的关键(6，7)。贝叶斯推理(8)提供了可以直接进行疾病几率计算的机会，考虑到图像和临床特征以及罕见和常见疾病的基线概率，可以直接提供这种计算。信息系统是一项非专业人员和深度学习都不能胜任的任务。

由于不同AI方法的互补性，我们试图开发一种系统，通过使用一组AI工具，对放射科医生用于MRI解释的三个连续步骤进行计算建模。首先，系统采用深度学习的方法检测图像异常，通过大量的实例训练，模拟放射科实习医师学习识别异常图像的过程。第二，它通过现有的MRI序列，利用定量输出的图像处理对异常进行表征，类似于放射科医生明确描述影像特征或发现。最后，使用贝叶斯推理将这些基于AI的图像特征与临床特征整合成一个概率性的鉴别诊断，就像放射科医生基于知识将成像特征与某些诊断相关联一样，通过贝叶斯推理将影像特征与某些诊断相关联。

虽然这个过程的第一步，图像异常检测，是纯数据驱动的(即从训练数据中学习)，但第三步是由专家导出(expert-derived)条件概率的形式，明确地从领域专业知识中获得信息。也就是说，一个提取图像特征的系统，从概率上区分出感兴趣的诊断，不需要额外的训练数据来推导出鉴别诊断。相反，训练数据的需要可以由专家知识来代替，这些图像特征的概率给定每个诊断的概率。为了验证这样一个复合的数据驱动和领域专家知识的自动化系统的输出，我们将其诊断性能与不同专业水平的放射科医生进行了比较。我们假设该AI系统在诊断方面的表现可以达到学术神经放射科医生的水平，我们以19种影响大脑半球的常见和罕见的疾病为重点进行了概念验证。

材料和方法

这项符合《健康保险可移植性和责任法案》的回顾性研究获得了我们的机构审查委员会的批准，并豁免了书面知情同意书。非雇员或非咨询作者(A.M.R.、J.D.R.、J.W.、L.X和M.T.D.)对数据进行分析和控制。
病人和疾病

共有178名研究患者(其中有105名女性；平均年龄48±17岁[标准差])，每个患者有一个匿名的脑MRI数据，是在2008年1月至2018年1月期间获得的。根据图1和附录E1（在线）中详述的程序，研究数据从我院的图片存档和通信系统中获得（表1）。

图1. 流程图显示了根据排除标准进行的研究选择（从最初的患者搜索到训练集和测试集的随机化）。FLAIR = 流体衰减反转恢复，IRB = 机构审查委员会。

表1：受试者人口统计学信息及临床特征

注：-患病率等级(prevalence ratings)是由两位神经放射科医生协商一致确定。免疫状况(immune status)是根据预先定义的条件或在患者进行MRI扫描时所进行的药物治疗的清单来确定的：人类免疫缺陷病毒(HIV)阳性(不论目前的CD4计数如何)、硫唑嘌呤、纳他利珠单抗、纳他利珠单抗、富马酸二甲酯、芬戈莫德、奥克立珠单抗、目前的化疗药物(包括甲氨蝶呤内酯)、器官移植后的免疫抑制疗法、近期(<2周)的任何类型的放疗。如果患者的电子病历中有任何临床记录提到：在促使进行MRI检查的神经系统症状出现前2周内，患者有病毒性疾病（呼吸道、溃疡性或胃肠道）病史，则认为存在病毒前驱症状(Viral Prodrome)。对于慢性(Chronicity)，急性(acute)被定义为MRI检查7天内出现的神经系统症状；慢性(Chronic) 被定义为MRI检查前持续7天以上的神经系统症状。如果患者在MRI检查前没有出现神经系统症状（如常规癌症筛查检查时的偶然发现），则其慢性被编码为无（N/A）。

ADEM=急性播散性脑脊髓炎，ALD=肾上腺白质性脑病，CADASIL=大脑常染色体显性动脉病变伴皮层下梗塞和白质性脑病，CNS=中枢神经系统，MS=多发性硬化，NMO=视神经髓炎，PML=进行性多灶性白质性脑病，PRES=后可逆性脑病综合征，SVID=小血管缺血性疾病

诊断包括19种疾病，涵盖了大量的常见和罕见的疾病，包括引起流体衰减反转恢复（FLAIR）异常的常见和罕见的疾病，重点是主要影响大脑半球的疾病(图2)。诊断结果被选择为包含相当大的影像学重叠，使得明确的诊断鉴别变得困难或不可能，从而需要鉴别诊断(differential diagnoses)(类似于标准的神经放射学实践)。

除了影像学数据，还从每个患者的图表中提取了五个临床特征：年龄、性别、免疫状况、是否存在病毒前驱症状和临床症状的慢性化(表1)。

图2：图像显示了纳入研究的19种神经系统疾病中的每一种神经系统疾病的轴向流体反转恢复（FLAIR）切片示例。ADEM=急性播散性脑脊髓炎，CADASIL=脑常染色体显性动脉病伴皮层下梗塞和白质脑病，CNS=原发性中枢神经系统，HIV=人类免疫缺陷病毒，MS=多发性硬化症，NMO=神经性视神经髓炎，PML=进行性多灶性白质脑病，PRES=后可逆性脑病综合征。重复时间和回声时间值范围见表2。

影像学数据

研究分为训练集（n = 86）和测试集（n = 92）。以前用于训练卷积神经网络的训练数据（见下文）与这里描述的86个训练研究重叠，但不与测试研究重叠。这86个病例的训练集被用来更新AI系统参数（具体来说，即为关键特征提取的阈值[见“病变特征”部分]和条件概率[见“用于鉴别诊断的贝叶斯推理”部分]）。测试集被保留下来进行独立测试。因为没有进行超参数优化，所以不需要单独的验证集。测试数据集包括从研究队列中随机选择的每种疾病的5个实例，但Susac综合征除外，由于其罕见性，我们只发现了2个患者。其余的形成了训练集（表1）。成像数据来自于20多个不同的物理MRI扫描仪（16个扫描仪模型跨多个位置）的各种成像参数（表2），这是典型的临床成像数据。从MR图像中提取的序列包括T1加权、T1增强后、T2加权、FLAIR、扩散加权、表观扩散系数、梯度回波或磁化率加权成像。如果一个序列（如T1后增强后）对患者不可用，则AI算法和放射科医生在没有该序列的情况下提供诊断。特定的脉冲序列具有高度异质性，仅FLAIR序列就有30多个（随回波时间、重复时间、平面内分辨率和切片厚度而变化）（表2）。
深度学习在病变检测中的应用

该AI系统由三个独立的组件组成（图3）。首先，图像预处理后（见附录E1[online]），使用我们先前开发的三维U-Net架构的卷积神经网络（9）（图3，A），基于FLAIR序列检测颅内病变。使用相同架构和训练集的两个单独训练的三维U-Nets也被应用到我们的数据，用于检测病理T1信号（10）和异常梯度回波或磁化率加权成像信号（11）。

图3. 人工智能（AI）系统概述。

A.用于异常信号检测的三维U-Net架构。

B.利用图像处理自动提取特征。除梯度回波(GRE)易感性检测外，其余均来自原发性中枢神经系统淋巴瘤患者。有关如何提取每个特征的详细信息，请参见材料和方法部分。

C.对每个患者的每个病变都计算出多个定量特征，包括本例中所示的病变。这些特征被存储，提供了丰富的病变的定量描述。为了开发鉴别诊断，将阈值化的特征在贝叶斯网络中进行概率组合。

D.贝叶斯网络示意图，展示了AI系统的朴素贝叶斯结构，具有用于区分大脑半球疾病的完整特征集，分为临床、信号、空间和体积四类。ADC=表观扩散系数，ANTs=高级归一化工具，CC=胼胝体，DWI=弥散加权成像，FLAIR=流体衰减反转恢复，vol=体积。

病变特征

图像处理是通过使用内部修改的开源高级标准化工具软件包（版本2.1；https://github.com/ANTsX/ANTs）（12,13）（详见附录E1[online]）实现的。FLAIR U-Net的病变mask叠加到每个MRI序列，利用提取的组织分割及标准模板来提取每个被试的18个感兴趣的特征（图3，B和C）。提取定量图像特征（例如以立方毫米为单位的病灶体积），然后对其进行阈值处理，以获得定性特征状态（例如，大、中、小病灶）。阈值由专家知识设定，并利用86个训练数据的训练结果更新阈值。附录E1（online）中提供了所有18个被提取的信号（n = 5），体积（n = 6），空间（n = 7）定量特征，以及5个临床特征的详细描述。
贝叶斯推理在鉴别诊断中的应用

对于每个患者，18个影像学特征加上5个临床特征，通过使用朴素贝叶斯推断法（可查阅https://github.com/rauscheck/radai）计算出每个可能的诊断概率（图3，D）。贝叶斯条件概率是利用领域的专业知识来确定的，使用综合神经放射学教科书（14）和现有文献（15-19）中发表的统计学方法，另外，两位神经放射学专家（A.M.R.，神经放射学研究员，和S.M.，有12年的研究员经验）也就此达成了共识。这个过程的目标是将专家们对特征和疾病之间的概率映射的知识进行封装。将专家推导的概率与对86个训练数据进行训练所得的特定疾病频率特征状态进行加权平均，概率映射随后被调整为近似于此加权平均概率。
与放射科医生表现的对比

为了比较AI系统与放射科医生的表现，测试数据被匿名并独立呈现给4名放射科住院医师（2名两年和2名四年住院医师）、2名神经放射科研究员（各接受过9个月的研究员培训）、2名普通放射科医生（他们经常阅读脑MR图像；1名进行过神经放射科研究员培训；分别有20年和21年的培训后经验）、2名我院三级医疗中心的学术神经放射科主治医师（I.M.N.和S.M, 分别具有7年和12年的培训后经验），使用我院图像存档和通信系统中的标准挂片协议(a standard hanging protocol)。放射科医生得到了与AI系统相同的MRI序列和临床特征。他们被告知诊断结果在患者中的平均分布。在19种可能的诊断中，放射科医生提供了他们最有可能的三种诊断(“判别诊断”)。
统计分析

为了在考虑数据的成对性的同时将AI系统与放射科医生进行对比，我们使用了一个具有鲁棒的方差估计器(robust variance estimator)的通用估计方程(generalized estimating equation)，以与AI系统精度比较的比值比(OR)表示为基线，比较三个独立的结果指标：鉴别诊断概率第三的正确诊断、鉴别诊断概率第二的正确诊断、鉴别诊断概率第一的正确诊断。在此模型中指定了放射科医生的类别（主治医师、住院医师、普通放射科医生、住院医师和AI系统），独立阅片医师被分配在他们各自的类别中。采用McNemar检验对AI系统与放射科医生进行比较。通过使用在判别诊断中的位置来创建四个置信水平的顺序标尺，构建受试者工作特征曲线，作为第1名、第2名和第3名的差异化诊断性能的总结性衡量，并引导计算出受试者工作特征曲线（AUCs）下95%置信区间（CI）的面积。根据疾病发生率，

上一篇 | 图论在静息态和动态脑连接评估中的应用：构建脑网络的方法

下一篇 | 脑电信号处理的机器学习