脑影像中的深度学习研究：前景与挑战

深度学习(DL)在应用于自然图像分析时非常成功。相比之下，将其用于神经影像学数据分析时则存在一些独特的挑战，包括更高的维度、更小的样本量、多种异质模态以及有限的真实标签（ground truth）。在本文中结合神经影像学领域的四个不同且重要的类别讨论了DL方法:分类/预测、动态活动/连接性、多模态融合和解释/可视化。本文重点介绍了这些类别中每一类的最新进展，讨论了将数据特征和模型架构相结合的益处，并依据这些内容提出了在神经影像学数据中使用DL的指南。对于每一个类别，还评估了有希望的应用和需要克服的主要挑战。最后讨论了神经影像学DL临床应用的未来方向。本文发表在IEEE Signal Processing Magazine杂志。(可添加微信号siyingyxf或18983979082获取原文，另思影提供免费文献下载服务，如需要也可添加此微信号入群，原文也会在群里发布)。

思影曾做过多期机器学习/深度学习在脑影像中的应用文章，请结合阅读，加深理解，感谢帮转支持（直接点击，即可浏览，加微信号siyingyxf或18983979082获取原文及补充材料）：

基于磁共振成像的脑龄研究：可解释的人工智能的当前状态和未来挑战

BrainAGE作为大脑老化的神经影像标志物的十年

神经影像研究驱动的脑龄估计作为脑疾病和健康状况识别的生物学标记

基于原始影像数据的深度学习模型预测脑龄可获得可靠的遗传生物标志物

AJP：精神分裂症患者大脑加速老化的纵向识别研究

基于全球14468名被试MRI数据特征预测脑龄和疾病的深度学习模型

AJP：有和没有内化性精神障碍的受虐女孩情绪回路延迟成熟的差异性

重度抑郁症患者的脑龄

SVM在脑影像数据中的应用

基于深度学习和自闭症脑成像数据库（ABIDE）识别自闭症谱系障碍

Radiology：皮层厚度预测轻度认知障碍转化为帕金森痴呆症

阿尔茨海默病及其先兆分期的神经影像分类研究及相关特征提取

Nature子刊：基于深度学习预测家族性阿尔兹海默症患者临床前功能性脑老化

机器学习在重度抑郁症患者中的应用：从分类到治疗结果预测

基于功能磁共振成像数据的机器学习对精神分裂症进行分类

使用多元表征方法提升对大脑-行为之间关系的机器学习研究的泛化

用于临床心理学和精神病学的机器学习方法

PLOS Biology：重度抑郁症多成像中心的泛化脑网络标志物

Nature Medicine：持续的实验性和临床性疼痛的神经影像生物

深度学习在婴儿大脑的磁共振图像分析中的作用（上）

Nature Protocols：为解释神经成像中的机器学习模型

Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法

Biological Psychiatry：自闭症的神经亚型研究进展

PNAS:灰质年龄预测作为痴呆风险的生物标志物

BRAIN：用于阿尔茨海默病分类的可解释深度学习框架的开发

异质性问题：识别精神疾病亚型的方法

NPP:结构MRI数据的生理性别分类显示跨性别者女性的错误分

利用功能连接对脑疾病进行分类和预测

基于脑影像的精神疾病预测

基于影像学和定量感觉测试预测慢性疼痛的治疗结果

BRAIN：利用机器学习揭示了两种精神分裂症的神经解剖学亚型

识别最优的数据驱动特征选择方法以提高分类任务的可重复性

Neuron脑影像机器学习：表征、模式信息与大脑特征

Molecular Psychiatry：静息态fMRI预测青少年认知能力

JAMA Psychiatry：脑影像机器学习预测精神疾病患者社会功能

AJP:基于脑网络的可卡因戒断预测

基于机器学习的情绪障碍诊断：功能网络预测药物反应

脑影像特征预测散发性阿尔茨海默病症状发作时间

介绍

神经影像学是一种强大的工具，被用来为健康和功能受损（或结构受损）的人脑提供重要见解，此外，它还具有将新的物理发现和技术进步转化为有效诊断、预防和治疗脑部疾病的潜力(https://brain initiative . NIH . gov/)。磁共振成像(MRI)和脑磁图(MEG)等蓬勃发展的神经成像技术革新了我们无创研究人脑结构、功能、接线和代谢的能力。与在自然光下采集的自然图像相比，神经影像学数据主要由放射学图像组成。因此，神经成像的噪声分布因所用采集而异[例如，MRI中的Rician噪声、计算机断层扫描(CT)中的量子噪声]。如表1所示，与自然图像数据相比，神经影像数据还具有许多其他独特的方面，包括模态的数量、高维度、低信噪比和小样本量。

表1 自然图像和脑影像图像之间的差异

使用DL模型的神经影像学研究最初出现在2014年，此后，在许多新模型以及各种财团和资助者(如：人类连接体项目、阿尔茨海默氏病神经影像学倡议、通过荟萃分析增强神经影像遗传学、自闭症脑影像学数据交换项目、青少年脑认知发育和英国Biobank)积极支持下，可用数据的累积不断增多，研究数量迅速增加。MRI作为一种具有高时空分辨率的无创性技术，根据所使用的检索词，是目前研究最广泛的神经影像学方式(图1)。

图1 基于神经影像学的DL研究趋势，图B中可以看基于MRI的DL研究在神经影像学手段中占比最大。

先进的神经影像分析方法对于将大脑功能和结构与网络和行为联系起来至关重要。其中，线性模型对我们目前的理解有很大贡献，特别是灵活的矩阵分解方法。例如，组独立成分分析(ICA)作为一种纯数据驱动的算法，通过对功能性MRI (fMRI)进行组推理来揭示大规模网络特征，特别适用于多种模态的数据融合，如全基因组单核苷酸多态性(SNP)数据或事件相关电位。尽管如此，具有标准机器学习(SML)方法的经典神经影像分析方法具有相对有限的模型灵活性。SML通常需要大量的领域专业知识来设计特征提取器，这些特征提取器可以将原始数据转换成合适的内部表示或特征向量，从其中学习出特定的区分模式。但原始特征的这种“浅层”组合可能对不相关的变化敏感，可能不够灵活，不足以揭示高层差异或预测复杂的大脑-行为关系。

相比之下，DL使用多个处理层来学习具有多个抽象层次的数据表示。与SML相比，DL方法具有高度的灵活性，并且使用了最低限度的预先设计的特征。尽管复杂的模型易受“黑箱”问题的影响，但现在可以通过不同的程序自动学习有代表性的特征，以提高可解释性。因此，事实证明，DL能够有效地从高维数据中发现内在结构。历史上，突破通常发生在数据相对丰富的时候，比如在文本和自然图像分类方面。随着高质量神经影像数据集的积累，DL在神经影像学中的性能无疑将得到显著提高，而无监督模型的结合有可能在我们对大脑的理解方面取得重要进展。

在这篇综述中，涵盖了四个相关的主题：

1) 分类/回归任务，通常在基于脑的生物标志物研究的背景下进行研究，以及关键的DL模型；

2) 基于DL的动态分析方法，其有助于利用神经成像数据中的功能信息；

3) 多模态融合方法，其需要利用模态之间的互补信息；

4)可视化和亚型发现，这对于转移到临床应用和提供关于潜在生物机制的线索是至关重要的。神经影像学研究运用多种技术研究神经系统的结构和功能，揭示脑机制与行为(症状)之间的关系。

神经影像学的大多数分析方法分为两大类：分类或回归。在“用于神经影像分类和回归的DL”一节中，除了介绍神经网络和DL背后的核心概念之外，本文还总结了六种最流行的DL模型的体系结构及其神经影像应用场景。在“用于分析神经影像数据中动态活动和连通性的DL”一节中，回顾了可以利用神经影像中时间波动信息的DL方法。对大脑动力学的调查研究显示了在各种环境下分解大脑活动和功能连接的巨大潜力，提供了一个了解全脑连接布线、网络和区域之间相互作用的窗口，以及它们与时间和空间行为的联系。在“用于多模态融合的DL”一节中，回顾了基于DL的多模态融合模型，该模型利用了来自各种模态的非线性互补信息，包括大脑结构、功能、网络连接和行为。尤其是在维度不匹配的数据(如脑结构和脑功能)背景下，DL模型的灵活性尤为重要。在“可视化和子类型发现”一节中，涵盖了与可视化和谱分析发现相关的主题。尽管DL常被视为一个黑匣子，但其在大脑研究中的应用取决于可视化和解释重要特征的方法，这有助于我们探索健康个体或精神障碍之间的异质性。在每一节的最后强调了DL在每个给定类别中的一些承诺和挑战。最后讨论了本文中重点提到的涉及所有四个相关主题的一个主要挑战(图2)：DL实现的重要实际目标和促进转化研究到临床实践的承诺。

图2 这篇综述文章涵盖了四个相互关联的主题。神经影像学数据通常从多种模态中采集，对其进行不同的预处理以提取DL的输入特征。在灰色面板中，列出了多个DL中涉及的模块，并与其适用功能进行了链接。PET:正电子发射断层扫描；dMRI:弥散张量成像 MLP:多层感知器；CNN:卷积神经网络

DL用于神经影像学分类和回归

分类和回归是两个被广泛研究的监督学习任务。分类和回归任务的区别在于目标变量是连续的还是离散的。广义而言，这两项任务的核心目标都是将x(神经影像学数据)映射到y(例如，诊断、治疗反应和行为)。与自然图像相比，神经影像学更为复杂，通常具有较高的维数(通常高于10⁴个体素)、较小的样本量(少于10⁴个样本)、多种数据形式(例如MRI和CT)，并且通常缺乏确凿的真实标签。尽管神经影像学数据高度多样，但可分为两大类：结构成像和功能成像(图2)。

结构神经影像学数据，如来自结构MRI (sMRI)或弥散MRI (dMRI)的数据，反映了体素组织密度/体积或结构连接性。结构研究的主要目的是揭示大脑中的解剖关系，进而用于预测。功能性神经成像数据集中于大脑活动或连接的动态变化。由于MRI等神经影像数据的高维性和低信噪比，有效的特征处理对于减少建模前的冗余非常重要。例如，使用基于图谱或数据驱动的方法(如ICA)时，fMRI时间过程往往被缩小。然后将得到的时间特征用于研究时间相关性，如功能网络连通性(FNC)或动态FNC (dFNC)。在典型的深度学习系统中，可能有数亿个可调整的权重，而这些模型需要大量的样本进行训练。适当平衡DL模型的复杂性与可用样本量对于神经影像学至关重要。在此总结了流行的DL模型的基本机制，并就其相应的神经影像学应用提供了建议。

多层感知器模型

通过简单统计梯度下降训练的多层感知器(MLP)模型是第一个提出的用可训练的多层神经元代替工程特征的解决方案。隐藏层可被视为以非线性方式扭曲输入，因此类别可被最后一层分离。这种深层神经网络理论上可以拟合任何映射关系。然而，完全连接的层可能导致可训练参数的冗余和过拟合。虽然正则化规则和drop out可以修复过拟合问题，但MLP最适合低维和冗余较少的输入，如FNC向量。此外，由于其灵活性，MLP经常被用作更复杂的DL模型的后盾[例如，用于分类的生成性对抗网络(GAN)]。

卷积神经网络和图卷积网络

卷积神经网络(CNNs)现在是几乎所有识别和检测任务的主要方法。它们旨在处理多种阵列形式的数据，如自然信号或图像。CNN利用自然信号特性的核心要素是：局部连接、共享权重、pooling和深层网络的使用。区分CNN与其他DL模型的两种操作是卷积和pooling。卷积层的作用是检测前一层特征的局部合取；pooling层的作用是将语义相似的特征合并成一个。基于卷积运算，CNN输入理想地由高度相关的局部值的组合组成，数据的局部统计量不受位置的影响。因此，CNN非常适合通过利用空间信息来处理2D或3D T1图像，以提高性能。例如，最近的工作表明，通过CNN利用神经成像数据的三维结构比SML模型有实质性的改进。尽管CNN的相关研究取得了巨大的成功，但由于图的特征(如从FNC获得的特征)的非欧几里德特性，使得一般的卷积和滤波不如在自然图像上那样清晰。类似地，图卷积网络(GCN)是一种神经网络体系结构，其能够以卷积方式用更少的可学习参数捕获图结构并聚集来自邻域的节点信息。GCN在具有图形数据的医学或生化应用中很有用，例如FNC特征。

递归神经网络

递归神经网络(rnn)一次处理一个元素的输入序列，在其隐藏单元中维护一个“状态向量”，该向量隐含地包含关于序列中所有过去元素的历史信息。它模拟了以下情况。通用动态系统:xo (t) = F (x (t)，u (t))的状态。动态系统x (t)由向量值函数F更新，该函数是非线性的，可能很复杂，并且接受运算输入u (t)。长短期记忆网络(LSTM)和门控循环单元网络(GRU)是rnn的两种变体，它们使用特殊的隐藏单位来更长时间地记忆输入。与经典的线性机器学习模型(如隐马尔可夫模型)相比，RNN模型对序列数据的长期非线性机制进行建模。因此，RNN适合于解决涉及顺序输入的任务，如fMRI时间过程。

GAN

训练用于将高维特征映射到标签的CNN/RNN模型最好归类为判别模型，因为它不关注特征的分布学习。一个能够逼近输入分布的生成模型会更加健壮和更可解释。正如理查德·费曼的一句名言:“我不能创造的东西，就代表我不明白它的内容，”一个训练有素的GAN模型可以通过传递随机噪声通过MLP产生样本。GAN有两个代理：生成器G和鉴别器D。G无法直接获取真实数据；它学习的唯一方法是通过与D的互动，获得合成样本和从真实数据中提取的样本。通过知道数据是来自真实堆栈还是来自G这一简单的基本事实，向D提供了一个错误信号。通过D，同样的错误信号可用于优化G，使其能够产生质量更好的假数据。GAN不是一个特定的模型，而是一个生成性框架。前面提到的所有DL模型，如MLP或CNNs，均可用作GAN的主干。与判别模型相比，GAN模型更难优化，因为数据分布比简单地寻找分类边界更难逼近。GANs获得的表征可用于多种神经影像学应用，包括分类、神经影像学合成和多站点神经影像学的特征协调。

注意模块

提出使用注意模块，通过关注重要的大脑区域并抑制不必要的区域来增加再现能力和提高可解释性，这通常与用于解释的其他DL模型相结合，从而使模型动态地强调输入的某些部分。如[9]所述，基于弱监督学习的DL(由中枢网络和注意模块组成)已被应用于改善使用sMRI的阿尔茨海默病分类性能。注意力图谱也有助于发现任务相关的生物标志物。例如，在识别精神分裂症时，使用注意引导的RNN模型来解释fMRI特征的显著性。Transformer是一种有前途的注意力模型，它没有递归网络，但能记住序列是如何被馈入模型并编码每个元素的相对位置。这些位置可以添加到fMRI时间过程的每个时间步长的嵌入表示(n维向量)中。

该方面的挑战

DL在分类和回归任务中取得了巨大成功，随着数据可用性的提高，它们的性能将不断提高。然而，仍然有一些障碍必须克服。第一个是模型设计的困难。尽管一些自微分平台极大地简化了模型设计过程，但各种超参数，如宽度、深度、损失函数和优化器通常是根据经验确定的。需要基本的DL理论、标准和手册来指导DL模型的设计。神经影像学中经常出现的另一个挑战是高维小样本问题。为3D或4D神经影像数据设计的DL模型通常由数百万个参数组成，需要许多样本进行优化。大规模的神经衰老数据集不易获得，噪声分布也各不相同。因此，自然图像的增强方法不太适合神经成像数据。需要多集数据整合/融合和改进算法来解决这些领域差异。

DL用于分析神经影像数据中的动态活动和连接性分析

认知、知觉和运动产生于大脑系统的非线性动力学活动。这些功能是由潜在的心理过程和外部任务驱动的。大脑活动和连接动力学(如慢性连接体)的表征对我们理解大脑功能至关重要。然而，由于缺乏能够从高维数据中有效捕获非线性动力学的计算工具，揭示大脑功能中的相关瞬态模式具有挑战性。最近的研究表明，DL模型，特别是基于RNN的网络，具有捕获全脑动态信息的潜力，并利用时变的功能联系状态剖面来扩展我们对脑功能和障碍的理解。

使用DL模型建模时空动力学传统的神经影像分类方法使用功能性网络连接或空间图作为输入特征，忽略了时间动态信息。DL模型表现出优秀的特征表示学习能力，为直接从时间过程中获取时空信息提供了潜在的工具。特别是RNN在序列建模任务中取得了巨大成功，目前广泛应用于大脑动态分析以诊断大脑障碍、大脑解码和时间动态功能状态转换检测。dFNC是一种从fMRI数据中识别时变连接模式的方法。为了捕捉dFNC中的时间信息，Yan等人提出了一种全双向模型，该方法通过使用两个信息流方向相反的隐藏层来处理前一个和后一个信息，从而更好地表征“时序连接体”(参见图3中的“dFNC的”)。为了克服处理数据时窗口大小参数的影响，利用CNN直接提取功能连通性。然后，多尺度RNN可以在群体辨别任务(例如，精神分裂症诊断)的背景下将时空信息纳入fMRI时间过程中，并通过结合CNN和RNN 提高预测性能(参见图3中的“RNN时间过程”)。基于RNN的模型也可以应用于自适应地捕获时间相关性，为大脑状态解码和实时预测提供更多的区别性信息。这些研究显示了DL模型在研究大脑动态活动中的潜力，随着更多模型的开发，这一进展无疑将继续下去。

DL与常规神经影像学工具的结合

为了便于发现神经影像数据中的动态信息，DL可以与经过充分研究的数据驱动机器学习方法(如ICA)相结合，这也可以提高结果的可解释性。如[14]所示，Ka- zemivash和Calhoun提出了一种新的脑时空数据分解的网络，该网络将3D CNN与ICA相结合，使该框架能够探索高维(5D)脑动力学(见图3中的“DL与ICA相结合”)。此外，RNN-独立分量分析已被提议将RNN和独立分量分析相结合，以实现连续的独立分量。

图3 使用合适的DL模型(例如，RNN)处理来自神经成像的数据，以促进各种任务(例如，脑网络识别)。

分析目标，这可以显式地优化线性生成模型，以对时间动态进行建模，并从时间序列观测中推断出内在的网络(网络结构和所识别的空间图见图3中的“RNN利用独立分量分析”)。RNN-独立分量分析扩展了RNN框架，以纳入infomax目标，并可应用于各种类型的数据(例如，模拟合成数据、任务相关扫描和静息状态fMRI)，以识别相似的任务相关模式和定向时间连接。

如果您对脑影像等数据处理处理感兴趣，欢迎浏览思影科技网站及公众号了解思影脑电相关的其他课程。具体可浏览以下链接（可添加微信号siyingyxf或18983979082咨询，另思影提供免费文献下载服务，如需要也可添加此微信号入群)：

北京：

第五十九届磁共振脑影像基础班（北京，4.14-19）

第二十九届磁共振脑网络数据处理班（北京，4.22-27）

第二十五届DTI班（北京，5.6-11）

第十一届磁共振ASL班（北京，5.12-15）

第二十二届脑影像机器学习班（北京，5.28-6.2）

重庆：

第十九届磁共振脑影像结构班（重庆，4.13-18）

第六十届磁共振脑影像基础班（重庆,4.21-26）

第五届影像组学班（重庆，5.19-23）

上海：

第十二届任务态功能磁共振数据处理班（上海，4.21-25）

第六十一届磁共振脑影像基础班(上海，5.7-12）

更新：第二十八届磁共振脑网络数据处理班（上海，5.22-27）

南京：

第二十四届DTI班（南京，4.9-14）

数据处理业务介绍：

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理
思影科技脑结构磁共振成像数据处理业务（T1)

思影科技啮齿类动物（大小鼠）神经影像数据处理业务
思影数据处理业务三：ASL数据处理
思影科技脑影像机器学习数据处理业务介绍
招聘及产品：

思影科技招聘数据处理工程师 （上海，北京，南京）
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍

挑战1

基于RNN的模型利用了对后续信息/动态功能连接进行建模的能力，并模拟了大脑状态的周期性变化；因此，与传统模型相比，它们可以实现改进的预测性能。然而，在现有的工作中，动态特征通常是使用基于窗口的相关性来计算的，因此窗口大小是一个影响dFNC特征的超参数。具有短窗口的基于窗口的方法不能捕获长时间相关性，而较长的窗口会降低对快速变化的敏感性；因此，选择合适的窗口大小可能很困难。最近在自然语言处理方面的研究已经提出了Transformer模型，该模型可以利用注意力机制捕捉顺序的相互依赖，从而提供一种潜在的大脑动态建模解决方案。除此之外，由于缺乏作为金标准的真实标签，验证结果可能具有挑战性。考虑到大多数现有测量侧重于综合评估，而非时间目标信息，需要进行额外研究以评估分析结果的可靠性和再现性。

用于多模态融合的DL

神经影像学数据通常包括多种形式，如sMRI、fMRI和dMRI，可为观察和分析大脑提供多种视角。为了利用不同模态的互补表示，需要多模态融合来更全面地理解脑机制。然而，传统的非线性融合模型可能不够灵活，无法完全捕捉多模态神经成像的内在结构和外部关系。DL多模态融合方法能够学习数据的多级非线性抽象表示，在许多任务上优于传统的融合方法。

多模态融合的DL框架

多种DL模型(包括前面提到的所有模型)已被用作提取多模式神经影像融合框架中高级特征的主要特征。模型的选择在很大程度上取决于每种模式的数据结构。尽管可用的模型多种多样，但大多数多模式融合策略可分为以下两类：前融合和后融合。前融合策略在将来自多个模态的原始特征发送到DLs之前将其连接起来。相比之下，后融合策略首先使用DLs来学习每个模态的特征表示，然后将它们连接起来用于后续任务。前融合易于实现，但当一种模态的特征维数比其他模态高得多时，或者当由于数据格式的异质性导致级联不可行时，前融合具有很大局限性。与前融合相比，后融合框架在处理各种模式时更灵活，但在寻找最佳架构和超参数时更费力。

除了基于级联的后融合，通过考虑跨模态关系，当前已经提出了更先进的后融合方法。多模态重建、深度经典相关分析(DCCA)和基于知识转移的融合是三种流行的多模态融合方法。如图4所示，多模态重建方法采用自动编码器(AE)来学习最佳的跨模态表示，从而最好地重建原始数据。与标准AE不同，多模式重建通过两个编码器学习表示，然后使用共享表示进行重建，这适用于未获取标签的无监督任务。获取跨模态相关性或互信息是进行多模态融合的另一种方式。一个例子是DCCA，它允许两个DL模型学习新的表示，同时优化它们的相关性。利用知识转移可以进一步提高DCCA融合性能，知识转移保留了相关特征，并利用了不同模态之间的信息。

图4 三种基于跨模态表示的多模态融合DL框架。

(a) 多模态重建方法采用AE来学习能够最佳重建原始数据的最佳跨模态表示。

(b) 跨模态相关性允许DL模型在优化其相关性的同时学习新的表示。

多模态融合在神经影像学中的应用

多种神经影像学数据的可用性和大脑的复杂性导致了许多多模态融合应用。例如，Venugopalan等人通过整合MRI成像数据、电子健康记录数据(包括患者和医生的纵向信息)和SNP数据对前融合和后融合框架进行了比较，以用于阿尔茨海默病的识别。结果表明，由于数据的高度异质性，后融合的效果优于前融合。其他研究还提出了一些其他最先进的跨模态表示方法，这些方法可以更好地学习潜在的共享和区分关系。深度协作学习可以将标签纳入DCCA方法。已在静息态fMRI和任务fMRI上得到验证，在年龄组分类方面表现良好。还有研究提出将AE与DCCA方法相结合，通过整合fMRI数据和SNP数据更好地对精神分裂症进行分类[图5(a)]。此外，多模态GCN通过使用流形正则化方法，并考虑模态内和模态间的受试者关系，在认知能力预测任务中取得了较高的成绩[19][图5(b)]。Plis等人提出了一种基于翻译的融合模型，该模型学习了从sMRI计算的功能性动态连接和静态灰质模式之间的联系。

图5 多模态融合在神经成像中的应用。

(a) 使用DCCA框架结合AE对精神分裂症进行分类的成像-基因整合工作。

(b) 多模态GCN，在模式内和模式间进行知识迁移学习。流形正则化项充分探索了对象之间的关系，加强了模型以学习模态内部和模态之间具有高脑结构相似性的对象的相似嵌入

挑战2

最先进的融合方法(例如，基于跨模态表示的方法)的发展已经显示出在DL框架内优于单模态分析的增强性能，这有助于从全面的角度对脑部疾病进行早期检测或亚型分类。然而，多模态融合往往缺乏足够的训练样本。此外，大多数方法要求所有数据集都有可用的模式，导致部分只具有某种模态的样本被丢弃。现有研究中对模式和融合策略的选择通常是基于直觉。因此，需要对如何提取高级特征以及它们如何有助于下游任务进行定量解释。此外，由于从各种模态中提取的关节特征被聚集在一个统一的模型中，因此每个模态的作用可能是模糊的。因此，在多模态数据融合的背景下，对其的解释可能更具挑战性。

可视化和亚型发现

DL的灵活性，包括其对非线性关系建模的能力，至关重要，但也可能使解释具有挑战性。与自然图像相比，神经影像学研究往往缺乏坚实的groud truth，尤其是精神神经影像学研究。正因为如此，DL可视化是扩展我们对脑部疾病临床线索知识的重要途径。可视化还可用于发现精神障碍的生物标志物和关系。

生物标志物发现的网络可视化

合理的网络可视化方法应满足以下三个要求:

1) 人类可读和可理解；

2) 提供关于在特定的脑通路或区域中表示什么精神或行为构造的有用信息；

3) 基于相关的神经生物学信号，而不是混乱的信息。流行的可视化方法可分为四类:局部信息通过可替代模型进行可视化、遮挡分析、基于梯度的方法和相关性逐层传播[图6]。

可解释的局部替代物通过在被解释的输入样本周围用更简单的模型(例如，线性模型)局部逼近DL，然后产生可解释的更简单模型的直观总结，从而产生DL的解释。Local Interpretable Model Agnostic Explanations（LIME）和Shapley值是局部替代的两个经典实现。Lombardi等人嵌入了LIME和shaply值，通过确定每种脑形态描述对每名受试者最终预测年龄的贡献并研究这两种方法的可靠性来解释DL模型的结果。shaply方法的发现为形态学衰老机制提供了更可靠的解释。遮挡分析是一种广泛使用的体系结构独立方法，其中当遮挡输入特征中的面片或单个特征时，特定类型的扰动分析会重复测试对神经网络输出的影响。根据这些评分构建热图，突出显示遮挡对功能造成最大影响的位置。遮挡分析已经应用于基于CNN和RNN的模型，用于测量每个脑区在分类任务中的贡献。

图6 神经成像中DL的可解释性和可视化。

(a) 神经成像中的四种DL解释方法。通过分析预训练的DL模型，将区别性特征可视化，以提供对其作为潜在生物标志物的使用的洞察。

(b) 由DL提取的高度抽象的特征可以被进一步聚类用于频谱可视化。

SAD:分裂情感紊乱；SZ:精神分裂症；BP:双相情感障碍；HC:健康对照。

基于梯度的方法可以使用自动微分来计算，并且不需要修改原始DL模型。在精神分裂症谱系障碍与对照的分类中，已使用特定的基于梯度的实施方式对辨别性脑区进行了识别。然而，基于梯度的方法通常计算量很大，尤其是在使积分过程精确的情况下。分层相关性传播明确利用了神经网络的分层结构，并迭代运行以产生解释。逐层相关性传播分析是在单个输入样本的水平上执行的，使得能够从组的水平到单个受试者、跟踪和时间点的水平的数据粒度的几个水平上进行分析。

使用DL框架发现疾病谱系和亚型精神疾病越来越重要。以往通常根据症状而非生物学数据进行精神类的疾病诊断。不同类型的精神疾病之间往往也存在相当大的重叠，这使得准确诊断具有挑战性。检查精神疾病情感谱系障碍的神经生物学可极大地推进精神病学诊断的生物学确定，这对开发更有效的治疗方法至关重要。利用误差反向传播方法，DL可以联合优化特征嵌入和分类超平面。如图6(b)所示，abul等人对整个训练样本范围使用t分布随机邻域嵌入(tSNE)将学习到的DL嵌入投影到2D平面上，并通过类标签对2D投影谱进行颜色编码。他们发现了独立的性别聚类，从谱的一端到另一端按年龄增长的顺序排列。基于MRI使用DL鉴别亨廷顿病也获得了类似的结果。结果表明，与传统的机器学习相比，DL编码可以更鲁棒的辨别神经影像表征。

亚型发现对于迈向精确医学(如个体化治疗)至关重要，但也具有挑战性，尤其是在信噪比较低时。在这种情况下，聚类模型可能会被年龄、性别或地点效应等混杂因素误导。为了克服这个问题，可以使用DL将神经影像学数据映射到可以对亚型进行聚类的子空间中。监督分类模块可首先使用监督方式进行训练，将原始fMRI特征映射到精神疾病之间差异更明显的子空间。然后将原始特征的高级表示提交给tSNE聚类模型，用于可视化不同分类之间的组差异[图6(c)]。

挑战3

在神经影像学中解释ML模型本质上是一个开放的过程。不断发展的DL解释方法显示出为大脑活动的新机制和大脑疾病的生物标志物提供见解的前景。与包含数百万精确标记的训练样本的自然图像数据集不同，在神经衰老研究中，基本事实通常并不清楚，且错误解释的成本很高。例如，即使是熟练的精神病学家也不能仅仅根据功能磁共振成像来区分抑郁症患者和健康对照者。因此，可能在自然成像领域工作良好的DL解释方法不容易应用于神经成像领域，因为难以对结果进行验证。此外，不同的可解释性方法可能并不总是获得一致的结果。应使用各种侵入性技术(如脑刺激)验证结果的有效性。

未来方向：从实验室到临床实践

DL模型的优势在于，它们可以高效地实现复杂的、原则上任意的预测-响应映射。这种能力会带来一些成本，包括需要大量的训练样本、复杂的模型架构以及模型解释的困难。尽管在神经影像分析方面取得了有希望的结果，但很少有算法达到临床实施，挑战了这些技术在实际临床应用的希望与媒体炒作之间的平衡。机器学习方法及其相关生物标志物的真正临床价值可能来自于我们在疾病被临床诊断之前检测成像特征细微差异的能力，根据具有临床相关性的成像表型细化临床类别的能力，或为治疗提供信息的能力。

最小化模型设计和模型微调负担DL方法的广泛成功产生了对架构工程的需求，其中数据科学家的任务是手动设计日益复杂的神经架构。神经结构搜索(NAS)技术已经出现，它寻求自动选择、组合和参数化DL模型，以在给定的数据集和任务上实现最佳性能。NAS方法最好根据三个因素分类：搜索空间、搜索策略和性能评估策略。搜索空间是指可以由NAS算法表示的潜在神经架构，搜索策略是指如何探索该空间。性能估计策略是指NAS算法如何在给定一些训练数据集的情况下评估给定体系结构在某些任务上的性能。NAS是神经影像学中一个重要但相对较新的领域。

多站点协作中的隐私保护

多站点协作对于为DL培训收集更多数据是必要的。联合(或非集中)学习使多个站点能够协作学习共享的分类/预测模型，同时将训练数据保留在每个本地站点，而不是将数据直接传输到集中式数据仓库来构建机器学习模型。如http://coin stack . trend scent . org所示，本地站点可以下载当前的DL模型，并通过从其站点上的数据中学习来改进该模型，然后将这些变化作为重点更新进行汇总。这样的更新可以上传到云上，为通过多站点协作和隐私保护访问更多数据提供了一个可扩展的选项。

解读结果及临床验证

当使用不同的解释方法时，简明的解释结果不仅应相对一致，而且还应可用于其他数据集或任务。展望未来，有必要从相关文献和对不同类型和多种物种的侵入性研究(如经颅磁刺激或电惊厥治疗)中引入更多趋同证据，以更好地理解模型的神经生物学意义。

结论

总而言之，DL允许由多个处理层组成的计算模型学习具有多个抽象层次的数据表示，是一种有前途的方法，并且已经在神经成像领域取得了突破。在这项工作中，本文系统综述了DL在神经影响研究中的基本机制，并强调了一些关键发现，包括以下内容。

1)DL在使用丰富特征时，在大规模神经影像分类和回归任务上能够优于SML；

2)与动态分析相结合，DL更能捕捉时变信息，提高敏感性和特异性；

3)通过利用互补的、多方面的信息，与DL相结合的多模态融合比传统方法更有效、更灵活；

4)DL可以利用神经影像学中复杂的非线性关系来识别新的疾病亚型，从而促进生物标志物的发现。

成像技术、多位点协作和数据共享的发展正在产生额外的高质量神经成像数据，这些数据是支持DL揭示关键脑机制所需的。将DL解释与侵入性方法相结合将产生更可靠的生物标志物，具有潜在的临床价值。总之，DL通过多种类型的神经影像特征的透镜打开了探索大脑机制的窗口。因此，该领域正在迅速向更精确和基于生物学的诊断以及精确的临床应用发展。

原文：Deep Learning in Neuroimaging：Promises and challenges

如需原文及补充材料请添加思影科技微信：siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务，如需要也可添加此微信号入群，原文也会在群里发布，如果我们的解读对您的研究有帮助，请给个转发支持以及右下角点击一下在看，是对思影科技的支持，感谢！