如今,我们必须更好地理解精神疾病的共同和独特的病理生理机制,才能提供更有效的、个性化的治疗。为此,使用传统统计方法对“小”实验样本的分析在很大程度上不能捕捉到潜在的精神表型的异质性。来自机器学习的现代算法和方法,尤其是深度学习,为解决这些问题提供了新的希望。但是深度学习需要大量的训练(和测试)样本。然而,迄今为止人类精神病学研究中可获得的都是相对小的样本。我们回顾了机器学习方法与更传统的统计假设驱动方法的比较,它们的复杂性如何与大样本容量的需求相关,以及我们可以做什么来在精神神经科学中优化这些强大的技术。本文发表在NEUROPSYCHOPHARMACOLOGY杂志。(可添加微信号siyingyxf或18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)。可结合以下脑影像机器学习相关文章阅读,加深理解,感谢帮转支持(直接点击,即可浏览,加微信号siyingyxf或18983979082获取原文及补充材料):
Science:使用对比机器学习方法揭示自闭症神经解剖学变异结构
基于磁共振成像的脑龄研究:可解释的人工智能的当前状态和未来挑战
神经影像研究驱动的脑龄估计作为脑疾病和健康状况识别的生物学标记
基于原始影像数据的深度学习模型预测脑龄可获得可靠的遗传生物标志物 AJP:精神分裂症患者大脑加速老化的纵向识别研究 基于全球14468名被试MRI数据特征预测脑龄和疾病的深度学习模型 AJP:有和没有内化性精神障碍的受虐女孩情绪回路延迟成熟的差异性重度抑郁症患者的脑龄
基于深度学习和自闭症脑成像数据库(ABIDE)识别自闭症谱系障碍
Radiology:皮层厚度预测轻度认知障碍转化为帕金森痴呆症
Nature子刊:基于深度学习预测家族性阿尔兹海默症患者临床前功能性脑老化
使用多元表征方法提升对大脑-行为之间关系的机器学习研究的泛化
用于临床心理学和精神病学的机器学习方法
PLOS Biology:重度抑郁症多成像中心的泛化脑网络标志物
Nature Medicine:持续的实验性和临床性疼痛的神经影像生物深度学习在婴儿大脑的磁共振图像分析中的作用(上)参数选择对脑卒中后失语症预测模型的影响大脑数据分类时意外过拟合的危险
Nature Protocols:为解释神经成像中的机器学习模型
Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法
Biological Psychiatry:自闭症的神经亚型研究进展
NPP:结构MRI数据的生理性别分类显示跨性别者女性的错误分
BRAIN:利用机器学习揭示了两种精神分裂症的神经解剖学亚型
Molecular Psychiatry:静息态fMRI预测青少年认知能力
JAMA Psychiatry:脑影像机器学习预测精神疾病患者社会功能
1. 介绍
目前的精神病学诊断和预后方案需要改进。有人认为,神经动力学的相同变化可能会根据环境产生不同的行为输出。这些观察结果可能部分解释了为什么只有一小部分患者对特定疾病的药物或心理治疗有反应。因此个性化的治疗形式需要一些不同的特征来补充常规诊断。
最近,人们对人工智能(AI)算法,尤其是深度学习(DL)领域的算法寄予了很高的希望。DL算法擅长处理高度复杂的数据,其中的数据特征可能在多个层次以高度非线性的方式相互作用。例如,深度神经网络(DNNs)已经被成功地用于皮肤癌和乳腺癌的自动化 检测。
建立大型多模态数据库无疑是在无监督的情况下识别连贯的患者亚组的重要一步,通过使用不同层次分析之间的相互作用和联系,获得更好的机制理解,并进行个性化治疗。但我们需要多少数据,多“大”才足够大?DNN能否在相对较小的数据库上有效地使用?本文试图从统计和机器学习(ML)的角度来解决其中的一些问题。
2. 统计方法和ML中的模型
如前一节所讨论的,精神病学研究需要应对各种挑战,包括识别用于稳健诊断的生物标记物,识别具有共同疾病特征和共同治疗反应特征的亚组,以及通过对潜在结果和疾病轨迹的预测进行个性化治疗。这些努力的基础是对异常认知和情绪功能的神经生物学机制的更深入理解,以及基于这些见解设计有效的药物治疗和干预策略。从统计学的角度来看,前一组挑战可以用回归或分类问题来解决,或者用聚类的无监督检测来表述,而后者,可以用统计方法和ML技术与计算建模相结合来解决。
例子:
对于一个分类问题,我们可能希望通过认知任务中的大脑激活来预测治疗反应或症状的严重程度,或者根据大脑的结构特征来区分个体。在这两种情况下,我们都可以用输出变量y(例如,临床诊断或症状的严重程)与一组输入变量或特征x(例如,不同大脑区域的功能激活)之间的关系来表达我们的问题。相反,如果我们质疑当前的诊断方案,并希望在不受当前疾病分类学知识偏见的特征空间x中确定新的临床相关分组,我们将其称为无监督设置。
在这两种情况下,我们经常用数据的数学模型来表述问题,在有监督情况下用x和y之间的函数关系fθ表示。通过数据进行函数估计,这个过程被称为模型训练。在无监督的情况下,函数可能是某种形式的测量数据的结构思想,例如,指定任何可能的数据点分配到组之间和组内的距离。
2.1 假设检验vs预测
统计学模型和ML模型之间没有主要的区别,两者都可以用于假设检验或预测(见图1)。然而,假设检验和预测之间的区别很重要:虽然传统上统计学更关注假设检验,但机器学习对预测更感兴趣。在经典的统计假设检验中,我们评估关于数据的概率性陈述,通常用模型的参数来表述。这种概率推理仅基于观察到的训练数据。相比之下,在预测中,我们的目标是预测未观察到的结果,例如,给定一个新的观测x(新)的可能输出y(新)。
图1 机器学习中的统计假设检验与预测。
经典统计假设检验(底部路径)是从总体中抽取随机样本,并估计模型的参数。然后根据模型参数对关于总体的假设进行检验。相比之下,在预测方面,我们应该寻找在新样本(紫色点)中预测结果最好的模型。因此,与其在一个先验模型上确定一个被认为能描述真实总体的统计特性,不如训练多个模型,以便在一个独立的验证集(蓝点)上选择损失最小的模型。
另一个相关的问题是,所陈述的模型是概率性的还是确定性的:对于假设检验,在某种程度上总是涉及到随机变量和概率分布。对于预测,函数fθ不一定要表达一个概率关系,也就是说,我们可能只需要y = fθ(x),直接将结果y表示为特征x的某个(确定性)函数。
最后,虽然在统计中函数或模型fθ通常是非常简单的,并且/或允许精确和唯一的解析解,但在ML中fθ的函数关系可能非常复杂,就像DNN一样。虽然后者在检测和利用复杂的、高阶非线性特征组合进行预测方面可能更强大,但不利的方面在于:它们往往比fθ是一个简单的线性函数时更难以解释。
2.2 DNNs与泛函逼近定理(UAT)
DNNs可能构成了最强大的ML模型,至少从数学计算的角度来看,它们最基本和最常用的形式是确定的。DNN内部的神经网络层可以分为三类,输入层,隐藏层和输出层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。在视觉上,它们可以被理解为由人工神经元、单元或节点组成的网络,排列在前馈层中,称为前馈神经网络(FNN,图2a),每个节点计算某个非线性函数f(所谓的激活函数)对其输入的加权和。
图2 前馈神经网络(FNN)和函数逼近。
a.逻辑回归模型(上)和FNN模型(下)的示意图。逻辑回归模型通过逻辑(sigmoid)型函数直接映射加权输入,而FNN首先通过非线性的激活函数将加权输入在多个阶段中传播。
b.换句话说,FNN可以实现的函数空间更大,因此模型复杂度更高。
c.FNN可以用不同类型的激活函数来构建。
在神经科学和精神病学中,我们经常处理时间序列数据,其中输入和输出的序列可能必须相互映射,或者提取时间结构的一些信息特征。NNs可以通过合并以前的函数输出扩展到时间序列域,这种方式被称为递归神经网络(RNN)。RNN不仅包括前馈,而且还包括单元之间的递归连接,即活动可以在单元之间来回传播。RNN能够学习序列每一刻的主要原因是它们随时间共享参数,并且序列的每个输入处的状态变量随时间更新。给定先前观察到的序列值,可以将随时间共享的这些参数与状态变量进行组合后以预测序列中的下一个值。一些研究人员将RNN中的“深度”更多地指的是它们的时间深度,可以通过系统检测到观测和时间结构之间的依赖性。在这种意义上,深度RNN架构的目的是为了桥接长时间延迟,如长短期记忆(LSTM)或基于门控循环单元(GRU)的网络。
通过著名的普遍逼近定理(UAT),只有一个非线性隐藏层的神经网络也能实现寻找到数据中y = f(x)的真正潜在函数关系。无论真实数据中y = f(x)的真正潜在函数关系是什么,只要有一个隐藏层的NN就可以表示它。这就提出了一个问题,为什么在DNN中包含一个以上的隐藏层是一种明智的做法。为了达到所需的精度,层数也需要不断增长。除了这些计算上的原因,DNN有能力进行表示学习或自动特征提取,实现这些可以直接从跨层构建数据本身实现。例如,当对面部图像进行训练时,DNN将学会在早期层中表示简单的特征,然后在随后的层中表示眼睛和鼻子,最后表示整个脸。
最后,原则上任何前馈或时变(动态)函数都可以在只有一个隐藏层的神经网络中实现,但它们没有说明实现过程中涉及的困难,也没有说明需要多少数据才能达到令人满意的精度。增加单元或层数,或更一般地增加函数fθ的复杂性,将增加所需的精度,但通常也会增加模型估计或训练所需的样本大小。这是因为模型的复杂性和样本的大小是密切相关的,我们将在下文中讨论。
如您对脑影像机器学习等数据处理如脑功能,脑网络或其他模态脑影像数据处理感兴趣,请浏览思影以下链接(直接点击即可浏览),感谢转发支持。(可添加微信号siyingyxf或18983979082咨询):
上海:
第三十一届磁共振脑网络数据处理班(上海,10.28-11.2)
北京:
第十一届磁共振ASL(动脉自旋标记)数据处理班(北京,11.3-6)
南京:
重庆:
数据处理业务介绍:
招聘及产品:
思影科技招聘数据处理工程师 (上海,北京,南京,重庆)
3. 模型复杂性、样本大小和一般化
在医疗领域,当我们试图寻找新的生物标志物时,我们最终更关心的不是假设检验,而是预测。我们要求,在一组训练数据上训练的模型,如果我们将其应用于之前训练集中不包含的新的观察,它需要有助于正确的诊断,或确定最佳的治疗形式。与用于模型训练的标准一样,PE(预测误差)可能基于不同类型的损失函数,例如MSE损失或基于可能性的标准。至少有三种不同类型的预测我们需要区分(见图3):样本内PE指的是我们保持一部分数据固定的情况,例如预测值,其目的是确定这组给定的预测值的一组新的真实结果和预测结果之间的预期偏差(图3c)。一个更有趣的量是样本外PE,我们在一些数据上训练模型,然后绘制一个新样本来评估PE(图3c)。在这个过程中,我们经常假设新样本与训练样本具有相同的统计特性,即来自相同的概率分布。然而,对于临床实践来说,情况可能并非如此。在这里,我们将其称为“范围外”PE(图3d),只有当我们拥有来自不同领域的数据,或者我们拥有一个基于我们的样本的过程的良好机制模型时,才能现实地确定这一PE(预测误差)。
图3 不同类型的预测误差。
(a)与两个虚构群体(红色和蓝色)相关的两个高斯分布的等高线,显示了一个特征和一个结果(例如,脑容量减少和年龄)之间的概率关系。
(b)从两个分布中抽取n = 30点的两个随机样本(用对应的颜色表示)。
(c) 50%的红色样本(如b所示)用于拟合线性模型(斜红线)。剩下的50%的样本点(测试集)在这里显示为白色圆圈,用于评估样本外误差(红色竖线)。另一个结果样本是在用于训练(橙色圆圈)和用于评估样本内预测误差(橙色竖线)的完全相同的特征值上绘制的。
(d)该模型(红线,与c中相同)现在被用于预测蓝色(更广泛)样本(可能在不同地点收集)的结果。垂直的蓝色线表示域外预测误差。这个误差似乎比其他两个误差(c)都要大,表明对结果的系统性低估。
3.1 偏差-方差权衡与模型复杂性
训练误差不是一个很好的衡量我们的模型质量的方法。对于具有给定参数数量的给定模型,确实如此,因此确定模型参数以使训练损失最小化是完全合理的。然而,当我们的模型应用于一个新的样本时,这并不是一个很好可以用于估计预期的损失的方法,因此不适合在不同参数数量的不同模型之间进行选择。合理复杂的模型,可以在任意程度上拟合(即近似)任何函数,从而拟合任何给定的训练数据集,使得对于足够数量的参数,训练误差实际上为零(见图4b, c)。一个具有相同数量的预测结果的回归模型,或者在一个相当强大的模型中具有足够多的参数的回归模型,可以生成一条经过每一个数据点的曲线。在某种程度上,这样的模型将捕获包括噪声在内的数据的全部可变性,这意味着它将“解释”纯噪声为系统的和有意义的波动。这种现象也被称为过拟合。过拟合意味着预测中存在较大的方差,因为每次我们绘制一个新的样本,我们将得到一个新的模型,如图4c所示。
图4 模型复杂性和偏差-方差权衡。
(a)随着模型复杂性的增加(x轴),方差增大,偏差减小。我们希望选择平衡这两个量的(最优)模型,达到最小的预测误差(y轴,最小的偏差加方差,黑色曲线)。增加样本量有效地将这个最小值移向右边(虚线),使模型具有更高的复杂性。
(b)欠拟合示意图(上)和过拟合示意图(下)。
(c)过拟合细节:这里我们假设输入和输出之间的真实关系是完全线性的,如黑线所示(该线上有5个数据点)。假设我们只观察了一个数据点(黑实心圆),我们可以同样很好地拟合无限多条直线。在这个简单的例子中,只要增加一个数据点的样本量(假设数据中没有噪声),我们就可以挑选出正确的模型。
在经典假设检验中,我们假设我们一开始就有一个相当精确的数据模型,并在这个假设下执行所有的概率计算(图1)。在许多实证情况下,特别是在精神病学研究中,这种方法并没有带来预期的进展。因此,最近的重点已经转移到采用ML方法直接从数据推断更复杂的模型。在统计学上,模型将表现出低偏差,我们指的是真正的数据生成函数与函数的最佳可能模型估计之间的系统性偏差。人们可以粗略地将模型复杂性视为模型与数据匹配的通用性和灵活性的度量。理想情况下,我们希望选择一个尽可能强大和灵活的模型,同时以最佳方式平衡偏差和方差。这时就需要考虑样本量和“大数据”了。更大的数据集能够从数据中学习更复杂的关系,因为它们允许更复杂的模型,同时保持较低的偏差(图4a)。样本量有效地转移了偏差和方差之间的权衡,从而可以在不影响PE的情况下推断出更复杂的模型(见图4a)。
虽然偏差-方差权衡是传统统计学习理论的核心概念,并决定了模型的选择,但最近对DL模型的经验观察令人惊讶地表明,一旦模型强烈过拟合,超过了与训练数据完美匹配的点,与直觉完全相反的是,在过拟合范围内测试误差首次达到最大值后(图4a),随着模型复杂性的进一步增加,它倾向于再次下降。在这种模式下,所有的模型几乎完美地拟合训练数据。然而,重要的是,只有在优化函数中包含所谓的正则化项时,才会发生这种情况。这一现象背后的精确数学机制仍然没有被完全理解。
3.2 模型选择
为了从一大类模型中选择一个特定的模型或它的参数数量,我们需要估计样本外PE。已经有人试图推导出解析公式来获得这样的估计值,但需要使用大多数直接基于数据的数值方法来产生可靠的估计值。模型选择的解析公式通常基于训练误差的调整或惩罚项来估计PE。其思想是,训练误差是对预期测试误差的过度乐观估计,因此通过近似这个乐观估计并将其添加到训练误差中,我们应该得到一个更好的PE(预测误差)估计。
常用的分析公式是Akaike信息准则(AIC)和贝叶斯信息准则(BIC)。这些方法通常只提供相对粗糙的PE近似,AIC和BIC分别被观察到过拟合和欠拟合。估计样本外PE的最流行的数值方法可能是交叉验证(CV),也有点像目前的“金标准”。在CV中,我们用更大比例的可用数据训练模型,比如90%,然后用剩下的10%未用于模型训练的数据测试模型性能,从而得到一个样本外PE。在K倍CV中,对每个K = 10 × 10%的数据片段依次重复此过程,即每个10%的片段保留一次用于测试,而在剩下的90%上训练模型,这样可以充分利用所有可用的数据,在10次迭代中进行训练和测试。最后的PE估值是所有10次运行的平均值。CV既可用于选择模型,也可用于评估样本外PE,但不能同时用于两者。
如果我们数据太少,我们可能无法负担一个单独的测试集或只是一个小的测试集。当然,测试集越大,平均PE估值的不确定度就越低。事实上,过小的测试(和训练)样本可能是我们在精神病学研究中观察到模型分类准确性和样本量之间存在反直觉负相关的原因之一。
综上所述,随着样本规模的增加,估计模型参数的方差(标准误差)会减小。因此,我们可以承担更复杂的模型,这些模型具有更低的偏差。这一权衡究竟在哪里得到了优化,需要通过正式的程序(如CV)来确定手头的特定数据和模型类。数据的其他属性,如不可约噪声的数量或数据的分布类型,也会影响所需的样本量。如果分布非常广泛,例如多模态,我们可能需要更大的样本。
3.3 跨地点或范围外预测
当我们获得一个样本外PE估计时,我们假设希望任何新数据都具有相同的统计/分布属性。从本质上说,这意味着数据中的所有来源的可变性需要在样本中是相同的。但是某一特征的变异性(如脑容量减少)可能来自多种来源。纳入标准的差异可能会限制疾病相关或生物学变异性,而不同的测量设备(例如多地点研究中不同的MRI机器)可能会在样本中产生不同的误差,从而可能导致违反常见的分布假设。这反过来可能导致建立临床相关预测模型所涉及的最大危险之一。
3.4 时间序列和顺序数据的特殊挑战
我们在时间序列分析中的目标可能是双重的:一方面,我们可能只想从时间序列中提取时间特征,如不同频带的功率或功能连接,然后我们希望将其用作分类或回归模型中的预测。在这种情况下,假设我们有来自N个独立被试的时间序列,我们可以简单地按照前面所述进行,因为最终用于预测的模型本身并不是一个时间序列模型,而是一个前馈模型,它只是使用从N个独立时间序列中提取的特征作为输入。然而,通常情况下,我们的目标是预测一个时间序列,例如,我们可能希望预测股票市场份额,或从跨时间顺序输入的医疗记录中预测未来患者的轨迹,或从各种传感器和生态瞬时评估等移动数据中预测。在这些情况下,我们必须考虑时间序列和顺序数据都有它们自己的具体问题。
由于数据中的自相关性(以及潜在的非平稳性),将数据分成K次折叠并执行CV就不是那么简单了。例如,我们不能只是随机地遗漏一些数据点。同时,任何被省略的段都将与其他段高度相关,至少与直接前面的段高度相关,这意味着它不会构成一个独立的测试集,而这是通过CV确定PE的基础。如果来自N个不同的受试者(或相当独立的试验)的时间序列可用,我们可以执行与上面相同的策略,在90%的受试者上训练模型,固定参数,并在剩下的10%的受试者上测试它们的预测性能。
这就带来了另外一些问题,我们在这里只简要介绍一下:
首先,生物学和心理学中的时间序列数据是由一些更大的潜在动力系统生成的,我们只部分观察到。当我们将训练过的时间序列模型应用于新的观测时,我们对初始条件的估计可能因此是高度模糊的,通常意味着预测中存在着令人无法接受的大方差。
其次,特别是对于由动力系统生成的时间序列,哪一种度量最适合用于评估预测性能,这实际上是一个开放的问题,这使得传统的MSE或基于可能性的测量方法直接在时间序列上进行评估不合适。
3.5 模型训练、计算效率和优化
另一点要考虑的是,从数据推断统计模型和ML模型所涉及的计算和数值问题。与简单统计模型不同的是,许多ML算法,特别是DNN算法的优化环境可能非常复杂,因此优化成为一个严峻的挑战。潜在的,即使我们知道模型A在原则上是优化给定数据集的偏差-方差-权衡的模型,在实践中可能很难找到其多元损失函数中优化该权衡的特定点,这需要大量的计算资源。一般来说,更复杂的模型需要更长的训练时间。因此,人们需要意识到,像DNN这样更复杂的模型的适用性不仅受到满足偏差-方差挑战所需的样本量的限制,还受到寻找接近最优解所涉及的附加问题以及随之而来的计算成本的限制。
总而言之,精神病学中的回归和分类问题可能需要学习特征和结果之间的复杂映射,整合来自多个领域的数据,并结合时间和空间信息。然而,由于偏差-方差权衡和在寻找复杂模型的最小损失函数和计算硬件和时间资源时所涉及的计算问题,样本量可能会减少所需复杂性的推断模型。
4. 精神病学中的数据
虽然DNN能够揭示复杂但具有高度预测性的特征组合,但它们通常需要大量的参数。例如,在使用8个隐藏层和超过6000万个参数的DNN的图像处理任务中,超过1500万的标记图像被用于训练。这些样本量在精神病学领域是无法获得的,特别是当涉及到昂贵而费力的技术时,比如认知任务中的神经成像。然而,这并不意味着我们不能在精神病学中使用基于DNN的方法。用于数据分析的DNN框架包括:(1)模型架构,(2)损失函数,(3)训练算法,以及(4)DNN要在其上训练的数据本身。事实上,我们可以对所有这四个组件进行调优,使DNN方法适用于中小型数据集,下面将简要介绍。
4.1 网络体系结构
特定的网络体系结构决定了哪一类函数可以在计算上有效地近似。因此,通过简化训练过程,选择合适的模型体系结构可能有助于减少对样本量的要求。
CNN是专门为处理计算机视觉中的图像信息而设计的网络的一个例子。受灵长类视觉系统的启发,CNN的建立是为了利用图像中的空间不变量来提取特征映射。在医学上,当基于成像数据开发分类器时,CNN可能是最受欢迎的DNN模型。在精神病学和神经病学中,它们被用于根据通过MRI获得的脑解剖图像、功能性脑图像或由此衍生的功能连接或结合结构和功能性神经成像数据对疾病进行分类。
与视觉域的CNN类似,在时间域中使用的LSTMs是一种专门的系统,能够通过特殊的“记忆结构”和乘法门提取时间序列中的长期依赖关系,乘法门控制信息流入和流出这些记忆结构。例如,在精神病学中,LSTMs已被用于移动数据来预测双相情感障碍患者的抑郁和躁狂状态,用于从言语中检测精神障碍,用于区分精神病患者和健康对照组。
4.2 损失函数和正则化技术的选择
损失函数的选择主要取决于数据的规模水平(例如,连续、顺序或分类数据),以及我们是在统计框架内工作还是在更确定的ML框架内工作。在“传统的”确定性ML中,我们经常简单地采用MSE准则。在统计框架中,我们通常希望对包含不确定性度量的数据的分布进行建模,因此使用基于可能性的标准或贝叶斯方法进行模型训练。
除了考虑我们是想在统计的还是确定的ML框架中工作外,损失函数可以通过特定的方式修改,以鼓励训练算法找到解,从而以特定的方式减少有效参数数量或模型复杂性。这被称为正则化。最流行的技术是L1和L2正则化,后者也被称为“权重衰减”,Tikhonov正则化。L2 正则化公式非常简单,是直接在原来的损失函数基础上加上权重参数的平方和。L1 正则化公式是直接在原来的损失函数基础上加上权重参数的绝对值。
L1和L2正则化在所有类型的统计模型和ML模型中都很常见,包括FNN和RNN。对于DNN,开发了更具体的技术,以防止过拟合,并鼓励更稀疏和更简单的解决方案。一个特别有效的方法是参数退出。在这里,一部分单元被临时随机地从网络中移除(例如,通过将它们的输出乘以0并有效地将它们从损失函数中删除),以便在任何时候只训练一个“变薄”的网络。
4.3 训练算法
我们已经将训练(优化或推断)算法确定为另一个可能影响所需样本大小的潜在瓶颈。我们可以采取几个步骤来改进。首先,任何训练算法都从初始提取参数估计开始,也称为初始化,大量的研究完全集中于在DNNs中开发有效的初始化过程。Hinton等人介绍了一种巧妙的训练技术,在该技术中,层层预先训练,在整个网络完全训练之前,网络参数已经被初始化(见图5)。虽然这听起来像是一个相当小的修改,但这一见解对DNN算法的突破性成功贡献很大。
图5 DNNs用于个体化(治疗)预测。
为了使用更复杂的FNN或RNN模型进行量身定制的预测,我们可以在多个个体上预训练。我们首先减少输入维度,例如使用自动编码器(步骤1),然后对减少的大样本输入预训练DNN(步骤2)。然后在第三步对预训练的网络对特定个体进行微调。
另一种方法是annealing方法,此方法在整个训练过程中逐步修改损失函数,这样训练算法首先被引导到参数空间的区域,在那里通常可以找到更高的可能性(更低的损失)解,然后迭代地改进这些解。
此外,更新参数的具体过程也会产生重要影响。也许训练过程中最具决定性的方面是(1)它如何随数据大小和参数扩展,(2)它利用数据中的哪些信息,(3)它采取哪些步骤来远离局部极小值,以及(4)如何处理损失函数中斜率不同的区域。也许DNN最流行的训练方案是随机梯度下降(SGD)。一般来说,梯度下降背后的思想是为了向一个函数的局部最小值移动,我们只需要遵循与该函数的负梯度成正比的步骤。SGD利用了这一原理,但它不是计算整个数据集的梯度,而是从(随机抽取的)样本的一小部分或小批量中计算梯度,因此在训练过程中注入了一些噪声,可能有助于避免局部极小值。特别是对于大量数据,SGD计算效率高,速度相对较快。
最后,现代DNN研究已经提出了一些通用程序,以促进独立于推理框架的模型的可泛化性,这些推理框架现在是许多标准协议的一部分。这些方法包括早期停止或对抗性训练程序。
4.4 数据本身处理
特征选择:
我们还可以对数据本身采取各种步骤,以减轻模型方面的负担,并帮助推广到新观察。一种想法是降低数据的维数,或以某种方式对其进行预处理。基于我们自己的领域知识,我们可以预选我们认为信息丰富的特征。例如,使用来自sMRI图像的平均区域灰质体积作为特征,将省去神经网络基于个体素值识别和表示不同分离区域的工作。大多数精神病学研究事先手工选择特征,例如,通过从BOLD时间序列中计算功能连接值,为神经网络省去了学习哪些时间表示是相关的工作。事实上,任何数据处理步骤都可以被视为一种特征选择,包括预处理、缩放或感兴趣区域的选择。
然而,这种基于领域知识的预处理和特征选择的缺点可能是我们会忽略一些数据的重要性和高度预测性的方面。在某种意义上,这与DL的精神相矛盾,DL应该自己找到有用的数据表示和特性。
数据增强:
我们也可以人为地增加样本的大小和样本内部的变化,而不是减少输入维度,这种方法被称为数据增强。对于图像数据,这包括旋转、平移、缩放、翻转、剪切或拉伸原始图像,或简单地添加噪声。这些操作背后的想法是,它们将帮助网络学习不变的、更一般的表示。例如,在识别一张脸上的微笑时,图像是否模糊或脸是否倒置并不重要。另一种数据增强策略涉及生成模型,如果经过适当训练,就可以生成与原始数据具有相同分布属性的数据。为此目的,最近流行的一种框架被称为生成对抗网络(GANs)。GANs试图通过训练两个相互竞争的网络(生成器网络和鉴别器网络)来接近真实的数据生成分布。生成器试图创建与真实数据尽可能相似的数据样本,而鉴别器则努力区分真实和假(生成的)样本。生成器将学习近似数据生成分布,从中可以生成新的(模拟的)数据样本并用于训练。
迁移学习:
迁移学习是另一种改善数据状况的技术,它通过将在一个数据域中获得的知识转移到另一个的问题设置中。例如,机器学习者经常使用已经公开可用的经过训练的DNN模型,如AlexNet或VGGNet,而不是每次面对一个新的问题设置时就从头开始训练DNN进行对象识别任务,并简单地调整当前任务的参数。这种预训练或迁移学习节省了数据资源和训练时间。在这方面,开放数据可能会提供巨大的帮助。模型可以在当前应用程序中针对类似的,或者理想情况下甚至是相同的紊乱进行预先训练,然后只对目标数据进行微调。
元学习:
将知识从其他领域或任务转移到当前问题设置的另一种方法是元学习。元学习,又称“学会学习“,即利用以往的知识经验来指导新任务的学习,使网络具备学会学习的能力,是解决小样本问题常用的方法之一。一个特别有趣的方面是,这样的算法成功地设计了很多分类器,这些分类器只从少量数据实例中学习。可以想象的是,沿着类似的路线,汇集多个精神病数据集并使用元学习原则,可以产生在新问题设置中快速学习的分类器集。
5. 未来的研究方向
为了设计有效的治疗方法,我们需要在跨诊断水平上更好地理解病理下的神经生物学机制。现代ML算法,如DNN,由于其在其他医疗领域的出色表现,提供了新的希望。乍一看,DNN的复杂性(以及计算强度)是有代价的——大量的样本。然而,正如我们在这里讨论的,有几种方法可以使DNN适用于更小的样本容量。因此,DNN方法在神经科学领域也是有一定的未来的。
对DNN中隐藏的网络表征的更深入的理解,即“打开黑匣子”,可以在另一方面揭示新的见解或产生关于病理神经生物学机制的新假设。事实上,一些研究已经证明DNN表示可能产生可解释的特征。评估DNN的可视化方法目前是ML领域的一个热门话题,这一方向的未来发展可能有助于发现可解释的精神疾病的多模态生物标志物。
如需原文及补充材料请添加思影科技微信:siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!
微信扫码或者长按选择识别关注思影
非常感谢转发支持与推荐
欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号siyingyxf或18983979082进行咨询,所有课程均开放报名,报名后我们会第一时间联系,并保留已报名学员名额):核磁:上海:
第二十四届脑影像机器学习班(上海,10.9-14)
第三十一届磁共振脑网络数据处理班(上海,10.28-11.2)
第六十九届磁共振脑影像基础班(上海,11.4-9)
北京:
第十届脑网络数据处理提高班(北京,10.20-25)
第十一届磁共振ASL(动脉自旋标记)数据处理班(北京,11.3-6)
第七十二届磁共振脑影像基础班(北京,11.9-14)
第六届影像组学班(北京,11.25-30)
南京:
第三十三届磁共振脑网络数据处理班(南京,10.16-21)
第二十二届磁共振脑影像结构班(南京,10.24-29)
第七十一届磁共振脑影像基础班(南京,11.12-17)
重庆:
第九届脑网络数据处理提高班(重庆,10.13-18)
第七十届磁共振脑影像基础班(重庆,10.22-27)
第二十八届弥散成像数据处理班(重庆,11.5-10)
第六届弥散磁共振成像提高班(重庆,11.17-22)
脑电及红外、眼动:
南京:
第五届脑电机器学习数据处理班(Matlab版本,南京,11.3-8)
北京:
上海:
重庆:
数据处理业务介绍:
招聘及产品:
思影科技招聘数据处理工程师 (上海,北京,南京,重庆)