社会和职业障碍加剧了精神病和抑郁症的负担。目前我们需要一种风险分层工具来为处于这些疾病风险中的早期阶段的个人提供个性化的功能障碍预防策略。
目的:
1、使用临床的、基于影像的和组合的机器学习来确定是否可以在患有精神病的临床高风险(CHR)状态或近期发作的抑郁症(ROD)的患者中确定与社交和角色功能相关的预测因子;
2、评估机器学习的地理的(译者注:理解为多中心数据的一致性)、转诊的和预后的通用性,并将其与人类预后进行比较;
3、探索包括临床和组合机器学习在内的顺序预后(译者注:本文未解释文中出现的所有顺序一词的意义,译者猜测取自为其所使用的优化算法,即顺序和倒序两种搜索算法)。
实验设计:
该多中心研究在5个欧洲国家/地区的7个学术早期识别服务(academicearly-recognitionservices)中对CHR(临床高风险)状态、以及ROD(近期发作的抑郁症)和新近发作的精神病和健康对照组的患者进行了18个月的随访。在2014年2月至2016年5月之间招募了参与者,并分析了2017年4月至2018年1月的数据。研究借此验证预后模型的表现和可推广性。
结果:
在CHR状态下共有116个人(平均[SD]年龄,24.0[5.1]岁;58 [50.0%]女性)和120例ROD患者(平均[SD]年龄,26.1[6.1]岁;65)[54.2%]的女性)接受了329(142)天的平均(SD)随访。机器学习使用临床基准数据预测了1年的社交功能,对CHR状态76.9%的患者和ROD状态66.2%的患者具有平衡准确性。对于CHR(临床高风险)状态被试,使用结构神经成像模型的平衡准确度为76.2%,在ROD(近期发作的抑郁症)患者中为65.0%,在组合模型中(即融入影像与行为学数据模型),CHR状态为82.7%,ROD为70.3%。进入研究前的功能低下是转诊的预测因素。在CHR组中,内侧前额叶和颞顶枕灰质体积(GMV)的减少以及小脑和背外侧前额叶GMV的增加具有预测价值。颞叶和前额叶GMV的减少对ROD患者具有预测价值。CHR状态的被试(但不是ROD的患者)的预后不良与精神病,抑郁和焦虑症的风险增加相关。机器学习胜过专家的预测。将神经影像机器学习添加到临床机器学习中可将CHR状态不确定患者的预后确定性提高1.9倍,将ROD患者的预后确定性提高10.5倍。
结论:
精密医学工具可以增强有效的治疗策略,旨在预防CHR状态或ROD患者的社会功能障碍。
1.引言
最近的研究已将早期识别和预防精神病的范围从疾病转移扩展到不良结果。这是因为出现在2%至10%的年轻人中的精神病临床高危(CHR)状态可能与包括情绪、焦虑和物质使用障碍在内的非精神病发病率有关。此外,CHR状态经常导致持续的神经认知和功能缺陷,这可能导致受影响的年轻人在个人发展的关键阶段越来越落后于同龄人。前瞻性研究表明,这些缺陷与临床和社会人口统计学风险因素相结合,预示了不良的临床结果。同样,经历首次严重情感发作的青少年和年轻人不仅有复发的风险,而且经常出现持续的功能缺陷、抑郁症状和生活质量下降,这在CHR病患中经常见到。这些共同的障碍可能表明,在这些疾病致残的结果之前,有一种常见的神经生物学替代方法。这种大脑病理学标记物可以准确地估计功能缺陷的风险,从而为这些弱势人群提供适应风险的预防性干预措施。
先前的研究表明,可以通过使用临床、神经认知、神经生理学和磁共振成像(MRI)数据,在研究背景和二级保健机构招募的CHR(临床高风险)状态的个别患者中预测精神病。该研究表明,通过机器学习研究进一步加强了这种精密医学方法,临床基线数据可能与跨多个站点的首发精神病和抑郁症的功能和治疗结果的预测指标相关。概念验证研究还表明,可以通过基于MRI的模型单独估算CHR状态的整体功能。但是,研究者应针对社交和角色功能领域分别评估功能结局的可预测性,因为这些领域可能与症状、神经认知功能缺陷和不良结局有不同的联系;例如,混乱和处理速度可能与社会残疾的预测因素有关(而社会残疾又与向精神病的转变有关),而运动障碍和语言流利性可能与职业残疾有关。此外,应在部分重叠的临床综合症(如CHR状态和重度抑郁症)之间比较可预测性,并在不同地域的大型弱势人群中进行基准测试。尽管已经从概念上提出了建议,但是,是否可以在顺序预后算法中有效组合行为和基于MRI的数据以优化预测能力的问题尚待经验验证。这种算法的临床实施不仅取决于其可推广性的证据,而且还取决于模型与医疗保健专业人员的做法之间的准确性。只有对此范围的保守估计表明可以提高准确性、时间和成本方面的临床推理,才能在临床环境中使用计算机辅助决策支持。
最后,特定结果相关的经过验证的预测变量可以为现有的社会心理干预措施提供资源分配工具,并促进生物行为机制研究,从而为社会和职业残疾提供新的个性化和预防性治疗。为了建立这样的预后标志,研究者收集健康对照参与者和年轻患者的多模式数据,进行个性化预后工具(PRONIA; http://www.promia.eu/)的早期精神疾病管理研究。收集的这些患者,满足CHR状态、最近发作的精神病或最近发作的抑郁症(ROD)的标准。
在第一项研究中,研究者测试了功能、神经解剖和组合机器学习模型的地理通用性(即临床多中心),以预测欧洲5个国家招募的CHR状态和ROD患者的1年社会和角色功能。本研究将评估模型在诊断和心理测量结果领域中的跨诊断转移性以及它们与预后性的关联性,将它们与临床评估者提供的预后评估相比较,并探索结合临床和基于影像学的模型的顺序预后算法。
2 .方法
2.1 样本选择和排除标准
论文使用国际公认的诊断标准,于2014年2月至2016年5月在5个国家的7个地点招募116名CHR患者,120名ROD患者,和176名健康对照者。文中使用标准化的纵向研究方案进行随访。在此基础上,参与者接受了全面的临床、神经心理学和神经影像学检查。
2.2实验步骤
本文运用机器学习工具NeuroMiner(version 0.998;https://www.pronia.eu/
neuro-miner/)训练3种模型并进行了留一站点(leave-site-out,与留一法思想类似,每次训练,本研究将某一地点的数据作为测试集,其余地点数据作为训练集)交叉验证,使用的机器学习模型为反向消除支持向量机(sequentialbackward elimination support vector machines,SBE-SVM)。第一次模型使用参与者的8个基本全局功能社交和角色得分建立模型,第二个模型分析了参与者的灰质体积图像。第三个模型将前两个模型的输出合并为一个结果。随后作者验证分析并评估了图像质量、随访间隔变化、站点相关变化和基线社会功能变化的影响。基于体素的形态计量学(VBM)分析比较患者组预测因子与对照组样本的神经解剖学变异的关联模式。最终进行模型相互比较,并与专家评分者的预后表现进行比较。同时,文中测试了2个临床组之间的可转移性,并评估了它们对社会功能以外的预后的可概括性。
文中所用结构像磁共振序列的参数设置如下:
eFigure2-A:被试配对列表。
eFigure2-B:在PRONIA的多站点数据库中进行的主要机器学习分析的设计。
本研究分析的数据是从5个欧洲国家/地区的7个不同站点收集的,涵盖了各种精神保健系统。Leave-site-out(LSO)交叉验证方案用于优化基于sMRI的临床和组合机器学习系统,以对GF:S(社会得分) / R(角色得分)衍生的结果类别进行通用预测:测试数据进入内部LSO交叉验证周期(CV1)用于搜索变量组合,使得SBE-SVM模型泛化能力最大化(指模型通用性强,消除过拟合对后期预测的影响)。
该参数通过在CHR组中训练用于基于sMRI(结构像磁共振)的GF:S结果预测因子的PSI超参数立方体来阐述(右上图)。然后,在外部LSO周期(CV2)上应用优化的处理步骤(灰色箭头),不对保留的验证数据进行任何修改,以估计给定预测模型的总体水平可概括性。通过在CV1级别上串联基于MRI的和临床预测模型的(决策得分)D作为特征池,以进行顺序前向选择,并使用L2正则化的对数回归(SFS-L2LR)进行堆叠。【译者概括:本研究用SBE-SVM(SBE是一种搜索算法,其目的是评估所有变量的所有可能组合,本研究中,丢弃20%的特征后SBE停止迭代。可以理解为进行SVM训练的特征选择工作)进行模型训练,采用留一站点法(leave-site-out)进行模型的交叉验证,最终确定最优模型。此处为该研究最核心的东西,请慢慢体会】
3.统计分析
3.1 统计方法
(1)本文在地点、年龄和性别的健康对照组参与者与临床组参与者进行匹配(未说明具体检验方法)。
(2)基于MRI和临床预测的可靠性通过交叉验证比率模型进行了测量CVR =mean(w)/standard error(w)。其中,w是经过交叉验证产生支持向量机模型的标准化权重向量。
(3)文中使用置换检验来评估模型的统计显著性,P值定义为小于0.05。
(4)文中使用SPSS版本23(IBM)进行描述性单变量分析。
3.2 结果验证方法
(1)模型之间相互比较,并与专家评分者的预后表现进行比较。
(2)利用错误检出率对描述性统计中的多重比较P值进行修正,并对分析结果进行概化分析。
4.研究结果
4.1 基线水平的群体社会人口学和临床差异
(1)在CHR(临床高风险)状态下,随访时社会功能受损患者的社会人口学特征与未受影响的患者无显著差异。然而,角色功能结果受损的患者在教育年限方面表现出更多的教育问题。与随访时未受损的ROD(近期发作的抑郁症)患者相比,预后受损的ROD患者的平均年龄更低,受教育年限更少。随访中社会功能受损与ROD患者在基线时有较低的可能性有关。
(2)在所有研究小组中,社会功能结果受损与研究纳入前一个月全局功能障碍评分较低有关,此外,随访时社会功能受损与基线时社会功能下降有关。
(3)在精神病理学层面,作者观察了社会功能受损组和未受损组之间在负性症状领域的转诊断基线差异(p<0.05),并在阳性和阴性综合征量表(PANSS)总评分基线和PANSS阴性症状评分基线进行进一步的差异分析,结果均有差异(p<0.05)。随访时受损的CHR状态患者在基线时的社会功能和角色功能受影响更大。与未受损的患者相比,CHR状态中角色功能障碍患者的基线阴性和PANSS总症状明显更严重。
(4)对基线数据进行分析时,CHR组(51例患者中的33例[64.7%])和ROD组(49例患者中的42例[85.7%])的当前情绪(current mood)、焦虑(anxiety)和药物使用(substance use )的诊断普遍存在,但这些指标在用于统计的样本间无显著差异。这些效应是由当前的抑郁所驱动的,独立于向精神病的转变(发生在CHR状态的8例患者和2例ROD患者中)。另外,作者观察到研究地点与CHR状态患者的社会功能结果之间存在显著的交互作用。
4.2 机器学习分析
(1)最有用特征:临床模型的可转诊可移植性优于sMRI预测模型。
对于模型预测ROD(近期发作的抑郁症)患者社交功能结局评分,最有用的特征是:基线时的总体功能量表评分、纳入研究前一年的总体功能量表评分的降低以及一生中总体功能量表评分的降低。
在CHR(临床高风险)小组中,最有用的特征是:纳入研究前一年的社会功能评分降低,以及一生中最高的全局功能评分降低。详情见Figure1:
1-A:CHR状态患者的社会功能的特征选择概率图
1-B:CHR状态患者的角色功能的特征选择概率图
1-C:ROD患者的社会功能的特征选择概率图
1-D:CHR状态患者的社会功能在临床与结构MRI模型的可靠性概要
1-E:ROD患者的社会功能在临床与结构MRI模型的可靠性概要
1-F:ROD患者的角色功能在临床与结构MRI模型的可靠性概要
其中,橙色线为0.5,等于支持向量机模型所选给定变量的50%;橙色线在交叉验证比率2时,表示对给定变量可靠参与模型的决策规则具有95%的置信度。
(2)以sMRI为基础的预测模型在CHR组中确定了社会功能的结果,其平衡准确率为76.2%。基于SMRI(结构磁共振)的预测模型确定了ROD(近期发作的抑郁症)患者的社会功能,其平衡准确度为65%,敏感性为64.6%,特异性为65.5%(P=.04)。模型的性能不受位点效应,随访时间的影响,也不受结果类别之间基线功能差异的影响,如图:
eFigure6:相关分析用于评估临床和sMRI分级器产生的预后判断评分是否受到CHR组和ROD组随访时间的影响
与社会功能领域相比,sMRI数据不能用于准确估计角色功能结果。
eFigure7-A:原始GF:S结果预测模型的预测标签与站点效应分析所产生的标签定性的比较
eFigure7-B:原始GF:S预测模型交叉验证比的预测标签
eFigure8-A:预测受损组与预测良好组基于体素的方差分析结果
eFigure8-B:预测受损CHR组与健康对照组的位点,年龄,性别的匹配分析
(3)不同的神经解剖学模式(Figure2)阻碍了研究组之间的SMRI模型转移。在CHR(临床高风险)组中,随访时的社会功能损害与(1)内侧前额叶、扣带回、眶额、岛叶、颞叶、顶叶和枕叶脑区的基线GMV降低相关,(2)小脑、背侧和背外侧前额叶GMVs(灰质体积)(Figure2A)增加。
在CHR状态或ROD患者中,随访期间受损的个体与没有随访损害的患者相比,灰质体积增加或减少。
图中,冷色标表示在CHR状态或ROD的人中灰质体积增加,暖色标表明灰色物质体积减少与随访时无损害的患者相比,随访中的患者受损。
(4)与CHR(临床高风险)组不同,ROD(近期发作的抑郁症)患者的社交功能结局相关的神经解剖学模式包括(1)海马,杏仁核,颞下皮质,丘脑和背侧扣带回皮质中的GMV(灰质体积)降低,以及(2)内侧和外侧前额叶,眶额叶,岛状和颞叶皮质中的GMV升高。当将ROD和预后较差的患者与使用VBM的健康对照参加者进行比较时,会再次遇到这些位置GMV的增加,而不是颞下颌的减少。(eFigure 9)。相反,与健康对照组相比,ROD患者的社交功能预后未受损,前额叶GMV降低,颞叶边缘GMV升高。
eFigure9-A:基于体素的120名健康志愿者和60名具有良好社会功能预期结果的ROD患者
eFigure9-B:120例健康志愿者与60名预测不良社会功能结局患者的体素方差分析结果
eFigure9-C:基于体素的ROD患者随访时预测预后良好与预后不良的方差分析结果
(5)预测社会功能评分的联合模型(这里的联合模型都是行为和影像)对CHR状态患者的预后进行了评估,其平衡准确性为82.7%。同样的模型对ROD患者的预后进行了估计,其平衡精度为70.3%。合并模型的预后总结指数(PSI)在CHR组中比基于sMRI的模型的PSI高出12.2%,在ROD组中高出11.5%,在CHR组中比临床模型高出11.9%,在ROD组中比临床模型高出9.4%。
(6)此外,顺序社会功能预测分析显示,随着临床模型不确定性的增加(决策得分更接近于支持向量机的决策边界),CHR状态组联合模型的预后总结指数增加到82.6%,ROD患者的预后总结指数稳定(35%-50%)。因此,在不明确的情况下,与评估患者在基线和纳入研究前的社会和角色功能的纯临床预测模型相比,组合模型(这里的组合模型都是行为和影像)为处于CHR状态的患者提供了1.9倍的预后获益,为ROD患者提供了10.5倍的预后获益。
eFigure12-A:在越来越模糊的临床决策评分临界值下,sMRI临床GF:S联合预测模型的CHR患者所占的百分比
eFigure12-B:正预测值(PPV),负预测值(NPV)和预后总结指数(PSI)的预测表现
eFigure12-C:两种模型的PSI比值作为临床模型模糊度的变化情况
在52%的CHR组中,决策得分≥-0.78和≤1.92的sMRI临床联合预测似乎特别优于纯临床算法。
ROD组的临床结合预测算法分析。
(7)专家评分者的全局功能评估正确识别了CHR状态参与者的社会功能结果,其平衡精度为71.8%。专家评分者用ROD准确地鉴定了参与者的社会功能结果,其平衡正确率为59.6%。评估者的评估正确识别了角色功能结果,CHR状态患者的平衡准确性为70.4%,ROD患者的平衡准确性为57.9%。因此,评估者低估了CHR状态患者和ROD患者的社会功能和角色功能受损的风险(表2)。模型在所有预测任务(见eTable 9)中都优于专家评估者,并且不受患者的年龄、性别或种族的影响(见eTable13)。
4.3 诊断性预后综合
在CHR组中,临床预测模型提供的不良社会功能预后与随访时DSM-IV-TR诊断的患病率增加相关:CHR状态49例患者中有13例预后较差(eTable随访中有10例患有重度抑郁症,而预后良好的组为0%(χ21= 15.8;P<.001)。临床预测模型在随访时预测出严重的抑郁症,其平衡准确度为79.5%(P <.001;补充材料中的eTable 10)。
同样,CHR组的49位患者中有25位(51%)的预后较差,至少有1种DSM-IV-TR情绪,焦虑或物质使用障碍,而CHR组的52位患者中有6位预后良好(χ21= 18.5; P <.001;平衡准确度:73.2%; P = .03)。
临床、影像和联合模型的预后泛化表现,
只有sMRI模型始终给精神病患者提供了较差的社会功能预后(平衡准确性,72.7%;P=.01),导致预后不良的患者的转移风险为11.9%,预后良好的患者的转移风险为0%(X2= 21=6.28;P=.02)。在ROD患者,社会功能的预测并没有推广到诊断结果。
表中,TP:真阳性,TN:真阴性,FP:假阳性,FN:假阴性,Senc:敏感度,Spec:规格特异性,BAC:平衡精度,PPV:正预测值,NPV:负预测值,PSI:预后总结指数,AUC:曲线下面积。
5.总结
(1)不管是使用功能基线数据还是sMRI(结构像磁共振)数据进行分析,角色功能与预测因子的相关性都要低于社会功能与预测因子的相关性,这种表现在使用sMRI数据进行分析时更为明显。原因是与社会功能相比,环境和临床因素对角色功能的影响可能更大,该原因导致角色功能有更大程度的时间波动(eFigure4中GF:R有更宽的横坐标表现)。长时间的时间波动,反过来又可能会协调临床和SMRI预测因子间的差异。(见补充材料的eFigure4)
GF:S(社会,蓝色)和GF:R(角色,橙色)在CHR和ROD组中的直方图分析随时间变化
其中,CHR和ROD患者的全局功能、社会和角色评分随时间变化的差异似然比分析见eTable 9(使用McNemar’s检验对三种机器学习模型和专家评分者之间的误分类率进行两两比较。每个研究小组和结果标签分别进行比较)
(2)临床评估者(人工)高估了患者的社会功能改善,尤其是在ROD组中(只有27%的患者最终会出现预后不良)。另外,将社交功能障碍按较低的临界值分类时,ROD患者的评估者表现更好,这表明预后推理对随访中更严重的功能缺陷敏感(补编中的表14)。
专家评分者的预测表现作为降低适用于CHR个体和ROD患者随访GF:S(社会)评分的分类阈值的函数
(3)本研究证实了CHR状态患者(以MRI模型评估为基础的社会功能障碍预后)会出现持续症状、职业残疾和较差的生活质量(补充材料中的eFigure10)。因此,用于社会功能缺陷的风险计算提供了一种可访问的工具,该工具用于对处于CHR状态的个体进行更广泛的精神病学风险筛查。相比之下,针对ROD患者的模型并没有类似的泛化能力。两种模型泛化能力的差异可能与最近的发现相一致,即精神病患者与抑郁症患者之间存在明显的社会认知缺陷,此外,精神病患者的发病率、社会功能和社会认知过程三者之间存在密切联系。
eFigure10-A:通过正交非负性矩阵t因子分解,将所有变量投射到4个因素上,得到稀疏因子矩阵。
eFigure10-B:9个月T1检查的随访数据被投影到相应的NNMF模型中,采用获得的随访因子得分,计算分析中每个CHR和ROD的因子轨迹。
(4)文中探索了顺序预测模型是否可以为结构性神经成像的靶向使用提供依据。文中证实,通过在预后工作流程的后期阶段加入sMRI,可以最大程度地提高sMRI的成本效益比(参见补充材料中的eFigure12和eFigure13)。
(5)在CHR状态患者和ROD患者中,不同社交功能结局相关的神经解剖学模式之间存在显著差异。处于CHR状态的患者中,功能受损与GMV(灰质体积)改变有关(GMV改变代表了正常大脑变化的偏离),并映射到salience网络、周围神经系统语言相关系统、默认模式网络和中央执行网络。相比之下,ROD组的社会功能受损与扩展前额叶、岛叶和外侧颞叶GMV增加有关,这种相关模式能够将患者与健康对照者区分开来。结合新近研究(一项关于ROD的VBM meta分析报告显示,脑岛、丘脑和颞叶体积增加,而背外侧前额叶皮层体积减少;而另一项研究显示,扩大的岛叶和前额叶体积的减少在复发性抑郁症和早期发病的患者中尤为明显),本文推测:ROD不能恢复的患者,其动态脑容量变化没有充分的前额叶补足过程。
6.局限性
文中数据未满足补充材料中的eFigure3的分布要求,因此选择了分类而不是回归模型。
文中数据未满足补充材料中的eFigure3的分布要求,因此选择了分类而不是回归模型。
未来研究方向中,考虑环境和临床变量的纳入是否可以改善与功能障碍结局的关联。同时,需要进一步研究来了解控制精神病学功能预后的因素,以设计可最佳减轻预后偏差的算法。此外,未来研究应评估不同数据组合的附加值,包括神经认知,脑电图,基于传感器的活动模式和语言模式以及多组学信息。
总结:
本文通过机器学习方法对生理(基于sMRI的VBM分析)和行为(8个基本全局功能社交和角色得分)数据进行整合建模以对CHR状态和ROD患者进行预后预测,效果优于人工评估,说明了机器学习结合磁共振脑影像作为一种精密医学的工具可以增强有效的治疗策略。
原文:
Koutsouleris N, Kambeitz-Ilankovic L, Ruhrmann S, et al; the PRONIA Consortium.
Prediction models of functional outcomes for individuals in the clinical high-risk state for psychosis or with recent-onset depression: a multimodal, multisite machine learning analysis. Published online September 26, 2018. JAMA Psychiatry.
微信扫码或者长按选择识别关注思影
第十四届磁共振脑网络数据处理班(重庆,7.26-31)
第三十届磁共振脑影像基础班(南京,7.31-8.5)
第十届脑影像机器学习班(南京,6.30-7.5)
第十二届磁共振弥散张量成像数据处理班(南京,6.18-23)
第二十届脑电数据处理中级班(重庆,8.9-14)