基于时频表征与卷积神经网络的情绪识别

情绪由各种情况下的认知逻辑反应组成,这种心理反应源于生理、认知、行为的变化。脑电图(EEG)信号为情绪识别提供了非侵入性、非放射性的解决方案,情绪的准确、自动分类可以促进人机界面的发展。本文提出通过不同卷积神经网络(CNN)来自动提取和分类特征,首先使用平滑伪韦格纳分布将滤波后的EEG转换为时频表征图像,图像输入预训练的AlexNetResNet50VGG16,以及可配置CNN通过准确率、精确率、马修斯相关系数、F1分数、假阳性率评估四个CNN的性能。结果表明,可配置CNN需要的学习参数非常少,且精度更高,在现有研究使用的方法中表现最好。AlexNetResNet50VGG16、可配置CNN的准确率分别为90.98%91.91%92.71%93.01%。本文发表在IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS杂志。(可添加微信号siyingyxf18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)。     

思影曾做过多期脑电机器学习相关的文章解读,温故知新,请点击以下链接结合阅读(直接点击,即可浏览,加微信号siyingyxf18983979082获取原文及补充材料):
基于EEG信号的情绪识别

基于EEG信号与面部表情的连续情绪识别 

利用脑电连通性特征和卷积神经网络的情绪分类

EEGNet:一个小型的卷积神经网络,用于基于脑电的脑机接口 

BRAIN:静息态脑电图揭示了肌萎缩性脊髓侧索硬化症的四种亚型

从诱发反应中解码动态脑模式

EEG脑机接口算法 

脑电信号处理的机器学习

脑电信号解码和可视化的深度卷积神经网络

基于M/EEG的生物标志物预测MCI和阿尔茨海默病

基于机器学习的脑电病理学诊断

高阶统计量在EEG信号处理中的应用

EEG分类实验block设计的危险与陷阱

Current Biology:视觉想象和视觉感知共享Alpha频带中的神

脑电研究:通过神经活动和视觉特征的多模态学习

JAMA Psychiatry:使用机器学习的方法探究焦虑和创伤性障

Nature neuroscience:利用encoder-decoder模型实现皮层活

ANNALS of Neurology:中风恢复过程中脑机接口可促进运动

Nature Biotechnology: EEG特征预测重度抑郁症的抗抑郁药反应

BMC Medicine:自闭症谱系障碍静息态EEG信号的定量递归

SCIENCE ROBOTICS:非侵入式神经成像可增强机器控制

Lancet Neurology:一种供四肢瘫痪患者使用硬膜外无线脑机

Lancet经典:植物人意识状态的床边检测

NATURE子刊:出生第一年的纵向EEG power能识别孤独症谱

EEG机器学习:急性脑损伤临床无反应患者脑

STROKE:用于慢性中风患者运动康复的动力外骨骼的健侧脑-机

PNAS:基于脑电在线神经反馈调节唤醒程度可以改善个体

帕金森病认知图谱的EEG机器学习

BRAIN:机器学习:基于EEG的跨中心、跨方案的意识

脑机接口训练可持久地恢复中风病人的上肢运动功能


1.介绍

情绪是由表达反应(expressive response)、生理反应、主观体验组成的一种生理状态。日常生活中,情绪对参与、解释、决策都很重要,人类行为、认知、交流受到情绪的影响,爱好、兴趣、健康等相关信息也可以通过情绪来解释。通过面部表情、语音准确识别情绪有助于人机界面的发展,然而面部、语音可能被刻意改变,导致分类错误。神经生理信号测量可以克服这一问题,EEG(脑电图)信号因采集简单、使用方便受到关注,其测量的大脑电活动也很难被刻意影响。   

迄今为止,研究人员已提出多种基于EEG的情绪分类方法:

简写支持向量机(SVM) ;功率谱密度(PSD) ;快速傅里叶变换(FFT) ;k近邻(kNN) ;多层感知器(MLP) ;短时傅里叶变换(STFT) ;线性判别分析(LDA); 卷积神经网络 (CNN) ;小波变换(WT) ;离散小波变换(DWT); 最小二乘支持向量机(MC-LS-SVM) ;经验模态分解(EMD) ;固有模态函数(IMF) ;基于相关的滤波(CIF) ;变分模态分解(VMD) ;可调Q小波变换(TQWT) ;极限学习机(ELM) ;柔性解析小波变换(FAWT)

 

相关文献使用的方法还有:

(1) 数据处理/特征提取相位、角度(angle)重建+庞加莱特征提取、共空间模式和基于PSD的特征提取、基于不对称空间模式和朴素贝叶斯分类的特征提取、基于希尔伯特-黄谱+锥状分布+频谱图的混合模型、二次时频分布、群稀疏典型相关分析等

(2) 分类器混合深度信念网络、隐马尔可夫模型、自组织映射等。滤波、FFT、小波方法基于经验选择滤波器、阶数、窗口和小波类型。窗口长度和类型的选择是STFT需要考虑的问题。基于EMD的方法是纯粹实验性的,缺乏数学建模。由于EEG是非平稳信号,准确选择TQWTFAWTVMD的分解参数也很困难。锥状分布(Zhao–Atlas–Marks distribution )、希尔伯特-黄变换、共空间模式容易出现噪声。此外,文献提出的大多数方法都手动提取特征和分类方法,这种传统的信号处理、特征提取、分类方式非常耗时。大量定性、定量参数分析极大地影响了系统性能,文献使用的方法也受到性能的限制。

基于上述问题,我们需要尽快开发信号的自动分解与分类方法。本文提出了基于平滑伪韦格纳分布(SPWVD)和卷积神经网络(CNN)的情绪识别方法。SPWVD用于将时域信号转换为时间、频率、幅度的表征,时频表征(TFR)图像输入CNN我们使用三个预训练的CNN和一个可配置的CNN对图像进行分类,并评估了他们的性能参数。通过与现有技术进行比较,我们验证了提出方法的优越性。
2.方法

2.1.数据集

图片、音频、视频、音-视频可用于诱发情绪,音-视频效果最优。本文招募20名学生,平均年龄为23±0.5岁,没有任何身体或精神障碍。脑电数据集可在线获取,实验设置详细信息见参考文献。实验向被试展示10秒的印度电影音-视频片段,片段内容明白易晓、诱发单一情绪。使用国际10-20系统定位24通道采集EEG数据,采样频率256Hz本文考察四种基本情绪:恐惧、快乐、放松、悲伤,情绪分类步骤如图1

1.情绪分类流程图

2.2.预处理

EEG信号包含被称为伪迹的非神经元动作产生的噪音,如眼电图(EOG),即来自人眼背、前侧之间的角膜视网膜站立电位,频率为50-60Hz。研究发现可用的情绪识别频率低于40Hz。我们选择主要频段,通过预处理去除伪迹。带通滤波使用十阶巴特沃斯滤波器,通带、阻带频率为445Hz。大脑前侧对于记录人类反应有重要意义,实验放置六个额叶电极:FP1FP2F3F4F7F8FP2–F8FP1–F3FP2–F4FP1–F7组成4个通道。滤波后的恐惧、快乐、放松、悲伤相关EEG如图2所示,从图中未看出情绪间的明显区别。

2.四类情绪滤波后EEG;每个信号包含2560个样本,每通道每类情绪有494个信号,每类情绪有1976个信号。

2.3.平滑伪韦格纳分布(SPWVD)

CNN需要输入图像,我们将时域信号转化为TFR(时频表征)来记录谱域信息,TFR是时间、频率、幅度的同时的空间表征STFT、韦格纳分布、SPWVD、连续小波变换(CWT)等方法可将信号转换为TFRSTFT生成的TFR称为频谱图,STFT需要选择窗口、宽度、形状、采样频率,长度必须在整个信号中保持一致。由于时频局部性,STFT获得的频谱图分辨率较差。CWT生成的TFR称为尺度谱,CWT需要选择母小波及其参数,尺度谱的分辨率取决于小波的选择。韦格纳分布生成的TFR会在低频产生交叉项和衰减。为克服这些限制,本文使用SPWVDEEG转换为TFR。与STFTCWT相比,SPWVD提供了很好的时频分辨率。通过在频域中引入交叉项来减少窗口,SPWVD克服了韦格纳分布的局限。SPWVD直接表征信号能量的时频定位,时、频域用于减少窗口的交叉项的长度、类型可以独立选择。因此,SPWVD具有良好的时频集群特征。SPWVD可以用公式1表示,其中γ(t)h(t)是频域、时域中减少窗口的交叉项,时、频域平滑尺度可以轻松控制,γ(t)h(t)的窗口长度可以独立选择。SPWVD获得的滤波EEG信号的TFR如图3从图中可以看出,悲伤、快乐、放松、恐惧具有明显区别,快乐和恐惧的能量幅度很高(10000范围内),悲伤的能量幅度中等(5000范围内),放松的能量幅度很低(2500范围内)对比图2和图3可见,变换后的信号相较于滤波后时域EEG信号更方便洞察信息。

3.使用SPWVD(平滑伪韦格纳分布)生成的EEG信号的TFR(时频表征)(a)悲伤、(b)快乐、(c)放松、(d)恐惧。

2.4.卷积神经网络

卷积神经网络是机器学习新增的子领域,受人工神经网络的启发,CNN由自我优化的神经元组成,也称为深度学习网络,自动对信号进行分类。受小鼠视觉系统的启发,CNN旨在处理图像,考虑输入信息的空间和结构信息。      

近期CNN是图像分类、物体检测、人脸识别等领域应用最广泛的技术之一。CNN由多层互连神经元组成,这些神经元经过严格训练,进行特征提取和分类。CNN取代了耗时的传统特征提取、分类算法,可以自动学习,提取特征并进行分类。由于迁移和自动学习的特性,CNN广泛应用于计算机视觉领域。CNN 由一个输入层、多个隐藏层、一个输出层组成,隐藏层由卷积层(CL)、池化层(PL)、完全连接层(FC)组成。高级特征提取由CLPL实现,分类由FC控制,每一层的功能解释如下: 

(1) 卷积层CL

CL是决定CNN运行的关键。 CNN的性能取决于可学习过滤器的使用。核的空间维度通常很小,但会随图像深度扩展。二维信号的二维卷积可以写成公式2。过滤器通常按步幅(q)的像素数移动,有时也可以用z设置零填充保持空间维度。对于尺寸为Wm × Hm × Km的图像输入,Wm是宽度,Hm是高度,Km是通道数。使用大小为r × rK0个滤波器,输出量W0 × H0 × K0可以写为公式3。卷积结合了激活函数,激活函数增强了网络的非线性,最常用的激活函数是修正线性单元(ReLu)      

(2) 池化层PL

CL后接PL,也称为子采样层/下采样层。PL的主要目标是生成下采样特征映射,使用最大/均值函数对每个激活映射进行降维压缩,通过保留有用信息来减少参数和维度。PL还可以控制过拟合。对于输入映射J,输出映射通常更小,如公式4,其中αklβkl是乘法和加法偏差项,down(·)是池化函数,PL的输出为FC层的输入。      

(3) 完全连接层FC 
PL后接FCFC是一个前馈神经网络,将二维特征映射转换为一维特征映射,softmax 层将评分转换为概率,最后分类层基于算法将一个类分配给一个对象。     

通过CLPLFC可以构建CNN,添加/删除层的数量直到获得所需网络性能。随着CNN的发展,许多预训练的深度CNN被用于各种机器学习问题,如AlexNetResNet50VGG16VGG19GoogleNet等著名的预训练迁移学习网络。这些网络将先前学习的一个领域的知识迁移到另一个领域,以进行特征提取和分类,如先前训练数据集那样,将数量较少的新图像用于训练。本文使用三个可作为基准(benchmark)CNN,即AlexNetResNet50VGG16进行情绪识别。目前没有标准的CNN方法用于EEG的分析和分类,CNN的选择取决于性能,许多现有CNN具有大量的层,复杂架构显著增加了可学习参数的数量。此外,对于复杂网络,训练、测试、验证所需的时间更长。CNN的性能高度依赖于超参数,改变滤波器大小、步幅、dropout等可以改变分类精度,参数少、复杂度小可以实现更高的准确度综上考虑,本文设计了一个可配置的CNN有更少的CLPC和更小的FC,由四个CL、两个PL、一个dropout层和两个FC组成,该网络的架构可以根据应用需求进行修改,添加或删除CLPL的数量。其所需的可学习参数的数量也更少。可配置CNN的架构如图4

4.可配置CNN的网络架构

3. 结果

传统的分类问题涉及信号分解、特征提取、特征选择和分类,性能很大程度取决于分解、分类选择的参数。使用传统方法进行分类费时费力,因此本文提出了一种自动、可靠的情绪分类方法,基于音-视频片段诱发的四种情绪的EEG信号,带通滤波去除伪迹和噪音,使用SPWVD(平滑伪韦格纳分布将滤波后的一维EEG转换为TFR,输入三个可作基准的预训练CNN和一个可配置CNN(四个CL、两个FC)

带通滤波使用十阶巴特沃斯滤波器,通带频率4-45Hz,采样频率256Hz,滤波信号用于转换为TFR。使用SPWVD将一维信号转换为二维信号,Kaiser窗用于减少时、频域中的交叉项。窗口太小可能导致分辨率低,太大可能大幅增加图像大小,因此我们根据经验选择长度为31的中型窗口,为快速计算,窗口大小保持为2n-1TFR输入AlexNetResNet50VGG16和本文提出的可配置CNN      

70%的数据集用于训练网络,其余用于测试,权重和偏差学习率固定为20,使用Adam优化器缩放神经网络每个权重的学习率,batch大小和epoch数分别定为5010,学习率为0.0001,验证频率为3,总共进行1100次迭代,每个epoch进行110次迭代。AlexNet是一个八层网络,有五个CL、三个FC,采用尺寸为227 × 227的输入图像,在第一个CL中执行具有局部响应归一化的卷积和最大池化,96个过滤器,每个尺寸为11 × 11,最大池化尺寸为3 × 3,步幅为2;第二层CL256个过滤器组成,每个过滤器大小为5 × 5;第三、四层包含384个特征映射,每个过滤器大小3 × 3;第五层有296个过滤器,每个大小3 × 3;第六、七层是两个FC,后面是dropout层和softmax层。使用AlexNet获得的准确率为90.98%5显示了训练、验证的准确率和损失,达到最终迭代耗时83755秒。

1显示了AlexNet获得的混淆矩阵,恐惧的分类准确率为96.91%快乐、放松、悲伤错分为恐惧的比率都非常低,分别为2.38%0.35%0.66%快乐、放松、悲伤的分类准确率分别为88.77%83.45%95.09%

ResNet5050CL、单个FC组成,滤波器大小为1×13×37×7,输入图像大小为224 × 224。通过SPWVD获得224 × 224大小的图像作为输入,ResNet50的准确率和损失如图6,准确率为91.91%,测试和验证所需总时长332550秒。ResNet50得到的混淆矩阵如表2恐惧、快乐、放松、悲伤的分类准确率分别为95.70%87.04%90.99%93.93%

VGG16输入图像大小224 × 224,由16CL3FC组成,滤波器大小3 × 3VGG16的分类准确率为92.71%,训练和测试总时长232011秒。准确率和损失如图7,混淆矩阵如表3恐惧的分类准确率为97.06%,快乐、放松的分类准确率分别为87.25%93.17%,悲伤的分类准确率为93.37%情绪错分率如表所示。可配置CNN4CL2PL2 FC组成,dropout50%,滤波器大小为3×35×57×7,输入图像大小227 × 227,使用Adam优化器进行权值学习,每次迭代的训练、验证准确率如图8,总时长244943秒,准确率93.01%

可配置CNN的混淆矩阵如表4恐惧、快乐、放松、悲伤的分类准确率分别为96.71%86.08%93.83%95.45%,恐惧的错分率为0.76%0.40%0.30%(快乐、放松、悲伤),快乐的错分率为0.61%0.61%3.44%(恐惧、放松、悲伤)

5-8.四个CNN的分类准确率与损失

1-4.四个CNN的混淆矩阵

5显示了五个性能参数,即不同CNN获得的准确率、精确率、马修斯相关系数(MCC)F1分数、假阳性率(FPR)。深度高时网络性能好吗?表6比较了不同网络的参数细节,分别为CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率。基于737452个可学习参数,可配置CNN的复杂性显著低于其他CNN训练AlexNetResNet50VGG16所需总时长分别约为83833262320分钟,训练可配置CNN用时2450分钟,高于AlexNet VGG16,低于ResNet50可配置CNN的准确率高于其他三个可作基准的CNN

5-6.四个CNN的性能参数(准确率、精确率、马修斯相关系数、F1分数、假阳性率)及详细信息(CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率)

4.讨论

7.本文所提方法与现有先进方法的性能比较

如表7,与其他先前文献使用的方法相比,本文提出的方法使用四种不同的CNN架构,SPWVD(平滑伪韦格纳分布获得的TFR输入AlexNetResNet50VGG16和可配置CNNAlexNet准确率为90.98%ResNet5091.91%VGG1692.71%,可配置CNN93.01%。从表7中可以明显看出,预训练的AlexNetVGG16ResNet50以及可配置CNN的性能优于其他先进技术。本文所提方法的优点和局限性如下:

优点:      

(1) 可靠、简单。

(2) 方法可根据应用进行调整。

(3) 其他转换技术和数据集相关范围内稳健。

局限性:      

(1) 信号处理和分类使用经验参数。

(2) 测试、验证在单个数据集上进行。
5.结论

本文对多种CNN进行研究,使用EEG信号对四种情绪进行分类。与传统方法相比,CNN在特征自动提取和分类方面具有优势。本文介绍的方法使用滤波与SPWVD平滑伪韦格纳分布将时域EEG信号转换为图像TFR(时频表征)EEG为四种情绪(恐惧、快乐、放松、悲伤)所诱发。TFR输入四个CNN,分别为三个预训练网络(AlexNetResNet50VGG16),一个具有4CL2FC的可配置CNN分类结果表明,AlexNet在训练和测试上速度最快,VGG16次之,ResNet50最慢。可配置CNN在可学习参数显著较少的情况下提供了最大精确度。结果证明了本文所提方法相对于现有方法的优越性,该方法可用于开发基于EEG的人机界面,未来研究可以通过窗口及其大小的最佳选择来将EEG转换为图像,探索超参数优化,提高系统性能。

如需原文及补充材料请添加思影科技微信:siyingyxf18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

微信扫码或者长按选择识别关注思影非常感谢转发支持与推荐

欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号siyingyxf18983979082进行咨询,所有课程均开放报名,报名后我们会第一时间联系,并保留已报名学员名额):

脑电及红外、眼动:

北京:

第二十五届脑电数据处理入门班(北京,5.16-20) 

重庆:

第二十二届近红外脑功能数据处理班(重庆,5.24-29) 

更新:第二十四届脑电数据处理入门班(重庆,6.9-13)

上海:

第三届脑电机器学习数据处理班(Matlab版,上海,5.15-20) 

第三十六届脑电数据处理中级班(上海,5.28-6.1) 

核磁:

北京:

第二十五届DTI班(北京,5.6-11)

第十一届磁共振ASL班(北京,5.12-15)

第二十二届脑影像机器学习班(北京,5.28-6.2)

第二十届磁共振脑影像结构班(北京,6.4-9) 

第六十二届磁共振脑影像基础班(北京,6.11-16)

南京:

更新:第五十八届磁共振脑影像基础班(南京,6.10-15)

第二十七届磁共振脑网络数据处理班(南京,6.18-23)


重庆:

第五届影像组学班(重庆,5.19-23)

第二十六届弥散成像数据处理班(重庆,6.14-19)

上海:

第六十一届磁共振脑影像基础班(上海,5.7-12) 

更新:第二十八届磁共振脑网络数据处理班(上海,5.22-27)

更新:第四届影像组学班(上海,6.2-6)

更新:第三届R语言统计班(上海,6.8-12)

数据处理业务介绍:

思影科技功能磁共振(fMRI)数据处理业务 

思影科技弥散加权成像(DWI/dMRI)数据处理
思影科技脑结构磁共振成像数据处理业务T1)

思影科技啮齿类动物(大小鼠)神经影像数据处理业务

思影数据处理业务三:ASL数据处理
思影科技脑影像机器学习数据处理业务介绍

思影科技微生物菌群分析业务

思影科技EEG/ERP数据处理业务 

思影科技近红外脑功能数据处理服务

思影科技脑电机器学习数据处理业务
思影数据处理服务六:脑磁图(MEG)数据处理

思影科技眼动数据处理服务


招聘及产品:
思影科技招聘数据处理工程师(上海,北京,南京)
BIOSEMI脑电系统介绍
目镜式功能磁共振刺激系统介绍