基于时频表征与卷积神经网络的情绪识别

情绪由各种情况下的认知逻辑反应组成，这种心理反应源于生理、认知、行为的变化。脑电图(EEG)信号为情绪识别提供了非侵入性、非放射性的解决方案，情绪的准确、自动分类可以促进人机界面的发展。本文提出通过不同卷积神经网络(CNN)来自动提取和分类特征，首先使用平滑伪韦格纳分布将滤波后的EEG转换为时频表征图像，图像输入预训练的AlexNet、ResNet50、VGG16，以及可配置CNN，通过准确率、精确率、马修斯相关系数、F1分数、假阳性率评估四个CNN的性能。结果表明，可配置CNN需要的学习参数非常少，且精度更高，在现有研究使用的方法中表现最好。AlexNet、ResNet50、VGG16、可配置CNN的准确率分别为90.98%、91.91%、92.71%和93.01%。本文发表在IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS杂志。(可添加微信号siyingyxf或18983979082获取原文，另思影提供免费文献下载服务，如需要也可添加此微信号入群，原文也会在群里发布)。

思影曾做过多期脑电机器学习相关的文章解读，温故知新，请点击以下链接结合阅读（直接点击，即可浏览，加微信号siyingyxf或18983979082获取原文及补充材料）：
基于EEG信号的情绪识别

基于EEG信号与面部表情的连续情绪识别

利用脑电连通性特征和卷积神经网络的情绪分类

EEGNet：一个小型的卷积神经网络，用于基于脑电的脑机接口

BRAIN：静息态脑电图揭示了肌萎缩性脊髓侧索硬化症的四种亚型

基于M/EEG的生物标志物预测MCI和阿尔茨海默病

基于机器学习的脑电病理学诊断

高阶统计量在EEG信号处理中的应用

EEG分类实验block设计的危险与陷阱

Current Biology：视觉想象和视觉感知共享Alpha频带中的神

脑电研究：通过神经活动和视觉特征的多模态学习

JAMA Psychiatry：使用机器学习的方法探究焦虑和创伤性障

Nature neuroscience：利用encoder-decoder模型实现皮层活

ANNALS of Neurology：中风恢复过程中脑机接口可促进运动

Nature Biotechnology: EEG特征预测重度抑郁症的抗抑郁药反应

BMC Medicine：自闭症谱系障碍静息态EEG信号的定量递归

SCIENCE ROBOTICS：非侵入式神经成像可增强机器控制

Lancet Neurology：一种供四肢瘫痪患者使用硬膜外无线脑机

Lancet经典：植物人意识状态的床边检测

NATURE子刊：出生第一年的纵向EEG power能识别孤独症谱

EEG机器学习：急性脑损伤临床无反应患者脑

STROKE:用于慢性中风患者运动康复的动力外骨骼的健侧脑-机

PNAS:基于脑电在线神经反馈调节唤醒程度可以改善个体

帕金森病认知图谱的EEG机器学习

BRAIN：机器学习：基于EEG的跨中心、跨方案的意识

脑机接口训练可持久地恢复中风病人的上肢运动功能

1.介绍

情绪是由表达反应(expressive response)、生理反应、主观体验组成的一种生理状态。日常生活中，情绪对参与、解释、决策都很重要，人类行为、认知、交流受到情绪的影响，爱好、兴趣、健康等相关信息也可以通过情绪来解释。通过面部表情、语音准确识别情绪有助于人机界面的发展，然而面部、语音可能被刻意改变，导致分类错误。神经生理信号测量可以克服这一问题，EEG(脑电图)信号因采集简单、使用方便受到关注，其测量的大脑电活动也很难被刻意影响。

迄今为止，研究人员已提出多种基于EEG的情绪分类方法：

简写: 支持向量机(SVM) ；功率谱密度(PSD) ；快速傅里叶变换(FFT) ；k近邻(kNN) ；多层感知器(MLP) ；短时傅里叶变换(STFT) ；线性判别分析(LDA)；卷积神经网络 (CNN) ；小波变换(WT) ；离散小波变换(DWT)；最小二乘支持向量机(MC-LS-SVM) ；经验模态分解(EMD) ；固有模态函数(IMF) ；基于相关的滤波(CIF) ；变分模态分解(VMD) ；可调Q小波变换(TQWT) ；极限学习机(ELM) ；柔性解析小波变换(FAWT)

相关文献使用的方法还有：

(1) 数据处理/特征提取：相位、角度(angle)重建+庞加莱特征提取、共空间模式和基于PSD的特征提取、基于不对称空间模式和朴素贝叶斯分类的特征提取、基于希尔伯特-黄谱+锥状分布+频谱图的混合模型、二次时频分布、群稀疏典型相关分析等

(2) 分类器：混合深度信念网络、隐马尔可夫模型、自组织映射等。滤波、FFT、小波方法基于经验选择滤波器、阶数、窗口和小波类型。窗口长度和类型的选择是STFT需要考虑的问题。基于EMD的方法是纯粹实验性的，缺乏数学建模。由于EEG是非平稳信号，准确选择TQWT、FAWT和VMD的分解参数也很困难。锥状分布(Zhao–Atlas–Marks distribution )、希尔伯特-黄变换、共空间模式容易出现噪声。此外，文献提出的大多数方法都手动提取特征和分类方法，这种传统的信号处理、特征提取、分类方式非常耗时。大量定性、定量参数分析极大地影响了系统性能，文献使用的方法也受到性能的限制。

基于上述问题，我们需要尽快开发信号的自动分解与分类方法。本文提出了基于平滑伪韦格纳分布(SPWVD)和卷积神经网络(CNN)的情绪识别方法。SPWVD用于将时域信号转换为时间、频率、幅度的表征，时频表征(TFR)图像输入CNN。我们使用三个预训练的CNN和一个可配置的CNN对图像进行分类，并评估了他们的性能参数。通过与现有技术进行比较，我们验证了提出方法的优越性。
2.方法

2.1.数据集

图片、音频、视频、音-视频可用于诱发情绪，音-视频效果最优。本文招募20名学生，平均年龄为23±0.5岁，没有任何身体或精神障碍。脑电数据集可在线获取，实验设置详细信息见参考文献。实验向被试展示10秒的印度电影音-视频片段，片段内容明白易晓、诱发单一情绪。使用国际10-20系统定位24通道采集EEG数据，采样频率256Hz。本文考察四种基本情绪：恐惧、快乐、放松、悲伤，情绪分类步骤如图1。

图1.情绪分类流程图

2.2.预处理

EEG信号包含被称为伪迹的非神经元动作产生的噪音，如眼电图(EOG)，即来自人眼背、前侧之间的角膜视网膜站立电位，频率为50-60Hz。研究发现可用的情绪识别频率低于40Hz。我们选择主要频段，通过预处理去除伪迹。带通滤波使用十阶巴特沃斯滤波器，通带、阻带频率为4和45Hz。大脑前侧对于记录人类反应有重要意义，实验放置六个额叶电极：FP1、FP2、F3、F4、F7、F8，FP2–F8、FP1–F3、FP2–F4、FP1–F7组成4个通道。滤波后的恐惧、快乐、放松、悲伤相关EEG如图2所示，从图中未看出情绪间的明显区别。

图2.四类情绪滤波后EEG；每个信号包含2560个样本，每通道每类情绪有494个信号，每类情绪有1976个信号。

2.3.平滑伪韦格纳分布(SPWVD)

CNN需要输入图像，我们将时域信号转化为TFR（时频表征）来记录谱域信息，TFR是时间、频率、幅度的同时的空间表征。STFT、韦格纳分布、SPWVD、连续小波变换(CWT)等方法可将信号转换为TFR。STFT生成的TFR称为频谱图，STFT需要选择窗口、宽度、形状、采样频率，长度必须在整个信号中保持一致。由于时频局部性，STFT获得的频谱图分辨率较差。CWT生成的TFR称为尺度谱，CWT需要选择母小波及其参数，尺度谱的分辨率取决于小波的选择。韦格纳分布生成的TFR会在低频产生交叉项和衰减。为克服这些限制，本文使用SPWVD将EEG转换为TFR。与STFT和CWT相比，SPWVD提供了很好的时频分辨率。通过在频域中引入交叉项来减少窗口，SPWVD克服了韦格纳分布的局限。SPWVD直接表征信号能量的时频定位，时、频域用于减少窗口的交叉项的长度、类型可以独立选择。因此，SPWVD具有良好的时频集群特征。SPWVD可以用公式1表示，其中γ(t)和h(t)是频域、时域中减少窗口的交叉项，时、频域平滑尺度可以轻松控制，γ(t)和h(t)的窗口长度可以独立选择。SPWVD获得的滤波EEG信号的TFR如图3。从图中可以看出，悲伤、快乐、放松、恐惧具有明显区别，快乐和恐惧的能量幅度很高(在10000范围内)，悲伤的能量幅度中等(在5000范围内)，放松的能量幅度很低(在2500范围内)。对比图2和图3可见，变换后的信号相较于滤波后时域EEG信号更方便洞察信息。

图3.使用SPWVD（平滑伪韦格纳分布）生成的EEG信号的TFR（时频表征），(a)悲伤、(b)快乐、(c)放松、(d)恐惧。

2.4.卷积神经网络

卷积神经网络是机器学习新增的子领域，受人工神经网络的启发，CNN由自我优化的神经元组成，也称为深度学习网络，自动对信号进行分类。受小鼠视觉系统的启发，CNN旨在处理图像，考虑输入信息的空间和结构信息。

近期CNN是图像分类、物体检测、人脸识别等领域应用最广泛的技术之一。CNN由多层互连神经元组成，这些神经元经过严格训练，进行特征提取和分类。CNN取代了耗时的传统特征提取、分类算法，可以自动学习，提取特征并进行分类。由于迁移和自动学习的特性，CNN广泛应用于计算机视觉领域。CNN 由一个输入层、多个隐藏层、一个输出层组成，隐藏层由卷积层(CL)、池化层(PL)、完全连接层(FC)组成。高级特征提取由CL和PL实现，分类由FC控制，每一层的功能解释如下：

(1) 卷积层CL

CL是决定CNN运行的关键。 CNN的性能取决于可学习过滤器的使用。核的空间维度通常很小，但会随图像深度扩展。二维信号的二维卷积可以写成公式2。过滤器通常按步幅(q)的像素数移动，有时也可以用z设置零填充保持空间维度。对于尺寸为Wm × Hm × Km的图像输入，Wm是宽度，Hm是高度，Km是通道数。使用大小为r × r的K0个滤波器，输出量W0 × H0 × K0可以写为公式3。卷积结合了激活函数，激活函数增强了网络的非线性，最常用的激活函数是修正线性单元(ReLu)。

(2) 池化层PL

CL后接PL，也称为子采样层/下采样层。PL的主要目标是生成下采样特征映射，使用最大/均值函数对每个激活映射进行降维压缩，通过保留有用信息来减少参数和维度。PL还可以控制过拟合。对于输入映射J，输出映射通常更小，如公式4，其中αkl和βkl是乘法和加法偏差项，down(·)是池化函数，PL的输出为FC层的输入。

(3) 完全连接层FC
PL后接FC。FC是一个前馈神经网络，将二维特征映射转换为一维特征映射，softmax 层将评分转换为概率，最后分类层基于算法将一个类分配给一个对象。

通过CL、PL、FC可以构建CNN，添加/删除层的数量直到获得所需网络性能。随着CNN的发展，许多预训练的深度CNN被用于各种机器学习问题，如AlexNet、ResNet50、VGG16、VGG19、GoogleNet等著名的预训练迁移学习网络。这些网络将先前学习的一个领域的知识迁移到另一个领域，以进行特征提取和分类，如先前训练数据集那样，将数量较少的新图像用于训练。本文使用三个可作为基准(benchmark)的CNN，即AlexNet、ResNet50、VGG16进行情绪识别。目前没有标准的CNN方法用于EEG的分析和分类，CNN的选择取决于性能，许多现有CNN具有大量的层，复杂架构显著增加了可学习参数的数量。此外，对于复杂网络，训练、测试、验证所需的时间更长。CNN的性能高度依赖于超参数，改变滤波器大小、步幅、dropout等可以改变分类精度，参数少、复杂度小可以实现更高的准确度。综上考虑，本文设计了一个可配置的CNN，有更少的CL、PC和更小的FC，由四个CL、两个PL、一个dropout层和两个FC组成，该网络的架构可以根据应用需求进行修改，添加或删除CL、PL的数量。其所需的可学习参数的数量也更少。可配置CNN的架构如图4。

图4.可配置CNN的网络架构

3. 结果

传统的分类问题涉及信号分解、特征提取、特征选择和分类，性能很大程度取决于分解、分类选择的参数。使用传统方法进行分类费时费力，因此本文提出了一种自动、可靠的情绪分类方法，基于音-视频片段诱发的四种情绪的EEG信号，带通滤波去除伪迹和噪音，使用SPWVD（平滑伪韦格纳分布）将滤波后的一维EEG转换为TFR，输入三个可作基准的预训练CNN和一个可配置CNN(四个CL、两个FC)。

带通滤波使用十阶巴特沃斯滤波器，通带频率4-45Hz，采样频率256Hz，滤波信号用于转换为TFR。使用SPWVD将一维信号转换为二维信号，Kaiser窗用于减少时、频域中的交叉项。窗口太小可能导致分辨率低，太大可能大幅增加图像大小，因此我们根据经验选择长度为31的中型窗口，为快速计算，窗口大小保持为2n-1。TFR输入AlexNet、ResNet50、VGG16和本文提出的可配置CNN。

70%的数据集用于训练网络，其余用于测试，权重和偏差学习率固定为20，使用Adam优化器缩放神经网络每个权重的学习率，batch大小和epoch数分别定为50和10，学习率为0.0001，验证频率为3，总共进行1100次迭代，每个epoch进行110次迭代。AlexNet是一个八层网络，有五个CL、三个FC，采用尺寸为227 × 227的输入图像，在第一个CL中执行具有局部响应归一化的卷积和最大池化，96个过滤器，每个尺寸为11 × 11，最大池化尺寸为3 × 3，步幅为2；第二层CL由256个过滤器组成，每个过滤器大小为5 × 5；第三、四层包含384个特征映射，每个过滤器大小3 × 3；第五层有296个过滤器，每个大小3 × 3；第六、七层是两个FC，后面是dropout层和softmax层。使用AlexNet获得的准确率为90.98%。图5显示了训练、验证的准确率和损失，达到最终迭代耗时837分55秒。

表1显示了AlexNet获得的混淆矩阵，恐惧的分类准确率为96.91%，快乐、放松、悲伤错分为恐惧的比率都非常低，分别为2.38%、0.35%和0.66%。快乐、放松、悲伤的分类准确率分别为88.77%、83.45%和95.09%。

ResNet50由50个CL、单个FC组成，滤波器大小为1×1、3×3和7×7，输入图像大小为224 × 224。通过SPWVD获得224 × 224大小的图像作为输入，ResNet50的准确率和损失如图6，准确率为91.91%，测试和验证所需总时长3325分50秒。ResNet50得到的混淆矩阵如表2，恐惧、快乐、放松、悲伤的分类准确率分别为95.70%、87.04%、90.99%和93.93%。

VGG16输入图像大小224 × 224，由16个CL、3个FC组成，滤波器大小3 × 3。VGG16的分类准确率为92.71%，训练和测试总时长2320分11秒。准确率和损失如图7，混淆矩阵如表3。恐惧的分类准确率为97.06%，快乐、放松的分类准确率分别为87.25%和93.17%，悲伤的分类准确率为93.37%，情绪错分率如表所示。可配置CNN由4个CL、2个PL、2个 FC组成，dropout为50%，滤波器大小为3×3、5×5和7×7，输入图像大小227 × 227，使用Adam优化器进行权值学习，每次迭代的训练、验证准确率如图8，总时长2449分43秒，准确率93.01%。

可配置CNN的混淆矩阵如表4，恐惧、快乐、放松、悲伤的分类准确率分别为96.71%、86.08%、93.83%和95.45%，恐惧的错分率为0.76%、0.40%和0.30%(快乐、放松、悲伤)，快乐的错分率为0.61%、0.61%和3.44%(恐惧、放松、悲伤)。

图5-8.四个CNN的分类准确率与损失

表1-4.四个CNN的混淆矩阵

表5显示了五个性能参数，即不同CNN获得的准确率、精确率、马修斯相关系数(MCC)、F1分数、假阳性率(FPR)。深度高时网络性能好吗？表6比较了不同网络的参数细节，分别为CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率。基于737452个可学习参数，可配置CNN的复杂性显著低于其他CNN，训练AlexNet、ResNet50、VGG16所需总时长分别约为838、3326和2320分钟，训练可配置CNN用时2450分钟，高于AlexNet、 VGG16，低于ResNet50。可配置CNN的准确率高于其他三个可作基准的CNN。

表5-6.四个CNN的性能参数(准确率、精确率、马修斯相关系数、F1分数、假阳性率)及详细信息(CL数、FC数、滤波器大小、总用时、参数数量、步幅、准确率)

4.讨论

表7.本文所提方法与现有先进方法的性能比较

如表7，与其他先前文献使用的方法相比，本文提出的方法使用四种不同的CNN架构，SPWVD（平滑伪韦格纳分布）获得的TFR输入AlexNet、ResNet50、VGG16和可配置CNN。AlexNet准确率为90.98%，ResNet50为91.91%，VGG16为92.71%，可配置CNN为93.01%。从表7中可以明显看出，预训练的AlexNet、VGG16和ResNet50以及可配置CNN的性能优于其他先进技术。本文所提方法的优点和局限性如下：

优点:

(1) 可靠、简单。

(2) 方法可根据应用进行调整。

(3) 其他转换技术和数据集相关范围内稳健。

局限性:

(1) 信号处理和分类使用经验参数。

(2) 测试、验证在单个数据集上进行。
5.结论

本文对多种CNN进行研究，使用EEG信号对四种情绪进行分类。与传统方法相比，CNN在特征自动提取和分类方面具有优势。本文介绍的方法使用滤波与SPWVD（平滑伪韦格纳分布）将时域EEG信号转换为图像TFR（时频表征），EEG为四种情绪(恐惧、快乐、放松、悲伤)所诱发。TFR输入四个CNN，分别为三个预训练网络(AlexNet、ResNet50、VGG16)，一个具有4个CL、2个FC的可配置CNN。分类结果表明，AlexNet在训练和测试上速度最快，VGG16次之，ResNet50最慢。可配置CNN在可学习参数显著较少的情况下提供了最大精确度。结果证明了本文所提方法相对于现有方法的优越性，该方法可用于开发基于EEG的人机界面，未来研究可以通过窗口及其大小的最佳选择来将EEG转换为图像，探索超参数优化，提高系统性能。

如需原文及补充材料请添加思影科技微信：siyingyxf或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务，如需要也可添加此微信号入群，原文也会在群里发布，如果我们的解读对您的研究有帮助，请给个转发支持以及右下角点击一下在看，是对思影科技的支持，感谢！