Science:从个人口语到社交世界:人类口语的神经处理

语言感知是人类语言处理复杂性的一个重要方面,同时它也是表达声音形式的主要方式,这里我们所指的语言特指的是以声音形式让我们感知又被我们传递的口语。我们都知道口语对社会交往至关重要。同时,在语言研究中口语也是第一性的,口语是语言研究中最重要的语言材料。但在当前研究中,语言研究尤其是神经语言学或心理语言学的研究其重点都放在语言的系统构成及其成分(语音、语义和句法等)等。对口语的神经机制的研究是较为缺乏的。

在这里,来自英国伦敦大学学院的研究者在science的语言专刊中发文,回顾了言语、言者(这里应该是个人的口语感知和产出,为了方便论文,我们将talker统一译为“言者”)和语言的社会性相互作用的方式,以及如何利用非人类灵长类动物研究的模型和方法,并在人类大脑中计算出这些。作者还将探讨领域通用方法在多大程度上能够解释这些神经学发现。最后,文章强调了将这些发现扩展到更好地理解对话中语言的社会使用的重要性。 

正文:

言语常被视为更抽象的语言系统的听觉形式,从神经心理学的角度来看,这种口语的处理与左后颞叶有关。然而,这一观点受到了来自不同研究的挑战。

首先,来自非人类灵长类文献的听觉处理模型认为,在语音和声音感知过程中存在多种解剖学和功能通路;第二,通过语音编码的非语言信息的处理研究;第三,语言的社会重要性。

从第一个角度看,听觉语言处理过程中涉及的背外侧颞叶可能依赖于由多个处理路径组成的感知网络,类似于在视觉系统中看到的不同的处理通路。从第二个角度来看,只要出现言语,就一定会有说话的声音出现,而且左右颞区处理这些不同信息的方式可能存在明显的大脑半球不对称。从第三个角度来看,虽然我们可以单独研究口语,但是处理口语的神经系统在社交、会话环境中发展了这些技能,口语是一种压倒性的社交行为。

我们来综合思考一下作者提到的这三个方面,首先,支持口语处理的系统可能涉及除了语言感知的核心区域韦尼克区以外的其他多个处理系统,如运动感知网络等。其次,如果只要说口语就一定会产生说话的声音,那在面对那些是由人声发出但不是语言的声音成分的加工在神经机制上和口语的处理机制在半球的不对称性是否是一样的呢?最后,从口语的交际功能看,社会性确实在很大程度塑造了口语,那么社会性是如何影响口语的神经机制呢?这三个问题中,任何一个问题的有效解决都将对口语研究产生重大的影响。接着,作者分不同的部分,按照基本问题到延伸问题的逻辑顺序展开了分析。 

口语:从声音到意义

     人类的语音信号在声学上几乎复杂得令人困惑。语音是由各种不同的口部动作组成的,例如从简短的爆发性的释放到冗长的嘈杂的片段,从鼻音到持续的元音。虽然所有的语言都依赖于对频谱的时间序列的处理,但具有语言相关性的准确的声学线索在不同的语言之间有所不同。当我们遇到一个音素或一个声学提示,而它在我们自己的语言中并没有使用时,我们很难准确地听到它,也很难在语言上使用它(比如普通话已经没有“入声”了,不懂吴语方言或者其他还保留入声的方言的人是很难听懂并且学会的)。这个问题是由于语音处理技能是在语音感知习得中的发展而产生的。

随着语言的习得,正在发育的大脑学会优先考虑与语言相关的听觉线索,并降低语音的重要性,实际上,语音在区分单词的意义上不那么重要。在语言技能的发展过程中,以整体方式处理单词可能比更细粒度的语音技能(如音素意识很多人都没有,但是仍旧能够分开字和字,并且听懂)更重要。

人类语言感知是复杂的、多稳态的。在听者的大脑中,没有任何一种听觉线索会绝对决定说话的可懂度。因为,听者会灵活地倾听,能够利用相关的听觉线索来帮助理解。这种灵活性是必要的,因为我们不断地面对新的声音和口音,以及复杂的声学听力环境。因此,听觉皮层区域需要以一种短暂且灵活的方式来适应口语的声学变化和听到语音的听觉条件。

此外,虽然口语是由一连串语音组成的,但语音本身(这里主要说的是音素)也受到周围语音的影响。不同音素的实际读音的不同取决于它们在音节中的位置,对于大多数英式英语口音来说,leaf开头的“l”和bill结尾的“l”非常不同。听者对这种语境信息是非常敏感的,并能利用它来帮助他们解码话语,而口语单词的识别不是基于一系列抽象的音位范畴的,而是基于一种基于整体形式的听觉表征的。

语音是语言的听觉形式,语言研究的主要目的是研究语言的计算特性所包含的深层结构。虽然,语音的表面结构在某种程度上与这种高阶信息是分离的,但是语音的声学形式在信息方面是丰富的,从音素、言者、情感和效果到高阶信息,如语法结构都与语音密切相关。

我们通常在嘈杂的环境中听别人说话。成年人在宽带噪声环境下(如空调或风扇)最难以理解语言。然而,在具有竞争性的演讲(比如辩论或者吵架)中包含的信息越多,成年听众就越有可能对其进行处理,尤其是在其语义内容开始与所听演讲竞争的情况下。

虽然分离语音产生和语音感知机制在概念上很简单,但感知网络对语音产生至关重要。在发展过程中,即使是中等程度的听力损失也会对语言技能的发展产生影响;相比之下,没有大声说话的能力并不会损害学习理解语言的能力。因此,语言技能的产生可能就像许多受控制的运动技能一样,是依赖于对自己行为的知觉处理的。

背侧颞叶的角色

语音是一种听觉信号,因此它在上行听觉通路中被处理,到达初级听觉皮层(PAC)和周围的听觉联想皮层,并向外侧延伸,向下延伸至颞上回(STG)。在非人灵长类动物中,PAC由三个核心区域构成,以尾侧-喙侧方向排列,然后投射到周围的带状区域和弧形区域。这些投射维持了核心区域的轴-尾结构,这种连通性在投射到前部的投射中得以保留。

在非人类灵长类动物中,这些背侧-尾侧区域存在功能差异,喙侧区域对不同种类的同种发音敏感,而尾侧区域对声音的空间位置和躯体感觉刺激敏感。因此,灵长类动物的知觉处理并不是一种单一的现象,而是依赖于不同的知觉网络,这些知觉网络可以根据不同的任务被不同的感知网络所吸收。在现实世界中,行动将取决于这些网络的协同工作。

很明显,非人灵长类动物不会说话,但它们可以利用复杂的发声,因此,也可能有类似的喉部灵活性。但归根究底,它们的发声并不接近人类语言的复杂性。因此,试图将这些非人类灵长类动物的研究映射到人类语言处理的模型上有什么价值吗?

首先,听觉皮层喙侧参与言语感知已经广泛被广泛报道:与左侧后颞上沟不同,该区域一直被强调为与韦尼克失语症相关的核心区域,早期的言语感知的功能成像研究揭示了对言语的一种主要反应,这种反应从PAC向颞极前进,进入前颞上回。无论言者的声音如何,这些左前STS(颞上沟)区域都对可理解的言语很敏感,而喙侧STG/STS区域对语音、句法和语义信息有选择性的反应。

STG对音位序列的处理具有高度敏感的模式,这显示了这些网络在不同口音和不同听力环境的言者的世界中所需要的灵活性和适应性。这种灵活性也必须适用于存在声音竞争的听觉环境;在一项研究中,被试在听演讲的同时忽略存在竞争的听觉声音,结果显示,他们的喙侧颞区对那些需要忽略的声音高度敏感。这可能意味着:喙侧听区有能力产生和表达与所听语音同时出现的语音形式。考虑到听觉环境的复杂性,这可能只是这些喙侧听觉表象形成和维持的一部分功能,以及我们在不同听觉声音之间转换注意力的能力。

     颞叶喙侧区在这些识别过程中表现出重要的半球不对称性。右喙侧颞区对非人类灵长类动物的语音特异性信息非常敏感,对语音中的自然音高也非常敏感。在人类言语的处理过程中,右喙侧区起主导作用,尽管这也可能表现出双向反应。人类非常依赖音高来区分言者。左、右喙侧区声音信息的语言处理和非语言处理的区别并不在于基本的听觉处理差异,而是反映了被处理信息种类的差异。

     听众可以用说话人的口音来帮助他们理解单词的意思,例如如果用美国口音说,英国英语的听众更有可能把“bonnet”理解为“hat”的意思。同时,熟悉的言者更容易被我们理解,而听者也能更快适应比较特别的讲话方式,表现出音素特有的适应性,但只是针对某些言者。

除此以外,我们也能更准确的辨别共同母语的不同的说话人,而在一门我们不会说的语言中,我们却很难区分不同的说话者。这些研究可能意味着语音和言者识别的大脑网络在解剖学上可能是不同的,但必须快速、连续、准确地相互作用(1)。例如,经颅直流电刺激左STG时,这种非侵入性的电刺激改变,会破坏听者对语言的适应能力。     

相比之下,尾端听觉区域对正在处理的特定种类的语音和声音信息的敏感度要低得多,而对它们的感觉运动关联则更敏感。当人们移动他们的发音器官发出声音时,或者即使他们默不作声地模仿这些动作时,尾部听觉区域也都会被可靠地激活。这似乎反映出听觉尾区在语音和声音产生的感觉指导中的关键作用。

左侧和右侧背外侧颞叶的示意图

注:图中显示的是左侧(黄色)和右侧(绿色)背外侧颞叶,以及基于行为和非侵入性刺激研究的语音和语言识别过程的语言和非语言方面可能发生的不同的候选的相互作用的通路。感兴趣的读者建议仔细读这篇参考文献(原文中引用的第53篇参考文献,如需原文请添加微信:siyingyxf1898397902)。

 语言的听觉表征的本质

语音中音素的重要性可以这样促生一种假设,即在语音的感知加工过程中,音素必须形成重要的表征线索。然而,这并不意味着音素本身,作为离散的、抽象的语言个体项目,在任何词汇处理之前,都是在语言理解过程中被编码的。事实上,人们很可能会认为,语音之间的顺序依赖关系(对听者来说信息量很大)不会在理解语音的过程中被抛弃。有证据表明语音信息的早期感知处理对句法有所影响,但这并不意味着单个音素被表示为离散的、抽象的项。同时,大量研究表明,STG对较长语音序列的引入高度敏感,对音素组合的输入则不敏感。

STG中音素的性质似乎更重要的是它们是如何形成一个序列的音素形态的,而且这种形态是在音节级别上表示的,而不是在单个音素级别上表示的。音素对序列的贡献就像面部特征对面部的贡献一样:它们的感知作用是对整体的贡献.STG区域的时间敏感性研究显示,对音素的敏感性相对较慢,在与单词或音节相关的时间尺度上达到峰值,而不是与单个音素相关的快得多的时间尺度上(图2)。同样,皮质电图(eCOG)数据显示出对语音振幅包络的敏感性与音节结构广泛相关。

在口语组织中,音节的结构特性也是具有普遍性的,音节结构受到很大的限制。简单地说,一个音节可以由一个元音组成,不同的语言在元音的起始和偏移上添加辅音的方式不同,但都是有一定规则的。世界上最简单的结构是辅音-元音或表示为CV,而不是VC。很明显,音节结构提供了一个框架,可以大致解释为与音节的起首或韵脚相对应,并可能形成音素序列表示的基本单元。当出现辅音群时,日本听众是能够听到辅音之间的元音的,称之为副元音。研究表明,STG对这些副元音的感知与经验相关。

2Keitel等人的一些发现摘要

注:n Keitel等人用脑磁图扫描(MEG)被试听自然演讲时的大脑。然后,研究人员根据原始刺激语音的统计特性来分析大脑皮层的活动。他们发现,感知短语层面在时间峰值上达到高峰的是前运动皮层区域(0.61.3赫兹)(),而左颞叶的活动峰值则是在单词处理阶段(1.8- 3 Hz)(底部)。激活显示在虚线字段中。

 

我们真的在研究一个特定于语音的系统吗

在对前两个问题论述后,作者提出一个重要的问题,这些网络在何种程度上是特定于语音和语言的?

声音处理的语言和非语言方面的区别可能不是完全独立的。当我们在发展过程中习得一门口语时,声音特性作用于语音的语言相关方面,这也可能影响非语音的感知处理。就神经激活而言,语音和非语音处理可能不是一个完全的功能分离。

然而,几乎可以肯定的是,这些网络并不局限于语音信息的处理。如果一个人把自己限制在关于言语和语言的问题上,那么他只会发现与这个问题相关的结果然而,这种方法在推测可能区分喙侧通路和尾侧通路的计算原理方面没有取得很大的成功。我们可能需要重新定义喙侧和尾部听觉区的区别,使之成为反映喙侧通路的一般处理对象或者功能,而不仅仅局限于语言信息(或者,实际上,局限于声音信息)

与此同时,尾部听觉神经网络可能不仅仅参与协调与语音相关的感觉运动联系。喙侧和尾侧的听觉区域可以根据它们的时间反应特征来区分喙侧的听觉区域对声音的反应缓慢而持续,而尾侧的听觉区域对声音的反应快速而短暂。较慢的喙侧通路反应与对识别过程的反馈影响一致,而较快的尾侧反应与动作的快速感知指导一致(图3)。

图示在喙侧(黄色)和尾侧(蓝色)通路中发现的缓慢、持续和快速的瞬态神经反应的区别

注:这些差异是通过对一系列研究中参与者对所有刺激的eCOG反应的时间进程进行分类来确定的。这种时间反应特性上的差异是关于听觉处理的新领域——听觉处理通论中所包含的声音反应的“听--听”差异的几个新发现之一。图中显示的是黄色是喙侧what通路和蓝色尾侧how通路的区别。

 

在社交世界中的口语

言语和语言的社会参与表现在另一种普遍的语言形式中:口语会话。在几乎所有人类文化中,口语是社会交往的主要方式(除了那些手语是主要方式的文化)。作为一个领域,我们已经将语音处理的声学、语言学和计算方面置于其社会相关性之上。在感知语音的过程中,至少有一部分皮层被激活,这是因为在实验室之外,我们在社交活动中也会遇到语音,而我们通常是社交活动的积极参与者。前运动区域在跟踪说话节奏方面的特殊作用被认为是一种候选的解释,可以使一个人在谈话中与其他言者保持一致,并促进言者的快速转变,这是谈话的特征。

最近的一项研究考察了口语对时间尺度的敏感性,发现运动前皮层在处理口语序列中的短语信息时起着重要作用。相比之下,STG对音节范围序列的结构更敏感(图2)。这表明,前运动皮层对某种程度的信息很敏感,这种信息对口语中的节奏排列可能很重要。比较面对面的谈话和面对面的重复一些句子的激活情况,可以发现在谈话过程中,整个大脑在额叶和颞叶区域有更大的参与。主要集中在左侧颞极、左侧颞顶叶交界处和双侧内侧前额叶皮层。这表明,面对面的交谈确实吸收了口语感知网络的不同元素,包括喙侧和尾侧网络,以及在面部处理中吸收的其他网络。

理解人类大脑参与语言交通路的方式及其对社会和情感的影响至关重要。口语不仅仅是语言,对人类及其大脑的健康功能来说,它似乎比之前认为的更为重要。对语言感知的进一步神经科学研究的目标应该开始关注我们与语言打交道的方式,从声音到社会意义和社会交往的实质内容。 

总结

在传统的语言研究和近年来的神经语言学的研究进展中,我们对“语言”的认识是不断深化的,语言其实已经不再仅仅被作为我们的交际工具而对待,也不应该仅仅被作为一种交流工具。但是,本文从“口语”的交际性出发,指出了语言在人类社群生活中表现出的神经系统的广泛的参与能力,口语的神经处理过程(本文主要指的是听觉感知处理)目前还是不明确的。但是,从已有的研究方法看,本文认为灵长类动物模型对非语言信息的处理可能能够帮助我们进一步理清人类对语言性声音和非语言性声音的感知基础的差异。

除此以外,口语交际中广泛的社会性对语言的影响到底是如何体现的,口语的唯一表现形式——语音,在人脑的听觉表征中是如何从音素、音节的序列信息中提取出社会意义,并且能够在复杂的声学特征变化中适应性的进行处理,从而达到面对不同声学特征但却稳定的理解一种语言的灵活性的。本文并未给出答案,也可以说没有给出任何较为明确的研究思路,但是通过对以往研究的梳理提出了口语研究的必要性及具体问题,是值得我们仔细思考和深入探讨的。

原文:From speech and talkers to the social worldThe neural processing of human spoken language



微信扫码或者长按选择识别关注思影

如对思影课程感兴趣也可微信号siyingyxf或18983979082咨询。觉得有帮助,给个转发,或许身边的朋友正需要。请直接点击下文文字即可浏览思影科技其他课程及数据处理服务,欢迎报名与咨询,目前全部课程均开放报名,报名后我们会第一时间联系,并保留名额。


更新通知:第二十八届磁共振脑影像基础班(重庆,已确定)



更新通知:第十届脑影像机器学习班(已确定)


更新通知:第十二届磁共振弥散张量成像数据处理班(已确定)



第六届任务态fMRI专题班(预报名,南京)






眼动数据处理班(预报名)

数据处理业务介绍:



招聘及产品: