音位:不仅仅是词汇获取

Nina Kazanina 等人在Psychonomic Bulletin & Review杂志发文,综合论述了音位信息在语言表征中的作用。    

   文献导读:   

    语言是一个两层的层级系统,在语音系统向语义系统跨越的过程中,音位作为语言中能够区别意义的最小的语音单位一直都受到语言学家和心理语言学研究者的关注,其在词汇存取过程中的作用一直是众多研究者争论的焦点。传统语言学理论中将音位视为词汇存取的关键单位,但这一观点不断受到其他语言学家与心理学家的挑战。作者对以往研究中存在的两种主要观点进行了分析,并分别针对性的反驳。

    第一方面是,一些研究者认为音位存在编码单位大小的问题,相对于能够被自然感知的最小的语音单位——音节,音位缺乏自下而上识别的稳定确切性。对于这一观点,作者认为从词汇学习的过程和音位习得的过程看,对于语言知识尤其是词库信息的存取是自上而下的,因此基于自下而上观点对音位基本作用的否定是错误的。第二方面是,一些学者认为音位的抽象化特征与实际口语交际中对精细的语音细节的变化的理解是存在矛盾的。作者认为,受音变以及一些其他的语言学成因的影响,在口语交际中出现这些变化并且能够被听者感知并理解是与音位的抽象化特征不矛盾的,这一点无法否定音位的抽象性特征。

    其后,作者从语言学角度对音位在语言系统中的重要作用进行了进一步的分析。分别从亚音节和非音节词或语素、在更大的语境中识别语素和单词、高级/后续语言计算、语言游戏和头韵诗几个方面的语言事实论证了音位的重要性。之后提出了音位在词汇理解中的具体模型,提出了STRF的语音解码阶段,这一并行阶段与已有的其他一些词汇解码模型存在一定的差异。作者详述了该模型的计算过程,并在最后对音位的总体地位进行了总结。得出了音位这一单位对于语言系统而言是必要的,并且是对词汇存取的编码单位。      

摘要

   音位作为语音感知和词汇表征的存取编码单元,在传统的理论中扮演着重要的作用。音位拥有两个基本属性:“音段大小”(元音或辅音)和抽象性(一个单独的音位可能通过不同的音色实现)。然而,对音位假说的质疑由来已久,一些理论家主张使用不同尺寸的语音单位(如:音节和特征),另一些人拒绝使用抽象编码而赞成使用能够详细编码刺激声音属性的表征。目前,音位假说是少数的观点。作者用两种互补的方式来捍卫音位假说。首先,作者证明拒绝音位是基于对经验结果的错误解释。第二,作者将提供有力的语言学证据支持音位假说。总而言之,拒绝音位假说是基于对数据错误的分析和太过片面的考虑。 

关键词:

   获取词汇代码 词汇获取 词汇表征 音位 语音形式口语感知 口语分段 口语感知单位 

第一部分 定义音位编码

   说话者的语言知识有相当一部分是关于单词的知识。一个普通的讲话者掌握着成千上万种不同单词形式的知识,这些单词形式可以用来指代各种各样的对象、属性和事件。更具体地来说,知道一个单词就等于知道一个声音形式(又名音响形式)和一个意思(meaning)之间的联系,以及这个单词的语法类别、性、数、格等语法特征。单词(又称词汇条目)存储在心理词库(生成语法理论中认为大脑中的词汇存取库,目前已得到较为广泛的认可)中,心理词库是单词和重要亚词汇部分(语素)这些长期记忆的存储库。

   对于所有的语言学理论来说,理解词汇的音位形式是如何存储在心理词库中是至关重要的(小编认为对于系统功能语言学而言,这一点可能并没有那么重要,但鉴于系统功能语言学这几年势微,作者这么说也没问题)。

   语言单位的边界是语言使用者在言语理解过程中能够识别出词语的音位形式的关键,并且在语言产出中说话者可以将语言单位之间的边界恰当地表达出来(例如重音、汉语中的声调变化,其实说话者在语言产出时的词汇产出是按照音节单位产出的,是线性的,其边界是能够被自然感知的)。
   注:

   在下一段,作者将论述音位在语言中的重要作用,这里必须理清两个概念,音位和音素的共同点和区别点。音位是指一个语音系统中能够区别意义的最小语音单位,也就是按语音的辨义作用归纳出来的音类,其重要作用在于辨义,其语音实体就是音素,但同一个音位可能会有不同的音素形式(例如音位的互补分布)。音素则是构成音节的最小单位或最小的语音片段。它是从音色的角度划分出来的,音素是一个声学特征,是从物理角度得到的语音单位。因此,音素和音位的关系相当紧密,一定要注意区别。

   传统的语言学理论认为,单词在长期记忆中被表示为音位序列,即由抽象的、离散的符号单位,与单个音段大小相同(如辅音或元音(但与它们不完全相同))的符号按照一定序列组织形成。例如,‘cat’(猫)这个单词,是由/k/ - /æ/ - /t/ (按照国际音标,可以更简介的写成, /kæt/) 这样一个音位序列构成。同时,除了同音异义或一词多义等特殊情况外,意义不同的两个词在音位形式上存在差异,最小的差异就是同一音位位置上的一个音素的不同,例如/k æ t/cat vs. /m æ t/ mat’(仅有第一个辅音音素不同)。此外,不同的单词可以使用相同的音位,但顺序不同。例如:cat/k æ t/ vs. act /æ k t/ vs. tack /t æ k/,使用/ k// æ // t /这三个音位按照不同的顺序组织,就形成了不同的单词。因此,一种语言的音节往往使用几十个音位组合而成的一个音位库就能表征这门语言中所有的音节或者单词形式(例如汉语中仅有10个元音音位和22个辅音音位以及四个超音段音位,但是这些音位组织成了成千上万的不同的音节单位)。

    音位的一个基本特征是:抽象性。这一点主要体现为同一个音位可能是由不同的音素形式实现的,例如英语中的‘duck’和cat中的/k/是同一个音位,但是它们是不同的音素,‘duck’中的[k˺]不送气,而‘cat’中的[kh]是送气的。这个例子说明了,音位可以通过不同的语音形式来实现,这取决于它在音节或单词中的位置、邻近的声音、音素是否出现在重读音节或非重读音节中,以及其他因素。

    音位的另一个基本特征是“音位特征”(features,特征可以根据其发音要求和声学结果来定义,如表1中的方式特征所示,尽管有时完整的定义需要多个声学提示或复杂的量。

1 方式特征的发音和声学属性

 

    虽然不同语言使用不同的音位库来表示单词的音位形式,但是音位形式在长时记忆中的表示方式被认为是通用的,即通过一个节段大小的、离散的和符号性的音位编码来表示。因此,理解一个口语单词(即将一个声波波形映射到一个语音形式,而语音形式又提供了理解单词含义的途径)就需要将连续的声学信号映射到离散语音代码上。这就要求音位必须能够从声波波形中直接(不依赖于特征或音位)或以中介方式(例如通过特征和/或音位)检索。在这种观点下,音位对词库中词汇单位的存取进行解码。

   为了避免混淆作者对音位的说法,作者强调了以下两点。首先,音位对词库中词汇单位的存取进行解码这一说法并不排除在将声音信号映射到音位序列的路径上时也可以使用其他单位。尤其,还可能对语音信号如何分组有独立的要求,这些要求源于对回声记忆、声学突出度或变异性的考虑,这可能需要某种类型或尺寸的处理单元。这些与音位共存的其他单元可能适合于一个单一的处理层次结构或在并行流上运行;基于音位的观点中最重要的部分是,在语音信号到音位的直接映射或中介映射完成之前,不能对词汇进行可靠的获取。

    其次,音位背后的关键主张构成了知识如何存储在长时记忆中,而不是这些知识如何在言语感知过程中被激活。在基于音位的观点中,长时记忆中的每个音位都有离散的(非重叠的)表征,但这些表征可以以梯度的方式激活。例如,音位/b/可能被输入/d/部分激活,因为/b//d/具有相同的声学特征。由于各种原因,语音识别涉及音位的假设在语言学和心理语言学中受到了广泛的挑战,并提出了各种不同的解释。在表2中,作者从语言学、心理学和计算机语音理解系统中展示了语音识别体系结构的多样性建议。一些研究人员还提出了包括音位的模型,但只在感知系统之外,作为可能的口语反应的运动准备的一部分(Hickok, 2014;见图1a)。也就是说,音位只参与语音的产生。另一种选择是,音位是在词汇获取之后检索的,同时检索的还有其他信息,如句法类别和语义信息(例如Warren, 1976;Morton & Long, 1976;见图1 b) 

2 语音感知模型,包括模型中信号分析时强调的单元,以及用于匹配存储的记忆表示的单元。在许多模型中,但不是所有的模型中,这些单元都是一致的

1 a.语音处理的神经认知模型只在语音产生的过程中吸收音位,而语音感知和词汇表征被认为是在亚音节水平上进行的(即听觉加工的双通路模型)。b.音位的后获取码模型,其中词汇表征通过音位获取,音位表征激活在词汇表征检索后。

 

第二部分:对音位心理语言学挑战的反思

音位尺寸(音位单元的大小)

   理论学家认为,语音知觉使用的单位比音位更大(如音节或半音节)或更小(如特征),而不包括音位,不是元音或辅音的大小。传统上,分段大小的元素在语音处理中发挥作用的最广泛接受的证据来自于对自然发生或诱发的语音错误的研究。他们证明,大多数的语音错误包括插入或删除单个辅音或元音(例如,“explain carefully read as explainclarefully, same state same sate)或它们的交换(例如,York library lork yibrary)。音位尺寸的错误是普遍存在的,音位错误很少涉及整个音节(napkin  kinnap)或单个音位特征(blue plue)其中强调了片段尺寸的类别在语言生产中的关键作用,因为将整个片段交换视为多个特征的巧合交换将大大低估它们的相对频率。 

比音位大的知觉单位:音节(是自然感知中音位组合构成的最小的语音结构单位

    Massaro提出了支持(半音节)音节和反对音位作为语音感知单位的理论论据。Massaro认为口语单词识别是一个自下而上的过程,它涉及到不变量(抽象)子词汇表示的识别。从这个角度来看,音位尺寸的单位是一个糟糕的选择,因为它们的声学实现在不同的上下文中可能会有很大的差异,因此它们不能满足不变性标准。Massaro认为半音节是原子的,不可分割的,即半音节/ku/被整体地存储在长时记忆中,没有涉及到片段/k//u/

    这种观点的一个关键(隐含的)假设是音位(或者,实际上,半音节)是以自下而上的方式学习的。在这个前提下,作者同意音位的声学可变性可能是有问题的。但是,当音位被看作是语言单位时,Massaro的论点就失去了说服力。为了说明这一点,在视觉单词识别领域,尽管许多大写字母和小写字母之间没有视觉相似性(不变性),但人们普遍认为字母是用抽象格式编码的(例如“A”和“a)。缺乏视觉不变性并不是用来排除抽象字母代码作为表示单元,而是作为自上而下约束形成字母知识的证据。同样的道理也适用于音位。也许值得注意的是,假设字母的抽象更加困难,因为一些大写字母和小写字母之间没有自下而上的相似性,而音位类别的所有成员通常都有一些自下而上的相似性。因此,在评价Massaro反对音位的理论论据时,要考虑的一个关键问题是,是否有任何独立的证据表明语音中存在自上而下的知觉学习限制。事实上,来自人工语言学习的研究是支持自上而下参与语言学习的证据,这是支持音位的一个有力证据,该研究发现听者基于统计规律学习语言的能力 

比音位小的感知单位:特征

   有一些研究认为音素是多余的。但是,作者提出,虽然特征是真实的,但它们作为音素的内部成分而存在,其不能取代音素。在这个观点中,听觉特征在语音信号中得到识别,然后将一组特征映射到一个音节上,音节对获取单词进行解码。因此,每个音节都被表示为声学特征的集合。注意,因为音节/ pu /不可分割(即它不对应音位的组合/ p // u /),对应的特性列表音节基本上是无序。

    然而,一组无序的特征意味着不可能在音节辅音中区分辅音顺序,从而错误地导致了/mask/in mask/maks/ in Max中的相同特征列表。混合过程必须保留输入的音位(即保留在时间上协调的声学特征和组成部分) 

抽象化

   除了根据音位尺寸来挑战音位之外,研究人员还对语音感知涉及抽象表征的说法提出了质疑。在传统音位理论中,单词在长时记忆中被表示为音位序列,而口语单词识别涉及到一种知觉归一化过程,其目的是识别音位,同时过滤掉与识别单词严格无关的音位变化。音质变异性的一个来源是索引信息,这是两个说话者的特点(说话者的性别、口音、年龄、身份、情感状态等)的索引信息,以及言语所处的物理或社会环境(例如背景噪音或社会互动类型)。

    另一个作者称之为“精细语音细节”的声学变异源是语言内部的变化,包括一个片段的实现变化,这取决于相邻片段的性质、它在一个音节或单词中的位置等等。作者认为索引和精细的语音细节确实会影响单词的识别,但是,没有理由拒绝音位是抽象的假设 

索引信息

   就目前的研究目的而言,重要的发现是,当单词在研究和测试之间的索引细节不同时,重复单词的启动效应的大小往往会减小。说话者情绪或短语语调或基频的变化都减少了测试词的启动,而低通滤波器降低了启动。最近,PufahlSamuel(2014)发现,在研究和测试中,当目标词在不同的环境声音下重复出现时(例如,在研究时电话铃响,在测试时狗叫),启动减少。

    然而,基于这些类型的发现,作者有理论和经验上的理由对拒绝音位保持谨慎。从实证结果来看,索引变异对启动效应的影响是复杂的。例如,与在年轻人中观察到的语音特异性启动效应相反,在老年参与者或健忘症患者中观察到了语音独立启动效应。也就是说,在情景记忆较差的个体中,语音特异性效应消失了,这使得作者提出,语音特异性启动和语音不变启动可能是由不同的记忆系统导致的。也就是说,在年轻参与者身上观察到的语音特异性启动反应了他们完整的情景记忆系统的贡献,而在老年人和健忘症患者身上观察到的语音不变启动反应,说明了为单词识别为知觉系统中的记忆提供了核心支持。 

精细的语音细节

   同样,由于单词识别受细微语音细节的影响而拒绝音位还为时过早,因为“细微语音细节”一词包含了多种因语言内部因素而出现的声学变异类型。下面作者将精细语音细节如何影响单词识别的研究结果分为三种类型:(a)原型效应;(b)由相邻音位变化引起的精细语音细节效应,或(c)单词或音节内的位置。也就是说,索引性或精细的语音细节在某些情况下会影响单词的识别,而且毫无争议的是,听者可以为了更广泛地理解交流而感知和使用这些信息。但问题是,这些发现不能证明抽象音位是口语单词识别和语音处理的关键组成部分这一说法是错误的 

第三部分:音位的语言学论证

   听者的最终目的不只是识别单个语素或单词,而是全面理解语言信息,包括识别单词内部语素和短语、句子和话语中的单词之间的关系。因此,语言使用者必须将信息从语音感知和单词识别传递到随后的形态学、句法和语义计算。正是这种高级的计算方面使得基于音位的表征成为语言理论的核心,因为在这些更高级操作需要获取对应于单个音位或一串音位的表征级别的能力,以便进行相关的计算。 

亚音节和非音节词或语素

   支持音位的一种证据来自于单词可以由单个辅音组成的语言。这样的语音形式不能通过音节来表示,也不能通过词典中分段尺寸的单位(或更小的单位)来表示,也不能作为感知获取的解码方式。在另一种辅音单词和没有元音的单词中,不管剩下的是音节还是单个辅音,塔利菲伊特柏柏尔语(Tarifiyt Berber)的听者都显示出同样的识别单词的能力。如果把“单词”替换为“语素”,上面的观点可以扩展到非常广泛的语言。

    语素是语音形式和概念之间的最小配对。单词是独立的语素或语素的组合(governmentgovern-ment组成)。语素就像单词一样,必须存储在词典中。作者讨论的关键是语素通常小于半音节的大小。例如,英语中许多常见的后缀——名词复数词素/z/ (dogs)、动词现在时第三人称单数后缀/z/ (he runs)或动词过去时后缀/d/ (playing)——都是单个辅音。重要的一点是,仅仅认识一个单词,如“书”或“打开”是不够的,听众还应该能够把它们:“书”或“打开”联系起来。 

在更大的语境中识别语素和单词

   在语言学理论中,假定上下文无关的音位有一个强有力的理论基础,那就是它们能够对声音的变化、交替和变异进行简洁的描述,这些变化或同步发生(即在给定的时间),或历时发生(即随着时间的推移,语言发生了变化)。在同步性上,许多发音变化都与词形派生有关,因为构建更大的形式常常导致构成语素在语音上实现方式的变化。将语素组合成更复杂的单词或单词组合成短语的过程往往会导致语素或单词的音位形式发生变化。这种变化是有规律的,只有在包含音位的系统中才能有效地系统化。 

高级/后续语言计算

   音位尺寸的表示法非常重要,其作用不仅仅是作为词汇的解码。音位的另一项重要功能与它们在句子结构和句子解释中传递语法关系方面的作用有关。短语或句子中的某些元素必须一致。而建立单词之间的关系,并将其解释为一个更大的句法和语义结构的一部分,需要验证形态同步特征(性别、数量、大小写等)是否完全一致。能够获取这些功能需要音位,因此,语法和语义计算必须能够对音位表征进行提取。 

语言游戏

   语言游戏,是一种询问语言使用者语言知识的优雅方式。与下一节所讨论的诗歌类似,游戏玩家--听众的审美体验本质上是感性的(而不是发音性的),并为讨论言语感知单元提供了信息。

    例如,英语猪拉丁(English Pig Latin)游戏展示了音位的操纵。在猪拉丁最常见的版本中,玩家将初始辅音群移动到末尾,并添加[e],如blue[uble]。在游戏的另一种版本中,只有第一个辅音被移动,如blue[lube]。特别是第二种版本的存在表明,游戏玩家必须能够使用一定程度的单个音位,而且,特别地,正在听的玩家必须能够感知地拼接接收到的形式[lube],以重建用于词汇访问的形式[blu]。即使在语法复杂的形式中也是如此,例如Tom 's([tamz][amste])。这样做,听者必须忽略/ b /的舌头位置之间的差异([lube] [e]面的vs. [blu][l] 前面的),同时在正常听演讲。Gil(1996)描述了Tagalog游戏Golagat,它颠倒了单词的整个音位序列。在游戏形式中,对应的音位现在处于不同的音节位置和上下文中(例如,最初的结尾/g/,最终变为/t/)如果说话者只能获取所有音素,那么他们就很难玩这样的游戏:将初始和最终/g/ 音素映射在一起需要对它们进行抽象(即音位表征) 

头韵诗

   音位也是描述诗意的声音模式,如头韵。作者用加拿大诗人厄尔·伯尼(EarleBirney)的《盎格鲁撒克逊街》(Anglosaxon Street)中的三行诗来说明头韵:

go bleached beldames garnished in bargainbasementsfestoonedwith shoppingbags farded, flatarched 

.
like 
cutouts for kids clipped in two dimensions 

第四部分: 通过音位将语音输入对应到词 

    在图2中,作者给出了作者目前对语音识别过程如何工作的最好的理解。在某种程度上,这是对语音感知的“经典”观点的回归,因为该模型可以识别特征、音素、音位、音节、词汇等等。但是,作者没有一个严格的流水线方法(首先是特性,然后是音素,然后是音位,等等),而是并行地计算和分离信息(即对信号进行解复用)

    与此类似,Pierrehumbert(2016)认为,听者处理新形式和上下文的能力需要一个混合模型,该模型包括“一个抽象的表示层次……其中忽略了许多语音细节和上下文特征”。最近的另一篇文章Fowler(2015)认为“信号中存在离散的、但在时间上重叠的片段的特征”,他们强烈捍卫离散语音片段的概念,尤其是在发音方面。但在大多数情况下,它们并没有解决上面提到的感知和计算抽象的具体问题。因此,作者认为Pierrehumbert(2006, 2016)Fowler(2015)的研究方法与本文的研究方法是一致的,但对语音感知过程中计算出来的各种表征形式给予了不同的重视。

2 一种用于处理语音信号以进行单词识别的路径,例如输入骆驼。虽然许多信息源是并行地从声音信号中提取的,但是音位是单词和语素的获取码 

    传入的语音信号(在图的最底部)被过滤到外周听觉系统的关键频带中,并通过大量的声谱时间接受域在初级听觉皮层中表现出来STRF类似于声谱图的构建块,它们可以在时间、频率和速率上变化。综合起来,STRFs提供了一个多尺度、多粒度、对特征、音素、音位和图中中间层韵律的神经表征过度完整的分析。 STRFs还可以用来区分说话者的性别、身份和情绪状态。作者以此来说明,STRFs整体上执行整体解码;也就是说,它们负责传入信号的各个方面,有效地将说话者的信息从消息中分离出来,从而使信号正常化以提取音位。中间层的各个模块进行协作的横向计算,这里用封闭的框表示,这与KleinschmidtJaeger(2015)提出的类别和索引信息的多重联合推断非常相似。然后,中间层的表示生成一个可能的单词/语素连续和分段格,这些连续和分段又激活了概念表征。 

总结:   

   虽然音位是作者提出的系统的核心,但这并不是说所有的语言能力都是由核心音位系统单独计算出来的。事实上,一系列心理语言学现象表明,附加表征在词汇感知和语言处理中发挥着更广泛的作用。例如,右半球系统可能以不同的数量或质量方式编码语言,以便编码语言处理的情感和各种索引特征。同样,海马体内的情景记忆可能有助于各种语言相关的任务,包括对各种处理任务的索引效应。然而,作者推测,说话者的情景记忆可以通过“解释”某些说话者特有的声学特性来增强音位识别。然而,作者这里的目标不是详细描述右半球、情景记忆以及所有不同的亚词汇音系表征如何相互作用,以支持言语感知和理解。相反,作者的目标是论证音位是必要的,并且它们是对词素的解码 

原文 

Kazanina,N. , Bowers, J. S. , & Idsardi, W. . (2018). Phonemes: lexical access andbeyond. Psychonomic Bulletin &Review, 25(2), 560-585.


微信扫码或者长按选择识别关注思影


如对思影课程感兴趣也可微信号siyingyxf或18983979082咨询。觉得有帮助,给个转发,或许身边的朋友正需要。请直接点击下文文字即可浏览思影科技其他课程及数据处理服务,欢迎报名与咨询,目前全部课程均开放报名,报名后我们会第一时间联系,并保留名额。


第二十八届磁共振脑影像基础班(重庆,7.6-11)


第十四届磁共振脑网络数据处理班(重庆,7.26-31)


第三十届磁共振脑影像基础班(南京,7.31-8.5)


第十六届磁共振脑网络数据处理班(南京,8.12-17)


第十届脑影像机器学习班(南京,6.30-7.5)


第十一届脑影像机器学习班(南京,8.25-30)


第十二届磁共振弥散张量成像数据处理班(南京,6.18-23)


第九届磁共振脑影像结构班(南京,8.6-11)


第七届磁共振ASL(动脉自旋标记)数据处理班(预报名)


第六届任务态fMRI专题班(预报名,南京)


弥散磁共振成像数据处理提高班(预报名)

小动物磁共振脑影像数据处理班(预报名,南京)

第七届脑电数据处理入门班(重庆,8.2-7)


第二十届脑电数据处理中级班(重庆,8.9-14)


第八届脑电数据处理入门班(南京,7.7-12)


第十九届脑电数据处理中级班(南京,7.13-18)

第二十一届脑电数据处理中级班(南京,9.7-12)

第七届眼动数据处理班(南京,7.26-30)

脑电信号数据处理提高班(预报名)

脑磁图(MEG)数据处理学习班(预报名)


近红外脑功能数据处理班(预报名)


数据处理业务介绍:

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像(DWI/dMRI)数据处理

思影科技脑结构磁共振成像数据处理业务(T1)


思影科技啮齿类动物(大小鼠)神经影像数据处理业务

思影数据处理业务三:ASL数据处理

思影科技脑影像机器学习数据处理业务介绍


思影数据处理业务四:EEG/ERP数据处理

思影科技脑电机器学习数据处理业务

思影数据处理服务五:近红外脑功能数据处理

思影数据处理服务六:脑磁图(MEG)数据处理


思影科技眼动数据处理服务


招聘及产品:

招聘:脑影像数据处理工程师(重庆&南京)

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍