陳梁杰 劉 雷 葛鐘書 楊曉東 李 量
節(jié)律在聽覺(jué)言語(yǔ)理解中的作用*
陳梁杰 劉 雷 葛鐘書 楊曉東 李 量
(北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院, 北京 100080)
言語(yǔ)理解是聽者接受外部語(yǔ)音輸入并且獲得意義的心理過(guò)程。日常交流中, 聽覺(jué)言語(yǔ)理解受多尺度節(jié)律信息的影響, 常見有韻律結(jié)構(gòu)節(jié)律、語(yǔ)境節(jié)律、和說(shuō)話者身體語(yǔ)言節(jié)律三方面外部節(jié)律。它們改變聽者在言語(yǔ)理解中的音素判別、詞匯感知以及言語(yǔ)可懂度等過(guò)程。內(nèi)部節(jié)律表現(xiàn)為大腦內(nèi)神經(jīng)振蕩, 其能夠表征外部言語(yǔ)輸入在不同時(shí)間尺度下的層級(jí)特征。外部節(jié)律性刺激與內(nèi)部神經(jīng)活動(dòng)的神經(jīng)夾帶能夠優(yōu)化大腦對(duì)言語(yǔ)刺激的處理, 并受到聽者自上而下的認(rèn)知過(guò)程的調(diào)節(jié)進(jìn)一步增強(qiáng)目標(biāo)言語(yǔ)的內(nèi)在表征。我們認(rèn)為它可能是實(shí)現(xiàn)內(nèi)外節(jié)律相互聯(lián)系并共同影響言語(yǔ)理解的關(guān)鍵機(jī)制。對(duì)內(nèi)外節(jié)律及其聯(lián)系機(jī)制的揭示能夠?yàn)槔斫庋哉Z(yǔ)這種在多層級(jí)時(shí)間尺度上具有結(jié)構(gòu)規(guī)律的復(fù)雜序列提供了一個(gè)研究窗口。
節(jié)律, 言語(yǔ)理解, 神經(jīng)振蕩, 神經(jīng)夾帶, 自上而下調(diào)節(jié)
從生命更迭到晝夜交替, 自然界中充溢著繁雜的節(jié)律變化。擊鼓、起舞或歌唱, 這些活動(dòng)中的拍手、踏步或發(fā)聲通常按照一定的周期循環(huán)往復(fù)。在人類演化進(jìn)程中節(jié)律無(wú)處不在, 它們承載著信息傳遞的重要作用(Kotz et al., 2018), 是社會(huì)交流和互動(dòng)的重要媒介。長(zhǎng)期以來(lái), 節(jié)律研究主要關(guān)注于感知覺(jué)加工, 忽視了其在更為復(fù)雜的言語(yǔ)理解中的作用。直到近期, 研究者逐漸重視起節(jié)律對(duì)言語(yǔ)理解的影響, 并通過(guò)記錄聽者內(nèi)部的神經(jīng)活動(dòng)揭示節(jié)律影響的作用機(jī)制。
節(jié)律的內(nèi)在時(shí)間組織調(diào)節(jié)著個(gè)體間溝通和互動(dòng)方式, 口頭言語(yǔ)作為人類社會(huì)中重要的信息交流渠道具有豐富節(jié)律特性。在判定對(duì)象是否具有節(jié)律特性時(shí)存在兩種方式, 一種強(qiáng)調(diào)時(shí)間上規(guī)律性, 另一種強(qiáng)調(diào)時(shí)間上的結(jié)構(gòu)關(guān)系。前者定義的節(jié)律可以被稱為協(xié)調(diào)節(jié)律或周期性節(jié)律, 它意味著固定間隔或模式的不斷重復(fù)(White, 2014; White et al., 2012)。例如, 鐘表轉(zhuǎn)動(dòng)過(guò)程中發(fā)出的“滴答、滴答”聲響和正常心臟的起伏跳動(dòng), 這些都具有時(shí)間上的規(guī)律性或近似規(guī)律性。而言語(yǔ)的節(jié)律性更偏向后者, 即一個(gè)給定的屬性或?qū)傩蚤g的組合在一段時(shí)間跨度中的穩(wěn)定關(guān)系(Fujii & Wan, 2014; Ramus et al., 1999), 例如, 樹干中的硬結(jié)讓鋸木出現(xiàn)卡頓, 但我們?nèi)耘f會(huì)認(rèn)為伐木工來(lái)回的動(dòng)作具有節(jié)律性。
在語(yǔ)言學(xué)中, 早期對(duì)西班牙語(yǔ)中“機(jī)關(guān)槍”式, 英語(yǔ)的“莫爾斯電碼”式與日語(yǔ)發(fā)音的感知使研究者關(guān)注于語(yǔ)系間不同言語(yǔ)層的等時(shí)性現(xiàn)象, 據(jù)此將節(jié)律感知?jiǎng)澐譃橹匾粲?jì)時(shí)(stress-timed)、音節(jié)計(jì)時(shí)(syllable-timed)和亞音節(jié)(mora)三類形式(Ladefoged, 1975; Pike, 1945; Ramus et al., 1999)。但這種分類方式過(guò)于強(qiáng)調(diào)單元間的等時(shí)性, 在多語(yǔ)系的語(yǔ)音信號(hào)分析中無(wú)法為“等時(shí)理論”提供經(jīng)驗(yàn)支持(Dauer, 1983; Ramus, 2002; Roach, 1982)。后來(lái)基于元音持續(xù)時(shí)間變化的分類方法更具有實(shí)證性, 它依照口語(yǔ)中元音所占時(shí)間比例的不同試圖建立起一種更為廣泛的節(jié)律量化方式(Ramus et al., 1999)。如重音計(jì)時(shí)相比音節(jié)計(jì)時(shí)語(yǔ)系, 元音持續(xù)時(shí)間更加多變(Ling et al., 2000)。這些分類方式說(shuō)明言語(yǔ)相比于單一振蕩器形成的特定間隔的重復(fù)活動(dòng)并不具有客觀的等時(shí)周期特點(diǎn), 但仍可以被直觀地感知為節(jié)律活動(dòng)(Jadoul et al., 2016; Kayser, 2019; Turk & Shattuck-Hufnagel, 2013)。與音樂(lè)中的節(jié)奏感相近的是, 言語(yǔ)中的單個(gè)屬性, 如音調(diào)變化或音節(jié)持續(xù)時(shí)間長(zhǎng)短, 也能帶來(lái)的主觀上的節(jié)律感受(Dellwo, 2006)。但只專注于個(gè)別屬性的度量并不能囊括言語(yǔ)節(jié)律的所有特征, 言語(yǔ)的節(jié)律感知還取決于一系列其他因素, 包括整體響度變化和語(yǔ)速高低等(Nooteboom, 1997)。這些因素共同作用于聽者的知覺(jué)加工過(guò)程, 使聽者感受到言語(yǔ)中的節(jié)律性。
言語(yǔ)理解是聽者根據(jù)外部言語(yǔ)輸入(如目標(biāo)語(yǔ)音)和背景信息(如語(yǔ)境或非言語(yǔ)信息)獲得意義的心理過(guò)程(楊玉芳, 2021), 包括音節(jié)、詞匯和句子不同層級(jí)的加工(Farbood et al., 2013; Sheng et al., 2019)。說(shuō)話者口語(yǔ)在韻律結(jié)構(gòu)上具有一定的節(jié)律特性, 如重音位置和語(yǔ)速快慢等。這些節(jié)律的變化會(huì)影響聽者對(duì)目標(biāo)語(yǔ)音的理解水平。當(dāng)說(shuō)話者的說(shuō)話語(yǔ)速或音節(jié)產(chǎn)生速率超出正常范圍(3~8 Hz), 言語(yǔ)可懂度會(huì)出現(xiàn)顯著地降低(Ahissar et al., 2001)。相比之下, 背景語(yǔ)境節(jié)律則會(huì)改變聽者的音節(jié)層面感知, 如事先呈現(xiàn)一串有規(guī)律的純音序列, 其呈現(xiàn)速率的不同會(huì)改變個(gè)體感知后續(xù)出現(xiàn)的輔音, 即節(jié)律較快的純音序列會(huì)使聽者將輔音更多知覺(jué)為/w/而不是/b/ (Wade & Holt, 2005)。背景信息不單表現(xiàn)在聲學(xué)層面的變化上, 由于言語(yǔ)語(yǔ)音的時(shí)域包絡(luò)、發(fā)聲者的聲道活動(dòng)與肢體動(dòng)作三者之間是高度關(guān)聯(lián)的, 這決定了影響言語(yǔ)理解還涉及非言語(yǔ)節(jié)律, 如說(shuō)話者的身體語(yǔ)言(body language)。身體語(yǔ)言包括面部運(yùn)動(dòng)、身體姿勢(shì)、手勢(shì)等活動(dòng)(Müller et al., 2013), 說(shuō)話者的面部運(yùn)動(dòng)往往與言語(yǔ)的時(shí)域包絡(luò)起伏具有相似的節(jié)律特性, 這有助于聽者更好理解言語(yǔ)信息(Ghazanfar & Takahashi, 2014)。據(jù)此本文提及的外部節(jié)律定義為聽覺(jué)言語(yǔ)理解過(guò)程中能夠?qū)ρ哉Z(yǔ)理解產(chǎn)生影響的客觀世界中具有節(jié)律特征的物理輸入。我們將圍繞言語(yǔ)理解涉及的言語(yǔ)輸入和背景信息所包含的三類常見外部節(jié)律, 分別為韻律結(jié)構(gòu)節(jié)律、語(yǔ)境節(jié)律和說(shuō)話者身體語(yǔ)言節(jié)律, 闡述其在言語(yǔ)理解中對(duì)音素、詞匯和句子三個(gè)層級(jí)的影響, 借此說(shuō)明外部節(jié)律對(duì)言語(yǔ)理解的作用。
聽者大腦是如何利用外部節(jié)律促進(jìn)或改變言語(yǔ)理解的呢?這一過(guò)程被認(rèn)為和內(nèi)部節(jié)律, 即一系列顱內(nèi)神經(jīng)元集群節(jié)律性地、同步性地電活動(dòng)產(chǎn)生的神經(jīng)振蕩(neural oscillation)存在明顯聯(lián)系(Haegens & Golumbic, 2018; K?sem & van Wassenhove, 2016; Zion-Golumbic & Schroeder, 2012)。神經(jīng)振蕩被認(rèn)為介導(dǎo)了不同的認(rèn)知加工過(guò)程, 包括言語(yǔ)加工, 抑制干擾等(Jensen et al., 2012; Schroeder & Lakatos, 2009)。近期研究認(rèn)為內(nèi)部節(jié)律活動(dòng)可能受外部節(jié)律所影響, 表現(xiàn)出內(nèi)外節(jié)律隨時(shí)間推移相趨近的現(xiàn)象(Lakatos et al., 2019; Obleser & Kayser, 2019), 這種現(xiàn)象被稱為神經(jīng)夾帶(neural entrainment)。當(dāng)內(nèi)部節(jié)律與外部目標(biāo)言語(yǔ)發(fā)生夾帶時(shí), 聽者表現(xiàn)出更好的言語(yǔ)理解成績(jī)(Riecke et al., 2018; Vanthornhout et al., 2018)。同時(shí), 言語(yǔ)理解的多種高級(jí)認(rèn)知過(guò)程同樣能夠調(diào)節(jié)神經(jīng)夾帶的表現(xiàn), 如選擇性注意(Arnal & Giraud, 2012; Helfrich et al., 2019)、先驗(yàn)語(yǔ)法知識(shí)(Ding et al., 2016; Ding, Melloni et al., 2017)和語(yǔ)境預(yù)期(Broderick et al., 2019)等。基于此, 我們認(rèn)為神經(jīng)夾帶可能是言語(yǔ)理解過(guò)程中實(shí)現(xiàn)內(nèi)外節(jié)律相互聯(lián)系與共同作用的關(guān)鍵機(jī)制。
綜上, 本文首先論述三種常見的外部節(jié)律如何影響聽覺(jué)言語(yǔ)理解, 說(shuō)明節(jié)律對(duì)言語(yǔ)理解影響的普遍性。接著, 我們總結(jié)了作為內(nèi)部節(jié)律的神經(jīng)振蕩在言語(yǔ)理解中的功能。最后結(jié)合神經(jīng)夾帶在言語(yǔ)加工中的作用與其受自上而下認(rèn)知過(guò)程的影響, 討論神經(jīng)夾帶在言語(yǔ)理解中作為聯(lián)系內(nèi)外節(jié)律機(jī)制的可能性。未來(lái)研究需要從不同層級(jí)、不同尺度和不同背景中去探究節(jié)律在聽覺(jué)言語(yǔ)理解中的意義。
言語(yǔ)產(chǎn)生是隨著時(shí)間推移而展開, 這使得時(shí)間順序?qū)β犝呃斫庑畔⒅陵P(guān)重要。為了理解言語(yǔ)內(nèi)容, 聽者需要根據(jù)外部節(jié)律特征從持續(xù)的語(yǔ)音流中感知音素、音節(jié)、單詞和短語(yǔ)的時(shí)間組織(Ding & He, 2016; Kotz & Schwartze, 2010; Peelle & Davis, 2012)。此部分我們依據(jù)言語(yǔ)輸入和背景信息將影響言語(yǔ)理解的外部節(jié)律劃分為三種常見類型, 主要涉及韻律結(jié)構(gòu)節(jié)律、語(yǔ)境節(jié)律和說(shuō)話者身體語(yǔ)言節(jié)律。
言語(yǔ)的韻律結(jié)構(gòu)節(jié)律在閱讀和口語(yǔ)交流中表現(xiàn)各不相同。視覺(jué)閱讀中詞與詞組合而形成的音節(jié)數(shù)目的搭配會(huì)動(dòng)態(tài)影響局部短語(yǔ)分析和整體句子整合(Luo & Zhou, 2010; Luo et al., 2015), 視覺(jué)輸入為主的閱讀并不能直接提供韻律結(jié)構(gòu)信息而需要讀者借助內(nèi)部表征如默讀等方式實(shí)現(xiàn)。此部分主要關(guān)注于聽覺(jué)場(chǎng)景中外部節(jié)律的韻律結(jié)構(gòu)節(jié)律, 即口語(yǔ)中的音節(jié)長(zhǎng)短、音節(jié)間間隔和重音分布等特征上(Dellwo, 2006; Ramus et al., 1999; 方嵐等, 2021)。
音節(jié)間間隔能夠直接影響言語(yǔ)可懂度。研究者通過(guò)對(duì)句子進(jìn)行時(shí)間上的壓縮降低了音節(jié)間停頓時(shí)間, 導(dǎo)致整體語(yǔ)速加快, 結(jié)果發(fā)現(xiàn)聽者對(duì)句子的可懂度出現(xiàn)了劇烈的下降(Bosker & Ghitza, 2018; Ghitza & Greenberg, 2009)。聽者表現(xiàn)出難以加工韻律結(jié)構(gòu)節(jié)律被破壞的言語(yǔ)刺激, 但這可能是源自于句子加工依賴于特定節(jié)律的感覺(jué)輸入, 又或者時(shí)間壓縮后音節(jié)內(nèi)的聲學(xué)結(jié)構(gòu)被破壞使聽者難以識(shí)別。為了回答這一問(wèn)題, 研究者將壓縮后的言語(yǔ)波形進(jìn)行等距的切分, 切分后每段內(nèi)的音節(jié)仍舊處于壓縮狀態(tài), 而后在每個(gè)片段后加入一段無(wú)聲的間隔以產(chǎn)生人為的節(jié)律特性。聽者加工這類句子的可懂度得到了恢復(fù)。需要注意的是, 只有在插入的間隔是以固定規(guī)律形式時(shí)言語(yǔ)可懂度才會(huì)恢復(fù), 無(wú)規(guī)律的間隔則沒(méi)有任何效應(yīng)(Ghitza & Greenberg, 2009)。所以聽者對(duì)于言語(yǔ)的理解依賴于言語(yǔ)自身節(jié)律特性, 在壓縮后的句子中加入無(wú)聲間隔的過(guò)程可以理解為是對(duì)句子內(nèi)音節(jié)的“重新打包” (repackage), 即將時(shí)域上的波形分割成不同部分。這些包以規(guī)定的速率傳導(dǎo)至雙耳, 協(xié)助聽者預(yù)測(cè)包內(nèi)音節(jié)的最大信息傳輸速率從而在一定程度上恢復(fù)了言語(yǔ)可理解性。
韻律結(jié)構(gòu)節(jié)律對(duì)可懂度的影響反映了聽覺(jué)系統(tǒng)在處理不同傳輸速率的信息流時(shí)的自適應(yīng)性。自然言語(yǔ)中, 音節(jié)間停頓的長(zhǎng)短主要涉及到兩個(gè)方面因素(Ghitza & Greenberg, 2009), 一個(gè)是人類發(fā)音器官的生物力學(xué)特性和大腦的神經(jīng)動(dòng)力學(xué)特性。發(fā)音器官/大腦內(nèi)在振蕩導(dǎo)致口唇運(yùn)動(dòng)和言語(yǔ)的時(shí)域包絡(luò)大約為5 Hz的節(jié)律, 以此調(diào)制沉默時(shí)間的長(zhǎng)短; 另一個(gè)因素是言語(yǔ)的層次韻律結(jié)構(gòu)。例如, 當(dāng)一個(gè)音節(jié)在一個(gè)單詞內(nèi)時(shí), 它后面的停頓期通常很短, 但當(dāng)它與一個(gè)更高層的語(yǔ)言結(jié)構(gòu)(例如韻律詞、韻律短語(yǔ)和語(yǔ)調(diào)短語(yǔ))的邊界重合時(shí), 沉默會(huì)逐漸拉長(zhǎng)。言語(yǔ)中的沉默給大腦提供了額外的時(shí)間來(lái)處理間隙之前的音節(jié), 當(dāng)沉默時(shí)間被縮小或擴(kuò)大并違反自然語(yǔ)言的時(shí)間規(guī)律時(shí), 會(huì)增加聽者加工所需的負(fù)載, 進(jìn)而破壞句子的可懂度(Ding & He, 2016)。
除了停頓的長(zhǎng)短外, 停頓的位置也被認(rèn)為能夠改變聽者對(duì)于言語(yǔ)的節(jié)律感知, 主要涉及口語(yǔ)句子中韻律邊界(prosodic boundary)。這些邊界與感知停頓、邊界前音節(jié)延長(zhǎng)和短語(yǔ)末尾的音高都具有聯(lián)系(Li & Yang, 2009, 2010), 所以韻律邊界的感知能夠促進(jìn)聽者將言語(yǔ)切分成不同層次的組塊, 并與口語(yǔ)的感知流暢性和可理解性密切相關(guān)(方嵐等, 2021; 于澤等, 2010), 漢語(yǔ)作為聲調(diào)言語(yǔ)在口語(yǔ)的結(jié)構(gòu)分析、語(yǔ)義加工和情緒感知等方面均受到韻律邊界的影響(Li & Yang, 2010; Li, Zhang et al., 2019)。近期研究以漢語(yǔ)中同時(shí)可理解為偏正結(jié)構(gòu)(modifier noun construction)或述賓結(jié)構(gòu)(narrative object structure)的歧義短語(yǔ)為材料發(fā)現(xiàn), 當(dāng)聽者注意到韻律信息時(shí), 韻律邊界會(huì)改變聽者對(duì)歧義短語(yǔ)的結(jié)構(gòu)分析過(guò)程(Li, Zhang et al., 2019)。韻律邊界能夠在歧義語(yǔ)境下幫助聽者進(jìn)行句式結(jié)構(gòu)的分析, 通過(guò)消除結(jié)構(gòu)上的歧義從而促進(jìn)言語(yǔ)可懂度。此外, 漢語(yǔ)韻律中的重音位置還能夠改變聽者對(duì)言語(yǔ)中不同位置詞匯的選擇性注意, 使得重音后的詞匯被更強(qiáng)的加工(Li & Ren, 2012)。
目標(biāo)言語(yǔ)前后的聲學(xué)場(chǎng)景我們一般會(huì)稱為語(yǔ)境(context), 可以在時(shí)間上與目標(biāo)語(yǔ)音相鄰或不相鄰(Stilp, 2020)。語(yǔ)境對(duì)言語(yǔ)理解的影響主要源于語(yǔ)速快慢, 這是因?yàn)樵谠~匯感知或邊界切分中聽者需要依賴語(yǔ)境中提供的相對(duì)速率線索(Brown et al., 2011; Dilley et al., 2010; Dilley & McAuley, 2008)。說(shuō)話者語(yǔ)速變化一般通過(guò)句子中元音和輔音間間隔調(diào)節(jié)來(lái)實(shí)現(xiàn)(Dellwo, 2006), 而這兩類音素間間隔的分布能夠反應(yīng)語(yǔ)句中節(jié)律性(Ling et al., 2000; Ramus et al., 1999)。當(dāng)說(shuō)話者的語(yǔ)速較慢時(shí), 聽者容易將句子中所包含的一個(gè)虛詞(如:or或are)忽略, 即在知覺(jué)層面表現(xiàn)出詞匯消失的現(xiàn)象(Dilley & Pitt, 2010)。有趣的是, 如果把語(yǔ)速加快聽者反而會(huì)知覺(jué)到句子中本來(lái)沒(méi)有的虛詞。這種現(xiàn)象會(huì)隨著語(yǔ)境時(shí)間拉長(zhǎng)而加劇, Baese- Berk等人(2014)同時(shí)操縱了全局語(yǔ)境(global-context,整段材料)的語(yǔ)速和遠(yuǎn)端語(yǔ)境(distal-context, 目標(biāo)詞所在句子)的語(yǔ)速, 發(fā)現(xiàn)隨著時(shí)間推移全局語(yǔ)速對(duì)目標(biāo)單詞數(shù)量感知的影響增大, 即隨著語(yǔ)速的減慢單詞數(shù)量感知呈現(xiàn)下降趨勢(shì)。這些發(fā)現(xiàn)表明隨著語(yǔ)境節(jié)律的加速或減慢, 聽者對(duì)言語(yǔ)中詞匯數(shù)量的知覺(jué)會(huì)向補(bǔ)償方向移動(dòng)以確保感知保持穩(wěn)定, 即聽者會(huì)自發(fā)調(diào)整對(duì)于后續(xù)出現(xiàn)詞匯的持續(xù)時(shí)間或者邊界位置的主觀感知來(lái)契合整體語(yǔ)境節(jié)律。值得注意的是, 這一現(xiàn)象可能特異于語(yǔ)境內(nèi)容, 人為降低語(yǔ)境內(nèi)語(yǔ)音的可懂度或者采用其他音調(diào)序列時(shí), 聽者對(duì)單詞數(shù)量的識(shí)別將不受影響(Pitt et al., 2016)。
語(yǔ)速除了改變聽者對(duì)語(yǔ)境下詞匯數(shù)量的判斷, 還會(huì)影響單詞內(nèi)元音和輔音的辨識(shí), 這是因?yàn)檠哉Z(yǔ)感知很大程度上依賴于從特定頻率信息中恢復(fù)音位線索(Di Liberto et al., 2019; O'Brien et al., 2020)。例如, 一個(gè)快速的語(yǔ)音環(huán)境會(huì)使聽者更偏好于將一個(gè)模糊元音判斷為長(zhǎng)元音(如:/a, a:/), 因?yàn)橄噜徴Z(yǔ)境內(nèi)的音節(jié)持續(xù)時(shí)間會(huì)改變后續(xù)音節(jié)持續(xù)時(shí)間的主觀評(píng)估, 快節(jié)律的語(yǔ)境會(huì)使聽者對(duì)客觀時(shí)間的判斷變短使后續(xù)元音聽起來(lái)相對(duì)較長(zhǎng)(Bosker, Sjerps et al., 2020; K?sem et al., 2018; Reinisch, 2016)。語(yǔ)境速率對(duì)音素間語(yǔ)音邊界的影響被稱為語(yǔ)音邊界移位(phonetic boundary shift, PBS) (Maslowski et al., 2019; Reinisch, 2016)。這種現(xiàn)象同樣發(fā)生在輔音感知中, 即較快節(jié)律的語(yǔ)境對(duì)/ba/-/wa/的模糊音節(jié)判斷中, 聽者會(huì)更大可能性認(rèn)為是/wa/ (Wade & Holt, 2005)。言語(yǔ)中音素知覺(jué)受語(yǔ)境帶來(lái)的外部節(jié)律影響, 由于在非言語(yǔ)環(huán)境下這種現(xiàn)象同樣會(huì)被誘發(fā), 如純音序列(Bosker, 2017), 所以這種速率依賴的知覺(jué)被認(rèn)為涉及一般的聽覺(jué)過(guò)程。
知覺(jué)從來(lái)不是對(duì)感覺(jué)信息的客觀登記。就像任何形態(tài)的感知一樣, 言語(yǔ)感知是相對(duì)于語(yǔ)境的, 它會(huì)依據(jù)先前的經(jīng)驗(yàn)和背景發(fā)生改變(Stilp, 2020)。上述研究表明在外部節(jié)律的誘導(dǎo)下, 聽者對(duì)給定語(yǔ)境下感知到的單詞數(shù)量和音節(jié)判別會(huì)發(fā)生改變。這些結(jié)果有助于解釋在言語(yǔ)信號(hào)失真情況下, 語(yǔ)音識(shí)別能力下降的原因。
身體語(yǔ)言是一種非語(yǔ)言交流模式, 說(shuō)話者通過(guò)面部活動(dòng)和手部擺動(dòng)等方式輔助自身的信息表達(dá)(Holler & Levinson, 2019)。在面對(duì)面的交流中聽者同時(shí)感知到的說(shuō)話者的身體活動(dòng)和言語(yǔ)節(jié)律往往在特定頻率上匹配, 這有利于它們之間的耦合, 就像“手舞足蹈”的演講者會(huì)更容易讓聽眾關(guān)注于演講內(nèi)容(Morillon & Baillet, 2017; Morillon et al., 2014; Rimmele et al., 2018)。
說(shuō)話者發(fā)音器官內(nèi)的一系列協(xié)作運(yùn)動(dòng)體現(xiàn)在聲道的開放和縮小的循環(huán)中(Abbs et al., 1984; Browman & Goldstein, 1992; Cho et al., 2019; Proctor et al., 2019)。例如, 在發(fā)音/b/時(shí)需要封閉聲道的前部, 因此口唇和下巴的運(yùn)動(dòng)之間有一個(gè)協(xié)同過(guò)程, 以實(shí)現(xiàn)完全閉合。目前許多研究都集中在言語(yǔ)中的聲音和運(yùn)動(dòng)的相互作用上, 如聽者在觀測(cè)說(shuō)話者的口唇運(yùn)動(dòng)時(shí), 通過(guò)人為改變運(yùn)動(dòng)速率會(huì)影響聽者對(duì)實(shí)際言語(yǔ)的語(yǔ)速判定(Bosker, Peeters et al., 2020)。而在多說(shuō)話人場(chǎng)景中, 研究者還發(fā)現(xiàn)說(shuō)話者的口唇運(yùn)動(dòng)信息能夠提升聽者對(duì)目標(biāo)言語(yǔ)的識(shí)別成績(jī)(Wu et al., 2013)。聽者對(duì)言語(yǔ)的加工除了利用說(shuō)話者的口唇運(yùn)動(dòng), 還會(huì)根據(jù)其自發(fā)的手部運(yùn)動(dòng)來(lái)理解言語(yǔ)(Iani & Bucciarelli, 2017; 殷融, 2020)。說(shuō)話者為了表明言語(yǔ)中的重點(diǎn)往往會(huì)利用手勢(shì)的擺動(dòng)突顯重音位置, 研究者發(fā)現(xiàn)說(shuō)話人的手部?jī)上噙\(yùn)動(dòng)(上下擺動(dòng)手臂)會(huì)顯著改變聽者對(duì)詞匯中的重音感知位置(Bosker & Peeters, 2021)。這些結(jié)果都在說(shuō)明言語(yǔ)知覺(jué)不僅受聽覺(jué)層面外部節(jié)律的影響還受說(shuō)話者的非聽覺(jué)的運(yùn)動(dòng)節(jié)律的影響。
聽者能夠利用非聲學(xué)的身體語(yǔ)言節(jié)律信息促進(jìn)言語(yǔ)理解, 可能說(shuō)明聽者和說(shuō)話者之間存在某種重合的先驗(yàn)知識(shí)。言語(yǔ)知覺(jué)的運(yùn)動(dòng)理論(motor theory of speech perception)認(rèn)為說(shuō)話者和聽者會(huì)共享一套相似的神經(jīng)運(yùn)動(dòng)指令(neuromotor command), 當(dāng)聽者加工說(shuō)話者的運(yùn)動(dòng)信息并將其映射到自身的指令時(shí), 這將有助于聽者理解說(shuō)話者的言語(yǔ)內(nèi)容(Poeppel & Assaneo, 2020)。
綜上, 外部節(jié)律對(duì)聽覺(jué)言語(yǔ)理解的影響存在于廣泛聽覺(jué)與非聽覺(jué)刺激中, 語(yǔ)境語(yǔ)速能夠改變聽者對(duì)后續(xù)音素的判別和詞匯數(shù)量的估計(jì), 言語(yǔ)內(nèi)在節(jié)律能夠改變句子可懂度的高低, 身體語(yǔ)言節(jié)律可以改變重音位置感知。但是我們的大腦是如何利用這些節(jié)律信息指導(dǎo)言語(yǔ)感知, 接下來(lái)我們將從神經(jīng)元集群的節(jié)律性振蕩方面進(jìn)行討論。
早期關(guān)于聽覺(jué)言語(yǔ)理解的大腦內(nèi)部過(guò)程研究主要采用事件相關(guān)電位(event-related potentials, ERPs)和功能磁共振成像(functional magnetic resonance imaging, fMRI)技術(shù)展開。音節(jié)探測(cè)、言語(yǔ)理解涉及N1-P2、N400、P600等事件相關(guān)電位成份的參與(Bridwell et al., 2018; Broderick et al., 2018; Morris & Klerke, 2016)。近年來(lái)隨著研究方法的改進(jìn), 通過(guò)顱內(nèi)電極記錄和時(shí)頻分析等手段, 大腦內(nèi)自發(fā)的神經(jīng)振蕩開始成為關(guān)注的對(duì)象, 從神經(jīng)振蕩層面揭示聽覺(jué)言語(yǔ)理解的研究越來(lái)越多。本部分將關(guān)注言語(yǔ)加工中大腦的內(nèi)部節(jié)律變化, 以及神經(jīng)夾帶現(xiàn)象在其中的作用。
言語(yǔ)本身的節(jié)律特性作為其內(nèi)在屬性是如何在大腦中得以表征, 以及外部節(jié)律如何影響言語(yǔ)感知?為了回答這些問(wèn)題, 研究者開始關(guān)注大腦內(nèi)部節(jié)律活動(dòng)的作用(Ding et al., 2016; Zion-Golumbic & Schroeder, 2012; Haegens & Golumbic, 2018)。在早期, 通過(guò)頭皮記錄到的電活動(dòng)變化一直被認(rèn)為是大腦活動(dòng)的背景噪音, 后來(lái)研究者開始意識(shí)到神經(jīng)元集群的振蕩活動(dòng)體現(xiàn)了神經(jīng)元興奮性的周期變化(Bishop, 1933; Raichle, 2010), 如振蕩的瞬時(shí)相位反映了神經(jīng)集群在給定時(shí)刻的興奮性水平(excitability level)。當(dāng)振蕩的興奮性階段被調(diào)整, 使神經(jīng)元集群高興奮性與任務(wù)相關(guān)的感官輸入相一致, 對(duì)齊的輸入將得到最優(yōu)處理(Schroeder & Lakatos, 2009), 所以大腦的內(nèi)部節(jié)律可能是完成外部節(jié)律性刺激加工的理想工具。
神經(jīng)振蕩依照頻率高低的常被劃分為delta頻帶(1~4 Hz)、theta頻帶(4~10 Hz)、alpha頻帶(8~15 Hz)、beta頻帶(12~30 Hz)和gamma頻帶(30~200 Hz)。在聽覺(jué)言語(yǔ)加工中, theta頻帶振蕩被認(rèn)為能夠?qū)⑤斎氲倪B續(xù)語(yǔ)音信號(hào)分解為離散的單詞單元, 而delta頻帶振蕩則把分割的單詞結(jié)合為更高層的基于語(yǔ)法或語(yǔ)義組合的言語(yǔ)結(jié)構(gòu)(K?sem & van Wassenhove, 2016; Ding et al., 2016)。近期在漢語(yǔ)的韻律語(yǔ)境加工中也發(fā)現(xiàn), 韻律節(jié)律可能通過(guò)增強(qiáng)與語(yǔ)音加工相關(guān)的頻帶活動(dòng)促進(jìn)語(yǔ)音理解。相比于不規(guī)則韻律節(jié)律的語(yǔ)境, 規(guī)則韻律節(jié)律能夠誘發(fā)聽者在加工目標(biāo)名詞前的beta頻帶和目標(biāo)名詞后的alpha頻帶增強(qiáng)(Li, Shao et al., 2019)。而更高頻的gamma頻帶的包絡(luò)變化則被發(fā)現(xiàn)能夠表征語(yǔ)音在功率譜上的多層次編碼并受到聽者目標(biāo)選擇的影響(Zion-Golumbic & Schroeder, 2012; Mesgarani & Chang, 2012)。
與言語(yǔ)中的層級(jí)結(jié)構(gòu)相似, 不同頻率的神經(jīng)振蕩也趨向于以一種層級(jí)化的模式相互耦合。大腦內(nèi)的低頻振蕩(如theta頻帶)可能反應(yīng)了音節(jié)層面加工, 而高頻振蕩(如gamma頻帶)更多表征了音素或發(fā)音特征等信息, 頻帶間的相互耦合反應(yīng)了遠(yuǎn)距離腦區(qū)信息交流以及協(xié)調(diào)全局神經(jīng)網(wǎng)絡(luò)的信息整合(Baltus & Herrman, 2016)。在A1中, Gamma頻帶振幅隨theta振蕩的相位系統(tǒng)變化, theta振幅還與delta (1~2 Hz)相位耦合(Lakatos et al., 2005; Lakatos et al., 2007)。有趣的是這類效應(yīng)受言語(yǔ)可懂度的影響, 相比于倒放言語(yǔ)(無(wú)法理解的), 加工自然言語(yǔ)(可理解的)時(shí), 聽者的左側(cè)額下區(qū)的delta頻帶和中央前回的theta頻帶才能夠調(diào)節(jié)左側(cè)聽覺(jué)區(qū)域25 Hz振蕩的相位活動(dòng)(Park et al., 2015)。所以不同節(jié)律的神經(jīng)振蕩能夠表征言語(yǔ)刺激中不同時(shí)間尺度的層級(jí)信息, 通過(guò)相互協(xié)調(diào)對(duì)這些信息進(jìn)行整合處理, 完成聽覺(jué)言語(yǔ)理解(Kayser et al., 2015)。
外部節(jié)律性刺激輸入時(shí), 聽者大腦會(huì)記錄到與外部節(jié)律在相位上相對(duì)齊或相同頻帶下能量增大的現(xiàn)象(K?sem et al., 2018; Obleser & Kayser, 2019)。這些過(guò)程被認(rèn)為可能是由于持續(xù)的神經(jīng)振蕩的相位被外部節(jié)律刺激所“重置” (reset)而產(chǎn)生的(Lakatos et al., 2009), 我們通常將這種內(nèi)部節(jié)律與外部節(jié)律的時(shí)間對(duì)齊現(xiàn)象稱為神經(jīng)夾帶。研究者一般認(rèn)為神經(jīng)夾帶的發(fā)生是基于神經(jīng)系統(tǒng)自身具有的節(jié)律性活動(dòng), 它們能夠在缺乏外界連續(xù)性刺激輸入的情況下維持活動(dòng), 所以?shī)A帶能夠在外部刺激消失后維持一段時(shí)間(K?sem et al., 2018; Tass et al., 1998)。常見的神經(jīng)夾帶計(jì)算方法包括外部刺激和大腦活動(dòng)之間的相位相干性, 以及以正向(如時(shí)間響應(yīng)函數(shù))或反向 (如刺激重構(gòu))的方式連接大腦和刺激的回歸模型(Fiedler et al., 2019; Fuglsang et al., 2017; Zhang & Ding, 2017)。所以神經(jīng)夾帶有時(shí)也被稱為同步化(synchronization), 或外部刺激為聽覺(jué)言語(yǔ)時(shí)還被稱為言語(yǔ)追隨(speech tracking)反應(yīng)。
在言語(yǔ)理解中, 外部節(jié)律可能源于音節(jié)、詞匯邊界或其他聲學(xué)線索。神經(jīng)夾帶能夠通過(guò)這些外部節(jié)律特征完成語(yǔ)音分析, 從連續(xù)的聲音信號(hào)中提取離散的語(yǔ)言成分(Haegens & Golumbic, 2018; Obleser & Kayser, 2019)。經(jīng)典神經(jīng)夾帶觀點(diǎn)認(rèn)為產(chǎn)生夾帶的神經(jīng)活動(dòng)相位與言語(yǔ)中韻律或音節(jié)邊界一致(Giraud & Poeppel, 2012; Peelle & Davis, 2012), 例如通過(guò)delta節(jié)律振蕩追蹤韻律線索(Bourguignon et al., 2013), theta節(jié)律振蕩反映音節(jié)和詞匯結(jié)構(gòu)(Doelling et al., 2014; Ding et al., 2016)。Luo和Poeppel (2007)通過(guò)記錄聽者在加工自然言語(yǔ)情況下的皮層腦磁圖信號(hào)發(fā)現(xiàn), 大腦的theta節(jié)律振蕩的相位模式穩(wěn)定地追隨口語(yǔ)句子中的音節(jié)節(jié)律。此研究還發(fā)現(xiàn)當(dāng)言語(yǔ)與噪聲相互嵌合后, 外部言語(yǔ)的節(jié)律性喪失以及句子可懂度下降會(huì)破壞聽者的神經(jīng)夾帶反應(yīng)。除了其他聲學(xué)刺激干擾外, 言語(yǔ)本身的語(yǔ)速也會(huì)影響神經(jīng)夾帶, 一旦語(yǔ)速過(guò)快, 聽者將難以跟上句子內(nèi)容使夾帶被中斷(Ahissar et al., 2001)。有趣的是, 對(duì)于言語(yǔ)內(nèi)的物理聲學(xué)特征的夾帶是自動(dòng)的, 如睡眠期間也能記錄到夾帶(Ding & He, 2016; Makov et al., 2017)。但涉及句子內(nèi)的語(yǔ)言學(xué)單元?jiǎng)t需要言語(yǔ)被注意或者理解時(shí)才能夠被夾帶(Brodbeck et al., 2018)。雖然可理解性與語(yǔ)速快慢的研究反映神經(jīng)夾帶在言語(yǔ)處理中的作用, 但此類研究仍舊存在一些問(wèn)題。降低語(yǔ)音可理解性通常涉及刺激聲學(xué)的變化, 因此觀察到的語(yǔ)音跟蹤反應(yīng)的差異可能與改變的聲音輸入有關(guān)(Ding & Simon, 2012;K?sem & van Wassenhove, 2017; Steinmetzger & Rosen, 2017)。所以未來(lái)研究中, 探索言語(yǔ)理解與神經(jīng)夾帶的關(guān)系, 需要仔細(xì)控制語(yǔ)音刺激的聲學(xué)特性。
在面對(duì)面的交談中, 聽者言語(yǔ)理解受身體語(yǔ)言的影響(Morillon & Baillet, 2017; Morillon et al., 2014; Poeppel & Assaneo, 2020)。Park等人(2016)發(fā)現(xiàn)這一過(guò)程同樣涉及說(shuō)話者運(yùn)動(dòng)與聽者神經(jīng)活動(dòng)的夾帶過(guò)程。他們通過(guò)計(jì)算說(shuō)話者口唇開合面積隨時(shí)間變化模式與聽者初級(jí)視聽皮層和左側(cè)運(yùn)動(dòng)區(qū)的神經(jīng)活動(dòng), 發(fā)現(xiàn)二者在1 Hz上有顯著的夾帶效應(yīng), 并且目標(biāo)言語(yǔ)的理解程度能被夾帶的同步性所預(yù)測(cè)。聽者大腦對(duì)身體言語(yǔ)的夾帶使聽者能夠?qū)崟r(shí)利用運(yùn)動(dòng)區(qū)“模擬”的發(fā)聲過(guò)程幫助聽覺(jué)區(qū)預(yù)測(cè)即將輸入的感覺(jué)刺激, 進(jìn)而促進(jìn)言語(yǔ)理解(Morillon & Baillet, 2017; Morillon et al., 2014)。
神經(jīng)夾帶反映了節(jié)律信息對(duì)言語(yǔ)理解的影響。言語(yǔ)在時(shí)間結(jié)構(gòu)上的規(guī)律性作為外部節(jié)律被聽者感知時(shí), 大腦內(nèi)部神經(jīng)活動(dòng)的重置使內(nèi)部節(jié)律的變化模式與外部節(jié)律相似, 這使得相近相位模式下的神經(jīng)活動(dòng)成為言語(yǔ)理解的理想環(huán)境(Haegens & Golumbic, 2018; Schroeder & Lakatos, 2009)。然而, 神經(jīng)夾帶并非單一對(duì)外部節(jié)律信息的被動(dòng)追隨, 它還受聽者主觀調(diào)控的影響。我們將從言語(yǔ)理解過(guò)程中涉及的幾個(gè)自上而下的認(rèn)知過(guò)程對(duì)神經(jīng)夾帶的影響, 進(jìn)一步探討神經(jīng)夾帶在言語(yǔ)理解的作用。
神經(jīng)夾帶能根據(jù)聽者當(dāng)前的認(rèn)知狀態(tài)動(dòng)態(tài)選擇或增強(qiáng)與外部輸入的同步性, 便于大腦更有針對(duì)性的預(yù)測(cè)目標(biāo)信息(Lakatos et al., 2019)。在言語(yǔ)理解過(guò)程中, 自上而下的調(diào)控可能源于聽者的選擇性注意(Helfrich et al., 2019; Lakatos et al., 2013; Obleser & Kayser, 2019)、語(yǔ)法的先驗(yàn)知識(shí)(Ding et al., 2016; Ding, Melloni et al., 2017)和言語(yǔ)語(yǔ)境產(chǎn)生的預(yù)期(Broderick et al., 2019)等認(rèn)知過(guò)程。
嘈雜的聲學(xué)環(huán)境使目標(biāo)言語(yǔ)理解變得困難, 選擇性注意有助于放大注意刺激流與非注意刺激間的夾帶差異, 前者與神經(jīng)活動(dòng)的相位同步有利于獲取更多的加工資源, 后者則傳遞到了非最優(yōu)相位階段使其更容易被抑制, 這有助于嘈雜環(huán)境中的言語(yǔ)理解(Calderone et al., 2014; Knudsen, 2018; Lavie, 1995; Zion-Golumbic & Schroeder, 2012)。多說(shuō)話者的場(chǎng)景中, 聽者選擇性注意單一說(shuō)話人的言語(yǔ)內(nèi)容時(shí), 聽覺(jué)皮層區(qū)域(如:顳上回)和高層級(jí)的腦區(qū)(如:額下皮層, 顳前部)都發(fā)現(xiàn)增強(qiáng)了神經(jīng)振蕩的振幅調(diào)制, 高級(jí)皮層區(qū)域還表現(xiàn)出更明顯的選擇性增強(qiáng)對(duì)注意言語(yǔ)夾帶的現(xiàn)象(Golumbic et al., 2013)。此外, 選擇性注意還有助于身體語(yǔ)言促進(jìn)聽覺(jué)言語(yǔ)理解過(guò)程。當(dāng)聽者更加注意說(shuō)話者的口唇運(yùn)動(dòng)時(shí), 左側(cè)運(yùn)動(dòng)皮層與口唇運(yùn)動(dòng)間的夾帶增強(qiáng), 并且這種增強(qiáng)能直接預(yù)測(cè)言語(yǔ)理解的準(zhǔn)確性(Park et al., 2016)。所以不同腦區(qū)間的神經(jīng)夾帶能夠通過(guò)選擇性注意建立起時(shí)間上的耦合, 提高腦區(qū)間的信息整合的精確度。
言語(yǔ)理解過(guò)程需要通過(guò)語(yǔ)音特征檢索對(duì)應(yīng)的詞匯信息, 再基于聽者先驗(yàn)的語(yǔ)法知識(shí)組合成短語(yǔ)和句子(Poeppel et al., 2008; Phillips et al., 2003)。在排除口語(yǔ)韻律和統(tǒng)計(jì)層面線索的影響下, 研究者發(fā)現(xiàn)不同頻率的皮層活動(dòng)能夠同時(shí)追隨言語(yǔ)中單詞、短語(yǔ)和句子等不同層次的抽象語(yǔ)言結(jié)構(gòu)的時(shí)間進(jìn)程(Ding et al., 2016)。不同時(shí)間尺度的言語(yǔ)單元的同步神經(jīng)夾帶可能預(yù)示著一種層級(jí)嵌入模式, 即更小的言語(yǔ)單元表征嵌入在更高層次的言語(yǔ)單元表征下(Christiansen & Chater, 2015; Lerner et al., 2011; Poeppel et al., 2008), 從而實(shí)現(xiàn)言語(yǔ)中不同層級(jí)信息間的及時(shí)整合(Ding, Patel et al., 2017; Ding et al., 2016)。當(dāng)聽者理解言語(yǔ)內(nèi)容后, 依據(jù)上下文產(chǎn)生的語(yǔ)境預(yù)期同樣能夠影響之后出現(xiàn)詞匯的語(yǔ)音包絡(luò)的神經(jīng)夾帶程度, 即詞匯的語(yǔ)義與上下文越接近時(shí)目標(biāo)詞匯的皮層腦電信號(hào)的神經(jīng)夾帶越強(qiáng)(Broderick et al., 2019)。這表明神經(jīng)夾帶還受到聽者基于上下文預(yù)測(cè)的影響, 能夠最大限度地提高未來(lái)事件的可預(yù)測(cè)性, 并精確地安排資源的分配時(shí)間(Henry et al., 2014), 從而促進(jìn)即將到來(lái)的單詞的初級(jí)編碼階段處理。這一機(jī)制還解釋了為什么外部可預(yù)測(cè)的節(jié)律性刺激相比不可預(yù)測(cè)的非節(jié)律性刺激更容易被感知(Mathewson et al., 2010; Rohenkohl et al., 2012)。
神經(jīng)夾帶受聽者自上而下認(rèn)知過(guò)程的影響能夠更好的表征復(fù)雜聽覺(jué)環(huán)境中的節(jié)律信息, 促進(jìn)目標(biāo)言語(yǔ)的理解。它可以作為一個(gè)“濾波器”, 根據(jù)聽者的選擇性注意減弱或消除高級(jí)腦區(qū)在嘈雜環(huán)境中對(duì)非注意語(yǔ)音流的神經(jīng)響應(yīng); 還可以作為一個(gè)“增益器”, 依據(jù)聽者的預(yù)期來(lái)增強(qiáng)言語(yǔ)中相應(yīng)成分的表征和加工; 最后神經(jīng)夾帶可以作為一個(gè)“連接器”, 根據(jù)聽者已有的先驗(yàn)知識(shí)完成言語(yǔ)內(nèi)不同層級(jí)間成分或跨腦區(qū)間信息的整合。所以聽者的主動(dòng)調(diào)控使言語(yǔ)理解過(guò)程中的關(guān)鍵信息具有更大的可能性處于神經(jīng)元集群活動(dòng)的最佳興奮性水平, 從而獲得更多的加工資源。據(jù)此我們認(rèn)為神經(jīng)夾帶可能為外部節(jié)律和內(nèi)部節(jié)律提供了一座聯(lián)系的“橋梁”。
談及言語(yǔ)節(jié)律時(shí), 研究者往往從語(yǔ)音信號(hào)的時(shí)域?qū)用孢M(jìn)行討論, 如語(yǔ)音包絡(luò)或聲學(xué)單位的持續(xù)時(shí)間等。這些對(duì)象的起伏變化構(gòu)成了聽者對(duì)外部節(jié)律的感知, 是構(gòu)建可理解言語(yǔ)過(guò)程所必需的。外部節(jié)律能夠幫助聽者關(guān)注單詞或它們的組成元素(如音素或音節(jié))進(jìn)而促進(jìn)理解。聽者大腦的神經(jīng)振蕩作為內(nèi)部節(jié)律, 能夠表征與整合言語(yǔ)內(nèi)不同層級(jí)信息。而神經(jīng)夾帶可能是實(shí)現(xiàn)言語(yǔ)理解中內(nèi)外節(jié)律相互聯(lián)系的關(guān)鍵。
口語(yǔ)中的詞匯間停頓、停頓位置等韻律結(jié)構(gòu)節(jié)律影響聽者在口語(yǔ)加工中可懂度的高低以及對(duì)歧義語(yǔ)境的結(jié)構(gòu)分析, 合適的韻律結(jié)構(gòu)節(jié)律能夠促進(jìn)正確的言語(yǔ)理解, 恢復(fù)難以理解的語(yǔ)義內(nèi)容(Ghitza & Greenberg, 2009; Li & Yang, 2009, 2010)。而于不同的語(yǔ)速的語(yǔ)境則改變聽者對(duì)隨后出現(xiàn)的音節(jié)判別乃至詞匯數(shù)量感知(Dilley & Pitt, 2010; Bosker, Sjerps et al., 2020; Reinisch, 2016)。此外, 說(shuō)話者在言語(yǔ)產(chǎn)生過(guò)程中伴隨的同步運(yùn)動(dòng)行為能夠通過(guò)視覺(jué)通道同時(shí)與言語(yǔ)信息傳入聽者大腦。這些非聽覺(jué)的運(yùn)動(dòng)節(jié)律與言語(yǔ)節(jié)律之間的協(xié)同性能夠幫助聽者更好的捕捉目標(biāo)言語(yǔ)內(nèi)容(Bosker & Peeters, 2021; Poeppel & Assaneo, 2020)。所以言語(yǔ)理解得益于這些外部節(jié)律特征, 它們不但能夠幫助聽者理解和降低處理成本, 還能調(diào)節(jié)音素、詞匯和句子層面的語(yǔ)音處理。
當(dāng)以語(yǔ)音材料的持續(xù)時(shí)間為對(duì)象研究言語(yǔ)節(jié)律時(shí), 口語(yǔ)中聲學(xué)單元的持續(xù)時(shí)間會(huì)改變說(shuō)話者語(yǔ)速的感知。語(yǔ)速快慢通常是改變口語(yǔ)中元音音程百分比(the percentage of vocalic intervals, %V)和輔音音程的標(biāo)準(zhǔn)差(the standard deviation of consonantal intervals, deltaC)進(jìn)而影響節(jié)律感知, 但這一現(xiàn)象并非所有語(yǔ)種中都存在, 如法語(yǔ)的語(yǔ)速快慢并不影響deltaC的變異系數(shù)(Dellwo, 2006; Dellwo & Wagner, 2003)。所以不同語(yǔ)種中涉及語(yǔ)速變化是否能直接影響言語(yǔ)節(jié)律感知仍舊存在爭(zhēng)議, 這提示進(jìn)行不同語(yǔ)言中涉及聲學(xué)單元持續(xù)時(shí)間的研究必須關(guān)注語(yǔ)速的操控。
大腦神經(jīng)活動(dòng)的揭示使研究者認(rèn)為, 內(nèi)部節(jié)律性神經(jīng)振蕩表征了言語(yǔ)信號(hào), 從而實(shí)現(xiàn)聽者對(duì)信號(hào)中關(guān)鍵信息的加工, 在音節(jié)感知、語(yǔ)義加工和句法理解方面得到了證實(shí)(Cason & Schoen, 2012; Kotz & Schmidt-Kassow, 2015; Schmidt-Kassow et al., 2013)。近些年, 大量的研究發(fā)現(xiàn)大腦內(nèi)的神經(jīng)振蕩在時(shí)間上可能存在與外部節(jié)律性刺激間的夾帶現(xiàn)象(K?sem et al., 2018; Obleser & Kayser, 2019)。由于持續(xù)性神經(jīng)活動(dòng)的相位反映了神經(jīng)元興奮性的節(jié)律性波動(dòng), 當(dāng)夾帶發(fā)生時(shí), 產(chǎn)生夾帶效應(yīng)的神經(jīng)活動(dòng)與外部刺激在時(shí)間上相互對(duì)齊時(shí), 能夠?qū)崿F(xiàn)穩(wěn)定地調(diào)整對(duì)輸入刺激的加工增益(Buzsaki & Draguhn, 2004; Lakatos et al., 2005; Vanthornhout et al., 2018)。所以我們認(rèn)為神經(jīng)夾帶是實(shí)現(xiàn)言語(yǔ)理解中內(nèi)外部節(jié)律相互聯(lián)系的可能機(jī)制。
神經(jīng)夾帶現(xiàn)象廣泛的存在于外部節(jié)律影響言語(yǔ)理解的過(guò)程中。它為大腦如何表征言語(yǔ)中不同層級(jí)信息提供了途徑。對(duì)言語(yǔ)刺激的夾帶并非發(fā)生于某一特定頻段中, 從反應(yīng)聲學(xué)特征的gamma頻段到語(yǔ)音的時(shí)域包絡(luò)的theta頻段, 或是漢語(yǔ)中字, 詞和句中更低的delta頻帶, 不同層級(jí)下的節(jié)律大腦都有相對(duì)應(yīng)的神經(jīng)振蕩產(chǎn)生夾帶(Giraud & Poeppel, 2012; Peelle & Davis, 2012)。神經(jīng)夾帶還說(shuō)明了韻律結(jié)構(gòu)節(jié)律或語(yǔ)境節(jié)律的建立對(duì)當(dāng)下言語(yǔ)理解的影響可能是由于自身所具有的自我維持特性。即在事先輸入的節(jié)律刺激變化后已經(jīng)產(chǎn)生的夾帶仍舊可以持續(xù)一段時(shí)間進(jìn)而影響當(dāng)前輸入言語(yǔ)刺激的加工(K?sem et al., 2018)。對(duì)身體言語(yǔ)的夾帶有助于跨腦區(qū)間信息交流的鎖時(shí)性, 確保運(yùn)動(dòng)信息能夠與言語(yǔ)信息精確的整合(Park et al., 2016)。
聽者自上而下認(rèn)知過(guò)程調(diào)節(jié)神經(jīng)夾帶為選擇性注意、先驗(yàn)知識(shí)和預(yù)期在言語(yǔ)理解中的作用提供了生理層面解釋。聽者的選擇性注意通過(guò)神經(jīng)夾帶使得高興奮性的神經(jīng)集群能夠更為集中地表征目標(biāo)刺激, 進(jìn)而提高目標(biāo)言語(yǔ)的識(shí)別率(Calderone et al., 2014; Golumbic et al., 2013; Knudsen, 2018; Lavie, 1995)。反之, 神經(jīng)活動(dòng)會(huì)阻礙無(wú)法對(duì)齊的感覺(jué)刺激的表征建立, 因?yàn)樗鼈儠?huì)隨機(jī)地放大或衰減信息(Lakatos et al., 2019)。先驗(yàn)的語(yǔ)法知識(shí)則通過(guò)同時(shí)對(duì)言語(yǔ)中不同層級(jí)單位的夾帶實(shí)現(xiàn)層級(jí)間的整合的精確性(Ding et al., 2016; Ding, Melloni et al., 2017)。而當(dāng)聽者理解上下文內(nèi)容時(shí), 對(duì)于之后出現(xiàn)詞匯的預(yù)期能夠加強(qiáng)在加工詞匯時(shí)的夾帶強(qiáng)度, 促進(jìn)詞匯的早期發(fā)音編碼加工(Broderick et al., 2019)。所以我們認(rèn)為神經(jīng)夾帶不單是一種被動(dòng)相應(yīng)外部節(jié)律性刺激的大腦活動(dòng), 還能夠根據(jù)聽者的認(rèn)知狀態(tài)創(chuàng)建一個(gè)合適的當(dāng)前言語(yǔ)理解的加工環(huán)境。它作為量化兩種節(jié)律性活動(dòng)一致性關(guān)系的指標(biāo), 已成為描述外部言語(yǔ)與大腦之間雙向關(guān)系的方法, 允許研究者探究節(jié)律或聽者認(rèn)知過(guò)程是如何影響言語(yǔ)理解。
長(zhǎng)期以來(lái)關(guān)于大腦對(duì)感覺(jué)刺激的反應(yīng)是否與內(nèi)在的、持續(xù)的神經(jīng)振蕩有關(guān)一直存在爭(zhēng)議(Doelling & Assaneo, 2021), 大腦的神經(jīng)夾帶是否由神經(jīng)振蕩所產(chǎn)生也缺少直接證據(jù)。研究者需要嚴(yán)謹(jǐn)?shù)嘏袛嘟Y(jié)果中的夾帶現(xiàn)象是由外部刺激和內(nèi)在神經(jīng)振蕩之間的耦合產(chǎn)生, 還是一連串刺激引起的一系列神經(jīng)元誘發(fā)電位。在許多情況下, 所謂的夾帶可能只是來(lái)自于聲音的規(guī)律性輸入而引起的一系列神經(jīng)元誘發(fā)響應(yīng), 而非真正的神經(jīng)振蕩(Obleser & Kayser, 2019; Poeppel & Assaneo, 2020)。
隨著非侵入性腦刺激技術(shù)的發(fā)展, 研究者不在局限于被動(dòng)記錄聽者的大腦活動(dòng), 而開始采用外加干預(yù)的形式探究神經(jīng)振蕩對(duì)言語(yǔ)理解的影響。經(jīng)顱交流電刺激(tACS)相比于經(jīng)顱磁刺激(TMS)是一種完全無(wú)聲的刺激手段, 可以排除任務(wù)中實(shí)驗(yàn)外聲音的干擾(Feher et al., 2017; Raco et al., 2016)。當(dāng)聽者在加工言語(yǔ)刺激時(shí)對(duì)其顳葉區(qū)施加tACS, 干擾theta頻段神經(jīng)振蕩的活動(dòng), 結(jié)果發(fā)現(xiàn)受到干擾的神經(jīng)活動(dòng)導(dǎo)致神經(jīng)夾帶破壞, 并表現(xiàn)出言語(yǔ)可懂度成績(jī)的下降(Riecke et al., 2018; Wilsch et al., 2018; Zoefel et al., 2018)。相反, 如果將言語(yǔ)刺激的包絡(luò)作為電刺激模態(tài)時(shí), 對(duì)頭皮的刺激能夠提高聽者在噪聲環(huán)境下的言語(yǔ)理解能力(Keshavarzi & Reichenbach, 2020)。tACS在刺激頻率和相位上與節(jié)律性聽覺(jué)刺激對(duì)齊, 有助于聽皮層對(duì)連續(xù)聽覺(jué)事件的感知(Wilsch et al., 2018; Zoefel et al., 2018)。未來(lái)研究中, 無(wú)論是控制神經(jīng)振蕩與外部刺激的同步化還是去同步化, 都有助于提供神經(jīng)振蕩在言語(yǔ)知覺(jué)中的作用的更直接證據(jù)。并且這種對(duì)大腦振蕩的“實(shí)驗(yàn)性”影響允許通過(guò)檢查其功能結(jié)果來(lái)確定大腦振蕩是否因果驅(qū)動(dòng)大腦功能, 而不是一種副現(xiàn)象活動(dòng)(Vosskuhl et al., 2018)。
聽覺(jué)言語(yǔ)理解涉及多尺度內(nèi)外部節(jié)律的共同參與。我們首先通過(guò)韻律結(jié)構(gòu)節(jié)律、語(yǔ)境節(jié)律和說(shuō)話者身體語(yǔ)言節(jié)律三類常見的外部節(jié)律, 揭示了外部節(jié)律能夠影響聽覺(jué)言語(yǔ)理解。其次, 我們描述了聽者內(nèi)部神經(jīng)振蕩與神經(jīng)夾帶現(xiàn)象在言語(yǔ)理解過(guò)程中的作用。最后, 我們根據(jù)神經(jīng)夾帶受聽者自上而下認(rèn)知過(guò)程的影響, 探討神經(jīng)夾帶可能是聯(lián)系內(nèi)外節(jié)律的關(guān)鍵機(jī)制。
方嵐, 鄭苑儀, 金晗, 李曉慶, 楊玉芳, 王瑞明. (2021). 口語(yǔ)句子的韻律邊界: 窺探言語(yǔ)理解的秘窗.,(3), 425?437. https://dx.doi.org/10.3724/SP.J.1042. 2021.00425
楊玉芳. (2021).. 科學(xué)出版社.
殷融. (2020). “動(dòng)手不動(dòng)口”: 手部動(dòng)作與語(yǔ)言進(jìn)化的關(guān)系.,(7), 1141?1155. https://doi.org/10.3724/ SP.J.1042.2020.01141
于澤, 韓玉昌, 任桂琴. (2010). 韻律在語(yǔ)言加工中的作用及其神經(jīng)機(jī)制.,(3), 420?425.
Abbs, J. H., Gracco, V. L., & Cole, K. J. (1984). Control of multimovement coordination: Sensorimotor mechanisms in speech motor programming.,(2), 195?231. https://doi.org/10.1080/00222895.1984. 10735318
Ahissar, E., Nagarajan, S., Ahissar, M., Protopapas, A., Mahncke, H., & Merzenich, M. M. (2001). Speech comprehension is correlated with temporal response patterns recorded from auditory cortex.,(23), 13367? 13372. https://doi.org/10.1073/pnas.201400998
Arnal, L. H., & Giraud, A.-L. (2012). Cortical oscillations and sensory predictions.,(7), 390?398. https://doi.org/10.1016/j.tics.2012.05.003
Baese-Berk, M. M., Heffner, C. C., Dilley, L. C., Pitt, M. A., Morrill, T. H., & McAuley, J. D. (2014). Long-term temporal tracking of speech rate affects spoken-word recognition.,(8), 1546?1553. https://doi.org/10.1177/0956797614533705
Baltus, A., & Herrman, C. S. (2016). The importance of individual frequencies of endogenous brain oscillations for auditory cognition - A short review.,, 243?250. https://doi.org/10.1016/j.brainres.2015.09. 030
Bishop, G. H. (1933). Cyclic changes in excitability of the optic pathway of the rabbit.,(1), 213?224. https://doi.org/10.1152/ajplegacy.1932. 103.1.213
Bosker, H. R. (2017). Accounting for rate-dependent category boundary shifts in speech perception.,(1), 333?343. https://doi.org/10.3758/ s13414-016-1206-4
Bosker, H. R., & Ghitza, O. (2018). Entrained theta oscillationsguide perception of subsequent speech: behavioural evidencefrom rate normalisation.,(8), 955?967. https://doi.org/10.1080/23273798.2018. 1439179
Bosker, H. R., & Peeters, D. (2021). Beat gestures influence which speech sounds you hear.,(1943). https://doi.org/ 10.1098/rspb.2020.2419
Bosker, H. R., Peeters, D., & Holler, J. (2020). How visual cues to speech rate influence speech perception.,(10), 1523?1536. https://doi.org/10.1177/1747021820914564
Bosker, H. R., Sjerps, M. J., & Reinisch, E. (2020). Temporal contrast effects in human speech perception are immune to selective attention.,(1), 1?11. https://doi.org/10.1038/s41598-020-62613-8
Bourguignon, M., de Tiege, X., Op de Beeck, M., Ligot, N., Paquier, P., van Bogaert, P., ... Jousmaki, V. (2013). The pace of prosodic phrasing couples the listener's cortex to the reader's voice.,(2), 314?326. https://doi.org/10.1002/hbm.21442
Breska, A., & Deouell, L. Y. (2017). Neural mechanisms of rhythm-based temporal prediction: Delta phase-locking reflects temporal predictability but not rhythmic entrainment.,(2), e2001665. https://doi.org/10.1371/ journal.pbio.2001665
Bridwell, D. A., Henderson, S., Sorge, M., Plis, S., & Calhoun, V. D. (2018). Relationships between alpha oscillations during speech preparation and the listener N400 ERP to the produced speech.,(1), 1?10. https://doi.org/10.1038/s41598-018-31038-9
Brodbeck, C., Hong, L. E., & Simon, J. Z. (2018). Rapid transformation from auditory to linguistic representations of continuous speech.,(24), 3976?3983. https://doi.org/10.1016/j.cub.2018.10.042
Broderick, M. P., Anderson, A. J., Di Liberto, G. M., Crosse, M. J., & Lalor, E. C. (2018). Electrophysiological correlates of semantic dissimilarity reflect the comprehension of natural, narrative speech.,(5), 803?809. https://doi.org/10.1016/j.cub.2018.01.080
Broderick, M. P., Anderson, A. J., & Lalor, E. C. (2019). Semantic context enhances the early auditory encoding of natural speech.,(38), 7564? 7575. https://doi.org/10.1523/jneurosci.0584-19.2019
Browman, C. P., & Goldstein, L. (1992). Articulatory phonology: An overview.,(3-4), 155?180. https://doi.org/10.1159/000261913
Brown, M., Salverda, A. P., Dilley, L. C., & Tanenhaus, M. K. (2011). Expectations from preceding prosody influence segmentation in online sentence processing.,(6), 1189?1196. https://doi.org/ 10.3758/s13423-011-0167-9
Buzsaki, G., & Draguhn, A. (2004). Neuronal oscillations in cortical networks.,(5679), 1926?1929. https:// doi.org/10.1126/science.1099745
Calderone, D. J., Lakatos, P., Butler, P. D., & Castellanos, F. X. (2014). Entrainment of neural oscillations as a modifiable substrate of attention.,(6), 300?309. https://doi.org/10.1016/j.tics. 2014.02.005
Cason, N., & Sch?n, D. (2012). Rhythmic priming enhances thephonological processing of speech.,(11),2652?2658. https://doi.org/10.1016/j.neuropsychologia.2012. 07.018
Cho, T., Whalen, D. H., & Docherty, G. (2019). Voice onset time and beyond: Exploring laryngeal contrast in 19 languages.,, 52?65. https://doi.org/ 10.1016/j.wocn.2018.11.002
Christiansen, M. H., & Chater, N. (2015). The now-or-Never bottleneck: A fundamental constraint on language.,, E62. https://doi.org/10.1017/ s0140525x1500031x
Dauer, R. M. (1983). Stress-timing and syllable-timing reanalyzed.,(1), 51?62. https:// doi.org/10.1016/s0095-4470(19)30776-4
Dellwo, V. (2006). Rhythm and speech rate: A variation coefficient for deltaC. In P. Karnowski & I. Szigeti (Eds.),(pp. 231?241). Frankfurt/Main: Peter Lang.
Dellwo, V., & Wagner, P. (2003). Relations between language rhythm and speech rate.(pp. 471?474), Barcelona/Spain.
Di Liberto, G. M., Wong, D., Melnik, G. A., & de Cheveigne, A. (2019). Low-frequency cortical responses to natural speech reflect probabilistic phonotactics.,, 237?247. https://doi.org/10.1016/j.neuroimage.2019.04.037
Dilley, L. C., Mattys, S. L., & Vinke, L. (2010). Potent prosody: Comparing the effects of distal prosody, proximalprosody, and semantic context on word segmentation.,(3), 274?294. https://doi.org/ 10.1016/j.jml.2010.06.003
Dilley, L. C., & McAuley, J. D. (2008). Distal prosodic context affects word segmentation and lexical processing.,(3), 294?311. https: //doi.org/10.1016/j.jml.2008.06.006
Dilley, L. C., & Pitt, M. A. (2010). Altering context speech rate can cause words to appear or disappear.,(11), 1664?1670. https://doi.org/10.1177/ 0956797610384743
Ding, N., & He, H. (2016). Rhythm of silence.,(2), 82?84. https://doi.org/10.1016/ j.tics.2015.12.006
Ding, N., Melloni, L., Yang, A., Wang, Y., Zhang, W., & Poeppel, D. (2017). Characterizing neural entrainment to hierarchical linguistic units using electroencephalography (EEG).,. https://doi.org/ 10.3389/fnhum.2017.00481
Ding, N., Melloni, L., Zhang, H., Tian, X., & Poeppel, D. (2016). Cortical tracking of hierarchical linguistic structures in connected speech.,(1), 158?164. https://doi.org/10.1038/nn.4186
Ding, N., Patel, A. D., Chen, L., Butler, H., Luo, C., & Poeppel, D. (2017). Temporal modulations in speech and music.,, 181?187. https://doi.org/10.1016/j.neubiorev.2017.02.011
Ding, N., & Simon, J. Z. (2012). Neural coding of continuous speech in auditory cortex during monaural and dichotic listening.,(1), 78?89. https://doi.org/10.1152/jn.00297.2011
Doelling, K. B., Arnal, L. H., Ghitza, O., & Poeppel, D. (2014). Acoustic landmarks drive delta-theta oscillations to enable speech comprehension by facilitating perceptual parsing.,, 761?768. https://doi.org/10. 1016/j.neuroimage.2013.06.035
Doelling, K. B., & Assaneo, M. F. (2021). Neural oscillations are a start toward understanding brain activity rather than the end.,(5), e3001234. https://doi.org/10. 1371/journal.pbio.3001234
Farbood, M. M., Marcus, G., & Poeppel, D. (2013). Temporal dynamics and the identification of musical key.,(4), 911?918. https://doi.org/10.1037/ a0031087
Feher, K. D., Nakataki, M., & Morishima, Y. (2017). Phase- dependent modulation of signal transmission in cortical networks through tACS-induced neural oscillations.,, 1?13. https://doi.org/10.3389/ fnhum.2017.00471
Fiedler, L., W?stmann, M., Herbst, S. K., & Obleser, J. (2019). Late cortical tracking of ignored speech facilitates neural selectivity in acoustically challenging conditions.,, 33?42. https://doi.org/10.1016/j.neuroimage. 2018.10.057
Fuglsang, S. A., Dau, T., & Hjortkjaer, J. (2017). Noise-robust cortical tracking of attended speech in real-world acoustic scenes.,, 435?444. https://doi.org/10.1016/ j.neuroimage.2017.04.026
Fujii, S., & Wan, C. Y. (2014). The role of rhythm in speech and language rehabilitation: The SEP hypothesis.,, 1?15. https://doi.org/10.3389/ fnhum.2014.00777
Ghazanfar, A. A., & Takahashi, D. Y. (2014). The evolution of speech: Vision, rhythm, cooperation.,(10), 543?553. https://doi.org/10.1016/j.tics. 2014.06.004
Ghitza, O., & Greenberg, S. (2009). On the possible role of brain rhythms in speech perception: Intelligibility of time- compressed speech with periodic and aperiodic insertions of silence.,(1-2), 113?126. https://doi.org/ 10.1159/000208934
Giraud, A.-L., & Poeppel, D. (2012). Cortical oscillations and speech processing: Emerging computational principles and operations.,(4), 511?517. https://doi.org/10.1038/nn.3063
Golumbic, E. M. Z., Ding, N., Bickel, S., Lakatos, P., Schevon, C. A., McKhann, G. M., ... Schroeder, C. E. (2013). Mechanisms underlying selective neuronal tracking of attended speech at a "Cocktail Party".,(5), 980?991. https://doi.org/10.1016/j.neuron.2012.12.037
Haegens, S., & Golumbic, E. Z. (2018). Rhythmic facilitation of sensory processing: A critical review.,, 150?165. https://doi.org/10.1016/ j.neubiorev.2017.12.002
Helfrich, R. F., Breska, A., & Knight, R. T. (2019). Neural entrainment and network resonance in support of top-down guided attention.,, 82?89. https://doi.org/10.1016/j.copsyc.2018.12.016
Henry, M. J., Herrmann, B., & Obleser, J. (2014). Entrained neural oscillations in multiple frequency bands comodulatebehavior.,(41), 14935?14940. https://doi.org/10.1073/pnas.1408741111
Holler, J., & Levinson, S. C. (2019). Multimodal language processing in human communication.,(8), 639?652. https://doi.org/10.1016/j.tics. 2019.05.006
Iani, F., & Bucciarelli, M. (2017). Mechanisms underlying the beneficial effect of a speaker's gestures on the listener.,, 110?121. https: //doi.org/10.1016/j.jml.2017.05.004
Jadoul, Y., Ravignani, A., Thompson, B., Filippi, P., & de Boer, B. (2016). Seeking temporal predictability in speech: Comparing statistical approaches on 18 world languages.,. https://doi.org/ 10.3389/fnhum.2016.00586
Jensen, O., Bonnefond, M., & VanRullen, R. (2012). An oscillatory mechanism for prioritizing salient unattended stimuli.,(4), 200?206. https: //doi.org/10.1016/j.tics.2012.03.002
Kayser, C. (2019). Evidence for the rhythmic perceptual sampling of auditory scenes.,, https://doi.org/10.3389/fnhum.2019.00249
Kayser, C., Wilson, C., Safaai, H., Sakata, S., & Panzeri, S. (2015). Rhythmic auditory cortex activity at multiple timescales shapes stimulus-response gain and background firing.,(20), 7750?7762. https: //doi.org/10.1523/jneurosci.0268-15.2015
Keshavarzi, M., & Reichenbach, T. (2020). Transcranial alternating current stimulation with the theta-band portion of the temporally-aligned speech envelope improves speech-in-noise comprehension.,, https://doi.org/10.3389/fnhum.2020.00187
Knudsen, E. I. (2018). Neural circuits that mediate selective attention: A comparative perspective.,(11), 789?805. https://doi.org/10.1016/j.tins.2018.06.006
K?sem, A., Bosker, H. R., Takashima, A., Meyer, A., Jensen, O., & Hagoort, P. (2018). Neural entrainment determines the words we hear.,(18), 2867?2875. https://doi.org/10.1016/j.cub.2018.07.023
K?sem, A., & van Wassenhove, V. (2017). Distinct contributions of low- and high-frequency neural oscillations to speech comprehension.,(5), 536?544. https://doi.org/10.1080/23273798.2016.1238495
Kotz, S. A., Ravignani, A., & Fitch, W. T. (2018). The evolution of rhythm processing.,(10), 896?910. https://doi.org/10.1016/j.tics.2018.08.002
Kotz, S. A., & Schmidt-Kassow, M. (2015). Basal ganglia contribution to rule expectancy and temporal predictability in speech.,, 48?60. https://doi.org/10.1016/j. cortex.2015.02.021
Kotz, S. A., & Schwartze, M. (2010). Cortical speech processingunplugged: A timely subcortico-cortical framework.,(9), 392?399. https://doi.org/10.1016/ j.tics.2010.06.005
Ladefoged, P. (1975).. New York: Harcourt Brace Jovanovich College.
Lakatos, P., Chen, C.-M., O'Connell, M. N., Mills, A., & Schroeder, C. E. (2007). Neuronal oscillations and multisensory interaction in primary auditory cortex.,(2), 279?292. https://doi.org/10.1016/j.neuron.2006.12. 011
Lakatos, P., Gross, J., & Thut, G. (2019). A new unifying account of the roles of neuronal entrainment.,(18), 890?905. https://doi.org/10.1016/j.cub. 2019.07.075
Lakatos, P., Musacchia, G., O'Connel, M. N., Falchier, A. Y., Javitt, D. C., & Schroeder, C. E. (2013). The spectrotemporal filter mechanism of auditory selective attention.,(4), 750?761. https://doi.org/10.1016/j.neuron.2012.11.034
Lakatos, P., O'Connell, M. N., Barczak, A., Mills, A., Javitt, D. C., & Schroeder, C. E. (2009). The leading sense: Supramodal control of neurophysiological context by attention.,(3), 419?430. https://doi.org/10.1016/ j.neuron.2009.10.014
Lakatos, P., Shah, A. S., Knuth, K. H., Ulbert, I., Karmos, G., & Schroeder, C. E. (2005). An oscillatory hierarchy controlling neuronal excitability and stimulus processing in the auditory cortex.,(3), 1904?1911. https://doi.org/10.1152/jn.00263.2005
Lavie, N. (1995). Perceptual load as a necessary condition for selective attention.,(3), 451?468. https://doi.org/10.1037/0096-1523.21.3.451
Lerner, Y., Honey, C. J., Silbert, L. J., & Hasson, U. (2011). Topographic mapping of a hierarchy of temporal receptive Windows using a narrated story.,(8), 2906?2915. https://doi.org/10.1523/jneurosci.3684- 10.2011
Ling, L. E., Grabe, E., & Nolan, F. (2000). Quantitative characterizations of speech rhythm: Syllable-timing in Singapore English.,, 377?401. https://doi.org/10.1177/00238309000430040301
Li, W., & Yang, Y. (2009). Perception of prosodic hierarchical boundaries in mandarin Chinese sentences.,(4), 1416?1425. https://doi.org/10.1016/j.neuroscience. 2008.10.065
Li, W., & Yang, Y. (2010). Perception of chinese poem and itselectrophysiological effects.,(3), 757?768. https://doi.org/10.1016/j.neuroscience.2010.03.069
Li, W., Zhang, H., Zheng, Z., & Li, X. (2019). Prosodic phrase priming during listening to Chinese ambiguous phrasesin different experimental tasks.,, 135?150. https://doi.org/10.1016/j.jneuroling.2019.02. 003
Li, X., & Ren, G. (2012). How and when accentuation influences temporally selective attention and subsequent semantic processing during on-line spoken language comprehension: An ERP study.,(8), 1882?1894. https://doi.org/10.1016/j.neuropsychologia.2012.04.013
Li, X., Shao, X., Xia, J., & Xu, X. (2019). The cognitive and neural oscillatory mechanisms underlying the facilitating effect of rhythm regularity on speech comprehension.,, 155?167. https://doi.org/ 10.1016/j.jneuroling.2018.05.004
Luo, H., & Poeppel, D. (2007). Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex.,(6), 1001?1010. https://doi.org/10.1016/ j.neuron.2007.06.004
Luo, Y., Duan, Y., & Zhou, X. (2015). Processing rhythmic pattern during Chinese sentence reading: An eye movement study.,. https://doi.org/10.3389/ fpsyg.2015.01881
Luo, Y., & Zhou, X. (2010). ERP evidence for the online processing of rhythmic pattern during Chinese sentence reading.,(3), 2836?2849. https://doi.org/ 10.1016/j.neuroimage.2009.10.008
Makov, S., Sharon, O., Ding, N., Ben-Shachar, M., Nir, Y., & Golumbic, E. Z. (2017). Sleep disrupts high-level speech parsing despite significant basic auditory processing.,(32), 7772-7781. https://doi.org/10. 1523/jneurosci.0168?17.2017
Maslowski, M., Meyer, A. S., & Bosker, H. R. (2019). How the tracking of habitual rate influences speech perception.,(1), 128?138. https://doi.org/10.1037/ xlm0000579
Mathewson, K. E., Fabiani, M., Gratton, G., Beck, D. M., & Lleras, A. (2010). Rescuing stimuli from invisibility: Inducing a momentary release from visual masking with pre-target entrainment.,(1), 186?191. https: //doi.org/10.1016/j.cognition.2009.11.010
Mesgarani, N., & Chang, E. F. (2012). Selective cortical representation of attended speaker in multi-talker speech perception.,(7397), 233?236. https://doi.org/ 10.1038/nature11020
Morillon, B., & Baillet, S. (2017). Motor origin of temporal predictions in auditory attention.,(42), 8913?8921. https://doi.org/10.1073/pnas.1705373114
Morillon, B., Schroeder, C. E., & Wyart, V. (2014). Motor contributions to the temporal precision of auditory attention.,, 1?9. https://doi.org/ 10.1038/ncomms6255
Morris, D. J., & Klerke, S. (2016). Machine classification of P1-N1-P2 responses elicited with a gated syllable.,(4), 3155?3155. https://doi.org/10.1121/1.4969899
Müller, C., Cienki, A., Fricke, E., Ladewig, S. H., McNeill, D., & Tessendorf, S. (2013). Body-language-communication:. In(pp. 131?232). De Gruyter Mouton.
Nooteboom, S. (1997). The prosody of speech: Melody and rhythm. In W. J. Hardcastle & J. Laver (Eds.),(pp. 640?673). Blackwell Publishers.
Obleser, J., & Kayser, C. (2019). Neural entrainment and attentional selection in the listening brain.,(11), 913?926. https://doi.org/10.1016/j.tics. 2019.08.004
O'Brien, G. E., Gijbels, L., & Yeatman, J. D. (2020). Context effects on phoneme categorization in children with dyslexia.,(4), 2209?2222. https://doi.org/10.1121/10.0002181
Park, H., Ince, R. A. A., Schyns, P. G., Thut, G., & Gross, J. (2015). Frontal top-down signals increase coupling of auditory low-frequency oscillations to continuous speech in human listeners.,(12), 1649?1653. https://doi.org/10.1016/j.cub.2015.04.049
Park, H., Kayser, C., Thut, G., & Gross, J. (2016). Lip movements entrain the observers’ low-frequency brain oscillations to facilitate speech intelligibility.,. https://doi.org/10.7554/elife.14521
Peelle, J. E., & Davis, M. H. (2012). Neural oscillations carry speech rhythm through to comprehension.,, https://doi.org/10.3389/fpsyg.2012. 00320
Phillips, D., Vigneault-MacLean, B., Boehnke, S., & Hall, S. (2003). Acoustic Hemifields in the spatial release from masking of speech by noise.,(9), 518?524. https://doi.org/10. 3766/jaaa.14.9.7
Pike, K. L. (1945)., University of Michigan Press.
Pitt, M. A., Szostak, C., & Dilley, L. C. (2016). Rate dependent speech processing can be speech specific: Evidence from the perceptual disappearance of words under changes in context speech rate.,(1), 334?345. https://doi.org/10.3758/s13414-015-0981-7
Poeppel, D., & Assaneo, M. F. (2020). Speech rhythms and their neural foundations.,(6), 322?334. https://doi.org/10.1038/s41583-020-0304-4
Poeppel, D., Idsardi, W. J., & van Wassenhove, V. (2008). Speech perception at the interface of neurobiology and linguistics.,(1493), 1071?1086. https://doi. org/10.1098/rstb.2007.2160
Proctor, M., Walker, R., Smith, C., Szalay, T., Goldstein, L., & Narayanan, S. (2019). Articulatory characterization of English liquid-final rimes.,, https: //doi.org/10.1016/j.wocn.2019.100921
Raco, V., Bauer, R., Tharsan, S., & Gharabaghi, A. (2016). Combining TMS and tACS for closed-loop phase-dependent modulation of corticospinal excitability: A feasibility study.,, https://doi. org/10.3389/fncel.2016.00143
Ramus, F. (2002).Proc Speech Prosody, Aix-en-Provence.
Ramus, F., Nespor, M., & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal.,(3), 265?292. https://doi.org/10.1016/s0010-0277(99)00058-x
Raichle, M. E. (2010). Two views of brain function.,(4), 180?190. https://doi.org/10. 1016/j.tics.2010.01.008
Reinisch, E. (2016). Natural fast speech is perceived as faster than linearly time-compressed speech.,(4), 1203?1217. https: //doi.org/10.3758/s13414-016-1067-x
Riecke, L., Formisano, E., Sorger, B., Baskent, D., & Gaudrain, E. (2018). Neural entrainment to speech modulates speech intelligibility.,(2), 161?169. https://doi.org/ 10.1016/j.cub.2017.11.033
Rimmele, J. M., Morillon, B., Poeppel, D., & Arnal, L. H. (2018). Proactive sensing of periodic and aperiodic auditory patterns.,(10), 870?882. https://doi.org/10.1016/j.tics.2018.08.003
Roach, P. (1982). On the distinction between ‘stress-timed’ and ‘syllable-timed’ languages. In D. Crystal (Eds.),(pp. 73?79). London: Arnold.
Rohenkohl, G., Cravo, A. M., Wyart, V., & Nobre, A. C. (2012). Temporal expectation improves the quality of sensory information.,(24), 8424?8428. https://doi.org/10.1523/jneurosci.0804-12.2012
Schmidt-Kassow, M., Roncaglia-Denissen, M. P., & Kotz, S. A. (2013). Speech rhythm facilitates syntactic ambiguity resolution: ERP Evidence.,(2), e56000. /https: //doi.org/10.1371/journal.pone.0056000
Schroeder, C. E., & Lakatos, P. (2009). Low-frequency neuronal oscillations as instruments of sensory selection.,(1), 9?18. https://doi.org/ 10.1016/j.tins.2008.09.012
Sheng, J., Zheng, L., Lyu, B., Cen, Z., Qin, L., Tan, L. H., ... Gao, J.-H. (2019). The cortical maps of hierarchical linguistic structures during speech perception.,(8), 3232?3240. https://doi.org/10.1093/cercor/ bhy191
Steinmetzger, K., & Rosen, S. (2017). Effects of acoustic periodicity and intelligibility on the neural oscillations in response to speech.,, 173?181. https://doi.org/10.1016/j.neuropsychologia.2016.12.003
Stilp, C. (2020). Acoustic context effects in speech perception.,(1), 1?18. https://doi.org/10.1002/wcs.1517
Tass, P., Rosenblum, M. G., Weule, J., Kurths, J., Pikovsky, A., Volkmann, J., ... Freund, H. J. (1998). Detection of n : M phase locking from noisy data: Application to magnetoencephalography.,(15), 3291?3294. https://doi.org/10.1103/PhysRevLett.81.3291
Turk, A., & Shattuck-Hufnagel, S. (2013). What is speech rhythm? A commentary on Arvaniti and Rodriquez, Krivokapic, and Goswami and Leong.,(1), 93?118. https://doi.org/10.1515/lp-2013-0005
Vanthornhout, J., Decruy, L., Wouters, J., Simon, J. Z., & Francart, T. (2018). Speech intelligibility predicted from neural entrainment of the speech envelope.,(2), 181?191. https://doi.org/10.1007/s10162-018-0654-z
Vosskuhl, J., Strüber, D., & Herrmann, C. S. (2018). Non- invasive brain stimulation: A paradigm shift in understanding brain oscillations.,, 1?19. https://doi.org/10.3389/fnhum. 2018.00211
Wade, T., & Holt, L. L. (2005). Perceptual effects of preceding nonspeech rate on temporal properties of speech categories.,(6), 939?950. https://doi.org/10.3758/bf03193621
White, L. (2014). Communicative function and prosodic form in speech timing.,, 38?54. https://doi.org/10.1016/j.specom.2014.04.003
White, L., Mattys, S. L., & Wiget, L. (2012). Language categorization by adults is based on sensitivity to durational cues, not rhythm class.,(4), 665?679. https://doi.org/10.1016/j.jml.2011.12.010
Wilsch, A., Neuling, T., Obleser, J., & Herrmann, C. S. (2018). Transcranial alternating current stimulation with speech envelopes modulates speech comprehension.,, 766?774. https://doi.org/10.1016/j.neuroimage.2018. 01.038
Wu, C., Cao, S., Wu, X., & Li, L. (2013). Temporally pre-presented lipreading cues release speech from informational masking.,(4), 281?285. https://doi.org/10.1121/ 1.4794933
Zhang, W., & Ding, N. (2017). Time-domain analysis of neural tracking of hierarchical linguistic structures.,, 333?340. https://doi.org/10.1016/j.neuroimage.2016. 11.016
Zion-Golumbic, E., & Schroeder, C. E. (2012). Attention modulates 'speech-tracking' at a cocktail party.,(7), 363?364. https://doi.org/10. 1016/j.tics.2012.05.004
Zoefel, B., Archer-Boyd, A., & Davis, M. H. (2018). Phase entrainment of brain oscillations causally modulates neural responses to intelligible speech.,(3), 401?408. https://doi.org/10.1016/j.cub.2017.11.071
The role of rhythm in auditory speech understanding
CHEN Liangjie, LIU Lei, GE Zhongshu, YANG Xiaodong, LI Liang
(School of Psychological and Cognitive Sciences, Peking University, Beijing 100080, China)
Speech understanding is a mental process in which the listener receives external speech input and acquires meaning. In daily communication, speech comprehension is influenced by multi-scale rhythmic information, which usually includes the rhythm of prosodic structure, the rate of context, and the speaker's body language. They alter the listeners' phoneme discrimination, word perception, and speech intelligence in auditory speech understanding. Internal rhythms are neural oscillations in the brain, which can represent the hierarchical characteristics of external speech input at different time scales. The neural entrainment of external rhythmic stimulus and internal neural activity can optimize the brain's processing of speech stimulus and further enhance the internal representation of target speech by the top-down modulation of the listener's cognitive process. We think that it may be the key mechanism to build the interrelationship between internal and external rhythms and jointly affect speech understanding. The discovery of its mechanism can provide a window for the study of speech, which is a complex sequence with structural rules on multi-level time scales.
rhythm, speech understanding, neural oscillation, neural entrainment, top-down modulation
2021-07-07
* 國(guó)家自然科學(xué)基金面上項(xiàng)目(項(xiàng)目批準(zhǔn)號(hào):31771252, 32071057)支持。
李量, E-mail: liangli@pku.edu.cn
B842