基于超聲成像的語(yǔ)言研究綜述

2019-11-26 06:03:58張金溪李永宏

西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版) 2019年6期

張金溪，李永宏，寇贇

(1.蘭州財(cái)經(jīng)大學(xué) 商務(wù)傳媒學(xué)院，甘肅蘭州 730020；2.西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室，甘肅蘭州 730030)

一、引言

語(yǔ)言研究中可以借助相關(guān)實(shí)驗(yàn)設(shè)備[1]，在語(yǔ)言認(rèn)知方面，可以采用肌電腦電儀、眼動(dòng)儀等設(shè)備，結(jié)合語(yǔ)言學(xué)、認(rèn)知科學(xué)和計(jì)算科學(xué)多學(xué)科、多方位地探討語(yǔ)言產(chǎn)生和語(yǔ)言習(xí)得過(guò)程中的腦機(jī)制；在語(yǔ)音生理方面，可以采用氣流氣壓計(jì)、喉頭儀、呼吸帶傳感器、鼻流計(jì)、動(dòng)態(tài)腭位儀、超聲記錄分析儀、三維運(yùn)動(dòng)捕捉等設(shè)備獲取發(fā)音時(shí)的語(yǔ)音、嗓音、呼吸、肌電、氣流、腭位、鼻流、舌位、唇形多種生理信號(hào)，進(jìn)行語(yǔ)音生理多模態(tài)的研究；在語(yǔ)音聲學(xué)和口傳文化方面，可以采用錄音設(shè)備、非線性編輯器、專業(yè)攝像機(jī)和提詞器等設(shè)備，進(jìn)行語(yǔ)音資源庫(kù)數(shù)字化建設(shè)、語(yǔ)音和口傳文化的聲學(xué)分析。

長(zhǎng)期以來(lái)，由于受到實(shí)驗(yàn)方法和實(shí)驗(yàn)設(shè)備的局限，很多語(yǔ)言中的語(yǔ)言現(xiàn)象沒(méi)有被客觀、科學(xué)、合理的描述出來(lái)，采用超聲成像技術(shù)能夠一定程度上解決長(zhǎng)期存在的描述性問(wèn)題，因此一些學(xué)者較為注重使用超聲成像技術(shù)來(lái)進(jìn)行語(yǔ)言研究。在國(guó)外，早在20世紀(jì)60年代末，超聲波就被用于語(yǔ)音研究。隨后的幾十年中，超聲成像技術(shù)被實(shí)際應(yīng)用到語(yǔ)言學(xué)中的語(yǔ)言教學(xué)、二語(yǔ)習(xí)得、田野調(diào)查、音系學(xué)、方言和語(yǔ)言接觸、協(xié)同發(fā)音、語(yǔ)言治療、語(yǔ)言病理學(xué)、發(fā)音生理、母語(yǔ)對(duì)學(xué)習(xí)樂(lè)器影響以及言語(yǔ)工程等眾多領(lǐng)域。

目前為止，國(guó)內(nèi)尚未發(fā)現(xiàn)有學(xué)者把超聲成像技術(shù)應(yīng)用到少數(shù)民族語(yǔ)言研究中。而且十多年來(lái)，只有極少數(shù)研究人員把超聲成像技術(shù)應(yīng)用在漢語(yǔ)的生理語(yǔ)音學(xué)和言語(yǔ)工程領(lǐng)域，且發(fā)表的相關(guān)文章也不多。隨著人工智能、機(jī)器學(xué)習(xí)的發(fā)展，新的圖像處理技術(shù)、新的實(shí)驗(yàn)方法以及實(shí)驗(yàn)設(shè)備的出現(xiàn)將會(huì)推動(dòng)實(shí)驗(yàn)語(yǔ)言學(xué)的發(fā)展進(jìn)步，全面改善與提升超聲成像技術(shù)在語(yǔ)言研究方面的應(yīng)用，通過(guò)超聲成像技術(shù)來(lái)分析語(yǔ)言現(xiàn)象的研究將會(huì)越來(lái)越多。因此，超聲成像技術(shù)將越來(lái)越多的被應(yīng)用在語(yǔ)言研究中，可以用來(lái)研究的領(lǐng)域也會(huì)越來(lái)越廣泛，研究的問(wèn)題也會(huì)更加深入。先進(jìn)的實(shí)驗(yàn)設(shè)備和實(shí)驗(yàn)方法對(duì)解釋語(yǔ)言現(xiàn)象發(fā)揮著重要作用，尤其是在語(yǔ)音生理方面的研究，對(duì)我們理解人類言語(yǔ)產(chǎn)生機(jī)制的原理有著重要的理論和實(shí)踐意義。

二、超聲成像設(shè)備

早在20世紀(jì)60年代末，超聲就被用于語(yǔ)音研究[2]、語(yǔ)言訓(xùn)練[3]。超聲能夠捕捉動(dòng)態(tài)的舌形，使其能夠研究舌根、矢狀溝、元音和輔音之間的相互作用等難以理解的語(yǔ)言現(xiàn)象。隨著技術(shù)的發(fā)展，超聲從開始的一維變成二維(B模式，圖1是實(shí)驗(yàn)室和臨床上廣泛使用的超聲設(shè)備)，發(fā)展到現(xiàn)在的三維(時(shí)間分辨率對(duì)于測(cè)量大多數(shù)自然語(yǔ)言來(lái)說(shuō)還太低)。診斷超聲的高頻(3-16MHz)聲波很容易穿透皮膚、脂肪和肌肉(見圖2)，但它們會(huì)被骨骼吸收并反射出空氣的邊界。為了盡可能全面的看到舌頭，超聲探測(cè)器需要緊貼頸部以下的下巴，所以聲波從下面穿透舌頭(見圖3)。探頭聲波穿過(guò)下頜骨和舌骨，通過(guò)舌頭肌肉表面的空氣進(jìn)行反射。根據(jù)探頭的方向，可以獲得正中矢狀或冠狀圖像，圖4顯示了使用超聲波獲得的典型正中矢狀舌形圖像[4]，其中舌根(Tongue root)、舌骨陰影(Hyoid shadow)在左邊，舌尖(Tongue tip)、下頜骨陰影(Jaw shadow)在右邊。

圖1 中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室的超聲設(shè)備

圖2舌體剖面圖圖3超聲波從下面穿透舌頭圖4/z/的正中矢狀舌曲線的圖像

超聲成像技術(shù)和目標(biāo)跟蹤技術(shù)可以對(duì)語(yǔ)言發(fā)音時(shí)的舌體運(yùn)動(dòng)進(jìn)行動(dòng)態(tài)成像記錄，而這些技術(shù)設(shè)備一般都在實(shí)驗(yàn)室的環(huán)境中使用。便攜式超聲被證明是一種非常有用的實(shí)地語(yǔ)言研究工具。圖5便攜式超聲[5]和圖6基于個(gè)人電腦的超聲[6]、數(shù)字視頻記錄設(shè)備、圖像處理分析軟件的可用性及其較低的價(jià)格為語(yǔ)言語(yǔ)音的田野調(diào)查研究成為可能。Gick B，Bird S[7]討論了在野外相關(guān)應(yīng)用中使用超聲波進(jìn)行語(yǔ)言成像的技術(shù)，研究確定了在現(xiàn)場(chǎng)環(huán)境中控制頭部/傳感器運(yùn)動(dòng)的重要因素，研究了在不同的語(yǔ)音背景下頭部運(yùn)動(dòng)的范圍以及舌頭組織壓迫對(duì)舌頭圖像數(shù)據(jù)的影響。結(jié)果表明，采用一種簡(jiǎn)單的方法包括頭枕或曲面以及固定的傳感器，可以在現(xiàn)場(chǎng)收集可靠的語(yǔ)言超聲數(shù)據(jù)。

圖5便攜式超聲設(shè)備圖6微型超聲系統(tǒng)

語(yǔ)言中的大量研究可以借助超聲舌成像(Ultrasound Tongue Imaging)實(shí)時(shí)反饋技術(shù)觀察到發(fā)音時(shí)的舌體運(yùn)動(dòng)情況，讓發(fā)音人比較容易的調(diào)整舌位，糾正發(fā)音，也可以根據(jù)舌位信息解釋語(yǔ)言中某些音的發(fā)音現(xiàn)象。同時(shí)，可以將超聲舌成像保存成圖像視頻文件，根據(jù)后期的計(jì)算機(jī)圖像處理技術(shù)很容易獲取舌位的高低、前后極值點(diǎn)數(shù)據(jù)，舌位最高點(diǎn)與硬腭距離，舌根松緊程度，舌面彎曲度等信息，通過(guò)這些數(shù)據(jù)可以進(jìn)一步研究發(fā)音生理模型，但是其中最為關(guān)鍵的是如何獲取高質(zhì)量的舌形輪廓。獲取舌形輪廓之前先把超聲舌像視頻處理成一張張的圖片，然后從每一張圖片中獲取舌形輪廓，有兩種方法，一種方法是手工標(biāo)記，在舌線的位置用鼠標(biāo)點(diǎn)擊打點(diǎn)，每張圖片上標(biāo)記150～200點(diǎn)；另一種方法是自動(dòng)舌形輪廓跟蹤(Tongue tracking)算法，除了收費(fèi)的軟件AAA(Articulate Assistant Advanced)[8]之外，還有4個(gè)免費(fèi)的軟件，分別是美國(guó)馬里蘭大學(xué)的EdgeTrak[9]，美國(guó)北卡州立大學(xué)的Palatoglossotron[10]，加拿大西蒙弗雷澤大學(xué)的TongueTrack[11]以及加拿大多倫多大學(xué)的Ultra-CATS[12]。這幾個(gè)軟件各有優(yōu)缺點(diǎn)，要根據(jù)具體的實(shí)驗(yàn)環(huán)境進(jìn)行選擇使用，也可以根據(jù)這些軟件的優(yōu)缺點(diǎn)，使用語(yǔ)言科學(xué)研究的Matlab[13]搭建適合自己研究方向的超聲舌像處理平臺(tái)。

三、超聲成像在發(fā)音生理研究中的應(yīng)用

生理語(yǔ)音學(xué)(Physiological Phonetics)是研究有關(guān)語(yǔ)音產(chǎn)生和感知的一門學(xué)科。語(yǔ)音的產(chǎn)生依靠的是發(fā)音器官，我們經(jīng)常提及的發(fā)音生理研究就是借助實(shí)驗(yàn)設(shè)備對(duì)發(fā)音器官展開研究。人的發(fā)音器官大致可分為3個(gè)部分：喉下、喉部、喉上。其中：喉下有用來(lái)呼吸并且也作為發(fā)音能源的各器官，包括氣管、肺、胸廓、橫膈膜和腹?。缓聿渴锹曉雌鞴?，包括喉頭、聲帶；喉上是用共鳴作用或阻礙作用來(lái)調(diào)節(jié)聲音的各器官，包括口腔中各部位及鼻腔。而口腔中又包含了3個(gè)部分：口壁(包括雙唇、上下齒、齒齦、硬腭、軟腭、小舌)、舌(分為舌尖、舌葉、舌面和舌根)以及咽喉。由于超聲成像的特殊性，目前學(xué)者們借助超聲成像技術(shù)主要在咽喉、腭及舌等部位開展發(fā)音生理研究。

(一)基本音位

Hamlet S L等人[14]通過(guò)超聲波穿過(guò)咽喉來(lái)研究喉顫音(Laryngeal trills)，認(rèn)為喉顫音是一種連續(xù)發(fā)生的脈動(dòng)聲音，通常在基頻和強(qiáng)度上有很大的變化，每秒鐘發(fā)生7次左右，頻率和強(qiáng)度的變化并不總是同步，發(fā)聲脈動(dòng)也不是完全有規(guī)律，而超聲數(shù)據(jù)中的周期性模式與聲道強(qiáng)度變化相對(duì)應(yīng)。Moisik S R等人[15-16]提出了一種利用喉超聲(laryngeal ultrasound，LUS)影像資料的光學(xué)流分析來(lái)量化喉部高度變化的方法，采用該方法能夠精確地量化喉部高度的變化，以此來(lái)評(píng)價(jià)喉頭高度對(duì)元音共振峰頻率的影響，同時(shí)，他們?cè)谝?guī)范的普通話聲調(diào)上進(jìn)行了同步檢測(cè)，從而驗(yàn)證了該方法的有效性，指出喉超聲最適合喉部高度的量化，也可以提供喉部狀態(tài)的部分信息。在此基礎(chǔ)上證明了雖然喉下降一般會(huì)產(chǎn)生預(yù)期的降喉效果，但喉抬高對(duì)F2和F3有降低作用，而F2和F3則更具有已被標(biāo)記為咽化的特征。

Wodzinski等人[17-18]通過(guò)超聲波對(duì)軟腭前音(Velar fronting)和軟腭元音(Velar-vowel)進(jìn)行了初步研究。在對(duì)軟腭前音的研究中指出軟腭輔音的關(guān)閉位置在所有的中、后元音中都是一致的；對(duì)于前元音，軟腭音靠前的程度似乎與元音的正面有關(guān)；雙元音關(guān)閉位置的測(cè)量方法遵循單詞目標(biāo)的后元音模式；對(duì)于非單詞，關(guān)閉位置受前雙元音的發(fā)音質(zhì)量和下一個(gè)雙元音的發(fā)音質(zhì)量的影響。在對(duì)軟腭元音的研究中指出在軟腭前端，因?yàn)樵粽Z(yǔ)境，所以軟腭輔音的關(guān)閉位置沿著上顎向前移動(dòng)。

Bouavichith等人[19]用馬拉雅拉姆語(yǔ)(也稱德拉威語(yǔ)，被描述為有7個(gè)鼻音位：唇音、牙齒音、齒槽音、卷舌音、硬顎音、軟腭音及鼻音)中的軟硬腭鼻音來(lái)研究對(duì)比硬顎和軟腭發(fā)鼻音的不同，使用超聲成像來(lái)確定這兩個(gè)部位的鼻音發(fā)音是否是動(dòng)態(tài)穩(wěn)定的，集中討論硬腭鼻音和軟腭鼻音在舌與腭接觸的位置和時(shí)間上不同，以及其他腭音的輔音位置和時(shí)間上的不同。

Gick[20]使用便攜式超聲設(shè)備進(jìn)行語(yǔ)言語(yǔ)音實(shí)地調(diào)查，研究的問(wèn)題主要集中在舌根上，第一個(gè)問(wèn)題是關(guān)于Kinande(剛果的班圖語(yǔ))的舌根和諧，第二個(gè)問(wèn)題是關(guān)于Nuu-chah-nulth(溫哥華島西海岸的一種瓦卡山語(yǔ))中的咽部化和元音降低。Alwabari[21]探討了硬腭和軟腭的背側(cè)抬高是否會(huì)阻礙舌根收縮以及這個(gè)阻礙力度的大小和時(shí)間跨度問(wèn)題。結(jié)果表明發(fā)音約束的程度導(dǎo)致了對(duì)發(fā)音的梯度阻力，發(fā)音約束對(duì)發(fā)音阻力的時(shí)間跨度有明確影響。

在元音和諧律方面，Stewart[22]提出了一種舌根前伸(ATR，Advanced Tongue-root，分為-ATR和+ATR)特征來(lái)區(qū)分許多非洲語(yǔ)言中的成對(duì)元音，如/i/和//、/u/和//、/o/和//。為了進(jìn)一步研究元音和諧問(wèn)題，Eichholz等人[23]用超聲記錄贊德語(yǔ)元音的舌形輪廓，統(tǒng)計(jì)后發(fā)現(xiàn)舌體輪廓線在舌背區(qū)域是有規(guī)律的偏離，而在舌根區(qū)域偶爾存在偏離，結(jié)果表明贊德語(yǔ)中負(fù)責(zé)元音和諧的語(yǔ)言特征主要是與舌頭高度差異有關(guān)而不是與舌根前伸有關(guān)(見圖7)。

圖7 成對(duì)元音的舌體輪廓線之間存在顯著性差異(p<0.05)(粗線表示)

(二)方言

Lu Z等人[6]98通過(guò)超聲舌像來(lái)研究中國(guó)陜西西安方言的舌體運(yùn)動(dòng)模型。文中對(duì)西安方言的靜態(tài)視位(Viseme)進(jìn)行了分類，通過(guò)超聲成像記錄舌頭在VCV和CVC的話語(yǔ)中發(fā)音活動(dòng)的時(shí)間和位置屬性，開發(fā)了相關(guān)程序能夠在超聲舌像中自動(dòng)進(jìn)行舌頭運(yùn)動(dòng)輪廓跟蹤，對(duì)提取的視覺信息進(jìn)行了分類并定義了全部視位，用于創(chuàng)建陜西西安方言舌體的動(dòng)態(tài)視位系統(tǒng)。

(三)二語(yǔ)習(xí)得

傳統(tǒng)的語(yǔ)言教學(xué)一般都是通過(guò)聲學(xué)的方法，學(xué)習(xí)者往往通過(guò)耳朵聽和觀察發(fā)音口形來(lái)習(xí)得語(yǔ)音發(fā)音，但是對(duì)于一些難發(fā)的音就束手無(wú)策。如果學(xué)習(xí)者能夠直接看到發(fā)音時(shí)舌體運(yùn)動(dòng)變化情況，那么他們會(huì)對(duì)發(fā)音過(guò)程有更深入的了解，能夠盡量準(zhǔn)確地調(diào)整自己的發(fā)音舌位。

Gick[24]對(duì)超聲成像在二語(yǔ)習(xí)得中的應(yīng)用作了描述，對(duì)相關(guān)概念進(jìn)行了簡(jiǎn)要介紹，并給出了具體的應(yīng)用案例。Tsui[25]對(duì)日本成年人學(xué)習(xí)第二語(yǔ)言英語(yǔ)的/l/和//進(jìn)行了超聲訓(xùn)練研究，研究結(jié)果表明，所有參與者都提高了英語(yǔ)/l/和//在各種詞匯位置和語(yǔ)境中發(fā)音的準(zhǔn)確性，將超聲應(yīng)用于語(yǔ)言訓(xùn)練對(duì)學(xué)習(xí)英語(yǔ)發(fā)音的日本成年人是有益的。Suzuki[26]使用超聲、視頻和MRI開發(fā)了可視化語(yǔ)音發(fā)音應(yīng)用程序(見圖8)，該程序?qū)⒁纛l、正面和側(cè)面視頻、MRI和超聲波視頻連接在一起，用戶可以觀看到發(fā)音視頻，也可以錄制自己的音頻/視頻，并與模型同步播放，以便進(jìn)行比較。

圖8 可視化語(yǔ)音發(fā)音學(xué)習(xí)APP

(四)協(xié)同發(fā)音

超聲波可以用來(lái)解決音位理論中尚未解決的問(wèn)題。一些研究已經(jīng)表明，通過(guò)超聲成像手段可以揭示出音位元素的差異是如何變化的。Davidson L[27]選擇了5名說(shuō)英語(yǔ)的人，他們用元音插入(例如[zegomu])來(lái)修復(fù)這些非單詞(例如[zgomu])，利用超聲成像技術(shù)，將這些非單詞序列與發(fā)音相似的合法序列單詞進(jìn)行比較，以評(píng)估在/z/和后面輔音之間非重讀央元音的性質(zhì)。結(jié)果表明，對(duì)于一些發(fā)音者來(lái)說(shuō)，在[zC]序列(例如[zdiri]與[zderu]、[zgama]與[zgomu]、[zbura]與[zbertu])中產(chǎn)生的非重讀央元音與非重讀央元音的音位轉(zhuǎn)換是不一致的，相反，發(fā)音者似乎沒(méi)有充分地重疊輔音。協(xié)同發(fā)音是語(yǔ)言的一個(gè)共同特征，雖然不可能對(duì)語(yǔ)言的協(xié)同發(fā)音效應(yīng)作出普遍的概括，但Krebs[28]通過(guò)研究部分元音與輔音的協(xié)同發(fā)音問(wèn)題，證實(shí)了[k]的兩個(gè)同音詞在一個(gè)類型不同的語(yǔ)言中存在協(xié)同發(fā)音效應(yīng)，證實(shí)[k]對(duì)協(xié)同發(fā)音的抵抗力較低，舌根參與了舌背前元音的協(xié)同發(fā)音。

(五)兒童

Zharkova[29]針對(duì)兒童語(yǔ)言協(xié)同發(fā)音發(fā)展方面利用超聲成像進(jìn)行了有關(guān)研究，該研究描述了6組3至10歲的蘇格蘭英語(yǔ)兒童的語(yǔ)言協(xié)同發(fā)音模式，利用超聲舌成像數(shù)據(jù)，對(duì)4個(gè)不同約束程度的聲母進(jìn)行舌預(yù)測(cè)協(xié)同發(fā)音分析，在所有年齡組中，包括兩個(gè)最小的兒童群體，可以觀察到由這兩個(gè)元音語(yǔ)境(以[pi]和[pa]為例)制約的輔音舌形的某些差異，對(duì)于圖9所示的/p/，兩個(gè)元音上下文中最集中的部分舌的相對(duì)位置(沿舌曲線)的差異是可見的，在/i/的上下文中，更多地向舌的前面聚集，而在/a/的上下文中，則更多地聚集到舌的后面，其中各年齡組內(nèi)的輔音在舌形上的差異較小。結(jié)果表明，隨著年齡的增加，個(gè)體語(yǔ)音協(xié)同發(fā)音程度的發(fā)展變化受到舌頭發(fā)音限制。

圖9 各年齡組的[pi](點(diǎn)狀線)和[pa](實(shí)線)發(fā)音時(shí)的舌形

McAllister Byun T等人[30]采用聲學(xué)測(cè)量和超聲測(cè)量(舌背偏移指數(shù)，Dorsum Excursion Index)方法分析軟腭前音中的隱性差異(Covert contrast)，結(jié)果顯示，不同的軟腭音和齒槽音之間存在顯著差異，一個(gè)能發(fā)軟腭前音的兒童在聲學(xué)和超聲波測(cè)量中表現(xiàn)出了隱性差異，另一個(gè)則沒(méi)有顯示出差異的跡象。借助超聲成像技術(shù)來(lái)分析語(yǔ)言現(xiàn)象，對(duì)于具有兒化或卷舌的語(yǔ)言來(lái)說(shuō)，目前還不清楚這種咽收縮姿勢(shì)是否也是一種發(fā)音功能，Boyce等人[31]研究比較了不同語(yǔ)系的兒化或卷舌現(xiàn)象，描述了咽部收縮的存在與否，結(jié)果表明在所有的語(yǔ)言中都能觀察到咽部的收縮，這被認(rèn)為是兒童難以獲得的。

(六)舌體運(yùn)動(dòng)

葉為昌[32]利用超聲觀察成人發(fā)音時(shí)的舌頭運(yùn)動(dòng)，對(duì)健康成人男性和女性在發(fā)元音時(shí)的舌體運(yùn)動(dòng)時(shí)長(zhǎng)和舌體上下運(yùn)動(dòng)距離進(jìn)行了測(cè)量。陳彧[33]利用超聲波檢測(cè)方法對(duì)漢語(yǔ)普通話基礎(chǔ)元音發(fā)音的舌體運(yùn)動(dòng)進(jìn)行了研究，結(jié)果表明：各元音發(fā)音的舌體都會(huì)出現(xiàn)相應(yīng)的形態(tài)變化，舌體形態(tài)在穩(wěn)定程度上不一樣，在舌體形態(tài)峰值出現(xiàn)的時(shí)刻上也不一致，同時(shí)，驗(yàn)證了超聲在發(fā)音生理研究中的可行性，驗(yàn)證了發(fā)音音系學(xué)和元音格局理論能夠?qū)υ舭l(fā)音舌位特征進(jìn)行描寫。

四、超聲成像在病理語(yǔ)音研究中的應(yīng)用

臨床表現(xiàn)為構(gòu)音障礙、失語(yǔ)癥以及言語(yǔ)失用等病理現(xiàn)象，從構(gòu)音障礙與言語(yǔ)失用的定義上我們可以發(fā)現(xiàn)這兩類患者的聽理解尚未受損，其聽理解功能是正常的，而失語(yǔ)癥患者中不論其為哪一種失語(yǔ)類型，其聽理解能力多少都會(huì)有異常。研究表明視覺反饋技術(shù)可以成為語(yǔ)言康復(fù)的有效工具。采用視聽結(jié)合的實(shí)時(shí)反饋治療技術(shù)，能夠改變語(yǔ)言的濫用和誤用，誘導(dǎo)正確發(fā)聲技能的形成。語(yǔ)言障礙治療中采用超聲成像技術(shù)，為語(yǔ)言康復(fù)治療工作人員進(jìn)行科學(xué)系統(tǒng)的治療和訓(xùn)練提供了有益的幫助，使有語(yǔ)言障礙的人能方便、清楚地表達(dá)，提高他們的交流溝通能力。Bernhardt B、Gick B等人[34]論述了超聲在語(yǔ)言治療中的作用，對(duì)患有嚴(yán)重聽力障礙、持續(xù)語(yǔ)言障礙、帶有英語(yǔ)口音的青少年和成人進(jìn)行語(yǔ)音治療研究，并從動(dòng)態(tài)二維超聲中得到反饋。

發(fā)音視覺反饋技術(shù)的進(jìn)步為治療語(yǔ)言障礙提供了新的機(jī)會(huì)。Bernhardt等人[35]對(duì)4名患有聽力損失和語(yǔ)言障礙的青少年進(jìn)行了為期14周的語(yǔ)言治療研究，方案中設(shè)計(jì)了一對(duì)齒擦音/s/和/?/，一對(duì)流音/l/和//，以及松緊元音和高元音。在該研究中他們使用了電腭造影技術(shù)和超聲成像技術(shù)兩種動(dòng)態(tài)的視覺反饋系統(tǒng)技術(shù)，其中，電腭造影提供了關(guān)于舌頭硬腭接觸點(diǎn)的信息，超聲成像顯示了舌頭的形狀和從舌尖到舌根的兩個(gè)維度的運(yùn)動(dòng)。結(jié)果表明，治療效果顯著改善，與治療前相比，測(cè)試者在輔音上表現(xiàn)出了很大的進(jìn)步。

圖10 超聲播放器圖圖11 發(fā)音過(guò)程中舌頭運(yùn)動(dòng)的中矢狀舌形圖像和結(jié)果分析

使用超聲成像技術(shù)可以提高語(yǔ)音發(fā)音的準(zhǔn)確性。Michelle Cavin[36]利用超聲生物反饋技術(shù)來(lái)對(duì)北美英語(yǔ)/r/發(fā)音進(jìn)行矯正，這種非侵入性的生物反饋技術(shù)可以讓一個(gè)人看到他們舌頭形狀的運(yùn)動(dòng)特征，這樣他們就可以根據(jù)正確的發(fā)音模型來(lái)修改自己的發(fā)音。Preston J L、Brick N等人[37]對(duì)6名9歲至15歲語(yǔ)音失用癥(apraxia of speech)的兒童進(jìn)行了18個(gè)療程的實(shí)驗(yàn)，利用實(shí)時(shí)超聲波圖像的視覺反饋，孩子們被要求調(diào)整舌頭的動(dòng)作，在治療前、治療中和治療后收集探測(cè)器數(shù)據(jù)，以評(píng)估治療和未處理的聲音序列的詞匯水平準(zhǔn)確性，所有參與者在至少2個(gè)處理過(guò)的聲音序列中達(dá)到了性能標(biāo)準(zhǔn)(連續(xù)兩次的準(zhǔn)確率為80%)，結(jié)果表明，為了提高語(yǔ)音失用癥相關(guān)的持續(xù)語(yǔ)音錯(cuò)誤的兒童語(yǔ)音的準(zhǔn)確性，使用超聲生物反饋的治療方案是一個(gè)可行的選擇。為了提高患者的發(fā)音意識(shí)，Hueber T[38]開發(fā)了超聲播放器(見圖10)，一種為語(yǔ)音治療和發(fā)音訓(xùn)練應(yīng)用而設(shè)計(jì)的超聲可視化以及舌、唇視頻序列的軟件。

Adam Buchwald[39]等人對(duì)一個(gè)失語(yǔ)癥患者做了關(guān)于音位增音方面的研究，患者說(shuō)話時(shí)會(huì)把類似于非重讀央元音插入到輔音中(例如clone和c[]lone)。實(shí)驗(yàn)中采用輔音(C1C2)組(例如clue)與插入一個(gè)元音的單詞(C1VC2)組(例如collude)做對(duì)比分析，全部發(fā)音采用超聲成像來(lái)記錄，它提供了發(fā)音過(guò)程中舌頭運(yùn)動(dòng)的中矢狀舌形圖像，如圖11-a所示。結(jié)果如圖11-b顯示，C1C2組(glue、clue，實(shí)線表示)與C1VC2組(galoot-collude，虛線表示)沒(méi)有明顯的區(qū)別，對(duì)于插入到輔音之間的元音的感知僅僅反映了兩個(gè)輔音相關(guān)聯(lián)的動(dòng)態(tài)發(fā)音姿勢(shì)錯(cuò)誤。

五、超聲成像在語(yǔ)音工程研究中的應(yīng)用

隨著人工智能技術(shù)的發(fā)展，新的圖像處理技術(shù)、新的實(shí)驗(yàn)方法以及新的實(shí)驗(yàn)設(shè)備的出現(xiàn)將會(huì)推動(dòng)實(shí)驗(yàn)語(yǔ)言的發(fā)展進(jìn)步，超聲成像將繼續(xù)在語(yǔ)言研究中被使用，可以用來(lái)研究的領(lǐng)域更廣范，研究的問(wèn)題更深入。超聲成像技術(shù)能夠進(jìn)一步提升語(yǔ)音識(shí)別和語(yǔ)音合成的質(zhì)量。

傳統(tǒng)的語(yǔ)音識(shí)別采用的是聲學(xué)特征。我們也可以通過(guò)提取超聲圖像和光學(xué)圖像中的視覺特征用于語(yǔ)音識(shí)別(見圖12)，這樣的合成器只能通過(guò)發(fā)音生理數(shù)據(jù)來(lái)驅(qū)動(dòng)，稱為“無(wú)聲語(yǔ)音接口”(SSI，Silent Speech Interface)[40]，由于聲音的發(fā)聲是不必要的，無(wú)聲語(yǔ)音接口有許多潛在的應(yīng)用。例如，為了幫助接受過(guò)喉切除術(shù)的病人，無(wú)聲語(yǔ)音接口可以被用來(lái)代替電喉。此外，在嘈雜背景環(huán)境中，無(wú)聲語(yǔ)音接口可以提高通信質(zhì)量。

圖12 基于超聲的無(wú)聲語(yǔ)音接口原理圖

Hueber T[41-42]從超聲舌頭圖像和嘴唇光學(xué)圖像中獲取信息進(jìn)行了連續(xù)語(yǔ)音識(shí)別，對(duì)語(yǔ)音語(yǔ)料庫(kù)的處理采用自動(dòng)語(yǔ)音校正程序和強(qiáng)大的視覺特征提取技術(shù)進(jìn)行語(yǔ)音標(biāo)記，并基于HMM(Hidden Markov Model)的隨機(jī)模型分別在視覺語(yǔ)料庫(kù)和聲學(xué)語(yǔ)料庫(kù)中進(jìn)行估算，將視覺語(yǔ)音識(shí)別系統(tǒng)的性能與傳統(tǒng)的基于聽覺的識(shí)別系統(tǒng)進(jìn)行了比較，證明了通過(guò)超聲圖像和嘴唇的光學(xué)圖像來(lái)識(shí)別語(yǔ)音的可行性，這對(duì)于我們?nèi)ダ斫鉄o(wú)聲語(yǔ)言與發(fā)聲語(yǔ)言的區(qū)別聯(lián)系有著重要意義。

Wang J[43]提出了一種將動(dòng)態(tài)信息集成到基于超聲波的無(wú)聲語(yǔ)音接口中的新方法，該方法中分別對(duì)靜態(tài)和動(dòng)態(tài)視覺特征信息的可靠性進(jìn)行了加權(quán)，采用了多流隱馬爾可夫模型(MSHMM，Multi-stream Hidden Markov Model)技術(shù)。最終在普通話多模態(tài)數(shù)據(jù)庫(kù)中對(duì)基于多流的集成方法進(jìn)行了評(píng)估，并與傳統(tǒng)的連接融合方法進(jìn)行了比較，結(jié)果表明語(yǔ)音解碼的準(zhǔn)確性得到提高。路文煥等人[44]在基于超聲的無(wú)聲語(yǔ)音接口實(shí)現(xiàn)中，提出了3種混合特征提取方法：使用主成分分析從小波系數(shù)中提取特征(WaveletPCA)、分塊離散余弦變換主成分分析(block DCT G PCA)和分塊WalshHadamard變換主成分分析(block WHT G PCA)，實(shí)驗(yàn)結(jié)果表明：混合特征提取方法更能夠提取舌部超聲圖像中重要的特征，該方法優(yōu)于通常使用的主成分分析或離散余弦變換，其中block DCT G PCA方法最優(yōu)。借助深度學(xué)習(xí)技術(shù)、新方法以及新算法的應(yīng)用，相關(guān)研究人員對(duì)語(yǔ)音識(shí)別中的基于超聲成像的無(wú)聲語(yǔ)音接口方面的研究更加深入。Yan Ji等人[45]引入深度學(xué)習(xí)技術(shù)，使得基于超聲的無(wú)聲語(yǔ)音接口的準(zhǔn)確率大幅提升。Grósz T等人[46-47]采用深度神經(jīng)網(wǎng)絡(luò)(DNN)，從超聲波圖像中進(jìn)行發(fā)音和聲學(xué)轉(zhuǎn)換，重點(diǎn)是基于超聲波的發(fā)音—聲學(xué)映射中執(zhí)行基頻估計(jì)，結(jié)果證明了發(fā)音與基頻的預(yù)測(cè)是有希望的。同時(shí)，他們還將舌體的二維超聲作為深度神經(jīng)網(wǎng)絡(luò)的輸入信息，給出了基于超聲舌體運(yùn)動(dòng)的語(yǔ)音轉(zhuǎn)換的初步結(jié)果。上述研究將會(huì)對(duì)無(wú)聲語(yǔ)音接口的應(yīng)用起著重要作用。

此外，在語(yǔ)音合成方面，Jaumard-Hakoun[48]提出了一種基于超聲舌成像和唇形的歌唱聲音合成方法，提取超聲舌像和唇形圖像序列中的特征，利用多層結(jié)構(gòu)對(duì)這些特征中最相關(guān)的特征進(jìn)行非線性預(yù)測(cè)，最終合成的質(zhì)量效果令人滿意。

六、總結(jié)

(一)超聲的優(yōu)勢(shì)

超聲被用于語(yǔ)音中提供舌頭位置和配置的實(shí)時(shí)視覺反饋，與EMMA(電磁中矢狀發(fā)音測(cè)量?jī)x，也稱“艾瑪儀”)提供視覺反饋相比，超聲是一種更廣泛、更少侵入性的技術(shù)，而且它提供了整個(gè)舌頭形狀信息的優(yōu)勢(shì)。超聲具有足夠的靈活性，能夠快速地從矢狀面轉(zhuǎn)變?yōu)楣跔钜晥D，可以動(dòng)態(tài)或靜態(tài)地觀察舌頭的矢狀或冠狀斜視圖，提供關(guān)于構(gòu)形和運(yùn)動(dòng)的不同視角。超聲成像可以疊加到視頻中，能夠同時(shí)觀察到口形和舌位運(yùn)動(dòng)。另外，超聲波不需要個(gè)性化的硬件(比如EPG的人工腭)，它可以立即使用，而不增加每個(gè)用戶的費(fèi)用，尤其是便攜式超聲設(shè)備允許用戶在田野進(jìn)行數(shù)據(jù)收集。

(二)超聲的劣勢(shì)

首先，與核磁共振成像(MRI)或造影技術(shù)相比，超聲成像技術(shù)具有劣勢(shì)，因?yàn)樵诔暢上裰胁豢赡苡涗浬喔恼麄€(gè)形狀(由于舌骨的陰影)，加上探測(cè)器范圍的局限性，舌尖信息也很難獲取到。其次，二維超聲不能同時(shí)監(jiān)測(cè)矢狀位和冠狀位，三維動(dòng)態(tài)超聲(目前是一種靜態(tài)顯示)或同時(shí)使用EPG(電子腭位儀)和超聲可以提供更多的多維視圖，這可能更容易實(shí)現(xiàn)。再次，超聲不提供舌腭接觸信息，但是EPG和超聲的組合使用可能比靜態(tài)參考線或透明性更具有啟發(fā)性。最后，超聲不提供聲學(xué)信息，顯示舌頭結(jié)構(gòu)和聲音顯示的分隔屏幕可以提供關(guān)于音調(diào)、強(qiáng)度、聲音、發(fā)音方式和發(fā)音的附加信息。

(三)超聲的有效性

使用超聲成像作為科學(xué)研究的工具，它的測(cè)量方法和研究結(jié)果是否具有有效性，還需要進(jìn)一步研究證明。Ménard L等人[49]用超聲成像測(cè)量舌頭的形狀和位置，通過(guò)開發(fā)的VLAM發(fā)音模型來(lái)評(píng)估超聲測(cè)量方法的有效性。提出的數(shù)據(jù)分析方法將舌形輪廓重新塑造成三角形，然后提取出舌頭最高點(diǎn)、曲率度和曲率位置的角度、x和y坐標(biāo)。結(jié)果表明，與絕對(duì)舌位(舌頭高度和前后位置)相關(guān)的參數(shù)對(duì)探頭的水平和垂直位移更敏感，而與舌曲率有關(guān)的參數(shù)對(duì)這種位移的敏感度較低。Wodzinski等人[17]2395評(píng)估了超聲成像對(duì)測(cè)量軟腭輔音關(guān)閉位置的有效性。McAllister等人[30]249指出由于目前的研究并沒(méi)有提供令人信服的證據(jù)，證明超聲波在聲學(xué)測(cè)量方法上的優(yōu)勢(shì)，研究人員和臨床醫(yī)生可能會(huì)質(zhì)疑，是否有可能為將超聲波技術(shù)納入研究或治療兒童語(yǔ)言所需的時(shí)間和資源進(jìn)行辯護(hù)。然而，這項(xiàng)研究?jī)H限于對(duì)從超聲波和聲學(xué)數(shù)據(jù)中提取的定量測(cè)量方法進(jìn)行比較。

(四)未來(lái)的研究方向

首先，發(fā)音生理部位舌體的舌尖和舌邊信息補(bǔ)全機(jī)制。在元音和輔音的產(chǎn)生過(guò)程中，對(duì)舌頭的整體結(jié)構(gòu)進(jìn)行研究是最有用的，但由于舌頭的前部經(jīng)常被下巴所遮蔽，所以舌尖和舌邊的信息會(huì)丟失，如何補(bǔ)全丟失的信息或許可以成為未來(lái)關(guān)注的重點(diǎn)。其次，添加多模態(tài)的發(fā)音生理數(shù)據(jù)增加語(yǔ)音合成的自然性?？梢詫⒒诔暤纳囿w形態(tài)數(shù)據(jù)應(yīng)用在文字—語(yǔ)音轉(zhuǎn)換系統(tǒng)(TTS，Text-To-Speech synthesis)[50]中，即視聽語(yǔ)音合成系統(tǒng)(Audiovisual TTS)[51]。在文字—語(yǔ)音轉(zhuǎn)換系統(tǒng)中添加舌體運(yùn)動(dòng)(Tongue movement)和唇形動(dòng)作(Lip motion)等發(fā)音特性將會(huì)提高TTS的自然性，最終研發(fā)出一個(gè)會(huì)講話的人頭(Talking head)。最后，在語(yǔ)音識(shí)別中的無(wú)聲語(yǔ)音接口研究方面，采用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)、自動(dòng)編碼技術(shù)，研究并添加舌、唇、上下文相關(guān)模型、統(tǒng)計(jì)語(yǔ)言模型和新的集成模式的新視覺特征，改善識(shí)別效果，推動(dòng)無(wú)聲語(yǔ)音接口的實(shí)際應(yīng)用。

語(yǔ)言學(xué)方面的研究需要在廣度與深度上繼續(xù)展開，一些傳統(tǒng)的研究方法和研究手段也需要不斷更新。超聲成像技術(shù)的發(fā)展推動(dòng)了語(yǔ)言的深度研究，以前，對(duì)于某些語(yǔ)言現(xiàn)象只能依靠理論推測(cè)，而今，我們可以借助超聲成像技術(shù)用科學(xué)合理的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行解釋分析。雖然超聲成像技術(shù)有著一定的不足，但是國(guó)外有大量的學(xué)者們已將超聲成像技術(shù)應(yīng)用在語(yǔ)言研究中，并且取得了重要研究成果。相信隨著超聲成像、圖像處理、三維建模、機(jī)器學(xué)習(xí)等技術(shù)的深入發(fā)展，對(duì)于我國(guó)的語(yǔ)言實(shí)踐研究有著重要意義。