張娟
空間聽(tīng)覺(jué)(spatial hearing)是指聽(tīng)者能夠在聽(tīng)覺(jué)環(huán)境中進(jìn)行聲源定位(sound localization)和聽(tīng)覺(jué)場(chǎng)景分析(auditory scene analysis,ASA)等,是人和動(dòng)物感知外界環(huán)境的基本方法,它與聽(tīng)敏度構(gòu)成了完整的聽(tīng)覺(jué)系統(tǒng),對(duì)日常生活場(chǎng)景下躲避危險(xiǎn)、尋找目標(biāo)及噪聲環(huán)境下的言語(yǔ)識(shí)別等具有重要意義??臻g聽(tīng)覺(jué)涉及的主要內(nèi)容之一是聲源定位,后者是指聽(tīng)覺(jué)系統(tǒng)在一定程度上能夠確定物體聲像空間位置的心理現(xiàn)象,包括對(duì)聲源水平方位、垂直方位的識(shí)別,對(duì)聲源距離的識(shí)別,對(duì)運(yùn)動(dòng)聲源的察覺(jué)和辨別,在復(fù)雜聲環(huán)境下的聽(tīng)覺(jué)感知,以及對(duì)空間屬性的感知等[1]。
21世紀(jì)以來(lái),空間聽(tīng)覺(jué)尤其是聲源定位研究越來(lái)越多地走上臺(tái)前,所涉學(xué)科既包括醫(yī)學(xué)、聲學(xué)、信號(hào)處理、計(jì)算機(jī)技術(shù)等,也得益于人機(jī)交互、人工智能、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等新技術(shù),其最大特點(diǎn)是多學(xué)科交叉,即信號(hào)處理、計(jì)算機(jī)技術(shù)、壓縮感知、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、人工智能等專(zhuān)業(yè)相互交叉、相互滲透。以人機(jī)語(yǔ)音交互為例,只有借助于聲源定位,在定位和追蹤聲源的基礎(chǔ)上,通過(guò)神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)使人機(jī)建立聯(lián)系,才能最終達(dá)到人機(jī)交互的目的。未來(lái)隨著元宇宙(metaverse)的迅猛發(fā)展,在實(shí)現(xiàn)與現(xiàn)實(shí)世界映射及交互的虛擬世界中,基于數(shù)字孿生技術(shù)的聲源定位技術(shù)將異軍突起,滲透到生活中的點(diǎn)點(diǎn)滴滴,促進(jìn)社會(huì)進(jìn)步,提升人們的幸福感。
目前,聲源定位技術(shù)主要應(yīng)用于民用、商用和軍用3大領(lǐng)域,包括醫(yī)學(xué)、教育、移動(dòng)通信、機(jī)器人、智能音響、車(chē)載系統(tǒng)、交通監(jiān)控、軍事等領(lǐng)域等。在醫(yī)學(xué)領(lǐng)域,最為關(guān)注聲源定位的是耳科學(xué)者、聽(tīng)力學(xué)者及聽(tīng)覺(jué)言語(yǔ)康復(fù)學(xué)者,其前沿?zé)狳c(diǎn)問(wèn)題是聲源定位的聲學(xué)機(jī)制、神經(jīng)機(jī)制、臨床測(cè)試方法、設(shè)備研發(fā)和臨床應(yīng)用。而掌握聲源定位的聲學(xué)機(jī)制和神經(jīng)機(jī)制是開(kāi)展聲源定位各項(xiàng)研究的基礎(chǔ)。
ASA是聽(tīng)覺(jué)系統(tǒng)根據(jù)聲源位置進(jìn)行聽(tīng)覺(jué)流(auditory stream)分離以及聽(tīng)覺(jué)融合[2],前者將聽(tīng)感知覺(jué)集合分解成相對(duì)穩(wěn)健的聲學(xué)特征元素,后者進(jìn)一步將其與模式場(chǎng)景的時(shí)空特性進(jìn)行動(dòng)態(tài)分類(lèi)匹配。
空間聽(tīng)覺(jué)的研究始于對(duì)聲源定位的探索,直至今日,聲源定位仍然是空間聽(tīng)覺(jué)的主要研究?jī)?nèi)容之一。Lord Rayleigh的雙工理論(the duplex theory)是解釋聲源定位線索的經(jīng)典理論[3],人類(lèi)對(duì)低頻信號(hào)的聲源定位主要依賴(lài)耳間時(shí)間差(interaural time difference,ITD),高頻主要依賴(lài)耳間強(qiáng)度差(interaural level difference,ILD)。耳間時(shí)間差又可以根據(jù)聲源頻率延伸出耳間相位差(interaural phase difference,IPD),頻譜線索(spectral cues,SC)則為前后辨別和垂直定位提供信息。
當(dāng)聲波遇到軀干、頭顱和耳廓時(shí),會(huì)在耳廓處發(fā)生折射、散射和衍射,產(chǎn)生濾波效應(yīng),該濾波可以用頭相關(guān)傳輸函數(shù)(head related transfer function,HRTF)表示。在復(fù)雜的聲環(huán)境下,不同聲源發(fā)出的聲波之間,以及直達(dá)聲和反射聲之間會(huì)在空氣介質(zhì)中相互疊加,形成新的復(fù)雜的混合聲波,當(dāng)其抵達(dá)鼓膜時(shí),與之前不同原聲源發(fā)出的原聲波不相同。健聽(tīng)者能夠從該混合聲波中分離、聽(tīng)懂目標(biāo)聲源,這種神奇的效應(yīng)就是“雞尾酒會(huì)”現(xiàn)象,其原理是中樞聽(tīng)覺(jué)系統(tǒng)利用雙耳效應(yīng)、頭影效應(yīng)、較優(yōu)耳效應(yīng)等對(duì)雙耳互相關(guān)的冗余信息進(jìn)行聽(tīng)覺(jué)流分離[3,4]。格式塔理論認(rèn)為[4],當(dāng)兩個(gè)聽(tīng)覺(jué)流特征類(lèi)似時(shí),可發(fā)生雙耳融合(binaural fusion)。當(dāng)兩個(gè)處于不同空間位置的相關(guān)聲源延遲達(dá)到1~10 ms時(shí),聽(tīng)者只能感知到一個(gè)位于領(lǐng)先聲附近的融合聲像,即優(yōu)先效應(yīng)(precedence effect),優(yōu)先效應(yīng)被認(rèn)為是健聽(tīng)者能在嘈雜環(huán)境中精準(zhǔn)定位聲源的原因之一;當(dāng)分離具有不同時(shí)頻特征的聽(tīng)覺(jué)流時(shí),聽(tīng)覺(jué)中樞通過(guò)對(duì)空間信息進(jìn)行感知和分析,利用空間掩蔽釋放(spatial release from masking,SRM)提高信噪比,從而提高復(fù)雜聲環(huán)境下的言語(yǔ)識(shí)別能力??臻g聽(tīng)覺(jué)損失者不能選擇性注意特定聽(tīng)覺(jué)流,因此出現(xiàn)言語(yǔ)識(shí)別率下降,這是當(dāng)前研究的重點(diǎn)和難點(diǎn),也是筆者團(tuán)隊(duì)專(zhuān)注研究20年的體會(huì)。研究聲源定位的聲學(xué)機(jī)制,通過(guò)臨床檢測(cè)和干預(yù),提高聽(tīng)障人群在復(fù)雜環(huán)境中的言語(yǔ)識(shí)別率,具有重要的臨床意義。
對(duì)聽(tīng)覺(jué)聲源定位的研究主要分為宏觀和微觀兩個(gè)方面,微觀研究主要通過(guò)電生理、分子生物學(xué)、轉(zhuǎn)基因小鼠、信息逆向示蹤病毒等技術(shù)手段進(jìn)行動(dòng)物實(shí)驗(yàn),以期解釋人類(lèi)聲源定位的產(chǎn)生機(jī)制。
中樞聽(tīng)覺(jué)系統(tǒng)能夠整合和分析雙耳空間線索,進(jìn)而定位聲源,主要依賴(lài)于從低位腦干核團(tuán)、外側(cè)丘系、下丘、內(nèi)側(cè)膝狀體的逐級(jí)處理,最終通過(guò)“最大似然估計(jì)”模型,以聽(tīng)中樞中不同的神經(jīng)元群體反應(yīng)模式進(jìn)行編碼和解碼[5]。雙側(cè)聽(tīng)神經(jīng)發(fā)出的神經(jīng)沖動(dòng)通過(guò)耳蝸核(cochlear nucleus,CN)接替,將聲信息中的時(shí)間、速率、部位編碼信息投射到雙側(cè)特定核團(tuán)。首先,上橄欖復(fù)合體(superior olivary complex,SOC)是聽(tīng)覺(jué)中樞中第一級(jí)接受和處理雙耳信息的核團(tuán),包含上橄欖內(nèi)側(cè)核(medial superior olive,MSO)、上橄欖外側(cè)核(lateral superior olive,LSO)、斜方體外側(cè)核(lateral nucleus of the trapezoid body,LNTB)和斜方體內(nèi)側(cè)核(medial nucleus of the trapezoid body,MNTB)。從功能上看,MSO主要負(fù)責(zé)編碼ITD,LSO主要負(fù)責(zé)編碼ILD[6],而LNTB和MNTB負(fù)責(zé)中繼MSO和LSO的上行投射。人類(lèi)主要通過(guò)Jeffress延遲線模型(Jeffress’ delay-line model)處理ITD信息[7],即在對(duì)側(cè)的上橄欖內(nèi)側(cè)核(medial superior olive,MSO)的重合探測(cè)器(coincidence detector)可對(duì)雙側(cè)神經(jīng)沖動(dòng)的時(shí)間延遲進(jìn)行分析。然而,對(duì)于低頻定位信號(hào)的感知可能更依賴(lài)于時(shí)間抑制(timed inhibition)機(jī)制[8],MSO同時(shí)接受來(lái)自MNTB的抑制性投射,進(jìn)一步增加了低頻ITD調(diào)諧曲線范圍。其次,外側(cè)丘系核(nucleus of the lateral lemniscus,NLL)接受雙側(cè)CN、SOC及對(duì)側(cè)NLL的投射,其顯著的音頻拓?fù)涮卣髟趶?fù)雜聲環(huán)境下定位聲源以及回聲定位中發(fā)揮特殊作用[9,10]。下丘(inferior colliculus,IC)是重要的雙耳信息整合中樞[11],其多種反應(yīng)特性的神經(jīng)元將ITD、ILD和SC等信息在此結(jié)合。應(yīng)用7T功能核磁進(jìn)行的研究[12]顯示,在IC水平也可能存在與“音頻地圖”類(lèi)似的“空間地圖”。
IC是一個(gè)在各物種間高度保守的中樞核團(tuán),根據(jù)高爾基染色顯示的細(xì)胞形態(tài),按照免疫熒光染色、細(xì)胞色素氧化酶顯示的分子性質(zhì)不同,可將下丘分為兩個(gè)區(qū)域,分別為中間丘系下丘(lemniscal part)及兩側(cè)非丘系下丘(non-lemniscal part)。丘系和非丘系部分神經(jīng)元形態(tài)顯著不同,在信息處理中可能發(fā)揮不同功能,因此以丘系和非丘系為單位,分別對(duì)兩個(gè)區(qū)域的解剖和功能進(jìn)行探究是解開(kāi)聲源定位神經(jīng)機(jī)制的途徑之一。腦區(qū)的解剖研究和功能研究同等重要,只有明確一個(gè)腦區(qū)接收哪些輸入,又將信息輸出到了哪里,才能解釋其在動(dòng)物行為中是如何發(fā)揮作用的。動(dòng)物實(shí)驗(yàn)中常用的麻醉劑戊巴比妥鈉會(huì)影響神經(jīng)元對(duì)滯后聲的電位發(fā)放,繼而證明優(yōu)先效應(yīng)中丘系下丘對(duì)滯后聲的響應(yīng)降低是由于GABA遞質(zhì)的釋放[13]。以往對(duì)非丘系下丘的神經(jīng)解剖環(huán)路研究采用傳統(tǒng)示蹤染料,如辣根過(guò)氧化物酶和熒光金等,染料示蹤有明顯局限性,有腦區(qū)選擇性,不能進(jìn)行特異神經(jīng)元類(lèi)型示蹤,染料可能被穿行的纖維吸收,從而影響對(duì)腦區(qū)精準(zhǔn)連接的解析等。
近年來(lái),筆者團(tuán)隊(duì)對(duì)神經(jīng)環(huán)路展開(kāi)研究,用轉(zhuǎn)基因小鼠結(jié)合信息逆向示蹤病毒對(duì)非丘系下丘腦區(qū)進(jìn)行上游環(huán)路示蹤,嘗試解析同一腦區(qū)不同神經(jīng)元類(lèi)型的精準(zhǔn)連接,用改造的病毒工具對(duì)一個(gè)腦區(qū)的一級(jí)或多級(jí)上游進(jìn)行探究,通過(guò)對(duì)兩個(gè)腦區(qū)分別注射標(biāo)記軸突末梢和稀疏標(biāo)記病毒,并結(jié)合腦片透明化和共聚焦顯微鏡成像技術(shù),希望能夠明確不同腦區(qū)間的神經(jīng)元如何進(jìn)行連接。
聽(tīng)覺(jué)系統(tǒng)并非獨(dú)立存在,各感官之間相互協(xié)調(diào),聲源定位有視覺(jué)和體感神經(jīng)機(jī)制參與其中。來(lái)自哺乳動(dòng)物和人類(lèi)空間聽(tīng)覺(jué)的神經(jīng)生理學(xué)、神經(jīng)影像學(xué)和計(jì)算模型的研究表明,聲源位置的皮層表征可能來(lái)自初級(jí)聽(tīng)皮層與較高階的聽(tīng)覺(jué)區(qū)域(如背外側(cè)前額葉等)共同參與的動(dòng)態(tài)自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)[14],并且涉及與視覺(jué)、本體感覺(jué)等多模態(tài)整合(multimodal integration)[15~17],這種皮層網(wǎng)絡(luò)可適應(yīng)不斷變化的行為需求,尤其與處理真實(shí)生活場(chǎng)景的聲源位置、復(fù)雜聽(tīng)覺(jué)場(chǎng)景識(shí)別等密切相關(guān)。
在臨床中筆者發(fā)現(xiàn)一部分植入人工耳蝸的患者,在嘈雜環(huán)境中的聲源定位能力遠(yuǎn)低于健聽(tīng)人群,其原因不明,仍是臨床輔聽(tīng)治療的難題。
空間聽(tīng)覺(jué)依賴(lài)于聲源定位,如果利用空間聲學(xué)線索進(jìn)行感知的能力下降,就會(huì)造成空間聽(tīng)覺(jué)損失(spatial hearing loss),導(dǎo)致兒童聽(tīng)處理障礙(auditory processing disorder,APD)[4]??臻g聽(tīng)覺(jué)能力還會(huì)隨著衰老逐漸下降,70歲以上人群大多伴有不同程度的空間聽(tīng)力損失,該損失可能獨(dú)立于年齡相關(guān)性聽(tīng)力損失,并與癡呆患病風(fēng)險(xiǎn)有關(guān)[18]。即使患者配戴了雙側(cè)輔聽(tīng)裝置,一旦處于復(fù)雜聲環(huán)境中,其聲源定位能力會(huì)急劇下降[19]。
研究聲源定位對(duì)于人們生活和工作有著重要意義。隨著社會(huì)的發(fā)展,人們對(duì)聲源定位的需求必將越來(lái)越高,因此,對(duì)相關(guān)技術(shù)的研究是一項(xiàng)長(zhǎng)久的事業(yè)。醫(yī)學(xué)工作者,特別是耳科學(xué)者、聽(tīng)力學(xué)者和聽(tīng)力語(yǔ)言康復(fù)學(xué)從業(yè)者是這片沃土的辛勤耕耘者,理應(yīng)踏準(zhǔn)時(shí)代的脈絡(luò),為人類(lèi)奉獻(xiàn)智慧和成果。