摘要: 發(fā)音障礙是帕金森病的早期癥狀之一。近年來(lái),基于語(yǔ)音信號(hào)的帕金森病檢測(cè)的研究大多采用梅爾刻度下的相關(guān)語(yǔ)音特征與深度神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方法。然而,現(xiàn)有的模型無(wú)法充分關(guān)注語(yǔ)音信號(hào)的全局時(shí)序信息,且梅爾刻度特征在準(zhǔn)確表征帕金森病的病理信息方面效果有限。為此,提出了一種基于語(yǔ)音時(shí)頻特征融合的帕金森病檢測(cè)方法。首先,提取語(yǔ)音的梅爾頻率倒譜系數(shù),并將其作為模型的輸入。接著,在已有的S-vectors模型中引入Conformer編碼器模塊,以提取語(yǔ)音的時(shí)域全局特征。最后,將與帕金森病語(yǔ)音檢測(cè)相關(guān)的頻域全局特征嵌入時(shí)域特征中進(jìn)行時(shí)頻信息融合,以實(shí)現(xiàn)帕金森病語(yǔ)音檢測(cè)。在公開(kāi)帕金森病語(yǔ)音數(shù)據(jù)集和自采語(yǔ)音數(shù)據(jù)集上驗(yàn)證了方法的有效性。
關(guān)鍵詞: 帕金森病; 梅爾頻率倒譜系數(shù); S-vectors; Conformer; 時(shí)頻特征融合
中圖分類號(hào): TP391.4
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1671-6841(2025)01-0053-08
DOI: 10.13705/j.issn.1671-6841.2023118
Parkinson′s Disease Detection Method Based on Time-frequency
Feature Fusion of Speech Signals
WANG Chenzhe1, JI Wei2, ZHENG Huifen3, LI Yun1
(1.School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2.School of Communications and Information Engineering, Nanjing University of Posts and Telecommunications,
Nanjing 210003, China; 3.Geriatric Hospital of Nanjing Medical University, Nanjing 210009, China)
Abstract: Dysphonia is one of the earliest symptoms of Parkinson′s disease (PD). In recent years, many studies on the detection of PD based on speech signals used deep neural network models combined with Mel Scale features. However, existing models could adequately focus on the global time-series information of speech signals. And Mel Scale features had limited effectiveness in accurately characterizing the pathological information of PD. To solve the above problems, a speech detection method for PD was proposed based on time-frequency feature fusion. Firstly, Mel frequency cepstrum coefficients (MFCC) were extracted from speech signals and used as the input data for subsequent models. Then, encoder module of Conformer was introduced into the S-vectors model to extract speech global features in time domain. Finally, global features in frequency domain, related to speech detection of PD, were embedded into the time-domain features to fuse the time-frequency information for PD detection ultimately. The effectiveness of the proposed model was verified respectively on a public PD dataset and a self-collected speech dataset.
Key words: Parkinson′s disease; Mel frequency cepstrum coefficient; S-vectors; Conformer; time-frequency feature fusion
0引言
帕金森?。≒arkinson′s disease, PD)是僅次于阿爾茨海默病的第二大神經(jīng)退行性疾病。已有研究表明,該病和發(fā)音障礙之間有一定的病理聯(lián)系。帕金森病患者臨床上大多存在一定程度的語(yǔ)音損傷癥狀,且語(yǔ)音損傷在發(fā)病早期就已經(jīng)出現(xiàn)不同程度的癥狀,表現(xiàn)為講話緩慢、聲音嘶啞、音量低和發(fā)音震顫等[1]。這些語(yǔ)音損傷是帕金森病患者喉部發(fā)音以及呼吸肌肉的控制損失引起的?;诖?,可考慮利用語(yǔ)音信號(hào),結(jié)合機(jī)器學(xué)習(xí)技術(shù)進(jìn)行帕金森病的檢測(cè)[2-3]?;谡Z(yǔ)音的帕金森病檢測(cè)方法具有非介入式、采集方便和成本較低等優(yōu)點(diǎn),可以有效緩解醫(yī)療資源緊張的問(wèn)題,提高診療階段的效率[4]。然而,現(xiàn)有的帕金森病語(yǔ)音檢測(cè)方法難以很好地表征帕金森病語(yǔ)音中的病理信息,準(zhǔn)確性也有待提高。因此,研究準(zhǔn)確高效的帕金森病語(yǔ)音檢測(cè)方法,具有重要的社會(huì)意義和研究?jī)r(jià)值。
隨著深度學(xué)習(xí)在說(shuō)話人識(shí)別、語(yǔ)音識(shí)別等語(yǔ)音信號(hào)處理領(lǐng)域的廣泛應(yīng)用[5],越來(lái)越多的研究者開(kāi)始利用深度學(xué)習(xí)技術(shù)開(kāi)展基于語(yǔ)音的帕金森病檢測(cè)工作[6]。Vasquez-Correa等[7]考慮現(xiàn)實(shí)應(yīng)用場(chǎng)景,使用智能手機(jī)采集語(yǔ)音數(shù)據(jù),并利用梅爾聲譜圖結(jié)合ResNet18模型進(jìn)行帕金森病檢測(cè)。Er等[8]依然以梅爾聲譜圖作為輸入特征,提出了預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)模型并結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)的方法,得到了更好的帕金森病分類性能。Karaman等[9]利用DenseNet深度CNN模型,基于遷移學(xué)習(xí)方法從語(yǔ)音信號(hào)中自動(dòng)檢測(cè)帕金森病。季薇等[10]利用掩蔽自監(jiān)督模型來(lái)掩蔽部分梅爾聲譜圖特征并對(duì)其進(jìn)行重構(gòu),從而學(xué)習(xí)帕金森病患者語(yǔ)音的更高級(jí)特征表示。上述方法存在的問(wèn)題在于:1) 模型無(wú)法充分關(guān)注語(yǔ)音信號(hào)的全局時(shí)序信息;2) 作為語(yǔ)音識(shí)別領(lǐng)域的通用特征,梅爾刻度特征在準(zhǔn)確表征帕金森病的病理信息方面有一定的局限性;3) 從數(shù)據(jù)集的使用方面看,在已有研究中研究者大多使用持續(xù)元音數(shù)據(jù)集,這是因?yàn)槌掷m(xù)元音能夠反映基頻變化特征[11],且發(fā)音簡(jiǎn)單、采集方便;然而,持續(xù)元音難以表征帕金森病患者語(yǔ)音中存在的清音平均時(shí)長(zhǎng)較短、濁音起始時(shí)間較短、塞音呈現(xiàn)擦音化等時(shí)序特點(diǎn)[12]。與之對(duì)比,使用情景對(duì)話或文本朗讀等長(zhǎng)句語(yǔ)料則可以更好地提取帕金森病語(yǔ)音中的時(shí)序病理信息。
研究表明,基于自注意力機(jī)制的Transformer技術(shù)可有效提高模型的時(shí)序特征提取能力,在語(yǔ)音信號(hào)處理領(lǐng)域已取得了很好的效果。Dong等[13]基于Transformer技術(shù)提出一種非遞歸的語(yǔ)音識(shí)別模型,得益于自注意力機(jī)制的融入,該模型在獲得性能提升的同時(shí)極大地減少了訓(xùn)練成本。Gulati等[14]認(rèn)為T(mén)ransformer可以更好地對(duì)基于內(nèi)容的全局相關(guān)性進(jìn)行建模,而卷積擅長(zhǎng)提取局部特征,因此將卷積應(yīng)用于Transformer的編碼層,提出了應(yīng)用于語(yǔ)音識(shí)別的Conformer架構(gòu),其編碼器模塊將Transformer和CNN結(jié)合起來(lái),更好地對(duì)語(yǔ)音序列的全局特征和局部特征進(jìn)行了統(tǒng)一建模。
值得注意的是,在時(shí)序信息的學(xué)習(xí)上,X-vectors模型也是一個(gè)很好的工具,并在說(shuō)話人識(shí)別領(lǐng)域得到有效應(yīng)用[15]。該模型中的語(yǔ)音幀級(jí)特征提取模塊可利用時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network, TDNN)結(jié)構(gòu)提取幀級(jí)特征學(xué)習(xí)語(yǔ)音信號(hào)的時(shí)序信息,話語(yǔ)級(jí)特征提取模塊則利用統(tǒng)計(jì)池化層將TDNN提取的幀級(jí)特征過(guò)渡到話語(yǔ)級(jí)的全局特征。Moro-Velazquez等[16]考慮帕金森病語(yǔ)音檢測(cè)與說(shuō)話人識(shí)別的相似性,從文本語(yǔ)料語(yǔ)音數(shù)據(jù)中提取梅爾頻率倒譜系數(shù)(Mel frequency cepstrum coefficients, MFCC),利用X-vectors模型提取帕金森病語(yǔ)音的時(shí)序信息,實(shí)現(xiàn)了帕金森病的檢測(cè)。為更好地提取語(yǔ)音信號(hào)的全局特征,Mary等[17]將自注意力機(jī)制和位置編碼引入X-vectors模型,提出S-vectors網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)在語(yǔ)音幀級(jí)特征提取模塊采用Transformer的編碼器層,能夠?qū)W習(xí)更多的說(shuō)話人信息,在說(shuō)話人識(shí)別領(lǐng)域獲得了優(yōu)于X-vectors的性能。然而,S-vectors結(jié)構(gòu)只關(guān)注語(yǔ)音的全局特征,對(duì)細(xì)粒度的局部特征提取效果有限。
為充分關(guān)注帕金森病語(yǔ)音中的時(shí)序信息,提高語(yǔ)音特征對(duì)帕金森病病理信息的表征能力,本文針對(duì)帕金森病患者的長(zhǎng)句語(yǔ)料,提出一種基于語(yǔ)音信號(hào)時(shí)頻特征融合的帕金森病語(yǔ)音檢測(cè)方法。首先,提取長(zhǎng)句語(yǔ)音信號(hào)的MFCC特征,并將其作為后續(xù)模型的輸入數(shù)據(jù)。然后,在S-vectors模型的基礎(chǔ)上,將其原有的編碼層替換成Conformer架構(gòu)中的編碼器模塊,并提取時(shí)域語(yǔ)音特征。最后,將與帕金森病語(yǔ)音檢測(cè)相關(guān)的頻域全局特征嵌入到時(shí)域特征中,利用多層全連接層融合時(shí)頻信息,最終實(shí)現(xiàn)帕金森病語(yǔ)音檢測(cè)。在MDVR-KCL公開(kāi)帕金森病語(yǔ)音數(shù)據(jù)集和自采語(yǔ)音數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提方法的性能明顯優(yōu)于基線模型。
本文主要貢獻(xiàn)在于:1) 對(duì)傳統(tǒng)的S-vectors模型進(jìn)行了編碼層的替換,Conformer編碼器模塊的引入使得改進(jìn)后的模型可以利用自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)更好地提取時(shí)域全局特征和細(xì)粒度局部特征;2) 頻域全局特征的嵌入,促進(jìn)了時(shí)頻域信息的融合,有效彌補(bǔ)了單一的梅爾刻度特征在特征表征上的局限性,提高模型對(duì)帕金森病語(yǔ)音病理信息的學(xué)習(xí)能力,提升帕金森病語(yǔ)音檢測(cè)模型的性能。
1本文方法
為更好地提取帕金森病患者語(yǔ)音中的病理信息,提高語(yǔ)音檢測(cè)的效果,本文提出一種基于語(yǔ)音信號(hào)時(shí)頻特征融合的帕金森病檢測(cè)方法。如圖1所示,基于語(yǔ)音信號(hào)的時(shí)頻特征融合模型及其訓(xùn)練流程包括源域預(yù)訓(xùn)練和目標(biāo)域微調(diào)兩個(gè)過(guò)程。
首先,在預(yù)訓(xùn)練階段使用公開(kāi)的Common Voice多語(yǔ)言語(yǔ)音數(shù)據(jù)集[18],數(shù)據(jù)集中的語(yǔ)料為多種語(yǔ)言的長(zhǎng)句語(yǔ)料。對(duì)Common Voice數(shù)據(jù)集的語(yǔ)音數(shù)據(jù)提取MFCC特征后,輸入本文所提模型進(jìn)行預(yù)訓(xùn)練。然后,將預(yù)訓(xùn)練模型參數(shù)遷移至目標(biāo)域,并增加頻域全局特征嵌入模塊,利用帕金森病語(yǔ)音數(shù)據(jù)集重新微調(diào)模型以更新模型參數(shù)。最終得到適用于帕金森病語(yǔ)音信號(hào)的檢測(cè)模型。
1.1基于語(yǔ)音信號(hào)的時(shí)頻特征融合模型
本文所提的基于語(yǔ)音信號(hào)的時(shí)頻特征融合模型如圖2所示,同樣分為語(yǔ)音幀級(jí)特征提取模塊和話語(yǔ)級(jí)特征提取模塊。為充分關(guān)注全局時(shí)序信息,所提模型基于S-vectors網(wǎng)絡(luò)結(jié)構(gòu),將其原有的編碼層替換成Conformer架構(gòu)中的編碼器模塊。Transformer和CNN相結(jié)合的時(shí)序特征編碼層的引入,可使本文所提模型具有同時(shí)捕捉語(yǔ)音的全局特征和局部特征的能力。時(shí)序特征編碼層中特有的多頭自注意力機(jī)制和相對(duì)位置編碼等,可使本文所提模型關(guān)注帕金森病患者語(yǔ)音存在的響度降低、語(yǔ)速較快、元音平均時(shí)長(zhǎng)較短、濁音起始時(shí)間較短等時(shí)序特性,能夠提取更多的帕金森病語(yǔ)音特征。
由于提取的特征主要包含帕金森病語(yǔ)音的時(shí)域信息,而帕金森病語(yǔ)音信號(hào)也存在基頻變化較小,清、濁音能量存在差異性等頻域特性。為充分挖掘帕金森病患者語(yǔ)音中的各種時(shí)頻變化,在對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)時(shí),本文將與帕金森病語(yǔ)音檢測(cè)相關(guān)的頻域全局特征嵌入生成的時(shí)域特征中,采用多層全連接層進(jìn)行時(shí)頻域信息融合,以提高模型對(duì)帕金森病語(yǔ)音的檢測(cè)效果。
1.2時(shí)序特征編碼層
與傳統(tǒng)的S-vectors不同的是,本文所提模型中引入的時(shí)序特征編碼層采用Conformer的編碼器結(jié)構(gòu)[14],該結(jié)構(gòu)由多頭自注意力模塊和卷積神經(jīng)網(wǎng)絡(luò)模塊以及兩層半步前饋神經(jīng)網(wǎng)絡(luò)組成,如圖3所示。其中,兩層前饋神經(jīng)網(wǎng)絡(luò)層采取夾層的方式,分別置于自注意力模塊前后。
該編碼層的輸入、輸出可以表示為
x~=x+12FFN(x),
x′=x~+MHSA(x~),
x″=x′+Conv(x′),
y=Laynorm(x″+12FFN(x″)),(1)
其中:FFN表示前饋神經(jīng)網(wǎng)絡(luò)層;MHSA表示多頭自注意力模塊;Conv表示卷積神經(jīng)網(wǎng)絡(luò)模塊;Laynorm表示層歸一化;x是時(shí)序特征編碼層的輸入;x~是FFN的輸出;x′是MHSA的輸出;x″是Conv的輸出;y是時(shí)序特征編碼層的輸出。
1.2.1多頭自注意力模塊
為更好地提取語(yǔ)音信號(hào)的全局特征,采用多頭自注意力模塊,同時(shí)引入相對(duì)位置編碼。其核心部分是多頭自注意力網(wǎng)絡(luò),將輸入特征序列映射到多個(gè)特征子空間,提取時(shí)序相關(guān)的多種語(yǔ)音特征。多頭自注意力機(jī)制可以表示為
MultiHead(Q,K,V)=Concat(h,h,…,h)×WO,(2)
其中:Q、K、V表示自注意力機(jī)制中由語(yǔ)音特征學(xué)習(xí)的特征表示;投影矩陣WO是通過(guò)學(xué)習(xí)獲得的參數(shù);n表示多頭自注意力的頭數(shù);Concat(h,h,…,h)表示拼接所有自注意力機(jī)制的輸出h,i=1,2,…,n。h表示為
h=Attention(QWQ,KWK,VWV)=
softmax(QWQ(KWK)Td)VWV,(3)
其中:WQ、WK、WV是可學(xué)習(xí)的參數(shù)。得益于自注意力機(jī)制跨越語(yǔ)音上下文的特征提取能力,編碼層可以提取更多的語(yǔ)音特征。
Quan等[19]的研究表明,帕金森病患者和健康人的清濁音轉(zhuǎn)換次數(shù)和波形輪廓平穩(wěn)性存在顯著差異。為了在模型中考慮語(yǔ)音信號(hào)的發(fā)音轉(zhuǎn)換特征信息,該編碼層使用相對(duì)位置編碼[20]。傳統(tǒng)的Transformer將絕對(duì)位置編碼嵌入特征向量中[21],如式(4)所示。該模塊將相對(duì)位置編碼引入自注意力模塊的注意力分?jǐn)?shù)中,如式(5)所示,
Aabs=ETWTWE(a)+ETWTWU(b)+
UTWTWE(c)+UTWTWU(d),(4)
Arel=ETWTWE(a)+ETWTWR(b)+
uTWE(c)+vTWR(d),(5)
其中:Aabs表示引入絕對(duì)位置編碼的注意力分?jǐn)?shù);Arel表示引入相對(duì)位置編碼的注意力分?jǐn)?shù);E為語(yǔ)音序列的特征向量;U為語(yǔ)音序列中位置i的絕對(duì)位置編碼;R為位置i與j的正余弦相對(duì)位置編碼。
該模塊采用R替代絕對(duì)位置編碼U,并且對(duì)于語(yǔ)音特征向量和位置編碼分別使用不同的參數(shù)矩陣W和W表示基于內(nèi)容和基于位置的線性變化。此外,用u∈Rd替代UTWT,用v∈Rd替代UTWT,這是因?yàn)殒I向量對(duì)于自身的位置編碼信息應(yīng)保持一致。相對(duì)位置編碼可以提高模型對(duì)不同長(zhǎng)度的語(yǔ)音序列的泛化性和魯棒性。
1.2.2卷積神經(jīng)網(wǎng)絡(luò)模塊
卷積神經(jīng)網(wǎng)絡(luò)模塊采用深度可分離卷積替代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),可以有效降低網(wǎng)絡(luò)的參數(shù)量,提高計(jì)算效率,如圖4所示。Conformer 的卷積神經(jīng)網(wǎng)絡(luò)模塊考慮先采用門(mén)控機(jī)制對(duì)特征進(jìn)行非線性變換,以有效過(guò)濾噪聲以及無(wú)關(guān)信息,提高模型對(duì)語(yǔ)音信號(hào)的特征提取能力[22]。然后采用深度可分離卷積(depthwise separable convolutions)替代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),能夠在有效降低網(wǎng)絡(luò)參數(shù)量的前提下獲得相近的卷積效果,提高模型的計(jì)算效率[24]。其中,逐深度卷積只關(guān)注每個(gè)通道內(nèi)序列之間的依賴關(guān)系,不關(guān)注不同通道之間的依賴;而逐點(diǎn)卷積關(guān)注了不同通道之間的依賴關(guān)系,不關(guān)注通道內(nèi)的依賴。通過(guò)兩種卷積的組合,可以在減少參數(shù)量的同時(shí),實(shí)現(xiàn)傳統(tǒng)卷積的效果。
1.3頻域全局特征嵌入模塊
自注意力機(jī)制能夠在時(shí)域提取語(yǔ)音信號(hào)的相關(guān)性,關(guān)注語(yǔ)音的全局時(shí)序信息??紤]帕金森語(yǔ)音的頻域信息,采用語(yǔ)音信號(hào)處理算法提取相關(guān)特征也是帕金森語(yǔ)音診斷領(lǐng)域的重要方法[25]?;诖?,本文利用時(shí)頻信息融合方法[26],結(jié)合時(shí)域和頻域兩個(gè)維度的特征,提高模型對(duì)帕金森語(yǔ)音的特征提取能力。
帕金森病患者在發(fā)音時(shí),往往無(wú)法很好地控制清、濁音的轉(zhuǎn)換,且存在基頻變化較小的特點(diǎn),本文利用DisVoice語(yǔ)音特征提取庫(kù)[27],引入多種相關(guān)特征,包括:基頻包絡(luò)、濁音段的基頻、基頻擾動(dòng)Jitter、頻率微擾商(pitch perturbation quotient, PPQ)、清濁音段的對(duì)數(shù)能量等。對(duì)于上述特征,分別在一段語(yǔ)音中計(jì)算其均值、標(biāo)準(zhǔn)差、偏度和峰度四種統(tǒng)計(jì)度量,最終得到103維的頻域全局特征。將頻域特征進(jìn)行歸一化處理,經(jīng)過(guò)特征映射全連接層嵌入本文模型生成的256維時(shí)域特征表示中,得到長(zhǎng)度為320維的時(shí)頻融合特征。采用多層全連接層對(duì)時(shí)頻域特征進(jìn)行信息融合,提高模型對(duì)語(yǔ)音信號(hào)的特征提取能力,如圖5所示。
2實(shí)驗(yàn)及結(jié)果分析
2.1數(shù)據(jù)集
本文使用了2個(gè)語(yǔ)音數(shù)據(jù)集,包括公開(kāi)的MDVR-KCL帕金森病語(yǔ)音數(shù)據(jù)集[28]和本課題組自采的帕金森病中文語(yǔ)音數(shù)據(jù)集。
MDVR-KCL數(shù)據(jù)集是由倫敦國(guó)王學(xué)院(King′s College London, KCL)醫(yī)院在2017年使用智能手機(jī)與受試者進(jìn)行語(yǔ)音通話采集的帕金森病語(yǔ)音數(shù)據(jù)集,并且保證所有通話均在安靜的室內(nèi)環(huán)境中進(jìn)行。受試者包括16名帕金森病患者(PD)和21名健康人(healthy controls, HC)。采集內(nèi)容包括朗讀一段內(nèi)容確定的文本,以及與研究人員進(jìn)行自發(fā)的對(duì)話。本文采用文本數(shù)據(jù)集,包含16條帕金森病患者語(yǔ)音和21條健康人語(yǔ)音。
自采帕金森數(shù)據(jù)集是由本課題組與南京醫(yī)科大學(xué)附屬老年醫(yī)院的帕金森診療中心合作采集。受試者包含46位帕金森病患者(30位男性,16位女性)和18位健康人(8位男性,10位女性)。對(duì)未患有帕金森病的年齡匹配的受試者進(jìn)行其他疾病的詢問(wèn)評(píng)估,以避免聲帶病變對(duì)實(shí)驗(yàn)結(jié)果造成影響。該數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。數(shù)據(jù)采集均在安靜的室內(nèi)環(huán)境進(jìn)行,要求受試者以正常語(yǔ)速和說(shuō)話響度朗讀一段固定內(nèi)容的文本。最終得到46條帕金森病患者語(yǔ)音和18條健康人語(yǔ)音。
2.2實(shí)驗(yàn)條件及過(guò)程
本實(shí)驗(yàn)使用Python語(yǔ)言基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)所有算法。在本實(shí)驗(yàn)中,對(duì)所有的帕金森病語(yǔ)音數(shù)據(jù)經(jīng)剪輯后得到5s左右的語(yǔ)音片段,并提取30維的MFCC特征,采用幀長(zhǎng)為25ms和幀移為10ms的滑動(dòng)窗口對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,同時(shí)使用Librosa音頻處理庫(kù)去除語(yǔ)音首尾的靜音幀。此外,對(duì)所有語(yǔ)音樣本均進(jìn)行下采樣到16 kHz。實(shí)驗(yàn)采用五折交叉驗(yàn)證方法,基于預(yù)訓(xùn)練模型,微調(diào)模型5個(gè)epoch。取5次交叉驗(yàn)證的結(jié)果求均值,作為最終的實(shí)驗(yàn)結(jié)果。
為驗(yàn)證算法的有效性,本文使用準(zhǔn)確率(acc)、敏感度(sen)、特異度(spe)和AUC(area under ROC curve)作為實(shí)驗(yàn)結(jié)果的評(píng)估準(zhǔn)則,其中加粗?jǐn)?shù)字表示在該度量指標(biāo)上呈現(xiàn)最優(yōu)的結(jié)果。
2.3實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文方法的有效性,分別在MDVR-KCL數(shù)據(jù)集和自采帕金森數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),并采用S-vectors模型、X-vectors模型以及ResNet18模型作為基線模型。其中ResNet18基線模型將語(yǔ)音信號(hào)的梅爾聲譜圖作為模型輸入[7],且ResNet18為公開(kāi)預(yù)訓(xùn)練的深度圖像處理模型。其余模型均將30維MFCC特征作為輸入,且先在Common Voice數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)結(jié)果如表2和表3所示。其中本文-fc3表示將頻域特征嵌入到全連接層-3輸出的特征向量中,本文-fc4表示將頻域特征嵌入到全連接層-4輸出的特征向量中。
從表2和3中可以看出,本文方法在多數(shù)度量指標(biāo)上明顯優(yōu)于基線模型,并且在兩個(gè)不同的數(shù)據(jù)集上的結(jié)論具有一致性,由此可以驗(yàn)證方法的有效性。實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)的S-vectors和X-vectors模型,所提模型能夠利用自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)更好地提取語(yǔ)音的全局特征和細(xì)粒度局部特征,且時(shí)頻域信息融合能夠從兩個(gè)語(yǔ)音特征維度提高帕金森病語(yǔ)音檢測(cè)的效果。而S-vectors僅采用Transformer編碼器提取語(yǔ)音的全局特征,可能難以捕捉短時(shí)變化的細(xì)粒度信息。此外,可以看出,將頻域特征嵌入全連接層-3輸出的特征向量中,能夠更好地提高語(yǔ)音檢測(cè)的效果。這是因?yàn)殡p層全連接層可以更好地?cái)M合時(shí)頻域融合特征與標(biāo)簽間可能存在的非線性關(guān)系。
表4對(duì)比了不同模型參數(shù)設(shè)置下在MDVR-KCL數(shù)據(jù)集上的對(duì)比結(jié)果。從表中可以看出,相較于三層編碼層,編碼層數(shù)設(shè)置為2時(shí)模型具有更好的性能。這是因?yàn)閮蓪右陨系木幋a層會(huì)導(dǎo)致模型參數(shù)規(guī)模過(guò)大,容易造成過(guò)擬合,最終影響語(yǔ)音檢測(cè)性能。此外,注意力頭數(shù)設(shè)置為4時(shí)能夠?qū)W習(xí)更多維度的特征信息。
為進(jìn)一步驗(yàn)證本文方法的有效性,在MDVR-KCL數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),評(píng)估自注意力機(jī)制(Module1)、相對(duì)位置編碼(Module2)、卷積模塊(Module3)以及頻域全局特征嵌入模塊(Module4)對(duì)帕金森病語(yǔ)音檢測(cè)的效果。實(shí)驗(yàn)結(jié)果如表5所示。
從表5中可以看出,在分別去除自注意力機(jī)制和相對(duì)位置編碼的情況下,模型的性能受到了較大的影響,此時(shí)模型僅依賴卷積模塊提取細(xì)粒度局部特征,難以學(xué)習(xí)濁音起始時(shí)間較短且清、濁音轉(zhuǎn)換次數(shù)變化等全局時(shí)序信息。此外,卷積模塊及頻域全局特征嵌入模塊的去除,均在一定程度上降低了帕金森病語(yǔ)音檢測(cè)的效果。
3結(jié)論
本文提出了一種基于語(yǔ)音信號(hào)時(shí)頻特征融合的帕金森病檢測(cè)方法,針對(duì)帕金森病患者的長(zhǎng)句語(yǔ)料,將Conformer的編碼器模塊引入S-vectors模型提取時(shí)域特征。并且將與帕金森病語(yǔ)音檢測(cè)相關(guān)的頻域全局特征嵌入時(shí)域特征中,通過(guò)時(shí)頻信息融合提高了模型對(duì)語(yǔ)音信號(hào)的特征提取能力。最后在兩個(gè)數(shù)據(jù)集上驗(yàn)證了方法的有效性。下一步的研究工作將關(guān)注利用時(shí)頻特征融合結(jié)合多任務(wù)學(xué)習(xí)進(jìn)行帕金森病的病情嚴(yán)重程度的評(píng)估。
參考文獻(xiàn):
[1]BENBA A, JILBAB A, SANDABAD S, et al. Voice signal processing for detecting possible early signs of Parkinson′s disease in patients with rapid eye movement sleep behavior disorder[J]. International journal of speech technology, 2019, 22(1): 121-129.
[2]NARENDRA N P, SCHULLER B, ALKU P. The detection of parkinson′s disease from speech using voice source information[J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 1925-1936.
[3]張小恒, 張馨月, 李勇明, 等. 面向帕金森病語(yǔ)音診斷的非監(jiān)督兩步式卷積稀疏遷移學(xué)習(xí)算法[J]. 電子學(xué)報(bào), 2022, 50(1):177-184.
ZHANG X H, ZHANG X Y, LI Y M, et al. An unsupervised two-step convolution sparse transfer learning algorithm for parkinson′s disease speech diagnosis[J]. Acta electronica sinica, 2022, 50(1):177-184.
[4] TSANAS A. Accurate telemonitoring of parkinson′s disease symptom severity using nonlinear speech signal processing and statistical machine learning[D]. Oxford: Oxford University, 2012.
[5]彭濤, 鄭傳錕, 張自力, 等. 基于時(shí)空特征融合的語(yǔ)音情感識(shí)別[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 54(4):42-48.
PENG T, ZHENG C K, ZHANG Z L, et al. Speech emotion recognition based on spatio-temporal feature fusion[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(4):42-48.
[6]SHABAN M. Deep learning for parkinson′s disease diagnosis: a short survey[J]. Computers, 2023, 12(3): 58.
[7]VASQUEZ-CORREA J C, ARIAS-VERGARA T, KLUMPP P, et al. End-2-end modeling of speech and gait from patients with parkinson′s disease: comparison between high quality vs. smartphone data[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2021: 7298-7302.
[8]ER M B, ISIK E, ISIK I. Parkinson′s detection based on combined CNN and LSTM using enhanced speech signals with Variational mode decomposition[J]. Biomedical signal processing and control, 2021, 70: 103006.
[9]KARAMAN O, AKN H, ALHUDHAIF A, et al. Robust automated Parkinson disease detection based on voice signals with transfer learning[J]. Expert systems with applications, 2021, 178: 115013.
[10]季薇, 楊茗淇, 李云, 等. 基于掩蔽自監(jiān)督語(yǔ)音特征提取的帕金森病檢測(cè)方法[J]. 電子與信息學(xué)報(bào), 2023, 45: 1-9.
JI W, YANG M Q, LI Y, et al. Parkinson′s Disease detection method based on masked self-supervised speech feature extraction[J]. Journal of electronics & information technology, 2023, 45: 1-9.
[11]SAKAR B E, ISENKUL M E, SAKAR C O, et al. Collection and analysis of a parkinson speech dataset with multiple types of sound recordings[J]. IEEE journal of biomedical and health informatics, 2013, 17(4): 828-834.
[12]范萍, 顧文濤, 劉衛(wèi)國(guó). 漢語(yǔ)帕金森癥患者的語(yǔ)音聲學(xué)特征分析[J]. 中國(guó)語(yǔ)音學(xué)報(bào), 2018(1): 19-25.
FAN P, GU W T, LIU W G. Acoustic analysis of mandarin speech in patients with parkinson′s disease[J]. Chinese journal of phonetics, 2018(1): 19-25.
[12]范萍, 顧文濤, 劉衛(wèi)國(guó). 漢語(yǔ)帕金森癥患者的語(yǔ)音聲學(xué)特征分析[J]. 中國(guó)語(yǔ)音學(xué)報(bào), 2018(1): 19-25.
FAN P, GU W T, LIU W G. Acoustic analysis of mandarin speech in patients with parkinson′s disease[J]. Chinese journal of phonetics, 2018(1): 19-25.
[13]DONG L H, XU S, XU B. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5884-5888.
[14]GULATI A, QIN J, CHIU C C, et al. Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-16)[2022-12-10].https:∥arxiv.org/abs/2005.08100.pdf.
[15]SNYDER D, GARCIA-ROMERO D, SELL G, et al. X-vectors: robust DNN embeddings for speaker recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5329-5333.
[16]MORO-VELAZQUEZ L, VILLALBA J, DEHAK N. Using X-vectors to automatically detect parkinson′s disease from speech[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2020: 1155-1159.
[17]MARY N J M S, UMESH S, KATTA S V. S-vectors and TESA: speaker embeddings and a speaker authenticator based on transformer encoder[J]. IEEE/ACM transactions on audio, speech, and language processing, 2022, 30: 404-413.
[18]ARDILA R, BRANSON M, DAVIS K, et al. Common voice: a massively-multilingual speech corpus[EB/OL]. (2019-12-13)[2022-12-10]. https:∥arxiv.org/abs/1912.06670.pdf.
[19]QUAN C Q, REN K, LUO Z W. A deep learning based method for parkinson′s disease detection using dynamic features of speech[J]. IEEE access, 2021, 9: 10239-10252.
[20]DAI Z H, YANG Z L, YANG Y M, et al. Transformer-XL: attentive language models beyond a fixed-length context[EB/OL]. (2019-01-09)[2022-12-10]. https:∥arxiv.org/abs/1901.02860.pdf.
[21]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[22]WU Z H, LIU Z J, LIN J, et al. Lite transformer with long-short range attention[EB/OL]. (2020-04-24) [2022-12-10]. https:∥arxiv.org/abs/2004.11886.pdf.
[23]DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]∥Proceedings of the 34th International Conference on Machine Learning. New York: ACM Press, 2017: 933-941.
[24]CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1800-1807.
[25]SAKAR B E, ISENKUL M E, SAKAR C O, et al. Collection and analysis of a parkinson speech dataset with multiple types of sound recordings[J]. IEEE journal of biomedical and health informatics, 2013, 17(4): 828-834.
[26]姜振宇, 黃雁勇, 李天瑞, 等. 基于時(shí)頻融合卷積神經(jīng)網(wǎng)絡(luò)的股票指數(shù)預(yù)測(cè)[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 54(2):81-88.
JIANG Z Y, HUANG Y Y, LI T R, et al. Fusion of time-frequency-based convolutional neural network in financial time series forecasting[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(2):81-88.
[27]OROZCO-ARROYAVE J R, VSQUEZ-CORREA J C, VARGAS-BONILLA J F, et al. NeuroSpeech: an open-source software for Parkinson′s speech analysis[J]. Digital signal processing, 2018, 77: 207-221.
[28]JAEGER H, TRIVEDI D, STADTSCHNITZER M. Mobile device voice recordings at King′s college london (MDVR-KCL) from both early and advanced Parkinson′s disease patients and healthy controls[EB/OL]. (2019-05-17)[2022-12-10].https://zenodo.org/records/zenodo.2867216.