基于語譜圖的江西境內(nèi)贛方言自動(dòng)分區(qū)研究

2021-05-27 06:14:20顏為之王明文但揚(yáng)杰

中文信息學(xué)報(bào) 2021年4期

顏為之，王明文，徐凡，但揚(yáng)杰，羅健

(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院，江西南昌 330022)

0 引言

漢語方言的變化與人類歷史的變遷、社會活動(dòng)有著密切的關(guān)系。某一地域的方言與其歷史方言的關(guān)系紛繁復(fù)雜，有的是在其歷史方言的基礎(chǔ)上傳承演變而來，有的是由于戰(zhàn)爭動(dòng)亂、人類遷徙等原因消亡，有的語音已經(jīng)發(fā)生明顯變化卻依舊保留歷史特征[1]。其中，方言的分區(qū)是文化交互的內(nèi)在關(guān)系的實(shí)質(zhì)體現(xiàn)。現(xiàn)代語言學(xué)中主流的方言分區(qū)以語言因素為重要依據(jù)，在對方言語音、方言詞匯以及方言語法進(jìn)行充分的調(diào)查研究基礎(chǔ)上，通過古今語音比較的方式，輔以社會歷史背景方面的資料，并結(jié)合地理類型和行政區(qū)域等其他因素，根據(jù)各地方言中表現(xiàn)出來的語言特征對方言片區(qū)進(jìn)行劃分。語言的復(fù)雜性造成了方言分區(qū)在原則、依據(jù)和條件等方面的不統(tǒng)一，使得現(xiàn)代語言學(xué)家對方言片區(qū)的人工劃分持有不同意見[2-6]。計(jì)算機(jī)自動(dòng)分區(qū)通過采用自然科學(xué)方法，為方言的分區(qū)提供了客觀的數(shù)據(jù)參照，對提高方言識別精度有著重要作用，對發(fā)掘方言文化的內(nèi)涵關(guān)系具有進(jìn)步意義。

贛方言(贛語)是中國漢語七大方言之一，為漢族江右民系使用的主要語言，使用范圍主要在江西省境內(nèi)，分布在贛江的中下游、撫河流域、鄱陽湖流域及其周邊、湘東和閩西北、皖西南、鄂東南和湘西南等地區(qū)，使用人口約5 500萬左右。目前，現(xiàn)代語言學(xué)家對江西省境內(nèi)贛方言(以下簡稱贛方言)分區(qū)的主流方案都是采用人工劃分方式[7-11]，主要采用方言詞匯和語法特點(diǎn)進(jìn)行人工分區(qū)。在漢語方言與計(jì)量研究上，先后有學(xué)者發(fā)表了一些頗有影響的文章和專著[12-17]，這些文獻(xiàn)都從理論和實(shí)踐兩方面對計(jì)量研究在漢語方言關(guān)系研究中的地位、作用和意義作了探討。近年來，部分學(xué)者開始在漢語方言的分區(qū)上嘗試采用計(jì)量分析方法，通過聚類分析對現(xiàn)有方言的語音特征進(jìn)行方言的分類或方言分區(qū)。而在如何利用計(jì)算機(jī)自動(dòng)提取方言的語音特征，并對其進(jìn)行聚類分析鮮有文獻(xiàn)著作。

基于此，本文首先構(gòu)建了江西省11個(gè)省轄市，91個(gè)下轄縣級行政區(qū)的時(shí)長約1 500分鐘的1 223條語音語料庫。然后分別提取方言語音中梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)特征以及語譜圖兩種不同的語音特征。針對語音特征提取的維度過大問題，在MFCC特征上采取了PCA(principle component analysis)降維處理，在語譜圖特征上采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)系統(tǒng)的自編碼降維處理。對降維后的語音特征分別采用k-均值算法聚類、高斯混合聚類和層次聚類對方言自動(dòng)分區(qū)，并采用聚類性能度量指標(biāo)評價(jià)聚類效果。實(shí)驗(yàn)結(jié)果表明，新型語譜圖特征的聚類性能度量內(nèi)部指標(biāo)DBI以及DI指數(shù)顯著優(yōu)于傳統(tǒng)MFCC特征，維度為16時(shí)語譜圖和MFCC下拼接特征的聚類效果與傳統(tǒng)人工方言分區(qū)較為接近。

本文組織結(jié)構(gòu)安排如下：第1節(jié)介紹贛方言分區(qū)的相關(guān)工作；第2節(jié)介紹本文采集的贛方言語音語料庫；第3節(jié)詳細(xì)闡述本文使用的兩種語音特征及聚類算法；第4節(jié)描述在不同算法下的實(shí)驗(yàn)結(jié)果和分析；第5節(jié)是結(jié)論及后續(xù)工作展望部分。

1 相關(guān)工作

本節(jié)對方言的人工分區(qū)方法、計(jì)量分區(qū)方法以及語音的特征提取進(jìn)行簡要介紹。

1.1 人工分區(qū)方法

針對江西省境內(nèi)贛方言(以下簡稱贛方言)的分區(qū)，顏森將其劃為5個(gè)片區(qū)，分別是昌靖片、宜萍片、吉蓮片、鷹弋片和撫廣片，分區(qū)標(biāo)準(zhǔn)既采取了語音標(biāo)準(zhǔn)，也采取了詞匯標(biāo)準(zhǔn)[7]。李如龍將其劃為3個(gè)片區(qū)，分別為贛東區(qū)、贛中區(qū)和贛北區(qū)，分區(qū)標(biāo)準(zhǔn)主要以詞匯為標(biāo)準(zhǔn)，根據(jù)相同詞匯的接近總數(shù)的多少來分區(qū)[8]。劉綸鑫將贛方言劃為5個(gè)片區(qū)，分別是波陽片、宜春片、臨川片、都昌片和奉新片，分區(qū)標(biāo)準(zhǔn)主要采取了綜合標(biāo)準(zhǔn)，將語音、詞匯和語法特點(diǎn)綜合考慮[9]。孫宜志等人將其劃為南北兩大區(qū)，共7個(gè)小片區(qū)，北區(qū)包括都昌片、樂平片和奉新片，南區(qū)包括崇仁片、鉛山片、泰和片和分宜片，分區(qū)標(biāo)準(zhǔn)主要采取了語音標(biāo)準(zhǔn)，也考慮了自然地理和行政區(qū)劃的關(guān)系[10]。謝留文在前任學(xué)者基礎(chǔ)上將贛方言劃為9個(gè)片區(qū)，分別是昌靖片、宜瀏片、吉茶片、撫廣片、鷹弋片、大通片、耒資片、洞綏片和懷岳片，分區(qū)標(biāo)準(zhǔn)主要采取了語音標(biāo)準(zhǔn)劃分[11]。這些研究運(yùn)用了傳統(tǒng)的語言學(xué)方法，通過田野調(diào)查收集語料。由于研究者采取的分區(qū)依據(jù)存在個(gè)體差異，導(dǎo)致贛方言片區(qū)劃分不一致問題的出現(xiàn)。

1.2 計(jì)量分區(qū)方法

從20世紀(jì)70年代初開始，鄭錦全、陸致極、陳海倫、王士元等語言學(xué)家將計(jì)量方法應(yīng)用于漢語方言研究，討論了方言關(guān)系的材料和計(jì)量單位問題，區(qū)分了方言的親疏關(guān)系和親緣關(guān)系，并在方言上進(jìn)行了不同計(jì)量方法的實(shí)踐和研究[12-17]?，F(xiàn)代語言學(xué)家對贛方言分區(qū)的主流方案主要是根據(jù)方言詞匯和語法特點(diǎn)，結(jié)合行政地理特征進(jìn)行人工分區(qū)。近幾年，已有部分學(xué)者開始嘗試采用計(jì)量分析方法對漢語方言分區(qū)進(jìn)行研究，例如，項(xiàng)夢冰的沂南方言分區(qū)[18]、王榮波等人的江淮官話洪巢片分區(qū)[19]等，主要采取聚類分析的方法對現(xiàn)有方言的語音特征進(jìn)行方言的分類或方言分區(qū)。而在如何利用計(jì)算機(jī)自動(dòng)提取方言的語音特征，并對其進(jìn)行聚類分析鮮有文獻(xiàn)。

1.3 語音特征提取方法

語言特征提取是從說話人語音信號中獲得能夠描述語音信號特征參數(shù)的過程，是語音識別過程中至關(guān)重要的一步?，F(xiàn)有的特征提取方法包括線性預(yù)測編碼提取(linear predictive coding，LPC)[20]、線性預(yù)測倒譜系數(shù)提取(linear predictive cepstral coefficient，LPCC)[21]以及梅爾頻率倒譜系數(shù)提取(Mel frequency cepstral coefficents，MFCC)[22]等。

20世紀(jì)90年代初，潘凌云等人[23]就提出了使用語譜圖進(jìn)行語音實(shí)驗(yàn)，利用語譜圖密度變化的形變函數(shù)，以及自適應(yīng)閾值技術(shù)來定位每個(gè)音素段的邊緣，實(shí)驗(yàn)所得結(jié)果與語音學(xué)家分割的結(jié)果進(jìn)行比較,得到的識別率高于93%。近幾年，語譜圖特征的應(yīng)用也較為廣泛，如文獻(xiàn)[24]提出將語譜圖特征應(yīng)用于語音情感識別，文獻(xiàn)[25]將語譜圖輸入到有生物視覺依據(jù)的人工神經(jīng)網(wǎng)絡(luò)——脈沖耦合神經(jīng)網(wǎng)絡(luò)，得到輸出圖像的時(shí)間序列及其熵序列作為說話人語音的特征,利用其不變性實(shí)現(xiàn)說話人識別等。

2 贛方言語音語料庫

本節(jié)主要介紹贛方言語音語料庫的采集工作。

2.1 語料庫設(shè)計(jì)

如何選取錄音文本語料，是語料庫建庫工作的關(guān)鍵。為了保證語料庫的質(zhì)量，體現(xiàn)方言語料的特點(diǎn)，在語料庫構(gòu)建之前，本文按照以下原則選取了語料庫的文本語料：①語料庫中的單字、詞盡量涵蓋聲韻現(xiàn)象，以便更好地反映該方言語音的音系特征；②語料庫中的詞匯以漢語調(diào)查常用表為基礎(chǔ)，選取了具備客贛方言特色的口語語料，以便更加符合語音識別面對的真實(shí)情形；③語料庫中的句子在內(nèi)容和語義上盡量保證完整，能夠盡可能地反映一個(gè)句子的韻律信息；④要求發(fā)音人在自然狀態(tài)下說方言，從而反映語音特征[26-31]。本文依據(jù)此原則，參照國際上語音語料庫的設(shè)計(jì)標(biāo)準(zhǔn)，結(jié)合漢語方言之間的差異性，選取了江西省11個(gè)省轄市、91個(gè)下轄縣級行政區(qū)進(jìn)行錄音采樣(圖1)。

圖1 方言點(diǎn)采樣

在確定方言點(diǎn)之后錄制語料。說話人選擇的是生活或居住在方言采集點(diǎn)10年以上的高校新生，包含學(xué)生姓名、性別、出生年月、出生地、現(xiàn)居住地、方言區(qū)生活時(shí)間和錄音時(shí)長。該方言語音語料庫將語音中的性別、年齡、地域等信息用于語音識別和方言特征識別等研究。例如，姓名：某某某；性別：女；出生年份：2000年；民族：漢族；出生地：九江市星子縣南康鎮(zhèn)迎春橋；現(xiàn)居住地：九江市星子縣南康鎮(zhèn)黃泥嶺；在方言區(qū)居住年數(shù)：18年；方言所在地經(jīng)緯度：東經(jīng)116.051 7,北緯29.462 04；錄音1時(shí)長：37s；錄音2時(shí)長：34s。

方言語料采集參與人數(shù)共740人，其中男性186人，占比25.1%；女性554人，占比74.9%。17至20歲學(xué)生人數(shù)為537人，占72.6%；錄制語音1 223條，時(shí)長約1 500分鐘；錄音人最大年紀(jì)91歲，最小年紀(jì)16歲；方言居住地居住最長84年，最短10年；方言點(diǎn)南昌地區(qū)錄音人數(shù)78人，九江地區(qū)64人，上饒地區(qū)62人，撫州地區(qū)38人，宜春地區(qū)111人，吉安地區(qū)134人，贛州地區(qū)158人，景德鎮(zhèn)地區(qū)29人，萍鄉(xiāng)地區(qū)31人，新余地區(qū)16人，鷹潭地區(qū)29人。地域分布基本符合方言分區(qū)的均勻采樣原則。最終，用于實(shí)驗(yàn)的下轄縣級行政區(qū)個(gè)數(shù)76個(gè)，用于特征提取的有效錄音936條。

3 贛方言語音特征提取及自動(dòng)分區(qū)

本節(jié)主要描述語譜圖的特征提取及基于CNN的自編碼器降維、MFCC特征的提取和PCA降維以及所采用的聚類算法。

3.1 語譜圖及基于CNN的自編碼器降維描述

首先提取每一條語音文件的音頻參數(shù)，例如，聲道數(shù)(nchannels:1)、量化位數(shù)(sampwidth:2)、采樣頻率(framerate:16 000)、采樣點(diǎn)數(shù)(nframes:不同長度語音采樣點(diǎn)數(shù)不同，大概范圍為300 000～910 000)。將這些得到的語音參數(shù)(字符串類型)轉(zhuǎn)化為整型參數(shù)并且進(jìn)行歸一化處理，可以得到語音的幀長和幀疊點(diǎn)數(shù)等參數(shù)。最后將這些參數(shù)作為輸入得到對應(yīng)語音的語譜圖。

為了對語譜圖特征進(jìn)行降維，本文構(gòu)造了基于卷積神經(jīng)網(wǎng)絡(luò)的自編碼降維系統(tǒng)。自編碼器(autoencoder)是一種利用反向傳播算法使得輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò)，它先將輸入壓縮成潛在空間表征，然后通過這種表征來重構(gòu)輸出。本文使用自編碼器提取語譜圖的瓶頸特征，輸入是原始語譜圖，輸出是生成的語譜圖。自編碼器由編碼器和解碼器組成，編碼器將語譜圖壓縮成瓶頸特征，解碼器將瓶頸特征還原成語譜圖。

本文所使用的CNN網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層(input layer)、卷積層(conv layer)、編碼層(encoder layer)、解碼層(decoder layer)、最大池化層(max pool)、和輸出層(output layer)。語譜圖自編碼器的結(jié)構(gòu)如圖2所示。

圖2 語譜圖自編碼器的結(jié)構(gòu)

從圖2可以看出，輸入層輸入的是由語音文件產(chǎn)生的對應(yīng)語譜圖，輸出層最后輸出每一個(gè)語譜圖對應(yīng)的編碼層和解碼層計(jì)算后的特征向量。編碼器由兩層卷積層、兩層最大池化層和3層全連接層組成，兩層卷積層的卷積核大小為3×3和2×2，步長為(1,1)、(2,2)。其中第一層卷積核數(shù)量為8，第二層卷積核數(shù)量為4。兩層最大池化層的卷積核大小均為2×2，步長均為2。卷積層不改變圖像的大小，最大池化層將圖像長、寬減半。三層全連接層分別將數(shù)據(jù)降維到64維、16維和3維，其中3維是瓶頸特征的大小。解碼器由三層全連接層和一層反卷積層組成，三層全連接層分別將3維的瓶頸特征升維到16、64，解碼器第二層池化后的維度(記此特征為Linear_3)，再經(jīng)過一層反卷積將Linear_3還原至語譜圖。本文使用L1計(jì)算輸入語譜圖與生成語譜圖之間的損失。通過Adam算法更新模型參數(shù)，同時(shí)學(xué)習(xí)率設(shè)置為0.001。

3.2 MFCC特征及PCA降維描述

本文將每一個(gè)語音信號首先分幀處理，將信號幀化為15 ms/幀，幀移為10 ms，對每幀進(jìn)行快速離散傅里葉變換(fast Fourier transformation，F(xiàn)FT)，從時(shí)域數(shù)據(jù)轉(zhuǎn)變?yōu)轭l域數(shù)據(jù)能量分布來觀察。對FFT的數(shù)據(jù)計(jì)算譜線的能量，得到向量特征，在梅爾域內(nèi)能量譜經(jīng)三角帶通濾波器后得到26個(gè)對數(shù)濾波器組能量。最后，采用26個(gè)對數(shù)濾波輸出經(jīng)過離散余弦變換(discrete cosine transform，DCT)，得到每幀語音的13維的MFCC特征向量。其中，1s的語音按照幀移為10ms來計(jì)算，可以切分出100幀，每幀的特征向量是13維，即長度為1s的語音得到的特征向量長度為1 300維。如此高維的特征向量對于聚類來說計(jì)算量巨大。因此，本文使用PCA方法對MFCC的高維特征進(jìn)行降維處理(圖3)。主成分分析PCA也稱主分量分析，它是一種將原有的多個(gè)變量通過線性變換轉(zhuǎn)化為少數(shù)幾個(gè)新的綜合變量的統(tǒng)計(jì)分析方法。這些新變量互不相關(guān)，即能有效地表示原變量的信息，也在降維之后依然能夠最大化保持?jǐn)?shù)據(jù)的內(nèi)在信息。MFCC特征在經(jīng)過PCA處理后，既減少了后續(xù)聚類分析工作的運(yùn)算量，又降低了數(shù)據(jù)的存儲量，同時(shí)還對語音的特征參數(shù)進(jìn)行了最優(yōu)化。

圖3 MFCC特征提取及PCA處理過程

3.3 聚類分析

聚類是將沒有分類的標(biāo)簽數(shù)據(jù)集分為若干個(gè)簇的過程，是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法。聚類分析的過程則是將聚類對象的數(shù)據(jù)集進(jìn)行特征的選擇或變換，再通過聚類算法得出結(jié)果進(jìn)行評價(jià)。綜上所述，本文將采集到的贛方言語音語料進(jìn)行預(yù)處理，提取每條語音的MFCC特征和語譜圖特征，作為聚類分析的特征，并對特征進(jìn)行降維處理。由于特征的選擇并不會改變其原有屬性，所以結(jié)果只是一個(gè)原始屬性的優(yōu)化特征子集，保留了原屬性的物理意義。聚類簇的選擇依靠聚類結(jié)束準(zhǔn)則函數(shù)，所以，這種準(zhǔn)則函數(shù)一般由人為設(shè)定的終止條件實(shí)現(xiàn)。本文在傳統(tǒng)語言學(xué)家對贛方言分類的基準(zhǔn)上，人工將聚類簇定為3、5、7、9類，并分別采用傳統(tǒng)的k-means聚類，語言特征常用的層次聚類和語音識別常用的GMM聚類方法進(jìn)行比較。

4 實(shí)驗(yàn)結(jié)果及分析

本節(jié)描述性能評價(jià)指標(biāo)，不同語音特征下的聚類結(jié)果及對比分析。

4.1 性能評價(jià)指標(biāo)

本文使用聚類性能度量內(nèi)部指標(biāo)來評價(jià)不同聚類方法的效果。常用的內(nèi)部指標(biāo)有DB指數(shù)(Davies-Bouldin Index，DBI)和Dunn指數(shù)(Dunn Index，DI)，如式(1)、式(2)所示。

① DBI

(1)

② DI

(2)

上述公式中，avg(Ci,Cj)表示某一聚類簇內(nèi)部樣本點(diǎn)距離的均值；diam(Ci,Cj)表示聚類簇Ci，Cj中樣本間的最大距離；dmin(Ci,Cj)表示聚類簇Ci與Cj間的最小樣本距離；dcen(μi,μj)對應(yīng)于簇μi與μj中心點(diǎn)之間的距離。對每一個(gè)方言類別，計(jì)算與其他方言類的最大相似度值，也就是取出最差結(jié)果，然后對所有類的最大相似度取均值就得到了DBI指數(shù)。其中,DBI的值越小說明類內(nèi)距離越小,同時(shí)類間距離越大,而 DI則相反。

4.2 實(shí)驗(yàn)結(jié)果分析

本文依據(jù)上述工作，在收集的936條贛方言語音中按照每個(gè)下轄縣級行政區(qū)(76個(gè)下轄縣)對應(yīng)一條錄音的原則，隨機(jī)抽取76條語音進(jìn)行實(shí)驗(yàn)。表1及表2列出語譜圖和MFCC特征下的三種聚類方法的評價(jià)指標(biāo)的四種結(jié)果(字體加粗?jǐn)?shù)據(jù)為更優(yōu)數(shù)據(jù))。實(shí)驗(yàn)結(jié)果表明，3分類上，MFCC特征的DBI數(shù)據(jù)要優(yōu)于語譜圖特征；5分類上，MFCC特征的層次聚類效果優(yōu)于語譜圖特征的層次聚類效果?？傮w而言，語譜圖特征下的聚類效果要優(yōu)于MFCC特征的聚類效果。

表1 語譜圖特征在不同聚類下比較

表2 MFCC特征在不同聚類下比較

一條方言語音不僅反映了方言的音位系統(tǒng)、聲韻調(diào)系統(tǒng)、音節(jié)系統(tǒng)，還包含不同地域的有連續(xù)音變的多音詞的變調(diào)、變聲、變韻的規(guī)律。通過實(shí)驗(yàn)，MFCC下能發(fā)現(xiàn)語音特征中頻率的出現(xiàn)，卻無法得知該頻率出現(xiàn)的時(shí)間點(diǎn)。而語譜圖特征中則蘊(yùn)含了大量的與語音的語句特性有關(guān)的信息，它綜合了頻譜圖和時(shí)域波形的特點(diǎn)，明顯地顯示出語音頻譜隨時(shí)間的變化情況，對方言而言是一種很好的區(qū)分性特征。

4.3 實(shí)驗(yàn)對比

本文將MFCC特征與語譜圖特征進(jìn)行拼接，得出方言自動(dòng)分區(qū)的數(shù)據(jù)，并與語言學(xué)家的方言分區(qū)進(jìn)行對比。其中，MFCC主要關(guān)注聲學(xué)底層特征方面，而語譜圖主要考慮語音信號的能量(幅度譜)方面，拼接權(quán)重可以考察實(shí)驗(yàn)數(shù)據(jù)的分類性能，如式(3)所示。

其中，Vmfcc是mfcc特征的向量，Vyupu是語譜圖特征的向量，λ是權(quán)重。V是二者加權(quán)后最終的向量。實(shí)驗(yàn)結(jié)果表明，在16維的語譜圖權(quán)重為0.2和MFCC權(quán)重為0.8下層次聚類的拼接效果和語言學(xué)家分區(qū)最為接近。

本文以顏森[7]的方言分區(qū)為例進(jìn)行分析。5分類結(jié)果如表3所示，顏森的昌靖片和宜萍片在計(jì)算機(jī)的5分類中均勻分布；吉蓮片在1、3、5類中較為集中；撫廣片和鷹弋片在3、4、5類中較為集中。

表3 16維下語譜圖權(quán)重為0.2和MFCC權(quán)重為0.8層次聚類的拼接效果

顏森[7]將南昌市等14個(gè)市縣劃入昌靖片，并總結(jié)出該片區(qū)共同的兩個(gè)音系特點(diǎn)和若干特例。而本文將兩種語音特征進(jìn)行拼接，不同權(quán)重得出不同的聚類效果，如語譜圖特征權(quán)重為0.9的特征拼接下，新建、安義、德安、都昌以及湖口語音特征聚在一類；語譜圖特征權(quán)重為1的特征拼接下，修水、武寧、都昌和德安語音特征聚在一類。從江西地勢上而言，武寧、修水、奉新等地有九嶺山脈穿過，都昌、德安、永修等地繞鄱陽湖水域，南昌、新建、安義等地屬于省會城市區(qū)域范圍。

本文又以萍鄉(xiāng)市為例進(jìn)行分析，萍鄉(xiāng)地處江西省和湖南省的邊界地區(qū)，其內(nèi)部方言片分區(qū)傳統(tǒng)語言學(xué)家就有不同的意見。對萍鄉(xiāng)話的集中分區(qū)的代表有：顏森將萍鄉(xiāng)話分在宜萍片。對萍鄉(xiāng)話內(nèi)部離散的分區(qū)代表有：陳昌儀[32]將萍鄉(xiāng)話分在宜春片，將蓮花話分在吉安片；孫宜志等人[10]將萍鄉(xiāng)話分別分在北區(qū)的奉新片和南區(qū)的泰和片、宜春片；謝留文[11]將萍鄉(xiāng)市內(nèi)的萍鄉(xiāng)話、上栗話和蘆溪話分在宜瀏片區(qū)，蓮花話分在吉茶片區(qū)。萍鄉(xiāng)屬江西省下轄設(shè)區(qū)的地級市，下轄蓮花、上栗、蘆溪三縣和安源、湘東兩區(qū)。本文將語音特征提取距離和傳統(tǒng)的語言學(xué)家的方言分區(qū)的聚散做可行性分析比較。以語音特征距離為坐標(biāo)，計(jì)算機(jī)既能在語譜圖特征下將萍鄉(xiāng)地區(qū)的三縣兩區(qū)語音聚合(如圖4實(shí)心標(biāo)示所示)，也能在MFCC特征下將三個(gè)縣兩區(qū)分散(如圖4空心標(biāo)示所示)。

圖4 萍鄉(xiāng)方言在MFCC特征(空心)和語譜圖特征(實(shí)心)下的聚類效果

受水系、山脈等地理因素影響，傳統(tǒng)的方言調(diào)查方法受到極大的限制，如顏森[7]將同屬于鄱陽湖邊的湖口、彭澤、鄱陽三縣劃分在不同的分區(qū)。而計(jì)算機(jī)的自動(dòng)分區(qū)更關(guān)注語音本身特征的劃分，如本文實(shí)驗(yàn)的自動(dòng)分區(qū)所示，湖口、彭澤、鄱陽三縣都在同一個(gè)類別中，體現(xiàn)出語音的地理信息特征。因此，對比人工分區(qū)而言，計(jì)算機(jī)的自動(dòng)分區(qū)可以在語音特征的基礎(chǔ)上加入地理信息、行政區(qū)域等特征，填補(bǔ)傳統(tǒng)語言學(xué)研究方法上的不足，為具有爭議的方言分區(qū)提供一定的參考。

5 總結(jié)

采用計(jì)算機(jī)對漢語方言進(jìn)行自動(dòng)分區(qū)對語言學(xué)研究有著重要的印證作用。在語言工程領(lǐng)域，方言識別能夠?yàn)閹Э谝舻恼Z音識別、說話人識別等方面的研究打下良好基礎(chǔ)[33-34]。在信息查詢和檢索服務(wù)領(lǐng)域，方言的語音識別可以作為一個(gè)前端處理，預(yù)先區(qū)分用戶的方言類別，以便于接受不同方言的語音服務(wù)。

本文構(gòu)建了江西省范圍內(nèi)的贛方言語音語料庫，在傳統(tǒng)的語音特征提取基礎(chǔ)上，設(shè)計(jì)了基于語譜圖的深度學(xué)習(xí)模型提取特征。最后，通過聚類性能度量內(nèi)部指標(biāo)評價(jià)了不同聚類方法上的聚類效果。實(shí)驗(yàn)結(jié)果表明了語譜圖特征的有效性，維度為16時(shí)語譜圖特征下的聚類效果和傳統(tǒng)人工方言分區(qū)較為接近。后續(xù)的工作中，還將擴(kuò)大現(xiàn)有語料，并研究其他類型的學(xué)習(xí)模型對贛方言語音特征提取的作用，提高方言自動(dòng)分區(qū)精度。