李 鑫,侯 煒,計 哲,潘接林,顏永紅
(1.中國科學院大學,北京100049;2.中國科學院聲學研究所,北京100190;3.中國科學院語言聲學與內(nèi)容理解重點實驗室,北京100190;4.國家計算機網(wǎng)絡(luò)與信息安全管理中心,北京100029)
語音識別技術(shù)的目標是將人的語音自動轉(zhuǎn)換為文字。近年來,該技術(shù)不斷進步,開始從實驗室走向?qū)嵱?,出現(xiàn)了語音搜索服務(wù)、語音輸入法、家電的語音控制及音頻文件的關(guān)鍵詞檢測等應用。典型的基于統(tǒng)計的語音識別系統(tǒng)一般由特征提取模塊、聲學模型、語言模型、發(fā)音詞典和解碼器5個部分構(gòu)成。其中,發(fā)音詞典用于提供語言模型建模單元以及該單元對應的音素序列。在漢語或英語語音識別中,通常從文本語料中選擇高頻詞語作為詞典單元。
維吾爾語是一種黏著語,具有復雜的形態(tài)結(jié)構(gòu)。在維吾爾語中,可以通過在詞干后不斷結(jié)合附加成分構(gòu)成新的詞語。如果從文本語料中選擇高頻詞語構(gòu)成詞典,識別系統(tǒng)的集外詞比例將遠大于相同詞典規(guī)模的英語系統(tǒng)。為了緩解黏著語語音識別中集外詞過多的問題,通常選擇分解詞語得到的子詞作為語言模型建模單元。近十年來,在黏著語一遍識別系統(tǒng)的開發(fā)中,圍繞詞語分解方法和子詞單元選擇出現(xiàn)了大量的研究。對于匈牙利語,Szarvas[1]等使用該語言的形態(tài)分析器將詞語分解為語素,并采用這種語法語素作為識別單元。對于芬蘭語,Hirsim?ki[2]等采用最小描述長度準則對詞語進行無監(jiān)督切分,并使用切分得到的統(tǒng)計子詞作為識別單元。對于韓語,Kwon[3]等實現(xiàn)了基于語素的識別系統(tǒng),并通過基于規(guī)則或統(tǒng)計的語素合并來進一步提高系統(tǒng)性能。在土耳其語語音識別研究中,Hacioglu[4]等實現(xiàn)了基于語素和基于統(tǒng)計子詞的識別系統(tǒng),并根據(jù)互信息對相鄰子詞進行有選擇的合并,從而增加子詞語言模型的上下文長度;ArIsoy[5]等構(gòu)造了同時包含詞語、詞干-詞尾和語素的解碼詞典來發(fā)揮不同識別單元各自的優(yōu)點;Sak[6]等通過將土耳其語形態(tài)分析器與識別系統(tǒng)的加權(quán)有限狀態(tài)轉(zhuǎn)錄機進行復合來提高詞典對文本的覆蓋率。這些基于子詞的識別系統(tǒng)緩解了詞語系統(tǒng)集外詞過多的問題,使識別器的性能得到了改善。
在維吾爾語形態(tài)分析研究方面,早克熱·卡德爾[7]等實現(xiàn)了基于有限狀態(tài)自動機的名詞形態(tài)分析工具,可以將形態(tài)變化之后的名詞分解為詞干和附加成分;阿孜古麗·夏力甫[8]等采用同樣的思路實現(xiàn)了處理動詞體范疇形態(tài)變化的有限狀態(tài)自動機。目前尚未出現(xiàn)可自由獲得的完整的維吾爾語形態(tài)分析器,這給實現(xiàn)基于語素的語音識別系統(tǒng)帶來了困難。在維吾爾語語音識別方面,Tursun[9]等建立了維吾爾語朗讀語音數(shù)據(jù)庫和文本語料庫,并使用HTK實現(xiàn)了基于詞語的語音識別系統(tǒng),該工作還未涉及詞典單元的選擇問題。
Xerox Finite State Tools(XFST)[10]是一套有限狀態(tài)工具包,提供創(chuàng)建和操作有限狀態(tài)轉(zhuǎn)錄機的高級語言及編譯環(huán)境。在本文中,我們使用該工具包開發(fā)了基于有限狀態(tài)轉(zhuǎn)錄機的維吾爾語形態(tài)分析器,可用于將詞語分解為詞干和附加成分。赫爾辛基大學開發(fā)的基于最小描述長度準則的詞語切分工具Morfessor 1.0[11]可用于將維吾爾語詞語分解為統(tǒng)計子詞。我們分別選擇詞語、語素和統(tǒng)計子詞作為詞典單元構(gòu)建語音識別系統(tǒng),并在電話交談式語音轉(zhuǎn)寫任務(wù)上比較各個系統(tǒng)的性能。在此基礎(chǔ)上,我們提出了一種根據(jù)詞形在聲學模型訓練數(shù)據(jù)識別結(jié)果上的錯誤音素總數(shù)確定該詞形最佳分解結(jié)果的方法。該方法可用于開發(fā)語素-統(tǒng)計子詞聯(lián)合詞典,進一步提高識別器的性能。
維吾爾語是一種黏著語,可以通過不斷在詞干后結(jié)合附加成分構(gòu)成新的詞語。詞干和附加成分統(tǒng)稱為語素。附加成分按其作用可以分為構(gòu)詞附加成分和構(gòu)形附加成分2類。構(gòu)詞附加成分表示詞匯意義,結(jié)合在詞干后能構(gòu)成新詞;構(gòu)形附加成分只表示純粹的語法意義,結(jié)合在詞干后構(gòu)成一個詞的不同形態(tài)。構(gòu)形附加成分結(jié)合在名詞詞干后可以表示數(shù)、領(lǐng)屬人稱和格的語法意義,結(jié)合在形容詞詞干后可以表示級的語法意義,結(jié)合在動詞詞干后可以表示式、體、時和人稱的語法意義。表1給出了這2種附加成分與詞干結(jié)合的例子。在本文中,我們使用拉丁維吾爾文字母拼寫維吾爾語詞語。
表1 詞干結(jié)合不同種類附加成分構(gòu)成詞語的例子Tab.1 Examples of adding different kinds of suffixes to the stem
從表1中的例子可以看出,詞干結(jié)合構(gòu)詞附加成分形成的詞語類似于漢語或英語中的詞語,而結(jié)合構(gòu)形附加成分形成的詞語則對應于漢語或英語中的詞組。構(gòu)形附加成分的存在是維吾爾語中出現(xiàn)大量不同詞形的原因。我們統(tǒng)計不同規(guī)模的維吾爾語和英語電話談話文本中出現(xiàn)的詞形總數(shù),得到的曲線如圖1所示。從圖1中可以看出,隨著語料規(guī)模的擴大,維吾爾語文本中不同詞形數(shù)目的增長速度明顯超過英語。當文本規(guī)模達到2.13 M詞語時,維吾爾語文本中包含的不同詞形有212.3 K,遠大于英語的22.4 K。
圖1 維語和英語電話談話文本中不同詞形總數(shù)的比較Fig.1 Comparison of the word type number in Uyghur and English text corpus
在維吾爾語中,表示同一語法意義的構(gòu)形附加成分一般具有多種變體。在詞干結(jié)合附加成分的過程中,變體使用要遵循的規(guī)則包括元音和諧、輔音和諧和元音弱化。根據(jù)元音和諧規(guī)則,最后一個音節(jié)中帶有前/后元音的詞干要結(jié)合同一語法意義附加成分中帶有前/后元音的變體,帶有圓/展唇元音的詞干要結(jié)合同一語法意義附加成分中帶有圓/展唇元音的變體。根據(jù)輔音和諧規(guī)則,結(jié)尾是清/濁輔音的詞干要結(jié)合同一語法意義附加成分中清/濁輔音開頭的變體。根據(jù)元音弱化規(guī)則,詞干結(jié)合附加成分后保持開音節(jié)或變?yōu)殚_音節(jié)時,最后一個音節(jié)中的a或e弱化為i。這些拼寫規(guī)則使得詞干結(jié)合附加成分時需要考慮連接邊界的發(fā)音特點,增加了形態(tài)分析的難度。
我們使用工具包XFST開發(fā)基于有限狀態(tài)轉(zhuǎn)錄機的維吾爾語形態(tài)分析器,它的功能是將輸入的詞語分解為對應的詞干和構(gòu)形附加成分。為了構(gòu)造該形態(tài)分析器,我們需要準備的知識包括:①詞干和附加成分列表;②附加成分結(jié)合順序;③詞干結(jié)合附加成分時詞語的拼寫規(guī)則。我們的詞干列表來自新疆師范大學的“現(xiàn)代維語語法語義詞匯詞性標記集”,共有詞干97 934條,附加成分列表來自文獻[12],共有附加成分225條。根據(jù)文獻[12]的敘述,當名詞發(fā)生形態(tài)變化時,附加成分的結(jié)合順序是詞干[數(shù)][領(lǐng)屬人稱][格];當形容詞發(fā)生形態(tài)變化時,附加成分的結(jié)合順序是詞干[級];當動詞發(fā)生形態(tài)變化時,附加成分的結(jié)合順序是詞干[能動-非能動][肯定-否定][體][時][人稱]。我們用 XFST提供的高級語言lexc描述附加成分的結(jié)合順序,并用工具包中的“read lexc”命令將源文件編譯為有限狀態(tài)轉(zhuǎn)錄機。詞干結(jié)合附加成分時需要滿足的拼寫規(guī)則包括元音和諧、輔音和諧和元音弱化。我們用XFST提供的“替換規(guī)則”描述這些拼寫規(guī)則,然后用工具包中的“define”和“read regex”命令將文件編譯為有限狀態(tài)轉(zhuǎn)錄機。在得到描述結(jié)合順序和描述拼寫規(guī)則的有限狀態(tài)轉(zhuǎn)錄機之后,我們使用工具包提供的命令對它們進行復合操作,得到維吾爾語形態(tài)分析器。
圖2給出了詞語kitablirim(我的那些書)在形態(tài)分析器中對應的有限狀態(tài)網(wǎng)絡(luò)。在進行詞語分解時,首先使用工具包中的“apply up”命令將kitablirim映射為詞匯層上的語素序列kitab+Noun+Pl+P1sg,然后用命令“apply down”將該序列映射為表層上的語素序列 kitab +lir+im。“kitab”、“+lir”和“+im”可用作語素詞典的詞典單元。
圖2 形態(tài)分析器中kitablirim對應的有限狀態(tài)轉(zhuǎn)錄機Fig.2 Finite state transducer for kitablirim in the morphological analyzer
Morfessor 是赫爾辛基大學開發(fā)的基于數(shù)據(jù)驅(qū)動的詞語分解工具,最初用于芬蘭語的統(tǒng)計形態(tài)分析。該工具使用最小描述長度準則對詞語進行無監(jiān)督切分,得到類似于詞干和附加成分的統(tǒng)計子詞。這一分解方法不需要語言學知識,只需要詞形和它們在訓練文本中出現(xiàn)的次數(shù)。我們使用該工具對維吾爾語詞語進行基于統(tǒng)計的分解。例如,對于詞語kitablirim(我的那些書),統(tǒng)計分解的結(jié)果是kitab+lirim?!発itab”、“+lirim”可用作統(tǒng)計子詞詞典的詞典單元。
基于形態(tài)分析的詞語分解生成具有實際意義的詞干和附加成分。附加成分一般長度較短,用作詞典單元會增大解碼時的混淆。基于統(tǒng)計的方法在詞語分解過程中考慮了訓練文本的1元語言模型概率,可以避免生成長度過短的子詞?;诮y(tǒng)計的詞語分解不需要語言學知識,而基于形態(tài)分析的方法在分解過程中考慮了附加成分的結(jié)合順序,生成的語素序列滿足語法規(guī)則。為了利用不同識別單元各自的優(yōu)勢,我們設(shè)計同時包含語素和統(tǒng)計子詞的聯(lián)合詞典。由于電話談話領(lǐng)域的文本是通過人工標注電話交談式語音得到,所以,文本中每個句子都有對應的語音文件。我們考慮根據(jù)聲學模型訓練數(shù)據(jù)的識別結(jié)果對每個詞形選擇最有助于提高系統(tǒng)性能的分解方法。我們分別選擇語素和統(tǒng)計子詞作為語言模型建模單元構(gòu)建識別器,并對聲學模型訓練數(shù)據(jù)進行解碼。對于訓練數(shù)據(jù)中的每個句子,我們在音素級別將識別結(jié)果與標注對齊,使得二者間的編輯距離最小。由于維吾爾語中音素與字母存在一一對應的關(guān)系,所以詞語對應的字母序列即為音素序列。我們使用(1)式統(tǒng)計詞形W在整個訓練數(shù)據(jù)上對應的錯誤音素總數(shù)L(W)。
(1)式中:R表示聲學模型訓練數(shù)據(jù)對應的標注文本;s表示R中一條句子;W'是s中的詞語;l(W')是W'對應的錯誤音素數(shù)目。當W與W'相同時,δ(W,W')的值為1;當W與W'不同時,δ(W,W')的值為0。對于詞形W,在得到語素系統(tǒng)結(jié)果中的錯誤音素總數(shù)Lmorpheme(W)和統(tǒng)計子詞系統(tǒng)結(jié)果中的錯誤音素總數(shù)Lstatistical(W)后,我們將L(W)較小的系統(tǒng)對應的方法用于W的分解,從而實現(xiàn)2種分解方法的聯(lián)合。
我們使用200 h電話交談式語音訓練聲學模型。聲學特征選擇39維感知線性預測系數(shù)(perceptual linear prediction,PLP),它是通過對52維系數(shù)(13維基本系數(shù)以及1階、2階、3階差分)進行異方差線性判別分析后得到。聲學模型采用基于決策樹進行狀態(tài)聚類的三音子模型,共包含6 964個隱馬爾可夫模型狀態(tài),每個狀態(tài)對應的高斯混合模型包含32個分量。聲學模型參數(shù)通過最大似然估計得到。在比較不同詞典單元對應的識別器性能時,我們使用相同的聲學模型。用于訓練語言模型的語料包括電話談話語料和通用語料。其中,電話談話語料是聲學模型訓練數(shù)據(jù)對應的標注文本,共包含35萬條句子;通用語料來自小說、散文、報紙和網(wǎng)頁,共包含139萬條句子。對于不同的詞典單元,我們使用SRILM工具包訓練相應的3元語言模型。在構(gòu)建語言模型時,首先,我們分別用標注文本和通用語料訓練電話談話領(lǐng)域的語言模型和通用語言模型,然后,通過線性插值的方法把它們合并為最終的語言模型。插值系數(shù)通過最小化電話談話領(lǐng)域文本的困惑度得到。
在文獻[13]中,Hain從文本中選擇最頻繁的55K詞語作為英語電話交談式語音識別系統(tǒng)的詞表大小。我們將55K視為語音識別任務(wù)的典型詞表大小。在第3節(jié)描述的電話談話語料和通用語料中共有不同詞形736K。我們使用第2節(jié)提到的方法對詞語進行基于形態(tài)分析和基于統(tǒng)計的分解,得到語料的語素表示形式和統(tǒng)計子詞表示形式。語素語料中共有不同單元491K,統(tǒng)計子詞語料中共有不同單元279K。我們從詞語文本中選擇最高頻的55K,150K和200K個單元構(gòu)成詞典,實現(xiàn)3套基于詞語的識別系統(tǒng);我們分別從語素文本和統(tǒng)計子詞文本中選擇55K個單元構(gòu)成詞典,實現(xiàn)基于語素和統(tǒng)計子詞的識別系統(tǒng)各一套。表2給出了這些識別系統(tǒng)在1 h電話交談式語音測試集上的集外詞(out of vocabulary,OOV)比例和音素錯誤率。根據(jù)文獻[14],對于詞語系統(tǒng),OOV指詞典中未包含的詞語在測試集里所占的比例;對于語素或統(tǒng)計子詞系統(tǒng),OOV指無法由詞典中的單元連接而成的詞語在測試集里所占的比例。根據(jù)文獻[2],我們使用音素錯誤率作為評價識別器性能的指標。
表2 不同詞典單元對應的識別結(jié)果Tab.2 Experiment results of different lexicon units
對于詞語系統(tǒng),當詞典大小從55K增加到150K時,測試集上的OOV從18.6%下降到13.0%,音素錯誤率從45.9%下降到45.5%。詞典大小為200K的詞語系統(tǒng)在測試集上的音素錯誤率為45.4%,與150K詞語系統(tǒng)的結(jié)果沒有顯著差別。這些結(jié)果說明,在構(gòu)建基于詞語的維吾爾語語音識別系統(tǒng)時,適用于英語或漢語系統(tǒng)的典型詞典大小不能充分覆蓋測試語音。擴大詞典規(guī)??梢越档驮~語系統(tǒng)的OOV,從而使音素錯誤率得到一定的降低。
當詞典大小選擇55K時,與詞語系統(tǒng)相比,語素系統(tǒng)在測試集上獲得了1.1%的音素錯誤率下降,統(tǒng)計子詞系統(tǒng)獲得了1.2%的音素錯誤率下降,這些結(jié)果均超過200K詞語系統(tǒng)0.5%的音素錯誤率下降。語素系統(tǒng)和統(tǒng)計子詞系統(tǒng)的識別結(jié)果之間沒有顯著差別。實驗結(jié)果表明,與擴大詞典規(guī)模相比,將詞語分解為語素或統(tǒng)計子詞能更有效地降低測試集上的OOV,提高系統(tǒng)的識別性能。
我們用4.1中實現(xiàn)的語素系統(tǒng)和統(tǒng)計子詞系統(tǒng)對聲學模型訓練數(shù)據(jù)進行解碼,然后將識別結(jié)果與標注在音素級別對齊,使二者之間的編輯距離最小。我們使用(1)式計算聲學模型訓練數(shù)據(jù)中每種詞形W在2套識別結(jié)果中的錯誤音素總數(shù)Lmorpheme(W)和Lstatistical(W)。聲學模型訓練數(shù)據(jù)中共包含不同詞形212.3K,其中Lmorpheme(W)<Lstatistical(W)的詞形有64.4K,Lstatistical(W)<Lmorpheme(W)的詞形有63.3K,Lmorpheme(W)=Lstatistical(W)的詞形有71.5K。對于識別結(jié)果中錯誤音素總數(shù)不同的詞形我們選擇L(W)較小的系統(tǒng)對應的分解結(jié)果;對于L(W)相同或聲學模型訓練數(shù)據(jù)中未出現(xiàn)的詞形,我們既可以選擇基于形態(tài)分析的分解結(jié)果,也可以選擇基于統(tǒng)計的分解結(jié)果。我們對無法確定分解方法的詞形分別使用基于形態(tài)分析的分解和基于統(tǒng)計的分解,實現(xiàn)2套詞典大小為55K的語素-統(tǒng)計子詞聯(lián)合系統(tǒng)。我們在4.1中提到的測試集上進行實驗,2套識別系統(tǒng)對應的實驗結(jié)果如表3所示。
表3 語素-統(tǒng)計子詞聯(lián)合系統(tǒng)對應的識別結(jié)果Tab.3 Experiment results of the hybrid systems
從表3的結(jié)果可以看出,對沒有分解根據(jù)的詞形采用不同處理方式的系統(tǒng)之間識別結(jié)果無顯著差別。與4.1中性能最好的統(tǒng)計子詞系統(tǒng)相比,性能最好的語素-統(tǒng)計子詞聯(lián)合系統(tǒng)使測試集上的音素錯誤率從44.7%下降到43.8%。該結(jié)果表明,2.3節(jié)中的詞典聯(lián)合方法不但保持了語素詞典和統(tǒng)計子詞詞典對測試集覆蓋充分的優(yōu)點,還挑選出了2部詞典中最有利于識別性能提升的單元。
在本文中,首先介紹了維吾爾語的黏著性以及由此引發(fā)的詞表大小無限擴張的問題。接著我們給出了基于形態(tài)分析和基于統(tǒng)計的詞語分解方法,可以將詞語分解為語素或統(tǒng)計子詞。我們分別使用詞語、語素和統(tǒng)計子詞作為識別單元構(gòu)建語音識別系統(tǒng),在電話交談式語音轉(zhuǎn)寫任務(wù)上對各系統(tǒng)的性能進行了比較。實驗結(jié)果表明,語素或統(tǒng)計子詞的運用緩解了詞語系統(tǒng)集外詞過多的問題。在詞典大小為55K時,與詞語系統(tǒng)相比,語素系統(tǒng)和統(tǒng)計子詞系統(tǒng)分別獲得了1.1%和1.2%的音素錯誤率降低。
語素系統(tǒng)與統(tǒng)計子詞系統(tǒng)之間存在互補性。為了利用這2種系統(tǒng)各自的優(yōu)勢,我們提出了根據(jù)2種系統(tǒng)在聲學模型訓練數(shù)據(jù)上的音素錯誤率差別進行系統(tǒng)聯(lián)合的方法。實驗結(jié)果表明,聯(lián)合詞典不但保持了語素詞典或統(tǒng)計子詞詞典對語料覆蓋充分的特點,還降低了詞典單元之間的混淆,從而使系統(tǒng)性能得到進一步的提高。在接下來的工作中,我們將進一步研究無法從解碼結(jié)果中獲得分解根據(jù)的詞語的處理方法。
[1]SZARVAS M,F(xiàn)URUI S.Finite State Transducer based Modeling of Morphosyntax with Application to Hungarian LVCSR[C]//ICASSP 2003.[s.l.]:Conference Publications,2003:368-371.
[2]HIRSIM?KI T,CREUTZ M,SIIVOLA V,et al.Unlimited Vocabulary Speech Recognition with Morph Language Models Applied to Finnish [J].Computer Speech and Language,2006,20(4):515-541.
[3]KWON O,PARK J.Korean Large Vocabulary Continuous Speech Recognition with Morpheme-based Recognition Units[J].Speech Communication,2003,39(3-4):287-300.
[4]HACIOGLU K,PELLOM B.On Lexicon Creation for Turkish LVCSR [C]//Eurospeech 2003.[s.l.]:Conference Publications,2003:1165-1168.
[5]ARISOY E,DUTˇAGACI H,ARSLAN L M.A Unified Language Model for Large Vocabulary Continuous Speech Recognition of Turkish [J].Signal Process,2006,86(10):2844-2862.
[6]SAK H,SARA?LAR M,GüNG?R T.Morphology-based and Sub-word Language Modeling for Turkish Speech Recognition [C].//ICASSP 2010. [s.l.]:Conference Publications,2010:5402-5405.
[7]早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動機的構(gòu)造[J]. 中文信息學報,2009,23(6):116-121.ZAOKERE K,AISHAN W,TUERGEN Y,et al.Uyghur Noun Inflectional Suffix DFA Generation[J].Journal of Chinese Information Processing,2009,23(6):116-121.
[8]阿孜古麗·夏力甫,早克熱·卡德爾,吐爾根·依布拉音.維吾爾語動詞體范疇的有限狀態(tài)自動機的構(gòu)建[J]. 中文信息學報,2012,26(4):61-65.ARZUGUL X,ZOKRE K,TURGHUN Y.Generating the Finite State Machines of Uyghur Verb Aspect Categories[J].Journal of Chinese Information Processing,2012,26(4):61-65.
[9]TURSUN N,SILAMU W.Large Vocabulary Continuous Speech Recognition in Uyghur:Data Preparation and Experimental Results[C]//ISCSLP 2008.[s.l.]:Conference Publications,2008:1-4.
[10]BEESLEY K R,KARTTUNEN L.Finite State Morphology[M].Stanford,CA,USA:CSLI Publications,2003.
[11]CREUTZ M,LAGUS K.Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora U-sing Morfessor 1.0[M].Helsinki University of Technology:Publications in Computer and Information Science,2005.
[12]易坤琇,高士杰.維吾爾語語法[M].北京:中央民族大學出版社,1998.
[13]HAIN T,WOODLAND P C,EVERMANN G,et al.Automatic Transcription of Conversational Telephone Speech[J].IEEE Trans on Acoustics,Speech,and Signal Processing,2005,13(6):1173-1185.
[14]ARISOY E,CAN D,PARLAK S,et al.Turkish Broadcast News Transcription and Retrieval[J].IEEE Trans on Acoustics,Speech,and Signal Processing,2009,17(5):874-883.