熱木土拉·麥麥提+古麗尼尕爾·買合木提+努爾波拉提·胡安+艾斯卡爾·艾木都拉
摘要:語音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域。哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音文本是語音合成中重要的預(yù)備工作。該文利用規(guī)則庫和N-gram,實(shí)現(xiàn)了文本當(dāng)中的各類數(shù)字正確的轉(zhuǎn)換到讀音,為哈薩克語語音合成研究,提供了高質(zhì)量的數(shù)字讀音文本。希望通過該文提供的方法來提高哈薩克文以及相似特性的其他語種的語音合成的質(zhì)量。
關(guān)鍵詞:哈薩克語;數(shù)字讀音;規(guī)則庫;N-gram
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)14-0158-02
1概述
哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,中國的哈薩克文借用了阿拉伯語和部分波斯文字母。哈薩克文信息處理技術(shù)在近幾年來國家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國語言文字信息處理的要求還有很大的距離。語音識別是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會有著廣泛的應(yīng)用前景。把哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為文本(下文均簡稱數(shù)字轉(zhuǎn)文本)是哈薩克語語音合成當(dāng)中不可缺少的前期工作,其轉(zhuǎn)換質(zhì)量直接影響到語音合成的合成效果。雖然到目前為止在語音合成方面的研究工作取得了很多成果,但是數(shù)字轉(zhuǎn)文本方面還存在很多問題,并且影響到了語音合成的質(zhì)量。本文把哈薩克阿拉伯文作為主要處理對象,把哈薩克文本當(dāng)中的數(shù)字轉(zhuǎn)換為哈薩克阿拉伯文字形式。這為建立哈薩克文本的發(fā)音詞典起了重要的輔助作用。
本文把數(shù)字按讀法分為三大類:每一位單獨(dú)轉(zhuǎn)換,每兩位一起轉(zhuǎn)換和所有位數(shù)一起轉(zhuǎn)換。按數(shù)字類型人工收集了包含八種基本數(shù)據(jù)類型的規(guī)則庫,分別為:年、月、日、固定電話號碼(不包含地區(qū)號)、固定電話號碼(包含地區(qū)號)、地區(qū)號、手機(jī)號和身份證號。利用此規(guī)則庫,權(quán)重累加的方式確定當(dāng)前數(shù)字類型。按數(shù)字類型確定讀法,并轉(zhuǎn)換為文本。本文還考慮一個(gè)句子出現(xiàn)多種數(shù)字類型的情況,利用N-gram模型限制每種數(shù)字類型上下文匹配長度,減少數(shù)字類型判斷的錯(cuò)誤。
2哈薩克文數(shù)字讀法規(guī)則
相同的數(shù)字在不同的文本中可有不同的含義和類型,因此讀法也不一樣。本文把數(shù)字讀法類型分為三類,分別為:
第一種,是數(shù)量、等級、年、月、日之類的,讀音有所有位數(shù)共同確定。比如:
3數(shù)字轉(zhuǎn)換讀音的方法
3.1建立數(shù)字讀音庫
為了通過組合的方式方便快速地確定哈薩克文中的數(shù)字文本,建立了數(shù)字的哈薩克語讀音庫。詞庫包含了哈薩克語當(dāng)中基本數(shù)字的讀音,通過組合就能得到較為復(fù)雜數(shù)字的發(fā)音。用此數(shù)字讀音庫,遞歸的方式,進(jìn)行各類數(shù)字的組合?;緮?shù)字讀音庫如表1所示。
3.2創(chuàng)建規(guī)則庫
為了準(zhǔn)確判斷每一種數(shù)字的類型,按照一定的格式,以人工的方式建立的規(guī)則庫。此規(guī)則庫包含了數(shù)字該有的基本特性,可能有的次要特性和文本中要判斷的N-gram模型的長度。下面以年這個(gè)數(shù)據(jù)類型為例,規(guī)則庫的規(guī)則模版如表2所示:
表1中每一項(xiàng)具體含義如下:
1)規(guī)則數(shù)量:此規(guī)則庫包含的N6-數(shù)字類型
2)規(guī)則名:當(dāng)前規(guī)則名稱
3)最少位數(shù):當(dāng)前類型數(shù)字最小的位數(shù)
4)最長位數(shù):當(dāng)前類型數(shù)字最長的位數(shù)
5)最小值:當(dāng)前類型數(shù)字的最小值
6)最大值:當(dāng)前類型數(shù)字的最大值
7)OR中間字符:數(shù)字之間可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
8)OR前驅(qū)字符:數(shù)字之前可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
9)OR后驅(qū)字符:數(shù)字之后可能包含的次要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
10)AND中間字符:數(shù)字之間可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
11)AND前驅(qū)字符:數(shù)字之前可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
12)AND后驅(qū)字符:數(shù)字之后可能包含的必要字符(多個(gè)字符用空格分開,沒有時(shí)填None)
13)Ngram:判斷數(shù)字類型時(shí)搜索的上下文長度(0表示全句,其他數(shù)字表示實(shí)際搜索上下文長度)
14)讀法:當(dāng)前類型數(shù)字的讀法類型(Alhogather)
規(guī)則庫中的規(guī)則數(shù)量值固定為8,代表本文涉及的8種數(shù)據(jù)類型(在規(guī)則庫首部);規(guī)則名表示該規(guī)則類型名,便于建立和觀察,如年。最少位數(shù)、最長位數(shù)、最小值、最大值用于判斷數(shù)字類型基本性質(zhì)。OR中間字符、OR前驅(qū)字符、OR后驅(qū)字符、AND中間字符、AND前驅(qū)字符和AND后驅(qū)字符用于計(jì)算數(shù)字類型的權(quán)重。每一種字符的權(quán)重賦為一,數(shù)據(jù)的權(quán)重是通過判斷當(dāng)前數(shù)據(jù)滿足幾個(gè)字符條件而累加得到。Ngram和讀法用于搜索長度和確定該類型相應(yīng)的讀法規(guī)則。
3.3判別數(shù)字類型
根據(jù)規(guī)則庫對哈薩克文本語料中的每一句按N-gram長度進(jìn)行匹配,確定當(dāng)前句子符合規(guī)則庫中的幾條,從而得到當(dāng)前判斷選項(xiàng)相應(yīng)的權(quán)重。重復(fù)以上步驟,得到所有數(shù)字類型的權(quán)重以后,選出權(quán)重最大的數(shù)字類型。按此類型的讀法規(guī)則進(jìn)行數(shù)字轉(zhuǎn)文本并用阿拉伯?dāng)?shù)字的文本表示替換原文中的數(shù)字表示。實(shí)驗(yàn)的總流程圖如下圖1所示:
流程圖所示,輸入一句哈薩克語句,第一步:先判斷當(dāng)前句子是否包含數(shù)字,如果是,則確定句子中數(shù)字的位置,記錄開始位置和結(jié)束位置。如果一個(gè)句子中有一個(gè)以上的數(shù)字,分別都記錄開始和結(jié)束位置;第二步:按N-gram長度進(jìn)行規(guī)則庫的匹配,按規(guī)則庫中條件字符是否存在,包含幾條,來計(jì)算出相應(yīng)的權(quán)重;第三步:按權(quán)重值的大小確定數(shù)字類型,利用數(shù)字類型和讀法規(guī)則組成此數(shù)字的標(biāo)準(zhǔn)讀音文本,并替換到原文本中。
4實(shí)驗(yàn)結(jié)果與分析
按上述流程圖進(jìn)行實(shí)驗(yàn),用4000句哈薩克文本進(jìn)行數(shù)字轉(zhuǎn)文本。得到的實(shí)驗(yàn)結(jié)果如下表3所示:
由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法能夠成功的把哈薩克文本中的大部分阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音的文本。
5結(jié)論
語音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會有著廣泛的應(yīng)用前景。本文用規(guī)則庫和N-gram,模型,把哈薩克文本中的數(shù)字轉(zhuǎn)文本。此技術(shù)在哈薩克語語音合成的研究當(dāng)中,為建立哈薩克文本的發(fā)音詞典起到重要的輔助作用。本研究為用少量的工作量得到大部分?jǐn)?shù)字讀音,做出了正確的策略。與此同時(shí)本研究中的方法均可用在于阿爾泰語系的其他語言,如柯爾克孜語、烏茲別克語等。
雖然本文中的方法取得了令人滿意的實(shí)驗(yàn)結(jié)果,但仍存在一些不足。因?yàn)閿?shù)字類型除了在本文中提到的八種還有其他更為復(fù)雜的,因此需要在使用過程中繼續(xù)優(yōu)化和擴(kuò)充規(guī)則庫。