劉匯丹,洪錦玲,諾明花,吳 健
(中國科學(xué)院 軟件研究所,北京100190)
基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析
劉匯丹,洪錦玲,諾明花,吳 健
(中國科學(xué)院 軟件研究所,北京100190)
針對從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁,總計427萬句、9 328萬音節(jié)字的藏文文本語料,該文按照預(yù)定的規(guī)則對其中的藏文音節(jié)拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在語料中出現(xiàn)的共計20 743個藏文音節(jié)中,含有拼寫錯誤的音節(jié)共有9 700個,占藏文音節(jié)總數(shù)的46.762 8%,錯誤音節(jié)在語料中共出現(xiàn)27 427次,僅占0.030 8%,說明這份語料的文本質(zhì)量是相當(dāng)高的。文中還詳細(xì)統(tǒng)計了各種不同表現(xiàn)形式的錯誤音節(jié)所占比重,并分析了導(dǎo)致拼寫錯誤的四個主要原因: 一是輸入了多余的元音符號;二是音節(jié)點或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是錯誤地使用了相似字符。
藏文拼寫檢查;拼寫檢查;語料;統(tǒng)計;藏文信息處理;中文信息處理
文本校對是自然語言處理的主要應(yīng)用領(lǐng)域之一,近些年來,已有學(xué)者在藏文文本校對或拼寫檢查方面做了一些研究,這些研究大多針對實現(xiàn)藏文文本校對工具,以及為實現(xiàn)校對工具而構(gòu)建的藏文音節(jié)規(guī)則相關(guān)知識庫等方面。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作鮮有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,判斷將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。
本文接下來的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀,其次介紹大規(guī)模網(wǎng)絡(luò)藏文文本獲取的方法及利用這種方法獲取的語料情況,然后對這份語料中藏文音節(jié)的拼寫錯誤情況進(jìn)行統(tǒng)計與分析,最后對全文進(jìn)行總結(jié)。
有關(guān)藏文文本校對方面的研究可追溯到20世紀(jì)。1998年,扎西次仁歸納總結(jié)了藏文的拼寫規(guī)則和虛詞使用法則,根據(jù)藏文的拼寫規(guī)則、虛詞使用法則、音節(jié)庫和詞表,設(shè)計并開發(fā)了一個藏文拼寫檢查系統(tǒng),并分析了由實詞虛詞兼類、詞語組合型切分歧義等導(dǎo)致的難點問題[1]。之后,王維蘭等將藏文自動校對應(yīng)用于藏文文字識別,對單字進(jìn)行校正[2]。才讓卓瑪提出了利用詞語搭配關(guān)系表、語法規(guī)則庫進(jìn)行校對的方法[3],并對藏文語序錯誤、標(biāo)點使用錯誤、詞語搭配錯誤等情況進(jìn)行了舉例分析[4]。劉文香也對藏語音節(jié)的搭配規(guī)則等做了研究,創(chuàng)建了音節(jié)搭配規(guī)則知識庫,探索了音節(jié)查錯校對的原理、關(guān)鍵技術(shù)及可行的實現(xiàn)方法[5]。隨后提出了一種將分詞詞表模式匹配、二元詞詞鄰接矩陣和詞間音勢約束模型三種方法相結(jié)合的藏文詞校對模型[6],并在Windows 8操作系統(tǒng)平臺上實現(xiàn)了基于音節(jié)的現(xiàn)代藏文文本校對的試驗系統(tǒng)[7]。多杰卓瑪對藏文文本中的錯誤情況進(jìn)行了分析,將藏文文本的錯誤形式歸納為音節(jié)錯誤、缺字和加字的錯誤、輸入錯誤、人名錯誤、地名錯誤、江河名錯誤、知識性錯誤等類別,并提出了利用以字丁為單位的N元文法模型判斷藏文音節(jié)是否錯誤的方法[8]。關(guān)白回顧了現(xiàn)代藏文自動校對的研究現(xiàn)狀[9],分析了藏文音節(jié)字中的錯誤類型,并針對藏文音節(jié)字的特點,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對現(xiàn)代藏文音節(jié)字的自動校對進(jìn)行了詳細(xì)論述[10-11]。安見才讓提出了一種根據(jù)構(gòu)字規(guī)則進(jìn)行藏字校對的方法,實驗表明,在一段約130個字符的文本中,系統(tǒng)成功檢測出了其中的六處錯誤[12]。珠杰等人構(gòu)建了現(xiàn)代藏文音節(jié)規(guī)則庫,并分析了其在拼寫檢查等方面的應(yīng)用[13],在對實際文本的測試中發(fā)現(xiàn)該模型還需要增加對藏文數(shù)字、符號、特殊音節(jié)、梵音轉(zhuǎn)寫音節(jié)的特殊處理。洪錦玲等人綜合藏文分詞、音節(jié)拼寫、格助詞規(guī)則等多種藏文特性,提出了一種藏文詞語拼寫檢查的方法,并提出了根據(jù)錯誤詞語與詞庫詞語的編輯距離給出糾錯建議的方法,并將該方法在開源辦公套件LibreOffice 中進(jìn)行了實現(xiàn)[14]。陳小瑩等人設(shè)計實現(xiàn)了一個包括藏文文本規(guī)范化處理模塊、音節(jié)切分模塊、黏著語的分離與還原模塊和音節(jié)校對模塊四個模塊的藏文音節(jié)拼寫自動校對系統(tǒng)[15]。
上述研究大多針對實現(xiàn)藏文文本校對工具及藏文音節(jié)規(guī)則等相關(guān)知識庫的構(gòu)建方面,只有多杰卓瑪、關(guān)白等對藏文拼寫錯誤情況進(jìn)行了歸納,但也僅限于對個別情況的舉例說明。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作還未見有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,確定將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。
本節(jié)介紹大規(guī)模藏文網(wǎng)絡(luò)文本的獲取、音節(jié)切分方法和音節(jié)拼寫錯誤的判別依據(jù)等方面的內(nèi)容。
3.1 語料來源
根據(jù)我們之前對互聯(lián)網(wǎng)藏文文本資源分布情況的考察,我們選擇了八個新聞廣播類的藏文網(wǎng)站作為文本語料的來源,這八個網(wǎng)站的基本信息如表 1所示。八個網(wǎng)站中,中國西藏新聞網(wǎng)和新華網(wǎng)西藏頻道藏文版使用國家標(biāo)準(zhǔn)藏文編碼字符集擴(kuò)充集,人民網(wǎng)藏文版使用同元編碼,這三個網(wǎng)站的藏文文本需要做編碼轉(zhuǎn)換。其它五個網(wǎng)站均使用國際標(biāo)準(zhǔn)Unicode藏文基本集(小字符集)方案。在進(jìn)行后續(xù)處理之前,我們將獲取的語料統(tǒng)一轉(zhuǎn)換為國家標(biāo)準(zhǔn)藏文編碼字符集基本集形式(關(guān)于藏文編碼轉(zhuǎn)換技術(shù)請參考文獻(xiàn)[16-17])。編碼轉(zhuǎn)換過程使用了與“藏碼通”相同的編碼對照表和轉(zhuǎn)換算法[17]?!安卮a通”軟件在民族出版社、中國社科院民族所、西藏大學(xué)、西藏編譯局等單位使用近十年,并根據(jù)用戶反饋情況對編碼對照表進(jìn)行了反復(fù)修改,因此,轉(zhuǎn)換正確率是可以保證的。同時,我們對語料來源所屬的網(wǎng)站頻道進(jìn)行了限制,并通過網(wǎng)頁文種識別限定只取藏文網(wǎng)頁,并只抽取其中的標(biāo)題、正文等關(guān)鍵信息。以上可以最大限度地避免語料因編碼轉(zhuǎn)換導(dǎo)致的問題。
表1 八個新聞廣播類藏文網(wǎng)站的基本信息
續(xù)表
3.2 語料獲取方法
在本文中,我們采用基于正則表達(dá)式的方法從藏文網(wǎng)頁中抽取文章主題相關(guān)的信息。我們通過分析各個網(wǎng)站的頁面布局結(jié)構(gòu)來抽取網(wǎng)頁模板,根據(jù)之前相關(guān)的研究,分析藏文網(wǎng)頁的板式結(jié)構(gòu),可以發(fā)現(xiàn)文章標(biāo)題、作者、發(fā)布時間、文章正文等信息塊與其他信息塊之間的分隔標(biāo)志,甚至可以利用HTML源文件中的一些注釋信息進(jìn)行抽取[18]。可以據(jù)此構(gòu)造模板提取藏文篇章文本,舉例如下:
? 中國西藏新聞網(wǎng)的頁面模板為:
.*【文章正文】.*
? 中國西藏網(wǎng)的頁面模板為:
3.3 音節(jié)切分方法
對藏文文本進(jìn)行音節(jié)切分主要依據(jù)以下切分規(guī)則。
? 音節(jié)點作為音節(jié)分隔標(biāo)記,切分之后附著在左邊(前邊)音節(jié)的結(jié)尾;
? 藏文數(shù)字和阿拉伯?dāng)?shù)字視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;
? 藏文標(biāo)點符號、英文標(biāo)點符號和漢語標(biāo)點符號視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;
? 連續(xù)的英文字母視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;
? 連續(xù)的漢字視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計。
根據(jù)以上規(guī)則對獲取到的網(wǎng)絡(luò)藏文文本進(jìn)行切分之后,可以統(tǒng)計各個藏文音節(jié)出現(xiàn)的頻次。在上述語料中,出現(xiàn)頻率最高的部分藏文音節(jié)如表2所示。
表2 網(wǎng)絡(luò)語料中的藏文高頻音節(jié)表
3.4 語料規(guī)模
使用上述方法獲取網(wǎng)絡(luò)藏文文本語料,并進(jìn)行音節(jié)切分,統(tǒng)計數(shù)據(jù)顯示,共計19萬藏文網(wǎng)頁,語料總計427萬句、9 328萬音節(jié)字(含藏文數(shù)字、漢字、英文字母、各種標(biāo)點符號等)。詳細(xì)的統(tǒng)計數(shù)字見表3。
表3 獲取的網(wǎng)絡(luò)藏文文本語料的規(guī)模
4.1 藏文音節(jié)拼寫錯誤的判別依據(jù)
在藏文音節(jié)拼寫檢查的研究中,大家常用的方法是根據(jù)藏文文法中基字、前加字、上加字、下加字、元音、后加字和再后加字之間的約束關(guān)系構(gòu)造藏文音節(jié)規(guī)則庫來判斷音節(jié)的合法性,然而,由于梵音轉(zhuǎn)寫和外來詞音譯的存在,采用這種方法構(gòu)建的規(guī)則庫總是不能完全覆蓋真實文本中所有的情況。因此,在本文中,我們根據(jù)傳統(tǒng)藏文文法構(gòu)造一些規(guī)則來判別音節(jié)是否存在拼寫錯誤,這些規(guī)則主要包括:
? 包含多個緊縮標(biāo)志的音節(jié)視為拼寫錯誤;
? 緊縮標(biāo)志出現(xiàn)在第四字丁或更靠后位置的音節(jié)視為拼寫錯誤;
? 包含五個或更多字丁的音節(jié)視為拼寫錯誤;
? 包含在國家標(biāo)準(zhǔn)藏文基本集、擴(kuò)充集A和擴(kuò)充集B以外字丁的音節(jié)視為拼寫錯誤。
? 前加字、上加字、基字、下加字、后加字和再后加字之間搭配不符合藏文文法約束關(guān)系的視為拼寫錯誤;
為確保上述規(guī)則包容梵音轉(zhuǎn)寫和外來詞音譯形成的音節(jié),達(dá)到對真實語料形成完全覆蓋的目的,我們的檢測規(guī)則中充分考慮了梵音轉(zhuǎn)寫和外來詞音譯的情況。由于約束關(guān)系檢測方法不能保證百分之百的正確率,我們對被該規(guī)則判斷為存在拼寫錯誤的情況進(jìn)行了人工確認(rèn)。
4.2 對拼寫錯誤的統(tǒng)計與分析
本文所用語料中,共有20 743個藏文音節(jié),總出現(xiàn)頻次89 059 463次,占語料總量的95.475 2%。藏文數(shù)字共出現(xiàn)130 808次,占語料總量的0.140 2%,兩項合計占比95.615 4%,語料中另外4.384 6%是其他文種的字符串,其各自出現(xiàn)頻次和比例如表4所示。
表4 語料中各種不同成分的頻次和比例
續(xù)表
根據(jù)前述規(guī)則,對語料中出現(xiàn)的所有藏文音節(jié)進(jìn)行拼寫檢查,獲得的統(tǒng)計數(shù)據(jù)如表5所示??梢钥闯?,在這些包含拼寫錯誤的音節(jié)中,大部分具有兩個或者兩個以上的表現(xiàn)形式,這主要是由于拼寫錯誤判別規(guī)則之間并不是嚴(yán)格互斥的。從表5中可以看出,在本文所用語料中,緊縮標(biāo)志位置錯誤也同時意味著緊縮標(biāo)志太多和元音太多,而緊縮標(biāo)志太多,大部分情況下也意味著元音太多。在表5的前十行顯示,很多實際上正確的音節(jié),被各種規(guī)則判斷為存在拼寫錯誤,最終是靠人工判斷為正確的,這說明傳統(tǒng)藏文文法并沒有覆蓋實際文本中所有的情況。
表5 藏文音節(jié)拼寫錯誤情況總表
續(xù)表
表6列出了各種不同類型的拼寫錯誤音節(jié)的數(shù)量及其在語料中的比例。在所有的藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,共出現(xiàn)89 032 036次,占99.969 2%。其中,含有前述四個緊縮標(biāo)志的音節(jié)共有1 421個,占6.850 5%,出現(xiàn)總次數(shù)為4 356 795,占4.892 0%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%。錯誤形式最多的是約束關(guān)系類錯誤,共有9 365個音節(jié),占比45.147 8%,在語料中出現(xiàn)頻次累計23 726次,占比0.026 6%。其次是元音太多類錯誤,共有5 014個音節(jié),占比24.172 0%,在語料中出現(xiàn)頻次累計11 830次,占比0.013 3%。再次是字丁太多類錯誤,共有2 565個音節(jié),占比12.365 6%,在語料中出現(xiàn)頻次累計4 451次,占比0.005 0%。包含非法字丁的音節(jié)共有1 359個,占比6.551 6%,在語料中共出現(xiàn)7 418次,占比0.008 3%。緊縮標(biāo)志太多的音節(jié)共有21個,占比0.101 2%,出現(xiàn)頻次為57,占比0.000 1%。緊縮標(biāo)志位置錯誤的音節(jié)共有11個,占比0.053 0%,出現(xiàn)頻次為16,占比不足0.000 1%。
表7和圖1顯示了不同錯誤形式在所有出錯音節(jié)中的比例。
表6 藏文拼寫錯誤類型及其在語料中的比例
表7 藏文拼寫錯誤類型及其比重
續(xù)表
在所有的出錯音節(jié)中,表現(xiàn)為約束關(guān)系錯誤的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了96.546 4%和86.506 0%,占據(jù)了出錯音節(jié)的絕大部分。部分典型的拼寫錯誤音節(jié)如表8所示。這些錯誤中大部分都是因音節(jié)點或句尾空格缺失導(dǎo)致。
表8 約束關(guān)系錯誤音節(jié)典型實例
在所有的出錯音節(jié)中,表現(xiàn)為元音太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了51.690 7%和43.132 7%,部分典型的拼寫錯誤音節(jié)如表9所示。
表9 元音太多的錯誤音節(jié)典型實例
表現(xiàn)為字丁太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了26.443 3%和16.228 5%。部分典型的拼寫錯誤音節(jié)如表10所示。這些錯誤中,幾乎全部是因音節(jié)點和句尾空格缺失導(dǎo)致。
表10 字丁太多的錯誤音節(jié)典型實例
表11 含有非法字丁的錯誤音節(jié)典型實例
續(xù)表
含有多個緊縮標(biāo)志的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了0.216 5%和0.207 8%。部分典型的拼寫錯誤音節(jié)如表12所示。這部分錯誤基本都是因為音節(jié)點缺失導(dǎo)致。
表12 含多個緊縮標(biāo)志的錯誤音節(jié)典型實例
緊縮標(biāo)志出現(xiàn)在第四個字丁或者更靠后位置的錯誤音節(jié)數(shù)量占比和頻次占比分別為0.113 4%和0.058 3%。部分典型的拼寫錯誤音節(jié)如表13所示。這部分錯誤基本都是因為音節(jié)點和句尾空格缺失導(dǎo)致。
表13 緊縮標(biāo)志位置錯誤的音節(jié)典型實例
續(xù)表
綜合上述拼寫錯誤的各種情況,導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點、單垂符或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。
在本文中,我們從互聯(lián)網(wǎng)獲取了共計19萬藏文網(wǎng)頁,進(jìn)行篇章抽取之后獲得了一份總計427萬句、9 328萬音節(jié)字的藏文文本語料,按照預(yù)定的規(guī)則對其中的拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在所有20 743個藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,在語料中共出現(xiàn)89 032 036次,占99.969 2%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%,這說明這份語料的文本質(zhì)量是相當(dāng)高的。導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點和句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。
[1] 扎西次仁.一個藏文拼寫檢查系統(tǒng)的設(shè)計[C].1998中文信息處理國際會議論文集.1998: 371-376.
[2] 王維蘭,丁曉青,戴玉剛等.藏文識別后處理研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002,(2): 30-34.DOI: 10.3969/j.issn.1007-2489.2002.02.008.
[3] 才讓卓瑪.藏文字自動校對系統(tǒng)初探[C].第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集.2005: 292-294.
[4] 才讓卓瑪,才智杰.藏文文本自動校對系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(1): 25 -28.DOI: 10.3969/j.issn.1009-2102.2009.01.007.
[5] 劉文香.藏文音節(jié)校對模型建設(shè)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(2): 13-16,32. DOI: 10.3969/j.issn.1009-2102.2009.02.004.
[6] 劉文香.藏文文本詞校對模型研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2009,24(2): 70-74.
[7] 劉文香.現(xiàn)代藏文文本校對設(shè)計方案研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2012,(2): 66-69.
[8] 多杰卓瑪.N元模型在藏文文本局部查錯中的應(yīng)用研究[J].計算機(jī)工程與科學(xué),2009,31(4): 117-119,123. DOI: 10.3969/j.issn.1007-130X.2009.04.035.
[9] 關(guān)白,洛藏,才科扎西等.現(xiàn)代藏文自動校對現(xiàn)狀分析[J].西藏科技,2011,(8): 78-80.DOI: 10.3969/ j.issn.1004-3403.2011.08.035.
[10] 關(guān)白.自動校對中現(xiàn)代藏文音節(jié)字研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2011,26(1): 69-75.
[11] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動校對研究[J].計算機(jī)工程與應(yīng)用,2012,48(29): 151-156.DOI: 10. 3778/ j.issn.1002-8331.2012.29.031.
[12] 安見才讓.基于分段的藏字校對算法研究[J].中文信息學(xué)報,2013,27(2): 58-64.DOI: 10.3969/j.issn.10 03-0077.2013.02.009.
[13] 珠杰,歐珠,格桑多吉等.藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析[J].中文信息學(xué)報,2013,27(2): 103-112.
[14] 洪錦玲,劉匯丹,吳健.一種在辦公套件中支持藏文拼寫檢查的方法[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 116-122
[15] 陳小瑩,艾金勇.藏文音節(jié)拼寫自動校對系統(tǒng)的設(shè)計[J].語文學(xué)刊,2014,(5): 31-32.
[16] 劉匯丹,芮建武,吳健等.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.2006: 573-580.
[17] 劉匯丹,諾明花,趙維納等.藏文編碼轉(zhuǎn)換軟件“藏碼通” 的設(shè)計與實現(xiàn)[C].第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集.2010: 217-221.
[18] 劉匯丹,諾明花,高墨赤等.面向新聞廣播網(wǎng)站的藏文文本采集和語料庫構(gòu)建[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 85-94
[19] 周季文.藏文拼音教材(拉薩音)[M].北京: 民族出版社,1983.
[20] 胡書津.簡明藏文文法[M].昆明: 云南民族出版社,2000.
[21] GB16959-1997 信息技術(shù)-信息交換用藏文編碼字符集——基本集[S]. 中國標(biāo)準(zhǔn)出版社, 1998.
[22] GB/T 20542-2006 信息技術(shù)-藏文編碼字符集——擴(kuò)充集A [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2006.
[23] GB/T 22238-2008 信息技術(shù)-藏文編碼字符集——擴(kuò)充集B [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2008.
[24] ISO/IEC 10646: 2012 Information technology - Universal Coded Character Set (UCS) [S]. International Organization for Standardization, 2012.
[25] The Unicode Standard, Version 6.1 [S]. Mountain View, CA: The Unicode Consortium, ISBN 978-1- 936213-02-3, 2012.
Statistics and Analysis on Spell Errors of Tibetan SyllablesBased on a Large Scale Web Corpus
LIU Huidan, HONG Jinling, NUO Minghua, WU Jian
(Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syllables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0.030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors: extra vowel sign(s); absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.
Tibetan spell check; spell check; corpus; Tibetan information processing; Chinese information processing
劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域為操作系統(tǒng)中文信息處理、多語言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn洪錦玲(1981—),碩士,工程師,主要研究領(lǐng)域為多語言信息處理。E?mail:jinling@iscas.a(chǎn)c.cn諾明花(1981—),博士,助理研究員,主要研究領(lǐng)域為多語言信息處理。E?mail:nuominghua@163.com
2014-04-23 定稿日期: 2014-11-21
國家自然科學(xué)基金(61202219,61303165);中國科學(xué)院信息化專項(XXH12504-1-10);新聞出版重大科技工程(0610-1041BJNF 2328/23)
1003-0077(2017)02-0061-10
TP391
A