三毛措,才智杰,才讓卓瑪,道吉扎西,華旦扎西
(1.青海師范大學 計算機學院,青海 西寧 810016;2.藏文信息處理教育部重點實驗室,青海 西寧 810008;3.青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008;4.西南民族大學 計算機科學與技術學院, 四川 成都 610041;5.青海省海南州第五民族高級中學,青海 同德 813200;6.藏語智能信息處理及應用國家重點實驗室,青海 西寧 810008)
隨著藏文文本信息量的急劇增長,藏文文本拼寫檢查需求越來越高,成為藏文信息處理領域重要的研究課題之一.本文通過分析藏文文本,總結歸納其拼寫錯誤的規(guī)律和共性,為深入研究拼寫檢查方法奠定基礎.拼寫錯誤類型分析的越細越透徹,其拼寫檢查策略設計越有效,因此藏文文本拼寫錯誤類型分析是藏文文本拼寫檢查首要解決的問題.近年來專家學者圍繞藏文文本拼寫檢查展開了研究,特別在藏文字錯誤類型分析和拼寫檢查方面做了深入的研究.藏文詞拼寫檢查也是藏文文本拼寫檢查的主要部分,到目前還沒有全面、系統(tǒng)分析藏文詞拼寫錯誤類型的相關文獻,進而影響了藏文文本拼寫檢查技術的發(fā)展.本文通過分析藏文書面語料中存在的各種拼寫錯誤,總結歸納了藏文文本拼寫錯誤類型,為藏文文本拼寫檢查工作提供了方法支撐.
1967年,英國語言學家Corder[1-3]首次提出了錯誤分析的概念,對收集的文本語料系統(tǒng)地分析了存在的錯誤,并研究了其性質和類型,開創(chuàng)了文本錯誤類型分析的紀元.由于文本錯誤類型的多變性以及句法和語法的差異性,文本自動拼寫檢查并沒有取得好的效果,自動拼寫檢查是一項具有挑戰(zhàn)性的課題.為了提升拼寫檢查性能,計算語言學協(xié)會(ACL)組建了一個自然語言學習特別興趣小組(CoNLL),為參與團隊提供了一個論壇,專門用來探討拼寫檢查評測集方法.CoNLL-2014[4]的目標仍然是自動檢測在非英語母語者撰寫的簡短英語文本中存在的所有語法錯誤類型,并返回更正的文本.在英文拼寫檢查共享任務的啟發(fā)下,國內也相繼問世了很多有關錯誤分析的研究,該領域也受到了專家學者們的廣泛關注.國際自然語言處理與中文計算會議(NLPCC)增設了中文語法錯誤修正任務,其目標是檢測并修正由非中文母語者書寫的中文句子中的語法錯誤[5],在NLPCC2018測試會上阿里巴巴團隊、北京大學團隊等6支隊伍達到了較好的效果.2018年譚詠梅等[6]對ESL學習者常犯的名詞單復數(shù)錯誤、動詞形式錯誤、主謂不一致錯誤、冠詞錯誤及介詞錯誤五種類型進行分析,并提出了一種基于LSTM和N-gram的語法錯誤糾正方法.2020年,梁茂成等[7]對英語學習者的拼寫錯誤進行了分類和分析,并對部分類型設計了自動拼寫檢查系統(tǒng).
從21世紀初,我國學者們開始了藏文拼寫錯誤分析,成果相對集中在字拼寫檢查類型分析方面.2009年,多杰卓瑪[8]闡述了藏文文本中字拼寫錯誤類型的多樣性,并利用n元模型解決了藏文音節(jié)字查錯問題.2011年,關白[9]列出了藏文字中的錯誤類型,并設計了與其相應的藏文音節(jié)字的校對方法.2013年,珠杰等[10]根據定義的五種藏文文本錯誤類型探討了藏文音節(jié)拼寫檢查、梵文轉寫藏文錯誤檢查、連續(xù)關系檢查及藏文詞語錯誤檢查,設計了相應的藏文文本校對系統(tǒng).2017年,劉匯丹等[11]按照預定的規(guī)則對藏文網頁上含九千多萬音節(jié)的語料統(tǒng)計了不同字拼寫錯誤類型比例,并分析了導致拼寫錯誤的原因.藏文文本中存在的拼寫錯誤形式多樣,影響了藏文文本拼寫檢查技術發(fā)展.
為了全面系統(tǒng)總結歸納藏文文本拼寫錯誤的規(guī)律和共性,本文通過分析藏文文本的特征,總結歸納了藏文文本拼寫錯誤類型,包括非真字(字級)和真字(詞級、語法級和語義級)拼寫錯誤類型.
近年來隨著藏文信息處理技術的發(fā)展,語料規(guī)模不斷擴大,文本中的錯誤也在不斷增多,從而對藏文文本自動拼寫檢查技術的需求越來越大.文本中的錯誤類型種類繁多,針對文本中的不同錯誤類型設計其檢查方法,是拼寫檢查最可行、最基本的解決策略之一.
藏文由字母組成音節(jié),音節(jié)組成詞,詞組成短語,短語構成句子,因而存在字、詞、語法和語義層面的拼寫錯誤.本文通過分析藏文文法,對藏文文本中存在的錯誤類型進行了全方位的分析,歸納出了藏文文本中存在的錯誤類型.藏文文本拼寫錯誤類型見表1.
表1 藏文文本拼寫錯誤類型及示例
由于標點符號錯誤所占的比例較小,本文不將對此進行重點說明.非真字錯誤和真字錯誤是目前藏文拼寫錯誤分析領域最主要的兩個部分,本文主要總結歸納了真字和非真字拼寫錯誤類型,并對其做了詳細說明.
藏文字是一種具有橫向和縱向拼寫性的拼音文字,是由前加字、上加字、基字、下加字、元音、后加字、再后加字等構件組成,構件的結構位都很明確.非真字拼寫錯誤也稱為字級的拼寫錯誤,是指該藏文字不符合藏文文法的構字規(guī)則,它只考慮該字本身,與上下文信息無關.藏文中存在非真字錯誤的概率較大,在整個藏文拼寫錯誤中也占有較大的比例.藏文的前加字、上加字、下加字、后加字和再后加字不但有明確的規(guī)定,而且前加字、上加字、下加字與基字之間有嚴格的搭配要求,再后加字的添加受后加字的制約,在書寫藏文字時容易出現(xiàn)搭配錯誤,從而造成非真字拼寫錯誤.根據搭配錯誤,非真字拼寫錯誤可以分為前加字添加錯誤、上加字添加錯誤、下加字添加錯誤、后加字添加錯誤、再后加字添加錯誤、構件冗余錯誤及音節(jié)縮略錯誤.
2.2.1 構詞錯誤
2.2.2 語法錯誤
2.2.3 語義錯誤
藏文的文法系統(tǒng)很豐富,由于對藏文文法或者對詞語的含義理解不清造成邏輯性的錯誤稱為語義錯誤,可以分為語義搭配錯誤、縮略錯誤、謂語冗余錯誤和直譯錯誤四種子類.
2.2.4 連帶錯誤
使用任何一種語言的過程中都會出現(xiàn)拼寫錯誤的現(xiàn)象,由于藏文字母組成音節(jié),音節(jié)組成詞,詞組成短語,短語構成句子,因而存在字、詞、語法和語義層面的拼寫錯誤.我們通過分析藏文文法,對藏文文本中存在的錯誤類型進行了全方位的分析,總結歸納了藏文文本中存在的錯誤類型.本文將藏文文本拼寫錯誤類型分為非真字錯誤、真字錯誤和標點符號錯誤三種一級錯誤類型.非真字錯誤進一步分為前加字添加錯誤、上加字添加錯誤、下加字添加錯誤、后加字添加錯誤、再后加字添加錯誤、構件冗余錯誤及音節(jié)縮略錯誤等二級錯誤類型.真字拼寫錯誤類型分為構詞錯誤、語法錯誤、語義錯誤及連帶錯誤等二級錯誤類型,標點符號錯誤類型分為標點符號缺失和冗余兩種二級錯誤類型,本研究成果對下游任務藏文拼寫檢查技術奠定了基礎.在此基礎上,我們將針對不同的錯誤類型研究其拼寫檢查方法,以提升藏文文本自動拼寫檢查性能.