• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文數(shù)詞自動(dòng)檢錯(cuò)研究

      2020-01-16 06:51:38冷本杰高定國
      電子技術(shù)與軟件工程 2019年21期
      關(guān)鍵詞:詞法數(shù)詞藏文

      文/冷本杰 高定國

      1 引言

      文本校對(duì)是自然語言處理領(lǐng)域重要的研究課題,在計(jì)算機(jī)自動(dòng)生成語料、機(jī)器翻譯、文本檢索、版面分析、手寫體識(shí)別等研究領(lǐng)域和后期的文本編輯中有著廣闊的應(yīng)用前景。藏文數(shù)詞檢錯(cuò)是藏文詞校對(duì)的一部分,也是錯(cuò)誤出現(xiàn)頻率較高,且相對(duì)于藏文音節(jié)檢錯(cuò)而言,檢錯(cuò)需要觀察前后出現(xiàn)的字節(jié),根據(jù)音位環(huán)境的變形情況而檢錯(cuò)的局部校對(duì),所以藏文數(shù)詞檢錯(cuò)實(shí)現(xiàn)難度較大。

      藏文文本校對(duì)研究開始于20世紀(jì)90年代,目前文本校對(duì)方面的研究內(nèi)容有通過采用字典匹配法和根據(jù)藏文字母的構(gòu)建規(guī)則,應(yīng)用規(guī)則完成音節(jié)字拼寫檢錯(cuò);根據(jù)傳統(tǒng)文法中的藏文虛詞添接規(guī)則,生成一定規(guī)模的規(guī)則庫來檢查藏文虛詞(自由虛詞)的接續(xù)關(guān)系;再用以上藏文音節(jié)字和接續(xù)關(guān)系的檢查外,進(jìn)行分詞,完成梵文轉(zhuǎn)寫藏文拼寫檢查、詞語錯(cuò)誤檢查以及綜合校對(duì)的框架設(shè)計(jì)及實(shí)現(xiàn)等研究。藏文詞校對(duì)方面的研究成果大多屬于理論性研究,具體實(shí)現(xiàn)中所使用方法的是詞典匹配法,這就需要龐大的詞典作為校對(duì)系統(tǒng)的基礎(chǔ)。詞典中通常收錄的數(shù)詞有基礎(chǔ)的(一)到(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等數(shù)詞、特殊的變形詞以及有特殊含義或和其它詞性搭配的數(shù)詞。藏文數(shù)詞的組詞功能強(qiáng)大,變化多,導(dǎo)致詞典無法收錄文本中可能產(chǎn)生的所有數(shù)詞。

      2 藏文數(shù)詞檢錯(cuò)的理論依據(jù)

      2.1 藏文數(shù)詞的詞法規(guī)范研究

      2.1.1 文本表示藏文數(shù)詞

      數(shù)詞顧名思義,就是表示數(shù)目的詞語,屬于語法概念。不同語言中對(duì)數(shù)字有特殊簡易的表示符號(hào)。比如常用的世界通用阿拉伯?dāng)?shù)字,羅馬數(shù)字等。藏文中也有特定的數(shù)字符號(hào),如表1所示。如果在常用文本中都使用這些數(shù)字符號(hào),數(shù)詞的詞法規(guī)范問題就很簡單,但是正規(guī)文檔和大多數(shù)傳統(tǒng)文本書籍中絕大多數(shù)都是以文本表示數(shù)詞。比如:

      2.1.2 藏文數(shù)位表示

      藏文數(shù)詞通常主要分為計(jì)數(shù)詞和序列詞。序列詞是表示次序的詞,在具體語言中通常會(huì)前面出現(xiàn)(第)、(數(shù))等詞,或后面會(huì)出現(xiàn)、等詞綴[9]。傳統(tǒng)的藏族天文歷算中計(jì)數(shù)詞可以列到六十位(),其中基礎(chǔ)的藏文計(jì)數(shù)詞有(一)、(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)、(十)、(百)、(千)、(萬)、(十萬)、(百萬)、(千萬)、(億)等,其余的很少使用,所以不在贅述。

      表1:數(shù)字符號(hào)

      表2:數(shù)詞變形規(guī)則表

      2.1.3 藏文數(shù)詞和數(shù)位詞發(fā)生形變

      藏文基本的計(jì)數(shù)詞合成形成其余數(shù)詞時(shí),不能像漢語那樣直接搭配,而會(huì)根據(jù)具體的音位環(huán)境變形。比如:(十五)、(二十)、(二 十 一)、(三 十 三)、(七十六)。藏文數(shù)詞變形規(guī)則如表2所示。

      藏文數(shù)詞的變形有如下規(guī)律:

      (1)藏文數(shù)詞中表達(dá)個(gè)位數(shù)時(shí),不論計(jì)數(shù)還是序數(shù)都會(huì)使用數(shù)詞原形。比如:(一束花)、(吉祥八寶)、(第二名);

      (3)個(gè)位和十位數(shù)合成出現(xiàn)時(shí),個(gè)位數(shù)的數(shù)詞會(huì)出現(xiàn)變形現(xiàn)象,會(huì)用(二)、(三)、(四)、(五)、(六)、(七)、(八)、(九)來代替數(shù)詞原形。比如:(二十一)、(三十三)、(四十五)、(五十六)、(六十七)、(八十九)、(九十一);

      (5)藏文日期中通常表達(dá)二十至二十九號(hào)時(shí),中間不會(huì)加變形體(二);而表示人的年齡、金錢余額等物質(zhì)數(shù)量時(shí)中間的(二)用來代替。比如:(今天是二十三號(hào))(二十五歲男兒)。

      2.2 藏文數(shù)詞的特性分析

      藏文數(shù)詞出現(xiàn)在文本除了單純的數(shù)字表示之外大多數(shù)是在修飾名詞。修飾名詞時(shí)通常名詞出現(xiàn)在數(shù)詞前面,所修飾的名詞有所有復(fù)數(shù)可數(shù)名詞和方位詞或處所名詞,修飾方式有直接修飾和間接修飾名詞。直接修飾可數(shù)名詞例如:(五個(gè)人)、(六公里)、(17m2)、(一 千 斤)、(兩百畝)、(三天)、(兩個(gè)任務(wù));直接修飾方位詞或處所名詞例如:兩方)、(四方)、(兩面)、(兩岸);間接修飾名詞時(shí)通常名詞和數(shù)詞中間出現(xiàn)一些量詞(種)、(次)、(部)和其他特殊詞(數(shù))、(倍)、(各種)、(總共)、(一共)。

      另外也有數(shù)詞和動(dòng)詞組合在一起,形成一種語義獨(dú)立的詞匯來修飾名詞,這時(shí)數(shù)詞通常不會(huì)實(shí)指具體的數(shù)目,而是泛指多或少,統(tǒng)一或部分、連續(xù)或擴(kuò)散等和數(shù)量有關(guān)的含義。比 如:(統(tǒng) 一)、(集 中) 、(專心致志)、(集中力量)、(連續(xù)不斷)、(九煞畢集)。數(shù)詞和動(dòng)詞組合一起時(shí)也可以中間添加虛詞來連接一起。比如:(連接)、(集中)。

      2.3 藏文數(shù)詞的常見詞法錯(cuò)誤分析

      通過遍歷大小為176MB的藏文新聞?wù)Z料,抽取數(shù)詞的前后共五個(gè)字節(jié),分析詞法錯(cuò)誤情況,發(fā)現(xiàn)藏文數(shù)詞的詞法應(yīng)用錯(cuò)誤主要是原形與變體混用導(dǎo)致錯(cuò)誤。數(shù)詞中(一)、(二)、(三)和變形詞(一)、(二)、(三)的具體用法混淆,例如:(兩千年)寫成(兩千年)。數(shù)詞和變形詞在數(shù)詞合成中需要查看前一個(gè)音節(jié),而具體的應(yīng)用中常出現(xiàn)用法混淆現(xiàn)象。例如:(六十),(四十)。

      3 藏文數(shù)詞自動(dòng)檢錯(cuò)算法設(shè)計(jì)

      3.1 藏文數(shù)詞自動(dòng)檢錯(cuò)算法設(shè)計(jì)

      藏文中基礎(chǔ)的數(shù)詞很少,但出現(xiàn)頻率較高,這些基礎(chǔ)數(shù)詞會(huì)通過內(nèi)部合成或和其它詞性搭配形成更多的詞。文本中出現(xiàn)的藏文數(shù)詞搭配錯(cuò)誤種類少、有規(guī)則可循,所以按照一定規(guī)則可以完成常見錯(cuò)誤的檢錯(cuò)。

      按照藏文數(shù)詞的規(guī)范、特征、設(shè)計(jì)的藏文數(shù)詞檢錯(cuò)算法如下:

      (1)讀取待檢錯(cuò)的藏文文本內(nèi)容,以藏文音節(jié)點(diǎn)作為分隔符,將文本切分成音節(jié)字序列,然后每個(gè)字符存儲(chǔ)在字符串?dāng)?shù)組String[] str中,字符串str數(shù)組如T=Z1+Z2+……Zn-1+Zn來表示,其中Zn是一個(gè)藏文音節(jié)字。

      (3)如果Zn與藏文基礎(chǔ)數(shù)詞匹配成功,則執(zhí)行(4),否則繼續(xù)匹配。

      (4)判斷基礎(chǔ)數(shù)詞前后出現(xiàn)以下字符串?dāng)?shù)組時(shí)按變形規(guī)律檢錯(cuò)。

      圖1:藏文數(shù)詞檢錯(cuò)流程

      圖2:藏文數(shù)詞檢錯(cuò)測試結(jié)果

      按以上設(shè)計(jì)的算法和流程圖實(shí)現(xiàn)藏文檢錯(cuò)過程如下:

      3.2 藏文數(shù)詞自動(dòng)檢錯(cuò)算法測試

      本次測試,為了體現(xiàn)檢錯(cuò)算法的實(shí)際效果,測試文本主要選用詞法錯(cuò)誤統(tǒng)計(jì)處理后的語料,內(nèi)容是基礎(chǔ)數(shù)詞以及前后共五個(gè)音節(jié)字符,每五個(gè)字節(jié)有單垂符隔開。將測試文本進(jìn)行自動(dòng)檢錯(cuò),檢錯(cuò)完成的結(jié)果保存到一個(gè)新文本中,結(jié)果如圖2所示。

      雖然以上算法可以完成簡單的常見藏文數(shù)詞詞法上的錯(cuò)誤檢錯(cuò),但也有以下兩點(diǎn)缺陷:

      (1)藏文基礎(chǔ)數(shù)詞的音節(jié)拼寫錯(cuò)誤以及和音節(jié)錯(cuò)誤合成的詞法錯(cuò)誤無法檢錯(cuò),如(一)、(三千)等。

      (2)藏文數(shù)詞中有兼類詞,這些兼類詞有時(shí)恰好和數(shù)詞連續(xù)出現(xiàn),雖然數(shù)量極少,但也有出現(xiàn)如(兩層寶座)、(空屋三頂)的可能,這時(shí)檢錯(cuò)算法會(huì)檢錯(cuò)失誤,出現(xiàn)錯(cuò)誤糾正的現(xiàn)象。

      4 結(jié)束語

      藏文文本中數(shù)詞有嚴(yán)格的詞法合成規(guī)范,卻詞法錯(cuò)誤出現(xiàn)頻繁。本文詳細(xì)分析了藏文數(shù)詞的變形情況、語法特征、搭配規(guī)律等知識(shí),通過統(tǒng)計(jì)分析常見的詞法錯(cuò)誤,提出了基于規(guī)則的數(shù)詞合成檢錯(cuò)算法,利用該方法檢錯(cuò)成功率達(dá)到100%。

      猜你喜歡
      詞法數(shù)詞藏文
      詞法 名詞、代詞和冠詞
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      數(shù)詞
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      應(yīng)用于詞法分析器的算法分析優(yōu)化
      談對(duì)外漢語“詞法詞”教學(xué)
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      對(duì)聯(lián)中數(shù)詞的藝術(shù)運(yùn)用(下)
      2010年高考英語“相似”考題例析
      鄯善县| 舒城县| 浪卡子县| 台湾省| 吉水县| 赤水市| 买车| 靖宇县| 井冈山市| 常德市| 中卫市| 嘉黎县| 玉龙| 香港| 台北县| 盱眙县| 保靖县| 晋中市| 营口市| 库伦旗| 牙克石市| 梁山县| 达拉特旗| 房山区| 蓬安县| 澄江县| 安义县| 阜新市| 余姚市| 灵川县| 高台县| 泸西县| 礼泉县| 道孚县| 隆化县| 光泽县| 连城县| 太仆寺旗| 富顺县| 黄浦区| 邯郸市|