• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      計(jì)算機(jī)識(shí)別藏語(yǔ)虛詞的方法研究

      2014-02-27 05:51:04高定國(guó)扎西加趙棟材
      中文信息學(xué)報(bào) 2014年1期
      關(guān)鍵詞:兼類(lèi)藏語(yǔ)藏文

      高定國(guó),扎西加,趙棟材

      (1. 西藏大學(xué) 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏大學(xué) 工學(xué)院計(jì)算機(jī)科學(xué)系, 西藏 拉薩 850000)

      1 引言

      近年來(lái),隨著藏文信息處理技術(shù)的發(fā)展,藏語(yǔ)的信息處理已經(jīng)在字處理方面取得了很好的成績(jī),現(xiàn)進(jìn)入到了語(yǔ)句研究的階段,語(yǔ)句處理的前提是對(duì)藏語(yǔ)詞的處理。藏語(yǔ)中的實(shí)詞由于其意義的實(shí)在以及在藏語(yǔ)的語(yǔ)義句法結(jié)構(gòu)中的重要地位,受到了藏文信息處理學(xué)者們的普遍重視,也取得了一定的成績(jī),但面向信息處理的虛詞研究還有待于加強(qiáng)。虛詞自身雖然用法靈活,但虛詞與虛詞、虛詞與實(shí)詞的搭配常常構(gòu)成比較穩(wěn)定的語(yǔ)義塊標(biāo)記[1]。因此,從藏語(yǔ)的虛詞入手,根據(jù)虛詞的搭配及其在形成藏語(yǔ)語(yǔ)義塊結(jié)構(gòu)中的標(biāo)記作用來(lái)分析藏語(yǔ)語(yǔ)句的句法結(jié)構(gòu),并據(jù)此進(jìn)行藏語(yǔ)語(yǔ)句的語(yǔ)義塊自動(dòng)切分等研究,對(duì)藏文句子研究有很重要的作用。

      藏語(yǔ)虛詞在藏語(yǔ)文檔中出現(xiàn)的頻度很高,虛詞搭配規(guī)則形式化分析的可行性則由藏語(yǔ)虛詞自身的特點(diǎn)決定: 虛詞是封閉集合,其中的各個(gè)詞匯是可以一一枚舉的[2];虛詞盡管用法靈活,但它們是語(yǔ)言中性質(zhì)比較穩(wěn)定,不易產(chǎn)生變化的部分;虛詞與其他詞匯構(gòu)成的搭配是確定的,也是可以枚舉的[3]。虛詞搭配的可枚舉性、穩(wěn)定性和確定性等特點(diǎn),使得虛詞搭配關(guān)系的形式化規(guī)則特別有利于被擅長(zhǎng)搜索和匹配的計(jì)算機(jī)所直接利用,從而對(duì)計(jì)算機(jī)句法分析提供簡(jiǎn)單、高效和健壯的句法規(guī)則。

      現(xiàn)代藏語(yǔ)虛詞搭配規(guī)則形式化分析研究以及由此派生的藏語(yǔ)語(yǔ)義塊自動(dòng)切分技術(shù)的研究應(yīng)用于新一代Internet搜索引擎、藏語(yǔ)問(wèn)答系統(tǒng)、自動(dòng)抽取、自動(dòng)語(yǔ)義塊切分、機(jī)器翻譯、自然語(yǔ)言理解、人工智能等多個(gè)領(lǐng)域。藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語(yǔ)義研究的基礎(chǔ)和前提,為進(jìn)一步研究藏語(yǔ)短語(yǔ)、藏語(yǔ)句法分析等提供依據(jù),也為開(kāi)展藏文文法及語(yǔ)義的研究工作奠定基礎(chǔ),而計(jì)算機(jī)自動(dòng)識(shí)別藏文虛詞又是藏語(yǔ)虛詞研究的前提。

      2 藏文虛詞分析

      2.1 藏語(yǔ)虛詞的重要性

      藏語(yǔ)的詞匯可以分為實(shí)詞和虛詞兩大類(lèi)。實(shí)詞是名詞、動(dòng)詞、形容詞等具有實(shí)在意義的詞匯,能夠在藏語(yǔ)語(yǔ)句中充當(dāng)主要成分。虛詞是格助詞、關(guān)聯(lián)詞等沒(méi)有實(shí)在意義的、不能作為語(yǔ)句的主要成分,不能單獨(dú)用來(lái)回答問(wèn)題[4]。與實(shí)詞相比,虛詞本身的意義雖然不夠“實(shí)在”,但是它能夠配合實(shí)詞表達(dá)出確切的語(yǔ)義,是將實(shí)詞連接起來(lái)構(gòu)成藏語(yǔ)語(yǔ)句表達(dá)確切語(yǔ)義的“粘合劑”。研究現(xiàn)代藏語(yǔ)語(yǔ)句的計(jì)算機(jī)句法分析,就不能不對(duì)這類(lèi)具有將實(shí)詞組織起來(lái)形成一定句法結(jié)構(gòu)的功能性詞匯加以重點(diǎn)研究。藏語(yǔ)語(yǔ)句的構(gòu)成具有其他語(yǔ)言所不具備的特色: 一個(gè)藏語(yǔ)語(yǔ)句是由實(shí)詞經(jīng)過(guò)虛詞的再編碼從而有規(guī)則地進(jìn)入句法結(jié)構(gòu)而形成的語(yǔ)義塊序列[5]。按照這一思想,藏語(yǔ)語(yǔ)句的構(gòu)成過(guò)程可以大致描述如下: 首先由實(shí)詞和結(jié)構(gòu)助詞形成語(yǔ)義比較集中的語(yǔ)義塊,再由虛詞將這些語(yǔ)義塊按照一定的順序構(gòu)成語(yǔ)義塊序列。因此,虛詞是藏語(yǔ)語(yǔ)句結(jié)構(gòu)的有機(jī)組成部分,并且在藏文句子中藏語(yǔ)虛詞的出現(xiàn)頻率又很高,所以,虛詞對(duì)藏語(yǔ)句子的研究很重要。

      藏語(yǔ)虛詞的研究,歷來(lái)受到語(yǔ)言學(xué)研究者的重視。但是,這些研究的目的主要是幫助人們更好地理解藏語(yǔ),面向的是人而不是計(jì)算機(jī)。因此,這些語(yǔ)法書(shū)籍常常以將虛詞的用法分門(mén)別類(lèi)舉例說(shuō)明的方式編排,對(duì)于采用計(jì)算機(jī)的藏語(yǔ)語(yǔ)言處理來(lái)說(shuō),必須首先將這些語(yǔ)言學(xué)知識(shí)進(jìn)行形式化的處理,才能應(yīng)用于計(jì)算機(jī)自動(dòng)句法分析。

      2.2 藏語(yǔ)虛詞的使用方法

      顧名思義,自由虛詞的使用就不受前后字符的添接限制。理論上,在使用自由虛詞時(shí),可選擇與格相符的任何一個(gè)自由虛詞都可以,但實(shí)際使用時(shí),也受語(yǔ)言習(xí)慣等限制。有些格的虛詞中自由與不自由兼而有之,例如,作格、位格、飾集詞等。使用時(shí)按照該虛詞本身是自由還是不自由來(lái)確定該虛詞的使用情況。

      2.3 計(jì)算機(jī)識(shí)別藏語(yǔ)虛詞的難點(diǎn)分析

      藏文虛詞有兼類(lèi)性、組合性、黏著變體性、結(jié)合性等特點(diǎn),這些特點(diǎn)加大了計(jì)算機(jī)識(shí)別藏語(yǔ)虛詞的難度。

      1. 虛詞的兼類(lèi)性。有些虛詞與實(shí)詞兼類(lèi),它既是虛詞又是實(shí)詞。例如,(虛詞后面括號(hào)中的中文就是該虛詞作為實(shí)詞時(shí)的意義)(隊(duì))、(病)、(坡)、(山羊)、(青稞)、(宿命)、(懂)、(臉)、(母)、(吻)、(尸體)、(年)、(齒)、(天)、(人)等; 部分虛詞與虛詞也兼類(lèi),例如,等。甚至有些虛詞兼多種類(lèi),例如:是實(shí)詞“煙”,又是位格的虛詞,還兼疑問(wèn)代詞“多少”。藏語(yǔ)虛詞的兼類(lèi)性增加了計(jì)算機(jī)識(shí)別虛詞的難度。

      3 藏文虛詞的識(shí)別方法

      懂藏文的人在閱讀一句話(huà)時(shí),主要通過(guò)語(yǔ)義來(lái)確定虛詞的,但計(jì)算機(jī)不能像人一樣從語(yǔ)義來(lái)判斷,要理解語(yǔ)義的前提還是先分詞。藏文分詞算法基本上采用“規(guī)則+特征”的方法,首先通過(guò)虛詞把句子劃分成“塊”,再對(duì)“塊”用“最大匹配”算法來(lái)切分成詞[8],計(jì)算機(jī)識(shí)別藏文虛詞非常重要,按照藏文虛詞的使用方法和計(jì)算機(jī)識(shí)別藏文虛詞的難點(diǎn)分析,制定了首先排除虛詞的兼類(lèi)性、再利用不自由虛詞的接續(xù)規(guī)則來(lái)判斷虛詞、再識(shí)別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴的方法來(lái)識(shí)別藏文虛詞。藏文文本中識(shí)別虛詞和文本劃“塊”的過(guò)程如圖1所示。

      圖1 藏文文本中識(shí)別虛詞和文本劃“塊”的過(guò)程

      3.1 兼類(lèi)虛詞的排除

      3.2 利用不自由虛詞的接續(xù)規(guī)則判斷虛詞

      不自由虛詞的使用受到前后字符的限制,充分利用該特點(diǎn)建立一個(gè)虛詞詞典,格式如: {虛詞前導(dǎo)字符后接字符}。在藏文連續(xù)文本中找到這類(lèi)虛詞時(shí),利用其“前導(dǎo)字符”和“后接字符”,即不自由虛詞的接續(xù)規(guī)則來(lái)識(shí)別這類(lèi)虛詞。

      3.3 黏著虛詞的識(shí)別還原法

      按照藏語(yǔ)虛詞的黏著變體性特點(diǎn),分了三種情況來(lái)識(shí)別虛詞的黏著性。

      if(“整塊與詞典匹配”成功)

      該“塊”就是一個(gè)詞;

      else{

      if( “塊”與詞典匹配成功)

      else{

      if(“新塊”與詞典匹配成功)

      分離黏著虛詞;

      還原“被黏著”對(duì)象;

      還原黏著虛詞;

      else

      “塊”中去掉最后一個(gè)藏文音節(jié);

      }

      else

      “塊”中去掉最后一個(gè)藏文音節(jié);

      }

      }

      “塊”中被劃出了詞和虛詞以后,剩下的部分又組成新的塊,調(diào)用同樣的算法來(lái)進(jìn)一步劃分詞和識(shí)別虛詞。

      3.4 結(jié)合中嵌后綴虛詞

      4 結(jié)果分析

      綜合考慮文獻(xiàn)的年代、類(lèi)別、體裁、地域、風(fēng)格等,從經(jīng)典作品中選擇了2 525句。根據(jù)以上提到的“藏語(yǔ)虛詞的識(shí)別方法”,設(shè)計(jì)出了相應(yīng)的藏文虛詞的識(shí)別程序,識(shí)別藏文虛詞的同時(shí)進(jìn)行了藏文分詞。對(duì)結(jié)果進(jìn)行分析,2 525句藏文句子中有45 685個(gè)藏文音節(jié),其中包括10 126個(gè)藏文虛詞,程序正確識(shí)別了9 830個(gè)藏文虛詞,正確率高達(dá)97.076 8%,但同時(shí)也存在以下缺陷。

      4.1 詞典不完善導(dǎo)致的錯(cuò)誤

      4.2 僅基于規(guī)則導(dǎo)致的錯(cuò)誤

      4.3 規(guī)則的缺陷導(dǎo)致的錯(cuò)誤

      5 結(jié)語(yǔ)

      藏文虛詞在藏文自然語(yǔ)言處理研究中占有很重要的地位,文本詳細(xì)分析了藏文虛詞的兼類(lèi)性、組合性、黏著變體性和結(jié)合型等現(xiàn)象,提出了首先排除虛詞的兼類(lèi)性、其次利用不自由虛詞的接續(xù)規(guī)則來(lái)判斷虛詞、再識(shí)別和還原黏著虛詞、最后結(jié)合中嵌否定詞和指人后綴來(lái)識(shí)別藏文虛詞的方法。利用該方法識(shí)別藏文虛詞的正確率達(dá)97.076 8%。

      文本還對(duì)結(jié)果的錯(cuò)誤類(lèi)型進(jìn)行了分析,指出了其錯(cuò)誤主要由詞典的不完善和規(guī)則的缺陷導(dǎo)致,以后還需要在大量真實(shí)的藏文文本中不斷測(cè)試、不斷補(bǔ)充詞典和完善規(guī)則。同時(shí)引入統(tǒng)計(jì)模型來(lái)嘗試是否對(duì)識(shí)別藏文虛詞有利。

      [1] 孫茂松,陳群秀.中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2007—2009)[M].清華大學(xué)出版社,2009.

      [2] 吉太加.現(xiàn)在藏文語(yǔ)法通論[M].甘肅民族出版社.2000.

      [3] Daniel Jurafsky,James H.Martin著,馮志偉、孫樂(lè)翻譯.自然語(yǔ)言處理綜論[M].電子工業(yè)出版社,2005.

      [4] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M],民族出版社,2007.

      [5] 江荻. 現(xiàn)代藏語(yǔ)動(dòng)詞的句法語(yǔ)義分類(lèi)及相關(guān)語(yǔ)法句式[J].中文信息學(xué)報(bào).2006(1):37-43.

      [6] 格桑居冕,格桑央京.實(shí)用藏文文法教程[M].四川出版集團(tuán),四川民族出版社.2008.

      [7] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報(bào),2009,23(4):113-117.

      [8] 陳玉忠,李保利,俞士汶,等.藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2003,17(3):15-20.

      [9] 才智杰藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1):35-37.

      [10] 劉匯丹,諾明花,趙維納,等.SegT: 一個(gè)實(shí)用的藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2003,26(1):97-103.

      [11] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].清華大學(xué)出版社,2008.

      猜你喜歡
      兼類(lèi)藏語(yǔ)藏文
      淺談藏語(yǔ)中的禮儀語(yǔ)
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      現(xiàn)代韓國(guó)語(yǔ)兼類(lèi)詞表征研究
      ——以《新國(guó)語(yǔ)詞典》(第5版)為例
      漢藏語(yǔ)及其音樂(lè)
      基于統(tǒng)計(jì)的《HSK詞匯等級(jí)大綱》動(dòng)名兼類(lèi)詞標(biāo)注研究*
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      藏語(yǔ)拉達(dá)克話(huà)的幾個(gè)語(yǔ)音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      藏語(yǔ)地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      内丘县| 麻阳| 夏邑县| 内黄县| 保山市| 永清县| 饶平县| 牡丹江市| 库尔勒市| 甘洛县| 红河县| 兴城市| 拉萨市| 锦屏县| 巴中市| 东乡县| 阿拉尔市| 班戈县| 离岛区| 宁武县| 赣榆县| 昭苏县| 凤凰县| 科尔| 临江市| 沙洋县| 浙江省| 济源市| 嘉禾县| 灵台县| 博野县| 丹凤县| 岢岚县| 封开县| 雷州市| 靖远县| 山阳县| 类乌齐县| 阿合奇县| 丰城市| 西峡县|