• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “蒙古語(yǔ)名詞語(yǔ)義信息詞典”的開發(fā)與應(yīng)用

      2015-04-21 08:43:51海銀花那順烏日?qǐng)D
      中文信息學(xué)報(bào) 2015年3期
      關(guān)鍵詞:內(nèi)蒙古大學(xué)蒙古語(yǔ)詞條

      海銀花,那順烏日?qǐng)D

      (1. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

      ?

      “蒙古語(yǔ)名詞語(yǔ)義信息詞典”的開發(fā)與應(yīng)用

      海銀花1,那順烏日?qǐng)D2

      (1. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

      2009年至今,“蒙古語(yǔ)名詞語(yǔ)義信息詞典”(以下簡(jiǎn)稱為“名詞語(yǔ)義詞典”)通過幾年的開發(fā)目前詞典基本成形,并且有了顯著的新進(jìn)展。其新進(jìn)展主要體現(xiàn)在詞條的擴(kuò)充、屬性字段的增添及其初步應(yīng)用。該文概要介紹“名詞語(yǔ)義詞典”的研發(fā)過程,實(shí)例說(shuō)明這部詞典的新進(jìn)展和初步應(yīng)用情況。

      蒙古語(yǔ)名詞;語(yǔ)義信息詞典;開發(fā);應(yīng)用

      1 引言

      “蒙古語(yǔ)語(yǔ)義信息詞典”是基于“蒙古語(yǔ)語(yǔ)法信息詞典”研發(fā)的一部面向蒙古語(yǔ)語(yǔ)句自動(dòng)處理的語(yǔ)言知識(shí)庫(kù)。它以數(shù)據(jù)庫(kù)文件形式收錄5.7萬(wàn)個(gè)詞條,不但給出每個(gè)詞語(yǔ)所屬的詞類、語(yǔ)義分類、近義、反義、同形等基本語(yǔ)義屬性之外,而且以義項(xiàng)為單位詳細(xì)描述了它們的各種語(yǔ)義搭配限制和配價(jià)信息。無(wú)論是基礎(chǔ)研究還是應(yīng)用開發(fā),它是一部基于蒙古語(yǔ)詞匯的語(yǔ)義屬性描述體系,為滿足計(jì)算機(jī)語(yǔ)義自動(dòng)分析、詞義消歧等更深層次的語(yǔ)言信息處理提供形式化語(yǔ)義知識(shí)。整個(gè)詞典的研發(fā)進(jìn)程包括如下內(nèi)容:

      (1) 充分表示蒙古語(yǔ)詞語(yǔ)語(yǔ)義關(guān)系和語(yǔ)義層次的詞語(yǔ)語(yǔ)義分類框架體系及其相關(guān)標(biāo)記集,它是面向語(yǔ)義分析和語(yǔ)義生成的蒙古語(yǔ)詞語(yǔ)語(yǔ)義屬性描述體系。主要包括七項(xiàng)大類、198項(xiàng)子類的名詞語(yǔ)義分類體系及其標(biāo)記集;六項(xiàng)大類、217項(xiàng)子類的形容詞語(yǔ)義分類體系及其標(biāo)記集;以及五項(xiàng)大類、121項(xiàng)子類的動(dòng)詞語(yǔ)義分類體系及其相應(yīng)的標(biāo)記集。

      (2) 描述每個(gè)詞語(yǔ)翔實(shí)語(yǔ)義信息的“名詞語(yǔ)義信息詞典”、“形容詞語(yǔ)義信息詞典”和“動(dòng)詞語(yǔ)義信息詞典”等蒙古語(yǔ)三大詞類的知識(shí)庫(kù),其各自囊括的信息量和信息總量計(jì)算如表1所示。

      (3) 針對(duì)該詞典是一部盡可能從多角度、多層次上描述現(xiàn)代蒙古語(yǔ)常用詞語(yǔ)語(yǔ)義特征的知識(shí)庫(kù)這一特點(diǎn),開發(fā)了“蒙古語(yǔ)同形詞知識(shí)庫(kù)”、“蒙古語(yǔ)多義詞詞典”、“蒙古語(yǔ)連接形式知識(shí)庫(kù)”等三個(gè)輔助庫(kù)[1]。

      表1 “蒙古語(yǔ)語(yǔ)義信息詞典”信息量計(jì)算表

      (4) 集語(yǔ)法信息與語(yǔ)義信息于一身的語(yǔ)言知識(shí)庫(kù)管理平臺(tái)。為了更好地管理并補(bǔ)充和完善蒙古語(yǔ)語(yǔ)言知識(shí)庫(kù)中的詞條及語(yǔ)法、句法、語(yǔ)義信息的統(tǒng)一性和完整性,管理平臺(tái)對(duì)各個(gè)資源庫(kù)設(shè)計(jì)了若干個(gè)MDI子節(jié)點(diǎn)窗體,分別實(shí)現(xiàn)了添加、修改、刪除、查詢、瀏覽和校對(duì)等功能和一系列連貫操作。

      本課題是已有國(guó)家自然科學(xué)基金項(xiàng)目的原有成果“蒙古語(yǔ)語(yǔ)法信息詞典”的繼承和延伸。譬如,“名詞語(yǔ)義詞典”14 105詞條的直接來(lái)源為語(yǔ)法信息詞典“名詞分庫(kù)”的原有詞條[2],“形容詞語(yǔ)義詞典”的11 025余詞條是通過 擴(kuò) 充 語(yǔ)法信息詞典“形容詞分庫(kù)”的7 600余詞條而獲取的[3]。詞典管理平臺(tái)集成語(yǔ)法信息和語(yǔ)義信息的同時(shí)具備了對(duì)于語(yǔ)法信息詞典和語(yǔ)義信息詞典均可進(jìn)行科學(xué)的管理和維護(hù)功能[4]。

      2 “名詞語(yǔ)義詞典”的開發(fā)

      2.1 語(yǔ)義分類體系及其標(biāo)記集

      我們充分利用有關(guān)蒙古語(yǔ)詞語(yǔ)語(yǔ)義分類前人研究成果,借鑒和參考英語(yǔ)、漢語(yǔ)等其他語(yǔ)言的詞語(yǔ)語(yǔ)義分類體系的同時(shí),根據(jù)名詞的基本詞匯語(yǔ)義把蒙古語(yǔ)14 105個(gè)常用名詞進(jìn)行語(yǔ)義分類。整個(gè)語(yǔ)義分類體系包括事、物、智慧、時(shí)間、空間、動(dòng)作、度量等七個(gè)大類,198個(gè)子類,具有九個(gè)層次,如圖1所示。有關(guān)名詞語(yǔ)義分類體系另有一篇文章詳述[5]。由于該分類體系是針對(duì)“名詞語(yǔ)義詞典”的開發(fā)而研制,所以詞典庫(kù)中的“大語(yǔ)義類”和“子語(yǔ)義類”等兩個(gè)屬性字段的取值來(lái)源于該分類體系。

      圖1 蒙古語(yǔ)名詞語(yǔ)義分類體系及其標(biāo)記集樣本

      2.2 語(yǔ)義屬性描述

      “名詞語(yǔ)義詞典”數(shù)據(jù)庫(kù)中填置了22個(gè)屬性字段及其相應(yīng)的取值。我們把22種語(yǔ)義屬性信息可以歸納為“連接信息”、“基本語(yǔ)義信息”、“語(yǔ)義分類信息”、“搭配規(guī)則信息”和“配價(jià)信息”等五種大類,其各自囊括的屬性字段如表2所示。

      表2 語(yǔ)義屬性類別表

      詞典數(shù)據(jù)庫(kù)中設(shè)制的屬性字段名稱和取值翔實(shí)說(shuō)明如表3所示。

      表3 屬性字段名稱和屬性取值說(shuō)明

      續(xù)表

      圖2 “名詞語(yǔ)義詞典”數(shù)據(jù)庫(kù)樣本

      3 新進(jìn)展

      3.1 詞條的擴(kuò)充和整理

      我們通過以下兩個(gè)步驟把詞典詞條從原有的14 105條擴(kuò)充成18 000條。

      3.2 屬性字段的增加

      目前我們?cè)谠~典數(shù)據(jù)庫(kù)中增添的屬性字段及其屬性值說(shuō)明如下所述。

      表4 “名詞語(yǔ)義詞典”中的一價(jià)名詞配價(jià)信息描述樣本

      3.3應(yīng)用價(jià)值

      “名詞語(yǔ)義詞典”中的語(yǔ)義屬性在蒙古語(yǔ)多義詞義消歧、同形異義詞的辨別、短語(yǔ)結(jié)構(gòu)關(guān)系判定以及語(yǔ)義角色的標(biāo)注等各個(gè)層面都提供形式化語(yǔ)義知識(shí)。例如,以蒙古語(yǔ)作為目標(biāo)語(yǔ)的機(jī)器翻譯系統(tǒng)中“名詞語(yǔ)義詞典”判斷哪些詞是多義詞的方法是通過“義項(xiàng)”、“同形”、“大語(yǔ)義類”、“子語(yǔ)義類”等四個(gè)字段中的任何一個(gè)內(nèi)容可以說(shuō)明當(dāng)前的詞條是否一個(gè)多義詞。當(dāng)同一個(gè)名詞的多個(gè)義項(xiàng)屬于不同語(yǔ)義類時(shí),它們?cè)诰渥又兴艿降拇钆湎拗埔灿兴煌?。其中可以利用“大語(yǔ)義類”、“子語(yǔ)義類”、“釋義”、“價(jià)量”和“價(jià)質(zhì)”等字段在生成目標(biāo)語(yǔ)言過程中對(duì)當(dāng)前多義詞進(jìn)行消歧,從多義詞的不同譯法中挑選最合適的一個(gè)譯詞來(lái)提高譯文質(zhì)量。

      由于該詞典處于開發(fā)完后的初步階段,尚未進(jìn)入全面的應(yīng)用或產(chǎn)品化階段,所以下面我們只能以兩個(gè)實(shí)例來(lái)說(shuō)明該詞典已開始逐步投入應(yīng)用這一進(jìn)展情況。

      (1) 蒙古語(yǔ)名詞短語(yǔ)語(yǔ)義角色的統(tǒng)計(jì)分析研究[8]中應(yīng)用“名詞語(yǔ)義詞典”的“詞語(yǔ)”、“大語(yǔ)義類”、“子語(yǔ)義類”等三個(gè)字段,通過標(biāo)注蒙古語(yǔ)5 107個(gè)簡(jiǎn)單句進(jìn)行語(yǔ)義角色標(biāo)注,統(tǒng)計(jì)分析7 646條名詞短語(yǔ)充當(dāng)語(yǔ)義角色情況,歸納出813條名詞短語(yǔ)的語(yǔ)義角色識(shí)別規(guī)則,其具體方法步驟如下:

      1) 構(gòu)建名詞語(yǔ)義角色分析庫(kù)的基礎(chǔ)上,統(tǒng)計(jì)分析名詞短語(yǔ)語(yǔ)義角色結(jié)構(gòu)特征,例如,“存在”(0rs)的語(yǔ)義角色由NPd,NPs,Ne1, Ne2等形式表現(xiàn),其實(shí)例為{{{{SAYIN Ac HELE-TEI Ne1}NPd {MAGV Ac J0HIYAL Ne1}NPd}NPd

      锡林浩特市| 扎兰屯市| 读书| 洪洞县| 潼关县| 页游| 讷河市| 广南县| 故城县| 泰宁县| 上思县| 芷江| 贞丰县| 大安市| 长宁区| 社旗县| 攀枝花市| 泾阳县| 平陆县| 张家港市| 孝昌县| 湖南省| 佛山市| 盱眙县| 怀远县| 淮滨县| 永泰县| 东山县| 进贤县| 鄂州市| 东平县| 高淳县| 临猗县| 若羌县| 东海县| 大同县| 阿拉尔市| 阿城市| 临泽县| 湖南省| 静宁县|