• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于感知機模型藏文命名實體識別

      2014-04-03 07:33:50華卻才讓姜文斌趙海興
      計算機工程與應用 2014年15期
      關鍵詞:藏文分詞音節(jié)

      華卻才讓 ,姜文斌 ,趙海興 ,劉 群

      HUA Quecairang1,2,JIANG Wenbin3,ZHAO Haixing1,LIU Qun3

      1.陜西師范大學 計算機學院,西安 710062

      2.青海師范大學 藏文信息研究中心,西寧 810008

      3.中國科學院 計算技術研究所,北京 100190

      1.Computer Science School of Shaanxi Normal University,Xi’an 710062,China

      2.Tibetan Information Research Center,Qinghai Normal University,Xining 810008,China

      3.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China

      藏文命名實體識別(Named Entity Recognition,NER)是確定藏文文本中人名、地名、機構名和數(shù)詞等名詞短語的過程。它是藏文分詞、機器翻譯、跨語言檢索和文檔摘要等自然語言處理中應用的關鍵技術,也是目前藏文自然語言處理中亟待解決的問題。藏文作為典型的邏輯格語法體系的復雜拼音文字之一[1],首先句子中最基本的單元為音節(jié)(字),一個或多個音節(jié)構成詞語,詞與詞之間沒有明顯標記;其次,具有嚴格的格詞接續(xù)規(guī)則,部分格詞與前一個詞存在粘著和形態(tài)變化等關系[2],導致與音節(jié)的后置字符及又后置字符間存在歧義;第三動詞在時態(tài)上具有屈折變化。這些復雜性使得藏文分詞已成為藏文信息處理中的一個難題[3],而藏文命名實體的識別更為困難,也是必須要解決的問題。

      藏文中命名實體類似中文命名實體沒有區(qū)分標記,其基本單元一個音節(jié)類似中文的一個字,沒有英文中的大小寫特征,它們和非命名實體沒有形態(tài)上的區(qū)別。大部分藏族都有姓,包括古代莊園名、家族名、部落名和地名等,也有寺院和封號名。常見的藏族人名按音節(jié)長度有2個(1個詞)、3個(1個或2個詞)和4個音節(jié)(2個詞),個別有1個和6個音節(jié),加上姓和封號后甚至有26個音節(jié)長度的姓名。而藏文地名、機構名同漢語類似,都有一些開頭和結尾特征,但用詞特點不同[4]。此外藏文中漢族以及外國人名、地名和機構名均類似漢語中的命名實體。

      藏文命名實體識別模塊是藏文分詞和藏漢翻譯系統(tǒng)中不可或缺的組成部分,然而國內外對其研究很少,文獻[5]中首次提出了基于規(guī)則和HMM模型藏語命名實體識別方案。文獻[6]中研究了藏族人名漢譯后的識別方法,提取藏族人名用字(串)特征和命名規(guī)則,結合詞典(3千條)采用串頻統(tǒng)計和頻率對比策略,以及人名前后一個詞為單位共現(xiàn)概率作為可信度的藏族人名識別模型,需給出預先定義的閾值。在新華網(wǎng)藏族頻道文本和《人民日報》(2000-01)上實驗的召回率分別為85.54%和81.73%。

      本文只討論藏文人名、地名和機構名的識別方法,提出的基于音節(jié)的藏文命名實體識別方案,采用基于音節(jié)特征訓練模型,準確識別藏文人名、地名和機構名,識別綜合性能達到86.03%。

      1 總體框架

      由于藏文句子中詞與詞之間沒有明顯的分隔符,使得自動分詞中難免存在分詞錯誤,使命名實體開頭、結尾音節(jié)或詞與上下文詞語的切分歧義,影響分詞基礎上識別命名實體的正確率。況且組成詞語的音節(jié)具有自身的特征,特別是其字母組合上有很多拼寫規(guī)則和規(guī)律,3/4的藏文音節(jié)是依據(jù)藏文文法規(guī)則來拼寫的[7]。而音節(jié)間關系不僅反映了詞的內部結構特征,還反映了詞語的接續(xù)特征。采用基于音節(jié)的藏文命名實體識別方案,即音節(jié)識別、再用感知機模型和詞典解碼獲得n-best結果,最后利用知識庫獲得最佳(權重最大)識別結果。整體數(shù)據(jù)流程及框架見圖1。

      圖1 藏文命名實體識別流程圖

      2 藏文音節(jié)及識別

      藏語文本中絕大部分音節(jié)可由音節(jié)分隔符“·”劃分,但由于藏語文法中存在的六種緊縮格(),導致這六種格與其前的音節(jié)間存在黏著關系,甚至存在緊縮關系。文獻[8]提出了藏文緊縮詞及還原法,利用藏文緊縮詞的添接規(guī)則還原分詞后的藏文原文。利用組成音節(jié)的字根、前置字、后置字等字母構件集和字母拼寫規(guī)則,識別實際拼寫音節(jié),校對音節(jié)[8]。本文考慮到有效獲取音節(jié)間實際上下文特征,只要將黏著緊縮音節(jié)劃分為兩個音節(jié),能準確判斷出黏著緊縮關系即可。圖2中實際拼寫切分為本文采用的方法。

      圖2 緊縮詞還原切分和實際拼寫切分比較

      本文首先按藏語音節(jié)分隔符“·”分隔為準音節(jié),準音節(jié)分為緊縮準音節(jié)和非緊縮準音節(jié),而緊縮準音節(jié)包括三種,分別為直接分隔緊縮準音節(jié)、可還原緊縮準音節(jié)和歧義緊縮準音節(jié);其中非緊縮準音節(jié)(譬如:)可直接劃分為一個音節(jié);緊縮準音節(jié)可劃分為兩個音節(jié),其中直接分隔緊縮準音節(jié)(譬如:)可直接分隔為一個音節(jié)()和可分黏著格();可還原緊縮準音節(jié)(譬如)可直接還原為一個還原音節(jié)()和一個(還原)黏著格();歧義緊縮準音節(jié)()可能為一個音節(jié)()和一個黏著格(),或者可能為一個單音節(jié)名詞(),同時可能存在還原()問題。為獲得藏文實際拼寫時的上下文音節(jié)特征,本文沒有按照嚴格分詞方法處理。當用非緊縮音節(jié)表1和緊縮詞,判斷一個音節(jié)為緊縮準音節(jié)后根據(jù)格助詞直接分隔即可,譬如:()確定為緊縮關系,則劃分為形式,中間加個空格來劃分。歧義緊縮準音節(jié)根據(jù)建立的排歧詞表1來劃分,當前歧義緊縮準音節(jié)與第一個左部或右部出現(xiàn)的音節(jié)同時出現(xiàn)在歧義詞表時將其直接劃分為一個音節(jié),否則劃分為兩個音節(jié)。經(jīng)測試,在25 MB藏文語料中緊縮詞的識別準確率達99.91%。此外,當抽取命名實體詞典時對特殊緊縮邊界作還原,譬如,“”抽取并還原為“

      表1 非緊縮音節(jié)和排歧詞表

      3 命名實體的序列標注規(guī)范

      在應用機器學習算法之前,首先將語料中標注好的命名實體的單詞序列轉換成音節(jié)標注序列。根據(jù)音節(jié)與命名實體的關系,將音節(jié)標注為13個標注規(guī)范中的一個。標注詳細信息見表2。比如,可以將詞級別人工標注好的命名實體句子(1)轉換為命名實體音節(jié)序列標注句子(2)。

      如果在識別過程中發(fā)生歧義,則句子中的某些音節(jié)會有多個可能的標注。比如,對于上述句子(1)中的組成人名的每個音節(jié)可能存在多個標注(3),下面只給出了前三個詞的標注結果:

      這和詞性標記相似,一個音節(jié)的標注會受前面音節(jié)的標注影響。比如,當 標注為LR時,則其后面的音節(jié)只能被標注為MR或RR;而當 被標注為OW時,其后的音節(jié)只能被標注為 OW、LR、LS、LT、NR、NS和NT。同樣,同樣一個音節(jié)的標注也會受該音節(jié)周圍音節(jié)的影響。這與詞性標注任務相似,記載特定的上下文中,從多個可能的標注中選擇正確的標注。接下來是從1.3萬句標注好的訓練語料中訓練得到感知機在線平均權重訓練模型,以對新出現(xiàn)的句子進行自動標注。

      表2 標注規(guī)范信息

      4 模型及特征訓練

      4.1 模型

      感知機方法是利用錯誤分類對決策權向量進行修正至收斂的方法?;诟兄獧C文本序列標注方法在句法分析[9]中取得了比較好的效果,具有容易定義特征、訓練速度快和分類效果好等特性。此方法同樣在Unicode編碼藏文文本自動分詞和詞性標注中得到了驗證[1]。設輸入句子xi∈X,輸出標注序列 yi∈Y,X表示訓練語料中的所有句子,Y表示對應標注命名實體標記的音節(jié)序列。本文采用項目組制訂的命名實體音節(jié)標注規(guī)范見表2,其中藏文音節(jié)標注代碼包括13個。那么最佳命名實體音節(jié)標注序列為:

      其中 f(xi,yi)表示輸入句子和產生標注序列的特征向量,w表示訓練后得到的特征權重。

      4.2 特征

      表3 藏文音節(jié)特征模板表1)

      使用的特征包含了四類上下文信息:(1)音節(jié)化上下文。對于句子中的每個音節(jié),只考慮當前音節(jié),前面兩個音節(jié)和后面兩個音節(jié)。譬如,人名“中的第一個音節(jié)“”的標注可能為OW、LR或RS,但由于它前面兩個音節(jié)為“和,受這兩個音節(jié)的影響它被標注為RR。如果其前面為“ ”則被標注為OW。(2)前面出現(xiàn)的標注。這類信息對于預測當前音節(jié)的標注是非常有用的。譬如,如果前面的音節(jié)被標注為LR,則表示前一個單詞是某人名的起始音節(jié),則當前音節(jié)是該人名的中間或結束音節(jié),應該被標注為MR或RR。(3)格詞接續(xù)規(guī)則。主格、屬格、于格和從格等主要格詞類具有固定的接續(xù)特征,且與形態(tài)動詞相關[7]。接續(xù)規(guī)則與前一個詞的最后一個音節(jié)的后置字相關,譬如,主格的接續(xù)要參照詞“的后置字“若符合則當前音節(jié)被標注為OW,而表示前一個音節(jié)的標記可能為RR、RS或RT。(4)命名實體詞典特征。命名實體在相應詞典中出現(xiàn)的特征信息類似上下文和標注信息,這類訓練權重同樣可用來正確標注命名實體的當前音。

      4.3 在線訓練

      本文采用感知機在線的學習權重,并獲取平均向量權重的方法[11],該算法具有魯棒特性,在短語結構句法分析中,該算法擬合訓練結果獲得了最佳近似擬合效果[12]。在線訓練算法中當完成一個單獨訓練實例的擬合過程后,權重向量w就會更新一次。算法1中Y=為訓練集,訓練集中每條句對(xi,yi)由句子xi和其正確的序列標注yi的句對構成。

      算法1在線平均感知機權重訓練算法

      利用在線學習算法對感知機模型訓練結束后,每個特征及對應的權重將被用來自動標注新出現(xiàn)的句子中的命名實體。

      5 解碼

      感知機模型解碼算法是尋找權重最大的音節(jié)標注序列,從式(1)可以推導出最大權重音節(jié)序列標注生成模型,可以定義為:

      其中si為序列標注句子 y中的第i個音節(jié),fk(si)為根據(jù)特征模板獲得的第k個特征,wk為該特征在訓練樣本上第m次迭代后得到的平均權重,表示每個特征對命名實體音節(jié)類別的貢獻,決定命名實體的邊界。使用柱搜索算法,按從左到右的順序標注句子中的每個藏文音節(jié),見算法2。然后可以通過回溯得到最優(yōu)標注結果以及n-best命名實體音節(jié)序列標注結果。

      算法2命名實體標注解碼算法

      算法中chart表示音節(jié)標注搜索圖,每個頂點Node(POS,POS_1,score,prior)包含四個屬性,分別為當前音節(jié)屬性標記;前驅音節(jié)屬性標記;從起始頂點至當前頂點的累加分值,以及其前驅頂點序號。s[i]表示當前音節(jié),psbPOSs包含當前藏文音節(jié)在訓練語料中出現(xiàn)過的標注規(guī)范集,preTags包含所有可能的前驅頂點。SORTINSERT(curNode,chart[i])函數(shù)完成當前頂點的篩選和前驅的路徑的剪枝功能,在實驗中直方圖剪枝,堆??臻g大小設為20,按遞減排序當前堆棧,只保留前20個標注假設,其余標注分值較差的部分將被剪枝;柱搜索剪枝[13]所定義的搜索寬度為2,兼類音節(jié)引起存在多條路徑到當前節(jié)點,而且路徑中當前節(jié)點的第一個前驅節(jié)點和當前節(jié)點的標注一致時,則剪枝分值低的路徑。通過剪枝降低解碼的復雜度后,算法復雜度公式可以簡化為:

      tag options為標注規(guī)范的數(shù)量,sentence length為句子中的音節(jié)數(shù)。當搜索圖中形成終點,獲取所有可能序列標注路徑或標注結果后,可以通過回溯算法生成權重分值最高的音節(jié)格式命名實體標注句子。

      6 實驗和分析

      6.1 語料

      采用的訓練和測試語料來自藏文網(wǎng)站上相關命名實體的各個領域,包括新聞、小說、法律、人物介紹等。語料加工分兩步,(1)進行自動分詞、詞性標注后,經(jīng)人工修改其中切分和標注錯誤的命名實體。(2)將完整的詞性標注好語料轉換為基于藏文音節(jié)標注模式語料,見圖1。訓練語料和測試語料的基本情況見表4。為獲取訓練語料中的詞典特征,項目組整理了2.6萬條人名、1.8萬條地名和2千條機構名。

      表4 該語料概況

      6.2 實驗

      在本實驗中,為比較切分粒度對藏文命名實體的影響,使用基于分詞基礎上識別藏文命名實體的方法為基線系統(tǒng),在表4給出的訓練和測試集語料上,采用了相同的序列標注規(guī)范、特征向量抽取模板、在線感知模型學習和解碼算法。藏文命名實體識別的評價指標包括準確率(Precision)、召回率(Recall)和F值(F-Measure)三個指標[14]。各項指標越高說明命名實體的找出能力和判別能力越強。分別基于分詞[15]和音節(jié)特征感知機藏文命名實體識別性能見表5。

      表5 藏文命名實體識別實驗結果 (%)

      從實驗結果可以看出基于音節(jié)特征識別NE的F值相對于分詞方法高出10.52個百分點,這是因為測試語料中的命名實體對分詞系統(tǒng)來說,很多都是未登錄詞,切分時容易出現(xiàn)未登錄詞與上下文切分錯誤,引起命名實體識別錯誤,比如“意思為“他在成都經(jīng)營格桑多杰唐卡工藝館。”,分詞結果為本文切分分隔符為空格的音節(jié)切分結果為基于音節(jié)特征方法中被正確識別的命名實體為而分詞方法中只有識別這是錯誤的,分詞時把分為了一個詞,導致命名實體識別錯誤。由于訓練語料規(guī)模,本文提出的藏文命名實體識別效果比英文(F=93.87%)[4]和中文(F=91.18%)[16]偏低,但是對于一般藏文文本中出現(xiàn)的命名實體的識別依然達到了可以接受的標準。

      7 結語

      藏文人名、地名和機關名等命名實體的專門識別是一項比較基礎,但很重要的工作,可是國內外的相關研究較少。本文根據(jù)藏文命名實體的構詞規(guī)律,以及其基本組成單位音節(jié)特征出發(fā),提出了基于藏文音節(jié)特征的藏文命名實體識別方法。采用感知機方法訓練命名實體標注語料,結合詞典和訓練模型用動態(tài)規(guī)劃算法獲得命名實體標注權重最大的n-best,最終輸出最佳命名實體識別結果。藏文命名實體識別綜合性能達到86.03%。在現(xiàn)有的研究基礎上,將進一步研究擴充知識庫,對未能正確識別的命名實體采用知識庫指導或統(tǒng)計和規(guī)則混合模型識別的方法。

      [1]孫萌,劉群.基于判別式分類和重排序技術的藏文分詞[C]//第十二屆全國少數(shù)民族語言文字信息處理學術研討會論文集,2011.

      [2]格桑居冕.實用藏文文法[M].成都:四川民族出版社,1987.

      [3]孫萌,華卻才讓,劉凱,等.藏文數(shù)詞識別與翻譯[J].北京大學學報:自然科學版,2013(1):75-80.

      [4]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術,2010(6):42-47.

      [5]金明,楊歡歡,單廣榮.藏語命名實體識別研究[J].西北民族大學學報:自然科學版,2010(3):49-52.

      [6]羅智勇,宋柔,朱小杰.藏族人名漢譯名識別研究[J].情報學報,2009(3):475-480.

      [7]珠杰,李天瑞,喬少杰.藏文音節(jié)規(guī)則模型及應用[J].北京大學學報:自然科學版,2013(1):69-74.

      [8]才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學報,2009(1):35-37.

      [9]Collins M.Discriminative training methods for hidden markov models:theory and experiments with perceptron algorithms[C]//Proceedings of the Empirical Methods in Natural Language Processing Conference,Philadelphia,America,2002:1-8.

      [10]華卻才讓,姜文斌,趙海興,等.基于詞對依存分類的藏語樹庫半自動構建研究[J].中文信息學報,2013,27(5).

      [11]McDonald R,Pereira F.Online learning of approximate dependency parsing algorithms[C]//Proceedings of EACL,2006:81-88.

      [12]Collins M,Roark B.Incremental parsing with the perceptron algorithm[C]//Proc ACL,2004.

      [13]Koehn P.統(tǒng)計機器翻譯[M].宗成慶,張霄軍,譯.北京:電子工業(yè)出版社,2012.

      [14]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008.

      [15]孫萌,華卻才讓,姜文斌,等.藏文分詞及其在藏漢機器翻譯中的應用[J].信息技術快報,2013,11(4).

      [16]馮元勇,孫樂,李文波,等.基于單字提示特征的中文命名實體識別快速算法[J].中文信息學報,2008(1):104-109.

      猜你喜歡
      藏文分詞音節(jié)
      西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
      布達拉(2020年3期)2020-04-13 10:00:07
      拼拼 讀讀 寫寫
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      黑水城和額濟納出土藏文文獻簡介
      西夏學(2019年1期)2019-02-10 06:22:34
      值得重視的分詞的特殊用法
      藏文音節(jié)字的頻次統(tǒng)計
      現(xiàn)代語境下的藏文報刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      快樂拼音
      木管樂器“音節(jié)練習法”初探
      高考分詞作狀語考點歸納與疑難解析
      鸡东县| 宽城| 清苑县| 崇信县| 彭泽县| 南皮县| 绵竹市| 沂南县| 沈阳市| 云浮市| 炎陵县| 进贤县| 辽宁省| 台北县| 怀柔区| 慈利县| 历史| 抚顺县| 苏州市| 闵行区| 响水县| 深泽县| 文水县| 抚顺县| 区。| 巴青县| 河源市| 井研县| 乌兰察布市| 刚察县| 遵义县| 肥东县| 闽清县| 翼城县| 泽普县| 凤冈县| 汾阳市| 黑龙江省| 达拉特旗| 凤山市| 石渠县|