• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      自然語言處理中的語義消歧研究

      2013-08-15 05:53:32賈媛媛
      淮南師范學院學報 2013年5期
      關鍵詞:消歧義項語料庫

      賈媛媛

      (淮南師范學院 數(shù)學與計算科學系,安徽 淮南 232038)

      1 簡介

      自然語言處理(又叫自然語言理解,計算語言學)是當前IT領域的重要技術之一。隨著互聯(lián)網(wǎng)信息的急劇增長,搜索引擎成為人們獲取信息不可缺少的工具。但是基于關鍵字索引的工具已經(jīng)越來越無法滿足用戶的需求,相反用戶更希望計算機能理解句子的意思以幫助我們更好地處理信息和組織信息,這就需要自然語言處理技術來解決,例如中文分詞、詞性標注、句法分析、依存關系分析、語義消歧等等。要真正理解句子的含義,這些最基本的處理是必須的。

      語義消歧是比分詞、詞性標注、句法分析更高級的自然語言處理技術,但面臨的困難也更大。例如,“我是她的粉絲”,要理解這句話,首先必須對句子進行分詞和詞性標注,得到這樣的結果“我/代詞 是/動詞 她/代詞 的/助詞 粉絲/名詞。 /句號”。其次需要對這句話做句法分析,也就是說必須讓計算機知道,這句話的主要成分是“我是粉絲”,“她的”是用來修飾和限定“粉絲”的。然后從語義的角度上分析,“我”是人,人不能是“粉絲”,因此這里“粉絲”應該指的是網(wǎng)絡用語中的“粉絲”,意思是“fans”。這樣這句話所要表達的意思就比較清楚了。

      語義消歧通常指根據(jù)一個詞所處的上下文來判斷這個詞在這個上下文中的意思。語義消歧是自然語言處理的重要方面,很多現(xiàn)實的應用都必須以語義消歧為基礎。

      語義消歧的方法大致分為四個類別,即基于背景知識的語義消歧、監(jiān)督的語義消歧方法、半監(jiān)督的學習方法和無監(jiān)督的學習方法。

      2 基于背景知識的語義消歧

      基于背景知識的語義消歧方法,就是建立在一個已有的背景知識庫上的方法。這種背景知識庫通常是一種人工建立的可被計算機讀取的字典,這個字典通常具有一個有向圖結構,其中每個節(jié)點代表一個概念,每個概念包含了能夠表示此概念的所有的詞(同義詞集),因此,詞與概念之間的關系是多對多的關系,即一個詞可以對應多個概念,一個概念又可以對應多個詞。每個概念的父節(jié)點是比此概念更一般的一個概念,它的子節(jié)點則是比它更特殊的概念。

      2.1 概念之間的相似度

      在MRD的基礎上,很多工作都是考慮如何衡量兩個概念之間的相似度。例如下面是一個常用的衡量標準①Claudia Leacock and Martin Chodorow.Filling in a sparse training space for word sense identification.ms.,March 1994.,其中Path(C1,C2)是概念C1和C2在一個語義網(wǎng)中的路徑,D為這個語義網(wǎng)絡的最大深度??梢钥闯觯瑑蓚€概念在語義網(wǎng)中距離越近,那么它們相似度越高。

      除此之外,還有很多其它的相似度量法,如[Resnik 1995]中,作者用信息容量(Information Content)來定義兩個概念相似度,即:

      其中,LCS(C1,C2)為能夠包含這兩個概念的上意概念(Least Common Subsumer),也即這兩個概念在語義網(wǎng)中對應節(jié)點最接近它們的共同父親節(jié)點;IC(C)即概念C的信息容量,直觀講,一個概念越頻繁,那么它的信息量越少。

      2.2 選擇傾向(Selectional Preference)

      選擇傾向是定義詞用法的一種簡化方式,例如:我們常說“喝可樂,喝中藥,喝酒,喝水”,其實我們有一種對“喝”這個詞用法的定義,即喝后面通常跟可食用的液體,這樣我們就知道“可樂”這里指的是一種飲料。也就是說如果使用選擇傾向來幫助我們做語義消歧可以很大程度提高消歧的準確率。那么如何得到這些選擇傾向呢?直接從人標注的語料庫中得到這樣的知識,像“可樂”這樣的詞已經(jīng)被人工標注了它的正確義項,通過語料庫,我們把“可樂”,“水”,“酒”都歸屬于“飲料”這個概念,而“中藥”,“口服液”等則歸屬于“藥水”,這樣可以得到兩個選擇傾向:喝[飲料],喝[藥水]。 當然,也可將“飲料”,“藥水”上升到“液體”,從而得到:喝[液體]。選擇傾向實際上是一種詞和概念(Word-to-Class)的搭配,所以可以設定一個閾值,當一個詞和概念對的度量達到這個閾值時,就可以認為是一個選擇傾向配。

      2.3 雙語對齊語料的利用

      另外,利用雙語對齊的語料庫也可以建立一個標注語料庫。有時一個有歧義的詞,當知道了它對另外一種語言的翻譯時,就知道它的義項。如“可樂”一詞在某個句子中如果它的英文翻譯是Cola,而Cola本身是沒有歧義的,那么我們就可以用Cola的義項來標注“可樂”,這樣就得到一個標注的語料庫②William A.Gale,Kenneth W.Church and David Yarowsky.A Method for Disambiguating Word Senses in a Large Corpus.Computers and the Humanities.pp.1-30.1992.。

      3 有監(jiān)督的語義消歧

      一般來說,監(jiān)督學習(Supervised Learning)的方法也就是數(shù)據(jù)的類別在學習之前已經(jīng)知道。在語義消歧的問題上,就是說每個詞所有可能的義項都是已知的。有監(jiān)督的語義消歧方法通過一個已標注的語料庫學習得到一個分類模型。

      在此框架下,剩下的主要問題就是如何選擇能夠比較好地區(qū)分詞的不同語義的特征。人們理解一個詞的真正意義,通常是根據(jù)這個詞所處的上下文來判斷。而在現(xiàn)有技術中,提取特征的方法也是根據(jù)這個原則進行的。例如,目前語義消歧常用的特征包括:Co-occurrence,詞語搭配(Collocation),NGram,詞性(Part-Of-Speech),predicate-argument,動賓結構,主謂結構等。同時,為了避免大量跟當前詞沒有關系(如距離較遠)的詞影響消歧結果,提取特征通常被限定在一個固定的窗口大小內(nèi)。

      4 無監(jiān)督的語義消歧

      無監(jiān)督的語義消歧主要是通過對每個詞所處的上下文環(huán)境來將相同意義的詞聚類到一起。也就是說這種方法假設具有相同上下文的詞將具有相同或者類似的意義③David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd annual meeting on Association for Computational Linguistics(ACL'95).pp.189-196.1995.。無監(jiān)督方法不借助任何背景知識,即這種方法事先并不知道每個詞可能具有哪些不同的意思,因此,這種無監(jiān)督的方法也并不給同一個聚類一個語義標簽。這種方法仍然采用監(jiān)督學習方法里面表示每個詞的方法,即向量空間模型。因此,只要是基于VSM的所有聚類算法也都適用于無監(jiān)督的語義消歧。另外,聚類方法對于建立選擇傾向也有幫助作用。

      5 半監(jiān)督的語義消歧

      半監(jiān)督的方法介于監(jiān)督和無監(jiān)督方法之間,它不需要人工標注大量的語料庫,而是通過一些標注的樣例作為種子集合,通過一種迭代的方式來不斷地擴展這個集合,如Self-Training,Co-Training以及Bootstrapping的方法都屬于此類①Rada Mihalcea,Paul Tarau and Elizabeth Figa.PageRank on Semantic Networks,with Application to Word Sense Disambiguation.Proceedings of the 20th International Conference on Computational Linguistics(COLING'04).2004.。

      半監(jiān)督方法可以很好地緩解數(shù)據(jù)稀疏的問題,但這種迭代的方法很容易引入一些錯誤的樣例(噪聲),錯誤的積累最終導致此方法的性能也無法達到令人滿意的程度。關于如何建設大規(guī)模標注語料庫,可參考②Jin Peng,Wu Yunfang,Yu Shiwen.Survey of Word Sense Annotated Corpus Construction.Journal of Chinese Information Processing.22(3):16-23.May,2008.。

      6 討論與展望

      我們可以看到現(xiàn)有的工作使用了各種機器學習方法以及各種有用的特征,然而究竟哪些方法和那些特征具有較好的效果呢?在③Yoong Keok Lee and Hwee Tou Ng.An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation.Proceedings of the ACL-02 conference on Empirical methods in natural language processing(EMNLP'02).pp.41-48.2002.中,作者比較了幾種較流行的機器學習方法,包括SVM,樸素貝葉斯,AdaBoost和決策樹。實驗結果表明SVM方法得到了最好的效果,其次是樸素貝葉斯。其中WSD問題本身存在嚴重的數(shù)據(jù)稀疏問題,而在很多稀疏問題上,SVM和樸素貝葉斯都有比較好的表現(xiàn)。

      要更好地解決WSD問題,有兩個方法可以做,一是標注大量的數(shù)據(jù)集,二是建立一套完善的背景知識。對于“完善的背景知識”主要是指能夠反映每個詞在不同場合的用法的定義,這個思想類似于選擇傾向,但比選擇傾向更加具體。例如,對于喝,可以定義喝[可飲用的液體],而同時,如果其他的概念(concept),具有[可飲用的液體]屬性的,就可以與喝搭配。那么對于一個詞,如“可樂”,如果具有兩個不同的義項,其中一個具有[可飲用的液體]的屬性,另一個不具有,則當“喝”在“可樂”之前出現(xiàn)時,就可以很容易判斷“可樂”的義項。但是當前的選擇傾向都是通過統(tǒng)計的方式獲得,這就導致了這種用法的過于一般性和不完善性。一個更好的關于詞的“用法”的詞典應該由人工來完成,然后將這樣的詞典作為有用的背景知識庫。

      另外一方面,在進行WSD之前,必須很清楚地知道句子的組成方式,也就是說必須知道哪個詞修飾哪個詞,而區(qū)分一次詞的義項通常只由修飾它的詞或者它修飾的詞決定。例如,句子“他在喝可樂”,判斷“可樂”義項時,應該通過“喝”判斷,而不應該通過“他”來判斷,否則會得到完全不同的結果。因此,WSD需要更精確地劃分句子成分(Syntactic Parsing)。

      最后,很多詞的用法比較相似,尤其是一些可以互相替換的同義詞,如果能夠找到這樣一些用法相似的詞,一方面在缺乏背景知識情況下,這些詞可以緩解數(shù)據(jù)稀疏的問題。例如④Dekang Lin.Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity.Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.pp.64-71.1997.中,作者利用所有相似詞,而不是單一詞作為訓練集,來訓練監(jiān)督的語義消歧方法。在⑤Peng Jin,Xu Sun,Yunfang Wu and Shiwen Yu.Word Clustering for Collocation-Based Word Sense Disambiguation,Proceedings ofthe InternationalConference on IntelligentTextProcessing and Computational Linguistics(CICLing'07),LNCS4394.2007.pp.267-274.中,作者通過聚類方式得到相似的詞。另一方面,這種處理方式也可以輔助人工進行背景知識庫的建立。

      猜你喜歡
      消歧義項語料庫
      基于關聯(lián)圖和文本相似度的實體消歧技術研究*
      基于半監(jiān)督集成學習的詞義消歧
      《語料庫翻譯文體學》評介
      藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      小心兩用成語中的冷義項
      把課文的優(yōu)美表達存進語料庫
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      兩用成語中的冷義項
      知識窗(2015年1期)2015-05-14 09:08:17
      Enhanced Precision
      Beijing Review(2012年37期)2012-10-16 02:24:10
      基于《知網(wǎng)》的中文信息結構消歧研究
      彰化市| 普兰县| 林甸县| 沭阳县| 万山特区| 收藏| 永春县| 德安县| 阿勒泰市| 崇文区| 布尔津县| 抚州市| 宁德市| 开封市| 泰和县| 乌兰县| 锦屏县| 巩义市| 兴和县| 务川| 色达县| 遂溪县| 鄂伦春自治旗| 灵川县| 吉安市| 信宜市| 眉山市| 忻州市| 南溪县| 祁阳县| 四子王旗| 霞浦县| 祁连县| 福泉市| 凤凰县| 墨江| 潮州市| 靖宇县| 科技| 延长县| 文水县|