• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類分析的事件語義模式獲取*

      2013-11-24 02:17:58季陶美劉茂福
      關(guān)鍵詞:語料頁面語義

      季陶美,劉茂福,張 璐,楊 曉

      (武漢科技大學 計算機科學與技術(shù)學院,湖北 武漢430065)

      隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本數(shù)據(jù)迅猛增加。要實現(xiàn)人機間相互理解,就意味著首先要讓計算機理解自然語言語義。而自然語言語義一般又是由底層的事件語義組成的,因而基于已標注事件語義的語言語料,進行事件語義結(jié)構(gòu)模式獲取是非常必要的。近年來,事件研究在自然語言處理領(lǐng)域成為了熱點,事件在很多語義計算理論和自動文摘、問答系統(tǒng)等應用領(lǐng)域中都很重要,因此,使用聚類分析獲取事件語義結(jié)構(gòu)模式是值得探索的。

      語料實例指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學選材和標注,具有適當規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。語料實例已經(jīng)成為語言學理論研究、應用研究和語言工程不可缺少的基礎(chǔ)資源。

      事件語義結(jié)構(gòu)是語法和語義界面的結(jié)合。它充分考慮了事件的時間結(jié)構(gòu)特性和內(nèi)部構(gòu)成關(guān)系對謂詞句法表現(xiàn)的影響,有效地克服了以動詞為核心的投射在句法解釋方面的理論缺陷。

      聚類分析是數(shù)據(jù)挖掘的核心部分。所謂聚類,就是將物理或抽象對象的集合組成由類似的對象組成的多個類或簇的過程。聚類生成的簇是一組數(shù)據(jù)對象的集合,同一簇中的對象應盡可能相似,而不同簇中的對象盡可能相異。聚類是在預先不知道目標數(shù)據(jù)到底有多少類的情況下,希望將所有的記錄組成不同的類或者說“聚類”。

      目前國內(nèi)外對這方面的研究還在不斷深入。JAMES提出了事件結(jié)構(gòu)的配價理論,并從詞匯語義學的角度分析了事件結(jié)構(gòu)中的語義角色[1];CHANG基于事件謂詞對事件結(jié)構(gòu)內(nèi)部的論元連接原則進行了討論[2];JOOST在通過情景語義分析事件路徑的基礎(chǔ)上,提出了事件輪廓與軌跡的概念[3];ELENA從事件分類、語義角色、事體以及因果角度對事件結(jié)構(gòu)進行了分析[4-5]。這些研究工作都是以事件謂語為中心,采用句法分析方法得到的。袁毓林等從認知角度研究了漢語的論元結(jié)構(gòu)和描述框架,并進行了真實文本語義標注的實踐[6-7];吳平對特殊句式的事件語義結(jié)構(gòu)進行了分析與研究[8-10];李世奇等提出了一種基于特征組合和支持向量機的中文語義角色標注方法[11];郝秀蘭等提出了事件類定義角色語義表方法,將HowNet的事件類與語義解釋聯(lián)接起來[12]。

      本文基于事件語義標注規(guī)范,使用事件語義標注工具,對Web上收集的未標注文本語料,進行嘗試性標注和聚類分析,進而得到更加抽象的事件語義結(jié)構(gòu)模式。

      1 系統(tǒng)流程

      文本選取新聞類型的Web頁面,遵照事件語義標注規(guī)范對選取的未標注Web頁面進行事件語義標注。對標注了事件語義的語料實例進行抽象得到事件語義結(jié)構(gòu)模式;利用層次聚類算法,將所得到的事件語義結(jié)構(gòu)模式進行聚類分析,得到不同類別的事件語義模式。整個系統(tǒng)的處理流程[9-10]如圖1所示。

      其中,對于未處理的Web頁面,頁面預處理的主要功能是將未標注的Web頁面中涉及到的事件進行拆分,如例1所示。

      例1 原句:2010年樸文垚在日本首奪世界冠軍,榮升中國第30位九段圍棋手。

      拆分后事件E1:2010年樸文垚在日本首奪世界冠軍

      拆分后事件E2:榮升中國第30位九段圍棋手

      對選取的Web頁面進行處理將獲得事件集合,遵照事件語義標注規(guī)范對預處理后的Web頁面進行事件語義標注。標注結(jié)果的語料實例如例2所示。

      例 2 標注后事件 E1:

      標注后事件 E2:

      對此標注了事件語義的語料實例進行抽象得到事件語義結(jié)構(gòu)模式,如事件E1抽象后的結(jié)果為“T,A,L,Ra,EP,P”。

      其中A表示施事,P表示受事,T表示時間,EP表示謂詞,L表示地點等。通過分析,對抽取的某個事件進行人工的事件語義標注,得到該事件的語義結(jié)構(gòu)模式。最后,將大量的事件語義結(jié)構(gòu)模式進行聚類即可得到不同類別的事件語義結(jié)構(gòu)模式集合。

      2 聚類算法

      聚類[4]是將數(shù)據(jù)分類到不同的類或者簇的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類是搜索簇的無監(jiān)督學習過程。與分類具有類別標記不同,無監(jiān)督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記。聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進一步的分析。

      層次聚類方法通過將數(shù)據(jù)組織為若干組并形成樹形結(jié)構(gòu)來進行聚類,可以分為自上而下和自下而上兩種。自上而下策略是將所有對象置于一個類中,然后漸漸分為越來越小的類,直到每個對象自成一類,或者達到了某個終結(jié)條件;自下而上策略是最初將每個對象(自身)作為一個基本類,然后將這些基本類進行聚合以構(gòu)造越來越大的類,直到所有對象均聚合為一個類,或滿足一定終止條件為止。自上而下和自下而上基本思想如圖2所示。

      本文采用自下而上的層次聚類算法對得到的事件模式集合進行處理。層次聚類算法的基本思想是:初始狀態(tài)下屬于數(shù)據(jù)集的每個數(shù)據(jù)對象自成一類,它們的合并代價初始值為0;然后,假定任意兩個簇合并,利用離差平方和的增量來度量兩個簇合并后所需要付出的代價,在計算完所有的兩個簇合并的代價后,選擇合并代價最小的兩個簇進行合并;算法反復迭代,直到所有的簇合并成一個簇或者達到預先設(shè)定的簇的數(shù)目k為止。Ward層次聚類算法通常采用離差平方和函數(shù)做為目標函數(shù),如式(1)和式(2)所示。

      其中,St為合并的兩個事件語義結(jié)構(gòu)模式中所有語義角色成分的離差平方和,S為各個事件語義結(jié)構(gòu)模式中所有語義角色成分的離差平方和的總和,k為預先設(shè)定的需要最終凝聚成的事件語義結(jié)構(gòu)模式的數(shù)目。假設(shè)兩個事件語義結(jié)構(gòu)模式要合并成一個事件語義結(jié)構(gòu)模式At,Nt為合并后的事件語義結(jié)構(gòu)模式的語義角色成分的個數(shù),xit為 At中的第 i個語義角色成分,xt為 At中所有語義角色成分的平均值。

      算法描述如下:

      (1)設(shè)定最終要凝聚的事件語義結(jié)構(gòu)模式的數(shù)目k;

      (2)根據(jù)式(1)計算兩個事件語義結(jié)構(gòu)模式之間的距離,建立鄰近度矩陣;

      (3)根據(jù)之前的計算結(jié)果,合并兩個距離最近的事件語義結(jié)構(gòu)模式,生成新的事件語義結(jié)構(gòu)模式At;

      (4)更新鄰近度矩陣,反映出新的事件語義結(jié)構(gòu)模式At與原來的事件語義結(jié)構(gòu)模式之間的鄰近性;

      (5)直到事件語義結(jié)構(gòu)模式的數(shù)目等于或者小于預先設(shè)定的數(shù)目k為止,否則轉(zhuǎn)向步驟(2)。

      3 實驗結(jié)果與分析

      在網(wǎng)絡(luò)上選取新聞類型的Web頁面,通過對30多篇Web頁面語料的標注和分析,得出5 000個事件語義結(jié)構(gòu)基本模式。將不同的基本事件模式進行初步整理之后,得出如圖3所示的基本事件模式分布柱狀圖。

      從圖3中得出:最多的兩個事件語義結(jié)構(gòu)模式是“A,EP,P”和“EP,P”,即“施事,謂詞,受事”和“謂詞,受事”,這主要是因為在現(xiàn)實生活中描寫主體成分動作的情況非常普遍。而這兩個事件語義結(jié)構(gòu)模式的差別就在于后者缺少施事,也就是通常所謂的主體語義角色成分。在交流雙方都明確知道的前提下,通常會省略掉“施事”。因此,缺少施事這一語義角色成分和補全這個語義角色成分的區(qū)別不大。

      當然存在一些事件語義結(jié)構(gòu)模式出現(xiàn)的頻率很低,如“A,T,Rn,EP,P”。 這一類的事件語義結(jié)構(gòu)模式,即“施事,時間,原因,謂詞,受事”,除了包括事件語義結(jié)構(gòu)模式中最重要的主體、謂詞、客體成分,還涵蓋了憑借成分、環(huán)境成分這些附加的事件成分,使得這一類的事件語義結(jié)構(gòu)模式的語義角色成分比較多。事件語義角色成分越多,事件語義結(jié)構(gòu)模式的限定也就越多,所表達的含義就越明確,而通常在使用時會省去時間語義角色成分,所以這一類的事件語義結(jié)構(gòu)模式就很少見了。

      對一些看似是兩個不同的事件語義結(jié)構(gòu)模式,而實際上表達了相同含義,模式相似度達到50%的兩個事件語義結(jié)構(gòu)模式進行合并,合并之后事件模式的分布直方圖如圖4所示。

      例 3 事件語義結(jié)構(gòu)模式 M:“A,EP,P”。 事件語義結(jié)構(gòu)模式 N:“P,EP,A”。

      例3中M包含的3個語義角色成分與N中包含的語義角色成分是完全相同的,唯一不同點在于語義角色的排列順序。在漢語中,由于對句子進行了倒裝處理或者是將某些語義角色成分前置改變事件語義角色成分的順序,但是這種情況并沒有增加或減少事件語義結(jié)構(gòu)模式中語義角色成分的數(shù)目,更沒有改變原有事件的含義。如例4所示。

      例4 (1)我被老師夸獎了。(2)老師夸獎了我。

      在例 4中,句(1)得到的事件語義結(jié)構(gòu)模式是“P,A,EP”,而句(2)得到的事件語義結(jié)構(gòu)是“A,EP,P”,但句(1)和句(2)的句子成分和句子所表達的客觀含義是一致的,因此可以認為這兩個句子是相同的。類似的情況 還 有 很 多 , 如 “EP,P”與 “P,EP”、“Th,EP,P”與 “P,EP,Th”等。因此,這樣的兩個事件語義結(jié)構(gòu)模式是可以合并的,也就是說,這樣的兩個事件語義結(jié)構(gòu)模式可以視為同一個事件語義結(jié)構(gòu)模式。

      圖5是對不同的事件語義結(jié)構(gòu)模式進行聚類分析之后得到的分析柱狀圖。根據(jù)某個語義角色成分在規(guī)定的語料范圍內(nèi)出現(xiàn)的頻率決定其加權(quán)值。利用聚類算法對事件語義結(jié)構(gòu)模式相似度高的兩個事件語義結(jié)構(gòu)模式進行合并,得到一個事件語義結(jié)構(gòu)模式,經(jīng)過多次聚類將得出事件中最普遍的事件語義結(jié)構(gòu)模式集合。

      例如,事件語義結(jié)構(gòu)模式“A,EP,P”和事件語義結(jié)構(gòu)模式“A,Rn,EP,P”,其中“A,Rn,EP,P”中事件語義角色成分“原因(Rn)”相對于事件語義結(jié)構(gòu)模式“A,EP,P”這個整體所造成的影響是可忽略的。因此這兩個事件語義結(jié)構(gòu)模式在某種程度上達到了一致。事件語義結(jié)構(gòu)模式中往往還含有一些對整體模式的影響可以被忽略的語義角色成分,如“使用工具”、“環(huán)境成分”等。這些語義角色成分對事件語義結(jié)構(gòu)模式中那些主要的成分進行修飾或者補充說明。例如事件語義結(jié)構(gòu)模式“A,Rn”中的“(原因)Rn”語義角色成分,可以適當忽略該成分對整體事件語義結(jié)構(gòu)模式的影響,將其與事件語義結(jié)構(gòu)模式“A,EP,P”進行合并操作。

      本文基于事件語義標注規(guī)范,使用事件語義標注工具,對從Web上收集的未標注文本語料,進行嘗試性標注和聚類分析,進而得到更抽象的事件語義結(jié)構(gòu)模式。實驗結(jié)果表明,在已標注事件語義的語料實例基礎(chǔ)上,利用聚類算法進行分析,獲取各種類別的事件語義模式,對Web頁面內(nèi)容分析與理解是非常必要的。本文利用上述的聚類算法,對獲得的事件語義結(jié)構(gòu)模式進行分析,雖然實驗結(jié)果還存在一定的問題,如聚類算法不夠完善等,但是實驗結(jié)果說明對事件語義結(jié)構(gòu)模式進行研究還是很有意義的。

      [1]JAMES P.The syntax of event structure[J].Journal of Cognition,1991,41:47-81.

      [2]CHANG Jung-hsing.Event structure and argument linking in Chinese[J].Language And Linguistics,2003,4(2):317-351.

      [3]JOOST Z.Event shape:paths in the semantics of verbs[EB/OL].Ms.Radboud University Nijmegen&Utrecht University.http://www.let.uu.nl/users/Joost.Zwarts/personal/EventShape.pdf,2006.

      [4]ELENA P.Event structure in russian:semantic roles,aspect,causation[J].Journal of The Prague Bulletin of Mathematical Linguistics,2009(92):5-20.

      [5]ELENA P.Event structure:taxonomy,semantic roles,aspect,causation[J].Journal of Automatic Documentation and Mathematical Linguistics,2009,43(3):196-202.

      [6]袁毓林.基于認知的漢語計算語言學研究[M].北京:北京大學出版社,2008.

      [7]袁毓林.用動詞的論元結(jié)構(gòu)跟事件模板相匹配——一種由動詞驅(qū)動的信息抽取方法[J].中文信息學報,2005,19(5):37-43.

      [8]吳平.漢語特殊句式的事件語義分析與計算(第1版)[M].北京:中國社會科學出版社,2009:67-85.

      [9]吳平.論元控制謂詞與非論元控制謂詞的邏輯語義分析與計算[J].外語與外語教學,2006(3):5-10.

      [10]吳平.“使”字句事件結(jié)構(gòu)的語義分析[J].浙江大學學報(人文社會科學版),2009,39(3):157-164.

      [11]李世奇,趙鐵軍,李晗靜,等.基于特征組合的中文語義角色標注[J].軟件學報,2011,22(2):222-232.

      [12]郝秀蘭,楊爾弘,舒鑫柱.基于HowNet的事件角色語義特征提取[J].中文信息學報,2001,15(5):26-32.

      猜你喜歡
      語料頁面語義
      大狗熊在睡覺
      刷新生活的頁面
      語言與語義
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      “上”與“下”語義的不對稱性及其認知闡釋
      華語電影作為真實語料在翻譯教學中的應用
      認知范疇模糊與語義模糊
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      同一Word文檔 縱橫頁面并存
      永康市| 长岛县| 玛沁县| 徐水县| 南安市| 平罗县| 宣城市| 天峻县| 饶平县| 启东市| 金堂县| 乌兰察布市| 阜宁县| 长春市| 东港市| 班戈县| 新宾| 垦利县| 商水县| 乐都县| 哈密市| 青海省| 池州市| 巴南区| 怀远县| 澎湖县| 苏尼特左旗| 庆元县| 金阳县| 山阳县| 通化市| 平昌县| 通化县| 综艺| 桃园市| 乃东县| 新源县| 绵竹市| 塘沽区| 秦皇岛市| 梁山县|