• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于句法語義特征的中文實(shí)體關(guān)系抽取

      2017-03-03 01:50周舜哲
      北方文學(xué)·下旬 2016年10期
      關(guān)鍵詞:語料句法語義

      周舜哲

      摘要:實(shí)體關(guān)系特征的選擇是實(shí)體關(guān)系抽取的核心問題。在以前的研究主要要是以實(shí)體原始特征和詞法特征來體現(xiàn)實(shí)體關(guān)系,在一定程度上來說很難再將抽取效果進(jìn)一步提高。本文在傳統(tǒng)的研究基礎(chǔ)之上,闡述一種以語義和句法為主要特征進(jìn)行抽取的新方法,并且融入了謂詞、句法和語義等一些角色,將SVM作為輔助工具,將真實(shí)的新聞消息進(jìn)行試驗(yàn)。

      關(guān)鍵詞:句法語義特征;關(guān)系抽取

      相對(duì)而言,由于中文語言結(jié)構(gòu)的獨(dú)特性和語義的復(fù)雜性,中文實(shí)體關(guān)系抽取研究整體上與國外的研究還存在一定差距,常用的基于淺層語法分析獲取特征的方法已經(jīng)達(dá)到瓶頸。本文也將采用 SVM模型訓(xùn)練語料,但于以往不同的是,該方法擴(kuò)展了實(shí)體關(guān)系特征的選擇范圍,除了傳統(tǒng)的詞法特征、實(shí)體原始特征外,又選擇了句法特征、語義特征等作為實(shí)體關(guān)系特征,主要包 括語義 角 色標(biāo)注、依存 句法關(guān)系、核心謂詞特征等,并依據(jù)中文的語法特點(diǎn)對(duì)這些特征進(jìn)行有機(jī)整合,得到二元實(shí)體對(duì)之間的豐富關(guān)系特征,最后交由SVM 進(jìn)行訓(xùn)練和測(cè)試。

      一、本文的主要研究方法

      (一)SVM的實(shí)體關(guān)系與句法語義特征抽取方法過程

      研究方法依據(jù)LTP-Cloud對(duì)原始語料進(jìn)行簡(jiǎn)單的初步處理,利用LTP-Cloud對(duì)原始語料的詞、句法作為分析結(jié)果的基礎(chǔ),之后生成二元實(shí)體對(duì),將實(shí)體對(duì)的特征數(shù)據(jù)采集起來,轉(zhuǎn)化成訓(xùn)練文本,然后再將訓(xùn)練文本交給SVM進(jìn)行強(qiáng)化訓(xùn)練。這不僅是本文的創(chuàng)新內(nèi)容還是最主要的核心部分,因?yàn)長(zhǎng)TP-Cloud主要以單個(gè)句子為研究對(duì)象,這就需要我們獲取命名實(shí)體信息,將實(shí)體句子相互結(jié)合,形成實(shí)體對(duì),假如說只有一個(gè)實(shí)體或者是沒有實(shí)體,那就說明不存在真正的實(shí)體關(guān)系,就需要我們將其去掉。

      (二)實(shí)體關(guān)系的基本特征

      常規(guī)的實(shí)體關(guān)系特征主要從詞法分析結(jié)果來獲取,以往的研究已經(jīng)表明了這些特征的有效性。面向句子中所有實(shí)體組成的二元實(shí)體對(duì),本文選擇的基本實(shí)體關(guān)系主要特征如下:

      1.實(shí)體種類。目前LTP-Cloud能夠識(shí)別的實(shí)體種類有人名、地名、組織機(jī)構(gòu)名。

      2.實(shí)體長(zhǎng)度。根據(jù)命名實(shí)體結(jié)果的標(biāo)識(shí)信息中,獲取多詞實(shí)體的邊界,并根據(jù)其首尾詞的位置來計(jì)算實(shí)體長(zhǎng)度。

      3.實(shí)體內(nèi)容。這里采用詞袋機(jī)制將實(shí)體內(nèi)容由字符轉(zhuǎn)換為數(shù)字。

      4.實(shí)體中各詞的詞性標(biāo)注。

      5.實(shí)體的上下文環(huán)境。包括實(shí)體前后兩個(gè)詞的內(nèi)容以及詞性標(biāo)注信息。

      (三)句法語義的主要特征

      本方法對(duì)處理結(jié)果再進(jìn)一步的深入研究,可以得到更多的句法語義特征。

      1.句法依存關(guān)系。將獲取實(shí)體對(duì)中每一個(gè)實(shí)體在原句中所屬的句法依存關(guān)系值。

      2.實(shí)體與核心謂詞的距離。根據(jù)實(shí)體首詞在句中的位置和核心謂詞的位置,計(jì)算出每一個(gè)實(shí)體與核心謂詞的距離。

      3.語義角色標(biāo)注。LTP-Cloud的初步結(jié)果中包含了針對(duì)所有謂詞的語義角色標(biāo)注結(jié)果,但是只有基于核心謂詞的語義角色標(biāo)注的覆蓋度是最廣的,所以這里也僅選擇基于核心謂詞的語義角色標(biāo)注結(jié)果作為這一特征來源,獲取實(shí)體對(duì)中每一個(gè)實(shí)體所屬的語義角色成分,將其作為實(shí)體關(guān)系的一種特征。

      每組實(shí)體對(duì)的實(shí)際特征個(gè)數(shù)會(huì)隨著實(shí)體長(zhǎng)度的不同而不同;這些特征之間的相對(duì)位置并不是任意的,需要根據(jù)一定的規(guī)律合理安排。

      二、試驗(yàn)方法與結(jié)果分析

      (一)實(shí)驗(yàn)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)

      預(yù)設(shè)了4種實(shí)體關(guān)系種類:人名實(shí)體與組織機(jī)構(gòu)實(shí)體之間的雇傭關(guān)系、組織機(jī)構(gòu)實(shí)體與地名實(shí)體之間的位于關(guān)系、屬于同一種實(shí)體類型的 同 類 關(guān) 系和 無 關(guān) 系。由于本文亦將實(shí) 體關(guān) 系抽取過程看作是分類的過程,所以這里的評(píng)價(jià)方式也采用常規(guī)的準(zhǔn)確率、召回率和F1值。

      因?yàn)榉诸悩?biāo)注問題不同于信息檢索問題,所以應(yīng)計(jì)算所有實(shí)體關(guān)系種類的準(zhǔn)確率和召回率的平均值,以此作為整體抽取結(jié)果的準(zhǔn)確率和召回率,并由此得出整體F1值。

      (二)實(shí)驗(yàn)設(shè)計(jì)思路

      本方法用1998年1月份的《人民日?qǐng)?bào)》所有版面內(nèi)容作為語料,共含有4萬多個(gè)中文句子。由于LTP-Cloud需要以句子為基本處理對(duì)象,所以還需采用基于規(guī)則的方法將語料內(nèi)容進(jìn)行分句。將上述語料通過LTP-Cloud處理后,可得到含有約8.5萬個(gè)唯一實(shí)體的處理結(jié)果,由此可得到約3.6億個(gè)二元實(shí)體對(duì),將其中的80%作為訓(xùn)練語料,20% 作為測(cè)試語料,進(jìn)一步分析出實(shí)體對(duì)中句法語義特征數(shù)據(jù),并人工添加實(shí)體關(guān)系分類標(biāo)注,最終形成訓(xùn)練語料。采用libSVM作為輔助工具,在SVM的訓(xùn)練過程中,選擇RBF作為核函數(shù),采用交叉驗(yàn)證法,得到最優(yōu)參數(shù)c=2.0, g=0.5, CV rate=73.1905。實(shí)驗(yàn)程序采用Python語言編寫實(shí)現(xiàn)。

      (三)實(shí)驗(yàn)結(jié)果分析

      為了與傳統(tǒng)研究方法進(jìn)行比較,對(duì)比組選取傳統(tǒng)的基本特征,實(shí)驗(yàn)組在原有傳統(tǒng)基本特征的基礎(chǔ)之上加入句法語義特征。

      通過以上的統(tǒng)計(jì)結(jié)果研究顯示,實(shí)驗(yàn)組的抽取效果很明顯的優(yōu)越于對(duì)照組。同時(shí)位于關(guān)系、同類關(guān)系和無關(guān)系的效果更加明顯一些,所以說本研究方法是有一定的實(shí)際意義的。

      但是其中也存在一個(gè)明顯的問題,從局部來看,部分實(shí)體關(guān)系抽取的效果相對(duì)較差,例如,人名實(shí)體與組織機(jī)構(gòu)實(shí)體之間的雇傭關(guān)系。在實(shí)體對(duì)中,并不是只要存在一個(gè)人名實(shí)體與一個(gè)組織機(jī)構(gòu)實(shí)體,就應(yīng)認(rèn)定他們之間存在雇傭關(guān)系,只是在句中的位置、具體的詞不同,所以這就容易導(dǎo)致分類錯(cuò)誤。

      三、結(jié)束語

      本文提出了一種基于句法語義特征的實(shí)體關(guān)系抽取方法,與以往的實(shí)體關(guān)系抽取方法相比,本文新增了句法分析結(jié)果和語義分析結(jié)果作為為實(shí)體關(guān)系的特征,實(shí)驗(yàn)結(jié)果表明此方法效果明顯。另外,本方法以句子為處理單位,缺少篇章處理的視野,未來將在上述方面繼續(xù)做深入研究。

      參考文獻(xiàn):

      [1]徐健,張智雄,吳振新.實(shí)體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2014,24(08):18-23.

      猜你喜歡
      語料句法語義
      柬語母語者漢語書面語句法復(fù)雜度研究
      韓國語“容入-離析”關(guān)系表達(dá)及認(rèn)知語義解釋
      可比語料庫構(gòu)建與可比度計(jì)算研究綜述
      《空間句法在中國》段進(jìn)、比爾?希列爾等(著)
      中古漢語分期研究所涉及的語料問題
      如何使用第二外語學(xué)習(xí)者語料
      英語教學(xué)中真實(shí)語料的運(yùn)用
      用人句法
      马山县| 北海市| 图们市| 武隆县| 瓦房店市| 酒泉市| 达尔| 襄垣县| 乌苏市| 南城县| 乐至县| 滦南县| 福清市| 台山市| 禄劝| 潞城市| 砀山县| 九江县| 常德市| 达尔| 新竹市| 加查县| 奈曼旗| 琼海市| 通州市| 湛江市| 丰顺县| 阿克陶县| 酒泉市| 潞西市| 松阳县| 台前县| 甘德县| 额敏县| 大石桥市| 绥中县| 博兴县| 阳原县| 深圳市| 大新县| 宝坻区|