• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別研究

      2017-01-17 17:03張立凡
      軟件工程 2016年11期

      摘 要:對(duì)于一條給定的句子,目標(biāo)詞識(shí)別就是識(shí)別出句子中能夠激起語(yǔ)義場(chǎng)景的目標(biāo)詞。針對(duì)目標(biāo)詞識(shí)別中的特征選擇問(wèn)題,本文把目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問(wèn)題,在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上,加入了句法結(jié)構(gòu)特征設(shè)計(jì)特征模板,識(shí)別句子中的目標(biāo)詞。在漢語(yǔ)框架網(wǎng)的標(biāo)注語(yǔ)料集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的詞特征,基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別率有顯著地提升。

      關(guān)鍵詞:框架語(yǔ)義分析;目標(biāo)詞識(shí)別;句法結(jié)構(gòu)分析;漢語(yǔ)框架網(wǎng)

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

      1 引言(Introduction)

      框架語(yǔ)義分析的任務(wù)是從語(yǔ)義角度,在給定的文本中自動(dòng)地識(shí)別目標(biāo)詞,為目標(biāo)詞分配框架,如果分配時(shí)有歧義,進(jìn)行框架排歧,最終識(shí)別出框架中的論元,為論元標(biāo)注語(yǔ)義角色。在整個(gè)任務(wù)中,首要解決的就是目標(biāo)詞的識(shí)別任務(wù)。例如,文本“根據(jù)周恩來(lái)的指示,賀龍等繞道香港去上海尋找黨中央?!钡目蚣苷Z(yǔ)義分析結(jié)果如圖1所示。要得到這個(gè)分析結(jié)果,首先要識(shí)別出文本的目標(biāo)詞“去”和“尋找”。

      近年來(lái),越來(lái)越多的學(xué)者關(guān)注框架語(yǔ)義分析在某些特定領(lǐng)域的應(yīng)用[1-3]。目前,與目標(biāo)詞識(shí)別任務(wù)相關(guān)的研究,主要有目標(biāo)詞擴(kuò)展和目標(biāo)詞識(shí)別兩方面的工作。針對(duì)目標(biāo)詞擴(kuò)展,Jahansson[4]與Das等[5]認(rèn)為待識(shí)別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中,利用規(guī)則篩選目標(biāo)詞。文獻(xiàn)分別利用WordNet和SIM[6]詞典,識(shí)別和收集語(yǔ)義近似的目標(biāo)詞,實(shí)現(xiàn)目標(biāo)詞的擴(kuò)展。針對(duì)目標(biāo)詞識(shí)別,文獻(xiàn)[7]使用基于規(guī)則的目標(biāo)詞過(guò)濾方法進(jìn)行判定,若判定為非目標(biāo)詞,利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻(xiàn)[8]利用分類模型,在特征模板中加入同義詞詞林編碼信息來(lái)識(shí)別句子中的核心目標(biāo)詞,但同義詞詞林信息的加入會(huì)導(dǎo)致識(shí)別性能下降。在上述文獻(xiàn)中,大多數(shù)是把句子中與目標(biāo)詞相近的詞都作為特征來(lái)進(jìn)行分類,而沒(méi)有考慮到句子結(jié)構(gòu)特征對(duì)目標(biāo)詞識(shí)別的影響。事實(shí)上,句子中的很多詞對(duì)目標(biāo)詞識(shí)別并沒(méi)有幫助,反而會(huì)給目標(biāo)詞識(shí)別帶來(lái)噪音,如何合適地選擇句子中的某些詞作為分類特征是目標(biāo)詞識(shí)別的一個(gè)研究重點(diǎn)。

      本文利用句法結(jié)構(gòu)來(lái)抽取目標(biāo)詞識(shí)別的特征,結(jié)合分類模型,提出了如何選擇句子中合適的詞語(yǔ)作為特征的方法。這種方法利用句法依存分析的結(jié)果,分析句子中各個(gè)詞之間的依存關(guān)系和關(guān)系類型,去掉那些對(duì)目標(biāo)詞識(shí)別沒(méi)有作用的詞語(yǔ),選擇句子中關(guān)鍵的詞作為特征來(lái)進(jìn)行識(shí)別目標(biāo)詞。

      2 目標(biāo)詞識(shí)別模型(Target word identification model)

      2.1 目標(biāo)詞識(shí)別任務(wù)形式化描述

      對(duì)于一個(gè)待識(shí)別的文本,其中,表示文本中詞的個(gè)數(shù)。目標(biāo)詞識(shí)別,首先要識(shí)別出句子中的詞元,表示中的詞元個(gè)數(shù)。然后,在詞元中識(shí)別出目標(biāo)詞,表示中的目標(biāo)詞個(gè)數(shù)。

      則目標(biāo)詞識(shí)別任務(wù),可形式化地描述為

      2.2 基本概念

      框架[8]:框架是指與一些激活性語(yǔ)境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境,是理解詞語(yǔ)的背景和動(dòng)因。

      詞元:在框架語(yǔ)義學(xué)中,詞通常被稱作為詞元。

      目標(biāo)詞[8]:當(dāng)詞元在句子中能夠激起語(yǔ)義場(chǎng)景時(shí),被稱為目標(biāo)詞。在一條包含多個(gè)目標(biāo)詞的句子中,如果某個(gè)目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項(xiàng)相比其他框架更能完整表達(dá)該句的核心語(yǔ)義,該目標(biāo)詞即為核心目標(biāo)詞。

      2.3 特征抽取

      本文將目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問(wèn)題。解決分類問(wèn)題最重要的兩部分內(nèi)容是特征選擇和模型的選擇,本節(jié)重點(diǎn)介紹目標(biāo)詞識(shí)別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來(lái)提取目標(biāo)詞識(shí)別任務(wù)中的分類特征,以依存句法分析的結(jié)果為基礎(chǔ),分析句子中與目標(biāo)詞存在依存關(guān)系的詞,去掉句子中有噪音影響的詞,從而提高識(shí)別的性能。

      句子特征提取方法分為三步:

      第一步,查找句子中的目標(biāo)詞。這一步主要是在詞元庫(kù)中抽取所有的詞元構(gòu)成候選詞元列表。針對(duì)一條輸入的句子中,句子經(jīng)分詞后,句子中的詞逐個(gè)在候選詞元列表中進(jìn)行匹配,若匹配成功,則標(biāo)記為目標(biāo)詞。

      第二步,對(duì)句子進(jìn)行句法分析,得到依存弧和關(guān)系類型。本文對(duì)句子句法分析利用依存句法分析工具,句子經(jīng)依存句法分析后,可得到句子中各個(gè)詞之間的依存關(guān)系和依存弧。

      第三步,提取句子主干作為分類特征。以目標(biāo)詞為核心,在句子中抽取與目標(biāo)詞相關(guān)的句子主干特征,主要抽取的是句子中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)成分。

      針對(duì)目標(biāo)詞識(shí)別任務(wù),本文抽取句子的詞法特征、上下文特征和句法特征。

      (1)詞法特征。詞法特征主要抽取的是當(dāng)前詞的詞性、詞。

      (2)上下文特征。主要考慮的是詞語(yǔ)搭配對(duì)目標(biāo)詞識(shí)別的影響,一般考查的是在位置上與目標(biāo)詞相近的詞。

      (3)句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語(yǔ)成分抽取的是句子中依存關(guān)系標(biāo)記為SBV的詞,謂語(yǔ)成分抽取的是句子中依存關(guān)系為VOB的詞。

      例如,句子“這里四周有冰山阻隔,海上白霧茫茫,絕不會(huì)被人發(fā)現(xiàn)?!笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。

      目標(biāo)詞識(shí)別就是識(shí)別出這個(gè)句子中的目標(biāo)詞“阻隔”,具體的特征值如表1所示。

      3 實(shí)驗(yàn)(Experiment)

      3.1 數(shù)據(jù)來(lái)源

      實(shí)驗(yàn)語(yǔ)料來(lái)源于漢語(yǔ)框架網(wǎng)[9]中的例句庫(kù)。本文選取漢語(yǔ)框架網(wǎng)例句庫(kù)中30個(gè)常用框架的例句進(jìn)行實(shí)驗(yàn),共包含2542條句子和2813個(gè)目標(biāo)詞。

      3.2 評(píng)價(jià)指標(biāo)

      本文采用準(zhǔn)確率P(Precision)和Avg_P平均準(zhǔn)確率評(píng)價(jià)目標(biāo)詞的識(shí)別性能。為了避免實(shí)驗(yàn)過(guò)程中由語(yǔ)料規(guī)模小引起的過(guò)擬合問(wèn)題,采用3折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。

      其中,在式(1)中A表示正確識(shí)別的核心目標(biāo)詞個(gè)數(shù),B表示識(shí)別到的所有核心目標(biāo)詞個(gè)數(shù),C表示實(shí)驗(yàn)的句子總數(shù)。在式(2)中,Pi表示使用第i份語(yǔ)料得到的準(zhǔn)確率。由于基于分類模型的核心目標(biāo)詞識(shí)別實(shí)驗(yàn)中,采用3折交叉驗(yàn)證,因此n的取值為3。

      3.3 實(shí)驗(yàn)結(jié)果

      本文將目標(biāo)詞識(shí)別看作是一個(gè)分類問(wèn)題,采用最大熵模型進(jìn)行實(shí)驗(yàn)。本節(jié)實(shí)驗(yàn)用張樂(lè)的最大熵工具包[9]和表2中的特征模板進(jìn)行目標(biāo)詞識(shí)別。特種模板中特征的抽取使用的是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言處理集成平臺(tái)LTP[10]。

      為了驗(yàn)證窗口大小和最大熵模型的迭代次數(shù)對(duì)核心目標(biāo)詞識(shí)別性能的影響,使用表2中的T1模板,窗口大小分別設(shè)置為[-1,1]、[-2,2]和[-3,3],迭代次數(shù)設(shè)置范圍為[50,500],相鄰迭代次數(shù)相差50,并與工具包中的默認(rèn)參數(shù)30做對(duì)比。具體的結(jié)果如圖3所示。

      從圖3中可以看出,窗口大小為[-1,1]的時(shí)候識(shí)別性能最好,且迭代次數(shù)為100的時(shí)候,實(shí)驗(yàn)結(jié)果基本趨于穩(wěn)定。因此,在后續(xù)的實(shí)驗(yàn)中,窗口大小設(shè)定為[-1,1],最大熵模型的迭代次數(shù)設(shè)定為100。

      上述實(shí)驗(yàn)證明,采用句法結(jié)構(gòu)分析的方法抽取句子特征,能夠達(dá)到較高的識(shí)別率。但由于采用的訓(xùn)練語(yǔ)料比較小,限制了模型的性能。同時(shí),從實(shí)驗(yàn)結(jié)果可以看出,系統(tǒng)對(duì)于單一的主干成分,如句子的主語(yǔ),識(shí)別的效果不是很好,主要原因是單一的句子主干成分不能完整地表示整個(gè)句子的語(yǔ)義。

      4 結(jié)論(Conclusion)

      利用句法結(jié)構(gòu)分析得到的特征識(shí)別句子中的目標(biāo)詞,實(shí)驗(yàn)證明是有效可行的。在訓(xùn)練語(yǔ)料較小的情況下,模型取得了比較高的識(shí)別準(zhǔn)確率。由于單個(gè)主干成分在句子中起到的作用不大,因此識(shí)別性能不顯著。當(dāng)主干成分與基本特征組合識(shí)別目標(biāo)詞時(shí),句子主干能較完整地表示整個(gè)句子的語(yǔ)義,因此識(shí)別效果較好。在以后的研究中,將不斷地?cái)U(kuò)充質(zhì)量較高的語(yǔ)料,改善數(shù)據(jù)稀疏,豐富例句庫(kù)。同時(shí),將嘗試加入語(yǔ)義特征,提升目標(biāo)詞識(shí)別的性能。

      參考文獻(xiàn)(References)

      [1] Dipanjan Das,Desai Chen.Frame-Semantic Parsing[J].Computational Linguistics,2014,40(1):9-56.

      [2] A Lakhfif,MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MT[J].International Journal of Speech Technology,2016,19(2):1-26.

      [3] AO Bayer,G Riccadri.Semantic Language Models with Deep Neural Networks[J].Computer Speech & Language,2016,40:1-22.

      [4] RICHARD Johansson,PIERRE Nugues.LTH:Semantic Structure Extraction Using Nonprojective Dependency Trees[C].Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Computational Linguistics,2007:227-230.

      [5] DIPANJAN Das,et al.Probabilistic Frame-Semantic Parsing[C].Human Language Technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2010:948-956.

      [6] LIN Dekang.Automatic Retrieval and Clustering of Similar Words[C].Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg:Association for Computational Linguistics,1998:768-774.

      [7] 陳亞?wèn)|,等.面向框架語(yǔ)義分析的目標(biāo)詞自動(dòng)識(shí)別方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2015(7):45-53.

      [8] 石佼,李茹,王智強(qiáng).漢語(yǔ)核心框架語(yǔ)義分析[J].中文信息學(xué)報(bào),2014(6):48-55.

      [9] 劉開(kāi)瑛.漢語(yǔ)框架語(yǔ)義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報(bào),2011(25):46-53.

      [10] 張樂(lè).最大熵工具包MaxEnt(2004).http://homepage.inf.ed.ac.uk/s0450736/maxent_toolkit.html.

      作者簡(jiǎn)介:

      張立凡(1987-),女,碩士,助教.研究領(lǐng)域:中文信息處理,人工智能與模式識(shí)別.

      兴国县| 栖霞市| 荔波县| 札达县| 长葛市| 五指山市| 岗巴县| 连城县| 柘城县| 台南市| 阿尔山市| 微山县| 师宗县| 海兴县| 温泉县| 荃湾区| 铜川市| 洛南县| 高陵县| 朝阳县| 波密县| 景宁| 柯坪县| 邛崃市| 青岛市| 新兴县| 普兰店市| 邯郸县| 夏邑县| 乐陵市| 丹东市| 海林市| 苏州市| 浙江省| 旅游| 始兴县| 龙井市| 新巴尔虎左旗| 洛阳市| 淮滨县| 道真|