• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義選擇限制知識(shí)自動(dòng)獲取

      2017-04-25 08:27:11賈玉祥許鴻飛昝紅英
      中文信息學(xué)報(bào) 2017年1期
      關(guān)鍵詞:正例論元反例

      賈玉祥,許鴻飛,昝紅英

      (鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

      基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義選擇限制知識(shí)自動(dòng)獲取

      賈玉祥,許鴻飛,昝紅英

      (鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

      語(yǔ)義選擇限制刻畫(huà)謂語(yǔ)對(duì)論元的語(yǔ)義選擇傾向,對(duì)自然語(yǔ)言的句法語(yǔ)義分析有重要作用,語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取也成為一個(gè)重要的研究課題。鑒于神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理的很多任務(wù)中都有出色的表現(xiàn),該文提出基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義選擇限制知識(shí)獲取模型,設(shè)計(jì)了引入預(yù)訓(xùn)練詞向量的單隱層前饋網(wǎng)絡(luò)和兩層maxout網(wǎng)絡(luò)。在漢語(yǔ)和英語(yǔ)的偽消歧實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)模型取得了較好的效果,優(yōu)于基于隱含狄利克雷分配的模型。

      語(yǔ)義選擇限制;詞匯知識(shí)獲??;神經(jīng)網(wǎng)絡(luò);偽消歧

      1 引言

      謂語(yǔ)動(dòng)詞對(duì)其論元有選擇傾向性,稱(chēng)為語(yǔ)義選擇限制(Selectional Preference,SP)。例如,“吃”這個(gè)動(dòng)詞的主語(yǔ)傾向于選擇表示“人或動(dòng)物”的名詞,賓語(yǔ)傾向于選擇表示“食物”的名詞??梢杂煤瘮?shù)spr(v,n)表示語(yǔ)義選擇傾向,v表示謂語(yǔ)動(dòng)詞,r表示論元類(lèi)型,n表示名詞,sp值為實(shí)數(shù),值越大,表示n越適合充當(dāng)v的論元r。例如,“蘋(píng)果”比“石頭”更適合充當(dāng)“吃”的“賓語(yǔ)”。語(yǔ)義選擇限制知識(shí)獲取就是學(xué)習(xí)函數(shù)spr(v,n),實(shí)現(xiàn)對(duì)任意(v,r,n)的打分。

      語(yǔ)義選擇限制知識(shí)對(duì)于分析句子語(yǔ)義有重要價(jià)值。例如,

      1.判斷句子是否合法。

      人民的生活水平正在不斷地改善。

      此句不合法,主謂搭配錯(cuò)誤??梢岳谩八健迸c“改善”之間的選擇傾向來(lái)判斷是否合法。

      他統(tǒng)一安排現(xiàn)場(chǎng)會(huì)的內(nèi)容、時(shí)間和出席人員,以及會(huì)議中應(yīng)注意的問(wèn)題。

      此句不合法,動(dòng)賓搭配錯(cuò)誤??梢岳谩鞍才拧迸c“問(wèn)題”之間的選擇傾向來(lái)判斷是否合法。

      2.識(shí)別隱喻表達(dá)[1]。

      山體滑坡 業(yè)績(jī)滑坡

      編織毛衣 編織夢(mèng)想

      根據(jù)在隱喻表達(dá)中具體動(dòng)詞傾向于選擇抽象的名詞作為主語(yǔ)或賓語(yǔ)這樣的規(guī)律,可以識(shí)別出“業(yè)績(jī)滑坡”與“編織夢(mèng)想”為隱喻表達(dá)。

      3.推測(cè)詞義。

      好萊塢特技車(chē)隊(duì)駕駛凱迪拉克大秀車(chē)技。

      愛(ài)她就請(qǐng)她吃哈根達(dá)斯。

      通過(guò)“駕駛”傾向于選擇“汽車(chē)”做賓語(yǔ),可以推測(cè)“凱迪拉克”是一種汽車(chē)。通過(guò)“吃”傾向于選擇“食物”做賓語(yǔ),可以推測(cè)“哈根達(dá)斯”是一種食物。

      語(yǔ)義選擇限制知識(shí)可以用于自然語(yǔ)言處理的多個(gè)任務(wù),例如,句法分析[2]、語(yǔ)義角色標(biāo)注[3]、詞義消歧[4]、機(jī)器翻譯[5]等。語(yǔ)義選擇限制是很多詞匯知識(shí)庫(kù)的重要組成部分,例如,英語(yǔ)的VerbNet、漢語(yǔ)的HowNet等。然而,手工構(gòu)建的語(yǔ)義選擇限制知識(shí)庫(kù)很難滿足自然語(yǔ)言處理的需求,因此要求從大規(guī)模語(yǔ)料中自動(dòng)獲取語(yǔ)義選擇限制知識(shí)。

      神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)函數(shù)spr(v,n),網(wǎng)絡(luò)輸入為代表v和n的值(如,詞向量),輸出為spr(v,n)。神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理的很多任務(wù)上都取得了很好的效果,本文提出基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義選擇限制知識(shí)獲取模型,嘗試不同的網(wǎng)絡(luò)結(jié)構(gòu),并與基于LDA(Latent Dirichlet Allocation)的模型進(jìn)行比較。本文的章節(jié)安排如下:第二節(jié)介紹相關(guān)研究工作;第三節(jié)介紹語(yǔ)義選擇限制獲取的神經(jīng)網(wǎng)絡(luò)模型;第四節(jié)給出實(shí)驗(yàn)結(jié)果與分析;第五節(jié)給出總結(jié)和展望。

      2 相關(guān)研究

      從訓(xùn)練語(yǔ)料中抽取句法搭配(v,r,n),形成訓(xùn)練集,當(dāng)然可以對(duì)搭配做一些過(guò)濾,如限制搭配必須至少出現(xiàn)多少次,或v、n至少出現(xiàn)多少次。對(duì)于訓(xùn)練集中出現(xiàn)過(guò)的搭配,spr(v,n)的計(jì)算比較直觀,可以簡(jiǎn)單地用共現(xiàn)次數(shù)count(v,r,n)或條件概率p(n|v,r)來(lái)表示。關(guān)鍵是訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的搭配(v,r,n′)如何計(jì)算spr(v,n′),即如何根據(jù)v的已知論元計(jì)算未知論元的sp值,稱(chēng)之為論元擴(kuò)展。根據(jù)論元擴(kuò)展是否使用語(yǔ)義分類(lèi)體系可以將語(yǔ)義選擇限制獲取方法分為兩大類(lèi):基于語(yǔ)義分類(lèi)體系的方法與基于分布的方法(見(jiàn)表1)。

      表1 SP自動(dòng)獲取的代表性方法

      基于語(yǔ)義分類(lèi)體系的方法。該方法借助語(yǔ)義分類(lèi)體系(如WordNet),計(jì)算謂語(yǔ)對(duì)論元語(yǔ)義類(lèi)的sp值,那么對(duì)于未知論元,只要它出現(xiàn)在某一個(gè)語(yǔ)義類(lèi)中,就可以給它一個(gè)sp值。對(duì)于語(yǔ)義類(lèi)sp值的計(jì)算,Resnik[6]使用一個(gè)基于KL距離的統(tǒng)計(jì)指標(biāo),Li和Abe[7]基于最小描述長(zhǎng)度(Minimum Description Length,MDL)模型,Clark和Weir[8]則采用基于假設(shè)檢驗(yàn)的方法。這類(lèi)方法的優(yōu)點(diǎn)是可以學(xué)習(xí)出關(guān)于語(yǔ)義類(lèi)的選擇限制知識(shí),易于人類(lèi)理解,便于集成到詞匯知識(shí)庫(kù)中。缺點(diǎn)是需要一個(gè)語(yǔ)義分類(lèi)體系,由于詞典收詞有限會(huì)導(dǎo)致論元覆蓋率比較低,并且不能很好地處理一詞多義的問(wèn)題。這類(lèi)方法主要面向語(yǔ)言學(xué)研究和詞匯知識(shí)庫(kù)構(gòu)建。

      基于分布的方法。該方法不需要語(yǔ)義分類(lèi)體系,而是根據(jù)詞語(yǔ)在語(yǔ)料中的分布來(lái)實(shí)現(xiàn)論元的擴(kuò)展。隱變量模型[9](如LDA)是一種基于概率的模型,隱變量可以看成一個(gè)個(gè)隱含的語(yǔ)義類(lèi),把謂語(yǔ)和未知論元聯(lián)系起來(lái)。基于向量空間的模型[10]利用大規(guī)模語(yǔ)料構(gòu)建一個(gè)向量空間,通過(guò)在該空間里計(jì)算未知論元和已知論元的相似度,把謂語(yǔ)和未知論元聯(lián)系起來(lái)。Tian等[11]通過(guò)在謂語(yǔ)論元搭配圖上的隨機(jī)游走算法來(lái)解決未知論元sp值的計(jì)算問(wèn)題。Bergsma等[12]使用SVM(Support Vector Model)直接對(duì)論元進(jìn)行二分類(lèi):合適的論元和不合適的論元,把分類(lèi)器給論元的打分作為sp值。Van de Cruys[13]首次使用神經(jīng)網(wǎng)絡(luò)進(jìn)行選擇限制知識(shí)的獲取,設(shè)計(jì)了一個(gè)單隱層前饋網(wǎng)絡(luò),輸入v、n的詞向量表示,輸出sp值?;诜植嫉姆椒▋?yōu)點(diǎn)是不依賴(lài)語(yǔ)義分類(lèi)體系,論元覆蓋率高,對(duì)一詞多義問(wèn)題能更好地處理,易于和其他自然語(yǔ)言處理任務(wù)結(jié)合。缺點(diǎn)是學(xué)習(xí)出的知識(shí)是詞語(yǔ)層面的,與語(yǔ)義類(lèi)層面的知識(shí)相比,概括性差,不易于人類(lèi)理解。這類(lèi)方法主要面向自然語(yǔ)言處理,也是SP獲取的主流方法。

      基于SVM和神經(jīng)網(wǎng)絡(luò)的方法把選擇限制的學(xué)習(xí)當(dāng)做機(jī)器學(xué)習(xí)的分類(lèi)和回歸問(wèn)題,屬于有監(jiān)督的學(xué)習(xí),需要正例和反例,即合適的論元和不適合的論元。其他方法只需要正例,訓(xùn)練集中都是正例,以這些正例為種子,通過(guò)語(yǔ)義分類(lèi)體系或語(yǔ)料分布實(shí)現(xiàn)論元的擴(kuò)展。反例并非由人工構(gòu)建,而是自動(dòng)產(chǎn)生,思想是使正例發(fā)生的可能性盡量大,反例發(fā)生的可能性盡量小。例如,對(duì)于每一個(gè)正例(v,r,n),采用某一種策略將n替換為n′,只要(v,r,n′)不在訓(xùn)練集中出現(xiàn)或某一個(gè)統(tǒng)計(jì)指標(biāo)小于閾值(如出現(xiàn)次數(shù)、互信息值),則把(v,r,n′)當(dāng)做反例。

      本文在神經(jīng)網(wǎng)絡(luò)[13]中引入預(yù)訓(xùn)練的詞向量來(lái)改進(jìn)模型的效果,并提出基于maxout網(wǎng)絡(luò)的模型。作為實(shí)驗(yàn)對(duì)比的LDA模型[14],把每個(gè)謂語(yǔ)動(dòng)詞v看做一篇文檔,文檔內(nèi)容由訓(xùn)練集中該動(dòng)詞特定論元r的所有名詞n構(gòu)成,隱含主題z為名詞語(yǔ)義類(lèi),則語(yǔ)義選擇傾向定義為公式(1),其中參數(shù)p(n|z)與p(z|v,r)由模型訓(xùn)練得到。

      (1)

      3 基于神經(jīng)網(wǎng)絡(luò)的SP獲取模型

      本文主要考察動(dòng)詞對(duì)賓語(yǔ)的語(yǔ)義選擇限制,因此論元類(lèi)型r為動(dòng)詞賓語(yǔ),為了表述方便,在后面的符號(hào)表達(dá)中將r省去。下面對(duì)選擇限制獲取的單隱層前饋網(wǎng)絡(luò)、maxout網(wǎng)絡(luò)及模型訓(xùn)練方法作一介紹。

      3.1 單隱層前饋網(wǎng)絡(luò)

      網(wǎng)絡(luò)由輸入層、隱藏層、輸出層三層構(gòu)成(如圖1所示)。輸入層節(jié)點(diǎn)數(shù)為2N,隱藏層節(jié)點(diǎn)數(shù)為H,輸出層節(jié)點(diǎn)數(shù)為1。輸入x為動(dòng)詞v的詞向量v與賓語(yǔ)n的詞向量n的拼接(concatenation),即得到公式(2)。

      x=[v,n]

      (2)

      圖1 單隱層前饋網(wǎng)絡(luò)結(jié)構(gòu)

      詞向量的維度為N,因此x的維度為2N。動(dòng)詞和名詞的詞向量分開(kāi)學(xué)習(xí),學(xué)習(xí)之前可以進(jìn)行隨機(jī)初始化或引入預(yù)訓(xùn)練的詞向量,在模型訓(xùn)練過(guò)程中通過(guò)反向傳播進(jìn)行更新。W1為輸入層與隱藏層之間的權(quán)值矩陣,W1∈RH×2N,b1為偏置項(xiàng),b1∈RH,隱藏層節(jié)點(diǎn)的激活函數(shù)為tanh,a1為隱藏層節(jié)點(diǎn)的輸出值,見(jiàn)公式(3),a1∈RH。W2為隱藏層與輸出層之間的權(quán)值矩陣,W2∈R1×H,輸出y為隱藏層輸出的線性組合,為一個(gè)實(shí)數(shù),見(jiàn)公式(4),偏置項(xiàng)b2為實(shí)數(shù),y即為所求的動(dòng)詞v對(duì)賓語(yǔ)n的語(yǔ)義選擇傾向sp。

      單隱層前饋網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,為了提高網(wǎng)絡(luò)的性能,我們?cè)谠~向量初始化時(shí)引入預(yù)訓(xùn)練的詞向量,加入了額外的語(yǔ)言資源,并與隨機(jī)初始化詞向量的方法做對(duì)比。

      3.2 兩層maxout網(wǎng)絡(luò)

      Maxout[15]可以看作神經(jīng)網(wǎng)絡(luò)中的一種激活函數(shù),與通常的非線性函數(shù)直接作用在輸入的線性組合上以實(shí)現(xiàn)非線性變換不同,maxout對(duì)每個(gè)輸入進(jìn)行k(k≥2)次線性組合,從中選擇最大的值作為變換后的輸出,達(dá)到非線性變換的目的。也就是說(shuō),對(duì)于一個(gè)輸入,根據(jù)多組參數(shù)同時(shí)線性計(jì)算多組輸出,然后取多組輸出中對(duì)應(yīng)位置的最大值構(gòu)成最終輸出。這樣maxout會(huì)增加網(wǎng)絡(luò)參數(shù),但學(xué)習(xí)能力也得到了增強(qiáng)。理論上,maxout可以擬合任意凸函數(shù);在實(shí)踐中,maxout網(wǎng)絡(luò)在多個(gè)機(jī)器學(xué)習(xí)任務(wù)上也取得了很好的效果。

      我們對(duì)單隱層前饋網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,形成兩層的maxout網(wǎng)絡(luò)(如圖2所示)。在原網(wǎng)絡(luò)的隱藏層和輸出層分別增加一倍的節(jié)點(diǎn),形成兩組節(jié)點(diǎn)(k=2),每一組節(jié)點(diǎn)個(gè)數(shù)與原網(wǎng)絡(luò)該層節(jié)點(diǎn)個(gè)數(shù)相同,兩組節(jié)點(diǎn)分別對(duì)所有輸入進(jìn)行線性組合,然后通過(guò)max函數(shù)選擇兩組節(jié)點(diǎn)中對(duì)應(yīng)位置節(jié)點(diǎn)的最大值構(gòu)成輸出。公式(5)和公式(6)分別是隱藏層的輸出a1和輸出層的輸出y,a1∈RH且y是實(shí)數(shù),表示動(dòng)詞v對(duì)賓語(yǔ)n的語(yǔ)義選擇傾向sp。相比于單隱層前饋網(wǎng)絡(luò),maxout網(wǎng)絡(luò)增加了參數(shù)W1′、b1′、W2′與b2′。

      圖2 兩層maxout網(wǎng)絡(luò)結(jié)構(gòu)

      3.3 網(wǎng)絡(luò)訓(xùn)練

      語(yǔ)義選擇限制知識(shí)獲取的任務(wù)要求通過(guò)大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練。Collobert和Weston[16]提出一種基于無(wú)標(biāo)注語(yǔ)料訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的方法,即將語(yǔ)料中正常出現(xiàn)的ngram序列視為正例,隨機(jī)替換其中某一個(gè)詞后得到的序列為反例。與之類(lèi)似,把訓(xùn)練集中出現(xiàn)的搭配(v,n) 視為正例,而把n隨機(jī)地替換為n′后形成的搭配 (v,n′) 視為反例。我們關(guān)心的是模型對(duì)正例和反例打分的大小關(guān)系,期望正例的打分至少要比反例的打分大l(l的取值可以調(diào)整,這里取l=0.1),于是對(duì)于每一對(duì)搭配(v,n)定義以下排序目標(biāo)函數(shù),如式(7)所示。

      ∑n′∈Jmax(0,l-g[(v,n)]+g[(v,n′)])

      (7)

      表示正例(v,n)與所有反例的分差之和。其中J為名詞詞表,g[()]是模型的打分。可見(jiàn),當(dāng)g[(v,n)]-g[(v,n′)]>=l時(shí),max取值為0。否則,max取值大于0。模型訓(xùn)練的目標(biāo)就是使公式7的值最小。

      我們?cè)谟?xùn)練時(shí),總是給每一個(gè)正例隨機(jī)生成一個(gè)反例,作為一對(duì)訓(xùn)練樣本,由網(wǎng)絡(luò)輸出正例的打分和反例的打分,計(jì)算目標(biāo)函數(shù)關(guān)于模型參數(shù)的導(dǎo)數(shù),借助反向傳播更新模型參數(shù)及輸入詞向量。

      4 實(shí)驗(yàn)與分析

      實(shí)驗(yàn)考察中英文兩種語(yǔ)言中動(dòng)詞對(duì)賓語(yǔ)的選擇限制情況,模型包括隨機(jī)初始化詞向量的單隱層前饋網(wǎng)絡(luò)、引入預(yù)訓(xùn)練詞向量的單隱層前饋網(wǎng)絡(luò)、兩層maxout網(wǎng)絡(luò)及基于LDA的模型,使用偽消歧(pseudo-disambiguation)[17]的方法進(jìn)行評(píng)價(jià)。

      4.1 模型的實(shí)現(xiàn)

      單隱層前饋網(wǎng)絡(luò)輸入詞向量維數(shù)N=50,輸入層節(jié)點(diǎn)個(gè)數(shù)為100,隱藏層節(jié)點(diǎn)個(gè)數(shù)H=50。兩層maxout網(wǎng)絡(luò)使用一個(gè)100維輸入50維輸出的maxout網(wǎng)絡(luò)和一個(gè)50維輸入1維輸出的maxout網(wǎng)絡(luò)串聯(lián)組成,每個(gè)maxout網(wǎng)絡(luò)中都包含兩個(gè)線性層。

      實(shí)驗(yàn)在Torch7平臺(tái)上進(jìn)行,使用mini-batch梯度下降方法進(jìn)行訓(xùn)練。每采樣一個(gè)正例,隨機(jī)生成一個(gè)反例,構(gòu)成一個(gè)正反例對(duì),每批抽取512個(gè)正反例對(duì),每256批為一個(gè)周期,訓(xùn)練過(guò)程中記錄每個(gè)周期內(nèi)誤差的均值,如果連續(xù)20個(gè)周期內(nèi)沒(méi)有出現(xiàn)更小的誤差,認(rèn)為網(wǎng)絡(luò)收斂,停止訓(xùn)練。網(wǎng)絡(luò)參數(shù)的初始學(xué)習(xí)速率為0.000 25,詞向量的初始學(xué)習(xí)速率為0.000 125,開(kāi)始訓(xùn)練時(shí)先以初始學(xué)習(xí)速率訓(xùn)練八個(gè)周期,來(lái)預(yù)熱模型,使之快速地收斂到一定位置,然后學(xué)習(xí)速率開(kāi)始隨訓(xùn)練周期數(shù)下降(初始學(xué)習(xí)速率/當(dāng)前訓(xùn)練的周期數(shù),未包含預(yù)熱的八個(gè)周期)。

      隨機(jī)初始化詞向量把詞向量元素賦值為[0,1]之間的隨機(jī)浮點(diǎn)數(shù)。中文的預(yù)訓(xùn)練詞向量采用word2vec[18]在Chinese Gigaword上訓(xùn)練出的詞向量,詞向量維數(shù)為50,模型采用Skip-gram,上下文窗口大小為5,負(fù)采樣,負(fù)樣本個(gè)數(shù)為5。英文預(yù)訓(xùn)練詞向量采用Glove*http://nlp.stanford.edu/projects/glove/在Wikipedia 2014與English Gigaword 5上訓(xùn)練出的詞向量,詞向量維數(shù)為50。

      作為比較的LDA模型采用GibbsLDA++*http://gibbslda.sourceforge.net/來(lái)實(shí)現(xiàn),中文模型隱含主題個(gè)數(shù)設(shè)為200,迭代訓(xùn)練2 000次;英文模型隱含主題個(gè)數(shù)也設(shè)為200,迭代訓(xùn)練1 000次。其他參數(shù)均采用缺省設(shè)置。

      4.2 評(píng)價(jià)方法

      語(yǔ)義選擇限制獲取模型對(duì)動(dòng)賓搭配打分,合理的搭配得分要高于不合理的搭配,偽消歧方法就是利用這種思想對(duì)選擇限制獲取模型進(jìn)行評(píng)價(jià)。對(duì)于測(cè)試集中的每一個(gè)正例(v,n),構(gòu)造反例(v,n′),如果spr(v,n) >spr(v,n′),則判斷正確,記做correct;如果spr(v,n) =spr(v,n′),則記作tie;否則,判斷錯(cuò)誤。正確率accuracy的計(jì)算公式如式(8)所示。

      (8)

      中文測(cè)試數(shù)據(jù)使用1998年1月的人民日?qǐng)?bào)語(yǔ)料,從中抽取動(dòng)賓搭配,并通過(guò)人工校對(duì)選取1 289個(gè)作為正例,包括365個(gè)動(dòng)詞和379個(gè)名詞。從Penn Treebank中選取動(dòng)賓搭配2 500個(gè)作為英文測(cè)試數(shù)據(jù)中的正例。

      表2 正反例舉例

      反例中替代詞n′的選擇有不同的策略,例如,隨機(jī)選擇(按訓(xùn)練集中名詞的真實(shí)分布)、選擇詞頻相近的詞等。我們采用三種選擇策略,分別為:名詞按詞頻降序排列,選擇直接前驅(qū)詞(pre);名詞按詞頻降序排列,選擇直接后繼詞(post);隨機(jī)選擇(rand)。表2分別給出中英文測(cè)試集中正反例的例子。verb是動(dòng)詞v,pos是正例中的n,pre、post與rand是三種策略下的反例中的n′。可見(jiàn),正例的搭配較合理,而反例大多不合理,但也可能存在合理的情況,例如,“reject change”,因此要進(jìn)行更準(zhǔn)確的評(píng)價(jià),還需要對(duì)測(cè)試集中自動(dòng)生成的反例進(jìn)行過(guò)濾或人工校對(duì)。

      中文訓(xùn)練語(yǔ)料為人民日?qǐng)?bào)1995、1997~2005共十年的語(yǔ)料,使用NiuParser[19]進(jìn)行分詞、詞性標(biāo)注、依存句法分析,抽取動(dòng)賓搭配,選擇動(dòng)詞出現(xiàn)30次以上、名詞出現(xiàn)五次以上的搭配。去掉測(cè)試集中出現(xiàn)的搭配(包括正例和反例),最后得到動(dòng)賓搭配8 877 091對(duì)(去重后搭配1 709 168對(duì))。

      英文訓(xùn)練語(yǔ)料為English Gigaword語(yǔ)料中的Agence France-Presse(AFP,2001—2010年)和New York Times(NYT,2001—2010年),從中抽取動(dòng)賓搭配,選擇動(dòng)詞出現(xiàn)30次以上、名詞出現(xiàn)五次以上的搭配。去掉測(cè)試集中出現(xiàn)的搭配(包括正例和反例),最后分別得到動(dòng)賓搭配25 004 475對(duì)(去重后搭配1 912 264對(duì))、28 133 369對(duì)(去重后搭配3 274 509對(duì))。

      從訓(xùn)練數(shù)據(jù)中去掉測(cè)試樣本中的所有搭配,包括正例和反例,這樣做是為了保證所有的測(cè)試樣本對(duì)模型來(lái)說(shuō)都是沒(méi)有見(jiàn)過(guò)的,以使實(shí)驗(yàn)結(jié)果更能反映模型的泛化能力,將重點(diǎn)放在謂語(yǔ)動(dòng)詞對(duì)未見(jiàn)論元的選擇限制的預(yù)測(cè)上。

      4.3 實(shí)驗(yàn)結(jié)果及分析

      中英文語(yǔ)義選擇限制獲取結(jié)果分別見(jiàn)表3、表4(粗體表示測(cè)試集上的最好結(jié)果)。方案SHL為單隱層前饋網(wǎng)絡(luò),詞向量隨機(jī)初始化。方案SHL+wv為單隱層前饋網(wǎng)絡(luò),詞向量初始化為預(yù)訓(xùn)練詞向量。方案Maxout+wv為兩層maxout網(wǎng)絡(luò),詞向量初始化為預(yù)訓(xùn)練詞向量。方案LDA為基于LDA的選擇限制獲取模型。方案wv+cos利用預(yù)訓(xùn)練的詞向量直接計(jì)算v和n的相似度,作為sp值,相似度計(jì)算公式使用夾角余弦cos(v,n),該方案用作baseline與其他方案相比較。為了考察語(yǔ)料規(guī)模的影響,我們?cè)谥形娜嗣袢請(qǐng)?bào)語(yǔ)料上做了三個(gè)實(shí)驗(yàn),分別把十年(x10)、兩年(x2,2004、2005年)、一年(x1,2005年)的語(yǔ)料作為訓(xùn)練集。英文nyt訓(xùn)練集中的樣本數(shù)多于afp。

      實(shí)驗(yàn)結(jié)果顯示:(1)預(yù)訓(xùn)練詞向量比隨機(jī)初始化詞向量的結(jié)果有大幅度的提升; (2)Maxout網(wǎng)絡(luò)比單隱層前饋網(wǎng)絡(luò)的結(jié)果又有所提升; (3)引入預(yù)訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型結(jié)果優(yōu)于LDA模型; (4)直接使用詞向量計(jì)算相似度的方案wv+cos是一個(gè)很強(qiáng)的baseline,超過(guò)了LDA模型的結(jié)果,但是神經(jīng)網(wǎng)絡(luò)模型仍然能取得更好的結(jié)果; (5)模型可以在較小規(guī)模的訓(xùn)練集上取得不錯(cuò)甚至更好的結(jié)果,因此不必一味增加訓(xùn)練集的規(guī)模。

      中英文的測(cè)試結(jié)果相差很大,中文的結(jié)果明顯好于英文。原因分析如下:(1)中文測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)都來(lái)自人民日?qǐng)?bào)語(yǔ)料,而英文的測(cè)試數(shù)據(jù)Penn Treebank語(yǔ)料來(lái)源于Wall Street Journal,不同于訓(xùn)練語(yǔ)料Agence France-Presse與New York Times,這種語(yǔ)料的差異是典型的領(lǐng)域遷移問(wèn)題,會(huì)帶來(lái)性能的損失; (2)中文測(cè)試集中的正例和反例均經(jīng)過(guò)了人工驗(yàn)證,而英文測(cè)試集沒(méi)有經(jīng)過(guò)人工驗(yàn)證,隨機(jī)選擇Penn Treebank中出現(xiàn)的動(dòng)賓搭配作為正例,生成的反例只要沒(méi)有出現(xiàn)在Penn Treebank中即可。這樣可能會(huì)造成英文出現(xiàn)“正例不正,反例不反”的情況,即反例雖然在測(cè)試語(yǔ)料中不存在,但有可能在原始訓(xùn)練語(yǔ)料(剔除測(cè)試樣本之前)中出現(xiàn)的很多,甚至比正例還多,從而使測(cè)試結(jié)果變差。如表5所示,post策略下三個(gè)反例在原始訓(xùn)練集afp中出現(xiàn)的次數(shù)均高于正例。在選擇測(cè)試樣本的時(shí)候可以使用共現(xiàn)頻率、互信息等統(tǒng)計(jì)指標(biāo)進(jìn)行過(guò)濾(如,要求反例不在訓(xùn)練集中出現(xiàn)),來(lái)保證樣本的質(zhì)量。

      表3 中文語(yǔ)義選擇限制獲取實(shí)驗(yàn)結(jié)果

      表4 英文語(yǔ)義選擇限制獲取實(shí)驗(yàn)結(jié)果

      表5 正反例(post)在原始訓(xùn)練集(afp)中的共現(xiàn)次數(shù)

      5 總結(jié)與展望

      本文提出基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義選擇限制自動(dòng)獲取模型,包括引入預(yù)訓(xùn)練詞向量的單隱層前饋網(wǎng)絡(luò)和兩層maxout網(wǎng)絡(luò)模型,在中文和英文兩種語(yǔ)言上的偽消歧實(shí)驗(yàn)中,兩個(gè)模型的結(jié)果都優(yōu)于LDA模型,引入預(yù)訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型也可以取得比基于詞向量的詞語(yǔ)相似度方法更好的結(jié)果。

      深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)義選擇限制知識(shí)獲取上的應(yīng)用還比較初步,我們下一步會(huì)對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),深入分析實(shí)驗(yàn)結(jié)果,對(duì)模型進(jìn)行改進(jìn),嘗試其他的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在模型的對(duì)比方面,我們只是與前期工作中的LDA模型作了比較,由于數(shù)據(jù)獲取及實(shí)驗(yàn)細(xì)節(jié)方面還存在一些問(wèn)題,尚未與其他模型進(jìn)行全面的比較,這將是下一步的工作重點(diǎn)。我們對(duì)中英文語(yǔ)義選擇限制知識(shí)的獲取進(jìn)行了初步的實(shí)驗(yàn),研究跨語(yǔ)言的語(yǔ)義選擇限制知識(shí)獲取,探索不同語(yǔ)言中的語(yǔ)義選擇限制規(guī)律也是將來(lái)的工作之一。

      致謝

      感謝Zhenhua Tian分享的英文數(shù)據(jù):從Agence France-Presse語(yǔ)料、New York Times語(yǔ)料及Penn Treebank中提取的動(dòng)賓搭配。感謝北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所的李天時(shí)提供的中文預(yù)訓(xùn)練詞向量。

      [1] 賈玉祥,俞士汶.語(yǔ)義選擇限制的自動(dòng)獲取及其在隱喻處理中的應(yīng)用[C]//第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)(SWCL 2008),2008:90-96.

      [2] Guangyou Zhou,Jun Zhao,Kang Liu,et al.Exploiting Web-Derived Selectional Preference to Improve Statistical Dependency Parsing[C] //Proceedings of ACL2011,2011:1556-1565.

      [3] Shumin Wu and Martha Palmer.Can Selectional Preferences Help Automatic Semantic Role Labeling?[C] //Proceedings of Lexical and Computational Semantics (*SEM 2015),2015:222-227.

      [4] Diana McCarthy and John Carroll.Disambiguating nouns,verbs,and adjectives using automatically acquired selectional preferences[J].Computational Linguistics,2003,29(4):639-654.

      [5] 唐海慶,熊德意.基于選擇偏向性的統(tǒng)計(jì)機(jī)器翻譯模型[J].北京大學(xué)學(xué)報(bào) (自然科學(xué)版),2016,52(1):127-133.

      [6] Philip Resnik.Selection and Information:A Class-Based Approach to Lexical Relationships[D].Ph.D.thesis,University of Pennsylvania,Philadelphia,PA,1993.

      [7] Hang Li,Naoki Abe.Generalizing case frames using a thesaurus and the MDL principle[J].Computational Linguistics,1998,24(2):217-244.

      [8] Stephen Clark,David Weir.Class-based probability estimation using a semantic hierarchy[J].Computational Linguistics,2002,28(2):187-206.

      [9] Diarmuid 'O S'eaghdha.Latent variable models of selectional preference[C] //Proceedings of ACL2010,2010:435-444.

      [10] Katrin Erk,Sebastian Pado,Ulrike Pado.A Flexible,Corpus-driven Model of Regular and Inverse Selectional Preferences[J].Computational Linguistics,2010,36(4):723-763.

      [11] Zhenhua Tian,Hengheng Xiang,Ziqi Liu,et al.A Random Walk Approach to Selectional Preferences Based on Preference Ranking and Propagation[C] //Proceedings of ACL2013,2013:1169-1179.

      [12] Shane Bergsma,Dekang Lin,Randy Goebel.Discriminative Learning of Selectional Preference from Unlabeled Text[C] //Proceedings of EMNLP2008,2008:59-68.

      [13] TimVan de Cruys.A Neural Network Approach to Selectional Preference Acquisition[C] //Proceedings of EMNLP2014,2014:26-35.

      [14] 賈玉祥,王浩石,昝紅英,等.漢語(yǔ)語(yǔ)義選擇限制知識(shí)的自動(dòng)獲取研究[J].中文信息學(xué)報(bào),2014,28(5):66-73.

      [15] Ian J Goodfellow,David Warde-farley,Mehdi Mirza,et al.Maxout networks[C] //Proceedings of ICML2013,2013:1319-1327.

      [16] Ronan Collobert,Jason Weston.A unified architecture for natural language processing:Deep neural networks with multitask learning[C] //Proceedings of ICML2008,2008:160-167.

      [17] Nathanael Chambers,Dan Jurafsky.Improving the use of pseudo-words for evaluating selectional preferences[C] //Proceedings of ACL2010,2010:445-453.

      [18] Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient estimation of word representations in vector space[DB].arXiv preprint,arXiv:1301.3781,2013.

      [19] Jingbo Zhu,Muhua Zhu,Qiang Wang,et al.NiuParser:A Chinese Syntactic and Semantic Parsing Toolkit[C] //Proceedings of ACL-IJCNLP 2015,2015:145-150.

      Neural Network Models for Selectional Preference Acquisition

      JIA Yuxiang,XU Hongfei,ZAN Hongying

      (School of Information Engineering,Zhengzhou University,Zhengzhou,Henan 450001,China)

      Selectional preference describes the semantic preference of the predicate for its arguments.It is an important lexical knowledge for the syntactic and semantic analysis of natural languages.Neural network models have achieved state-of-the-art performance in many natural language processing tasks.This paper deploys neural network models for selectional preference acquisition,including a one-hidden-layer feedforward network with pre-trained word vectors and a maxout network.In the pseudo-disambiguation experiments on Chinese and English,neural network models both outperform a LDA-based selectional preference acquisition model.

      selectional preference; lexical acquisition; neural network; pseudo-disambiguation

      賈玉祥(1981—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:ieyxjia@zzu.edu.cn許鴻飛(1994—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與深度學(xué)習(xí)。E-mail:hfxunlp@foxmail.com昝紅英(1966—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E-mail:iehyzan@zzu.edu.cn

      1003-0077(2011)00-0155-07

      2016-09-08 定稿日期:2016-10-25

      國(guó)家自然科學(xué)基金(61402419);國(guó)家社會(huì)科學(xué)基金(14BYY096);國(guó)家高技術(shù)研究發(fā)展計(jì)劃863課題(2012AA011101);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 973 課題(2014CB340504)

      TP391

      A

      猜你喜歡
      正例論元反例
      小學(xué)生舉例表現(xiàn)與概念理解的相關(guān)性研究
      幾個(gè)存在反例的數(shù)學(xué)猜想
      基于概念形成的教學(xué)研究
      活用反例擴(kuò)大教學(xué)成果
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
      基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
      利用學(xué)具構(gòu)造一道幾何反例圖形
      高中數(shù)學(xué)概率教學(xué)中的誤區(qū)與應(yīng)對(duì)策略分析
      “絕不”與“決不”的區(qū)別
      英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
      西青区| 东宁县| 都安| 汉源县| 封丘县| 岑巩县| 安远县| 麟游县| 永德县| 固镇县| 东平县| 吉安县| 杂多县| 开阳县| 江源县| 渝北区| 慈利县| 昌邑市| 柘城县| 康马县| 化德县| 龙岩市| 洪雅县| 广水市| 瓮安县| 吉隆县| 商水县| 高安市| 桃江县| 兰溪市| 游戏| 峨山| 两当县| 库尔勒市| 望江县| 治多县| 都昌县| 尼玛县| 祁东县| 长武县| 枝江市|