田衛(wèi)東,虞勇勇
(合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽 合肥 230009)
基于頻繁依存子樹模式的中心詞提取方法研究
田衛(wèi)東,虞勇勇
(合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽 合肥 230009)
條件隨機場模型通過抓取問句中心詞各方面統(tǒng)計特征來進行中心詞標注,但未能充分利用中心詞特征間存在的深層統(tǒng)計關(guān)系。該文利用中文問句的依存關(guān)系樹結(jié)構(gòu),通過挖掘問句依存關(guān)系樹所蘊藏的中心詞各維度特征之間的統(tǒng)計概率關(guān)系,為正確提取中心詞提供依據(jù),通過挖掘頻繁依存子樹模式以生成相應(yīng)統(tǒng)計規(guī)則模式,使用條件隨機場模型進行中心詞初始標注,使用頻繁依存子樹模式統(tǒng)計規(guī)則進行中心詞標注校正等。該文方法屬于典型的客觀方法,建立在嚴格的統(tǒng)計語料基礎(chǔ)上,標注的穩(wěn)定性、適應(yīng)性和魯棒性較好。實驗結(jié)果表明,該文方法將條件隨機場模型的中心詞標注準確率提高約3%。
中心詞;依存關(guān)系樹;條件隨機場;頻繁子樹模式
對問句所問內(nèi)容的準確理解是問答系統(tǒng)成敗的關(guān)鍵。經(jīng)過對各種形式中文問句分析發(fā)現(xiàn),相對于問句的其他成分,疑問詞和中心詞,對理解問題起著更關(guān)鍵的作用[1]。中文里疑問詞數(shù)量有限,識別容易,識別準確率高[2],然而中心詞不屬于傳統(tǒng)語法所涉及的詞性與語言成分的范疇,識別起來則困難得多。
正確提取中心詞有助于問題理解及提高問題分類的準確率[3-4],在問句處理領(lǐng)域以至整個自然語言處理方面具有重要意義。對中心詞的關(guān)注,最早是將其用于普通陳述句的句義理解[5],之后擴展到問句處理領(lǐng)域[3]。鑒于中心詞在中文句義理解方面的重要意義,而目前文獻中專門研究中心詞的卻很少,本文的研究具有重要意義。
在問句中心詞研究方面,中心詞的提取方法研究是熱點。基于啟發(fā)式規(guī)則[6-8]的方法是一類重要的抽取方法。例如,孫景廣等[6]選擇疑問詞(q)右邊或左邊的名詞(n)為中心詞;李廣濤等[7]選擇疑問詞(q)后面第一個名詞短語的最后一個名詞(n)為中心詞;田衛(wèi)東等[8]給出中心詞抽取的兩條啟發(fā)式規(guī)則: 當(dāng)疑問詞(q)在問句的句首或句尾時,離疑問詞最近的名詞(n)為問句的中心詞;當(dāng)疑問詞在其余位置時,則疑問詞(q)之后的第一個名詞(n)為中心詞;若未發(fā)現(xiàn)名詞(n),則認為該問句中沒有中心詞。這些方法所涉及的啟發(fā)式規(guī)則,基本由專家總結(jié),因此不可避免地帶有一定的主觀性,規(guī)則集的完備性難以保證,也缺乏精確的統(tǒng)計依據(jù)。如表1中問句Q1,正確中心詞為“公司”,但以上三種方法會將離疑問詞最近的名詞“視頻”標注為中心詞。
表1 中心詞在位置、數(shù)量和成份上的多樣性特征
注: 加粗表示中心詞
利用大規(guī)模語料庫,統(tǒng)計中心詞的位置和特征的概率數(shù)據(jù),進而給出在最大似然估計、最大后驗概率估計意義下的中心詞概率估計,是一類很有效的中心詞抽取方法。這其中最成功的是條件隨機場(Conditional Random Fields, CRF)[9]。文獻[2]利用CRF模型,選用詞、詞性、修飾詞等作為特征,將問題的中心詞識別問題轉(zhuǎn)化為序列標注的問題,使中心詞識別準確率有了很大改善。在此基礎(chǔ)上,田衛(wèi)東等[10]通過將CRF與錯誤驅(qū)動(TBL)相結(jié)合的方式,利用最小化中心詞標定錯誤率的方式來訓(xùn)練標注器,取得了不錯的效果。
但是,CRF是一種建立在主觀貝葉斯理論基礎(chǔ)上的專門用于概率處理的數(shù)學(xué)工具,計算量大復(fù)雜度高。對于CRF的最初應(yīng)用領(lǐng)域,例如,英文的一些序列標注問題,其精度損失從實際效果來看[11]微乎其微。但將CRF應(yīng)用于處理中文時,由于漢語句子中詞的平均依存距離遠高于英語和法語[12]、漢語的意合性、無時態(tài)變化與語序的靈活性[13]等原因,抓取存在于中文詞匯多維度特征之間的長距離多層次的統(tǒng)計特征非常困難。由于缺乏中心詞的完整深層統(tǒng)計信息,CRF會在標注時將部分潛在中心詞的邊緣概率計算錯誤,如Q1 CRF錯誤地將“制造”標注為中心詞。
為此,本文提出了一種基于頻繁依存子樹模式的中心詞提取方法,該方法通過挖掘大量問句的依存關(guān)系樹中所蘊藏的中心詞在不同維度特征之間的概率關(guān)系,以生成頻繁依存子樹對應(yīng)的統(tǒng)計規(guī)則,作為標注中心詞的依據(jù),用于彌補CRF所忽略的問句中心詞的相關(guān)統(tǒng)計信息,從而達到提高中心詞標注準確率的目的。
2.1 中文問句的中心詞
中心詞最初定義為“Focus word was defined as the most important word for comprehending a sentence.”[5],用于英語普通句子處理。后來被引入英語問句的處理和分析中,其定義變化為“single word that specifies the object that the question seeks.”[3]。在中文處理領(lǐng)域,中心詞的術(shù)語也不盡相同,如謂語中心詞(Head)、中心詞(head word)[14-15]、 焦點詞(focus)[16]、核心詞(keywords)[17]等。本文所稱中心詞專指中文問句的中心詞,是問句中最能體現(xiàn)和刻畫問句所對應(yīng)答案的特征的詞或詞組,能直接反映問句想查詢和獲得答案的核心內(nèi)容、能體現(xiàn)答案所屬的類別。
如Q1的答案應(yīng)是某個具體公司名稱,因此答案類型屬于組織機構(gòu)類(HUM_ORGNIZATION)。在該問句中,“公司”應(yīng)為中心詞。
中心詞與通常所說的關(guān)鍵詞(keywords)相關(guān),但內(nèi)涵不同。關(guān)鍵詞[19-20]是反映文本主題概念和實質(zhì)意義的詞,反映的是“本”文的特征,主要是為了適應(yīng)內(nèi)容檢索而提出來的。而問句的中心詞,本質(zhì)上反映的是“他”句,即問句所對應(yīng)答案句的特征,而非“本”句的特征。由于在問題分類階段無法獲取答案句,因此無法直接了解答案的各方面特征信息,中心詞則為我們間接刻畫答案句的特征提供了依據(jù)。
中文語言的特點導(dǎo)致了中文問句中心詞的標注更加復(fù)雜,這種復(fù)雜性體現(xiàn)在中心詞的詞性、位置、數(shù)量和成分等幾個方面,如表1所示。對哈爾濱工業(yè)大學(xué)信息檢索實驗室的問題集*http://www.ltp-cloud.com/; HIT-SCIR: http://ir.hit.edu.cn進行中心詞標注后,統(tǒng)計得出中心詞主要詞性的分布如表2所示。該語料庫中,中心詞為名詞的情況雖然占85.94%,但其他詞性的占比也不少,考慮到語料庫規(guī)模有限,可以想象在真實語言中,中心詞的詞性組成是多樣化的。
表2 中心詞在主要詞性上的分布
中心詞可能位于句首、句尾或中間,如表1中Q1、Q2和Q3。中心詞在單個問句中的數(shù)量不定,可能沒有中心詞,也可能有多個中心詞。Q4答案是人物類(HUM_PERSON),“人”和“位”聯(lián)合能更明確地表明答案“人”的特征,因此有兩個中心詞,Q6為原因類(DES_REASON),除了疑問詞“為什么”外,沒有其他可以確定其類別的詞,因此沒有中心詞。中心詞在問句中還可以作不同的語法成份。Q7的中心詞“學(xué)校”與疑問詞之間是定語修飾關(guān)系(ATT),Q8中心詞“距離”與謂語間是主謂關(guān)系(SBV),Q9中心詞“市花”與謂語則是動賓關(guān)系(VOB)。
2.2 依存關(guān)系樹
依存語法[21-22]是一種使用非常廣泛的語法形式,最早由法國語言學(xué)家L Tesiniere提出。依存語法認為,詞與詞之間的關(guān)系有方向,通常是一個詞支配另一個詞,這種支配與被支配的關(guān)系稱作依存關(guān)系。句子中的這種依存關(guān)系圖形化后的結(jié)果可形成依存關(guān)系樹(Dependency Relation Tree)[22]。
形式上,依存關(guān)系樹可作如下定義:
(1) 依存關(guān)系是建立在集合W上的二元關(guān)系R,記為 (2) 依存關(guān)系W存在最小上確界,記為Root,且滿足如式(1)所示的條件; (? (1) (3) 依存關(guān)系樹是一棵樹T=(F,B),其中F為結(jié)點集合,B為邊集合。邊是有方向的,假如v 圖1 依存關(guān)系樹示例 依存結(jié)構(gòu)分析被認為非常適合中文處理[23]。將大規(guī)模語料庫的依存關(guān)系樹準確解析形成樹庫,可獲得相當(dāng)精確的帶有一定深層語義的各種統(tǒng)計概率信息,在中文信息處理方面的應(yīng)用非常廣泛[24-26]。 2.3 條件隨機場 CRF由Lafferty等人于2001年提出[27],是一種判別式概率模型,主要處理序列數(shù)據(jù)。數(shù)據(jù)序列隨機變量記為X,標注結(jié)果序列隨機變量Y的條件概率分布記為P(Y|X),CRF通過在訓(xùn)練數(shù)據(jù)上訓(xùn)練出的特征模板(model),來求得在最大似然估計、最大后驗概率意義下的P(Y|X)。 令X=(x1,x2,…,xn)表示觀察序列,Y=(y1,y2,…,yn)表示有限的輸出狀態(tài)序列集合。 CRF定義Y的條件概率為式(2)。 (2) 其中,fj(yi-1,yi,x,i)為特征函數(shù),是狀態(tài)特征函數(shù)和轉(zhuǎn)移特征函數(shù)的統(tǒng)一表示形式;Zx為歸一化常量,用于使所有狀態(tài)序列的概率和為1,Zx的計算公式如式(3)所示。 (3) 其中,∑i∑jλjfj(yi-1,yi,x,i)是對整個觀察序列,標記位于i和i-1的特征函數(shù),λ={λ1,…,λm}是特征函數(shù)的權(quán)。 CRF的任務(wù)是搜索概率最大的Y*,得出式(4)。 Y*=argmaxP(Y/X) (4) 應(yīng)用CRF的限制條件比隱馬爾可夫模型更弱,尤其是線性鏈CRF,有特化的處理算法,特別適合解決自然語言處理領(lǐng)域的序列標注問題。 基于頻繁依存子樹模式的中心詞提取,主要包括三個核心步驟: (1)問句預(yù)處理;(2)利用CRF進行初始標注;(3)挖掘頻繁依存子樹模式并形成統(tǒng)計規(guī)則模式,利用高可信度的頻繁依存子樹模式和統(tǒng)計規(guī)則模式重新標定中心詞,如圖2。 3.1 中心詞的初始標注 首先對問句進行分詞,然后進行依存關(guān)系分析,構(gòu)建依存關(guān)系樹庫。對于依存關(guān)系樹中每個詞匯的特征,可以根據(jù)需要選取,本文的特征集選擇參考了文獻[2,10]。此時,觀察序列X和標注序列Y可表示為: 其中,F(xiàn)i是詞的第i個特征的值集;L表示標注的結(jié)果,L={f,q,n}。f、q、n分別表示中心詞、疑問詞、既非中心詞也非疑問詞。 圖2 中心詞提取步驟流程圖 利用CRF在訓(xùn)練階段得出的特征模板,對目標問句進行標注,形成初始標注結(jié)果。表3是中心詞初始標注的一個示例。 表3 CRF對問句Q1的中心詞標注 注:P為邊緣概率CRF錯誤地將“創(chuàng)造”標注為“f”。 3.2 頻繁依存子樹模式 語料庫中所有問句的依存關(guān)系樹形成樹數(shù)據(jù)庫。對依存關(guān)系樹的樹庫進行統(tǒng)計分析可以發(fā)現(xiàn),依存關(guān)系樹的局部特征(子樹)的出現(xiàn)概率是不同的,有些經(jīng)常出現(xiàn),有些則很少出現(xiàn)。參考文獻[28-29]頻繁子樹定義,引入頻繁依存子樹的概念。 嵌入子樹的定義: 給定樹Ta=(Fa,Ba)和Tb=(Fb,Bb),假如,(1)Fb?Fa;(2) (nb,x,nb,y)?Bb?na,y≤lna,x,則稱Tb為Ta的嵌入子樹,簡記為Tb?Ta。其中,ni,y表示依存關(guān)系樹i的深度遍歷序列的y號結(jié)點,≤l表示祖先-后代關(guān)系。 誘導(dǎo)子樹的定義: 給定樹Ta=(Fa,Ba)和Tb=(Fb,Bb),假如,(1)Fb?Fa;(2) (nb,x,nb,y)?Bb→(na,x,na,y)?Ba,則稱Tb為Ta的誘導(dǎo)子樹,簡記為Tb?Ta。 嵌入子樹和誘導(dǎo)子樹統(tǒng)稱子樹。 本文采用文獻[28-29]使用的樹存儲格式,問句Q1對應(yīng)的根樹與子樹如圖3。可以看出,嵌入式子樹的特點是子樹中的節(jié)點在根樹中可保持祖先后代關(guān)系,如圖3(c)中⑥與④;而誘導(dǎo)子樹中的節(jié)點與根樹中保持一致,只能為父子關(guān)系,如圖3(a)。 圖3 Q1對應(yīng)的根樹及不同類型子樹 子樹在樹數(shù)據(jù)庫D的支持度: 給定樹數(shù)據(jù)庫D以及子樹T,T的支持度為suppD(T)=|p(T)|/|D|,其中p(T)是D中包含子樹T的依存關(guān)系樹集合,即對任意t∈p(T),T為t的嵌入子樹/誘導(dǎo)子樹,|.|為集合的勢。 頻繁子樹的定義: 對任意指定的最小支持度閾值0≤minsupp≤1,當(dāng)minsupp≤suppD(T)時,稱T為D中的頻繁嵌入子樹/誘導(dǎo)子樹,統(tǒng)稱頻繁子樹。 對于依存關(guān)系樹來說,嵌入子樹和誘導(dǎo)子樹都是樹的局部特征,其中嵌入子樹反映了依存關(guān)系樹中離散結(jié)點之間的統(tǒng)計特征,而誘導(dǎo)子樹反映了依存關(guān)系樹中鄰接結(jié)點之間的統(tǒng)計特征。兩類子樹都是頻繁的,本文統(tǒng)稱頻繁依存子樹模式。應(yīng)用到中心詞提取中,可以充分利用模式中共有的結(jié)構(gòu)特征,并通過統(tǒng)計得到大量依存關(guān)系樹所蘊藏的中心詞各維度特征之間的概率關(guān)系,由這些概率關(guān)系生成的規(guī)則可以包含更全面的依存語法結(jié)構(gòu)信息,從而為中心詞抽取所需的深層語義信息抓取提供了可能。實現(xiàn)如算法1。 算法1 從依存子樹生成統(tǒng)計規(guī)則模式 if(tree[j]>=0and(tree[j+1]==-1)then R←R∪{j}; R←R∪{indexoftreeslastitem}; foreach itemk∈Rdo subtree←?; forj←0toR.size()?1do if(j 3.3 統(tǒng)計規(guī)則模式 統(tǒng)計規(guī)則的定義為式(5)。 (5) 其中,Ta?Tb,cf稱為統(tǒng)計規(guī)則的置信度如式(6)所示。 (6) 其中D下標表示樹數(shù)據(jù)庫D。 對于給定的最小支持度閾值minsupp,統(tǒng)計規(guī)則R:Ta?Tb可劃分為三類。 (1)minsupp≤suppD(Tb) 且minsupp≤suppD(Ta); (2)minsupp≥suppD(Tb) 且minsupp≥suppD(Ta); (3)minsupp≥suppD(Tb) 且minsupp≤suppD(Ta)。 如Q1中統(tǒng)計規(guī)則如圖4,Ta在樹庫中出現(xiàn)224次,Tb出現(xiàn)119次,所以規(guī)則中目標節(jié)點⑥(n、ATT、f)為中心詞的概率為97.7%。 圖4 問句Q1中存在的統(tǒng)計規(guī)則 通常,我們只對頻繁子樹間構(gòu)成的統(tǒng)計規(guī)則感興趣,即滿足條件1的規(guī)則。但有時候,非頻繁子樹之間構(gòu)成的統(tǒng)計規(guī)則也可能很有價值。給定最小置信度閾值minconf,定義規(guī)則“Ta?Tb,cfD”為強規(guī)則,當(dāng)且僅當(dāng)cfD(Ta?Tb)≥minconf,Ta?Tb。 強規(guī)則反映了依存子樹局部結(jié)構(gòu)之間較強的關(guān)聯(lián)性,體現(xiàn)出中文問句自然語言結(jié)構(gòu)中,局部語言模式間的強關(guān)聯(lián)性。本文將其稱作統(tǒng)計規(guī)則模式。本質(zhì)上,頻繁依存子樹模式反映了依存子樹中結(jié)點之間的聯(lián)合概率分布,而統(tǒng)計規(guī)則模式反映了子樹之間的條件概率分布。 有一類特殊的統(tǒng)計規(guī)則模式是我們特別感興趣的,稱為直接統(tǒng)計規(guī)則模式,圖5中“③⑥⑦⑩”均為構(gòu)建問句的依存關(guān)系樹時所考慮的特征;“?”表示通配節(jié)點;虛線框為目標節(jié)點。 此類規(guī)則的定義為: 定義規(guī)則“Ta?Tb,cfD”為直接統(tǒng)計規(guī)則模式,當(dāng)且僅當(dāng)cfD(Ta?Tb)≥minconf,Ta?Tb,|Tb|=|Ta|+1。 當(dāng)Ta為Tb的誘導(dǎo)子樹時,稱為直接誘導(dǎo)規(guī)則模式;為嵌入子樹時,稱為直接嵌入規(guī)則模式。 圖5 統(tǒng)計規(guī)則模式 3.4 兩類模式的結(jié)點定義 頻繁依存子樹模式和統(tǒng)計規(guī)則模式所涉及的局部問句語言結(jié)構(gòu),都由結(jié)點組成,而結(jié)點由多維特征來描述。表4是結(jié)點多維度特征的一個例子。 表4 結(jié)點多維度特征示例 3.5 中心詞標注 CRF對問題進行標注時,通過計算每個標注的邊緣概率P來決定最終標注結(jié)果。本文使用置信度高的頻繁依存子樹模式和統(tǒng)計規(guī)則模式,對CRF初始標注結(jié)果進行修正。這種做法本質(zhì)上是將問句中頻繁出現(xiàn)的包括中心詞的這類結(jié)構(gòu)特征作為CRF所選取特征信息的擴充,彌補CRF不能充分利用中心詞特征間存在的深層統(tǒng)計關(guān)系的不足。 具體做法為: 用CRF進行初始標注,利用前期挖掘得到的頻繁依存子樹模式和統(tǒng)計規(guī)則模式,匹配目標節(jié)點,如果匹配成功,再繼續(xù)匹配目標節(jié)點中包含的特征信息,當(dāng)全部匹配成功后,將初始標注結(jié)果修正為規(guī)則中所標注的內(nèi)容。當(dāng)多條規(guī)則對應(yīng)相同的目標節(jié)點時,選擇置信度最高規(guī)則中的標注為最終結(jié)果。 4.1 數(shù)據(jù)及實驗工具來源 依存句法分析的標注體系各有不同,本文采用的是哈爾濱工業(yè)大學(xué)信息檢索實驗室的語言技術(shù)云平臺(LTP-cloud)的標注體系。另外,測試所用的數(shù)據(jù)集、問句分詞和依存句法分析的工具也來自該平臺。該問題集,共6 294個問句。文中使用CRF++*http://crfpp.sourceforge.net/作為初始標注工具。頻繁子樹挖掘使用文獻[29]的SLEUTH算法。 4.2 實驗總體設(shè)計 本文從三個角度設(shè)計實驗。(1)設(shè)不同的CRF訓(xùn)練模板T1和T2。驗證CRF和頻繁子樹和統(tǒng)計規(guī)則模式在考慮相同特征維度、CRF考慮所有維度的特征,頻繁子樹和統(tǒng)計規(guī)則模式仍只考慮部分特征的條件下,本文方法的有效性。特征選取參照表5;(2)為了避免數(shù)據(jù)集劃分不均衡,通過10次交叉驗證的方法,隨機選取90%作為訓(xùn)練集,10%作為測試集,驗證方法的有效性;(3)選取30%-80%作為訓(xùn)練集,目的是驗證訓(xùn)練集數(shù)量的增加,本文方法在CRF基礎(chǔ)上是否仍有修正效果(90%在(2)中)。 表5 CRF特征模板設(shè)置 4.3 實驗評價方法 本文定義了評價函數(shù)FP1-FP4。其中,F(xiàn)P3為文獻[2] 的定義,F(xiàn)P2為文獻[10]的定義。由于評價函數(shù)FP2和FP3僅考慮中心詞的局限性,本文另外定義評價函數(shù)FP1和FP4。 各評價函數(shù)定義如下: 其中,F(xiàn)P2反映了中心詞被正確識別或者無中心詞的問句數(shù)量的占比。 4.4 實驗結(jié)果及分析 實驗采用10-fold交叉驗證,用四種不同評價函數(shù)在T1、T2模板下進行測試,如圖6-7。 圖6 中心詞提取準確率(T1) 圖7 中心詞提取準確率(T2) 問題集隨機選取30%~80%,六組不同比例的數(shù)據(jù)作為訓(xùn)練集,在T1、T2下進行測試,實驗結(jié)果如圖8。 圖8 30%~80%比例劃分訓(xùn)練集在T1 下準確率提升百分比 從圖6、圖8可以看出,當(dāng)CRF與頻繁子樹模式和統(tǒng)計規(guī)則模式挖掘都只考慮詞性和依存關(guān)系等部分特征時,在10-fold交叉驗證情況下四個評價標準FP1-FP4準確率平均提升2.52%、3.09%、3.93%、0.43%;按30%-80%劃分訓(xùn)練集時,準確率分別提升1.65%、2.15%、2.86%、0.25%。這表明了本文的方法能使中心詞標注的準確率得到明顯的提高。 從圖7、圖8可以看出,在CRF考慮詞、詞性、依存關(guān)系、修飾詞等多類特征時,本文的方法在10-fold交叉驗證情形下,F(xiàn)P1-FP4分別提升0.63%、1.10%、1.37%、0.13%;按30%-80%劃分訓(xùn)練集時,平均提升0.64%、1.01%、1.09%、0.05%。說明當(dāng)CRF考慮更全面的特征時,CRF的標注準確率有所上升,而本文方法的提升幅度雖略有降低,但FP2、FP3仍有1%以上的提高。 本文與結(jié)合CRF和錯誤驅(qū)動來提取中心詞[10]的方法也作了對比,見表6。該方法將問題集按train∶test1∶test2為2∶2∶1的方式劃分,本文選取與文獻[12]中相同的五組隨機劃分結(jié)果。 表6 與文獻[10]實驗對比 表7-8則是按30%~80%比例劃分的實驗結(jié)果。結(jié)果表明隨著訓(xùn)練樣本的增加,本文的方法在CRF標注效果變好的基礎(chǔ)上仍然有修正的效果。 表7 訓(xùn)練集按 30%~80%劃分在T1基礎(chǔ)上的實驗結(jié)果(cf為規(guī)則置信度,P為CRF的邊緣概率) 表8 訓(xùn)練集按 30%~80%劃分在T2基礎(chǔ)上的實驗結(jié)果 續(xù)表 本文提出了一種新的問句中心詞提取方法。該方法通過挖掘頻繁依存子樹模式和統(tǒng)計規(guī)則模式,抓取中心詞不同維度特征之間的概率關(guān)系,然后結(jié)合考慮CRF標注結(jié)果的邊緣概率來修正CRF的初始標注結(jié)果。實驗表明,中心詞在依存關(guān)系樹中頻繁存在的層次結(jié)構(gòu)特征對提高中心詞的標注準確率是有益的;在CRF與兩類模式的挖掘中考慮相同特征時,本文方法的有效性更明顯。這些結(jié)論為繼續(xù)深入研究問句中心詞奠定了基礎(chǔ)。 總體而言,中心詞標注問題復(fù)雜,諸如語料數(shù)據(jù)的稀疏性和數(shù)據(jù)傾斜、分詞和依存句法分析的準確性還不夠高、人工標注的主觀性等,都是影響標注結(jié)果的重要因素。針對這些問題展開研究,同時進一步擴充和完善真實語料庫,通過對生成的各類模式進行精選以減少噪聲提高標注準確率,是本文下一步要研究的工作。 [1] Xiao-Ming L,Li L. Question Classification Based on Focus[C]//Proceedings of Communication Systems and Network Technologies (CSNT),2012 International Conference on. IEEE,2012: 512-516. [2] Zhang Z,Zhang Y,Liu T,et al. Automatic Recognition of Focus and Interrogative Word in Chinese Question for Classification[J]. Computer and Information Science,2010,3(1): P168. [3] Huang Z,Thint M,Qin Z. Question classification using head words and their hypernyms[C]//Proceedings of Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2008: 927-936. [4] Wei Z,Junjie C,Yanqing N. Research on Chinese Question Classification Based on Hownet and Dependency Parsing[C]//Intelligent Systems and Applications (ISA),2011 3rd International Workshop on. IEEE,2011: 1-4. [5] Osaka M,Nishizaki Y,Komori M,et al. Effect of focus on verbal working memory: Critical role of the focus word in reading[J]. Memory & cognition,2002,30(4): 562-571. [6] 孫景廣,蔡東風(fēng),呂德新,等. 基于知網(wǎng)的中文問題自動分類[J]. 中文信息學(xué)報,2007,21(1): 90-95. [7] 李方濤,張顯,孫建樹等.一種新的層次化結(jié)構(gòu)問題分類器[J].中文信息學(xué)報,2008,22(1): 93-98. [8] 田衛(wèi)東,高艷影,祖永亮.基于自學(xué)習(xí)規(guī)則和改進貝葉斯結(jié)合的問題分類[J].計算機應(yīng)用研究,2010,27(8): 2869-2871. [9] Lafferty J,McCallum A,Pereira F C N. Conditional Ran-dom fields: Probabilistic models for segmenting and labeling sequence data[J]. 2001: 282-289. [10] 田衛(wèi)東,李亞娟. 基于 CRF 和錯誤驅(qū)動的中心詞識別[J]. 計算機應(yīng)用研究,2013,30(8): 2345-2348. [11] Sasaki Y,Tsuruoka Y,McNaught J,et al. How to make the most of NE dictionaries in statistical NER[J]. BMC bioinformatics,2008,9(Suppl 11): S5. [12] 劉海濤,黃偉. 計量語言學(xué)的現(xiàn)狀,理論與方法[J]. 浙江大學(xué)學(xué)報 (人文社會科學(xué)版),2012,42(2). [13] 尤昉,李涓子,王作英. 基于語義依存關(guān)系的漢語語料庫的構(gòu)建[J]. 中文信息學(xué)報,2003,17(1): 46-53. [14] 龔小謹,羅振聲,駱衛(wèi)華. 漢語句子謂語中心詞的自動識別[J]. 中文信息學(xué)報,2003,17(2): 7-13. [15] 李國臣,孟靜山. 利用主語和謂語的句法關(guān)系識別謂語中心詞[J]. 中文信息學(xué)報,2005,19(1): 1-7. [16] Sun H,Jurafsky D. Shallow Semantc Parsing of Chinese[C]//Proceedings of HLT-NAACL. 2004: 249-256. [17] 李素建,劉群,楊志峰. 基于最大熵模型的組塊分析[J]. 計算機學(xué)報,2003,26(12): 1722-1727. [18] Chien L F. PAT-tree-based keyword extraction for Chinese information retrieval[C]//Proceedings of ACM SIGIR Forum. ACM,1997,31(SI): 50-58. [19] Azcarraga A,Liu M D,Setiono R. Keyword extraction using backpropagation neural networks and rule extraction[C]//Proceedings of Neural Networks (IJCNN),The 2012 International Joint Conference on. IEEE,2012: 1-7. [20] Peng F,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963-979. [21] Tesnière L,Fourquet J. Eléments de syntaxe structurale[M]. Paris: Klincksieck,1959. [22] 周明,黃昌寧. 面向語料庫標注的漢語依存體系的探討[J]. 中文信息學(xué)報,1994,8(3): 35-52. [23] M. Zhou. A block-based dependency parser for unrestricted Chinese text[C]//Proceedings of the 2nd Chinese Language Processing Workshop Attached to ACL-2000,Hong Kong. 2000: 78-84. [24] 文勖,張宇,劉挺,等. 基于句法結(jié)構(gòu)分析的中文問題分類[J]. 中文信息學(xué)報,2006,20(2): 33-39. [25] 胡寶順,王大玲,于戈,等. 基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J]. 計算機學(xué)報,2008, 31(4): 662-676. [26] 王智強,李茹,陰志洲,等. 基于依存特征的漢語框架語義角色自動標注[J]. 中文信息學(xué)報,2013,2: 005. [27] Lafferty J,McCallum A,Pereira F C N. Conditional Ran-dom fields: Probabilistic models for segmenting and labeling sequence data[J]. 2001: 282-289. [28] Zaki M J. Efficiently mining frequent trees in a forest: Algorithms and applications[J]. Knowledge and Data Engineering,IEEE Transactions on,2005,17(8): 1021-1035. [29] Zaki M J. Efficiently mining frequent embedded unordered trees[J]. Fundamenta Informaticae,2005,66(1): 33-52. Automatic Extraction of Focus Based on Frequent Dependency Subtree Patterns TIAN Weidong, YU Yongyong (School of Computer and Information,Hefei University of Technology, Hefei, Anhui 230009, China) Even though Conditional Random Field(CRF) model can automatically tag focus in question,some deep relationships among focuses still cannot be mined,and this results in nontrivial impairing on focus recognition. In this paper,a focus recognition method based on frequent dependency tree pattern of Chinese question is proposed. In this method,probabilities of various dimensional relationships of focus hidden in the dependency tree corpus are mined to improve the recognition accuracy. The main steps of the method include mining frequent subtree dependency model to generate the corresponding statistical rules,using CRF for initial focus annotation,and using frequency dependent subtree statistical rules to correct initial annotation etc. The experimental results show that the proposed method can improve the accuracy by 3% or so in average compared to CRF model. focus; dependency tree; CRF; frequent subtree pattern 田衛(wèi)東(1970—),副教授,主要研究領(lǐng)域為人工智能與數(shù)據(jù)挖掘。E?mail:wdtian@hfut.edu.cn虞勇勇(1989—),碩士,主要研究領(lǐng)域為數(shù)據(jù)挖掘。E?mail:yuyong@mail.hfut.edu.cn 2014-02-31 定稿日期: 2014-06-13 國家863高技術(shù)研究發(fā)展計劃資助項目(2012AA011005);國家自然科學(xué)基金(61273292) 1003-0077(2016)03-0133-10 TP391 A3 基于頻繁依存子樹模式的中心詞提取
4 實驗結(jié)果和分析
5 結(jié)論與展望