范士喜 韓喜雙 相 洋 陳 毅
(哈爾濱工業(yè)大學(xué)深圳研究生院 廣東 深圳 518055)
?
基于HM-SVMs的問(wèn)句語(yǔ)義分析模型
范士喜韓喜雙相洋陳毅
(哈爾濱工業(yè)大學(xué)深圳研究生院廣東 深圳 518055)
摘要由于傳統(tǒng)的問(wèn)句語(yǔ)義分析主要針對(duì)事實(shí)類的簡(jiǎn)單問(wèn)句,而對(duì)于面向開(kāi)放域的復(fù)雜問(wèn)句缺少有效的語(yǔ)義分析方法。針對(duì)這種情況,提出一種新的問(wèn)句語(yǔ)義分析模型。該模型將問(wèn)句從文字空間映射到結(jié)構(gòu)化的語(yǔ)義空間,實(shí)現(xiàn)問(wèn)句的語(yǔ)義分析和表示。通過(guò)標(biāo)注問(wèn)句中的語(yǔ)義信息,模型實(shí)現(xiàn)問(wèn)句分類、問(wèn)句主題識(shí)別、限制信息識(shí)別三項(xiàng)分析工作。使用隱馬爾科夫支持向量機(jī)(HM-SVMs)序列化標(biāo)注工具實(shí)現(xiàn)了模型的自動(dòng)標(biāo)注,取得了86.7%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,HM-SVMs在標(biāo)注準(zhǔn)確率和效率上好于MEMM、CRF、M3N等模型,達(dá)到了預(yù)期效果。
關(guān)鍵詞問(wèn)答系統(tǒng)問(wèn)句語(yǔ)義分析隱馬爾科夫支持向量機(jī)
0引言
問(wèn)句語(yǔ)義分析是問(wèn)答系統(tǒng)的核心問(wèn)題之一,其目的是理解用戶的意圖,指導(dǎo)問(wèn)題求解[1]。傳統(tǒng)的問(wèn)答系統(tǒng)主要面向事實(shí)類簡(jiǎn)單問(wèn)題,處理關(guān)于“時(shí)間”、“地點(diǎn)”、“機(jī)構(gòu)”等事實(shí)類問(wèn)句,傳統(tǒng)問(wèn)句語(yǔ)義分析包含問(wèn)句分類和關(guān)鍵字提取兩項(xiàng)工作[2]。其中問(wèn)句分類和答案的命名實(shí)體類別相對(duì)應(yīng),即,問(wèn)句分類直接指導(dǎo)答案的抽取,而問(wèn)句語(yǔ)義分析所提取的關(guān)鍵字則用于答案的檢索。這種問(wèn)句語(yǔ)義分析方法在事實(shí)類問(wèn)句中取得了較好的效果[3 ],但并不適用于通用的問(wèn)句語(yǔ)義分析,尤其是一些語(yǔ)義復(fù)雜的問(wèn)句。研究人員已經(jīng)發(fā)現(xiàn)了傳統(tǒng)問(wèn)句分析方法的不足,一些研究者開(kāi)展了通用問(wèn)句語(yǔ)義分析的相關(guān)研究工作。中國(guó)科學(xué)院的吳晨等提出基于HNC理論的問(wèn)答系統(tǒng)[4];太原理工大學(xué)的郝曉燕等使用框架語(yǔ)義來(lái)對(duì)問(wèn)句進(jìn)行語(yǔ)義標(biāo)注;北京理工大學(xué)余正濤等通過(guò)潛在語(yǔ)義分析將問(wèn)句從表層的文字空間映射到語(yǔ)義空間中進(jìn)行分析[5]。另外語(yǔ)義依存分析和淺層語(yǔ)義分析也被廣泛用于問(wèn)句分析中[6]。江蘇科技大學(xué)錢強(qiáng)等利用互信息計(jì)算兩個(gè)詞之間的共現(xiàn)程度,然后根據(jù)字詞本身的語(yǔ)義信息進(jìn)行問(wèn)句主題詞抽取[7]。
在自然語(yǔ)言中,問(wèn)句是一類特殊的句子,具有特定的語(yǔ)義功能,其表達(dá)形式也有其自身的特點(diǎn)。傳統(tǒng)的分析方法將文句分類和關(guān)鍵字提取分開(kāi)進(jìn)行,丟失了問(wèn)句的結(jié)構(gòu)化信息。而直接將通用的自然語(yǔ)言語(yǔ)義分析方法應(yīng)用于問(wèn)句處理又無(wú)法體現(xiàn)問(wèn)句語(yǔ)義的特殊性。
目前問(wèn)答系統(tǒng)的研究者越來(lái)越關(guān)注復(fù)雜問(wèn)句的處理,如TREC增加了描述類問(wèn)題和列舉類問(wèn)題的評(píng)測(cè)。近年來(lái)互聯(lián)網(wǎng)上出現(xiàn)了一種基于網(wǎng)絡(luò)社區(qū)的問(wèn)答系統(tǒng)CQA(Community Question and Answering system)也叫問(wèn)答社區(qū)、協(xié)作式問(wèn)答系統(tǒng)或者網(wǎng)友問(wèn)答系統(tǒng)。例如百度的知道、新浪的知識(shí)人、雅虎的知識(shí)堂等。CQA是一種用戶提問(wèn)用戶回答的系統(tǒng),其發(fā)展非產(chǎn)迅速,已經(jīng)在互聯(lián)網(wǎng)上形成了海量的問(wèn)答知識(shí)庫(kù)。CQA的發(fā)展進(jìn)一步推動(dòng)了通用問(wèn)句語(yǔ)義分析的研究工作。針對(duì)CQA中的問(wèn)句進(jìn)行語(yǔ)義分析和挖掘,對(duì)于問(wèn)答系統(tǒng)研究和應(yīng)用具有重要的理論意義和現(xiàn)實(shí)價(jià)值,國(guó)內(nèi)外學(xué)者已經(jīng)做了一些有益的研究和探索[8,9]。CQA中的問(wèn)句不再有領(lǐng)域限制,其表達(dá)形式更趨向于人們的日常對(duì)話,有些甚至還有語(yǔ)法錯(cuò)誤,預(yù)期的答案表達(dá)形式也更為復(fù)雜,這些都為問(wèn)句的語(yǔ)義分析帶來(lái)了挑戰(zhàn)。
本文提出一個(gè)基于HM-SVMs的問(wèn)句的語(yǔ)義分析模型用于通用的問(wèn)句語(yǔ)義分析。該模型充分考慮到問(wèn)句的特殊性從句法學(xué)和語(yǔ)義學(xué)的角度對(duì)問(wèn)句進(jìn)行語(yǔ)義塊的標(biāo)注。問(wèn)句語(yǔ)義塊之間具有緊密的語(yǔ)義關(guān)系。問(wèn)句語(yǔ)義塊的標(biāo)注對(duì)于加深問(wèn)句理解,以及問(wèn)句相似度計(jì)算等具有重要的意義。
1問(wèn)句語(yǔ)義分析模型
2010作者首次提出了問(wèn)句語(yǔ)義塊標(biāo)注QICA(Question Information Chuck Annotation)分析方法[2]。本文提出的問(wèn)句語(yǔ)義分析模型是對(duì)QICA模型的一個(gè)改進(jìn)。QICA定義了五類信息塊,即“問(wèn)句主題塊”、“主題焦點(diǎn)塊”、“限制信息塊”、“疑問(wèn)信息塊”、“其他信息塊”。其中“主題焦點(diǎn)塊”是對(duì)問(wèn)句主題的進(jìn)一步說(shuō)明。在實(shí)際應(yīng)用過(guò)程中,我們發(fā)現(xiàn),“主題焦點(diǎn)塊”和“限制信息塊”都是對(duì)問(wèn)句主題的進(jìn)一步限制,并且對(duì)答案范圍進(jìn)一步界定。例如問(wèn)句:(1)魯迅的生日是什么時(shí)候?(2)魯迅生日是哪天?這兩個(gè)問(wèn)句,按照QICA的分析方法,問(wèn)句主題都是‘魯迅’,問(wèn)句:(1)包含主題焦點(diǎn)信息‘生日’因?yàn)椤摹侄陶Z(yǔ)指明了‘生日’為‘魯迅’的進(jìn)一步說(shuō)明。而問(wèn)句(2)中的‘生日’則被分析為‘限制信息’。實(shí)際上,主題焦點(diǎn)和限制信息都是對(duì)主題的限制,應(yīng)該統(tǒng)一歸為限制信息。因此,本文改進(jìn)了QICA分析方法,取消了主題焦點(diǎn)這一語(yǔ)義塊。新的問(wèn)句語(yǔ)義分析模型只包含四類信息,具體內(nèi)容如表1所示。
表1 語(yǔ)義塊標(biāo)記表
在表1中,我們用T標(biāo)記代表問(wèn)句的主題,用R代表問(wèn)句的限制信息,用W*代表問(wèn)句疑問(wèn)信息,用O代表其他標(biāo)記。其中,‘W*’是一個(gè)問(wèn)句類型集共有13個(gè)分類,代表問(wèn)句的分類體系。本模型沿用了QICA分析方法的分類體系,由于篇幅限制,問(wèn)句分類體系不在本文中過(guò)多介紹,詳細(xì)信息可以查閱文獻(xiàn)[11]。
下面通過(guò)幾個(gè)問(wèn)句分析的實(shí)際例子來(lái)說(shuō)明問(wèn)句語(yǔ)義塊標(biāo)注方法的分析特點(diǎn),如表2所示。
表2 問(wèn)句分析實(shí)例表
這6個(gè)問(wèn)句都是來(lái)源于百度知道的關(guān)于地震的問(wèn)題,所以問(wèn)句的主題都是“地震”。前2個(gè)問(wèn)句都是問(wèn)地震的定義,雖然表達(dá)方式出入很大,但是經(jīng)過(guò)語(yǔ)義標(biāo)注后,可以判斷他們具有同樣的主題和疑問(wèn)語(yǔ)義。第3個(gè)問(wèn)句是關(guān)于“地震的前兆”,所以問(wèn)句的主題仍為“地震”,但限制信息為“前兆”,而疑問(wèn)信息Wlis表示這是一個(gè)列舉類問(wèn)句。第4個(gè)問(wèn)句是地震的成因,所以是一個(gè)原因類問(wèn)句。第5個(gè)問(wèn)句是關(guān)于地震中自救的問(wèn)題,問(wèn)句的主題仍然是地震,通過(guò)限制信息“自救”來(lái)進(jìn)一步確定用戶的意圖。第6個(gè)問(wèn)句雖然沒(méi)有任何疑問(wèn)詞,但通過(guò)分析仍然能夠看出這是一個(gè)關(guān)于時(shí)間的問(wèn)句,這個(gè)問(wèn)句中雖然也是關(guān)于地震的,但問(wèn)句的主題是“唐山大地震”??梢钥闯觯瑔?wèn)句語(yǔ)義分析方法通過(guò)將問(wèn)句信息劃分為不同的語(yǔ)義塊使得問(wèn)句能夠被計(jì)算機(jī)理解,實(shí)現(xiàn)了語(yǔ)義分析的目的。
2問(wèn)句語(yǔ)義分析自動(dòng)標(biāo)注模型
首先看一個(gè)問(wèn)句語(yǔ)義標(biāo)注的例子:
原始問(wèn)句辦公桌椅可以直接計(jì)入管理費(fèi)用嗎?
原始標(biāo)注{辦公 桌椅}/ T{可以}/ Wyes {直接 計(jì)入 管理費(fèi)用}/F {嗎 ?}/ Wyes為分析直觀,標(biāo)注中省略了詞性標(biāo)注,句法分析等標(biāo)記。憑直覺(jué)分析,問(wèn)句語(yǔ)義自動(dòng)標(biāo)注問(wèn)題可以分成兩個(gè)步驟來(lái)解決:(1) 將問(wèn)句按照語(yǔ)義規(guī)則劃分成不同的塊,(2) 給這些塊分配相應(yīng)的語(yǔ)義標(biāo)記。然而這種分析方法處理起來(lái)比較復(fù)雜,機(jī)器學(xué)習(xí)方法不容易實(shí)現(xiàn)。因此,我們借鑒中文信息處理中組塊分析問(wèn)題的解決思路,將問(wèn)句語(yǔ)義塊標(biāo)注問(wèn)題轉(zhuǎn)化為序列化標(biāo)注問(wèn)題。具體做法是修改語(yǔ)義標(biāo)記,以標(biāo)記T為例,將語(yǔ)義標(biāo)記T修改為B-T 和I-T,其中B-T表示問(wèn)句主題語(yǔ)義塊的開(kāi)始,I-T表示問(wèn)句主題語(yǔ)義塊的繼續(xù)。通過(guò)這種標(biāo)記改造后,上述例句可以轉(zhuǎn)化為序列化標(biāo)注:
辦公/ B-T 桌椅/I-T 可以/ B-Wyes 直接/B-F 計(jì)入/I-F 管理費(fèi)用/I-F 嗎/ B-Wyes ?/I-Wyes
在自然語(yǔ)言處理研究中,有很多成熟的模型可以用于序列化標(biāo)注問(wèn)題,例如隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機(jī)場(chǎng)模型等。本文使用隱馬爾科夫支持向量機(jī)模型(HM-SVMs)。
2.1HM-SVMs模型介紹
隱馬爾科夫HMM模型是經(jīng)典的序列化標(biāo)注模型,在早期的語(yǔ)音識(shí)別、音字轉(zhuǎn)換問(wèn)題中取得了較好的應(yīng)用效果。但是HMM模型屬于生成模型,難以使用長(zhǎng)距離上下文信息,只能產(chǎn)生局部最優(yōu)結(jié)果。近年來(lái)支持向量機(jī)SVM在有監(jiān)督分類問(wèn)題中得到了廣泛的應(yīng)用。SVM通過(guò)使用核函數(shù)方法,在減少計(jì)算量的同時(shí)提高了模型的分類能力。另一方面SVM同時(shí)考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)兩個(gè)約束條件,使用大間隔方法訓(xùn)練模型,保證了模型的泛化能力。然而很多實(shí)際問(wèn)題屬于結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,不再是簡(jiǎn)單的分類或標(biāo)記問(wèn)題,標(biāo)記之間存在著相互依賴或者某種結(jié)構(gòu)化特性,SVM無(wú)法很好地解決這類問(wèn)題。這類問(wèn)題包括音字轉(zhuǎn)換問(wèn)題,詞性標(biāo)注問(wèn)題,組塊分析,圖像分割等問(wèn)題。
隱馬爾可夫支持向量機(jī)(HM-SVMs)是Altun等2003年 提出的序列化標(biāo)注模型[10]。HM-SVMs將支持向量機(jī)(SVM)和隱馬爾可夫模型(HMM)兩個(gè)模型有機(jī)結(jié)合。HM-SVMs摒棄了HMM的生成模型原理,采用更為先進(jìn)的辨識(shí)學(xué)習(xí)技術(shù)。與CRF模型一樣,HM-SVMs也同時(shí)考慮觀測(cè)序列的上下文,解決了HMM模型的發(fā)射概率只考慮當(dāng)前觀測(cè)節(jié)點(diǎn)的缺陷。 HM-SVMs保留了HMM模型的主要優(yōu)點(diǎn),即標(biāo)簽之間馬爾可夫鏈結(jié)構(gòu)的依賴性以及動(dòng)態(tài)規(guī)劃思想。同時(shí),HM-SVMs采用SVM模型的最大間隔理論,使用核函數(shù)算法提高模型的性能。下面簡(jiǎn)要介紹一下HM-SVMs模型:
給定一個(gè)訓(xùn)練樣本序列集合x(chóng)={(x1,x2,…,xt},預(yù)測(cè)標(biāo)記序列為y={(y1,y2,…,yt}; 則HM-SVMs模型針對(duì)x、y的概率計(jì)算公式為:
(1)
其中,k代表馬爾科夫的階,當(dāng)k為1時(shí)代表一階馬爾科夫。
ej(x,yi)相當(dāng)于HMM模型中的發(fā)射概率,當(dāng)然,它產(chǎn)生的是一系列的特征向量,i表示當(dāng)預(yù)測(cè)位置為,j是與馬爾科夫階相關(guān)的一個(gè)特征序號(hào),用于區(qū)分不同的特征。
tj(x,yi-j,…,yi)相當(dāng)于HMM模型中針對(duì)觀測(cè)序列X以及從位置i-j到i的標(biāo)記之間的的轉(zhuǎn)移概率,產(chǎn)生的是一系列的特征向量,j是與馬爾科夫階相關(guān)的一個(gè)特征序號(hào),用于區(qū)分不同的特征。We j和Wt j是權(quán)重向量,分別對(duì)應(yīng)于ej(x,yi)和tj(x,yi-j,…,yi)。
下面介紹模型的參數(shù)學(xué)習(xí):
給定帶有m個(gè)實(shí)例的訓(xùn)練集S={(xn,yn)∈X×Y|n=1,…,m}),則HM-SVMs模型的訓(xùn)練過(guò)程就是解決下面的最優(yōu)化問(wèn)題:
(2)
2.2基于HM-SVMs的問(wèn)句語(yǔ)義自動(dòng)標(biāo)注
HM-SVMs使用特征作為輸入,根據(jù)統(tǒng)計(jì)和語(yǔ)義關(guān)系我們選擇了如下11類特征作為模型的預(yù)選特征。預(yù)選特征模板如表3所示。
表3 特征模板表
在特征模板中,W代表詞,P代表詞性,括號(hào)內(nèi)的數(shù)值代表位置信息,例如W(0)代表當(dāng)前詞,P(0)代表當(dāng)前詞的詞性,P(-1)代表前一個(gè)詞的詞性;+號(hào)代表多個(gè)特征的組合,例如P(-1)+ P(0)表示前一個(gè)詞的詞性和當(dāng)前詞的詞性的組合。
3實(shí)驗(yàn)驗(yàn)證
用來(lái)訓(xùn)練和測(cè)試的問(wèn)句是從“百度知道”網(wǎng)站上收集的。訓(xùn)練問(wèn)句為10 000句,測(cè)試問(wèn)句為4800句。所有問(wèn)句的語(yǔ)義塊標(biāo)記都是手工標(biāo)注,并通過(guò)交叉檢查確保準(zhǔn)確。標(biāo)注后,問(wèn)句信息包括詞、詞性標(biāo)記、語(yǔ)義塊標(biāo)記信息。其中語(yǔ)義信息,采用BIO方式標(biāo)注。HM-SVMs工具采用康奈爾大學(xué)提供的開(kāi)放工具包(http://www.cs.cornell.edu/people/tj/svm_light/old/svm_hmm_v3.03.html)。根據(jù)特征模板表共提取了47 307個(gè)特征,這些特征作為HM-SVMs工具的原始特征輸入。HM-SVMs模型參數(shù)設(shè)置如下:馬爾科夫鏈為1階,懲罰參數(shù)C為1000,迭代中止參數(shù)e為0.01,核函數(shù)為多項(xiàng)式核。訓(xùn)練后模型共生成支持向量240個(gè)。
為了驗(yàn)證HM-SVMs模型的性能,同時(shí)使用最大熵模型(ME),最大熵馬爾科夫模型(MEMM),條件隨機(jī)場(chǎng)模型(CRF),大間隔馬爾科夫模型(M3Ns)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)完全相同,所有模型的特征模板完全相同,MEMM中采用1階馬爾科夫鏈,表4給出了實(shí)驗(yàn)結(jié)果。
表4 實(shí)驗(yàn)結(jié)果表
從標(biāo)記準(zhǔn)確性上來(lái)看,ME模型效果最差;MEMM模型因?yàn)榭紤]了標(biāo)記之間的關(guān)系,準(zhǔn)確性有所提高;CRF模型解決了MEMM模型的標(biāo)記偏執(zhí)問(wèn)題,準(zhǔn)確性明顯提高;M3Ns 模型采用大間隔思想,性能進(jìn)一步提升;HM-SVMs模型結(jié)合了HMM模型和SVM兩個(gè)模型的優(yōu)點(diǎn),取得了最好的標(biāo)注效果。
從時(shí)間性能方面來(lái)看,MEMM模型的訓(xùn)練時(shí)間與ME接近,這是因?yàn)镸EMM模型需要額外訓(xùn)練標(biāo)記之間的轉(zhuǎn)移概率。在預(yù)測(cè)過(guò)程中,由于MEMM模型要使用Vitebi算法進(jìn)行全序列計(jì)算,所以時(shí)間比ME模型長(zhǎng)。CRF模型訓(xùn)練花費(fèi)的時(shí)間遠(yuǎn)遠(yuǎn)超過(guò)其他模型。HM-SVMs模型在訓(xùn)練中采用切平面法,較M3Ns模型的訓(xùn)練時(shí)間明顯減少。而HM-SVMs模型在預(yù)測(cè)中通過(guò)核函數(shù)和向量?jī)?nèi)積計(jì)算來(lái)預(yù)測(cè)標(biāo)記,所以時(shí)間較短。
為了驗(yàn)證訓(xùn)練數(shù)據(jù)量對(duì)模型預(yù)測(cè)能力的影響,將訓(xùn)練數(shù)據(jù)從300句逐步增加到10 000句。標(biāo)記預(yù)測(cè)的準(zhǔn)確率隨訓(xùn)練數(shù)據(jù)數(shù)量的變化曲線如圖1所示。當(dāng)訓(xùn)練數(shù)據(jù)只有300句時(shí),模型仍然取得了63.2%的準(zhǔn)確率,這說(shuō)明模型具有較好的泛化能力。可以看出當(dāng)訓(xùn)練問(wèn)句的數(shù)量少于5000句時(shí),隨著訓(xùn)練數(shù)據(jù)的增加,模型預(yù)測(cè)的準(zhǔn)確率逐步上升。當(dāng)訓(xùn)練數(shù)據(jù)大于5000句后,模型預(yù)測(cè)的準(zhǔn)確率基本穩(wěn)定在86.7%,這也驗(yàn)證了HM-SVMs模型的穩(wěn)定性。
圖1 模型預(yù)測(cè)準(zhǔn)確率隨訓(xùn)練數(shù)據(jù)變化圖
4結(jié)語(yǔ)
本文提出了一種新的問(wèn)句語(yǔ)義分析方法,并使用HM-SVMs模型對(duì)語(yǔ)義塊進(jìn)行標(biāo)注。實(shí)驗(yàn)的結(jié)果取得了86.7% 的準(zhǔn)確率,也是在當(dāng)前數(shù)據(jù)集上取得的最好成績(jī)。實(shí)驗(yàn)證明HM-SVMs模型對(duì)語(yǔ)義塊標(biāo)注分析是有效的。在接下來(lái)的研究中,我們將繼續(xù)探索語(yǔ)義塊內(nèi)部詞與詞之間的語(yǔ)義依賴關(guān)系。
參考文獻(xiàn)
[1] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.
[2] 范士喜,王曉龍,王軒,等.面向真實(shí)環(huán)境的問(wèn)句分析方法[J].電子學(xué)報(bào),2010,38(5):1131-1135.
[3] 牛彥清,陳俊杰,段利國(guó),等.中文問(wèn)句分類特征的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(3):108-111.
[4] 吳晨,張全.基于概念匹配的中文問(wèn)答處理模型核心問(wèn)題探討[J].中文信息學(xué)報(bào),2006,20(4):49-55.
[5] 余正濤,樊孝忠,郭劍毅,等.基于潛在語(yǔ)義分析的漢語(yǔ)問(wèn)答系統(tǒng)答案提取[J].計(jì)算機(jī)學(xué)報(bào),2006,29(10):1889-1893.
[6] 張志昌,張宇,劉挺,等.基于淺層語(yǔ)義樹(shù)核的閱讀理解答案句抽取[J].中文信息學(xué)報(bào),2008,22(1):80-86.
[7] 錢強(qiáng),龐林斌,高尚.一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問(wèn)答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2013,22(1):841-843.
[8] Xiaoqiang Luo,Hema Raghavan,Vittorio Castelli,et al.Finding What Matters in Questions[C]//Proceedings of NAACL-HLT 2013:878-887.
[9] Guangyou Zhou,Fang Liu,Yang Liu,et al.Statistical Machine Translation Improves Question Retrieval in Community Question Answering via Matrix Factorization[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:852-861.
[10] Altun Y,Tsochantaridis I,Hofmann T.Hidden Markov Support Vector Machines[C]//Proceedings of the 20th International Conference on Machine Learning (ICML) 2003:3-10.
[11] 延霞,范士喜.基于問(wèn)答社區(qū)的海量問(wèn)句檢索關(guān)鍵技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(7):315-317.
A QUESTION SEMANTIC ANALYSIS MODEL BASED ON HM-SVMs
Fan ShixiHan XishuangXiang YangChen Yi
(ShenzhenGraduateSchool,HarbinInstituteofTechnology,Shenzhen518055,Guangdong,China)
AbstractTraditional question semantic analysis mainly focus on simple questions in regard to category of facts, but lacks effective semantic analysis method for open field-oriented complex questions. In view of this, we present a new question semantic analysis model. The model maps questions from text space onto a structured semantic space, and achieves semantic analysis and expression of questions. By annotating semantic information in questions the model implements three kinds of analysis works of questions classification, question topic identification and restrictive information identification. We employ hidden Markov support vector machines (HM-SVMs), a serialisation annotation tool, to realise the automatic annotation of the model, and reaches an accuracy of 86.7%. Experimental results show that HM-SVMs is better than MEMM, CRF, M3N and other models in annotation accuracy and efficiency, and achieves the desired effect.
KeywordsQ&A systemSemantic analysis of questionHM-SVMs
收稿日期:2014-10-23。廣東省教育科學(xué)規(guī)劃教育信息技術(shù)研究專項(xiàng)課題(11JXN039)。范士喜,助理研究員,主研領(lǐng)域:?jiǎn)柎鹣到y(tǒng)。韓喜雙,研究員。相洋,博士生。陳毅,博士生。
中圖分類號(hào)TP18
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.05.021