孫帥強(qiáng)+郜洪奎
摘 要:句子相似度的計(jì)算是自然語(yǔ)言處理領(lǐng)域中的重要研究課題,它在信息檢索、文本挖掘、機(jī)器翻譯等領(lǐng)域占有重要的作用。為提高漢泰雙語(yǔ)新聞主題句相似度計(jì)算的準(zhǔn)確率,本文根據(jù)漢泰雙語(yǔ)新聞主題句的句式特點(diǎn),提出了一種融合多特征的漢泰雙語(yǔ)新聞主題句相似度計(jì)算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關(guān)系特征,并通過(guò)對(duì)不同的特征加不同的權(quán)重來(lái)調(diào)節(jié)各個(gè)特征對(duì)相似度計(jì)算的貢獻(xiàn),從而使計(jì)算結(jié)果達(dá)到最優(yōu)。與基于詞典的方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該方法使得準(zhǔn)確率提高了5.9%。
關(guān)鍵詞:漢泰雙語(yǔ);新聞主題句;相似度計(jì)算;多特征融合;權(quán)重
融合多特征的漢泰雙語(yǔ)新聞主題句相似度計(jì)算
孫帥強(qiáng) 郜洪奎
摘 要:句子相似度的計(jì)算是自然語(yǔ)言處理領(lǐng)域中的重要研究課題,它在信息檢索、文本挖掘、機(jī)器翻譯等領(lǐng)域占有重要的作用。為提高漢泰雙語(yǔ)新聞主題句相似度計(jì)算的準(zhǔn)確率,本文根據(jù)漢泰雙語(yǔ)新聞主題句的句式特點(diǎn),提出了一種融合多特征的漢泰雙語(yǔ)新聞主題句相似度計(jì)算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關(guān)系特征,并通過(guò)對(duì)不同的特征加不同的權(quán)重來(lái)調(diào)節(jié)各個(gè)特征對(duì)相似度計(jì)算的貢獻(xiàn),從而使計(jì)算結(jié)果達(dá)到最優(yōu)。與基于詞典的方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該方法使得準(zhǔn)確率提高了5.9%。
關(guān)鍵詞:漢泰雙語(yǔ);新聞主題句;相似度計(jì)算;多特征融合;權(quán)重
0 引言
句子相似度是對(duì)句子間的相似性給出一個(gè)度量,其在自然語(yǔ)言處理領(lǐng)域占有很重要的地位。句子相似度的計(jì)算是信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)以及多文檔文摘等應(yīng)用領(lǐng)域中的關(guān)鍵技術(shù)之一。目前,大多數(shù)的句子相似度研究都僅針對(duì)單語(yǔ)環(huán)境,主要包括基于編輯距離、基于詞和詞序、基于語(yǔ)義依存、基于框架語(yǔ)義分析、基于本體詞典或知網(wǎng)語(yǔ)義以及基于語(yǔ)義單元的句子相似度等計(jì)算方法。雙語(yǔ)環(huán)境下句子間的相似度由于語(yǔ)言之間的轉(zhuǎn)換會(huì)引入更多的噪聲,同時(shí)也需要使用更多的資源,使問(wèn)題更為復(fù)雜。
目前,雙語(yǔ)句子相似度的計(jì)算方法主要有兩種:一種是利用雙語(yǔ)平行語(yǔ)料;另外一種是利用雙語(yǔ)詞典。基于平行語(yǔ)料的方法就是利用大規(guī)模的語(yǔ)料去統(tǒng)計(jì)貢獻(xiàn)的詞對(duì)或者在找出相似的句對(duì)的基礎(chǔ)上作詞語(yǔ)的替換,但是這種方法的準(zhǔn)確性取決于語(yǔ)料庫(kù)的規(guī)模和質(zhì)量;基于詞典的方法就是利用雙語(yǔ)詞典找出句子中互譯的詞對(duì),雖然沒(méi)有基于平行語(yǔ)料那樣對(duì)大規(guī)模語(yǔ)料庫(kù)的依賴,但是基于詞典的方法會(huì)出現(xiàn)一詞多譯的現(xiàn)象。目前,面向英語(yǔ)、法語(yǔ)、德語(yǔ)、漢語(yǔ)等多種語(yǔ)言的句子相似度研究都得到了快速的發(fā)展,如張貫虹等利用詞典和詞向量空間模型計(jì)算漢蒙句子的相似度。Erdmann等人使用機(jī)器翻譯工具將源文本翻譯成目標(biāo)文本所用的語(yǔ)言然后再使用單語(yǔ)言句子相似度算法計(jì)算英德兩者之間的句子相似度;Smith等人利用漢英之間的翻譯概率詞典,將所含的互譯詞對(duì)的個(gè)數(shù)作為相似性的度量。但關(guān)于漢泰雙語(yǔ)句子相似度的研究目前還不多見(jiàn)。因此,本文結(jié)合漢泰雙語(yǔ)新聞主題句的句式特點(diǎn),提出了一種基于多特征的漢泰新聞主題句相似度計(jì)算方法。該方法融合了詞性、句法成分和句子依存關(guān)系三個(gè)特征,可以更全面、更準(zhǔn)確地衡量漢泰句子之間的相似度。
1 漢一泰新聞主題句描述
新聞主題句是從新聞的核心事件中抽取得到,且概括了新聞發(fā)生的時(shí)間、地點(diǎn)、參與者等信息,是由中心詞(或者說(shuō)觸發(fā)詞)及其連接起來(lái)的有約束作用的主要組成部分(如參與者、時(shí)間、地點(diǎn)等)構(gòu)成。與一般的句子相比,新聞主題句更關(guān)注的是事件的發(fā)生時(shí)間、地點(diǎn)、人物等要素。所以漢泰雙語(yǔ)新聞主題句相似度的計(jì)算不僅要考慮一般句子相似度計(jì)算,還要考慮加入句子中心詞以及和中心詞有聯(lián)系的事件要素的相似度計(jì)算。
根據(jù)Web新聞特點(diǎn),新聞主題句的句法比較固定的使用主謂賓的形式,而漢泰兩種語(yǔ)言的主干成分的語(yǔ)序在句式上基本一致。下面的一個(gè)例子是從漢泰雙語(yǔ)新聞中抽出來(lái)的一個(gè)平行的新聞主題句對(duì),標(biāo)有特殊字體的是句子的主干,相同的特殊字體代表互譯,兩個(gè)句子的主干都符合S+V+B的句式:
中文句子:中國(guó)首架極地固定翼飛機(jī)成功飛越南極最高區(qū)。
泰語(yǔ)句子:
2 基于漢泰新聞主題句不同特征的相似度計(jì)算
通過(guò)對(duì)新聞主題句的深入分析,并結(jié)合漢泰的句式特點(diǎn),我們提出了一種基于多特征的漢泰新聞主題句相似度計(jì)算方法,選擇詞性、句法成分和句子依存關(guān)系三個(gè)特征,分別計(jì)算他們的相似度?;诙嗵卣鞯男侣勚黝}句相似度計(jì)算方法框架如圖1所示。下面分別對(duì)基于這三個(gè)特征的主題句相似度的計(jì)算方法進(jìn)行具體描述。
2.1 詞性相似度計(jì)算
詞性表示詞所屬的類別,是語(yǔ)言的基本結(jié)構(gòu)。詞性的不同往往引起詞義和作用的不同。如下面兩個(gè)句子:
句子1:中國(guó)召開(kāi)了“兩會(huì)”,為未來(lái)的發(fā)展指明了方向。
句子2:“兩會(huì)”的召開(kāi),為未來(lái)的發(fā)展指明了方向。
在上述例子中,“召開(kāi)”一詞在兩個(gè)句子中的詞性不一致,句子1中是動(dòng)詞,作謂語(yǔ);句子2中為名詞,作主語(yǔ)。因此可以看出,詞性的不一樣導(dǎo)致了兩個(gè)詞在句子中所起的作用也不一樣。
新聞的主題句就是對(duì)新聞所報(bào)道的事件的一個(gè)全面的概括,基本上涵蓋了新聞事件的所有要素。所以在漢泰新聞主題句相似度計(jì)算時(shí),我們更關(guān)注的是句子中所含有的實(shí)體要素和句子的中心詞。所以我們?cè)谟?jì)算漢泰新聞主題句同性相似度的時(shí)候只選擇句子中的表示時(shí)間的詞性(t)、名詞詞性(N)、和動(dòng)詞詞性(V)來(lái)做詞性的相似度。計(jì)算公式如下所示:其中,cn、ct、cv分別表示中文句子分詞后詞性為名詞、時(shí)間詞和動(dòng)詞的數(shù)量;vn、vn、vv。分別表示泰語(yǔ)句子分詞后詞性為名詞、時(shí)間詞和動(dòng)詞的數(shù)量。相似度中除以3是對(duì)詞性的一種平滑。
2.2 句法成分相似度計(jì)算endprint
漢語(yǔ)和泰語(yǔ)都是基于語(yǔ)義的句子,并且在Web新聞中,主題句一般采用比較通用的主謂賓的句式。在這種句式中,漢泰雙語(yǔ)在句法和句子成分方面一致的。所以在相似的漢泰新聞主題句中,句子成分也是有著很大的相似性。根據(jù)這個(gè)特點(diǎn),我們?cè)谟?jì)算漢泰雙語(yǔ)新聞主題句相似度的時(shí)候,將雙語(yǔ)句子的句子成分考慮在內(nèi)。
經(jīng)過(guò)對(duì)漢泰雙語(yǔ)的新聞主題句的句法分析,我們可以得到雙語(yǔ)句子的各個(gè)句法成分信息。根據(jù)分析,本文選取了主謂、動(dòng)賓、定中、狀中和動(dòng)補(bǔ)這五大類句法成分信息,并且用向量來(lái)表示這五大類句子成分在句子中出現(xiàn)的次數(shù),叫做句法成分向量。并且用求余弦?jiàn)A角的方法求出兩個(gè)句子的句子成分向量的相似度。
例如:
句子1:世界經(jīng)濟(jì)增長(zhǎng)的重要推動(dòng)力量是中國(guó)。
句子2:(中國(guó)依然是世界經(jīng)濟(jì)增長(zhǎng)的重要推動(dòng)力量)。
對(duì)句子1和2經(jīng)過(guò)句法分析后,可以得到句子1和2成分關(guān)系向量分別為: A1[2,2,2,1,0],A2[2,2,2,2,0]。句子l和2成分關(guān)系向量的余弦相似度計(jì)算公式如下所示:
帶入向量A1和A2,最后得到句子l和句子2的句法成分相似度為0.97。
2.3 句子依存關(guān)系相似度計(jì)算
在句子中,每一個(gè)詞并不是獨(dú)立存在的,它們每一個(gè)的存在都具有語(yǔ)法意義上的作用。所以在句子相似度的計(jì)算過(guò)程中,利用句子中的詞語(yǔ)和他們之間的依存關(guān)系可以更好的去表征兩個(gè)句子之間的相似度?;诖宋覀儗?duì)漢泰雙語(yǔ)的新聞主題句進(jìn)行句法分析,中文句子利用哈工大的LTP平臺(tái)進(jìn)行句法分析‘14],泰語(yǔ)句子利用昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室的句法分析工具。下邊的例子是利用上述的工具分別對(duì)漢泰句子進(jìn)行句法分析,結(jié)果如圖2、圖3所示:
通過(guò)上面對(duì)句子的句法分析我們可以發(fā)現(xiàn),無(wú)論是漢語(yǔ)句子還是泰語(yǔ)句子,都有一個(gè)在句法中被稱為ROOT的詞語(yǔ)來(lái)串聯(lián)整個(gè)句子,其他的詞語(yǔ)都是圍繞這個(gè)詞來(lái)進(jìn)行修飾描述的,我們稱這個(gè)詞為根項(xiàng)。其他的詞有些和根項(xiàng)直接關(guān)聯(lián),有些不直接和根項(xiàng)直接關(guān)聯(lián),我們統(tǒng)稱為非根項(xiàng)。在非根項(xiàng)中我們選擇和根項(xiàng)有主謂、謂賓關(guān)系的詞語(yǔ)作為直接項(xiàng),再?gòu)氖S嗟脑~語(yǔ)中選擇實(shí)體詞,即時(shí)間、地點(diǎn)、人物作為非直接項(xiàng)。
下面,采用巴克斯范式(BNF范式)形式化定義漢泰主題句。
主題句::=<非直接項(xiàng)×直接項(xiàng)><根項(xiàng)>
非直接項(xiàng)::=<時(shí)間×地點(diǎn)><人物><動(dòng)作>l<時(shí)間><地點(diǎn)><人物>l<時(shí)間><地點(diǎn)×動(dòng)作>l<時(shí)間><人物><動(dòng)作>l<地點(diǎn)><人物><動(dòng)作>l<時(shí)間><地點(diǎn)>l<時(shí)間><人物>l<時(shí)間><動(dòng)作>l<地點(diǎn)><人物>l<地點(diǎn)><動(dòng)作>l<人物><動(dòng)作>l<時(shí)間>l<地點(diǎn)>l<人物>l<動(dòng)作>
直接項(xiàng)::=<對(duì)象1><對(duì)象2>l<對(duì)象1>1<對(duì)象2>
<時(shí)間>::=時(shí)間表示格式
<地點(diǎn)>::=地點(diǎn)表示格式
<人物>::=人物表示格式
<對(duì)象1>:=可表示為人物或者地點(diǎn)
<對(duì)象2>:=可表示為人物或者地點(diǎn)
直接項(xiàng)和非直接項(xiàng)中的人物、地點(diǎn)等實(shí)體是可以重復(fù)的。利用上述范式表示,例子中的中文句子可以表示成{中國(guó),南極,飛機(jī),最高區(qū),飛越};泰語(yǔ)句子可以表示成
通過(guò)上述范式表述,將漢泰新聞主題句表述成向量模式,即:
主題句={直接項(xiàng),非直接項(xiàng),根項(xiàng)}
轉(zhuǎn)換為數(shù)學(xué)表達(dá)式為:
其中,o表示人物實(shí)體,f表示時(shí)間實(shí)體,,表示地點(diǎn)實(shí)體,v表示動(dòng)作要素,o1和o2表示根項(xiàng)中人物、地點(diǎn)實(shí)體,廠表示非直接項(xiàng),z表示直接項(xiàng),r表示根項(xiàng)。
公式(3)給出了漢泰雙語(yǔ)主題句的依存關(guān)系表示模型,下邊就是為每個(gè)維度賦值,我們采用以下策略:
(1)初始化向量:將對(duì)應(yīng)的句子成分映射到公式(3)所示的向量空間模型中,若對(duì)應(yīng)的維度上有實(shí)體我們就將權(quán)值置為1,否則置為0。
(2)調(diào)節(jié)泰語(yǔ)句子權(quán)重:若sv和sc,對(duì)應(yīng)維度上的初始權(quán)重不都是1我們不需要調(diào)節(jié);針對(duì)權(quán)重都是1的維度我們采用相似度方法來(lái)調(diào)節(jié),對(duì)于時(shí)間要素若是相差一天之內(nèi)我們將泰語(yǔ)句子的權(quán)重置為0.5,若是相差大于一天我們將泰語(yǔ)權(quán)重置為0。具體相似度的計(jì)算方法是借助維基百科中的概念可以表征詞語(yǔ)的特性,用維基百科中的概念作為向量空間,對(duì)詞語(yǔ)進(jìn)行向量表示。
通過(guò)以上兩個(gè)步驟我們可以得到漢泰和泰語(yǔ)句子的依存句法向量,然后利用向量之間的余弦相似度計(jì)算兩個(gè)句子的依存句法相似度,如下式所示:
2.4 漢泰雙語(yǔ)新聞主題句計(jì)算
綜合以上三個(gè)方面的特征,給出如下具有多特征的漢泰雙語(yǔ)新聞主題句相似度的計(jì)算公式如下:
其中,α、β、γ分別是區(qū)分度的權(quán)重,取值都在o到1之間且α+β+γ=l。我們的目標(biāo)函數(shù)是尋找一組可能的參數(shù)組合α,β,γ,在隨后的相似度計(jì)算評(píng)價(jià)函數(shù)中,使準(zhǔn)確率的指標(biāo)值達(dá)到最大。我們?nèi)斯みx取了100對(duì)相似的漢泰新聞主題句,采用遺傳算法求權(quán)重,根據(jù)經(jīng)驗(yàn)取適當(dāng)?shù)拇鷶?shù),經(jīng)過(guò)多次迭代選優(yōu),找jL}{參數(shù)的最佳組合。最后我們?nèi)ˇ?o.15,β=0.35,γ=0.5。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
對(duì)于新聞?wù)Z料的來(lái)源,本文選取了主流的180個(gè)中文門戶網(wǎng)站和20個(gè)論壇,以及125個(gè)不同專題的泰語(yǔ)網(wǎng)站。中文新聞包括人民日?qǐng)?bào)、新華社、門戶網(wǎng)站,泰語(yǔ)網(wǎng)站也以每日新聞、早報(bào)、芭堤雅新聞在線等核心平臺(tái)為主。
本文從爬取到的漢泰新聞?wù)Z料中抽取出2487個(gè)句子,其中有2000個(gè)句子是噪音句子,構(gòu)成噪音集,沒(méi)有類別區(qū)分;另外487個(gè)句子構(gòu)成標(biāo)準(zhǔn)集,它們分屬于軍事、體育和社會(huì)政治三個(gè)大類,各個(gè)大類別中含有157、145、185個(gè)句子。在句子處理過(guò)程中,中文分詞使用中科院的分詞工具ICTCLAS3.0,中文的語(yǔ)法分析利用哈工大的語(yǔ)言技術(shù)平臺(tái)云LTP。泰語(yǔ)的分詞、詞性標(biāo)注均采用昆明理工大學(xué)智能信息處理實(shí)驗(yàn)室開(kāi)發(fā)的工具,實(shí)驗(yàn)時(shí)我們把標(biāo)準(zhǔn)集和噪聲集混到一塊進(jìn)行試驗(yàn)。具體的實(shí)驗(yàn)語(yǔ)料如表1所示:
3.2評(píng)價(jià)指標(biāo)
本文采用準(zhǔn)確率(Precision)來(lái)進(jìn)行評(píng)價(jià)本文方法的性能.
3.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析
將本文提出的基于多特征的漢泰新聞主題句相似度計(jì)算方法與基于詞典的雙語(yǔ)句子相似度計(jì)算方法進(jìn)行對(duì)比,對(duì)比試驗(yàn)結(jié)果如表2所示:
實(shí)驗(yàn)結(jié)果顯示兩種方法在體育和軍事這兩個(gè)類別下的準(zhǔn)確率都不及社會(huì)政治,原因是這兩個(gè)類別下的新聞報(bào)道在書(shū)寫方面都沒(méi)有社會(huì)政治類別規(guī)范,尤其是體育類別中經(jīng)常會(huì)出現(xiàn)各種人名,在分詞過(guò)程中很容易分錯(cuò);軍事領(lǐng)域中許多的武器介紹,武器名字也會(huì)在分詞的過(guò)程中錯(cuò)誤分掉。
雖然兩個(gè)方法在不同的領(lǐng)域有著不同的問(wèn)題存在,但是還是能看出來(lái)本文提出的基于多特征的漢泰新聞主題句相似度計(jì)算方法在三個(gè)領(lǐng)域中的準(zhǔn)確率都要高于基于詞典的雙語(yǔ)句子相似度計(jì)算方法,平均準(zhǔn)確率更是高于基于詞典的方法。所以說(shuō)本文提出的基于多特征的漢泰新聞主題句相似度計(jì)算方法是可行的。
4 結(jié)語(yǔ)
本文通過(guò)分析漢泰雙語(yǔ)新聞主題句的特點(diǎn),選取了漢泰新聞主題句的三個(gè)特征,即詞性特征、句子成分特征和句子依存關(guān)系特征,并通過(guò)對(duì)不同的特征加不同的權(quán)值來(lái)調(diào)節(jié)各個(gè)特征對(duì)相似度計(jì)算的貢獻(xiàn),進(jìn)而提高漢泰新聞主題句的相似度。實(shí)驗(yàn)結(jié)果表明,該方法是有效可行的.下一步以融合更豐富的語(yǔ)言特征以及語(yǔ)義特征,進(jìn)一步提高漢泰新聞主題句的相似度的準(zhǔn)確率。endprint