吳曉鋒,宗成慶
(中國科學(xué)院自動化研究所模式識別國家重點實驗室,北京 100190)
從某種意義上講,復(fù)述(Paraphrase)可以看作文本蘊(yùn)含(Text Entailment)的一個子問題。對于兩個語言片段(短語、句子或篇章)A和B,如果能從A的語義中推理出B,那我們說A蘊(yùn)含B,反之說B蘊(yùn)含A,而復(fù)述則可以看作A蘊(yùn)含B且B也蘊(yùn)含A。
最早研究復(fù)述的工作見于文獻(xiàn)[1],復(fù)述在自然語言處理中有許多應(yīng)用:如在機(jī)器翻譯中可以借鑒復(fù)述識別中的技術(shù)處理實時處理遇到的未登錄短語[2-5];在自動問答系統(tǒng)中用于識別多種問句形式來提高系統(tǒng)性能[6];在多文檔自動摘要系統(tǒng)中用于句子生成、壓縮、相似句子識別等等[7-8]。
作為一個獨(dú)立的問題提出,句子級的復(fù)述識別(Paraphrase Recognition)一般指的是對于給定的兩個句子,判斷其是否在語義上一致,見下面的例子:
(1)Amrozi accused his brother,whom he called“the witness” ,of deliberately distorting his evidence.
(2)Referring to him as only“the witness”,Amrozi accused his brother of deliberately distorting his evidence.
(1)和(2)兩個句子是互為復(fù)述句,直觀地看,雖然單從用詞的重合度上看這兩個句子很類似,但從句法角度講它們差別很大;
(3)Armstrong,31,beat testicular cancer that had spread to his lungs and brain.
(4)Armstrong,31,battled testicular cancer that spread to his brain.
(3)和(4)不是復(fù)述句,用詞重合度也比較大,并且句法也類似,但是第一句包含有一些第二句沒有的信息。
本文的工作主要致力于句子級別的復(fù)述識別方法研究。我們提出了如下方法:采用經(jīng)過語義角色標(biāo)注后的信息為特征,然后通過機(jī)器學(xué)習(xí)算法來識別復(fù)述句。雖然文獻(xiàn)[9]也曾通過語義角色標(biāo)注來識別復(fù)述句,但本文將從一個新的角度來獲取特征,并考慮了新聞?wù)Z句本身的特點。實驗證明,本文的方法能夠取得滿意的結(jié)果。
論文其余部分如下組織:第2節(jié)介紹前人在復(fù)述識別上的相關(guān)工作,第3節(jié)介紹本文的設(shè)計思路及語義角色工具包SRL,第4節(jié)介紹相關(guān)語料和實驗結(jié)果,最后一節(jié)為本文的結(jié)論。
我們將復(fù)述識別的方法大致分為三類,一種是基于詞集信息的,第二種是基于句法信息的,第三種是基于深層語義的。下面從這三個方面簡要介紹前人的相關(guān)工作。
雖然復(fù)述問題的提出是鼓勵學(xué)者從語義角度尋找判斷兩個句子是否可以相互替代的方法,但因為語義角色標(biāo)注正確率有待提高,所以從實用的角度,還是有許多學(xué)者嘗試用表層信息來解決這個問題?;谠~集的方法中向量模型是最主要的方法,這種方法廣泛應(yīng)用于文本分類,信息檢索,以及句子相似度計算,在此方法上的改進(jìn)一般包括:去停用詞、詞干化(Stemming)、POS標(biāo)注以及詞義擴(kuò)展等。
文獻(xiàn)[10]在詞集的基本思想下,引入基于WordNet[11]的世界知識,并且將傳統(tǒng)的詞到詞的相似性計算方法擴(kuò)展到文本到文本。其方法是將兩段文本的相似性定義成了文本中名詞和動詞的加權(quán)函數(shù),以及從別的語料中得到的倒排文檔頻率。該作者在有監(jiān)督和無監(jiān)督條件下分別測試了該擴(kuò)展方法,取得了比較明顯的效果。
在機(jī)器翻譯中的自動評測啟發(fā)下(以BLEU[12]為例,其核心思想是計算n元文法匹配的對數(shù)幾何平均),文獻(xiàn)[13]采用機(jī)器翻譯中常用的自動評測機(jī)制BLEU、NIST、WER以及PER來提取特征對分類器進(jìn)行訓(xùn)練,并進(jìn)行句子的語義相似性計算。
另外有基于隱含語義標(biāo)題(LSI)[12]的計算相似度方法,但LSI缺乏合理的物理解釋,并且計算復(fù)雜度較高。
基于詞集信息的方法往往簡單、實用,但是很明顯,這樣做違背了復(fù)述這個問題提出的初衷。單純采用詞集信息,不能也肯定不會達(dá)到很好的效果。
兩個意思相近的句子雖然有可能在句法上有差異,但是其內(nèi)部子結(jié)構(gòu)往往能找到很多相似之處,而且,依存句法和語義表示有一定的相似性,所以有不少學(xué)者試圖在句法層面上尋找復(fù)述問題的解決辦法。
文獻(xiàn)[14]提出了使用基于反向轉(zhuǎn)換文法(ITG)為復(fù)述問題建模的方法。簡單講,ITG實際上是面向雙語的上下文無關(guān)文法,其目的是讓雙語平行語料分析的魯棒性最大化,而不是驗證語料的合法性,從而應(yīng)用于平行語料的標(biāo)注,包括劃界、對齊、切分等[12]。借助ITG模型,文獻(xiàn)[14]沒有采用任何外部知識,而是僅僅憑借句法層面上的相似就取得了不錯的效果。
文獻(xiàn)[15]提出了一種基于詞匯—句法的方法,該方法要求判斷蘊(yùn)含時,不但要比較兩句話詞匯上的一致性,還要比較句法上的一致性。這種詞匯—句法關(guān)系包括由詞形變化引起的句法改變、動詞的被動到主動的變化、共指等等。通過實驗,文獻(xiàn)[15]證明詞匯—句法方法優(yōu)于僅僅基于詞匯的方法。
文獻(xiàn)[16]系統(tǒng)歸納了17個特征用于訓(xùn)練分類器來識別復(fù)述句。這17個特征中前9個為詞匯特征,10~15個為依存句法特征,16~17個為句長特征。
文獻(xiàn)[17]的理論假設(shè)是:如果兩個句子是依存句,則它們的句法樹雖然可以允許有不同,但總體應(yīng)該對齊的比不是依存句的好。文獻(xiàn)[17]結(jié)合詞匯、句法信息,采用準(zhǔn)同步依存文法(Quasisynchronous Dependency Grammar)建模。
文獻(xiàn)[18]采用了依存句法分析將被動句式變?yōu)橹鲃泳涫?然后采用如編輯距離、詞匯相似度、以及類似于BLEU的n元文法作為特征進(jìn)行訓(xùn)練。
從句法的角度嘗試復(fù)述問題比單純從詞匯的角度有說服力,而且效果也普遍比后者好??墒蔷浞▽赢吘闺x語義層還有很大差距,使用句法特征也都只能集中在句法的某個片段上,無法從整體句法樹上尋找句子間的相似性。
文獻(xiàn)[9]是基于語義角色標(biāo)注的復(fù)述識別方法,文中不再單純用詞片段或句法樹片段作為信息單位,而是用基于 PropBank[19]的謂詞論元結(jié)構(gòu)(Predicate Argument Structure,結(jié)構(gòu)化地表示一個動詞謂詞及其參量——也就是論元,見例句1)。這種結(jié)構(gòu)可以很好地表示動作、概念及其相互關(guān)系。而單純用動詞、名詞來表示這個含義有可能面臨相同的詞集但卻不同意義的情況(如:“貓吃老鼠”和“老鼠吃貓”意義正好相反),例句1:
文獻(xiàn)[9]的系統(tǒng)流程圖見圖1。首先將句子對用Charniak句法分析器[20]進(jìn)行句法分析,并用語義角色標(biāo)注工具ASSERT[21]進(jìn)行語義標(biāo)注,找到句子里的謂詞論元結(jié)構(gòu);然后通過貪婪算法尋找匹配的謂詞論元結(jié)構(gòu),在這個過程中用到了外部詞庫;沒有匹配上的其他成分被送進(jìn)一個有監(jiān)督分類器,來判斷這些成分是否為重要成分,并做出是否這兩個句子互為復(fù)述的判斷。
送入分類器的特征有兩類:一類是句法樹路徑特征,指的是在句法樹上的未匹配的單元與最近的有公共父節(jié)點的匹配單元之間的距離。文獻(xiàn)[9]的作者認(rèn)為這個特征可以在一定程度上表征這個未匹配部分的重要性。另一類是謂詞論元結(jié)構(gòu)中謂詞,也就是動詞之間的相似性。
基于深層語義分析的方法相對較少,其原因之一是語義角色標(biāo)注本身正確率有待提高。雖然如此,從語義層考慮復(fù)述問題,畢竟最合乎邏輯。我們認(rèn)為,要想做到真正實用的句子復(fù)述識別,必須要從這個角度著手加以研究。
圖1 文獻(xiàn)[9]方法流程
我們分析了文獻(xiàn)[9]中采用的方法,認(rèn)為其主要針對情況是論元互換(類似于例句1),以及主動語態(tài)和被動語態(tài)等,這些現(xiàn)象從句法分析以及詞匯分析上不易得出正確的語義。因為ASSERT語義角色工具包只能保證謂詞的arg0和arg1的一致性,所以其方法僅僅能識別最基本的謂詞以及這個謂詞的發(fā)起者和接收者(arg0,arg1),并沒有利用更多的語義角色標(biāo)注信息識別句子里的其他成分。然而現(xiàn)實中很多復(fù)述問題要面臨的情況非常復(fù)雜,比如一個單純的補(bǔ)語或狀語的不同,就有可能導(dǎo)致兩個極為相似的句子不稱其為復(fù)述:如“我在家吃飯”和“我在學(xué)校吃飯”。這些情況恰恰在新聞?wù)Z料中非常常見,也是新聞?wù)Z料的一個特點。
為了得到更豐富的語義角色,我們選用伊利諾伊斯大學(xué)認(rèn)知計算組(Cognitive Computational Group,UIUC)的語義角色標(biāo)注工具包SRL。SRL工具包有比較好的語義角色標(biāo)注效果,對時間、地點、數(shù)字、指代等都有很好的識別結(jié)果,其標(biāo)注信息見表1。
圖2給出了采用SRL標(biāo)注好的兩個復(fù)述句。這兩句話均來自微軟的復(fù)述語料庫(Microsoft Paraphrase Corpus,MSR[22])。以圖2a為例,SRL針對每一個動詞(包括publish,offer,add)給出了謂詞論元結(jié)構(gòu),也就是著色的三列,其中不同的顏色代表不同的論元。
表1 RSL中的標(biāo)注
如動詞publish,其主語A0為 They,賓語A1為an advertisement on the internet。另外SRL還清楚地找到了時間狀語 on July 4,以及狀語offering cargo for sale。
圖2b給出了這句話的一個復(fù)述。可以看到,雖然這兩句話句法結(jié)構(gòu)有較大差異,但是在publish的論元中除了A0不一致外,其他語義角色都一致。
圖2a SRL例句
圖2b SRL例句
MSR語料均來自于不同的新聞文稿,所以,雖然在a句中出現(xiàn)了無法消解的代詞They,以及后面的代詞he,但是因為新聞背景關(guān)系,在其他語義角色相同或大致相同的情況下,還是認(rèn)為這兩句話是復(fù)述——這在MSR語料中是很常見的現(xiàn)象。
從新聞?wù)Z句自身特點看,很多新聞句可能主、謂、賓都一致,但是不同的時間、不同的地點以及不同的賓補(bǔ)成分,都可能使得這兩句看似相似的句子實際上在訴說不同的事情。分析這種情況,我們認(rèn)為,單純從由謂詞、A0、A1論元組成的元組為單位尋找匹配并不能很好地解決新聞?wù)Z句的復(fù)述識別問題,句子的各種修飾成分在復(fù)述句識別中同樣占有很重要的作用。
復(fù)述句識別方法多數(shù)采用有監(jiān)督的訓(xùn)練方法,事實上幾乎所有人的工作都集中在如何找到最能反應(yīng)這個問題本質(zhì)的特征上。在文獻(xiàn)[9]的基礎(chǔ)上,我們針對新聞復(fù)述句的特點,提出了一種基于語義角色標(biāo)注的有監(jiān)督新聞復(fù)述句識別方法,其流程見圖3,下面介紹每個模塊的功能,并給出選用的特征。
圖3 系統(tǒng)流程
首先將復(fù)述句輸入詞頻特征提取模塊。在詞頻特征提取模塊之中,我們首先對句子進(jìn)行了去停詞、詞干化的工作,然后我們考慮了如下幾個特征,我們稱之為基本特征。
基本特征(BF)
BF1句長差特征:兩個句子長度相減所得的差,可以為正值或負(fù)值。
BF2絕對句長差特征:對句長差特征取絕對值。
這兩個特征參考了文獻(xiàn)[16]。
BF3句子相似度特征:我們用如下公式(1)計算相似度。
BF4基于WordNet的相似度特征:對公式(1)中的分子,我們對詞干化以前的詞采用 WordNet 3.0計算相似度,為句子中的每個詞尋找其對應(yīng)復(fù)述句中相似度分值最高的詞,然后將這些相似度疊加并乘以2。
同時我們也將句子輸入UIUC的SRL標(biāo)注工具模塊,進(jìn)行語義角色標(biāo)注。得到標(biāo)注好語義角色的句子后,將其輸入SRL特征提取模塊,我們提取了如下一些特征,我們稱之為語義特征。
語義特征(SF)
SF1謂詞數(shù)差特征:兩句話的謂詞數(shù)相減所得,可以為正值或負(fù)值。
SF2匹配的謂詞數(shù)量特征:兩句話中有多少謂詞可以匹配。我們經(jīng)驗地規(guī)定兩個謂詞在WordNet上的相似度超過0.5即為匹配成功,我們最多尋找三對最相似的謂詞。
SF3未匹配的謂詞是否被其他謂詞的論元覆蓋:我們經(jīng)驗地判定一句話中越是重要的部分被各個謂詞論元覆蓋的次數(shù)越多。以圖2a為例,T hey這個主語被三個論元所覆蓋:publish的A0,offer的A0,以及add的A1,而對于謂詞add以及其論元A0都只被覆蓋了一次。
對于匹配的謂詞,我們按照表1尋找是否有匹配的論元,并給出如下一組特征。
SF4句子1中的論元特征:第一句話中是否包含某個論元成分。這是個0、1特征。
SF5句子2中的論元特征:第二句話中是否包含某個論元成分,同上。這兩個特征反應(yīng)了論元的匹配情況。
SF6匹配的論元成分的相似度:我們用公式(2)計算相似度。
其中,Ai=1,2表示句子1和2在某個謂詞下相對應(yīng)的論元。和計算相似度特征的方法一樣,我們這里也采用了WordNet外部知識。對于不存在的論元成分,這個特征取零。這個特征會產(chǎn)生3×15個子特征,它們的設(shè)立是考慮到不同的論元成分,哪怕是一些修飾成分,在新聞?wù)Z料中都可能扮演很重要的角色這個特點。
SF7代詞特征:我們從SRL中得出的結(jié)果并沒有考慮指代消解,我們用這個特征給出某個論元成分中是否包含代詞。給出這個特征,是因為考慮到新聞?wù)Z料中的復(fù)述句往往來自不同的新聞機(jī)構(gòu)或者不同的日期,單純從孤立的句子上看,會有一些無法消解的指代,比如圖2a中的 They和he。圖2a和2b這兩句話在新聞背景下是復(fù)述句,但是嚴(yán)格意義上說,它們不應(yīng)該是互為復(fù)述句的。
SF8擴(kuò)展的句子相似度特征:在語義角色標(biāo)注后,我們引入了一個新的計算句子相似度方法,其公式如下:
公式(3)中的Nwi表示有多少個謂詞論元成分覆蓋了這個詞,如圖2a中的offering為3,added為1。選用這個特征也是基于這樣直觀的假設(shè):越是重要的成分被覆蓋的越多。
這些特征的設(shè)計都是充分考慮了新聞領(lǐng)域中語句識別復(fù)述與普通領(lǐng)域的語句復(fù)述的不同。
我們將得到的特征直接送入SVM分類器進(jìn)行訓(xùn)練和測試,并由SVM輸出最終結(jié)果。
這一部分介紹我們采用語料和實驗結(jié)果。
我們的實驗里采用的是MSR語料[22]。MSR是一個用于一般用途的復(fù)述語料庫,它來源于在線新聞網(wǎng)站。其創(chuàng)建分兩步,第一步是由僅僅依靠編輯距離過濾詞匯上不相似的句對,這樣共得到了5801 個句子對;第二步為人工標(biāo)注,其中3900 個句子對標(biāo)為正例,其余為反例。這樣這個語料中的句子單從詞匯上看句對間相似度很大,給復(fù)述識別任務(wù)提出了更高的要求。第一節(jié)中的例子里給出的兩組句子均來自MSR,其中第二個例子稍微做了一點改動。
為便于比較,我們的評測采用F1值作為評測標(biāo)準(zhǔn),和文獻(xiàn)[9]的評測方法一致,見公式(4)。
在MSR語料中,訓(xùn)練集有2753 個正例,1323 個反例;測試集中有1147 個正例,578個反例。從訓(xùn)練集抽取特征后我們用SVM分類器進(jìn)行訓(xùn)練,然后在測試集上做測試。
我們選用基于語義角色標(biāo)注的方法Qiu[9]和基于句法的方法Zhang[18]以及Wu[14]作為Baseline。在實驗中,我們先測試了傳統(tǒng)的基于基本特征(BF)的結(jié)果,然后給出基于語義特征(SF)的結(jié)果,最后將這二者結(jié)合給出SF+BF的結(jié)果。實驗結(jié)果及Baseline在表2給出。
表2 試驗結(jié)果
從表2我們看到,當(dāng)取依賴于詞頻等表層信息的基本特征BF時結(jié)果為最低0.789,而加入語義特征SF后,系統(tǒng)性能得到很大改善,取得了3.7%的相對提高,達(dá)到0.818。這證明我們采用的語義特征效果比較明顯。
我們的結(jié)果比依賴句法和詞集特征的 Wu和Zhang的方法都有較明顯提高。前面提到Zhang[18]的方法依賴依存句法分析對句式做了調(diào)整,如將被動句式變?yōu)橹鲃泳涫降?。這種方法效果并不理想,僅取得了0.807的F1值。這個結(jié)果正反映出新聞?wù)Z料自身的特點,即是否是復(fù)述句很大程度上依賴于句子中某些狀語、補(bǔ)語等修飾成分。我們的方法和Qiu[9]給出的方法相比提高雖然并不明顯,但是我們的方法是在完全不依賴句法特征的條件下做出的,如何能將句法特征有效地融入我們的方法,也是我們下一步將要進(jìn)一步研究的問題。
本文介紹了一種新的基于語義角色標(biāo)注的新聞復(fù)述語句識別方法。針對新聞?wù)Z句不容易從詞頻、句法等信息做出復(fù)述判斷的特點,對經(jīng)過語義角色標(biāo)注的新聞?wù)Z句,我們提取了能反映句子不同成分匹配情況的更為豐富的特征。從實驗結(jié)果看,我們的結(jié)果比依賴詞集信息以及句法信息的方法都有明顯的提高。
[1]Mc Keown,K.Paraphrasing using given and new information in a question-answer system[C]//Association for Computational Linguistics.1979.
[2]Callison-Burch,C.,P.Koehn,and M.Osborne.Improved statistical machine translation using paraphrases[C]//Association for Computational Linguistics Morristown,NJ,USA..2006.
[3]宗成慶,等.面向口語翻譯的漢語語句改寫方法[J].Journal of Chinese Language and Computing,2002,12(1):63-77.
[4]Zong,C.,et al.,Approach to Spoken Chinese Paraphrasing Based on Feature Extraction[C]//Proceedings of the 6th Natural Language Processing Pacific Rim Symposium(NLPRS).Tokyo,Japan.2001:551-556.
[5]車萬翔,等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高技術(shù)通訊,2004.14(7):15-19.
[6]Harabagiu,S.and A.Hickl.Methods for using textual entailment in open-domain question answering[C]//Association for Computational Linguistics Morristown,NJ,USA.2006.
[7]Barzilay,R.,K.McKeown,and M.Elhadad.Information fusion in the context of multi-document summarization [C]//1999: Association for Computational Linguistics Morristown,NJ,USA.
[8]秦兵,等.多文檔自動文摘綜述[J].中文信息學(xué)報,2005,19(6):14-20.
[9]Qiu,L.,M.Kan,and T.Chua.Paraphrase recognition via dissimilarity significance classification[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.2006.
[10]Corley,C.and R.Mihalcea,M easuring the semantic similarity of texts[C]//Ann Arbor,2005.
[11]Fellbaum,C.,WordNet:An electronic lexical database[M].1998:MIT press Cambridge,MA.
[12]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008.
[13]Finch,A.,Y.Hwang,and E.Sumita.Using machine translation evaluation techniques to determine sentence-level semantic equivalence[C]//Proceedings of the 3rd IN ternational Workshop on Paraphrasin.2005.
[14]Wu,D.,Recognizing paraphrases and textual entailment usinginversion transduction grammars[C]//Ann Arbor,2005.
[15]Bar-Haim,R.,I.Szpektor,and O.Glickman,Definition and analysis of intermediate entailment levels[C]//Empirical Modeling of Semantic Equivalence and Entailment,2005.100:55.
[16]Wan,S.,et al.,Using dependency-based features to take the“para-farce” out of paraphrase[C]//Proc.of ALTW,2006.
[17]Das,D.and N.Smith,Paraphrase identification as probabilistic quasi-synchronous recognition[C]//Proc.of ACL-IJCNLP,2009.
[18]Zhang,Y.and J.Patrick.Paraphrase identification by text canonicalization[C]//Proc.of Australiasian Language Technology Workshop.2005.
[19]Paul Kingsbury,M.P.,and Mitch Marcus,Adding semantic annotation to the penn treebank[C]//Proceedings of the Human Language Technology Conference,2002.
[20]Charniak,E.A maximum-entropy-inspired parser[C]//Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics(NAACL'2000).2000.
[21]Pradhan,S.,et al.Shallow semantic parsing using support vector machines[C]//Proceedings of HLT/NAACL.Boston,USA,2004.
[22]Dolan, B., C.Quirk, and C.Brockett.Unsupervised construction of large paraphrase corpora:Exploiting massively parallel news sources[C]//Association for Computational Linguistics Morristown,NJ,USA.2004.