阮 翀,施文嫻,李巖昊,翁伊嘉,胡俊峰
(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 北京大學 信息科學技術學院,北京 100871)
轉述是指用不同的表達方式來傳達相同或相似語義的語言現(xiàn)象。這一現(xiàn)象在人類語言中廣泛存在,給信息檢索、剽竊檢測、機器翻譯評價等自然語言處理問題均帶來了額外的困難,而構建轉述知識庫可以在一定程度上緩解這一困境。
建設轉述知識庫需要以轉述語料庫為基礎。目前學術界已有的轉述語料多為英文,例如,Quora[注]② https://data.quora.com/First-Quora-Dataset-Release-Qu-estion-Pairs、MRPC[1]和 MSCoCo[2]等。其中 Quora 是從問答網(wǎng)站中收集的一些語義重復的問題對,MRPC 是從新聞語料里挖掘出的同義句對, MSCoCo 是不同人
對同一圖片的文字描述。而中文世界里目前還難以獲得類似的公開語料,因此本文以外國文學名著的多個不同中文譯本為基礎,尤其以《簡愛》的四個譯本為例,通過句對齊算法得到轉述句對,構建了一個規(guī)模約為五萬句的中文轉述數(shù)據(jù)集,并在此基礎上進行轉述知識挖掘的相關研究。
轉述現(xiàn)象可以在不同的層面上發(fā)生,小到詞匯級別, 大到篇章級別。詞匯級別的轉述現(xiàn)象最為基
礎和常見,一般通過同義詞或近義詞的替換來完成。現(xiàn)階段已有的中文轉述知識庫主要集中在詞匯轉述級別,本文也將重點關注從轉述語料里自動提取詞匯轉述知識的方法。人工構建的漢語轉述知識庫里較為著名的是《知網(wǎng)》[3]和《同義詞詞林》[4],盡管它們并非是為轉述研究而建立的,但是其中包含的同義詞匯關系使得它們成為了可用的中文轉述知識庫。本文將算法自動挖掘出的詞匯轉述知識和《同義詞詞林》里的轉述知識進行了對比,從而驗證了本文提出的詞匯轉述知識自動挖掘算法的有效性。
轉述評價是轉述研究的另一個重要組成部分,沒有自動化的評價方案就難以評估轉述挖掘算法的好壞,進而挖掘出更多,更準確的轉述知識。本文首先構建了一個轉述測評數(shù)據(jù)集,然后以機器翻譯中的 Meteor 指標[5-8]為基礎,將轉述知識引入到測評過程中,從而得到了轉述知識的自動評價方案。進一步地,本文根據(jù)中文的特點引入了字符重疊知識,提出了更好的中文轉述評價指標。
本文的組織結構如下: 第1節(jié)介紹轉述知識提取和轉述評價指標的相關工作;第2節(jié)介紹本文研究所使用的語料庫和轉述知識提取算法,并展示分析挖掘結果;第3節(jié)介紹轉述測評數(shù)據(jù)集的構建及相應測試結果;第4節(jié)總結全文內(nèi)容并提出未來可能的研究方向。
詞匯轉述知識挖掘有兩大類方法,分別是從單語語料和雙語平行語料中挖掘。單語語料挖掘算法總體不夠成熟,常常需要依賴較為特殊的語言資源或其他復雜自然語言處理系統(tǒng)的輔助。例如,Wang 和 Hirst[9]觀察到字典的詞條定義往往具有固定的模式,如“甲是一種乙”可以得到“甲”和“乙”具有轉述關系。通過人工定義的正則表達式模板,可以提取出高質量的轉述詞對。而 Turney[10]提出基于分布相似性的 PMI-IR 方法,通過使用搜索引擎檢索兩個候選詞,統(tǒng)計這兩個詞的搜索結果的共現(xiàn)情況來挖掘轉述詞對。
基于雙語平行語料的則以Bannard 和 Callison-Burch[11]提出的樞紐方法為代表。該方法首先收集當前語言e和某種樞紐語言f的大規(guī)模平行語料,然后訓練這兩種語言間的機器翻譯模型,得到詞匯翻譯概率表,然后通過式(1)計算兩個當前語言的單詞e1和e2能夠進行轉述的概率,若概率超過一定閾值就認定轉述關系成立。
(1)
與本研究最相似的是學者 Barzilay 和 McKeown[12]的工作,他們提出了一種自舉方法,從外文小說的多個英譯本中提取轉述詞對。該方法需要訓練兩個分類器,一個分類器用于判定上下文是否相似,另一個分類器則用于判定中心詞是否相似(是否互為轉述)。其依據(jù)便是經(jīng)典的分布性假設: 如果兩個詞相似,那么它們的上下文也相似。在算法剛啟動時,首先認定相同單詞出現(xiàn)的上下文環(huán)境是相似的,不同詞出現(xiàn)的上下文環(huán)境則不相似,構造正負樣本訓練上下文分類器;然后以上下文分類器為基礎,找到相似的中心詞,訓練優(yōu)化中心詞分類器。如此往復不斷迭代,兩個分類器都不斷變優(yōu),就能挖掘到越來越多的轉述詞對。該算法使用詞性特征來訓練分類器,而小說語料中復雜多變的語言現(xiàn)象導致詞性標注模塊準確率不夠高,進而產(chǎn)生錯誤累積現(xiàn)象。統(tǒng)計結果表明,算法的挖掘結果中僅有 35% 為同義詞對,上下位詞和兄弟詞分別占 32% 和 18%,還有 11% 的詞對不相關,說明該方案噪聲較大。
直接針對轉述任務設計的評價指標很少,其中最有代表性的是 PEM[13]。該指標在計算時,首先需要收集當前語言和其他某種樞紐語言的大規(guī)模平行語料,然后訓練兩種語言間的統(tǒng)計機器翻譯模型,得到詞匯翻譯概率表。對于一對當前語言的句子,可以將它們都翻譯為樞紐語言的句子,通過計算翻譯后句子的加權詞袋相似度來給出這對句子轉述程度的度量。該方法的缺點是需要收集大規(guī)模的平行語料,而且指標測評結果與訓練數(shù)據(jù)有關,而不是一個清晰明了的公式。
由于轉述和機器翻譯具有天然的相似性,轉述可以被視作單語機器翻譯問題,也有很多學者直接借用機器翻譯的評價指標來評測轉述句子的質量,例如經(jīng)典的 BLEU[14]等指標??紤]到本研究的需求,不光需要給出句對轉述質量的評價,還希望能夠和轉述知識庫相結合,反映轉述知識庫本身的質量優(yōu)劣。因此,本研究主要以 Meteor指標[5-8]為基礎進行改進,因為該指標在計算過程中可以引入外部轉述知識。
Meteor 指標在計算時首先需要在兩個句子之間尋找一個最優(yōu)匹配。匹配的要求有四點,按照重要性依次遞減: ①每個單詞最多只有一個配對詞;②有盡可能多的單詞被匹配覆蓋到;③最小化匹配中塊的個數(shù);④最小化各匹配對之間的起始位置距離差的絕對值之和。由于上述條件可能無法同時滿足,實踐中通過集束搜索算法來近似找到較優(yōu)解。值得一提的是,Meteor 有四種匹配模式: 精確匹配、詞干匹配、同義詞集匹配和轉述短語匹配。其中同義詞集匹配和轉述短語匹配需要提供額外的語言資源,從而提供了比較不同來源的轉述知識庫的可能。
在得到匹配結果之后,根據(jù)式2)、式(3)計算加權后的準確率P和召回率R。
(2)
(3)
其中超參數(shù)wi是第i種類型的匹配的權重,mi· 表示該種匹配覆蓋到的詞數(shù),h和r分別是指機器生成的假想譯文和人工標注的參考譯文,下標c和f分別是指實詞和虛詞(虛詞定義為語料庫中相對詞頻超過 10-3的詞),超參數(shù)δ用于平衡實詞和虛詞的相對重要性。
在此之后,可以計算準確率和召回率的加權調(diào)和平均值Fmean,并根據(jù)匹配中包含的塊數(shù) ch、匹配覆蓋的總詞數(shù)m得到一個句子流暢性罰分,兩者相乘就是最終的 Meteor 評分(式(4)、式(5)中α,β,γ均為超參數(shù))。
本節(jié)將介紹本研究中的語料構建和處理流程: 以《簡愛》的四個中文譯本為數(shù)據(jù)基礎,首先構造句對齊語料;然后進行小句對齊和詞對齊,進而得到詞匯轉述知識。最后展示并分析轉述知識挖掘結果。
本研究使用的原始生語料有些是文字版,但大多數(shù)是掃描版,然后通過 OCR 轉換成文字。掃描版中時不時地會有一些文字識別錯誤,例如,“糟?!笨赡鼙蛔R別成“糟踢”。本研究的處理流程中,首先過濾掉亂碼,然后按照換行和段落信息將文本拼接和切分成句,最后使用結巴工具包[注]https://pypi.org/project/jieba/進行分詞。分詞后的一個典型例句如下:
“ 簡 , 我 可不 喜歡 吹毛求疵 或者 尋根究底 的 人 ; 再說 , 小孩兒 這樣 打斷 長輩 的話 , 實在 可怕 。 找個 地方 去 坐下 來 。 不會 說 討人喜歡 的話 , 就別 多嘴 。 ”
由于外文小說中常有從句嵌套的現(xiàn)象,導致中譯本的句子長度也普遍偏長,有可能原文的一句話被拆成漢語的多個句子。因此本研究在句子劃分上較為保守,劃分出的句子有時是包含多個句子的一大段話,更接近于段落的概念。每個句子包含的平均詞數(shù)超過 50,更詳細的統(tǒng)計量如表1所示。
表1 《簡愛》語料統(tǒng)計數(shù)據(jù)
隨后本文通過微軟發(fā)布的 Bilingual Sentence Aligner[注]https://www.microsoft.com/en-us/download/details.aspx?id=52608工具包[15]進行詞對齊,其算法首先采用基于長度的方法[16]得到粗對齊結果,然后訓練一個統(tǒng)計機器翻譯模型 IBM 模型一[17],根據(jù)這個翻譯模型再篩選一遍語料,保留翻譯模型認為對齊概率較大的句子。經(jīng)過上述處理,《簡愛》語料中共挖掘到共 24 858 個句對,更詳細的統(tǒng)計結果如表2所示。
表2 《簡愛》句對齊語料統(tǒng)計數(shù)據(jù)
上表中兩個句子交換順序只計一次,因此可以通過交換句對將數(shù)據(jù)增廣一倍,達到近五萬對平行轉述句對。其中一個轉述句對示例如下(斜線表示各個小句之間的分隔):
句子1: “ 都 九點 了 。/你 是 怎么 搞 的 , /愛 小姐 ,/讓 阿黛爾 坐 得 這么久 ?/快帶 她 去 睡覺 。 ”
句子2: “ 九點 了 ,/愛 小姐 ,/你 讓 阿黛勒 坐 這么久 ,/究竟 是 干什么 ?/帶 她 去 睡覺 。 ”
以上述單語平行語料為基礎,本文通過先進行小句對齊后再進行詞對齊的方式獲取詞匯轉述知識,挖掘結果更加精確和全面。
本文延續(xù)Lacoste-Julien[18]等使用整數(shù)規(guī)劃求解詞對齊的思路,將對齊問題建模為如下優(yōu)化問題:
需要滿足的兩個約束條件分別為:
其中,變量zjk表示源句子中的第j個詞和目標句子中的第k個詞是否匹配,sjk是匹配成功的獎勵值;而變量zdj表示源語言中的第j個詞的匹配數(shù)是否達到了d次,sdj是對應的懲罰值,sdk和zdk也與此類似;兩個限制條件是希望每個詞的總匹配次數(shù)(即zjk之和)要符合變量zdk和zdj的要求。參數(shù)sdk和sdj應該隨著d的增大而增大,這樣才能使得模型優(yōu)先選擇度數(shù)較低的匹配。
原版整數(shù)規(guī)劃算法只針對詞對齊建模,沒有考慮小句對齊的情形;還有一個重大缺陷是超參數(shù)s的設置需要詞對齊的強監(jiān)督數(shù)據(jù)來訓練。本文則通過近年來詞向量等無監(jiān)督學習技術的進展直接設置超參數(shù)權重,無需訓練,從而解決了詞對齊標注數(shù)據(jù)缺乏的問題。具體而言,本文采用帶有負采樣的 Word2Vec 算法[19-20]訓練詞向量,然后根據(jù)式(6)設置單詞x和y間的相似度。
(6)
其中,cossim 是兩個詞向量的余弦相似度,x,y,x∩y分別是單詞x、單詞y、單詞x和y重合部分的字符數(shù)。這種基于字符重合的修正方案可以有效增強算法的健壯性,削弱分詞錯誤和 OCR 識別錯誤帶來的影響。
而小句之間的相似度sjk的設置方案為: 枚舉兩個小句中的所有詞對(忽略標點符號),按照上述公式計算單詞相似度。如果兩個小句長度都超過 5,則取其相似度排前n=5 的詞對的平均相似度為兩個小句的相似度。特別地,若小句相似度超過某個閾值(本研究中取 0.95),則將小句相似度sjk改成一個較大的數(shù)值(如 2.5),以保證整數(shù)規(guī)劃算法永遠選擇對齊這兩個小句;否則,若較短的小句長度n<5,則取排名前n的相似詞對的平均相似度,并按照如下方式加權得到最終的句子相似度,如式(7)所示。
(7)
其中,avg_index 是該小句中單詞在語料里的平均詞頻排名,σ· 是 sigmoid函數(shù)。這兩個加權項可以使得短句和常用詞的權重被弱化,尤其是長度小于兩個詞和平均詞頻高于前100 的小句會有較為顯著的降權,使得算法優(yōu)先考慮長句和信息量較高的小句的匹配結果。小句相似性取前幾而非取平均的動機則是: 兩個小句里相似度最高的詞對往往是真正對齊的詞對,而且截斷到前 5 可以更好地處理小句部分匹配和多匹配的情形。
最后,多匹配懲罰項sdj,sdk的設置較為簡單,只需根據(jù)詞向量平均相似度和多匹配在語料中出現(xiàn)的頻次設定一個經(jīng)驗值即可。本文在實驗中最多允許一個小句被匹配D=3 次,并把匹配 1 次到 3 次的懲罰值分別設定成 0.4,0.65 和 0.75。這里對單次匹配也進行懲罰的原因是,有時平行句對中的某個句子會比另一個句子多一部分內(nèi)容,此時應該讓這部分內(nèi)容留空不做匹配,而不是強行匹配到某個不太合適的小句上。
上述設置已經(jīng)足夠處理大部分情況,但有時會因為整數(shù)規(guī)劃的多解性出現(xiàn)錯誤。例如,假設兩個句子分別是“是這樣!是這樣”和“是的!是的!”,那么合理的匹配方式是 0-0、1-1(i-j表示第一個句子的第i個小句對應第二個句子的第j個小句,下同),但是由于匹配 0-1、1-0 也具有同樣的目標函數(shù)值,模型有可能求得這個解作為最終結果。因此,本文提出以下兩趟匹配算法:
① 第一趟先按照上述算法進行匹配,得到粗匹配結果;
② 修正整數(shù)規(guī)劃中的權重sjk。 具體而言,本研究共考慮兩種修正方案。其一是對角線修正: 從粗匹配結果中找到句子 1 被匹配的第一個小句和最后一個小句的位置,分別記為i1和j1;以及句子 2 被匹配的第一個小句和最后一個小句的位置,分別記為i2和j2。 然后對于任意一對小句 (i,j),根據(jù)這個點到 (i1,i2) 和 (j1,j2) 的連線的距離 dist 給一個額外的獎勵,獎勵分值隨距離指數(shù)衰減: bonus=0.05*exp (-dist)。 另一種權值修正方案為鄰域強匹配修正: 如果某個位置的上下左右相鄰位置有一個較為確定的匹配(小句相似度高于 0.97),就給當前位置的小句相似度加 0.1。
③ 根據(jù)修正后的小句相似度參數(shù)重新求解整數(shù)規(guī)劃問題。
這種兩趟匹配算法十分有效,整體匹配準確率可以達到 95%,如2.1 節(jié)末尾舉的復雜例子也能匹配正確,匹配結果為 0-0, 1-3, 2-1, 3-2, 4-4。
在小句對齊結果的基礎上,本文進一步篩選詞向量余弦相似度超過 0.75 并且共現(xiàn)超過兩次的詞對。因為小句長度較短,此時詞向量余弦夾角足夠小的詞很可能就是互為轉述的詞,無須再進行詞對齊步驟。
此外,本文還比較了另外兩種轉述詞對挖掘方案,一種是將上述整數(shù)規(guī)劃方法直接用在句對齊語料上進行詞對齊,跳過小句對齊的步驟;另一種是使用統(tǒng)計機器翻譯模型在句對齊語料上尋找維特比詞對齊。對于前者,只需從小句對齊算法中移除取前k詞對相似度均值的操作,并把一對一匹配的懲罰值改成 0.3 即可。實驗發(fā)現(xiàn)該方法準確率較高,但是召回率相對較低。而對于后者,由于統(tǒng)計機器翻譯模型的詞對齊結果不對稱,本文訓練兩個翻譯方向的詞對齊模型,并通過取交集來得到更準確的結果。維特比詞對齊使用 GIZA++[21]工具包得到。實驗表明,當兩個句子語序較為一致時,統(tǒng)計機器翻譯模型的詞對齊結果較為準確;但當語序差異較大時,往往會出現(xiàn)一個詞對應連續(xù)多個詞的情形,結果不盡如人意。
2.2節(jié)中提到的三種轉述詞對挖掘方法結果匯總如表3所示(一對詞交換順序計兩次)。
三種方法得到的詞對質量難以觀察到顯著的區(qū)別,但基于小句對齊和過濾具有更高的召回率。通過對三種方法的結果求并集,并人工過濾錯誤詞對,可以得到更大規(guī)模的詞匯轉述知識。人工檢查發(fā)現(xiàn),錯誤類型主要是分詞錯誤和 OCR 字符識別錯誤,共計不到 100 對,可見算法挖掘到的轉述詞對具有很高的準確率。最終合并、校驗過的轉述詞對樣例見表 4。
表3 三種常見轉述對挖掘方法的比較
表4 《簡愛》上挖掘到的常見轉述對
本文還將詞匯轉述關系連接拓展成網(wǎng)絡,發(fā)現(xiàn)了一些有趣的子圖結構,例如極大完全子圖(稱作轉述極大團)和連通分量(轉述閉包)。連通分量可以用寬度優(yōu)先搜索算法來查找,而極大完全子圖可以用 Bron-Kerbosch 算法[22]來枚舉。經(jīng)過搜索,本研究共找到 2 841 個轉述閉包和 5 721 個轉述極大團,其中一個轉述閉包如圖 1 所示。
圖1 轉述閉包示例
顯然,表示早晨和夜晚的詞不能構成轉述關系,但它們卻出現(xiàn)在了同一個轉述閉包中。通過對轉述極大團的分析可以發(fā)現(xiàn),轉述關系網(wǎng)絡中存在“夜晚”—“今晚”—“今天”—“早上”—“早晨”這樣一條路徑,使得閉包中詞匯的語義逐漸發(fā)生了轉移。尤其是中間兩個步驟: 從“今晚”到“今天”發(fā)生了詞義的擴大,而“今天”到“早上”又發(fā)生了詞義的縮小,最終導致了詞義轉移現(xiàn)象的產(chǎn)生。
由此也能看出,轉述閉包和轉述極大團的語言學性質確實略有不同。轉述極大團因為兩兩間的轉述關系都得到了語料的確認,因而集合內(nèi)部的聯(lián)系更加緊密;而轉述閉包則可能由于多次轉述發(fā)生詞義的擴大、縮小或偏移等現(xiàn)象,進而包含僅僅是話題相同但是不能互相轉述的詞。
本節(jié)將對本文算法挖掘到的詞匯轉述知識進行測評,并和《同義詞詞林》等已有語言資源進行對比。同時針對中文特點,利用詞匯重疊知識優(yōu)化轉述自動評價指標。
以四個版本的《簡愛》語料為基礎,本文選取各版本中能夠兩兩對齊的句子組,隨機指定其中一條語句為原句(查詢語句),將剩下三條語句視為原句的轉述句。然后以四個版本《簡愛》中的全部句子為文檔集,計算每個句子和查詢語句的相似度(相似度為兩個句子的 TF-IDF 向量的余弦相似度乘以長度懲罰項1-abs(lq-l)/max {lq,l},其中l(wèi)和 lq 分別為候選語句和查詢語句包含的詞數(shù)),取相似度最高的前 5 個句子為負樣本。
本研究還通過三個轉述生成模型為查詢語句生成三個更具迷惑性的負樣本。本研究選取的基本轉述生成模型是 Luong 等[23]提出的 global attention model,唯一的區(qū)別只是將編碼器部分從單向 LSTM 換成了雙向,模型結構如圖 2 所示,其中輸入語句為 “ABCD”,輸出語句為“XYZ”(
其中,x,y分別表示源句子和目標句子(參考轉述句),Ty是目標句子中的詞數(shù)。
圖2 基本轉述生成模型結構示意圖
在基本轉述生成模型之上,本研究還嘗試了兩種改進版模型。其一基于最近提出的詞袋損失[24],用于對不同于訓練集中目標句子的正確轉述句進行鼓勵。該輔助損失函數(shù)認為,一個不同于參考轉述句的正確轉述句的詞袋應該和參考轉述句的詞袋有較大的重合,因此只要模型生成了參考轉述句里的單詞(無須考慮它是在哪一步翻譯出的),就應該適當給予鼓勵。其數(shù)學公式表述,如式(9)、式(10)所示。
其中,wi代表詞表中的任意一個詞,sti代表解碼器在第t個時間步預測的單詞wi的 logits 值(未經(jīng)過 softmax 歸一化的概率值)。
將詞袋損失和普通的負對數(shù)似然損失加權求和,便可以得到第二個轉述生成模型。進一步地,可以將轉述知識引入上述詞袋損失中,將目標句中單詞的所有轉述詞形成的詞袋作為輔助損失計算的標準,可以對更多潛在的正確候選轉述句進行獎勵,得到第三個轉述生成模型,如式(11)、式(12)所示。
其中Pp是所有轉述詞對組成的集合。同樣,該模型的總損失函數(shù)是負對數(shù)似然損失和上述轉述詞袋損失的加權和。
有了上述損失函數(shù),通過梯度下降即可訓練模型。三個轉述生成模型的訓練語料來源于《簡愛》及《罪與罰》多個譯本互相對齊的句對(去掉了用于構建轉述測評數(shù)據(jù)集的句子),規(guī)模為接近6萬個句對。所有模型均使用 Adam 算法[25]訓練 10 輪;在后兩個模型的訓練過程中,負對數(shù)似然的權重恒為1,而詞袋損失的初始權重為 0.1,之后每一輪增加 0.1,最終增加到 1.0。
經(jīng)過訓練,三個模型都能生成有意義的轉述句,而且迷惑性依次變強。一組具體的樣例見表5中的最后一部分。
表5 轉述測評數(shù)據(jù)集示例
最終構建好的轉述測評數(shù)據(jù)集共包含 315 組數(shù)據(jù),其中每組有 12 個句子: 1條查詢語句、3條真轉述語句、5條 TF-IDF 負樣本(由于空間限制,表5只展示了其中一條)和3條轉述生成模型產(chǎn)生的負樣本。
本節(jié)通過使用轉述評價指標進行信息檢索來比較不同轉述評價指標的好壞。特別地,在轉述評價指標不變的情況下,通過改變其中轉述知識的來源就可以比較轉述知識的質量。
具體而言,對于某種轉述評價指標,本文用它計算每組測試數(shù)據(jù)中查詢語句和任何一個候選語句的轉述相似度,然后對結果進行排序,根據(jù)三個真轉述語句出現(xiàn)的位置計算平均正確率均值(mean average precision)。該指標越高越好。
本研究中考慮三種方案: ①不提供轉述知識,僅使用精確匹配模式計算 Meteor 指標;②將《同義詞詞林》中的底層詞類作為轉述知識引入 Meteor 指標中,使用精確匹配和轉述匹配兩種模式;③將本文挖掘到的轉述知識加入到 Meteor 指標中,使用精確匹配和轉述匹配兩種模式。使用 Meteor Universal[8]中的超參數(shù),即精確匹配和轉述詞匹配的權重分別為 1 和 0.6,本研究得到的實驗結果如表6所示。
表6 轉述測評實驗結果
可見效果最好的是 Meteor 加上本文挖掘到的詞匯轉述知識?!锻x詞詞林》中收錄詞語近 7 萬條,而本文挖掘到的轉述詞表中只有約 9 000對,卻能取得更好的性能。這固然與本文進行的是封閉測試有關,但是也說明了本文算法挖掘到的轉述知識庫的有效性。
由于中文是孤立語,難以利用 Meteor 中針對印歐語設計的詞干匹配模式??紤]到中文里相當一部分雙字和多字詞都符合“組合語義假設”,即詞義等于字義之和,兩個詞有重疊的漢字往往意味著他們具有相似的語義。因此,本研究在 Meteor 的四種匹配模式外引入新的“字符重疊匹配模式”: 如果組成兩個單詞的漢字存在重疊,就認為這兩個詞也能互相匹配。這種處理方式的缺點是沒有分析單詞的內(nèi)部結構,有可能會匹配上偶然出現(xiàn)重合漢字的詞對,并且有些漢字存在一字多義的情況。目前已有一些相關工作對漢語復合詞的內(nèi)部結構進行更詳盡的分析,例如,CCWE[26]使用《同義詞詞林》中的義類對漢語中的雙字詞進行標注,然后根據(jù)兩個漢字的義類距離整個單詞的義類的遠近來學習字向量和詞向量的組合關系;SCWE[27]使用機器翻譯系統(tǒng)將多字詞內(nèi)的每個字翻譯成英文,然后分析每個字的翻譯結果和整個詞的翻譯結果的相似度,據(jù)此對字向量進行自適應的加權。這些方案都有不錯的效果,但模型稍顯復雜??紤]到詞向量也能蘊含詞義信息,本文根據(jù)兩個詞的詞向量余弦夾角進行簡單的過濾,只保留詞向量相似度超過一定閾值的詞對,這樣也能排除掉一定比例的偶然出現(xiàn)的漢字重疊詞對。事實上,本研究也確實在實驗中發(fā)現(xiàn),詞向量夾角校驗排除掉了類似“要是—要求”這樣的隨機詞對,提升了轉述指標的效果。具體的實驗結果如表7所示(“詞匯重疊匹配模式”的權重和詞向量過濾閾值分別為 0.9 和 0.13,均通過網(wǎng)格搜索確定)。
表7 優(yōu)化后的轉述測評實驗結果
本文借助外國文學名著的多個譯本構造出較大規(guī)模的中文轉述平行語料,填補了目前學術界的這項空白。本文提出了一個健壯的、無監(jiān)督的詞匯轉述知識提取流程,對語料中的噪聲有較好的耐受能力,而且有較高的準確率和召回率。本文還構建了一個轉述測評數(shù)據(jù)集,可供比較不同的轉述評價指標。本文對 Meteor 指標進行了改造,使其更加適合于中文轉述句子評價。
本研究以《簡愛》語料的多個譯本為數(shù)據(jù)基礎,但是提出的算法并不依賴于具體的語料。本研究還在持續(xù)收集其他語料,如《罪與罰》等,不斷補充擴大轉述知識庫的規(guī)模。本研究后續(xù)也將繼續(xù)關注中文轉述評價指標的優(yōu)化工作,例如,將第3節(jié)末尾提到的漢語內(nèi)部構詞信息考慮進來。最后,本研究還計劃探索人工轉述知識和算法挖掘到的轉述知識相結合的方案,以及嘗試把轉述知識的挖掘擴展到短語級別。
轉述語料庫的建設研究得到了中央民族大學曾立英教授團隊的支持和幫助。