融合多源信息的平行語料庫相似句段去重算法

2021-11-17 07:18:36左世亮劉穩(wěn)良

計算機仿真 2021年8期

左世亮，劉穩(wěn)良

(上海應用技術大學，上海201418)

1 引言

我國和沿線國家之間的交流愈發(fā)緊密，各類深度合作項目日益增多，這對語言服務企業(yè)與人才能力都設定了更高的標準要求[1-2]。語言服務企業(yè)為支撐翻譯生產(chǎn)，創(chuàng)建了一系列平行語料庫，為多元化語言服務需求提供充足便利。但在多源信息發(fā)展的今天，隨著語料數(shù)量持續(xù)增長，出現(xiàn)越來越多的相似語句，為翻譯工作帶來諸多困擾[3]，由此要對相似句段進行去重，保障語言服務效率與水平。

關于文本去重問題，陳平華[4]等提出一種采用簽名與哈希技術的云存儲去重方案，在數(shù)據(jù)去重過程中運用雙層校驗機制審計數(shù)據(jù)完整性，校驗文件完整性并精確定位損壞數(shù)據(jù)塊；構(gòu)造Merkle哈希樹生成校驗值，計算去重標簽，確保檢測到重復數(shù)據(jù)。但該方法局限性高，不易廣泛推廣。鄧玉輝[5]等提出一種基于混合頁面的磁盤緩存去重策略。在磁盤緩存中引入混合頁機制，保留基頁增加巨頁，自適應調(diào)整巨頁大小讓命中率最大化；監(jiān)測基頁、巨頁冷熱程度，將重復率高的冷巨頁拆分為基頁，實現(xiàn)基頁、巨頁動態(tài)轉(zhuǎn)換；利用重刪技術對基頁、巨頁依次實施去重，在命中率最大化同時保持去重率，但方法去重速率緩慢。

綜合以上內(nèi)容，本文創(chuàng)建一種基于詞頻-逆向文件頻率(term frequency-inverse document frequency，TF-IDF)的平行語料庫相似句段去重算法。對齊平行語料庫互為對應關聯(lián)的句子，推導句段相似程度，加強后續(xù)去除速度，融合TF-IDF技術與單詞主題相關性，計算關鍵詞權重，刪除高權重句段，達到平行語料庫句段去重目的。

2 平行語料庫句子對齊計算

為平行語料庫創(chuàng)建句子以及對齊關聯(lián)，明確源語言句段內(nèi)哪些句子和語料庫語言中的句段互為譯文。句子對齊關聯(lián)可能包含多種形式，最常見的是源語言句段內(nèi)一個句子與目標語言句段內(nèi)的一個句子對應[6]，此外還包含如下幾種狀況：源語言中一個句子與目標語言內(nèi)兩個或若干個句子對應；源語言中兩個或若干個句子與目標語言中一個句子對應；源語言中兩個或若干個句子與目標語言中兩個或若干個句子相對。在特殊情況下，翻譯與原文存在較大差距，省略不譯狀況時有發(fā)生，同時為了讓目標語言更便于理解，增添解釋性語言。此時會產(chǎn)生某種語言文本的句子與其它語言沒有句子相互對應的現(xiàn)象。本文使用召回率與精確率，按照特有參照對句子對齊算法性能實施評估。

若一段對齊的雙語句段是〈S，T，Ar〉，Ar為參考對齊，針對隨機一個和Ar相同級別的對齊A，A內(nèi)準確的雙語句段數(shù)和Ar全部雙語句段數(shù)的比率就是A對應于Ar的對齊召回率，計算過程為

Recall(A，Ar)=|A∩Ar|/|Ar|

(1)

從上式可知，對齊召回率是在對齊內(nèi)準確的雙語句段數(shù)和全部準確雙語句段數(shù)的比值，證明A內(nèi)獲得正確對齊句段的個數(shù)越多。

如果一段對齊的雙語句段為〈S，T，Ar〉，Ar為參考對齊，關于隨機一個和AR擁有相等對齊長度的對齊A，A內(nèi)準確的雙語句段和A內(nèi)全部雙語句段的比率為對齊精確率，即

Precision(A，Ar)=|A∩Ar|/|A|

(2)

在真實運用中，通常采用F評估法當作權衡對齊性能的指標，該方法是對齊精確率與召回率的調(diào)和均值。

傳統(tǒng)對齊方法依靠句段內(nèi)的單詞個數(shù)，沒有考慮單詞自身形態(tài)與含義。在此前提下，創(chuàng)設一個概率模型，同時挑選最大概率路徑當作對齊輸出，該模型的參數(shù)涵蓋句段類別概率與長度相對概率[7]。

使用基于長度的句子對齊方法，其核心思想是句子長度越相近，則變成對譯句段的概率越大。

3 句段相似度分析

按照源語言文本，從大范圍多源信息平行語料庫內(nèi)找到最為接近的翻譯范例，確保譯員準確高效地完成翻譯工作，這就是句段相似度計算的根本任務[8]?，F(xiàn)階段對于相似度暫無一個確切定義，在不同實際應用中，相似度內(nèi)涵各不相等。本文依照如下內(nèi)容進行相似度類型區(qū)分：A和B間的相似度與它們的共性及區(qū)別有關，共性數(shù)量越多，相似度越高；區(qū)別越多，相似度越小。文中的相似度代表兩個句段字符重復水準，按照句段相似水平將去重句段劃分為以下幾種：句段全部重復、句段內(nèi)涵重復、句型轉(zhuǎn)換和少部分同義詞變換。

將句段描述為單詞集合

π(S)={W1，W2，…，Wn}

(3)

式中，S代表句段，Wi是句段內(nèi)的單詞。

句段S1與句段S2之間的表層相似度為

Sim(S1，S2)=2*Γ(π(S1)Iπ(S2))

/(Len(S1)+Len(S2))

(4)

式中，I代表集合的求交運算，Γ是集合的因子數(shù)量，Len是句段長度，也就是句段內(nèi)包含的單詞個數(shù)。

兩個句段表層相似度越高，輸入的待翻譯句段和翻譯實例相同的單詞越多，保障了平行語料庫譯文的高質(zhì)量。

句段中詞匯信息熵值越高，表明該詞匯在語料庫內(nèi)出現(xiàn)的頻率越小，對分辨句段相似度的作用越好，計算流程為

H(w)=lg(M/m)

(5)

式中，w為詞匯，M是平行語料庫內(nèi)的句段總數(shù)，m是出現(xiàn)詞匯w的句段數(shù)量。

相似度臨界值可以更好地約束句子相似度運算精度，將臨界值設定在0.6～0.7之間。句段S1與句段S2的信息熵相似度臨界值計算過程為

SimH=∑H(wi)

(6)

實施待選實例搜索過程中，在多源信息下的平行語料庫內(nèi)挑選一定數(shù)量的句段，再使用式(6)的信息熵相似度臨界值計算過程，從句段中選出某些句子。

值得注意的是，本文方法無法在全部平行語料庫內(nèi)直接使用式(6)擇取待選實例。原因在于，假如在全部平行語料庫中直接使用信息熵相似度臨界值篩查待選模式，就會給某種特殊用詞過多比重，致使篩選出的翻譯句段和預期翻譯結(jié)果相差較多[9]，降低了譯文整體翻譯質(zhì)量。

使用基于泛化的匹配度計算，在泛化前提下算出待選實例和輸入的待翻譯句段之間的模糊匹配度。按照待翻譯的輸入句子對翻譯實例的有關語法單位實施泛化，構(gòu)成擁有相對復雜特征的參變量，憑借泛化實例類比推導組建輸入句段的譯文。

類比推理是一個變量屬性收斂匹配的過程，譯文結(jié)構(gòu)利用對泛化實例采取替換、拷貝、刪除等動作來實現(xiàn)。實施泛化匹配過程中，要考慮詞形、詞類、詞的同義、反義和涵蓋的語境信息[10]。

詞語泛化匹配度代表輸入句段內(nèi)的某個詞語和翻譯實例內(nèi)的某個詞語能夠互相替換的幾率，與詞匯相似度具有密切關聯(lián)。將詞語泛化匹配度的計算方程描述為

LGMD(w1，w2)=f(SimLex，SimPos，SimCon)

(7)

式中，α、β、γ為三個系數(shù)，代表不同狀況下的可信度權值，SimLex為詞匯相似度，SimPos為詞性相似度，SimCon是語境相似度。SimLex的運算過程如下

SimLex(w1，w2)

(8)

式中，dis_sem(w1，w2)代表詞匯w1、w2之間的語義距離，α為權值系數(shù)。語義距離的運算使用基于HowNet方法，該方法提供的義原分類樹，用樹的模式呈現(xiàn)出每個義原及其關聯(lián)，樹內(nèi)父節(jié)點與子節(jié)點的義原擁有上下位關聯(lián)[11]，采用義原分類樹推算兩個詞語間的語義距離。

SimPos推導公式為

(9)

其中，Pos(w)為詞匯w處于句段中的詞類標注屬性。

SimCon推導公式為：

(10)

式中，ω是權值系數(shù)，dis_con(w1，w2)是單詞w1、w2的上下文偏移間距。

句子泛化匹配度是翻譯實例以范例形式，對輸入句段實施類比翻譯的可靠度，計算過程為：

(11)

式中，分母內(nèi)的Len(s1)、Len(s2)依次代表輸入句段與翻譯實例的句段長度。

最終句段相似度計算公式為：

similarity(s1，s2)=a·SGMD(s1，s2)

+β·Sims(s1，s2)+γ·SimH

(12)

通過以上過程，就能從平行語料庫中找出最相近的翻譯句子，提升后續(xù)相似句段去重效果。

4 基于TF-IDF技術的平行語料庫相似句段去重算法

傳統(tǒng)相似句段去重將文檔分詞識別獲得的關鍵詞當作特征值，權重是關鍵詞出現(xiàn)的數(shù)量。詞性與詞長是權衡單詞權重的主要元素，全方位呈現(xiàn)句段具體內(nèi)容，提升相似句段去重精確率。權重只取決于單詞出現(xiàn)的次數(shù)，句段內(nèi)的某些核心內(nèi)容會發(fā)生損壞，大幅減少了去重精度。為處理這一難題，本文運用TF-IDF技術與單詞主題相關性推算關鍵詞權重，剔除權重值較高的句段，實現(xiàn)準確高效的平行語料庫句段去重目標。

TF-IDF技術主要計算關鍵詞在句段內(nèi)的重要程度，TF是關鍵詞在句段內(nèi)出現(xiàn)的頻度，將關鍵詞ti的TF描述成

(13)

逆向文本頻率IDF，代表關鍵詞所在句段處于句段集合中的比例，記作

(14)

式中，|D|是ti句段集合內(nèi)的句段總數(shù)，|{j:ti∈dj}|為包含關鍵詞的句段個數(shù)，并保證是ni，j不等于零的句段。

關鍵詞i在句段j中的TF-IDF定義是

tf-idfi，j=tfi，j×idfi

(15)

TF-IDF技術的有限性在于，句段出現(xiàn)次數(shù)越高，重要程度就越低，這對于某些句段而言擁有一定偏差，某類關鍵詞匯在句段中出現(xiàn)的次數(shù)也很多，要賦予此類詞匯更多的權重。

本文使用單詞主體相關性當作附加權重，把專業(yè)術語單詞長度設定為辨別單詞主體相關性的憑據(jù)。選擇平行語料庫內(nèi)的關鍵詞為數(shù)據(jù)集合[12]，計算數(shù)據(jù)集合內(nèi)20000個中文術語長度，同時實施正態(tài)擬合，其結(jié)果如圖1所示。

圖1 中文譯文長度擬合示意圖

圖1內(nèi)的擬合正態(tài)分布函數(shù)是

(16)

將擬合后獲得的擬合函數(shù)確定系數(shù)書寫成Rsquare，該系數(shù)越趨近于1，證明擬合函數(shù)對真實數(shù)據(jù)的詮釋性能越強。

單詞長度約接近5，伴隨函數(shù)值的升高，單詞主題相關性也隨之上升。

運用單詞主題相關性函數(shù)當作附加權重，能提升TF-IDF技術對權重計算的準確性。最后得到關鍵詞e的權重計算方程為

w(e)=tfe，j×idfe×(1+len(x))

(17)

以下為相似句段去重的具體步驟：在待檢測的文本內(nèi)選擇一個句段Si和目前已知的句段集合S，將Si與集合內(nèi)的句段按一定順序分別計算其權重，假如某個句段Sj和Si的權重超出設定的臨界值，那么Si就無法作為一個全新的句段放入S中，反之將其添加至S中。

5 實驗分析

為證明所提方法去重成效，對該算法與文獻[4]、文獻[5]方法進行實驗分析，開發(fā)語言為Java。圖2是三種方法在相同狀況下對同一文本集句段進行去重的運算時間。

圖2 不同方法下的去重運算時間

從圖2中可知，在句段數(shù)據(jù)量較小時，三種方法均耗費很少的運算時間，去重時間近乎相等。但在實驗數(shù)據(jù)量逐步上升后，所有方法的時間呈現(xiàn)指數(shù)形式增長，文獻[5]方法所耗時間最長，其次為文獻[4]方法，所提方法耗費的運行時間最短。出現(xiàn)此種現(xiàn)象的原因是，本文方法充分考慮了句段相似度在不同情況下的重復模式，可使用在任何長度的語句比對中，增強了算法去重識別速率。

利用去重召回率與精確率權衡算法的實用性，把去重的關鍵放在短句與長句比率在0.3～0.9之間的句子。通過多次實驗，設定的平衡參數(shù)λ1與λ2如表1所示，相似度臨界值為0.6。

表1 平衡參數(shù)設定

實驗第一組數(shù)據(jù)為自主研發(fā)的樣本150個句段，第二、三、四組數(shù)據(jù)從互聯(lián)網(wǎng)中得到，分別為750、630、480個句段，實驗結(jié)果如表2所示。

表2 算法召回率和精確率實驗結(jié)果

從表2中可以看到，本文方法召回率與精確率均為最高的，另外三組數(shù)據(jù)均存在一定的誤判現(xiàn)象。在實際操作中，在相關度分析時制作一個分析報表，報表內(nèi)記載被系統(tǒng)認為相似的句段編碼與內(nèi)容，再利用人工判別是否相似，去除誤判結(jié)果。

使用自主研發(fā)樣本數(shù)據(jù)，通過更改臨界值大小，觀測臨界值對本文方法召回率與精確率的影響，如圖3所示。

圖3 臨界值對本文方法去重效果的影響

從圖3看出，閾值在0.6～0.7之間時，召回率與精確率實現(xiàn)很好的均衡，這與上文設定結(jié)果相同，以此也證明了本文方法的可靠性。

6 結(jié)論

為提升語言服務企業(yè)翻譯工作時效性，提出一種基于TF-IDF技術的平行語料庫相似句段去重算法。該算法對整體重復與特別相近的句段擁有極強的去重效果，但該方法研究語義相似性的內(nèi)容較少，后續(xù)會對此點進行改進，深入提升算法去重的完整性。