劉 洋, 畢玉德, 李 健
(解放軍外國語學院 a.語言工程系; b.基礎部計算機與網(wǎng)絡教研室, 河南洛陽 471003)
基于句法知識的復句解構對韓漢復句機器翻譯改進芻議
劉 洋a, 畢玉德a, 李 健b
(解放軍外國語學院 a.語言工程系; b.基礎部計算機與網(wǎng)絡教研室, 河南洛陽 471003)
為解決韓國語復句中,機器翻譯的邏輯語義處理問題,提出了一種基于連接詞尾的“復句解構思想”,其用在機器翻譯之前,可對復句進行“解構化”處理,從而提高韓國語復句機器翻譯質量.經(jīng)過實驗表明,基于連接詞尾的單重連接復句解構可以有效提高復句的翻譯效果.
韓國語;復句;連接詞尾;解構化
基于規(guī)則、 統(tǒng)計或者綜合策略的機器翻譯系統(tǒng)的構建過程十分復雜. 從以往的研究成果來看, 多種模型和特征的結合, 尤其是句法結構信息和語義信息的利用, 已經(jīng)成為改進和提高翻譯系統(tǒng)性能的有效途徑.
韓國語是黏著語, 依靠復雜的詞尾和助詞實現(xiàn)語法功能. 其中, 連接詞尾不但可以在句法功能上銜接單句組成連接復句, 具有句法功能, 還可以顯示單句間邏輯語義關系, 本身帶有語義, 因此可以看作連接復句中句法信息和語義信息的結合. 所以, 筆者嘗試通過分析韓國語連接復句的特點, 進而探索通過連接詞尾對韓國語連接復句進行解構處理, 以期對提高韓國語復句翻譯質量起到積極作用.
1.1 連接詞尾和連接復句
(1) 連接詞尾
韓國語連接復句的慣用分類方法是基于連接詞尾的分類. 但并不是所有的連接詞尾都可以看作復句關系標記[2]. 韓國語連接詞尾按功能可分為對等性、從屬性和輔助性三類.其中, 對等性和從屬性連接詞尾均可連接分句構成復句, 而輔助性連接詞尾(共4個)一般和補助謂詞連用, 構成語法連語, 但不構成復句. 補助連接詞尾不能看作復句關系標記的情況, 我們已經(jīng)在前期的工作中予以排除, 在此擬不贅述. 所以, 本文中所指的連接詞尾等同于連接復句關系標記.
(2) 連接復句
討論連接詞尾對韓國語連接復句翻譯效果的改進, 首先需要明確連接復句概念, 所以需要審視連接復句的結構特點, 其主要包括兩個方面:
首先是句子概念. 基于不同的標準和視角, 句子可做不同分類. 例如:從語氣情態(tài)角度, 句子可分為陳述、 命令、 疑問、 共動; 從包含主謂關系的數(shù)量出發(fā), 可分為簡單句和復句. 其中, 復句又可根據(jù)主謂結構之間是否存在包孕關系分為連接復句和包孕句. 本文的研究對象就是復句體系內的連接復句(復句體系劃分尚存在爭議, 涉及到連接復句的主要是下位語義類型及狀語從句, 對結構分析影響不大. 本文的連接復句界定采用韓國國立國語院的教學體系分類方法).
(a)構成上的表現(xiàn), 指出所謂“復”即分句的復合.
(b)復句句末有終止性停頓.
(c)復句的構成單位之間從構成基礎看是小句, 從構成結果看是分句.
也就是說, 一個復句一旦成立, 那么復句內的各個分句就具有相對獨立和相互依存的特征. 其中的“相對獨立”就是指“每個分句都有‘句’的性質和地位, 但分句互相不充當成分”.
(3)連接復句的數(shù)學表示
結合上文連接復句的結構特點, 我們可以把所有的分句看作一個集合, 連接詞尾看作一個集合. 這樣一來, 所有單重連接復句均可以表征為集合S, 集合內元素由小句集合C和連接詞尾集合J內的元素組成. 也就是說, 任意一個復句, 都可以通過從小句集合和連接詞尾集合中抽取元素來表示. 這種表征系統(tǒng)的三個概念及其所含元素如下:
復句:S={S1, S2, …Sn}; 分句:C={C1, C2, …Cm}; 連接詞尾:J={J1, J2, …J139}
對于任意一個韓國語復句, 其數(shù)學表達式可寫為:S=Ci+Jm+Cu. 其中, Jm的邏輯語義決定了分句Ci、 Cu之間的邏輯語義關系. 試看下例.
結合以上分析可知, 韓國語連接復句在結構上獨立, 語義上關聯(lián), 這種特點決定了韓國語復句的機器翻譯改進可以從下述角度著眼考慮:
二是分層處理, 化繁為簡. 分層則是通過降低句子復雜度, “化繁為簡, 分而治之”. 也就是將復句分解為相對應的分句, 分別處理.
1.2 相關研究及理論基礎
根據(jù)目前掌握的資料, 國內關于韓國語復句的研究多立足于傳統(tǒng)語法, 且側重中韓對比和語言教學, 代表性的有劉沛霖、 張光軍等專家的研究. 韓國語是小語種, 受限于技術和資源, 自然語言處理領域的研究發(fā)展相對滯后, 目前國內可見的應用性研究成果相對較少, 幾乎無法找到基于連接詞尾的復句分解專題研究.
基于連接詞尾的復句解構體現(xiàn)出分類和分層的研究思路, 以往研究成果中對本文有啟發(fā)的主要有漢語、 韓語和日語學界的研究.
分類研究中, 田中康仁[8]提到在日英機器翻譯中將句子分類的思想, 他認為可以把句子分為簡單句、 復句、 重句. 除此之外, 還可以將句子分為陳述、 疑問、 命令、 共動句. 雖然這些研究或多或少論及復句或者長句的自然語言處理, 但均未形成體系, 也未體現(xiàn)出區(qū)分單句和復句, 以及根據(jù)復句層級數(shù)量分別處理的思想.
對句子進行分層切分處理的思想較早見于標點符號的處理. C.Meyer(1987)最早把標點符號用于信息處理的研究, 他根據(jù)語料庫把標點符號進行分類并介紹各自功能. G.Nunberg(1990)和B.jones(1994,1996,1997)通過大量理論和實驗數(shù)據(jù)證明了將標點符號信息融入句法分析的有效性. 其將標點符號看作句子結構的形態(tài)標記, 并運用到句法分析中, 體現(xiàn)了長句分層處理的思想. 李幸[10]研究了漢語標點符號在句子中的作用和使用規(guī)律, 提出了針對漢語長句句法分析的分層處理方法.
范莉馨等[11]認為應該利用淺層變換知識, 提出了根據(jù)句子結構特征來進行日中翻譯的手法, 由此而建立了一個中日機器翻譯實驗系統(tǒng), 并通過部分實驗驗證了這一手法的有效性. 由于日語和韓語同屬黏著語, 語言特點具有相似性, 范莉馨的研究對我們設計韓國語句子結構解構程序有一定借鑒作用.
為了量化噴施過程中的霧滴飄移情況,將輔助氣流出口下風向5m處的位置定義為飄失邊界,霧滴運動至到噴頭下方0.5m以下認為其沉積到標靶或地面上(如圖1所示);把通過該邊界的霧滴質量設定為飄移量,飄移量與噴施的藥液量的比值定義為飄移率。最終,把霧滴飄移率作為霧滴飄移的評價指標,具體公式為
2.1 連接復句的翻譯效果及分析
1) 語料說明
2) 翻譯結果
2.2 基于連接詞尾的解構思路
基于上述兩個事實, 結合韓國語連接復句的結構特點, 即單重連接復句由連接詞尾和小句組成, 如果將連接詞尾拆解成終結詞尾和副詞, 并把韓國語復句轉換成對應的單句組合, 翻譯后按照邏輯關系進行重組, 則可能會對改進翻譯效果起到幫助作用.
2.3 基于個案的實現(xiàn)
根據(jù)上文分析, 我們對例句S進行了拆解處理. 將這一復句按照連接詞尾相對應的終結詞尾和副詞的搭配拆分成兩個單句. 即將S拆解為S1和S2.
↓
之后對拆分后的兩個單句進行了機器翻譯, 得出的翻譯結果如表3所示.
通過上例可以看到, 三個翻譯平臺對拆分后的單句翻譯效果相對于復句翻譯效果有一定提升. 除個別詞匯多義問題未得到較好處理外, 三個翻譯平臺均正確處理了復句結構.
3.1 實驗檢測
翻譯后進行人工判別得出表4~表6和圖2.
為盡可能控制變量, 降低其他語法素對翻譯效果的影響, 我們所選的例句均為簡單的復句. 通過實驗, 我們可以得出以下幾個實驗結果:
(1)句子結構解構化對簡單結構復句的機器翻譯效果提升有明顯改進作用, 對必應翻譯質量改進優(yōu)于有道和Naver.
(2)復句中助詞的使用會降低解構效果, 從而影響解構后翻譯準確度.
這里需要指出的是, 翻譯質量判斷標準和參數(shù)具有不可避免的主觀性, 在后續(xù)研究中將通過增大實驗樣本, 采取多方評判的方式對此進行改善.
3.2 句子邏輯語義結構解構器編程思路
目前, 對韓國語復句和簡單句的判別抽取程序編寫已經(jīng)完成, 具體的句子結構解構程序編寫還需要進一步研究結果作為支撐. 其基本實現(xiàn)流程如下:
(1)對句子進行預判斷處理, 如果為單句, 直接輸入翻譯器進行翻譯; 如果為復句, 判斷復句層級結構;
(2)提取連接詞尾, 將連接詞尾重設為終結詞尾加連接詞尾形式. 即, 將復句轉換成兩個單句, 提前抽取出單句間通過連接詞尾表達的邏輯語義關系, 分置于單句前.;
(3)將兩個翻譯后的中文單句合并為復句.
本文主要觀點有:(1)認為可以在進行翻譯處理前, 對韓國語句子進行結構判別, 從而對單句和復句進行分別處理; (2)在對復句進行處理時, 可以將復句的結構標記, 即將連接詞尾轉換為相對應的終結詞尾和接續(xù)副詞, 然后進行復句的翻譯和整合. 實驗表明, 這種方法可以在一定程度上提高常見翻譯軟件對韓國語復句的翻譯質量, 尤其是對必應在線翻譯和有道在線翻譯的改進效果明顯.
[3] 刑福義.漢語復句研究[M].北京:商務印書館, 2001,25-31.
[8] 田中康仁.關于機器翻譯系統(tǒng)未來的方向[A]; 自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C], 2001.
[9] 宗成慶, 統(tǒng)計自然語言理解[M]. 北京:清華大學出版社, 2006.165-166.
[10] 李幸, 宗成慶.引入標點處理的層次化漢語長句句法分析方法[J].中文信息學報, 2006(4):8-15.
[11] 范莉馨, 任福繼, 宮永喜一, 等.一個利用句子結構特征實現(xiàn)的中日機器翻譯系統(tǒng)[A]. 中國科學技術協(xié)會首屆青年學術年會論文集:工科分冊·上冊[C], 1992.
[責任編輯 徐 剛]
Improvement of Korean-Chinese Machine Translation Based on Complex Sentence Deconstruction
LIU Yang1, BI Yu-de1, LI Jian2
(1. Department of Language Engineering, PLAUFL, Luoyang 471003, China; 2. General Courses Division, PLAUFL, Luoyang 471003, China)
Popular Korean-Chinese machine translation (MT) platform can’t deal with complex sentence as well as simple sentence. The reason is believed to be the procession of connecting suffix. With this consideration, “Korean complex sentence de-construction method” based on connecting suffix is proposed, which shall be used before machine translation to improve the translation quality. Experiments show that MT based on the “Korean complex sentence deconstruction method” can achieve obvious improvements, which verify the feasibility of the method.
Korean; complex sentence; connecting suffix; deconstruction
2016-12-06
國家社會科學基金項目(16BYY157)
劉洋(1989─), 男, 博士. 研究方向: 韓國語自然語言處理, 機器翻譯.
畢玉德(1967─), 男, 博士, 教授. 研究方向: 韓國語句法語義學, 計算語言學.
TP391.2
A
1009-4970(2017)02-0049-06