林燕芬 楊 柳
?
漢語選擇復句的計算機自動改寫方法研究
林燕芬1楊柳2
1.哈爾濱商業(yè)大學計算機與信息工程學院;2.黑龍江旅游職業(yè)技術學院
行業(yè)曲線
本文針對漢語選擇復句的語法結構特點,提出漢語選擇復句的計算機自動改寫的觀點。在自然語言處理行業(yè)起到一定的參考作用
在對漢語復句分類的基礎上,提出了基于模板的選擇復句的改寫方法。通過對選擇復句進行分類及語法結構的形式化、數(shù)學描述,從而抽取了選擇復句的改寫模板。由預備實驗確定了改寫語句與改寫模板之間的相似度閾值。最后利用小規(guī)模的語料進行了選擇語句的自動改寫實驗,實驗結果的正確率61.0%和模板覆蓋率45.5%均表明了方法的有效性。
語言是人們日常溝通的工具,不同的人表述方式不同。對于長句來說,其表述方式更加靈活,如果將復句進行改寫,使其表達形式簡單化則會提高計算機處理漢語的效率。語句改寫作為漢語處理的技術其應用非常廣泛,如機器翻譯、自動文摘等。比較簡單句而言復句的改寫更加復雜,也更有研究價值。
圖1 模板抽出過程
本文參考相關語言文獻將選擇復句劃分為“是……還是”、“或者……或者”、“不是……就是”、“與其……不如”、“寧可……也不”、“要么……要么” 等六種類。選取“是……還是”、“要么……要么”、“與其……不如”、“寧可……也不”這四類進行改寫研究?!安皇荴就是Y”是表示“非此即彼”選擇的關聯(lián)組合,在現(xiàn)代漢語中使用頻率非常高。
選擇復句按照選擇情況又分為兩類,已定選擇和未定選擇。其中“與其……不如”、“寧可……也不”為已定選擇,選擇具有確定性?!笆恰€是”、“要么……要么”為未定選擇,選擇具有不確定性。以下通過抽象化、形式化、算法化的過程對已定選擇和未定選擇句進行改寫方法研究。
改寫模板抽出
表1為選擇復句互為改寫的例子。對漢語句對進行詞法分析得到句子的形式化表示,通過抽象化獲得句子的語法框架結構,比較表達意思相同而表達形式不同的改寫句對的結構從而抽出改寫模板。模板抽出過程如圖1所示。
表1 選擇復句
將詞法分析后的互為改寫的選擇復句進行比較,進行抽象化和形式化。關鍵詞保留,其他詞看成變量,對兩種選擇復句的結構形式化結果如表2所示。
表2 選擇復句的形式化
表1和表2是對應關系,形式化表示中的關鍵詞之間用空格隔開。
對于改寫方法,根據(jù)未定選擇和已定選擇復句的特點,可以歸納出未定選擇復句前后單句之間無明顯的聯(lián)系,已定選擇復句前后單句之間大部分是相反關系。因此在進行改寫的過程中,可以把未定選擇復句的不確定意義的關鍵詞互相替換,而對于已定選擇復句可將確定性的關聯(lián)詞刪除。
對表1所示類似的互為改寫的句子進行形式化得到其抽象表示后,比較互為改寫的句對的抽象表示獲得改寫模板,表3給出了幾個互為改寫的選擇復句的改寫模板的例子及對應的改寫句。
表3中1-1與1-2互為改寫、2-1與2-2互為改寫、3-1與3-2與3-3互為改寫模板。從表3可以看出,一個語句可能改寫為幾種不同的形式,即多個改寫模板互為改寫。
表3 選擇復句的改寫模板及改寫句
改寫處理過程
給定待改寫句,通過查找其相應的改寫模板對其進行改寫。在查找合適模板時要計算待改寫句與模板的相似度。由預備實驗確定改寫語句與改寫模板之間的相似度閾值。句子相似度計算的具體算法參考文獻通過改進得到,如式(1)所示:
式(1)其中,vk、vl表示公共值向量中第k、l項的值,0<k≤p,0<l≤p;vi、vj表示句子Ti、模板Tj的關鍵詞權重值向量Tvi、Tvj中第i項、第j項的值,1≤i≤n1,1≤j≤n2;Tq為Ti、Tj中長度較短的句子或者模板,Len (Tq)為Ti、Tj中長度較短的句子或模板的長度,公共值向量Evi,j的長度為p。
實驗數(shù)據(jù)
實驗數(shù)據(jù)是收集的四種類的選擇復句各50句,總共200句選擇復句。詞法分析后的結果作為改寫實驗的輸入。由改寫系統(tǒng)自動進行改寫處理。
改寫結果及分析
對實驗結果正確與否采取人工評價的方式,由公式(2)和(3)計算改寫正確率PRate和模板覆蓋率TRate。
式(2)(3)中,句子總數(shù)Psum,改寫正確的句子數(shù)Rres,模板的總數(shù)Tsum。
最終得到改寫正確率為61%,模板覆蓋率為45.5%。
改寫結果中122句改寫正確,有22句未被改寫,78句改寫錯誤。
其原因是多方面的,首先因為句子過長,造成句子成分過多導致相似度計算未達到改寫閾值;其次因為模板和句子不匹配,未找到選擇復句適合的模板。而改寫錯誤的原因有三點:第一是因為標點符號錯誤,模板抽出時造成;第二是句子結構出錯,原因是模板具有一定的覆蓋率,不可能覆蓋到所有的句子;第三是關聯(lián)詞搭配出錯,原因是改寫模板的關聯(lián)詞不能匹配所有的句子。
對于以上出現(xiàn)的錯誤,采取相對應的解決措施可能會得到解決,如改寫程序,添加冗錯措施解決空格間隔符的問題;改寫部分模板,使更多的句子與其匹配等。
通過對選擇復句中的已定選擇和未定選擇的兩種復句的詞法分析,將選擇復句進行形式化。由同一語義而表達形式不同的句子的相互比較獲得互為改寫的模板對。通過小規(guī)模的語料進行了選擇復句的改寫實驗。實驗結果表明了方法的可行性。在以后的研究中,將通過增加語料規(guī)模尋找其深層次的內在規(guī)律性以提高復句改寫的正確率。
DOI:10.3969/j.issn.1001- 8972.2016.13.028