• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢語選擇復句的計算機自動改寫方法研究

      2016-08-01 03:07:08林燕芬
      中國科技信息 2016年13期
      關鍵詞:詞法復句語料

      林燕芬 楊 柳

      ?

      漢語選擇復句的計算機自動改寫方法研究

      林燕芬1楊柳2

      1.哈爾濱商業(yè)大學計算機與信息工程學院;2.黑龍江旅游職業(yè)技術學院

      行業(yè)曲線

      本文針對漢語選擇復句的語法結構特點,提出漢語選擇復句的計算機自動改寫的觀點。在自然語言處理行業(yè)起到一定的參考作用

      在對漢語復句分類的基礎上,提出了基于模板的選擇復句的改寫方法。通過對選擇復句進行分類及語法結構的形式化、數(shù)學描述,從而抽取了選擇復句的改寫模板。由預備實驗確定了改寫語句與改寫模板之間的相似度閾值。最后利用小規(guī)模的語料進行了選擇語句的自動改寫實驗,實驗結果的正確率61.0%和模板覆蓋率45.5%均表明了方法的有效性。

      語言是人們日常溝通的工具,不同的人表述方式不同。對于長句來說,其表述方式更加靈活,如果將復句進行改寫,使其表達形式簡單化則會提高計算機處理漢語的效率。語句改寫作為漢語處理的技術其應用非常廣泛,如機器翻譯、自動文摘等。比較簡單句而言復句的改寫更加復雜,也更有研究價值。

      選擇復句理論分析

      圖1 模板抽出過程

      本文參考相關語言文獻將選擇復句劃分為“是……還是”、“或者……或者”、“不是……就是”、“與其……不如”、“寧可……也不”、“要么……要么” 等六種類。選取“是……還是”、“要么……要么”、“與其……不如”、“寧可……也不”這四類進行改寫研究?!安皇荴就是Y”是表示“非此即彼”選擇的關聯(lián)組合,在現(xiàn)代漢語中使用頻率非常高。

      選擇復句按照選擇情況又分為兩類,已定選擇和未定選擇。其中“與其……不如”、“寧可……也不”為已定選擇,選擇具有確定性?!笆恰€是”、“要么……要么”為未定選擇,選擇具有不確定性。以下通過抽象化、形式化、算法化的過程對已定選擇和未定選擇句進行改寫方法研究。

      復句改寫策略

      改寫模板抽出

      表1為選擇復句互為改寫的例子。對漢語句對進行詞法分析得到句子的形式化表示,通過抽象化獲得句子的語法框架結構,比較表達意思相同而表達形式不同的改寫句對的結構從而抽出改寫模板。模板抽出過程如圖1所示。

      表1 選擇復句

      將詞法分析后的互為改寫的選擇復句進行比較,進行抽象化和形式化。關鍵詞保留,其他詞看成變量,對兩種選擇復句的結構形式化結果如表2所示。

      表2 選擇復句的形式化

      表1和表2是對應關系,形式化表示中的關鍵詞之間用空格隔開。

      對于改寫方法,根據(jù)未定選擇和已定選擇復句的特點,可以歸納出未定選擇復句前后單句之間無明顯的聯(lián)系,已定選擇復句前后單句之間大部分是相反關系。因此在進行改寫的過程中,可以把未定選擇復句的不確定意義的關鍵詞互相替換,而對于已定選擇復句可將確定性的關聯(lián)詞刪除。

      對表1所示類似的互為改寫的句子進行形式化得到其抽象表示后,比較互為改寫的句對的抽象表示獲得改寫模板,表3給出了幾個互為改寫的選擇復句的改寫模板的例子及對應的改寫句。

      表3中1-1與1-2互為改寫、2-1與2-2互為改寫、3-1與3-2與3-3互為改寫模板。從表3可以看出,一個語句可能改寫為幾種不同的形式,即多個改寫模板互為改寫。

      表3 選擇復句的改寫模板及改寫句

      改寫處理過程

      給定待改寫句,通過查找其相應的改寫模板對其進行改寫。在查找合適模板時要計算待改寫句與模板的相似度。由預備實驗確定改寫語句與改寫模板之間的相似度閾值。句子相似度計算的具體算法參考文獻通過改進得到,如式(1)所示:

      式(1)其中,vk、vl表示公共值向量中第k、l項的值,0<k≤p,0<l≤p;vi、vj表示句子Ti、模板Tj的關鍵詞權重值向量Tvi、Tvj中第i項、第j項的值,1≤i≤n1,1≤j≤n2;Tq為Ti、Tj中長度較短的句子或者模板,Len (Tq)為Ti、Tj中長度較短的句子或模板的長度,公共值向量Evi,j的長度為p。

      選擇復句的改寫實驗

      實驗數(shù)據(jù)

      實驗數(shù)據(jù)是收集的四種類的選擇復句各50句,總共200句選擇復句。詞法分析后的結果作為改寫實驗的輸入。由改寫系統(tǒng)自動進行改寫處理。

      改寫結果及分析

      對實驗結果正確與否采取人工評價的方式,由公式(2)和(3)計算改寫正確率PRate和模板覆蓋率TRate。

      式(2)(3)中,句子總數(shù)Psum,改寫正確的句子數(shù)Rres,模板的總數(shù)Tsum。

      最終得到改寫正確率為61%,模板覆蓋率為45.5%。

      改寫結果中122句改寫正確,有22句未被改寫,78句改寫錯誤。

      其原因是多方面的,首先因為句子過長,造成句子成分過多導致相似度計算未達到改寫閾值;其次因為模板和句子不匹配,未找到選擇復句適合的模板。而改寫錯誤的原因有三點:第一是因為標點符號錯誤,模板抽出時造成;第二是句子結構出錯,原因是模板具有一定的覆蓋率,不可能覆蓋到所有的句子;第三是關聯(lián)詞搭配出錯,原因是改寫模板的關聯(lián)詞不能匹配所有的句子。

      對于以上出現(xiàn)的錯誤,采取相對應的解決措施可能會得到解決,如改寫程序,添加冗錯措施解決空格間隔符的問題;改寫部分模板,使更多的句子與其匹配等。

      總結

      通過對選擇復句中的已定選擇和未定選擇的兩種復句的詞法分析,將選擇復句進行形式化。由同一語義而表達形式不同的句子的相互比較獲得互為改寫的模板對。通過小規(guī)模的語料進行了選擇復句的改寫實驗。實驗結果表明了方法的可行性。在以后的研究中,將通過增加語料規(guī)模尋找其深層次的內在規(guī)律性以提高復句改寫的正確率。

      DOI:10.3969/j.issn.1001- 8972.2016.13.028

      猜你喜歡
      詞法復句語料
      詞法 名詞、代詞和冠詞
      連動結構“VP1來VP2”的復句化及新興小句連接詞“來”的形成
      漢語復句學說的源流
      韓國語復句結構的二分說
      東疆學刊(2021年4期)2021-02-12 01:51:18
      應用于詞法分析器的算法分析優(yōu)化
      談對外漢語“詞法詞”教學
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      復句內部不應當用句號
      滁州市| 广德县| 两当县| 石渠县| 芒康县| 高雄市| 兴城市| 卢湾区| 驻马店市| 仁布县| 华池县| 托克托县| 唐海县| 镶黄旗| 东兴市| 高安市| 巢湖市| 镇巴县| 楚雄市| 栾川县| 通山县| 大厂| 陆川县| 宁武县| 贵州省| 互助| 阳新县| 湟源县| 武宣县| 泸溪县| 长阳| 景德镇市| 那曲县| 罗城| 泽州县| 道孚县| 丰镇市| 太和县| 鞍山市| 禄丰县| 于田县|