郭蕾
關鍵詞: 自然語言處理; 英語翻譯; 智能評分系統(tǒng); 資料庫; 特征提取; BP網(wǎng)絡
中圖分類號: TN912.34?34; G633 ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)04?0158?03
Design of intelligent computer scoring system based on natural language
processing for English translation
GUO Lei
(Yangtze University, Jingzhou 434023, China)
Abstract: Since the current scoring system has the disadvantages of long running time, and large deviation between scoring results and manual scoring results, an intelligent computer scoring system based on natural language processing is designed for English translation, so as to reduce the workload of manual scoring and improve the scoring efficiency. The structure layers of the English translation scoring system is constructed, including the translation data collection module, information feature extraction module, analysis model construction module and result feedback scoring module. The language model of the English translation scoring system is established. The probability distribution for the specific sentence or word sequence of the translation is summarized by using the model. The information features of users′ English translation documents and translation training sets are extracted. The similarities between feature keywords are calculated according to the extracted feature results. The fitting calculation is conducted by using the particle swarm optimized BP network, so as to realize intelligent scoring for English translation. The experimental results show that the minimum difference between the score of the designed intelligent scoring system and the manual score is only 0.1, and in comparison with the existing scoring system, the designed intelligent scoring system has a much higher score accuracy, less running time of scoring, and more stable operation.
Keywords: natural language processing; English translation; intelligent scoring system; database; feature extraction; BP network
隨著國際經(jīng)濟形勢的發(fā)展與國際貿(mào)易的拓展,英語這一國際通用語言的學習也受到了越來越多的重視[1?2]。英語學習中,翻譯練習是必不可少的部分,英語翻譯的評分已逐步從全人工評分,逐漸轉(zhuǎn)入半人工參與機器評分和計算機智能評分[3]。英語翻譯計算機智能評分系統(tǒng)設計是當前智能評測方面的重點研究課題,受到了很多專家與學者的重視[4?5]。
文獻[6]中采用基于隱馬爾科夫模型的英語譯文評分系統(tǒng),結合馬爾科夫模型與維特比對比系統(tǒng)輸入譯文與參照譯文間的相近詞,并對相近詞進行匹配,計算二者之間的近似度,進而對比譯文語句之間的相似度,根據(jù)對比結果,實現(xiàn)譯文評分。該系統(tǒng)評分結果的準確度較高,但計算量較大,耗時較長。文獻[7]設計的基于語料庫的英語翻譯評分系統(tǒng),通過對語料庫材料結構的詞語搭配分析,獲得詞語配準比,對比輸入譯文的詞語搭配與結構,對譯文進行評分。該系統(tǒng)的評分結果誤差較大,且詞語配比分析過程復雜。
針對現(xiàn)有評分系統(tǒng)中存在的問題,設計一種基于自然語言處理的英語翻譯計算機智能評分系統(tǒng)。通過仿真實驗,將該系統(tǒng)與當前評分系統(tǒng)及人工評分方式進行比較,驗證了所設計評分系統(tǒng)具有較高的運行穩(wěn)定性與準確性,整體性能優(yōu)于當前評分系統(tǒng)。
1.1 ?英語翻譯評分系統(tǒng)結構層次構建
所設計的英語翻譯計算機智能評分系統(tǒng)模塊主要有:譯文資料收錄模塊、信息特征提取模塊、分析模型構建模塊和結果反饋評分模塊。各模塊的層次關系見圖1。
在系統(tǒng)初始階段,通過譯文資料收錄模塊錄入學生的英語譯文,經(jīng)由收錄模塊處理,生成標準化格式的資料庫文件。信息特征提取模塊主要用于資料庫文件的內(nèi)容細分,利用模塊軟件算法實現(xiàn)文件特征提取。分析模型構建模塊主要是根據(jù)信息特征提取模塊得到的特征提取結果,構建分數(shù)評定模型并生成對應的模型文件。在此基礎上,通過結果反饋評價模塊完成譯文評分與評語反饋[8]。
1.2 ?基于自然語言處理的英語翻譯評分系統(tǒng)
自然語言處理系統(tǒng)是用于人與計算機間有效通信的計算機智能系統(tǒng)。該系統(tǒng)可作為英語翻譯評分系統(tǒng)的輔助部分來實現(xiàn)信息交互。綜合分析評分系統(tǒng)的各層次模塊,得到基于自然語言處理的英語翻譯系統(tǒng)的整體構架如圖2所示。用戶通過用戶端上傳譯文,經(jīng)過計算機的自然語言智能處理與信息交互后,輸入到系統(tǒng)的英語翻譯評分模型中,利用模型文件完成評分并將評分與評價結果反饋到用戶端;同時人工檢閱評測端可利用信息交互模塊查閱用戶的英語翻譯文檔,并選擇文檔轉(zhuǎn)換格式及訓練模型譯文集數(shù)據(jù),提高評分模塊的整體效果。
2.1 ?英語翻譯評分系統(tǒng)的語言模型
統(tǒng)計語言模型能夠給出譯文特定句子序列或詞語序列的概率分布[9?10]。
為簡化計算,降低復雜度,引入三元模型。設三元語言模型內(nèi)含的優(yōu)先集合為[V],三元組合為[(u,v,w)],對應的參數(shù)為[q(wu,v)],且滿足[w∈v?{STOP}],[u,v∈v?{*}]。[q(wu,v)]代表二元組合已知時,單詞[u]和[v]之后出現(xiàn)單詞[w]的概率。對于某一譯文句子[x1x2…xn]的三元語言模型概率分布式為:
[p(x1x2…xn)=i=1q(xixi-2xi-1)] ?(1)
[q(wu,v)]需要滿足的限制條件為:
[q(wu,v)≥0,且w∈v?{STOP}q(wu,v)=1] ?(2)
利用最大似然估計算法計算可求解[q(wu,v)],對應的計算式為:
[q(wu,v)=c(u,v,w)c(u,v)] ?(3)
式中:[c(u,v,w)]代表譯文訓練集中[(u,v,w)]出現(xiàn)的頻次;[c(u,v)]為[(u,v)]在譯文訓練集中出現(xiàn)的頻次。
針對不是所有在譯文訓練集中未出現(xiàn)的三元組合的概率為0這一問題,引入平滑算法,得到語言模型的描述式為:
[q(wu,v)=λ1*q(wu,v)+λ2*q(wv)+λ3*q(w)] (4)
式中:[λ1],[λ2],[λ3]代表平滑系數(shù),且滿足[λ1,λ2,λ3≥0,][λ1+λ2+λ3=1];[q(wv)]代表單詞[v]已知時,單詞[v]之后出現(xiàn)單詞[w]的概率;[q(w)]代表單詞[w]出現(xiàn)的總概率。
根據(jù)各單詞出現(xiàn)的頻次及用戶英語翻譯文檔與標準譯文集的概率分布結果,完成用戶英語翻譯文檔的信息特征提取與譯文訓練集的信息特征提取,實現(xiàn)信息特征提取模塊的特征提取功能。
2.2 ?相似度計算與英語翻譯評分
為計算用戶翻譯結果與標準答案的相似度,引入關鍵詞語的相似度計算,詞語相似度的計算公式為:
[sim Word(A,B)=Same(A,B)Num(A)+Num(B)] ? ? ? (5)
式中:[sim Word(A,B)]為句子[A]與[B]的詞形相似度;[Same(A,B)]代表句子[A]與[B]中相同詞的數(shù)量;[Num(A)]與[Num(B)]分別代表句子[A]與[B]中的詞語數(shù)量。
計算特征關鍵詞相似度,采用粒子群優(yōu)化后的BP網(wǎng)絡進行擬合計算,根據(jù)計算結果與設定的評分標準進行對比,得到待評分譯文的打分結果,并依據(jù)關鍵詞相似度值的大小,分析用戶英語翻譯中的錯誤點,給出相應的評語,實現(xiàn)英語翻譯的智能評分與結果反饋。
為了驗證所設計的基于自然語言處理的英語翻譯計算機智能評分系統(tǒng)的性能,需要進行一次仿真實驗。實驗平臺系統(tǒng)為Windows 7系統(tǒng),CPU主頻為2.0 GHz,睿頻為2.6 GHz,運行內(nèi)存為6 GB,存儲空間為64 GB,利用Matlab 7.1進行仿真實驗結果的圖、表繪制,系統(tǒng)實現(xiàn)算法的編程語言為Visual C++。采用所設計系統(tǒng)與現(xiàn)有評分系統(tǒng)以及人工評分方法進行實驗,設定的評分總分值為100分,分別對比評分分數(shù),實驗結果如表1所示。表1中:DE表示待評分英語翻譯文件;RM表示評分方式;RA,RB,RC分別表示所設計系統(tǒng)、現(xiàn)有評分系統(tǒng)以及人工評分方法;SC表示分值,單位為分,用字母C表示。
根據(jù)表1數(shù)據(jù)可知,所設計系統(tǒng)的評分結果更接近人工評分結果,最低差值為0.1 C,最高差值為0.3 C,說明所設計英語翻譯評分系統(tǒng)的評分誤差較小,評分性能較好。采用所設計系統(tǒng)與現(xiàn)有評分系統(tǒng)進行實驗,對比評分過程的運行時間,實驗結果如圖3所示。圖3中,RA,RB分別表示所設計系統(tǒng)與現(xiàn)有評分系統(tǒng)。
根據(jù)圖3可知,所設計系統(tǒng)的評分運行時間變化曲線波動范圍小于現(xiàn)有評分系統(tǒng)運行時間變化曲線的波動范圍,說明所設計系統(tǒng)的運行穩(wěn)定性更好。對于譯文樣本2,所設計系統(tǒng)的評分時間為4.7 s,現(xiàn)有評分系統(tǒng)的評分時間為6.1 s;對于譯文樣本4,所設計系統(tǒng)與現(xiàn)有評分系統(tǒng)的評分時間分別為4.9 s和5.9 s??芍獙τ谕蛔g文樣本,所設計系統(tǒng)的運行時間明顯低于現(xiàn)有評分系統(tǒng),說明所設計系統(tǒng)的評分效率更高。
本文設計一種基于自然語言處理的英語翻譯計算機智能評分系統(tǒng)。構建系統(tǒng)的層次結構后,進行各層次模塊設計,結合系統(tǒng)模塊的運行流程,獲得翻譯評分系統(tǒng)的整體構架,采取語言模型等相關算法實現(xiàn)對應模塊的效用。實驗結果表明,所設計系統(tǒng)的整體性能優(yōu)于傳統(tǒng)系統(tǒng),說明其具有較強的實用性。
參考文獻
[1] 曲維光,周俊生,吳曉東,等.自然語言句子抽象語義表示AMR研究綜述[J].數(shù)據(jù)采集與處理,2017,32(1):26?36.
QU Weiguang, ZHOU Junsheng, WU Xiaodong, et al. Survey on abstract meaning representation [J]. Journal of data acquisition & processing, 2017, 32(1): 26?36.
[2] 陳志明,李茂西,王明文.基于神經(jīng)網(wǎng)絡特征的句子級別譯文質(zhì)量估計[J].計算機研究與發(fā)展,2017,54(8):1804?1812.
CHEN Zhiming, LI Maoxi, WANG Mingwen. Sentence?level machine translation quality estimation based on neural network features [J]. Journal of computer research and development, 2017, 54(8): 1804?1812.
[3] 王海軍.英語寫作AES系統(tǒng)評分效度的實證研究[J].浙江工業(yè)大學學報(社會科學版),2016,15(1):89?93.
WANG Haijun. An empirical research into scoring validity of AES [J]. Journal of Zhejiang University of Technology (Social science edition), 2016, 15(1): 89?93.
[4] 謝荻帆,杜子芳.中國電影線上評分系統(tǒng)的改進[J].計算機應用,2018,38(4):1218?1222.
XIE Difan, DU Zifang. Improvement of Chinese films for online scoring system [J]. Journal of computer applications, 2018, 38(4): 1218?1222.
[5] 呂莉.軟件分層結構故障優(yōu)化檢測仿真研究[J].計算機仿真,2017,34(10):371?374.
L? Li. Simulation research on fault detection of software hierarchical structure [J]. Computer simulation, 2017, 34(10): 371?374.
[6] 李茂西,徐凡,王明文.機器譯文自動評價中基于IHMM的近義詞匹配方法研究[J].中文信息學報,2016,30(4):117?123.
LI Maoxi, XU Fan, WANG Mingwen. Research on IHMM?based synonyms matching for automatic evaluation of machine translation [J]. Journal of Chinese information processing, 2016, 30(4): 117?123.
[7] 孔海龍.基于語料庫的翻譯質(zhì)量評價:評《政府文件漢英翻譯搭配沖突的調(diào)查研究》[J].中國科技翻譯,2016,29(1):36?39.
KONG Hailong. Evaluation of translation quality based on corpus: comment on the investigation and research of Chinese?English translation collocation conflicts in government documents [J]. Chinese science & technology translators journal, 2016, 29(1): 36?39.
[8] 李俠.英漢機器翻譯中的英語動詞漢譯研究[J].電子設計工程,2016,24(13):13?15.
LI Xia. A study on English translation of English verbs in English and Chinese machine translation [J]. Electronic design engineering, 2016, 24(13): 13?15.
[9] 王冰,郭東強.基于BP神經(jīng)網(wǎng)絡的企業(yè)內(nèi)部知識轉(zhuǎn)移績效綜合評價研究[J].情報科學,2016,34(1):141?145.
WANG Bing, GUO Dongqiang. Research on comprehensive evaluation of enterprise internal knowledge transfer performance based on BP neural network [J]. Information science, 2016, 34(1): 141?145.
[10] 李崗崗,趙婷婷.紡織科技英語強化訓練的詞匯分類方法[J].西安工程大學學報,2016,30(4):440?445.
LI Ganggang, ZHAO Tingting. Vocabulary classification method for intensive training of textile science and technology English [J]. Journal of Xian Polytechnic University, 2016, 30(4): 440?445.