程曉嬌
(大連財經(jīng)學(xué)院 國際教育學(xué)院,遼寧 大連 116622)
隨著經(jīng)濟(jì)的騰飛,互聯(lián)網(wǎng)行業(yè)正在飛速發(fā)展,英語翻譯在世界貿(mào)易中的地位逐漸提升。機器翻譯技術(shù)可以克服人工翻譯中的多種問題,降低人工翻譯的經(jīng)濟(jì)消耗與時間消耗。在當(dāng)前這個高度信息化的時代,人們對于英語的翻譯要求逐漸增加,計算機對英語語言的理解與翻譯需求越發(fā)迫切[1-2]。計算機的英語翻譯能力直接影響著翻譯結(jié)果的應(yīng)用效果,與人們的經(jīng)濟(jì)活動息息相關(guān)。但英語翻譯結(jié)果均會出現(xiàn)語法錯誤,使計算機翻譯結(jié)果出現(xiàn)偏差,影響英語翻譯結(jié)果的輸出與判斷。因此,在以往的研究中,大量的專家學(xué)者提出了機器英語翻譯錯誤自動識別方法,力求降低英語翻譯錯誤對經(jīng)濟(jì)活動的影響。
張楠等人采用神經(jīng)機器翻譯方法對中英文翻譯結(jié)果進(jìn)行預(yù)測,在預(yù)測的過程中完成翻譯錯誤結(jié)果的識別工作[3]。此方法的識別速度相對較高,但是識別精度與有效性較差。為此,使用多特征融合技術(shù),設(shè)計新型機器英語翻譯錯誤自動識別方法。為保證此方法設(shè)計完成后具有應(yīng)用價值,構(gòu)建相應(yīng)的實驗環(huán)節(jié)對其展開驗證,確保此方法具有研究意義。
在本次研究中,將融合英語翻譯的特征提取算法,充分利用平行語料。提取到的特征融合翻譯結(jié)果,得到機器英語翻譯的信息特征。通過文獻(xiàn)分析可以發(fā)現(xiàn),機器翻譯可以分為兩部分,分別是將源語言翻譯為目標(biāo)語言以及將目標(biāo)語言翻譯為源語言[4-5]。這兩種翻譯過程完全相同,且共享詞語向量參數(shù)。將源語言語句設(shè)定為A={a1,a2,…,an},ai表示源語句的單詞;目標(biāo)端語句為B={b1,b2,…,bn},bj表示目標(biāo)語句的詞嵌入編碼;C表示源端語句的長度;D表示目標(biāo)語句的長度。設(shè)定本次翻譯中使用的編碼器與解碼器構(gòu)建為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),編碼器的主要功能是將源語句A編碼為固定向量E,同時對E進(jìn)行解碼得到目標(biāo)語句D。整合翻譯過程可表示為P(B|A:α),使用乘法法則得到上述條件概率的計算過程,具體如式(1)所示。
(1)
編碼器由公式(1)構(gòu)成,初始的隱形狀態(tài)均為零向量,在進(jìn)行每一步翻譯時,均需要將此步驟中的單詞映射為對應(yīng)的向量ai的形式;然后和上一翻譯步驟中的詞語進(jìn)行計算,得到源語句的編碼向量E。將使用的編碼器組建成網(wǎng)絡(luò)形式,則存在以下(2)-(5)關(guān)系式:
wt=sigmoid(Hirai+xir+Hsrst-1+xhr)
(2)
kt=sigmoid(Hirai+xir+Hsrst-1+xhk)
(3)
nt=tans(Hinai+xin+Hsnst-1+xhn)
(4)
st=(1-kt)nt+ktnt-1
(5)
公式(1)-公式(5)中,wt表示解碼器向量;Hir表示初始向量;xir表示源語句向量;Hsr表示隱藏向量;st-1表示t-1時刻的隱狀態(tài)對語句的影響向量;xhr表示解碼器的單詞計數(shù)向量;kt表示編碼器向量,xhk表示編碼器的單詞計數(shù)向量,主要利用式(2)與式(3)實現(xiàn)源語句解碼與編碼。nt表示步驟向量,xhn表示最大編碼長度向量,主要利用該式對編碼步驟進(jìn)行限制;st表示t時刻隱狀態(tài)對語句的影響向量,kt表示誤差向量,nt表示誤差向量幅度,st是機器英語翻譯誤差的主要原因。
因此,本文將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機器英語翻譯信息特征提取過程中,將隱層使用tan函數(shù)表示,而后使用softmax函數(shù)[6]進(jìn)行歸一化處理,計算過程設(shè)定如式(6):
p(bt|b1,b2,…,bn,a:α)=softmax[v2tan(v1st+xhn)]
(6)
公式(6)中,v1、v2表示不同的歸一化系數(shù)。
根據(jù)公式(6)可初步得到機器翻譯特征,為了獲取到可信度更高的翻譯特征,使用sigmoid作為激活函數(shù),對機器英語翻譯特征進(jìn)行處理,則有式(7)、式(8):
g1=relu(v1e+xhn)
(7)
ster=sigmoid(v2a+xhn)
(8)
公式(7)中,e表示可信度。
根據(jù)公式(7)-公式(8)完成英語翻譯的特征提取,并將提取到的翻譯特征作為本次研究的基礎(chǔ)。
根據(jù)提取到的機器英語翻譯特征結(jié)合翻譯自動評價方法,對機器英語翻譯結(jié)果進(jìn)行預(yù)判。使用皮爾遜系數(shù)[7]作為指導(dǎo)因素,對翻譯結(jié)果進(jìn)行初步分析,具體計算過程設(shè)定如式(9):
(9)
公式(9)中,o表示翻譯結(jié)果的數(shù)學(xué)期望值;d表示方差。一般情況,此公式取值結(jié)果為-1或是1,當(dāng)此計算結(jié)果具有較高的關(guān)聯(lián)性時,取值結(jié)果趨近于1,否則,趨近于-1。
根據(jù)上述公式考慮到機器翻譯譯文特征,在信息預(yù)判過程中引入懲罰函數(shù),以此保證翻譯偏好程度不會對翻譯結(jié)果造成影響。則有式(10):
(10)
公式(10)中,N表示懲罰因子數(shù)量;εi表示翻譯偏好系數(shù);precision表示翻譯信息預(yù)判結(jié)果;U表示懲罰因子,其計算公式如式(11):
(11)
公式(11)中,output表示懲罰因子輸出結(jié)果,length表示懲罰因子程度;reference表示懲罰因子最優(yōu)長度。
在判定過程中增加翻譯信息召回率計算過程,對公式(11)進(jìn)行整合后,得到新的判定計算公式(12):
(12)
公式(12)中,Counti(U)表示第i個懲罰函數(shù);Count(U)表示初始的懲罰函數(shù)。
使用此公式對機器翻譯結(jié)果展開預(yù)判,確定此結(jié)果的正確率。同時,獲取正確率較低的信息作為翻譯錯誤識別訓(xùn)練組,構(gòu)建相應(yīng)的支持向量機[8],對此部分信息進(jìn)行二次判定。
對于二分類問題,為了得到最終可靠的預(yù)判結(jié)果,將訓(xùn)練集設(shè)定為(zi,yi),i=1,2,…,n,zi∈Rn,yi∈{±1}上,分類平面可表示為式(13):
(q*z)+k=0
(13)
公式(13)中,k表示懲罰平面斜率;q與z分別表示懲罰平面的長與寬。
根據(jù)公式(13)對樣本進(jìn)行正確區(qū)分,分類間隔最大化,該最優(yōu)分類結(jié)果需要滿足下述式(14)條件:
yi[(q*z)+k]≥1
(14)
以公式(14)為基礎(chǔ)構(gòu)建支持向量機,則此問題可優(yōu)化為式(15):
(15)
其中,G表示分類過程中的代價系數(shù);φ(·)表示判定過程中的非線性變換函數(shù);i表示松弛變量函數(shù)。根據(jù)此公式可得到最終的判定公式:
(16)
公式(16)中,ηi表示多特征融合系數(shù);H(zi,z)表示線性變換函數(shù);k′表示斜率偏移系數(shù)。
使用公式(16)得到機器英語翻譯多特征融合預(yù)判結(jié)果,根據(jù)此結(jié)果設(shè)定機器英語翻譯錯誤識別算法。
根據(jù)上述設(shè)定結(jié)果,設(shè)計機器英語翻譯錯誤識別算法實現(xiàn)錯誤翻譯的自動識別,為了使此算法具有可行性,將錯誤翻譯結(jié)果有向圖作為算法的主要參考依據(jù),錯誤翻譯有向圖繪制如圖1所示。
圖1 錯誤翻譯結(jié)果有向圖
將判別過程中出現(xiàn)問題的翻譯結(jié)果繪制為有向圖的形式,同時根據(jù)錯誤翻譯結(jié)果有向圖使用傳統(tǒng)K-近鄰算法[9-10]構(gòu)建機器英語翻譯錯誤識別算法。假設(shè)錯誤翻譯結(jié)果的標(biāo)簽為Z,則此標(biāo)簽在翻譯結(jié)果特征空間中可表示為:
(17)
其中,{yi=Z}表示指示函數(shù)。根據(jù)翻譯結(jié)果判別結(jié)果,將翻譯結(jié)果是錯誤結(jié)果的概率設(shè)定為p(y=1|z),則此概率的計算公式可表示為:
(18)
公式(18)中,f(z′,o)表示翻譯錯誤判斷函數(shù)。
隨著翻譯時間的不斷延長,翻譯結(jié)果的數(shù)量會不斷增加,待識別區(qū)的未知錯誤翻譯結(jié)果的數(shù)量會逐漸增加,考慮到翻譯結(jié)果標(biāo)簽數(shù)量問題,對公式(18)進(jìn)行優(yōu)化,則存在:
(19)
公式(19)中,D(z)表示標(biāo)簽函數(shù)。
對比2組患者生活質(zhì)量以及身體功能,研究組生活質(zhì)量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質(zhì)量(33.45±4.89)分,身體功能(34.12±5.01)分,數(shù)據(jù)對比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評分高于參照組患者,組間對比具有顯著性差異(P<0.05)。
根據(jù)此公式對完成判別后的翻譯結(jié)果錯誤概率進(jìn)行計算,當(dāng)錯誤概率過高時,可認(rèn)定此翻譯結(jié)果為錯誤結(jié)果,并輸出此結(jié)果。
至此,基于多特征融合的機器英語翻譯錯誤自動識別方法設(shè)計完成。
為證實本次研究中提出的基于多特征融合的機器英語翻譯錯誤自動識別方法具有應(yīng)用價值,構(gòu)建實驗環(huán)節(jié)對此方法的使用效果加以分析。
在本次實驗過程中,將實驗平臺設(shè)定為windows與linux系統(tǒng),在此系統(tǒng)中完成原始翻譯信息與擴(kuò)展信息的采集與處理,實驗部分將在linux系統(tǒng)完成。在實驗過程中,使用JAVA作為實驗控制語言,文件的處理與實驗結(jié)果輸出均使用此語言進(jìn)行控制。同時,設(shè)定實驗結(jié)果合并規(guī)則,對實驗結(jié)果展開處理,并輸出此結(jié)果。
實驗中的訓(xùn)練數(shù)據(jù)主要來源于某實驗室數(shù)據(jù)庫,訓(xùn)練數(shù)據(jù)集匯總含有5000條錯誤句子以及對應(yīng)的5000個正確句子,這些語句均為以英語為母語者的工作人員人工標(biāo)記語法錯誤,并改正每一處錯誤獲得。將此部分信息組合后,構(gòu)建為10個實驗數(shù)據(jù)組,如表1所示。
表1 實驗數(shù)據(jù)組
根據(jù)上表中內(nèi)容對采集到的翻譯信息進(jìn)行劃分,同時對詞向量進(jìn)行訓(xùn)練。使用Word2vcc工具對翻譯信息進(jìn)行訓(xùn)練,將翻譯信息的詞匯向量維度設(shè)定為1024,窗口大小設(shè)置為10,使用負(fù)采樣優(yōu)化算法將翻譯信息樣本數(shù)量設(shè)定為10,迭代次數(shù)設(shè)定為20次。在實驗準(zhǔn)備階段,為保證實驗結(jié)果的可靠性同時降低實驗結(jié)果誤差,使用以往研究中預(yù)設(shè)的翻譯信息模板對訓(xùn)練集展開訓(xùn)練,并對訓(xùn)練集進(jìn)行標(biāo)注,以此實驗數(shù)據(jù)的劃分與處理過程。
由于本次實驗屬于識別范疇,因此,將實驗指標(biāo)設(shè)定為識別效果評價指標(biāo),主要包括識別準(zhǔn)確率、召回率與自動識別有效率。在本次實驗中,將其總結(jié)為下述計算公式:
(20)
其中,θi表示正確識別的翻譯錯誤信息;θj表示可識別翻譯錯誤信息。
(2)識別結(jié)果召回率:表示識別方法獲取到的錯誤翻譯結(jié)果數(shù)量,如式(21)所示。
(21)
其中,θa表示需識別的翻譯錯誤信息。
(3)自動識別有效測度:此指標(biāo)表示對自動識別方法使用的有效率,根據(jù)此指標(biāo)可確定識別方法的使用效果,如式(22)所示。
(22)
使用多特征融合方法對表1中的數(shù)據(jù)進(jìn)行識別,并使用上述公式對識別結(jié)果進(jìn)行計算,確定各指標(biāo)計算結(jié)果,并對多特征融合方法使用性能進(jìn)行分析。為提升本次實驗結(jié)果的對比性,選擇神經(jīng)網(wǎng)絡(luò)以及統(tǒng)計模式識別方法與文中提出的多特征融合方法進(jìn)行對比分析,確定每種方法使用后的優(yōu)缺點。
選擇神經(jīng)網(wǎng)絡(luò)以及統(tǒng)計模式識別方法與文中提出的多特征融合方法進(jìn)行對比分析,比較了三種方法的識別準(zhǔn)確率、識別結(jié)果召回率、自動識別有效性,結(jié)果如圖2、圖3、圖4所示。
圖2 識別準(zhǔn)確率
由圖2中顯示的數(shù)據(jù)進(jìn)行分析可以看出,在此指標(biāo)的實驗結(jié)果中體現(xiàn)了3種方法的使用效果,多特征融合方法識別準(zhǔn)確度相對較高,可對多數(shù)翻譯錯誤的信息進(jìn)行識別提取。與此方法相比,其他兩種方法使用后只能少量地識別到翻譯錯誤信息,無法對實驗組信息進(jìn)行高精度分析與識別。在多次實驗中,均體現(xiàn)了多特征融合方法的識別精準(zhǔn)度高于其他兩種方法。因此,可以確定多特征融合方法具有較高的使用價值。
圖3 識別結(jié)果召回率
在對識別準(zhǔn)確率進(jìn)行驗證后,對識別結(jié)果召回率展開驗證與分析。根據(jù)此實驗結(jié)果可以看出,3種方法的識別召回率具有一定的差異。神經(jīng)網(wǎng)絡(luò)方法與多特征融合方法的識別結(jié)果召回率較好,可識別多種翻譯信息。統(tǒng)計模式識別方法的識別結(jié)果召回率相對較低,無法對全部翻譯信息進(jìn)行識別。 因此,使用此種方法后并不能得到較高識別結(jié)果。綜合上述結(jié)果,為得到最終實驗結(jié)果,對不同方法的自動識別有效測度展開研究,具體結(jié)果如圖4 所示。
圖4 自動識別有效測度結(jié)果
根據(jù)識別結(jié)果召回率與識別準(zhǔn)確率實驗結(jié)果,結(jié)合公式(22)得到自動識別有效測度結(jié)果。對此實驗結(jié)果進(jìn)行分析后,確定了3種方法英語翻譯錯誤結(jié)果的識別有效率。由此實驗結(jié)果可知,多特征融合方法的自動識別有效率明顯優(yōu)于其他兩種方法,可對機器應(yīng)用翻譯錯誤進(jìn)行高精度識別。因此,在日后的研究中可使用此方法完成英語翻譯工作。
在本次實驗中,使用識別準(zhǔn)確率、召回率與自動識別有效測度對不同類型的自動識別方法進(jìn)行分析。通過多次對比后發(fā)現(xiàn),在三組實驗指標(biāo)中,文中提出的多特征融合識別方法為所選擇實驗方法中使用效果最佳的方法。由此證實了多特征融合技術(shù),可應(yīng)用在機器應(yīng)用翻譯錯誤的識別工作中。此技術(shù)應(yīng)用后可有效提升識別結(jié)果的精準(zhǔn)度與可靠性,在后續(xù)的研究中將對此方法的其他性能展開研究,并將其投入到實際問題的應(yīng)用過程中。
針對當(dāng)前英語翻譯結(jié)果,本文提出了一種新型翻譯錯誤自動識別方法,經(jīng)實驗證實此方法具有一定的實用效果。此次將研究重點立足于識別的精準(zhǔn)度,并沒有對于其他領(lǐng)域展開優(yōu)化。為此,在后續(xù)的研究中還需要對其他部分進(jìn)行分析,針對此方法的不足進(jìn)行完善與優(yōu)化,以提升翻譯效果,為機器翻譯技術(shù)的發(fā)展提供幫助。