姜鰻書 錢星敏
摘 要:本文基于歐盟電動(dòng)汽車國際安全標(biāo)準(zhǔn)文本,采用SDL Multiterm Extract軟件提取電動(dòng)汽車術(shù)語,并分析術(shù)語差異的原因。提出了解決中文術(shù)語抽取不準(zhǔn)確的方法以期完善術(shù)語提取方法,提升術(shù)語提取數(shù)量和質(zhì)量,促進(jìn)電動(dòng)汽車類機(jī)輔翻譯的標(biāo)準(zhǔn)化,為中國電動(dòng)汽車走出去鋪平道路。
關(guān)鍵詞:術(shù)語提取;英漢術(shù)語提取結(jié)果差異;電動(dòng)汽車;中文分詞法
0 引言
互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,提取術(shù)語的技術(shù)也在不斷進(jìn)步,21世紀(jì)初《中文信息報(bào)》上已有對(duì)于術(shù)語抽取的比較成熟的研究,研究高質(zhì)量的雙語術(shù)語庫可以提高計(jì)算機(jī)輔助翻譯的效率。如今電動(dòng)汽車行業(yè)作為全球新興發(fā)展行業(yè),發(fā)展前景廣闊,但對(duì)于相關(guān)電動(dòng)汽車國際安全標(biāo)準(zhǔn)的翻譯存在諸多問題,比如,術(shù)語不統(tǒng)一,不規(guī)范,特別是研究特定科學(xué)領(lǐng)域時(shí)(以電動(dòng)汽車術(shù)語為例)由于缺乏相關(guān)的術(shù)語庫,影響了領(lǐng)域內(nèi)更深層次的交流,嚴(yán)重阻礙了我國電動(dòng)汽車更好地走出去。
1 英漢術(shù)語抽取結(jié)果差異
研究基于歐盟電動(dòng)汽車國際安全標(biāo)準(zhǔn)小型英漢語料庫項(xiàng)目過程中,收集了大量權(quán)威性電動(dòng)汽車安全標(biāo)準(zhǔn)相關(guān)文件,比如ECE(歐洲經(jīng)濟(jì)委員會(huì)汽車法規(guī))、SAE(國際自動(dòng)機(jī)工程師學(xué)會(huì))、GB(中國國家標(biāo)準(zhǔn))等,并使用SDL MultiTerm Extract進(jìn)行術(shù)語自動(dòng)抽取,結(jié)果顯示英漢術(shù)語抽取結(jié)果差異較大。
術(shù)語是通過語音或文字來表達(dá)或限定專業(yè)概念的約定性符號(hào)。馮志偉先生在《現(xiàn)代術(shù)語學(xué)》一書中提出術(shù)語應(yīng)具備以下特征:專業(yè)性,約定俗成性,單一性,簡明性,能產(chǎn)性,系統(tǒng)性。此外,術(shù)語在語言結(jié)構(gòu)上也有一定的特征,這一特征為術(shù)語自動(dòng)抽取技術(shù)提供了條件。(周浪2010)
符合術(shù)語定義的中文術(shù)語長度,主要集中在2~6個(gè)字,大多是無意義詞匯,比如“的時(shí)間”之類,這些詞無法組成詞組,更不符合術(shù)語特征。英文術(shù)語長度主要集中在2~4個(gè)單詞左右。抽取結(jié)果較為準(zhǔn)確,高頻詞匯特征與術(shù)語特征較為吻合。但出現(xiàn)重復(fù)的詞匯較多,而且SDL MultiTerm Extract(一款桌面工具,根據(jù)現(xiàn)有已翻譯文檔創(chuàng)建術(shù)語表,能與現(xiàn)有翻譯資產(chǎn)配合使用,無論翻譯資產(chǎn)在基于文件的位置,還是在基于服務(wù)器的位置,都可以在子句段層面檢查術(shù)語的出現(xiàn)頻率,不必手動(dòng)搜索術(shù)語,來建立項(xiàng)目詞匯表。)但它不能夠?qū)τ⑽牡拇笮戇M(jìn)行刪減,單詞大寫算一個(gè)術(shù)語,小寫也算一個(gè)術(shù)語,造成了術(shù)語重復(fù);也無法刪減冠詞the,譬如電動(dòng)汽車術(shù)語中的這樣一個(gè)詞組,the EVSE屬于術(shù)語,同時(shí)EVSE也屬于一個(gè)術(shù)語。
2 術(shù)語抽取結(jié)果差異分析
2.1 語言的不同形式
造成差異的原因,要從英漢語言的不同形式進(jìn)行分析,抽取單語術(shù)語時(shí),英語語言形式較漢語言形式相比,有一個(gè)明顯的優(yōu)勢是詞與詞之間用空格分隔,一個(gè)詞表達(dá)一個(gè)完整的意思。而漢語詞與詞之間,或者字與字之間沒有形式上的分隔符,這對(duì)漢語術(shù)語的單語自動(dòng)抽取造成了一定的困難。
2.2 詞性不對(duì)等
中英文的詞性不對(duì)等問題也是造成術(shù)語提取不準(zhǔn)確的一個(gè)重要原因。中文中不存在冠詞的概念, 沒有the、a之類的詞,而英文中沒有“的、了”這些無意義詞對(duì)應(yīng)的英文,這也是術(shù)語提取結(jié)果不正確的原因之一。
2.3 單詞性術(shù)語的提取
中文術(shù)語提取單詞性術(shù)語的效率明顯不如英文。中文表達(dá)多重復(fù),講究韻律,經(jīng)常性地對(duì)一些字詞進(jìn)行重復(fù),而英文則多用代詞指代,對(duì)于重復(fù)的詞利用代詞進(jìn)行代替,導(dǎo)致抽取的中文高頻詞有不符合術(shù)語定義的詞匯,而英文的詞匯則較為正常一些。如下圖所示:
2.4 詞組性術(shù)語的抽取效率
對(duì)于中文詞組型術(shù)語的抽取效率問題,詞組性術(shù)語是指兩個(gè)或兩個(gè)以上單詞共同組合而形成的術(shù)語;單詞性術(shù)語則是一個(gè)單詞形成的術(shù)語。漢語因其語言形式的特殊形式,一個(gè)自由語素就可以被視作一個(gè)單詞性術(shù)語。相比之下,根據(jù)語言學(xué)的定義劃分,英文里最小的語素單位沒有實(shí)際意義,不能作為單詞性的術(shù)語。因此抽取中英文術(shù)語時(shí),英文識(shí)別不出單詞性術(shù)語,而漢語大部分都是無意義的單字。
以抽取電動(dòng)汽車術(shù)語的結(jié)果為例,自由語素“氣”和自由語素“壓”,共同組成的詞語“氣壓”。既可以被視作為合成詞,也可以視為詞組,合成詞與詞組之間并沒有明顯的區(qū)分。如果一個(gè)單詞性的術(shù)語由兩個(gè)自由語素構(gòu)成,該術(shù)語既可以視作單詞性術(shù)語,也可以視為詞組性術(shù)語。單詞性術(shù)語的合成詞與詞組性術(shù)語分界模糊的情況造成了漢語文本切分困難的問題,從而導(dǎo)致了中文術(shù)語抽取效果不理想。
3 解決雙語術(shù)語不準(zhǔn)確的辦法
中英兩種語言之間的巨大差異是導(dǎo)致抽取雙語術(shù)語不準(zhǔn)確的主要原因,反映了雙語抽取的難度之大。
3.1 抽取術(shù)語規(guī)則
解決這個(gè)問題首先要了解抽取術(shù)語是基于怎樣的規(guī)則來進(jìn)行的,主流抽取方法分為三種,基于語言學(xué)規(guī)則,基于統(tǒng)計(jì)學(xué)規(guī)則,以及兩種規(guī)則混合?;谡Z言學(xué)規(guī)則的術(shù)語抽取結(jié)果更加準(zhǔn)確,但也因過分強(qiáng)調(diào)語言學(xué)的定義,導(dǎo)致術(shù)語提取質(zhì)量頗高,但數(shù)量較少。而基于統(tǒng)計(jì)學(xué)的術(shù)語提取,提取術(shù)語數(shù)量很可觀,但術(shù)語質(zhì)量則不差強(qiáng)人意,會(huì)出現(xiàn)很多不是術(shù)語的高頻詞匯。
3.2 基于專業(yè)術(shù)語提取的中文分詞方法
很多專家研究過如何在統(tǒng)計(jì)學(xué)和語言學(xué)方法上取得平衡,譬如一種基于專業(yè)術(shù)語提取的中文分詞方法,這種方法通過大量特定的專業(yè)語料庫,基于互信息和統(tǒng)計(jì)的方法,對(duì)文中未登錄詞等專業(yè)術(shù)語進(jìn)行提取,構(gòu)造專業(yè)術(shù)語詞典,并結(jié)合通用詞典,利用最大匹配方法進(jìn)行中文分詞。結(jié)果證明,這種方法在基本完成中文分詞的基礎(chǔ)上,可以優(yōu)先識(shí)別出未登錄詞等專業(yè)術(shù)語,具有一定的可行性。如果在我們的項(xiàng)目中應(yīng)用了這種方法,必定會(huì)減少許多無意義詞匯,增加抽取術(shù)語的準(zhǔn)確性。(鄭陽,莫建文2012:20-23)
3.3 基于詞效應(yīng)的中文術(shù)語提取方法
這種提取方法分析了現(xiàn)有的統(tǒng)計(jì)分詞方法之后,進(jìn)一步改進(jìn)了互信息計(jì)算的方法,結(jié)合t測試度接續(xù)指數(shù),提出一個(gè)綜合統(tǒng)計(jì)量詞效應(yīng),即以詞效應(yīng)為基礎(chǔ),提出了一種中文術(shù)語提取方法。實(shí)驗(yàn)分析同時(shí)表明,這種基于這種詞效應(yīng)中文術(shù)語提取方法,不僅能夠提取出帶翻譯語料中的術(shù)語,而且不需要對(duì)干預(yù)量進(jìn)行預(yù)先處理。最后的結(jié)果看來,無論是提取詞語的準(zhǔn)確度,還是覆蓋語料的范圍都是非常有效的。(刮俊杰,吳樹國,伊勝偉2009:5)
對(duì)日常的計(jì)算機(jī)輔助翻譯需求而言,這兩種處理中文語料的術(shù)語提取方法,既有效,又方便快捷,響應(yīng)了速度,也滿足了用戶的需求。如果應(yīng)用在電動(dòng)汽車國際安全標(biāo)準(zhǔn)的術(shù)語提取過程當(dāng)中,將進(jìn)一步提升術(shù)語準(zhǔn)確性,加快提取的速度,幫助譯員提升翻譯術(shù)語的嚴(yán)謹(jǐn)性。當(dāng)然,這兩種術(shù)語提取的解決辦法也存在一定的問題,并不能夠完美提取出所有的術(shù)語,需要進(jìn)一步完善。
4 結(jié)語
英漢語言差異的巨大是造成中文術(shù)語提取結(jié)果不準(zhǔn)確的重要原因之一。而電動(dòng)汽車的廣闊前景和迫切交流需求意味著要不斷完善術(shù)語提取技術(shù)。技術(shù)成熟,則提取術(shù)語的準(zhǔn)確性提高,術(shù)語庫得到補(bǔ)充,機(jī)輔翻譯效率提高,進(jìn)而譯員翻譯嚴(yán)謹(jǐn)性提高,方便電動(dòng)汽車領(lǐng)域內(nèi)部交流,幫助國內(nèi)外電動(dòng)汽車市場的交流,促進(jìn)經(jīng)濟(jì)貿(mào)易的發(fā)展。
自動(dòng)術(shù)語抽取技術(shù)雖已得到社會(huì)的廣泛關(guān)注,取得了不錯(cuò)的成績。但抽取技術(shù)仍處于初期階段,離真正解決問題還有一段距離,需要進(jìn)一步提升術(shù)語抽取的質(zhì)量,克服許多挑戰(zhàn)和問題。
參考文獻(xiàn):
[1]張冠東.英漢雙語術(shù)語自動(dòng)抽取工具效率對(duì)比實(shí)驗(yàn)報(bào)告[D].大連外國語大學(xué),2020.
[2]張雪,孫宏宇,辛東興,李翠平,陳紅.自動(dòng)術(shù)語抽取研究綜述[J].軟件學(xué)報(bào),2020,31(07):2062-2094.
[3]周浪.中文術(shù)語抽取若干問題研究[D].南京理工大學(xué),2010.
[4]靳光灑.計(jì)算機(jī)輔助翻譯技術(shù)的現(xiàn)狀與發(fā)展趨勢論析[J].沈陽工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,6(03):264-266+280.
[5]鄭陽,莫建文.基于專業(yè)術(shù)語提取的中文分詞方法[J].大眾科技,
2012,14(04):20-23.
[6]張榕,宋柔.術(shù)語定義提取研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2006
(01):29-32.
[7]刮俊杰,吳樹國,伊勝偉.基于詞效應(yīng)的中文術(shù)語提取方法[A].中國運(yùn)籌學(xué)會(huì)智能計(jì)算分會(huì).第三屆中國智能計(jì)算大會(huì)論文集[C].中國運(yùn)籌學(xué)會(huì)智能計(jì)算分會(huì):清華大學(xué)數(shù)學(xué)科學(xué)系,2009:5.