蘇曉娟 張英杰 白 晨 吳 思
(1.北京石油化工學(xué)院,北京 102617; 2.中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
語(yǔ)料庫(kù)特指能夠被計(jì)算機(jī)存儲(chǔ)的數(shù)字化語(yǔ)料庫(kù),廣泛應(yīng)用于編撰字典、語(yǔ)言教學(xué)、自然語(yǔ)言處理、人工智能等方面。隨著各學(xué)科、各領(lǐng)域科學(xué)研究的融合發(fā)展,語(yǔ)料既能夠記錄各類科技活動(dòng),反映特定時(shí)期的科技發(fā)展特征,也能夠支撐科技大數(shù)據(jù)的豐富應(yīng)用場(chǎng)景。
國(guó)外的語(yǔ)料庫(kù)比較著名的有歐盟的術(shù)語(yǔ)數(shù)據(jù)庫(kù)(IATE)、美國(guó)當(dāng)代語(yǔ)料庫(kù)(COCA)等。歐盟術(shù)語(yǔ)數(shù)據(jù)庫(kù)(IATE)開始于1999年,收錄有1017288 條實(shí)體,7961980 個(gè)術(shù)語(yǔ),旨在為所有歐盟術(shù)語(yǔ)資源提供基于網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,提高信息的可用性和標(biāo)準(zhǔn)化[1]。美國(guó)當(dāng)代語(yǔ)料庫(kù)(COCA)是美國(guó)唯一一個(gè)大型的、類型均衡的語(yǔ)料庫(kù),也是最廣泛使用的英語(yǔ)語(yǔ)料庫(kù),包含超過(guò)5.6 億字的文本,涉及口語(yǔ)、小說(shuō)、流行雜志、報(bào)紙和學(xué)術(shù)文本等內(nèi)容[2]。在商業(yè)領(lǐng)域,圖靈機(jī)器人目前擁有1300 多億條對(duì)話語(yǔ)料庫(kù)。
國(guó)內(nèi)的語(yǔ)料庫(kù)比較知名的有國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)[3]和中國(guó)科學(xué)技術(shù)信息研究所編制的《漢語(yǔ)主題詞表》。國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)立項(xiàng)于1991年,全庫(kù)約有1 億字符,語(yǔ)料選材類別廣泛,時(shí)間跨度大。標(biāo)注語(yǔ)料庫(kù)為國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)全庫(kù)的子集,約5000 萬(wàn)字符,準(zhǔn)確率大于98%[4]。中國(guó)科學(xué)技術(shù)信息研究所編制的《漢語(yǔ)主題詞表》,多年來(lái)持續(xù)建設(shè)和維護(hù)的中文基礎(chǔ)詞庫(kù)收錄詞匯總量達(dá)到500 萬(wàn)條,包括中文敘詞表、全國(guó)科學(xué)技術(shù)名詞審訂委員會(huì)審定公布的規(guī)范名詞、文獻(xiàn)關(guān)鍵詞、專業(yè)詞典、術(shù)語(yǔ)標(biāo)準(zhǔn)、百科等多種來(lái)源的詞匯,詞匯信息豐富,包括詞間關(guān)系、詞匯分類、英文、注釋等屬性。此外,部分有特色的語(yǔ)料庫(kù)包括中國(guó)傳媒大學(xué)的新詞語(yǔ)研究資源庫(kù)[5]、哈爾濱工業(yè)大學(xué)信息檢索研究室開發(fā)的對(duì)齊雙語(yǔ)句對(duì)的語(yǔ)料庫(kù)[6]、清華大學(xué)的漢語(yǔ)均衡語(yǔ)料庫(kù)TH-ACorpus[7]、中國(guó)科學(xué)院計(jì)算技術(shù)研究所的跨語(yǔ)言語(yǔ)料庫(kù)[8]。國(guó)內(nèi)商業(yè)領(lǐng)域的搜狗、網(wǎng)易圍繞中文新聞?wù)Z料庫(kù)也積極進(jìn)行了探索實(shí)踐。
從科技語(yǔ)料庫(kù)的構(gòu)建研究來(lái)看,MatildeTrevisani依托科技文獻(xiàn)語(yǔ)料,探討了通過(guò)詞生命周期聚類的方式從科學(xué)語(yǔ)料庫(kù)中進(jìn)行知識(shí)動(dòng)態(tài)發(fā)現(xiàn)[9]。英國(guó)曼徹斯特大學(xué)的Nhung T.H.利用生物多樣性文獻(xiàn),建立了一個(gè)COPIOUS語(yǔ)料庫(kù),提出了服務(wù)于生物命名實(shí)體的金標(biāo)準(zhǔn)[10]。國(guó)內(nèi)語(yǔ)料庫(kù)的研究主題主要涉及語(yǔ)言文學(xué)、教育學(xué)、計(jì)算機(jī)科學(xué)、臨床醫(yī)學(xué)、圖書館和情報(bào)學(xué)。其中,語(yǔ)言文學(xué)的研究主題主要聚焦于平行語(yǔ)料庫(kù)、語(yǔ)料庫(kù)語(yǔ)言學(xué)等內(nèi)容,如謝家成[11]自建了60 萬(wàn)對(duì)的平行語(yǔ)料庫(kù);王克飛[12]開展了中國(guó)英漢平行語(yǔ)料庫(kù)的設(shè)計(jì)實(shí)踐;教育學(xué)主要涉及翻譯教學(xué)、英語(yǔ)寫作、外語(yǔ)教學(xué)、自主學(xué)習(xí)等主題,如秦洪武等[13]、方秀才[14]、張宇[15]圍繞語(yǔ)料庫(kù)與教學(xué)實(shí)踐,就翻譯教學(xué)中的理論依據(jù)和實(shí)施原則,中國(guó)英語(yǔ)教學(xué)與語(yǔ)料庫(kù)結(jié)合的成就與不足等問(wèn)題開展研究;計(jì)算機(jī)科學(xué)涉及語(yǔ)料庫(kù)的自然語(yǔ)言處理、詞性標(biāo)注、語(yǔ)音合成等研究主題,尤其是在大規(guī)模語(yǔ)料庫(kù)的詞性標(biāo)注方面,張虎等[16]提出了基于主題聚類和分類的語(yǔ)料庫(kù)詞性標(biāo)注一致性檢查新方法,保證大規(guī)模語(yǔ)料庫(kù)標(biāo)注的正確性;圖書館、情報(bào)學(xué)主要利用大型科技文獻(xiàn)數(shù)據(jù)庫(kù)、搜索引擎,抽取其中的關(guān)鍵詞構(gòu)建知識(shí)元詞庫(kù),進(jìn)行基于語(yǔ)料庫(kù)的對(duì)比研究以及圍繞主題詞語(yǔ)料庫(kù)的研究,如李淑平[17]提出了基于語(yǔ)料庫(kù)的主題圖式構(gòu)建,李佳[18]以科技論文中英文關(guān)鍵詞、主題詞作為語(yǔ)料庫(kù)開展了跨語(yǔ)言檢索平臺(tái)研究。
在新時(shí)期科技大數(shù)據(jù)蓬勃發(fā)展的背景下,科技資源建設(shè)的重點(diǎn)已經(jīng)不限于單一來(lái)源、單一維度數(shù)據(jù)的開發(fā)、應(yīng)用,更多的是通過(guò)整合不同的數(shù)據(jù),揭示新規(guī)律,發(fā)現(xiàn)新關(guān)系,支撐新決策,形成新的情報(bào)服務(wù)模式。本文試圖探討在科技大數(shù)據(jù)日益復(fù)雜、多樣的情況下,以現(xiàn)有科技大數(shù)據(jù)中已有的自標(biāo)注中英文語(yǔ)料為基礎(chǔ),通過(guò)機(jī)器學(xué)習(xí)的方式,形成雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建流程,并對(duì)最終的雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行忠實(shí)度、流暢度和可接受度評(píng)測(cè)基礎(chǔ)上,總結(jié)上述構(gòu)建方法的優(yōu)勢(shì)與特點(diǎn)。
以“分布式能源”為主題,進(jìn)行機(jī)器學(xué)習(xí)雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建實(shí)驗(yàn)。對(duì)數(shù)據(jù)的獲取及處理方法是以“分布式能源”為檢索詞,首先在中國(guó)科學(xué)技術(shù)信息研究所科技大數(shù)據(jù)倉(cāng)儲(chǔ)1.2 億條的數(shù)據(jù)中檢索相關(guān)期刊論文,隨后提取其中有中英文摘要和關(guān)鍵詞的論文,最終形成中英文關(guān)鍵詞詞對(duì)的對(duì)齊、匹配,累積形成20834 個(gè)雙語(yǔ)詞對(duì)初試語(yǔ)料集。同時(shí),以“分布式能源”和“Distributed Energy”為檢索詞,在中國(guó)科學(xué)技術(shù)信息研究所專利數(shù)據(jù)庫(kù)、德溫特專利數(shù)據(jù)庫(kù)中進(jìn)行檢索,下載、查重后形成6428 條專利數(shù)據(jù),然后分別按照語(yǔ)種提取其中的專利形成中文專利數(shù)據(jù)集和英文專利數(shù)據(jù)集,供后續(xù)實(shí)驗(yàn)應(yīng)用。
在實(shí)驗(yàn)中,利用了新譯科技公司的機(jī)器翻譯引擎進(jìn)行訓(xùn)練,基本過(guò)程是將20834 個(gè)雙語(yǔ)詞對(duì)初試語(yǔ)料集導(dǎo)入機(jī)器翻譯引擎,經(jīng)過(guò)機(jī)器翻譯引擎自我學(xué)習(xí)、深度學(xué)習(xí)后,生成一個(gè)機(jī)器翻譯模型,使用“神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯+統(tǒng)計(jì)機(jī)器翻譯”,圖1 為機(jī)器翻譯引擎訓(xùn)練示意圖。
相比于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT),神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation,NMT)已經(jīng)在翻譯、對(duì)話和文本概要總結(jié)方面獲得非常好的成績(jī)。領(lǐng)域術(shù)語(yǔ)語(yǔ)料庫(kù)在整個(gè)過(guò)程中保證專業(yè)詞匯在翻譯過(guò)程中的專業(yè)性和一致性。在訓(xùn)練模塊,系統(tǒng)掛載自有術(shù)語(yǔ)庫(kù),以確保翻譯結(jié)果精確度更高,翻譯結(jié)果更加符合業(yè)務(wù)場(chǎng)景。
譯文評(píng)估主要從忠實(shí)度、流暢度和可接受度3 個(gè)方面開展。忠實(shí)度是評(píng)測(cè)譯文是否忠實(shí)地表達(dá)了原文的內(nèi)容,按 0-5 分打分,打分可含一位小數(shù),最后的得分是所有打分的算術(shù)平均值。流暢度是評(píng)測(cè)譯文是否流暢和正宗,按0-5 分打分,打分可含一位小數(shù),最后的得分是所有打分的算術(shù)平均值。可理解度則是從用戶的角度對(duì)最終的翻譯結(jié)果進(jìn)行評(píng)測(cè),如表1 所示。
以下是一個(gè)輪次的實(shí)驗(yàn)步驟。
第一步:利用沒(méi)有經(jīng)過(guò)訓(xùn)練的機(jī)器翻譯引擎,對(duì)中外文專利進(jìn)行互譯;
第二步:各選取100 條數(shù)據(jù),對(duì)機(jī)器翻譯結(jié)果進(jìn)行人工校對(duì),按照表1 的標(biāo)準(zhǔn)對(duì)忠實(shí)度和流暢度進(jìn)行打分;
第三步:根據(jù)檢索詞(略),抽取相關(guān)期刊論文,將其中的中英文詞對(duì)進(jìn)行抽取,梳理成對(duì)應(yīng)的詞對(duì);
第四步:將期刊的中英詞對(duì)用于機(jī)器學(xué)習(xí),學(xué)習(xí)后的語(yǔ)料對(duì)先前提供的數(shù)據(jù)集進(jìn)行二次翻譯;
第五步:選取第二步已經(jīng)校對(duì)過(guò)的數(shù)據(jù),進(jìn)行二次人工校對(duì)判別,按照表1 的標(biāo)準(zhǔn)分別對(duì)忠實(shí)度和流暢度進(jìn)行打分;
圖1 機(jī)器翻譯引擎訓(xùn)練示意圖
第六步:選取中英文同族的專利,將機(jī)器翻譯的結(jié)果和原始提供的譯文進(jìn)行比對(duì),按照表2的標(biāo)準(zhǔn)對(duì)可理解度進(jìn)行打分。
第七步:總結(jié)語(yǔ)料構(gòu)建的流程和效果。
2.2.1 實(shí)驗(yàn)結(jié)果分析
在整個(gè)實(shí)驗(yàn)過(guò)程中,邀請(qǐng)了10 名北京石油化工學(xué)院外語(yǔ)系英語(yǔ)專業(yè)2015 級(jí)學(xué)生參與評(píng)測(cè),共進(jìn)行兩輪打分,第一輪對(duì)機(jī)器翻譯前的數(shù)據(jù)打分,第二輪對(duì)機(jī)器翻譯后的數(shù)據(jù)打分。
從表3 可以看到,在“神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯 + 統(tǒng)計(jì)機(jī)器翻譯”的機(jī)器翻譯模型中,雖然模型自身有一定的迭代優(yōu)化,但雙語(yǔ)專業(yè)領(lǐng)域詞庫(kù)在機(jī)器翻譯中扮演著重要的角色,故在雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建中要加大雙語(yǔ)專業(yè)語(yǔ)料的建設(shè)工作,同時(shí),也需要根據(jù)多主題科技領(lǐng)域的復(fù)雜性、時(shí)效性特色,進(jìn)行神經(jīng)網(wǎng)絡(luò)模型參數(shù)的優(yōu)化。
此外,從用戶接受的角度,最終語(yǔ)料的可理解性依賴于通用語(yǔ)料和專業(yè)語(yǔ)料的結(jié)合,通過(guò)機(jī)器學(xué)習(xí)迭代后,從統(tǒng)計(jì)結(jié)果來(lái)看,“分布式能源”最終的雙語(yǔ)語(yǔ)料基本能達(dá)到80%的級(jí)別。
為了檢驗(yàn)譯文在專業(yè)雙語(yǔ)詞庫(kù)介入前后翻譯效果,對(duì)介入前后忠誠(chéng)度和流暢度的人工評(píng)價(jià)結(jié)果進(jìn)行檢驗(yàn),來(lái)分析專業(yè)雙語(yǔ)詞庫(kù)的效果,結(jié)果如表4 所示。首先檢驗(yàn)數(shù)據(jù)是否服從正態(tài)性,當(dāng)正態(tài)性檢驗(yàn)的W值對(duì)應(yīng)的概率小于0.05,則認(rèn)為數(shù)據(jù)不服從正態(tài)分布,四組數(shù)據(jù)的Pr<W均小于0.05,說(shuō)明這四組數(shù)據(jù)都不服從正態(tài)分布;其次,選擇檢驗(yàn)統(tǒng)計(jì)量,對(duì)于不服從正態(tài)分布的數(shù)據(jù)可以采用非參數(shù)的Wilcoxon秩和檢驗(yàn),主要看Pr>|Z|對(duì)應(yīng)的概率,若小于0.05,那么就有95%的把握認(rèn)為兩組數(shù)據(jù)存在差異。從結(jié)果來(lái)看,忠誠(chéng)度和流暢度均存在顯著性差異,同時(shí)結(jié)合均值,可以認(rèn)為通過(guò)搭配專業(yè)雙語(yǔ)詞庫(kù)進(jìn)行的翻譯與原來(lái)的方法相比,在忠誠(chéng)度和流暢度方面都有非常杰出的表現(xiàn)。
表1 忠實(shí)度、流暢度打分標(biāo)準(zhǔn)
表2 可理解度打分標(biāo)準(zhǔn)
表3 雙語(yǔ)翻譯結(jié)果打分統(tǒng)計(jì)表
2.2.2 案例實(shí)證分析
表5 分別選擇一條中文專利原文和英文專利原文,比較應(yīng)用“領(lǐng)域雙語(yǔ)詞庫(kù)”后的譯文效果,以對(duì)最終的中英雙語(yǔ)語(yǔ)料進(jìn)行評(píng)估。
從第一條的中譯英情況來(lái)看,第二次的譯文與第一次的譯文相比,在忠實(shí)度和流暢度方面都有所提高,特別是第二次譯文中,熱電聯(lián)產(chǎn)系統(tǒng)(CHP)這樣的專業(yè)詞得以體現(xiàn),專業(yè)領(lǐng)域方面表現(xiàn)良好,且在譯文樣式方面跟原文相比,具有較好的吻合度。
從第二條的英譯中情況來(lái)看,第二次的譯文相較于第一次的譯文,在用詞方面更為緊湊、準(zhǔn)確,對(duì)用戶表現(xiàn)出較好的可理解度,但在整體的流暢、完整性方面還有待進(jìn)一步優(yōu)化。
經(jīng)測(cè)評(píng)和實(shí)證分析表明,本文構(gòu)建的中—英雙語(yǔ)語(yǔ)料庫(kù)通過(guò)結(jié)合神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯方法,對(duì)于后續(xù)雙語(yǔ)語(yǔ)料庫(kù)的構(gòu)建具有以下優(yōu)勢(shì)。
(1)提高語(yǔ)料庫(kù)選擇與處理效率。采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯方法,可大幅度地減少語(yǔ)料選擇和處理的人工工作量,并在專業(yè)主題數(shù)據(jù)庫(kù)基礎(chǔ)上,快速形成專業(yè)領(lǐng)域的雙語(yǔ)語(yǔ)料庫(kù),相應(yīng)構(gòu)建語(yǔ)料庫(kù)的時(shí)間可從按年規(guī)劃縮短到按月響應(yīng),同時(shí)由于大量訓(xùn)練樣本和算法的介入,處理所耗費(fèi)的人工也大幅度得以減少。
(2)快速發(fā)現(xiàn)基礎(chǔ)語(yǔ)料多屬性?;谏窠?jīng)網(wǎng)絡(luò)的自學(xué)習(xí)機(jī)制,可從期刊、專利等規(guī)范化文本中,快速發(fā)現(xiàn)多屬性的基礎(chǔ)語(yǔ)料,從而豐富基礎(chǔ)語(yǔ)料的多屬性值,完成語(yǔ)料的標(biāo)注,支撐科技大數(shù)據(jù)知識(shí)檢索、知識(shí)圖譜方面的應(yīng)用。
表4 忠誠(chéng)度和流暢度的假設(shè)檢驗(yàn)結(jié)果
表5 雙語(yǔ)語(yǔ)料效果案例
(3)提升雙語(yǔ)語(yǔ)料庫(kù)的工程化構(gòu)建水平。語(yǔ)料庫(kù)是人工智能時(shí)代的基礎(chǔ)工程,已經(jīng)從傳統(tǒng)的文本語(yǔ)料向圖片、聲音、視頻等全媒體語(yǔ)料庫(kù)轉(zhuǎn)變,其服務(wù)模式也從傳統(tǒng)的紙質(zhì)語(yǔ)料向Web接口、API等多種方式提供對(duì)外共享應(yīng)用服務(wù),本文驗(yàn)證的快速語(yǔ)料庫(kù)構(gòu)建方法,可以促進(jìn)各專業(yè)領(lǐng)域語(yǔ)料庫(kù)的工程化水平。
本文通過(guò)分析新時(shí)期科技大數(shù)據(jù)對(duì)語(yǔ)料庫(kù)構(gòu)建的要求,從期刊、專利中選擇“分布式能源”主題數(shù)據(jù)集,結(jié)合“神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯+統(tǒng)計(jì)機(jī)器翻譯”的機(jī)器翻譯技術(shù),最后通過(guò)人工評(píng)測(cè)的方式,描述了進(jìn)行中英雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建的全過(guò)程。我們發(fā)現(xiàn),在人工智能技術(shù)發(fā)展的大背景下,通過(guò)綜合利用人工智能技術(shù)、大數(shù)據(jù)技術(shù),新型的語(yǔ)料庫(kù)構(gòu)建模式不僅滿足了語(yǔ)言學(xué)自身的發(fā)展,而且通過(guò)工程化的語(yǔ)料庫(kù)構(gòu)建開發(fā)專業(yè)領(lǐng)域語(yǔ)料庫(kù)和服務(wù)標(biāo)桿語(yǔ)料庫(kù),在諸如生命科學(xué)、人種語(yǔ)音等新興前沿領(lǐng)域,都處于專業(yè)領(lǐng)域語(yǔ)料庫(kù)的建設(shè)期,這為本文構(gòu)建的雙語(yǔ)語(yǔ)料庫(kù)的實(shí)施方法提供了豐富的應(yīng)用場(chǎng)景。