摘? 要: 隨著信息技術(shù)的迅速發(fā)展,在大數(shù)據(jù)背景下,如何讓紅色資源助力大別山精神研究、大別山地區(qū)精準扶貧和提升河南省的外宣工作,這不僅涉及資源數(shù)據(jù)的整合與開放,也客觀上要求相關(guān)文本的規(guī)范與共享。經(jīng)科學取樣、語料的校對和修訂,及借助計算機分析加工的雙語平行語料庫,就是很好的語言資源支撐和科技引領(lǐng)。
關(guān)鍵詞: 大別山精神; 平行語料庫; 語料
中圖分類號: H315.9? ? ? ? ? 文獻標志碼: A? ? ? ? ? 文章編號: 1671-2153(2020)04-0093-05
大別山是中國共產(chǎn)黨重要的建黨基地,也是中國革命走向全面勝利的戰(zhàn)略轉(zhuǎn)折地,創(chuàng)造了“28年紅旗不倒”的奇跡,留下了厚重的紅色文化遺產(chǎn),孕育了“堅守信念、胸懷全局、團結(jié)奮進、勇當前鋒”的大別山精神。信陽是大別山革命老區(qū)的重要組成部分,也是紅色旅游的經(jīng)典路線。
2019年9月,習近平總書記在河南考察,來到信陽鄂豫皖蘇區(qū)首府革命博物館,緬懷革命先烈,追憶崢嶸歲月,提出“要講好黨的故事、革命的故事、根據(jù)地的故事、英雄和烈士的故事”,這既讓我們看到新時代傳承紅色基因的重要意義,也讓我們思考如何研究好紅色歷史、講述好紅色故事、傳播好紅色聲音。
2019年10月26日,河南省信陽市委市政府攜同大別山革命老區(qū)高校聯(lián)盟、信陽師范學院共同成立大別山精神研究院。這是學習貫徹習近平總書記考察調(diào)研河南重要講話精神、促進大別山革命老區(qū)振興發(fā)展的一項重大舉措,為進一步研究、闡釋和宣傳大別山精神提供了重要平臺,對于統(tǒng)籌推進大別山革命老區(qū)可持續(xù)發(fā)展意義重大。
一、國內(nèi)外相關(guān)領(lǐng)域建設(shè)現(xiàn)狀和趨勢
語料庫是以大量收集的客觀語料為基礎(chǔ)的文本集合。雙語平行語料庫就是源語文本和目標語文本經(jīng)過機器和人工采集校對后,進行詞(術(shù)語)、句級或段級層面的對齊,再輔以相應的檢索和查詢工具,從而使對齊的語料發(fā)揮實用價值。近年來,無論是在語言信息處理領(lǐng)域還是語言學研究領(lǐng)域,語料庫的重要作用均已經(jīng)得到充分的認可,國際國內(nèi)在語料庫的建設(shè)和研究方面均做了大量的工作。
關(guān)于語料庫的研究及建設(shè)方面,西方發(fā)達國家一直處在領(lǐng)先水平和前沿陣地。很多成果已成功服務(wù)于信息檢索、專業(yè)領(lǐng)域翻譯、翻譯記憶、信息檢索、計算機輔助教學、語言教學與文化研究等各個領(lǐng)域。就國內(nèi)語料庫建設(shè)而言,雖落后于發(fā)達國家,但也取得了一定成效,在旅游、科技、軍事、經(jīng)濟、農(nóng)業(yè)等領(lǐng)域建立了一些知名的專業(yè)語料庫。如北京外國語大學王克非教授主持的漢英通用型對應語料庫、香港理工大學構(gòu)建的旅游資源雙語語料庫、山東旅游資源平行語料庫、全國科學技術(shù)名詞審定委員會在線語料庫、上海交通大學的科技英語語料庫、解放軍外語學院的軍事英語語料庫和新聞?wù)撜Z體俄語語料庫、北京第二外國語學院的全國公示語翻譯語料庫、中國農(nóng)業(yè)科學院的多語種農(nóng)業(yè)詞庫和農(nóng)業(yè)翻譯平臺等。國內(nèi)相關(guān)領(lǐng)域的語料庫雖然不多,但通過文獻檢索發(fā)現(xiàn),一些政府機構(gòu)和高?;蜓芯繖C構(gòu)人員已著手建設(shè)或構(gòu)想語料庫設(shè)計模式。擬構(gòu)建的語料庫有:貴州外宣雙語語料庫、安徽紅色旅游雙語語料庫、安徽外宣翻譯雙語平行語料庫、南昌英漢紅色文化平行語料庫、贛南紅色旅游英漢平行語料庫。這些地方性的特定用途平行語料庫將能高效宣傳當?shù)氐莫毺刭Y源,從而提升地方品牌和影響力。而針對于大別山精神傳播、紅色資源宣傳、旅游及外宣領(lǐng)域的語料庫構(gòu)建和研究,在河南省尚屬空白,鑒于此,構(gòu)建大別山紅色資源平行語料庫,既可以汲取上述已建庫者的寶貴經(jīng)驗,也可以以點帶面,進一步為河南焦裕祿精神、紅旗渠精神及相關(guān)文化傳播和旅游宣傳,提供良好的案例和相關(guān)技術(shù)支撐。
二、河南省大別山紅色資源漢英平行語料庫構(gòu)建的意義
(一)理論研究的意義
首先,擬構(gòu)建的語料庫是一個多模態(tài)平行語料庫,對音頻、視頻和文字語料等多種信息進行集成,這將為大別山精神的傳播和研究提供一個很好的范式和便捷的入口。其次,建成的語料庫提供大量有據(jù)可尋的真實語料,除紅色旅游資源和紅色教育基地領(lǐng)域,還包括地方方言和習俗、地方紅色文化歷史、紅色藝術(shù)作品的素材,也將服務(wù)于翻譯研究、紅色文化研究、地方研究等。尤其是翻譯研究,越來越注重地方化特點,基于語料庫對比的翻譯研究和文化研究也是國際相關(guān)學術(shù)領(lǐng)域的前沿陣地。擬建的語料庫對于本省乃至全國各類研究機構(gòu)的涉豫涉紅色文化的翻譯理論和實踐研究、文化研究,可提供一個較全面而權(quán)威的資源庫。
(二)實踐意義
大別山紅色資源語料庫對于信陽乃及河南的對外宣傳、走向國際、旅游品牌提升和留存革命史料等方面具有積極的意義。作為革命老區(qū),各級政府一直關(guān)注信陽的發(fā)展,中央也提出弘揚大別山精神,充分發(fā)揮紅色資源優(yōu)勢。建立相應的紅色資源語料庫,抓住面臨的時代機遇,也是響應國家總體發(fā)展規(guī)劃,順應時代發(fā)展的需要。擬建的語料庫對相關(guān)文本及術(shù)語翻譯進行規(guī)范和統(tǒng)一,對信陽的紅色資源文化進行整合和歸類,這其中涵蓋許多并未被充分挖掘和宣傳的紅色資源。對于提升城市品牌和保存多樣性的紅色資源具有很好的實踐意義。
就翻譯教學和信陽旅游業(yè)本地化翻譯服務(wù)而言,語料庫的權(quán)威性、動態(tài)性、真實性是一般輔助工具和人力無法替代的。翻譯的實施越來越注重機器輔助和語料的支持,本語料庫可容納大量權(quán)威、具有時代特色的中英文例句,將其應用到翻譯教學中,可促進高質(zhì)量翻譯人才的培養(yǎng)。其次,語料庫構(gòu)建過程中標記的雙語語料可以作為翻譯記憶的材料,進而為以后的紅色文化翻譯工程提供良好的范式和參考。
三、構(gòu)建河南省大別山紅色資源漢英平行語料庫的緊迫性
(一)提升大別山紅色旅游和紅色教育基地相關(guān)文本的英譯質(zhì)量
信陽遍布紅色旅游景區(qū)和紅色教育基地,如新縣鄂豫皖蘇區(qū)首府、許世友將軍故里、商城縣金剛臺紅軍洞群、羅山縣何家沖紅二十五軍長征出發(fā)地、光山縣鄧穎超祖居等景點或舊址;以及信陽“不忘初心、牢記使命”主題教育展館、大別山干部學院、信陽馬克思主義學院、鄂豫皖革命紀念館、何家沖學院等主題教育基地。但通過實地調(diào)研一些紅色旅游景點和教育基地發(fā)現(xiàn),相關(guān)文本翻譯問題凸顯,如文化誤譯、錯譯、漏譯、語法錯誤、語用失誤、專有名稱譯文不一致等問題十分常見。在創(chuàng)建語料庫過程中,專家會對這些語料進行整理,進行反復的校對和修訂,確保語料的規(guī)范與準確。擬建的語料庫也會對漏譯的文本進行補充,這將使大別山的紅色資源英譯得到一定程度的改善。
(二)傳播大別山紅色文化
河南雖是中部大省,但對外宣傳遠遠不足,尤其是身處大別山腹地的信陽。信陽除了擁有豐富的有形紅色資源,還擁有國家級非物質(zhì)文化遺產(chǎn)“大別山民歌”和皮影戲,如《八月桂花遍地開》等紅色歌曲,羅山、商城縣的《紅色的種子》《桐柏兒女》《林海雪原》《烽火山》等皮影戲劇目;近些年出版了《大別山革命簡史》《紅色印記》等紅色文化書籍,編著了《固本清源》《化人文鑒》等黨內(nèi)政治文化建設(shè)讀物。如何將這些資源整合,并建立一個有效獲取和共享利用的網(wǎng)絡(luò)服務(wù)平臺,基于語料庫的資源提取和整合是很切實可行的方式。大別山紅色資源漢英平行語料庫,在紅色文化和“互聯(lián)網(wǎng)+”時代下的對外宣傳之間架起橋梁,以更迅捷、更立體的渠道傳播大別山紅色文化。
四、大別山紅色資源漢英平行語料庫的設(shè)計思路
擬建的語料庫是可用于大別山精神研究及紅色文化宣傳的漢英平行語料庫。該庫由多個子庫組成,收錄原始語料約100萬字,庫容300萬字的語料庫(紅色旅游景點、紅色教育基地、紅色非物質(zhì)文化遺產(chǎn)代表性語料的集合)。該庫集合多種功能軟件,如自動分詞軟件、自動標注軟件、檢索系統(tǒng)軟件等。該庫應能為相關(guān)領(lǐng)域的河南省外宣語料庫的建設(shè),作一些理論上的探討和實踐上的嘗試,為大別山精神研究提供一個可共享的數(shù)據(jù)平臺。
在建庫過程中可運用國內(nèi)外語料庫建設(shè)和研究的相關(guān)理論,選取有效的代表性樣本和研究工具,開展研究工作。在項目實施過程中進行技術(shù)工具設(shè)計和平臺建設(shè)。工具主要包括建庫工具和檢索工具,而平臺則包括語料庫單機檢索平臺和網(wǎng)絡(luò)檢索平臺。
大別山紅色資源漢英平行語料庫的建庫流程可設(shè)計如下:(1)語料庫的建庫原則;(2)語料的選取與抽樣;(3)語料的校對和錄入;(4)語料的分詞和標注;(5)語料的對齊;(6)語料庫在線檢索平臺及術(shù)語庫的生成。其中,在宏觀上應著重考慮下述問題。
(一)語料庫相關(guān)產(chǎn)業(yè)技術(shù)原則
與語料庫相關(guān)的產(chǎn)業(yè)技術(shù)政策較少,目前通用的有以下兩個:
其一,由中國標準研究中心編制的國家標準《建立術(shù)語語料庫的一般原則和方法》(標準號:GB/T 13725-2001)于2001年11月發(fā)布,2002年6月1日起正式實施。該標準規(guī)定了建立術(shù)語語料庫的一般原則和方法。適用于語料庫的研究、開發(fā)、維護及有關(guān)管理工作。
其二,2018年11月19日,在改革開放40年與語言服務(wù)創(chuàng)新發(fā)展論壇暨2018中國翻譯協(xié)會年會上,中國翻譯協(xié)會發(fā)布了《語料庫通用技術(shù)規(guī)范》。《語料庫通用技術(shù)規(guī)范》是中國翻譯協(xié)會為規(guī)范語料庫市場推出的首部具有指導意義的行業(yè)規(guī)范,填補了我國乃至國際語料庫規(guī)范領(lǐng)域的空白。該規(guī)范將為建設(shè)和科學評估語料庫,推進語料庫在翻譯及語言服務(wù)、學術(shù)研究及其他相關(guān)領(lǐng)域中的應用,提供參考依據(jù)和標準。語料庫研究的標準如此之少,反映了我國在這方面的研究水平與國外有很大差距,需要引起足夠的重視。
(二)大別山紅色資源漢英平行語料庫的規(guī)模
“對于任何抽樣語料庫,在開始的時候必須確定它的規(guī)模大小。”該庫可初定庫容300萬字,由多個子庫組成,收錄原始語料約100萬字?!傲硗?,如果一個語料庫不能反映它所抽取的文件的規(guī)模和形態(tài),那就是很危險的事情,這個語料庫只能被視作不完整的材料集合,從這種由不完整材料所構(gòu)成的語料庫中只可得到少量的模式?!贝髣e山紅色資源豐富,在選取語料素材時如何對其進行科學的分類?擬建的語料庫不應是大雜燴,可按類別分為以下三個子庫:紅色旅游景點、紅色教育基地、紅色非物質(zhì)文化遺產(chǎn)(大別山民歌、皮影戲等)。三個子庫下面針對不同的題材或重點也有其相關(guān)的子庫。
大別山紅色文化形式多樣,如何將圖片、文本、音頻、視頻等整合到一起,也是應考慮的問題。語料庫是典型的跨學科研究和應用,以漢英平行語料庫為例,它涉及英漢語言學、翻譯學、計算機、機器翻譯和機輔翻譯等領(lǐng)域。對于本項目中涉及的文本、音頻和圖像等多模態(tài)語料(如紅色民歌、皮影戲),在建庫過程中可根據(jù)研究目的采用已有的加工工具(如ELAN)進行處理和標注。
(三)大別山紅色資源漢英平行語料庫的語料選取與抽樣
本語料庫語料選取可考慮下面三個渠道:第一,從權(quán)威的官方發(fā)行物(書籍、期刊、音視頻等)收集語料;第二,從非發(fā)行物(如網(wǎng)站、旅游推介資料)中選取,在此過程中需要注意語料的準確性,應進行權(quán)威的校對和修訂;第三,針對部分翻譯不全、錯譯較多或沒有對應英文的語料,可選擇自己制作電子文本。為確保取樣的代表性和權(quán)威性,抽樣時使用分層選樣的方法,在漢語語料中確認三個不同的文本領(lǐng)域后,在每一類文本中采用隨機抽取的方法取得樣本。
(四)大別山紅色資源漢英平行語料庫的分詞和標注
由北京外國語大學王克非教授主持的全國哲社科重大項目“大規(guī)模英漢平行語料庫的建立與加工”中曾提出,“為了增強語料庫的開放性,鑒于目前句法標注技術(shù)和語義標注技術(shù)尚不成熟,研究中只對語料庫進行詞性標注,不宜進行句法標注和語義標注,但語料庫應采用通用的翻譯記憶庫格式保存,以方便交流”。本庫的標注也適用于該技術(shù)原則。
(五)相關(guān)術(shù)語庫的生成
紅色文化翻譯的關(guān)鍵和難點在于地方文化專有名詞和紅色文化相關(guān)術(shù)語。關(guān)鍵術(shù)語和專有名詞的翻譯關(guān)系著術(shù)語一致性和譯文質(zhì)量,因此,其在大別山紅色資源漢英平行語料庫建設(shè)中享有重要地位。在大別山紅色資源漢英平行語料庫的研制階段,應將術(shù)語庫的自動生成作為大別山紅色資源漢英平行語料庫的主要構(gòu)成部分和技術(shù)目標。一方面,在建庫過程中可借鑒谷歌神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)或Trados、雅信等CAT機輔翻譯軟件,或借助在線輔助翻譯系統(tǒng)MemoQ的術(shù)語庫創(chuàng)建和生成步驟,將對齊后的漢英平行文本導入數(shù)據(jù)庫,以自動生成基本的術(shù)語表。另一方面,也可利用自然語言處理或語料庫技術(shù),加以人工干預,在保證準確性和一致性的前提下對相關(guān)術(shù)語和專有名詞進行自動抽取。
五、大別山紅色資源漢英平行語料庫擬實現(xiàn)的預期效益
首先,大別山紅色資源漢英平行語料庫建成后,使用通用語料庫檢索軟件均能檢索該庫。它可為河南省的外宣工作,如文化、旅游、品牌形象宣傳等,提供一個在線的檢索平臺,也可作為河南省外宣翻譯工作者的參考資料庫使用。
其次,對于2019年10月26日河南省信陽市委市政府攜同大別山革命老區(qū)高校聯(lián)盟、信陽師范學院共同成立的大別山精神研究院,該庫可提供大量有據(jù)可尋的真實語料和規(guī)范的英漢文本,對“大別山精神”的形成、內(nèi)涵及其時代價值提供更廣闊的視野,為大別山精神研究、紅色文化研究、地方研究(如方言研究和保護)提供多樣性的素材。
再次,該研究項目將打破學科壁壘,促進語言學、歷史、計算機技術(shù)、機器翻譯、機輔翻譯等學科的交叉融合,以更廣闊的歷史視野和跨學科背景,來研究大別山精神。擬建的語料庫在充分發(fā)揮學科群協(xié)同效應的基礎(chǔ)上,將在傳承發(fā)展大別山精神、傳播弘揚紅色文化方面做出特色,進而促成大別山精神的研究提檔升級,使研究工作能進入國家層面,大別山精神真正進入國家層級。
最后,在大別山紅色資源漢英平行語料庫構(gòu)建過程中標記的雙語語料,可以作為翻譯記憶的材料,進而為以后的紅色資源或紅色旅游翻譯工程、或建立更大型的相關(guān)平行語料庫,提供良好的范式和參考。
六、結(jié)語
語料庫是典型的跨學科研究和應用,它涉及計算機、機器翻譯、機輔翻譯、翻譯學和英漢語言學等領(lǐng)域,隨著信息技術(shù)的迅猛發(fā)展,特別是大型數(shù)據(jù)庫和機器翻譯技術(shù)(如谷歌的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù))的日趨普及和成熟,語料庫將更多地運用到語言研究、歷史研究、文化宣傳等工作中。如何弘揚革命精神、傳承紅色基因,基于語料庫的大別山精神宣傳和大別山精神研究在河南省相關(guān)領(lǐng)域尚屬空白,擬建的大別山紅色資源漢英平行語料庫,可提供大量有據(jù)可尋的真實語料和規(guī)范的英譯文本,可為大別山精神研究、紅色文化研究、地方研究和翻譯研究等提供規(guī)范、翔實的素材和切實可靠的科研數(shù)據(jù)平臺。
參考文獻:
[1] Kress G. &van Leeuwen T.,Reading Image:The Grammar of Visual Design[M]. London/New York:Routledge,1996:183.
[2] McEnery,T. & Xiao,Z. Parallel and Comparable Corpora:What Is Happening?[C]//In M. Rogers and G. Anderman(eds). Incorporating Corpora. The Linguist and the Translator. Clevedon:Multilingual Matters,2007:18-31.
[3] 顧曰國. 多媒體、多模態(tài)學習剖析[J]. 外語電化教學,2007(2):3-12.
[4] 洪增流,朱玉彬. 安徽外宣翻譯雙語平行語料庫建設(shè)的構(gòu)想[J]. 合肥師范學院學報,2008(2):101-103.
[5] 孟玲云. 文化自信視野下紅色文化的培育[J]. 四川省社會主義學院學報,2017(04):62-64.
[6] 王克非. 新型雙語對應語料庫的設(shè)計與構(gòu)建[J]. 中國翻譯,2004(6):73-75.
[7] 王克非. 中國英漢平行語料庫的設(shè)計與研制[J]. 中國外語,2012(6):23-27.
[8] 王克非,熊文新. 用于翻譯教學與研究的英漢對應語料庫加工處理[J]. 外語電化教學,2009(6):3-9.
[9] 魏黎. 紅色旅游英譯及英漢語料庫的構(gòu)建:以安徽省為例[J]. 湖北經(jīng)濟學院學報,2018(1):111-114.
[10] 肖忠華. 肖忠華語料庫語言學答客問[J]. 語料庫語言學,2015(2):1-14.
[11] 謝家成. 小型英漢平行語料庫的建立與運用[J]. 解放軍外國語學院學報,2004(3):45-48.
[12] 楊明星,吳麗華. “互聯(lián)網(wǎng)+”背景下多模態(tài)、多語種外交話語平行語料庫設(shè)計與創(chuàng)建探析[J]. 外語教學,2018(6):13-17.
[13] 周杰,陳娟. 貴州對外宣傳平行語料庫的建設(shè)和應用[J]. 貴州大學學報(社會科學版),2013(3):147-152.