□葛曉帥 司艷輝
Sinclair在《Corpus, Concordance, Collocation》中寫到“當(dāng)同時(shí)觀察大量的語料時(shí),語言看上去會(huì)截然不同(The language looks rather different when you look at a lot of it at once.)?!盵1](P:100)為了能夠大量觀察語料,在上世紀(jì)六十年代,美國布朗大學(xué)的學(xué)者率先建成了世界上第一個(gè)大型電子語料庫,即著名的布朗語料庫(Brown Corpus)。自此,語料庫日益成為語言研究和調(diào)查的重要方法。
我國的電子語料庫建設(shè)始于1979年武漢大學(xué)建立的漢語現(xiàn)代文學(xué)作品語料庫。之后,國內(nèi)涌現(xiàn)了一大批通用或?qū)S谜Z料庫,如清華大學(xué)建設(shè)的現(xiàn)代漢語語料庫,廣東外語外貿(mào)大學(xué)與上海交通大學(xué)合作研制的中國學(xué)習(xí)者語料庫(CLEC)等。專用語料庫中關(guān)注摘要這一語類的并不多見,現(xiàn)有的也主要關(guān)注期刊摘要[2][3]。近年雖出現(xiàn)了對碩博士論文摘要的研究,也集中在語言學(xué)領(lǐng)域的論文[4][5]。這些語料庫一般庫容較小,僅包含幾十上百篇摘要;語種單一,僅搜集英文摘要,通常用于中外摘要的對比研究。牛桂玲[2]創(chuàng)建的中外學(xué)術(shù)論文中英文摘要語料庫是筆者所知的唯一一個(gè)中英文平行摘要語料庫,其搜集的摘要也都來自權(quán)威期刊。對碩博士論文摘要的研究,尤其是平行語料的研究,尚且無人涉及。
碩博士論文是學(xué)生階段學(xué)術(shù)水平和寫作水平的集中體現(xiàn)。無論漢語摘要還是英語摘要,都經(jīng)過反復(fù)修改潤色,反映了一個(gè)學(xué)生對兩種語言駕馭的最高水平。碩博士論文摘要的研究對漢語和英語的教學(xué)有重要啟示,如輔助翻譯教學(xué),學(xué)術(shù)英語教學(xué)等。
碩博士論文摘要的研究如此匱乏,思考其背后的原因,筆者認(rèn)為缺乏研究對象,也就是缺乏碩博士論文摘要的語料是重要因素。期刊摘要較易獲取,通常可通過期刊所在出版社網(wǎng)站檢索到完整的摘要;碩博士論文摘要?jiǎng)t難以獲取,構(gòu)建一個(gè)大型碩博士論文摘要語料庫更是費(fèi)心費(fèi)力。我們經(jīng)過兩年的搜集和整理,研制了山東農(nóng)業(yè)大學(xué)碩博士論文摘要語料庫(后簡稱山農(nóng)摘要語料庫)。
語料庫的建設(shè)必須首先進(jìn)行總體設(shè)計(jì)和規(guī)劃。山農(nóng)摘要語料庫設(shè)計(jì)包含兩個(gè)子語料庫:一是翻譯語料庫,二是平行語料庫。
翻譯語料庫包含所有可獲取的碩博士論文中英文摘要以及語料的元信息。在翻譯語料庫基礎(chǔ)上對各年份和學(xué)科進(jìn)行抽樣,通過人工對齊雙語語料,建成具有代表性和平衡性的句級平行語料庫。
翻譯語料庫由彼此具有翻譯關(guān)系的原文與譯文構(gòu)成,但原文與譯文之間沒有進(jìn)行段落、句子乃至詞語層面上的對齊處理。[2](P:35)一篇碩博士論文的漢語摘要與其對應(yīng)的英語摘要構(gòu)成一對翻譯語料,將多篇論文摘要搜集整理可構(gòu)成翻譯語料庫。山農(nóng)摘要語料庫的子庫即翻譯語料庫計(jì)劃包含所有可獲取的山東農(nóng)業(yè)大學(xué)碩博士論文的摘要。
1.語料的采集
語料來源為中國知網(wǎng)。采集知網(wǎng)全部學(xué)位授予單位為山東農(nóng)業(yè)大學(xué)的碩博士論文中英文摘要。
具體檢索方式為:打開知網(wǎng)檢索頁,選擇“博碩士”論文庫,選擇檢索條件為“學(xué)位授予單位”,輸入“山東農(nóng)業(yè)大學(xué)”檢索。
山東農(nóng)業(yè)大學(xué)1978年獲批碩士點(diǎn),1986年開始招收博士研究生;但早期碩博士論文未進(jìn)行電子化,知網(wǎng)可獲取的最早論文為2000年的1篇碩士論文。
截至2017年9月28日,按照上述檢索條件,在知網(wǎng)可搜索到10 539篇碩博士論文,其中53篇在網(wǎng)頁上無摘要或摘要不完整(博士6篇,碩士47篇),可獲取摘要的論文共10 486篇。
綜上,摘要的時(shí)間分布范圍為2000年至2017年9月底,共采集10 486篇論文的雙語摘要。
2.采集內(nèi)容
根據(jù)總體設(shè)計(jì),除了中英文摘要本身外,應(yīng)盡可能采集語料的元信息,包括中文標(biāo)題、英文標(biāo)題、副標(biāo)題、作者姓名、指導(dǎo)教師姓名、學(xué)科專業(yè)、級別(碩士或博士)、寫作年份、中文關(guān)鍵詞、英文關(guān)鍵詞、下載數(shù)量等。元信息越詳盡,越能豐富今后的研究角度。
3.具體采集步驟
(1)按照上述采集條件檢索出符合條件的論文列表。
(2)點(diǎn)擊結(jié)果的“中文提名”打開其中文摘要頁面。
(3)將中文摘要頁面網(wǎng)址中開頭的“kns”替換為“eng.oversea”,點(diǎn)擊回車即可看到中英文摘要頁面。
(4)采集頁面上所需信息。
4.語料的存儲(chǔ)
語料的常用存儲(chǔ)方式為純文本文件,純文本文件便于讀寫,但難以存儲(chǔ)元信息,難以按照指定條件查找特定文本。例如,在純文本文件中查找2015年果樹學(xué)方向的所有博士論文英文摘要很難實(shí)現(xiàn)。雖然有在文件頭部添加元信息標(biāo)簽的方案,但元信息標(biāo)簽會(huì)污染原文,給后續(xù)的檢索工作帶來麻煩。
山農(nóng)摘要語料庫采用數(shù)據(jù)庫存儲(chǔ)的方式。數(shù)據(jù)庫文件可以簡單理解為常用的MS Excel工作簿,一個(gè)數(shù)據(jù)表相當(dāng)于Excel的一個(gè)工作表(sheet),一個(gè)數(shù)據(jù)表的字段類似于Excel表的一列。每篇論文的摘要占一條記錄,即一行,每條記錄都包含下面各字段(列)內(nèi)容:
表1 語料庫存儲(chǔ)表字段設(shè)計(jì)
數(shù)據(jù)庫存儲(chǔ)有兩個(gè)優(yōu)勢:
(1)分字段存取
不同信息被分別存入不同字段,可按需求導(dǎo)出。
例如上文提到的2015年果樹學(xué)方向的所有博士論文英文摘要,只需要按照指定條件寫出SQL查詢語句:
“SELECT EnglishAbstract FROM Abstracts WHERE writtenYear=’2015’AND discipline=’果樹學(xué)’AND sourceDatabase=’博士’;”
即可從數(shù)據(jù)庫中導(dǎo)出語料為純文本文件,構(gòu)成符合要求的語料庫。這種便利性是純文本存儲(chǔ)方式無法實(shí)現(xiàn)的。
(2)方便數(shù)據(jù)分析
每篇摘要均有一些常用的描述性指標(biāo),如單詞數(shù),平均詞長,平均句長等。取得這些指標(biāo)數(shù)據(jù)后存入相應(yīng)字段,會(huì)為之后的數(shù)據(jù)分析提供極大便利。
翻譯語料庫在語料存入數(shù)據(jù)庫后即已完成,可根據(jù)研究需要導(dǎo)出純文本文件,隨時(shí)構(gòu)建語料庫。翻譯語料庫總庫容為漢英摘要各10 486篇,漢語摘要共計(jì)10 828 933字次,英語摘要共計(jì)6 277 006詞次。
完成翻譯語料庫的建設(shè)后,下一步是建設(shè)平行語料庫。
平行語料庫是指收錄某一源語言文本及其對應(yīng)的目的語文本的語料庫,不同語言文本之間構(gòu)成不同層次的平行對應(yīng)關(guān)系[6](P:33)。平行語料可在語料庫級,篇章級,句子級和句珠級等層次進(jìn)行對齊。[7](P:9)鑒于當(dāng)前自然語言處理以句子為單位,因此大部分雙語語料是以句對形式出現(xiàn)。[8](P:221)句對即為句子級別對齊,山農(nóng)平行語料庫同樣采用主流的句對齊方式。
語料之間的平行對齊處理是一項(xiàng)難度較高而且耗費(fèi)時(shí)間和精力的工作。[6](P:34)漢英語料按照句子對齊需要大量的人工介入,將篇章級對齊的一萬多篇語料進(jìn)行一一句子對齊在短期內(nèi)難以完成,鑒于此,我們進(jìn)行了科學(xué)分層抽樣,考慮了學(xué)科、年份、碩博士論文比例后選取了596篇論文的中英文摘要進(jìn)行人工對齊。
1.句子的界定標(biāo)準(zhǔn)
對齊語料需要將漢語句與其譯文英文句子一一對齊。在對齊前首先要進(jìn)行句子劃分。句子的劃分標(biāo)準(zhǔn)通常采用句號、問號及感嘆號。然而考慮到摘要本身的特點(diǎn),如漢語句多用長句,有時(shí)一段話僅包含一個(gè)句子,而其對應(yīng)英文翻譯卻包含多個(gè)句子。咨詢相關(guān)專家后,在不影響句義完整性的條件下,可將部分冒號和逗號也作為句子的界定標(biāo)準(zhǔn),即如果按照冒號或逗號進(jìn)行劃分能夠得到更小的句對,則按照冒號或逗號劃分句子。在實(shí)踐中,漢語句的逗號是常見的句子劃分標(biāo)準(zhǔn)。
2.對齊操作
對齊操作采用Tmxmall Aligner[9]在線對齊系統(tǒng)。Tmxmall Aligner是一款在線的免費(fèi)雙語對齊工具,有自動(dòng)句對齊功能,如果提前進(jìn)行了段落級別的對齊,其自動(dòng)句對齊效果也非常顯著,能大量減少人工對齊的負(fù)擔(dān)。
每一篇選定的論文漢英摘要各存入一份純文本文件,漢語文件以“論文編號-CN.txt”命名,英語文件以“論文編號-EN.txt”命名。如某篇論文編號為205011089,則其對應(yīng)漢語文件名為“2015011089-CN.txt”,英語文件名為“2015101089-EN.txt”。
我們首先對團(tuán)隊(duì)成員進(jìn)行對齊操作培訓(xùn),并進(jìn)行試對齊。統(tǒng)一標(biāo)準(zhǔn)后進(jìn)行正式對齊操作。
分配對齊任務(wù),團(tuán)隊(duì)成員在線進(jìn)行對齊操作,完成后導(dǎo)出對齊的tmx格式文檔,文件名為論文編號。tmx格式是通用的翻譯記憶庫交換格式,各大翻譯輔助軟件如Trados等均支持tmx文件。
匯總tmx文件,將tmx文件轉(zhuǎn)換為純文本文件即建成句子級對齊平行語料庫。
平行語料庫總庫容為漢英摘要各596篇,對齊句數(shù)15 849句對,漢字676 355字次,英文356 257詞次。
3.平行語料庫檢索軟件的開發(fā)
平行語料庫建成后,我們考察了現(xiàn)有的四款平行語料庫檢索軟件,發(fā)現(xiàn)各有優(yōu)缺點(diǎn),但均無法滿足我們的需要,如ParaConc是收費(fèi)軟件,其他的軟件或者無法處理大規(guī)模語料,或者對中文支持不友好。借鑒各軟件的優(yōu)點(diǎn),并設(shè)計(jì)增添了新的特性后,我們自行開發(fā)了SDAU-ParaConc平行語料庫檢索軟件。該軟件除支持純文本文件外還可直接導(dǎo)入tmx文件檢索,自動(dòng)識別對齊方式,檢索速度更快,結(jié)果界面更友好,能大幅減少語言研究者的學(xué)習(xí)使用成本。軟件現(xiàn)可在北外語料庫語言學(xué)工具頁[10]下載。
綜上所述,山農(nóng)摘要語料庫構(gòu)成可總結(jié)為下述圖表:
圖1 山農(nóng)摘要語料庫的構(gòu)成
建成的山農(nóng)摘要語料庫有三個(gè)特點(diǎn)。第一,全面性。該語料庫是首個(gè)對一所院校的碩博士論文摘要全面收錄的語料庫。第二,首創(chuàng)性。該語料庫的平行語料庫子庫是第一個(gè)碩博士論文摘要漢英平行語料庫。第三,靈活性。語料存儲(chǔ)采用數(shù)據(jù)庫方式,便于按需導(dǎo)出語料。
以上三個(gè)特點(diǎn)使得語料庫可分可合,可橫向?qū)Ρ纫部煽v向?qū)Ρ?。將語料分為單語語料庫,可進(jìn)行漢語或英語單語研究;將語料合并,可進(jìn)行翻譯研究;將語料按照不同學(xué)科分割,可進(jìn)行學(xué)科間的橫向?qū)Ρ?;按照年份劃分語料則可進(jìn)行學(xué)科內(nèi)的縱向?qū)Ρ妊芯俊?/p>
語料庫建設(shè)是基礎(chǔ)建設(shè),在其基礎(chǔ)上能夠開展多種多樣的研究。可預(yù)見的研究方向有:
語言研究:對摘要語言特征進(jìn)行研究,如詞匯、句法、文體等。
翻譯研究:碩博士論文摘要是一項(xiàng)漢譯英翻譯活動(dòng),可進(jìn)行翻譯的顯化隱化研究,翻譯錯(cuò)誤研究等,這些研究能進(jìn)一步促進(jìn)翻譯教學(xué)的改革。平行語料庫還可作為機(jī)器翻譯記憶庫,進(jìn)行計(jì)算機(jī)輔助翻譯研究。
教材編寫:EAP教材可以從相關(guān)學(xué)科語料獲取詞表等輔助教材編寫。
文獻(xiàn)計(jì)量學(xué)研究:文獻(xiàn)計(jì)量學(xué)與語料庫語言學(xué)都依賴關(guān)鍵詞分析。[11](P:36)對學(xué)校發(fā)表的碩博士論文進(jìn)行文獻(xiàn)計(jì)量學(xué)研究能夠?yàn)閷W(xué)校的學(xué)科建設(shè)和發(fā)展提供參考。
山農(nóng)摘要語料庫的研制填補(bǔ)了大型碩博士論文摘要語料庫的空白,其采用的數(shù)據(jù)庫存儲(chǔ)方式為語料庫增添了強(qiáng)大的靈活性,能夠按照研究者的需要提供相應(yīng)的語料庫,供研究者進(jìn)行多種角度的研究。其平行子庫,是第一個(gè)碩博士論文摘要句級對齊平行語料庫,在計(jì)算機(jī)輔助翻譯、翻譯教學(xué)研究等方面均可提供支持。我們還開發(fā)了平行語料庫檢索軟件SDAU-ParaConc,獲得了同行認(rèn)可,也為未來研究提供了便利的工具。
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2018年3期