崔 樂
(中國傳媒大學文學院,北京 100024)
語料庫在《對外漢語新詞語詞典》微觀結構中的運用
崔 樂
(中國傳媒大學文學院,北京 100024)
隨著計算機技術的發(fā)展與語料庫技術的日益成熟,語料庫在詞典編纂中的巨大功用已成為共識?!秾ν鉂h語新詞語詞典》是面向以漢語作為外語的中高級水平學習者的外向性、積極型學習詞典。語料庫在《對外漢語新詞語詞典》編纂中的運用滲透在每一個微觀結構中,語料庫技術提供的豐富的語言知識與語言資源使詞典編纂更加方便快捷,有力地促進了外向性詞典編纂由傳統的經驗型向現代的科學型轉變。
語料庫;《對外漢語新詞語詞典》;微觀結構;運用
《麥克米倫高階英語詞典》對語料庫的定義為:“a collection of written and spoken language stored on computer and used for language research and writing dictionaries.”[1]定義顯示語料庫最基本的用途之一就是詞典編纂?!秾ν鉂h語新詞語詞典》是面向以漢語作為外語的中高級水平學習者的外向性、積極型學習詞典,是專為外國學習者“量身定做”的、能夠滿足其查詢和學習新詞語需求的對外漢語學習詞典。筆者參與了這一詞典的編纂實踐。該詞典編纂時主要運用了國家語言資源監(jiān)測語料庫,也根據需要輔助使用其他語料庫來改進詞典微觀結構的編纂。
利用語料庫輔助詞典編纂的傳統由來已久,可以追溯至17世紀。英語詞典編撰之父Samuel Johnson編纂《英語語言詞典》時,為保證引證來源的真實權威,為大約4萬個詞條從當時150年間的名家名作中收集了15萬余條例句,建立了第一個用于詞典編撰的大型手工語料庫。James Murray在編纂《牛津英語詞典》時,曾用手工方式從公元1000年之后的英語文學作品中選取了500萬條引證作為編纂詞典的基礎。1961年出版的韋氏第三版詞典則使用了包含約1 000萬條例句的語料庫來解釋說明近50萬個詞條的意義和用法。韋氏第三版很可能是最后一部應用手工語料庫編纂而成的大型英語詞典[2-3]。1961年布朗語料庫(Brown Corpus)在美國誕生,這是世界上第一個機讀語料庫。1978年,英國建成結構與布朗語料庫基本相同的LOB語料庫(Lancaster-Oslo-Bergen Corpus)。但限于自身規(guī)模,這兩個語料庫并未引起詞典學界的興趣。1980年,柯林斯出版公司和伯明翰大學合作建立COBUILD語料庫,并基于該語料庫的數據陸續(xù)出版了一系列COBUILD詞典。COBUILD語料庫是世界上最大的經過切分標注的語料庫,到20世紀90年代已達3.2億詞的規(guī)模。朗文—蘭開斯特語料庫(Longman-Lancaster Corpus)是繼COBUILD語料庫之后建立的中型語料庫,由含有5 000萬詞的語料組成。之后建立的英國國家語料庫(British National Corpus)由含有1.17億詞的語料組成。這三個語料庫成為20世紀90年代柯林斯出版公司、朗文出版社、牛津大學出版社等編纂詞典的重要資源[4]。如今,隨著計算機技術的不斷發(fā)展與語料庫技術的日益成熟,語料庫在詞典編纂中的運用日益普及。著名的詞典學家Landau預言:“從長遠的觀點來看,真正使用語料庫將成為全世界詞典編纂的一條準則?!保?]
語料庫在詞典中的巨大應用價值已成為詞典編纂者的共識。那么,語料庫究竟對于詞典編纂有何效用呢?下面以《對外漢語新詞語詞典》為例予以說明,語料庫在該詞典中的功用可以呈現在表1中。下文將以詞典的微觀結構為序一一闡述。
表1 語料庫在詞典微觀結構中的應用
長期以來,傳統的新詞語詞典主要靠人工閱讀的方式在報章雜志中選取詞目,具有很大的偶然性、局限性與主觀性,難以全面地搜羅新詞語。自2007年起,國家語言資源監(jiān)測與研究中心首次采用語料庫自動提取技術搜集當年產生的新詞語,先用機器自動篩選出新詞語候選集,再經人工審核,剔除不合標準的詞語。這種基于語料庫的新詞語搜獲手段較之傳統手段更為科學可靠。《對外漢語新詞語詞典》的詞目多源自新詞語資源庫,資源庫中的大部分詞條均提取自國家語言資源語料庫。該語料庫具有“流通度高、開放性強、規(guī)模巨大”三個特點。語料范圍囊括了主流的、影響力較大的報紙語料、廣播電視語料、網絡新聞語料,且以每年度10億字次的規(guī)模持續(xù)滾動增加?!暗侥壳盀橹?,各子語料庫都已經積累了從2000年到最近的語料,總體規(guī)模近50億字次。完全具備了自動搜獲新詞語的基礎條件?!保?]
《對外漢語新詞語詞典》收錄詞語的一個重要原則是高頻性原則。高頻性是指詞語在語言生活中常見常用。鑒于這部詞典的功用是輔助學習者進行解碼與編碼活動,故所收詞目應以供學習用的積極詞匯為主,允許收錄少量供查詢與理解用的消極詞匯,不收冷僻、低頻的非常用詞。只有保證詞典的詞目以積極詞匯為主體,才不會模糊積極學習型詞典的定位。收詞時,篩選詞目候選集所參考的兩個重要指標就是詞目在語料庫中的頻次與文本數,二者分別反映出詞語的常用程度與流通范圍。此外,還借助互聯網,在“百度新聞”中檢索考察詞語頻次,保留高頻詞,剔除低頻詞。
語料庫所提供的詞頻不僅可以在收詞時決定詞語的去留,還可以決定詞形的選擇。新詞語在產生之初往往是不穩(wěn)定的,不論是詞義還是詞形都處于動態(tài)變化中,常常有多種詞形表示同一語義。當一個詞義具有多個不同詞形時,應在不同詞形中選取一個相對高頻的詞形作為詞目。例如:在“青年旅館、青年旅舍、青年旅社”中選擇“青年旅館”作為詞目;在“人體炸彈、人肉炸彈”中選擇“人體炸彈”作為詞目;在“洗面奶、潔面乳”中選擇“洗面奶”作為詞目。在幾種詞形中,頻次相對較高的詞形作為詞目出現,頻次相對較低的詞形如果也足夠高頻,就在釋義中以“也寫作……”、“也稱……”的形式介紹出來;如果不夠高頻的話就可能只是非正式、不規(guī)范的寫法,不必介紹。例如,“發(fā)飆”與“發(fā)彪”相比較,兩個詞形的頻次有絕對差距,“發(fā)彪”的頻次很低,那么“發(fā)彪”就只是不規(guī)范寫法,不應該以“也寫作……”的形式介紹出來。
當幾個同義異形詞都有必要收錄進詞典時,不同詞語的釋義方向是從副詞條指向主詞條。這就需要利用語料庫考察頻次,選取高頻詞作為主詞條。低頻詞作為副詞條,以參見主詞條的方式來釋義。例如:【部落格】參見“博客”?!倦娨曋变N】參見“電視購物”。
對于讀音有分歧的詞語,可以在口語語料庫中考察其讀音,根據從俗從眾的原則,選取高頻的發(fā)音方式作為詞典的規(guī)范讀音。由中國傳媒大學開發(fā)的傳媒語言語料庫是國家語言資源語料庫的子語料庫,既包括音視頻文件,也包括轉錄的文本文件。對于讀音有爭議的詞語,可以首先在文本語料中進行檢索,進而追蹤該詞語在對應的視頻或音頻中的發(fā)音。由于廣播電視媒體的有聲語言具有很強的示范性,因此從該語料庫中統計得到的讀音結果的可信度和權威性較高。
當詞典編纂者不能確定詞目詞的詞性時,可以通過語料庫檢索出的大量語料考察詞性。例如,對于“糗、暈、抓狂、腦殘”等表示心理狀態(tài)的詞語的詞性存在爭議?!?007漢語新詞語》[7]將“腦殘”標注為動詞,但從詞語在檢索語料中的使用情況來看,這個詞可以受程度副詞修飾,可以作定語修飾名詞,可以替換為“傻、笨、愚蠢”,屬于形容詞。同理,“糗、暈、抓狂”也標注為形容詞。
在標注兼類詞的不同詞性時,應先標注相對高頻使用的詞性,再標注相對低頻使用的詞性。語料庫為考察兼類詞不同詞性的使用情況提供了充足語料。以“小資”為例,在傳媒語言語料庫2007年、2008年的廣播電視語料中,一共檢索出125例(檢索語料片段如圖1),剔除諸如“小資產階級、小資金、小資料”等偽詞頻后,頻次為69。其中,名詞用法為47例(68%);形容詞用法為22例(32%)。因此“小資”的詞性標注為“名詞/形容詞”。
圖1 “小資”在語料庫中的檢索結果片段
當為詞目詞選取對等或近義的英文翻譯時,利用英漢雙語平行語料庫輔助翻譯可以大大提高翻譯的準確率。平行語料庫將一種或多種語言形式出現的文本及其譯文在段落層次上左右對齊,在句子乃至短語層面盡量相對應。由于平行語料庫收錄的譯文多出自專家之手,可以保證翻譯的規(guī)范與準確,因而被廣泛應用于翻譯領域[8]。在雙語詞典的編纂中,利用雙語平行語料庫可以保證英語譯文忠實、地道。
很多時候,外國學習者對詞語的概念意義已經理解清楚,句法規(guī)則也已掌握,但生成的句子還是有礙交際,其原因往往是違背了語用規(guī)則。詞語的語用規(guī)則是詞語在具體語境中遵守的隱性的規(guī)則,往往不易引起人們注意。通過語料庫檢索工具可以大量分析詞語運用的真實語境,發(fā)掘出一些具有規(guī)律性的語用規(guī)則。語料庫提供的上下文語境有助于顯示出詞語的感情色彩。例如,“死黨”原本是個貶義詞,但當表示“親密的好朋友”這個新義時則是褒義詞,這可以從上下文語境中“要好、親密、友情”等共現詞中體現出來。語料庫還可以顯示詞語主要用于哪種語體中。如果檢索出的文本特點具有某些共通性,則說明詞語具有固定的語體特征。例如,通過語料庫檢索發(fā)現,“驚爆”多用于新聞標題中,“抓手”多用于政府公文或領導講話中。
詞語的句法特征包括詞類、句法功能、常見搭配等。以“小資”為例,通過分析檢索語料可以發(fā)現,“小資”是名形兼類詞,當“小資”作名詞時,最常見的用法是與“情調”共現;做形容詞時,常受程度副詞“很、那么、這么、比較”等修飾。搭配是“在自然說話或寫作中,兩個或兩個以上的單詞在一起出現的頻率比它們與其他詞在一起出現的頻率高的詞語組合”。“只要搭配中有些成分固定不變,其他部分也可以有所變化。”[5]搭配往往是隱匿在言語之中,只有通過語料庫才能發(fā)現。例如“抓手”一詞,在國家語言資源語料庫中檢索該詞不難發(fā)現(檢索語料片段如圖2),其常用在下列結構中:“以……為抓手”、“把……作為……的抓手”、“……是……的重要抓手”。
圖2 “抓手”在語料庫中的檢索結果片段
釋義是詞典編纂的核心環(huán)節(jié)。確定詞語內容的所指范圍是一項復雜的工作,需要掌握好準確性與包容性的平衡。著名詞典學家Landau曾用畫圓圈的比喻來闡述二者關系[5]:如果把釋義看成是一個圓圈,圈內是成千上萬密密麻麻的任意圓點,每個點都代表著詞語的一個具體用法。圓圈的外圍分布著一些零散的點兒,這些點代表詞典釋義未能包含的用法。如果圈外圓點的用法數量增大到一定程度,圓圈就要適當擴大。編詞典時既要把相關用法包含進來,又要不至于把圈擴得太大。不能簡單地認為詞典釋義未能包含的用法就是錯誤的,因為釋義僅僅是從“大多數”用法中抽象出來的意義。詞典釋義的過程就如同一個“畫圓圈”的過程,而圓圈的邊界則是由一個個“圓點”來決定的。語料庫提供的大量語料顯示出的詞語用法就是這一個個“圓點”。因此,若想考察“圓點”的分布范圍,必須借助語料庫檢索工具。只有對詞語所在真實語境中的大量自然言語進行抽象分析,才能提取出核心義位。對于多義詞的語義而言,則有不只一個“圓圈”,“圓點”的分布狀況更為復雜。這時就更需要借助語料庫來甄別不同用法的語義區(qū)別,以歸納出不同的義項。以“超女”為例,在國家語言資源語料庫中的檢索語料片段如圖3??梢钥闯?,“超女”既可以指比賽,也可以指比賽選手。因此歸納出兩個義項:①“超級女聲”比賽的簡稱。②指參加“超級女聲”比賽的選手。一般而言,義頻越高,義項被收錄的可能性就越大,義頻越低,義項被收錄的可能性就越小。
圖3 “超女”在語料庫中的檢索結果片段
多義詞的不同義項依照義頻排序,常用的放在前面,次常用的放在后面。之所以按照頻率排列義項,是為了方便用戶鎖定目標義項。因為越是常用的義項,被查閱的概率就越高,優(yōu)先將常用義項置前,可以節(jié)省用戶的查找時間;即便排在前面的義項不是用戶所要查找的義項,用戶也可以輕易跳過這個他已經熟知的義項,繼續(xù)向后查找。根據義頻排列義項可以大大節(jié)省用戶的查找時間。例如,“城市病”既可以指城市存在的社會問題,也可以指這些社會問題帶給人的疾患。通過語料庫考察可發(fā)現前者更為常見。因此,義項排序為:“①現代大城市普遍存在的社會問題,如人口增多、交通擁擠、環(huán)境污染等;② 由于上面原因使城市人容易得的疾病?!庇秩?,“小資”根據詞性的頻次高低應按“名詞/形容詞”的順序進行詞性標注。相應地,義項排序與詞性順序保持一致:“①名詞。指追求物質和精神享受、講究生活品味和情調的人。② 形容詞。形容人或環(huán)境有品味、有情調?!?/p>
傳統的詞典編纂采用的例證主要來自現有的報刊書籍,編者需要花費大量時間和精力從印刷資料中摘選例句,既拖延了編纂周期,又往往難以找到合適的例句。而借助于語料庫,則可以輕松迅捷地找到大量例句。從語料來源來看,外向性學習詞典主要采用改編例和自撰例。語料庫可以為改編例句提供大量原始語料,編者可以從中挑選適合的語料加工編輯,編寫出既難度適宜又能體現詞語真實用法的例句。如果編者選擇自撰例句,應盡量讓不同例句的內容有所區(qū)別,以保證例句內容的多樣性與趣味性。當編者“詞窮”或缺乏靈感之時,語料庫里的大量例句可以為編寫例句提供語境參考,激發(fā)出編者的創(chuàng)作靈感。
《對外漢語新詞語詞典》的知識窗板塊用于向讀者介紹與詞目詞相關的背景知識,并根據需要有意識地輸入文化信息。由此,其所提供的知識應當精確、權威,避免含糊或錯誤的表述。為了保證知識的客觀性,避免夾雜編纂者的主觀因素,就必須借助語料庫。語料庫為編者采集合適的背景知識提供了大量可供選擇的語料,既減輕了搜集信息的勞動量,又能保證信息來源的準確性。但由于語料來源的紛繁復雜,并不能保證所有語料信息一定都是權威準確的。因此,編者不能不加批判地盲目引用語料,應當根據語料庫顯示的語料出處評估語料信息的權威性,盡量選取主流媒體發(fā)布的權威信息作為知識來源。
隨著計算機技術的發(fā)展與語料庫技術的日益成熟,語料庫在詞典編纂中的巨大功用已成為共識。語料庫在《對外漢語新詞語詞典》中的運用滲透在每一個微觀結構中,語料庫技術提供的豐富的語言知識與語言資源使詞典編纂更加方便快捷,有力地促進了外向性詞典編纂由傳統的經驗型向現代的科學型轉變。
[1]麥克米倫出版有限公司.麥克米倫高階英語詞典[K].北京:外語教學與研究出版社,2003.
[2]劉慶榮.語料庫與詞典編纂[J].上海師范大學學報,2001,30(3):109 -112.
[3]楊曉軍,李賽紅.語料庫在詞典編撰中的優(yōu)勢——兼評《牛津高階英語學習詞典》(第6版)[J].外語與外語教學,2003(4):47-51.
[4]Cowie A P.英語學習詞典史[M].北京:外語教學與研究出版社,2002.
[5]Landau,Sidney.詞典編纂的藝術與技巧[M].北京:商務印書館,2005.
[6]侯敏,周薦.2008漢語新詞語[K].北京:商務印書館,2009.
[7]侯敏,周薦.2007漢語新詞語[K].北京:商務印書館,2008.
Application of Corpus in Microstructure of New Words Dictionary of CFL
CUI Le
(Communication University of China,Beijing 100024,China)
With the development of computer technology and corpus technology,application of corpus technology to lexicography has become consensus.The new words dictionary of CFL is a kind of foreigner-oriented,active dictionary which is specially compiled for learners who regard Chinese as a foreign language and have middle or high level language competence.Corpus is fully employed to enhance the compilation of every microstructure of the dictionary.The rich language knowledge and language resources provided by corpus make compilation of dictionary more convenient and efficient,and strongly promote the transformation of compilation of foreigner-oriented dictionary from experiencebased method to Science-based method.
corpus;new words dictionary of CFL;microstructure;application
H164
A
1674-8425(2011)10-0084-06
2011-03-15
崔樂(1986—),男,河北滄州人,博士研究生,研究方向:應用語言學、詞典學。
(責任編輯 王烈琦)