王海靜
(山西省社會科學(xué)院語言研究所 太原 030006)
語料是辭書編纂的基礎(chǔ),語料庫是辭書編纂重要的支撐平臺和技術(shù)手段。合理運(yùn)用語料庫進(jìn)行辭書編纂,是辭書編纂現(xiàn)代化發(fā)展的必然趨勢。漢語俗語(包括諺語、歇后語、慣用語、俗成語),是歷代群眾創(chuàng)造并在口語中廣泛流傳的語言單位。它題材廣泛,內(nèi)容豐富,幾乎涉及社會生活的各個方面,是人們世代集體經(jīng)驗和智慧的結(jié)晶,是中華民族文化的重要組成部分。編纂俗語語典不僅是對傳統(tǒng)文化的一種繼承和發(fā)揚(yáng),而且能夠進(jìn)一步促進(jìn)漢語研究的深入發(fā)展。
研究俗語這種特殊的語言材料,編纂高質(zhì)量的語典,更需要語料庫的支持。由于俗語的特殊性,在建設(shè)語料庫時,也需要我們特殊對待,以便同其他專業(yè)語料庫區(qū)分開來。筆者曾在國家社科基金項目“漢語俗語語料的計算機(jī)處理與相關(guān)語言學(xué)問題研究”中承擔(dān)“漢語俗語語料庫”的開發(fā)研制工作,并承擔(dān)完成了山西省社會科學(xué)院2008年度青年課題“基于計算機(jī)語料庫的歇后語研究”任務(wù),完成了“歇后語語料庫模型”?,F(xiàn)總結(jié)兩個語料庫的經(jīng)驗教訓(xùn),對俗語語料庫的建設(shè)及應(yīng)用做一介紹。
現(xiàn)代意義上的語料庫(即狹義的語料庫)應(yīng)具備以下特征:
(1)有明確的建庫目的(學(xué)習(xí)、研究、編纂辭書等);
(2)按照一定標(biāo)準(zhǔn)收集的類型多樣、真實自然的語言材料(口語或書面語);
(3)存儲在計算機(jī)中,并能借助各種計算機(jī)技術(shù)對語料進(jìn)行加工;
(4)具有多種功能、滿足多種用途的語料集合。
用一句話來概括,現(xiàn)代意義上的語料庫是指按一定目的和標(biāo)準(zhǔn)收集各種類型的真實語料,并利用計算機(jī)的存儲、檢索等技術(shù)手段對語料進(jìn)行加工而建立起來的、滿足多種用途的語料集合。語料也是一種特殊的數(shù)據(jù),承載著一定的信息。新世紀(jì),在科學(xué)技術(shù)飛速發(fā)展的強(qiáng)力推動下,計算機(jī)處理文字的能力愈來愈強(qiáng),數(shù)據(jù)庫技術(shù)已經(jīng)發(fā)展得比較成熟,語料庫的設(shè)計和實現(xiàn)完全可以借鑒數(shù)據(jù)庫技術(shù)的發(fā)展成果。
總的來說,“漢語俗語語料庫”、“歇后語語料庫模型”的建設(shè)主要分三個階段:收集整理語料——建立語料模型——編寫應(yīng)用程序軟件。
收集整理語料,要有目的性,并有一定的標(biāo)準(zhǔn),這是建立語料庫的前提。語料的性質(zhì)和特點,從一定程度上決定了語料庫建設(shè)的類型和方法。語料信息是語料庫的核心內(nèi)容。建設(shè)俗語語料庫時,以漢語語匯學(xué)理論為指導(dǎo),根據(jù)俗語的性質(zhì)和特點去甄別收集語料。首先界定什么是俗語;然后對俗語內(nèi)部的歇后語、諺語、慣用語、俗成語進(jìn)行區(qū)分;進(jìn)而保證所收集的俗語全面而典型。
語料庫中的語料應(yīng)該如何存儲,才能全面反映俗語語料的各種特性,顯示出單個語料之間的聯(lián)系,便于用戶從中研究出各種規(guī)律,這就是語料模型的問題。語料模型是語料庫系統(tǒng)運(yùn)行的后臺和基礎(chǔ),正如不同的數(shù)據(jù)模型具有不同的數(shù)據(jù)結(jié)構(gòu)一樣,對于不同的語料,應(yīng)采用不同的語料模型。例如,英漢雙語平行語料庫和《四庫全書》語料庫中,對于語料的組織、存儲等,就不能采用相同的處理方法。語料模型要根據(jù)語料的自身特征來確定,俗語語料庫的建設(shè),關(guān)鍵也在于抓住俗語語料的特點,進(jìn)行分析,尋找最合適的語料構(gòu)成方式,合理組織語料庫的結(jié)構(gòu)模型。
一條俗語語目,附帶有語性、書證、例句等屬性特征,完全可以采用二維表格的形式來描述。因此我們主要采用關(guān)系模型來組織俗語語料。關(guān)系模型是數(shù)學(xué)化的模型,一個表格代表一個關(guān)系,是一個集合,概念清晰,便于用戶理解和使用。關(guān)系模型是一種成熟的數(shù)據(jù)模型,Visual FoxPro、Access等多種數(shù)據(jù)庫軟件都用其組織數(shù)據(jù)。另外,采用關(guān)系模型組織的語料很容易轉(zhuǎn)化為XML數(shù)據(jù)格式,具有很大的通用性。
編寫應(yīng)用程序軟件,是指根據(jù)需求有針對性地開發(fā)出各種功能(如排序、檢索等),有效地實現(xiàn)人機(jī)互動,從龐大繁雜的語料庫中抽取有用信息,使資源得以合理共享?!皾h語俗語語料數(shù)據(jù)庫”共有四種排序方式,實現(xiàn)了四種檢索方式,并在每次檢索完畢后,自動進(jìn)行使用頻率統(tǒng)計;“歇后語語料庫模型”則在此基礎(chǔ)上,根據(jù)歇后語的結(jié)構(gòu)特點,增加了前語和后語分別排列、分別檢索的功能,并實現(xiàn)了整個語料庫程序的可移植性。
目前國內(nèi)建設(shè)的語料庫主要包括英語語料庫、漢語語料庫和平行語料庫。漢語語料庫主要包括口語語料庫、書面語語料庫,書面語語料庫主要為詞匯研究服務(wù),涉及新聞、文學(xué)等語體。我們建立的語料庫,以“俗語”這種特殊的漢語材料為主要內(nèi)容,必然有其自身的特點:
1.收集范圍寬廣
我們所建立的是俗語語料庫,包括諺語、慣用語、歇后語、俗成語四類,語料來源涉及古今經(jīng)典、通俗小說、口頭文學(xué)等各方面。語料庫中不僅收集了大量的不帶例句的俗語語目,而且也收集了適量的帶有例證的俗語。這種做法既有利于單純的語目與帶有例證的語目相互補(bǔ)充配合,又使得語料庫的內(nèi)容相對豐富和完整。
2.檢索手段多樣
檢索功能是語料庫最重要的組成部分。以“歇后語語料庫模型”為例,總的來說,有三種檢索手段:前語檢索、后語檢索和整條檢索。這是根據(jù)歇后語的結(jié)構(gòu)特征來設(shè)計的:“前語檢索”是對歇后語破折號前的“引子”部分進(jìn)行任意字檢索;“后語檢索”是對歇后語破折號后的“注釋”部分進(jìn)行任意字檢索;“整條檢索”是對歇后語語目進(jìn)行任意字檢索,包括諧音檢索。幾種檢索方式可以搭配使用,檢索完畢后,還會自動顯示查找結(jié)果的頻率統(tǒng)計。
例如,在語料庫中檢索“張飛”二字,前語檢索結(jié)果為44條,反過來在后語中檢索,則顯示“沒有匹配內(nèi)容”。同樣,檢索“黃鼠狼”三字,前語檢索結(jié)果為40條,反過來在后語中檢索,也顯示“沒有匹配內(nèi)容”?!皬堬w”是人民大眾熟悉的歷史文化人物,“黃鼠狼”也是人們熟悉的動物形象,他們只在前語中出現(xiàn),而不出現(xiàn)在后語中,說明歇后語中“引子”具有形象色彩、感情色彩、風(fēng)格色彩、身份色彩等,特別是形象色彩幾乎貫穿于每條歇后語。
又如,在語料庫中檢索“不安好心”四字,就可以發(fā)現(xiàn)作為結(jié)論的“不安好心”,只在后語中出現(xiàn),用來給前面的各種描述作“注釋”。另外,除了人們所熟悉的“黃鼠狼給雞拜年——不安好心”外,還有“野貓來給雞拜年——不安好心”、“狐貍裝貓叫——不安好心”兩種說法,此時,即使前語不同,只要后語一樣,就可以歸為同義歇后語。
再如,在語料庫中檢索“對牛彈琴”四字,全部檢索結(jié)果顯示為8條匹配記錄,“對牛彈琴”,可以既當(dāng)前語,又作后語。其中,“對牛彈琴”四字,在前語中出現(xiàn)3次,在后語中出現(xiàn)5次。后語相同的5條歇后語為:“抱琵琶進(jìn)磨房——對牛彈琴”、“抱著琵琶趕大車——對牛彈琴”、“抱著琵琶進(jìn)磨房——對牛彈琴”、“抱著琵琶進(jìn)牛棚——對牛彈琴”、“背著琵琶進(jìn)磨房——對牛彈琴”,都可以歸為同義歇后語。另外3條歇后語為:“對牛彈琴——充耳不聞”、“對牛彈琴——枉費(fèi)心機(jī)”、“對牛彈琴——一竅不通”,雖然前語相同,但后語卻截然不同,不能歸為同義歇后語。
3.分類標(biāo)注語性
“漢語俗語語料庫”中的每條俗語按屬性分類標(biāo)注,分為諺語、歇后語、慣用語、俗成語四類。此外,針對歇后語構(gòu)成上的特殊性,進(jìn)一步標(biāo)出其前后兩部分的語性。通過檢索排序等手段,可以發(fā)現(xiàn)大量語類交叉現(xiàn)象,幫助人們進(jìn)一步劃清語的界限,對于研究不同語類之間的轉(zhuǎn)化,也有一定研究參考作用。
“漢語俗語語料庫”、“歇后語語料庫”除了能為語典編纂提供大量例句外,還有以下四方面的作用。
語匯類辭書要求語目按一定格式排列。語料庫中語料采用多種排序方法:語目音序排列、筆畫排列、書證出處排列、書證作者排列,后兩者采用時代先后排列。具有相同、相似特征的語料排列在一起,便于編寫人員在選擇語目時,按需要導(dǎo)出大量資料,并且進(jìn)行初步排序。
語言總是處在一種“變”的狀態(tài)中,“語”也不可能沒有變體,而且流通時間越長、流通范圍越廣,變體就越多。因此,在編纂語典時,編寫者就需要在意義相近的多條語目中,選擇通用的作為主條,選擇由于地域、時間等因素造成的變體作為副條。表1就是以“情人眼”為檢索關(guān)鍵字,通過“漢語俗語語料庫”檢索出的相關(guān)結(jié)果:
表1 “情人眼”檢索結(jié)果
在檢索出的25項結(jié)果中,“情人眼里出西施”出現(xiàn)了18次,其中古代作品中引用了7次,近現(xiàn)代作品中引用了9次;而“情人眼內(nèi)出西施”、“情人眼里有西施”分別出現(xiàn)了4次、3次,在近現(xiàn)代作品中未出現(xiàn)。這個數(shù)據(jù)能夠在一定程度上反映出“情人眼里出西施”是最通用的,可以作為主條,而其他兩條則可以作為副條收錄。由此可見,利用語料庫的檢索手段,特別是語料庫的自動統(tǒng)計頻率功能,可以迅速將同義或異形的語排在一起,顯示出變體,并可以根據(jù)“語”出現(xiàn)的頻率統(tǒng)計,確定主、副條。
俗語也存在一條語目包含多個義項的情況,使用語料庫進(jìn)行檢索可以幫助避免義項遺漏。比如諺語:“聞名不如見面,見面勝似聞名”,其常用意義為:“聽說一個人的名聲,不如親眼見到本人來得真切;見到了本人,比聽說的名聲更好。含褒義。舊時多作為見面時的客套話?!比欢ㄟ^檢索語料庫,就可以看到如下兩條例句:
①《水滸全傳》四回:“那官人下馬,入到里面,老兒請魯提轄來,那官人撲翻身便拜道:`聞名不如見面,見面勝似聞名,義士提轄受禮。'”
②《后西游記》三二回:“聞名不如見面,見面勝似聞名。人人久傳你孫大圣的名頭,我只道你是他嫡派子孫,又傳了金箍鐵棒的道法,定然是個三頭六臂的好漢,卻怎生得這般尖嘴縮腮,猴子般的模樣?”
例①所表達(dá)的是人們比較熟悉的意思,例②所表達(dá)的感情色彩則與例①完全相反,指聽說的只是虛名,親眼見到后才知不怎么樣,含貶義。類似于這樣排列在一起的例句,使編者可以一目了然地發(fā)現(xiàn)同一語目的多義性,做出完整、合理的注釋。
諺語、歇后語、慣用語、俗成語之間都或多或少地存在語類交叉的現(xiàn)象。如下例:
①康濯《東方紅》一五章四:“他們下車以后,首先就碰到商業(yè)局……非要留住他們細(xì)細(xì)談?wù)劜少?、運(yùn)轉(zhuǎn)當(dāng)中的經(jīng)驗和問題!好老天!這不是叫他們魯班門前耍大斧!”
②《紅樓夢》一九回:“寶玉笑道:`再不說了。那原是那小時不知天高地厚,信口胡說,如今再不敢說了。'”
③ 劉紹棠《鄉(xiāng)土》:“我說:`人家說這號生馬難整,只有他敢掛,物缺為貴嘛!'`花腳王'一捋胡子:`魯班門前掄斧,不知天高地厚。他掛掌劉的老爺爺是俺爺爺?shù)耐降?差輩呢!'”
例①“魯班門前耍大斧”是慣用語,比喻在行家面前逞能賣弄。例②“不知天高地厚”也是慣用語,形容人不知道事情的艱難,自高自大。例③組成“魯班門前掄斧——不知天高地厚”則為歇后語,形容人狂妄自大,過高估計了自己。一條歇后語包含了兩個慣用語,三個例句語意各有差別。這種語類交叉的現(xiàn)象,通過語料庫的特殊處理,能夠清楚地表現(xiàn)出來,供編寫者在編纂辭書時參考。
在兩個語料庫的語料錄入問題上,我們雖然采用了OCR掃描錄入、光盤電子書復(fù)制錄入、網(wǎng)上搜集等方法,但首先必須人工識別出大量語料中的俗語,挑選出來再進(jìn)行錄入工作。也就是說,目前還無法從大量連續(xù)的自然文本語料中,自動識別出哪些是俗語,再將有用信息提取出來。漢語中“語”的使用非常靈活,特別是歇后語在結(jié)構(gòu)上的特殊性,使得它的自動切分和識別更加困難。例如:
①我可是個好強(qiáng)的人,什么事我都想得開,窗戶紙兒,一戳就透。(浩然《艷陽天》四九章)
②“師兄!”橋隆飆道,“這是層窗戶紙,一捅就破呀,你為什么不早捅開?”(曲波《橋隆飆》八)
③后來才知道他有個姓陳的女朋友,倆人的關(guān)系很好,只隔一層薄窗戶紙——一捅就破,就是誰也不先開口。(李英儒《野火春風(fēng)斗古城》五章二)
可以看到,“語”的結(jié)構(gòu)并不像詞那樣固定,這三條同義歇后語,前后兩部分可以分開運(yùn)用,破折號可以換成逗號,語節(jié)之間還可以加入其他成分。其他語類的結(jié)構(gòu)也存在不同程度的非固定性。因此,如何針對“語”的結(jié)構(gòu)利用已有的詞的自動切分成果,實現(xiàn)“語”的自動切分,是我們今后要解決的問題。
“漢語俗語語料庫”和“歇后語語料庫模型”的所有語性的標(biāo)注都是人工進(jìn)行的,這無疑增加了語料庫建立的繁復(fù)性。而且目前國內(nèi)對于俗語的定性分類還沒有統(tǒng)一的標(biāo)準(zhǔn),我們采用的是溫端政先生《漢語語匯學(xué)》(商務(wù)印書館,2005)一書中的分類標(biāo)準(zhǔn)。該分類標(biāo)準(zhǔn)主要將俗語分為四類:諺語、歇后語、慣用語、俗成語。其中,諺語是表述性的,慣用語是描述性的,歇后語則是引注式的,成語則是“二二相承”的四字格形式。請看下例:
①楊錦元《芹菜炒魷魚》:魷魚中含有鈣、鐵元素,對骨骼發(fā)育和造血十分有益,且含大量的?;撬?可抑制血中膽固醇含量。而芹菜有降壓消脂的作用。芹菜炒魷魚是很好的降壓搭配,不妨試試吧。
②王玉平等《中國的金領(lǐng)階層》:“他很幸運(yùn)地被聘為技術(shù)員,但他找不到事業(yè)的感覺。在最初的日子里,他竟連續(xù)炒了五個老板的魷魚?!?/p>
例①里的“炒魷魚”,是特指煎炒菜肴,屬于詞組。例②里的“炒魷魚”,就是比喻解雇或辭職,是慣用語。因為魷魚片本來是切得又平又直,一下油鍋就自動卷成圓筒狀,和卷起來的鋪蓋外形差不多,所以人們多用作比喻義“卷鋪蓋走人”。可見,即使實現(xiàn)了自動分語,計算機(jī)能夠從大量的文本資料中提取出“語”的相關(guān)資料,對于這些定性及分類標(biāo)準(zhǔn)也是無法理解的,因此必須先建立起標(biāo)準(zhǔn)的機(jī)讀語料庫。如何設(shè)計編成完整精確的機(jī)讀語料庫,是需要進(jìn)一步開發(fā)的大工程。
擴(kuò)大、完善俗語語料庫的工作,仍有很長的路要走。辭書編纂以語料庫為基礎(chǔ),語料庫要以語言學(xué)和計算機(jī)技術(shù)的發(fā)展為基礎(chǔ)。因此,辭書編纂者最好既有語言學(xué)的理論功底,又有豐富的辭書編纂經(jīng)驗,同時還能夠熟練地掌握計算機(jī)技術(shù),具有一定的編程經(jīng)驗,這樣才能不斷完善語料庫。好的語料庫經(jīng)過稍許的加工提煉,就可以作為辭書編纂的輔助平臺,不僅能夠幫助編纂者又好又快地編寫出高質(zhì)量的辭書,還能加快電子辭書的編制過程。
1.馮志偉.計算語言學(xué)基礎(chǔ).北京:商務(wù)印書館,2001.
2.馮志偉.應(yīng)用語言學(xué)綜論.廣州:廣東教育出版社,2001.
3.李寶安.中文信息處理技術(shù)原理與應(yīng)用.北京:清華大學(xué)出版社,2006.
4.劉開瑛.中文文本自動分詞和標(biāo)注.北京:商務(wù)印書館,2000.
5.王馥芳.當(dāng)代語言學(xué)與詞典創(chuàng)新.上海:上海辭書出版社,2004.
6.溫端政.漢語語匯學(xué).北京:商務(wù)印書館,2005.
7.俞士汶.計算語言學(xué)概論.北京:商務(wù)印書館,2004.
8.張紹麒.辭書與數(shù)字化研究.上海:上海辭書出版社,2005.
9.章宜華.計算詞典學(xué)與新型詞典.上海:上海辭書出版社,2004.
10.Douglas Biber等.語料庫語言學(xué).北京:外語教學(xué)與研究出版社,2000.