盛玉麒
摘 ?要:運(yùn)用基于語料庫的知識挖掘方法,采用“二級標(biāo)注”模式獲得詞類次范疇的類型信息,深入挖掘現(xiàn)代漢語兼類詞的隱性知識,期待為語言教學(xué)與研究、語言信息處理、網(wǎng)絡(luò)輿情分析等諸多領(lǐng)域的理論與實(shí)踐提供積極的參考。
關(guān)鍵詞:語料庫;兼類詞;隱性;知識挖掘
一、語言研究的語料庫轉(zhuǎn)向
(一)網(wǎng)絡(luò)時(shí)代新趨勢
一個(gè)轉(zhuǎn)向(哲學(xué)的語言學(xué)轉(zhuǎn)向)和兩個(gè)革命(信息革命和語言學(xué)革命)引起了語言學(xué)研究范式的語料庫轉(zhuǎn)向?;谡Z料庫的知識挖掘幾乎涵蓋了所有基礎(chǔ)科學(xué)和應(yīng)用學(xué)科。各種與人類活動相關(guān)的行為和心理情感傾向,都可以從語言交際、言語行為、話語方式中發(fā)現(xiàn)端倪和深層次的信息。
網(wǎng)絡(luò)對人類社會活動的多維度映射,構(gòu)建出豐富多彩、生機(jī)勃勃的認(rèn)知世界,成為獲取信息、知識的廣域資源庫。語言學(xué)的實(shí)證主義研究路線獲得了無比充分的海量語料,幾乎可以從任何一個(gè)角度、定量分析、探索解決任何復(fù)雜性問題。
(二)“約定俗成”的背后
語言是一個(gè)音義結(jié)合的交際符號系統(tǒng)?!耙袅x結(jié)合”是語言的心理認(rèn)知屬性,“交際”是語言的社會功能屬性,“符號”是語言的編碼屬性,而“系統(tǒng)”則是語言的組織結(jié)構(gòu)屬性。
對于所有使用母語的人來說,都是在幼兒階段(語言習(xí)得關(guān)鍵期),就毫不費(fèi)力地“獲得”了母語的“聽說”能力,詞匯句法語義,甚至包括常用的語用規(guī)則。3-5歲的兒童所獲得的母語能力,可以終生享用的同時(shí),也在習(xí)焉不察中“獲得”了母語“賦予”的認(rèn)知、思維、邏輯、文化等“模式”或“模態(tài)”,并且非常牢固地將這些“內(nèi)化”為“習(xí)慣”。
這一現(xiàn)象可以從心理學(xué)的“獲得性無助”假說得到令人信服的解釋。因此,“習(xí)慣”了的語言又具有了“制度性”特征——只能服從其規(guī)則并受規(guī)則的約束,久而久之,不但習(xí)慣了這種規(guī)則,能“自由”地“享用”這些規(guī)則,甚而“自覺”地用這些規(guī)則指導(dǎo)和幫助其他人更好地“掌握”和“使用”這些規(guī)則。通常在對一些語言現(xiàn)象說不出合理解釋的時(shí)候,最后一句擋箭牌就是“習(xí)慣”。
(三)“習(xí)慣”的背后
具有“下意識”特點(diǎn)的“習(xí)慣”往往會成為實(shí)施語言內(nèi)部“監(jiān)控”的制度性規(guī)則①。這里面的機(jī)制很耐人尋味。對于每一個(gè)咿呀學(xué)語階段的兒童來說,無法參與“約定俗成”,只有默默地服從和接受所有的規(guī)則。偶爾有自己的創(chuàng)造,也會輕易地被“大人們”給“糾正”過來。
大人們之間的話常常會有自己的創(chuàng)新、創(chuàng)造,有充分自主的選擇性,互相影響交互作用的發(fā)生都是建立在自主選擇的基礎(chǔ)上。新詞、新語、新用法說的人多了,就逐漸被“約定俗成”。這個(gè)“習(xí)慣”的背后,實(shí)際上是“統(tǒng)計(jì)學(xué)”的“大數(shù)定律”在起作用。好像選舉制度的“多數(shù)決”規(guī)則,只不過語言的“多數(shù)決”只有無條件服務(wù)于社會每個(gè)成員,卻沒有任何權(quán)利關(guān)系,因此也就非常平和自然。貢獻(xiàn)者無名無利,使用者無憂無慮。
(四)“群體無意識”的背后
“群體無意識”是一個(gè)社會心理學(xué)術(shù)語,指的是群體對于涉及每個(gè)人的事情或規(guī)則表現(xiàn)出無可無不可的態(tài)度。雖然與所有人有關(guān),卻認(rèn)為與己無關(guān),漠不關(guān)心。
因?yàn)槟刚Z的規(guī)則系統(tǒng)是所有母語者自幼獲得的能力——毫無例外——所有人都“習(xí)慣”地自然而然地遵從。沒有任何勉強(qiáng)和絲毫的不快。感覺不到規(guī)則對于個(gè)人的言語行為有任何不適應(yīng)。這種“群體無意識”的規(guī)則的存在等于“不存在”。
但是,對于二語習(xí)得者和從事二語教學(xué)者來說,這種“群體無意識”的規(guī)則系統(tǒng),恰恰是應(yīng)該發(fā)現(xiàn)、提取和研究的“隱性”語言知識的重點(diǎn)。
(五)語言知識的顯性與隱性
1.顯性知識
語言的顯性知識都是有特征標(biāo)記的。例如構(gòu)詞語素、搭配關(guān)系、上下文等,都是顯而易見的存在。書面上所有的漢字都是“形音義”的統(tǒng)一體。讀者可以根據(jù)詞典釋義獲知該字的形音義解釋,從而獲知漢字語素所構(gòu)成的詞語的“原型”意義。所謂“白紙黑字,鐵證如山”,所有這些都有案可稽,有書為證,查而可知、信而可證。
漢字的構(gòu)型理性很注重意義,如果某個(gè)人名字中有“女”旁的字,就可以推斷主人是位女性。漢語的親屬稱謂能清楚地區(qū)別復(fù)雜的親屬關(guān)系。社會稱謂也有標(biāo)志性,“張?zhí)帯薄袄罹帧薄巴蹩偂钡鹊?,都是顯性的知識。
但是因?yàn)闈h語沒有形態(tài),很多語義都依靠語境提示和補(bǔ)充,例如“有關(guān)單位”“有關(guān)部門”“相關(guān)人員”等,都模糊不清但又經(jīng)常會遇到。這些模糊的表達(dá)一旦離開了上下文,可能就不知所云。
而“顯性知識”在具體的語境應(yīng)用中也往往會“失效”,甚至?xí)`導(dǎo)讀者理解真實(shí)語義。例如:“花”在詞典的解釋中兼有名詞、動詞、形容詞等不同用法。“眼花了不戴花鏡看什么都花里花噠的”,寫出來都是一個(gè)“花”字,說出來的語音也沒有什么不同,但在句中不同位置的意義和句法功能卻不一樣。這種差異要由具體的上下文語境提供“區(qū)別性特征”①。由此看來,詞典中的“顯性知識”還不是真正的“顯性”。
“上”的顯性知識是表示空間方位的意義,但是,“說不上”“吃不上”“看不上”中的“上”與空間意義無關(guān);“下去”表示動作行為的空間趨向意義,“看不下去”“吃不下去”和“活不下去”中的“下去”都不是空間趨向意義。
這些不能直接從顯性知識推導(dǎo)出真實(shí)語義的,都是隱性知識在起作用。
2.隱性知識
幾乎所有非直接使用“原型”語義用法的,都存在著隱性知識。例如:“一臉的無奈”“背一屁股債”中的“一”,不能換成“二”或“三”等其他的數(shù)詞,這就隱含了“一”在句中并非等同一般數(shù)詞;而在“一看見我扭頭就走”中的“一”,就更明顯不是數(shù)詞而是副詞了。
又如回答“你都知道啥?”的問話時(shí),說“我能知道啥?我啥都不知道!”,這三句話中的“啥”都隱含疑問代詞的非疑問用法,都需要結(jié)合上下文語境才能正確理解。
因?yàn)闈h語沒有形態(tài)、語法范疇主要依靠虛詞和語序來表達(dá),而句法、語義、語用則要依靠具體的上下文語境獲得解釋。這就使得漢語“隱性知識”的類型和數(shù)量遠(yuǎn)遠(yuǎn)超出顯性知識。
以往的語言學(xué)研究,有“例不十法不立”的原則,意思是只有十個(gè)以上的例證,才能確立一條規(guī)則。這雖然是很基礎(chǔ)的標(biāo)準(zhǔn),由此也看出傳統(tǒng)的依靠看資料、抄卡片搜集例證的研究方式,委實(shí)辛苦不易。相比之下,通過語料庫方法,發(fā)現(xiàn)隱性知識的工具和技術(shù)手段都不可同日而語。
二、語料庫的資源價(jià)值
(一)大規(guī)模真實(shí)文本
1.大規(guī)模
我國第一部《現(xiàn)代漢語頻率詞典》[1]由北京語言學(xué)院語言教學(xué)研究所專家團(tuán)隊(duì)采用人工和計(jì)算機(jī)相結(jié)合的辦法,從1979年11月到1985年7月完成,歷時(shí)將近6年。共統(tǒng)計(jì)了200萬字的語料,統(tǒng)計(jì)到不同漢字4000余個(gè),不同詞語31000余條[2]。目前研究生畢業(yè)論文寫作自建語料庫的規(guī)模一般也動輒數(shù)千萬字符。由此可見,在信息網(wǎng)絡(luò)時(shí)代,大規(guī)模真實(shí)文本語料庫給語言研究提供了多么優(yōu)渥無比的便捷和資源。
2.多樣化
語言能力的無限性和語言規(guī)則的能產(chǎn)性,讓所有使用語言的健全人幾乎可以隨心所欲地自由思考和表達(dá)。個(gè)性化的話語方式和話語作品成就了語言的多樣化特征。同義、近義、大同小異的話語方式、不同地域、不同領(lǐng)域、不同職業(yè)、不同年齡、不同性別等差異,都會產(chǎn)生不同的話語特征。從多樣化中提取語言知識是語言習(xí)得、教學(xué)與應(yīng)用研究的重要內(nèi)容。
3.復(fù)雜性
世界上凡是與人有關(guān)的幾乎都具有“復(fù)雜性系統(tǒng)”的屬性特征。心理、行為、情感、審美、興趣、性格等差異,在語言態(tài)度、話語方式、語體風(fēng)格、語用原則等方面,形成不同的色彩特征。戰(zhàn)狼式的狂懟、醉漢似的豪言;脫口秀的口無遮攔、謙謙君子的溫文爾雅;閨蜜般的私語,鄉(xiāng)愿樣的調(diào)侃,冠冕堂皇的高大上,滴水不漏的外交辭令,菜市大媽的斤斤計(jì)較,網(wǎng)群之間的連珠吐槽……,隨著網(wǎng)絡(luò)的普及發(fā)展,網(wǎng)絡(luò)語言和網(wǎng)絡(luò)文化隨之日新月異。從全息角度看待信息爆炸帶來的網(wǎng)言網(wǎng)語和多元化話語方式,不再簡單作為邊緣化“噪音”雪藏,而是當(dāng)成客觀性真實(shí)話語的自然常態(tài),是知識挖掘的寶貴資源。
4.真實(shí)性
從100年前結(jié)構(gòu)主義語言學(xué)之父索緒爾提出“語言”和“言語”的區(qū)別,并強(qiáng)調(diào)通過言語研究語言的主張以來,實(shí)證主義一直成為語言學(xué)界遵從的不二法則。即使在喬姆斯基唯理主義的“語言學(xué)革命”大潮中,基于實(shí)證主義的研究路線仍然穩(wěn)居學(xué)界的主流。許多形式句法研究者也大量采用豐富的例證,細(xì)致入微地分辨“能說的”和“不能說的”、“合法的”和“不合法的”話語方式。說到底,真實(shí)性仍然越來越彰顯出頑強(qiáng)的生命力和有效的解釋力。因此,真實(shí)文本語料庫就是語言研究價(jià)值的唯一寄托和依靠。
社會語言學(xué)創(chuàng)始人拉波夫?yàn)榱苏{(diào)查到“真實(shí)話語”可謂絞盡了腦汁。“人們的話語隨場合的不同而不同(包括風(fēng)格、社團(tuán)、家庭、社會、地位等等),這并不稀奇,也不難理解。難就難在如何讓說話人能下意識地說出你讓他說的話。這是一個(gè)極其重要的問題,因?yàn)槿绻貌坏秸f話者最自然、最真實(shí)的話語,那么一切結(jié)果都不可靠?!盵3]
(二)充分必要
基于語料庫的隱性知識挖掘必須實(shí)現(xiàn)充語料和研究對象的“充分必要”。這不僅是數(shù)量規(guī)模上要滿足充分和必要性,同時(shí)在操作過程中也要體現(xiàn)出來。
當(dāng)代語言學(xué)界對于研究的充分必要主要體現(xiàn)在“充分描寫、充分解釋和充分預(yù)測”上。
1.開放資源的可控方式
開放的網(wǎng)絡(luò)資源,洶涌如潮的海量信息,要保證研究的“充分必要”,就要給定研究對象一個(gè)明確的范疇。好比物理學(xué)的“標(biāo)準(zhǔn)溫度”、數(shù)學(xué)的直線、平行線的定義一樣。通過充分考慮的選材原則和科學(xué)設(shè)計(jì)的抽樣方法,所建立的“抽樣語料庫”就給定了研究對象的可控性范圍。在這個(gè)可控性范圍內(nèi)就可以實(shí)現(xiàn)充分的描寫和充分的分析與預(yù)測。至于“充分”的程度和效果如何,取決于研究者自身的認(rèn)真和努力程度。就語料庫本身來說,所提供的具有可控性的真實(shí)文本資料,為研究提供了充分必要的保障。
2.定量定性分析
一直以來強(qiáng)調(diào)的定量基礎(chǔ)上的定性分析,是借鑒自然科學(xué)方法提高語言研究科學(xué)性的典型范式,也是學(xué)界的共識。
定量分析的基礎(chǔ)在于足夠的樣本量。以往的漢語研究從“例不十法不立”的舉例證明,到百分比,再到基于語料庫的量化分析,逐漸發(fā)展出相關(guān)性分析、方差分析、曲線分析、透明度分析等。所采用的數(shù)據(jù)特征、隱顯性類型、呈現(xiàn)方式等,都為定性分析提供了更加科學(xué)實(shí)用的方法和手段。
3.證明與證偽
學(xué)術(shù)研究的科學(xué)性、結(jié)論的可信性要求該研究能夠“證明”和“證偽”,即任何人都可以對整個(gè)研究采用的原始樣本數(shù)據(jù)進(jìn)行查驗(yàn)和審核。以往依靠“口耳之學(xué)”進(jìn)行的田野調(diào)查結(jié)果,常常因?yàn)闀r(shí)過境遷,物是人非,無法進(jìn)行有效的復(fù)核和驗(yàn)證。甚至問卷調(diào)查,特別是網(wǎng)絡(luò)問卷調(diào)查,充滿了隨機(jī)性和不確定性,難以進(jìn)行有效的“證明”和“證偽”。
語料庫則不然。無論任何時(shí)候,原始文本語料都會完好如初,所有分詞標(biāo)注、統(tǒng)計(jì)分析的工具軟件和資料數(shù)據(jù),也都可以重復(fù)n遍。即使有誤差或疏漏,都可以順藤摸瓜,找出原委。這就無形中保證了研究過程的可重現(xiàn)性,從而提升了研究結(jié)論的可信度。
三、漢語兼類詞知識挖掘
(一)從“詞無定類”到承認(rèn)“兼類”
中國第一部語法專著《馬氏文通》的作者馬建忠(1845—1900)曾說過:“字類凡九,舉凡一切或有解,或無解,與夫有形可形、有聲可聲之字胥賅矣。字分九類,足類一切之字。無字無可歸之類,亦類外無不歸之字矣?!盵4](P23)“字無定義,故無定類。而欲知其類,當(dāng)先知上下之文義何如耳?!盵4](P24)馬建忠在這里所說的“字”實(shí)際指的是“詞”,“字類”就是“詞類”。可見他在承認(rèn)詞類的基礎(chǔ)上,還是認(rèn)為漢語“詞無定類”。
著名語言學(xué)家王力認(rèn)為:“我們應(yīng)該承認(rèn)一詞多類的事實(shí)的存在。一個(gè)詞如果有兩個(gè)以上的經(jīng)常職務(wù),就應(yīng)該承認(rèn)它是屬于兩個(gè)或更多的詞類?!盵5](P319)現(xiàn)在的教科書和權(quán)威語文工具書《現(xiàn)代漢語詞典》《現(xiàn)代漢語規(guī)范詞典》等都增加了詞類標(biāo)注。由“詞無定類”的模糊狀態(tài)演進(jìn)到詞典中有了明確的詞類標(biāo)記。身兼多類的“兼類詞”不斷露出水面,蔚為壯觀。例如:“把”的詞典釋義兼有“動詞”“名詞”“量詞”“介詞”四種,有人造出兼類融于一句的例子,如:
(1)一把把車把把住。
在例(1)中,“把”的詞類依次為“量—介—名—動”。
(2)除了?;談e別別的。
在例(2)中,三個(gè)“別”的詞類分別是“副—動—形”。
(二)兼類詞的動態(tài)分布
詞典工具書并沒有提供兼類詞所兼不同詞類的語用特征和使用頻度分布等信息,而這又恰恰是習(xí)得、教學(xué)與研究都需要的隱性知識。
通過對自建的1400萬字符的當(dāng)代漢語流通語料庫①的統(tǒng)計(jì)發(fā)現(xiàn),兼類詞“把”的介詞用法詞次高達(dá)24820次,其次是量詞用法1633次,數(shù)詞用法8次,動詞用法6次,未見名詞用法。
對于詞典“把”字下未收入的數(shù)詞用法,查找原文,發(fā)現(xiàn)確有實(shí)例。如:
(3)讓/v 我/r 也/d 意興闌珊/i 一/m 把/m 的/b
(4)這個(gè)/r 老/a 花花公子/i 為了/p 和/ag 年輕/a 情人/n 作愛/nr 經(jīng)常/a 大/a 把/m 大/a 把/m 地/j 吃/v 偉哥/nr ,/w
《現(xiàn)代漢語詞典》(第7版)對“把”的釋義順序,前6項(xiàng)都是動詞用法,第7項(xiàng)是方言用法,第8、9項(xiàng)是名詞用法,第10項(xiàng)是量詞用法,第11項(xiàng)才是介詞用法[6](P49)。而實(shí)際統(tǒng)計(jì)發(fā)現(xiàn):“介詞”用法居首,高達(dá)24820詞次;其次為量詞用法,1633詞次;數(shù)詞和動詞用法詞次很低,沒有統(tǒng)計(jì)數(shù)據(jù)價(jià)值。具體如表1所示:
我們使用中國科學(xué)院計(jì)算所研發(fā)的“ICTCLAS”自動分詞系統(tǒng)進(jìn)行分詞和詞性標(biāo)注,在抽樣校對時(shí),發(fā)現(xiàn)“把”有一例副詞用法,原句如下:
(5)他們/r 也/c 把/d 煽/vg 情/n 路數(shù)/n 發(fā)揮/v 到/v 極點(diǎn)/n ,/w
例(5)中的“把”應(yīng)該是介詞無疑。那么,為什么自動分詞軟件會標(biāo)錯(cuò)呢?
實(shí)際上計(jì)算機(jī)自動標(biāo)注所依據(jù)的原則是上下文語境和搭配關(guān)系。判斷介詞的規(guī)則是后接名詞性成分。這句話后接的“煽/v”是動詞性成分。機(jī)器根據(jù)規(guī)則排除介詞后,就會從動詞的前加詞類中尋找。動詞前面可能出現(xiàn)的詞類主要有“名、形、動、副”等類。機(jī)器的智能有限,在名詞主語和動詞謂語中心詞之間,最大可能就是“副詞”了。這個(gè)案例提示我們,機(jī)器恪守“規(guī)則”所遭遇到的例外“陷阱”,恰是值得深入挖掘的問題所在。
(三)自動標(biāo)注的兼類詞
自動分詞標(biāo)注詞性工具軟件所執(zhí)行的是國家標(biāo)準(zhǔn)GB/T 13715-92《信息處理用現(xiàn)代漢語分詞規(guī)范》。該規(guī)范明確說明:“為敘述方便,本規(guī)范沿用了把詞分為名詞、動詞、形容詞、代詞、數(shù)詞、量詞、副詞、介詞、連詞、助詞、語氣詞、嘆詞、象聲詞等十三類的方法?!盵7](P2)
考慮到書面漢語的復(fù)雜性和智能化信息處理應(yīng)用的需要,“ICTCLAS”自動分詞系統(tǒng)設(shè)計(jì)了“二級標(biāo)注”模式,增加了多項(xiàng)下位小類,具體如表2所示:
從表2可以看出,形容詞用為副詞、形容詞用為名詞、動詞用為副詞、動詞用為名詞等都是顯性“兼類詞”,至于人名、地名、機(jī)構(gòu)名詞、專有名詞、處所名詞、時(shí)間名詞等,都是名詞大類下的小類。
顯然,“二級標(biāo)注”對兼類詞的隱性知識挖掘提供了極大便利。即使有些標(biāo)注可能存在偏誤,也已經(jīng)大大減輕了研究者的工作量,起碼給出了大致范圍和類別,可作為剝繭抽絲、精挑細(xì)選的基礎(chǔ)。
1.兼類詞的動態(tài)分布
根據(jù)當(dāng)代漢語流通語料庫的統(tǒng)計(jì)發(fā)現(xiàn),兼類呈多樣化分布。例如:
人名兼地名,如:阿里(/nr64—/ns55)①;
人名兼產(chǎn)品名,如:大寶(/nr7—/nz64);
名兼地名,如:大巴(/n75—/ns11),燈市(/n4—/ns3);
形兼名,如:典型(/a218—/n199),典雅(/a47—/an9);
形兼名兼地名,如:安康(/a3—/an15—/ns9);
動兼名兼動名,如:登記(/v156—/n7—/vn499);
形兼動兼動名兼形名,如:低迷(/a61—/v8—/vn1/an17);
動兼名兼量,如:兜(/v91—/n7—/q3);
動兼量兼名兼人名,如斗(/v307—/q42—/n23—/nr3)。
當(dāng)代漢語流通語料庫兼類詞動態(tài)分布情況,具體如表3所示:
表3中的“兼類數(shù)”是指兼類詞所兼的詞類數(shù),“兼類種”是指不同的兼類詞個(gè)數(shù)。不管一個(gè)詞兼幾個(gè)類,只算是一個(gè)“兼類種”。根據(jù)自動分詞軟件的二級分詞標(biāo)準(zhǔn),下位小類也按不同詞類對待。
2.兼類詞動態(tài)頻度分布
單純從兼類詞的所兼詞類的多少,還不能真正揭示兼類詞的本質(zhì)特征。因?yàn)橹匾膮?shù)是在于所兼的詞類在使用頻度方面的分布差異。
分析發(fā)現(xiàn),兼有9個(gè)詞類的“單”,副詞(d)類334次、副詞性語素(dg)299次、形容詞性語素(ag)249次、區(qū)別詞(b)238次、姓名(nr)211次、名詞性語素(ng)52次、形容詞(a)24次,簡稱(j)5次、后接成分(k)1次。低頻區(qū)沒有統(tǒng)計(jì)學(xué)價(jià)值,去掉小類“副素、形素、名素”以及姓名、后接成分等,就只剩副詞、區(qū)別詞和形容詞三類了。
下面以列表舉例的方式來展示兼類詞不同兼類的使用頻度的分布情況:
【麒按】表內(nèi)不同兼類的使用頻次均按降頻排列(下同)。從數(shù)據(jù)看,兼2類的兼類詞內(nèi)部分化明顯?!按虬纭眲釉~269詞次,名詞92詞次,名詞用法占動詞用法269次的34.2%;占全部詞次361的25.5%??梢姡按虬纭彼嬖~類之間的使用頻次差異。表中所列其他四個(gè)兼類詞“打包、愛好、打算、打印”的使用頻次差異也十分明顯。
兼類詞頻次分布上的差別化特點(diǎn),是否可據(jù)以推測頻次量差與內(nèi)部分化存在一定的正相關(guān)系,有待全面對比和深入探討。
【麒按】表內(nèi)所列兼類詞各類頻次之間有比較明顯量差。由于增加了“人名/nr、地名/ns”和“名性語素字/ng、前接成分/h、簡稱/j”等小類,增加了所兼“詞類”數(shù)。
【麒按】表6中,“白”的形容詞(/a)用法最多,其次為姓名(/nr)用法和副詞(/d)用法。在現(xiàn)代漢語中,“白”的動詞用法不多,如:“老黃/nr 白/v 了/u 他/r 一/m 眼/q ,/w”“一/m 夜/q 工夫/n 急/ad 白/v 了/u 頭/m 發(fā)/q ,/w”。
在現(xiàn)代漢語中,“文”的動詞用法已不多見,不過,在成語中仍有保留,如成語“文過飾非/i”中的“文”就保留了動詞用法。而在句子“虛詞/n 失實(shí)/vn 、/w 巧/ad 文/v 亂/v 真/a ,/w”中,“巧文亂真”雖然不是成語,但是,逐詞切分標(biāo)注時(shí),也可看出“文”的動詞用法。
同時(shí),也不能排除誤標(biāo)記的情況,如下列例句中的“文”都標(biāo)錯(cuò)了:
特色/n融合/v型/k文/v創(chuàng)/vg產(chǎn)業(yè)/n、/w
品類/n豐富/a的/b西夏/n文/a佛經(jīng)/n。/w
兩岸/n同胞/n同宗/v同/c文/a,/w
覺得/v文人/n言/vg商/vg,/w非/h文/a非/h商/n。/w
去掉小類后,“白”只剩下“形容詞、副詞、動詞”3類;“文”只剩下“動詞、形容詞”2類。
【麒按】去掉小類后,“東”只?!胺轿辉~”1類;“成”只剩“動詞、形容詞、量詞”3類。
【麒按】如上分析,去掉小類,再忽略10次以下用例,“從”只兼“介詞、連詞”2類;“錯(cuò)”只兼“動詞、副詞、名詞、形容詞”4類。
【麒按】“單”只?!案?、區(qū)別、形”3類;“過”只?!爸?、副”3類。
通過上述分析,我們可以得出以下結(jié)論:
第一,“二級分類”可以獲得更細(xì)化的分類,增加了兼類詞的選擇范圍;
第二,特殊小類對兼類詞語法功能研究的參考價(jià)值不大,但對其他應(yīng)用如輿情分析、情感分析等具有特殊意義;
第三,10次以下的低頻區(qū)用例除非特殊需要(“長尾”挖掘①),可以忽略不計(jì)。
3.兼類詞的語域分布
當(dāng)代漢語流通語料庫的語料來源領(lǐng)域包括經(jīng)濟(jì)、政治、法律、文化、衛(wèi)生、體育、文學(xué)、網(wǎng)絡(luò)、博客等九類。因此,可以獲得詞匯使用情況在不同領(lǐng)域的分布信息。例如,兼類詞“把”在不同語域中的使用情況,具體如表10所示:
根據(jù)表10信息可以發(fā)現(xiàn),介詞“把”的用法不僅詞次最高,而且在所抽樣的9類語域均有使用。其中,文學(xué)類居首,多達(dá)8580詞次,其次為網(wǎng)絡(luò)8412詞次,第三為博客2274詞次。其他依次為政治861詞次、體育680詞次、經(jīng)濟(jì)442詞次、文化342詞次、衛(wèi)生311詞次,法律類最少,只有46詞次。這可能與“把”字句構(gòu)式的語體、語用特征有關(guān),因?yàn)橥怀鲑e語焦點(diǎn)的變形處置句具有很強(qiáng)的主觀化特征,所以不太適合法律領(lǐng)域強(qiáng)調(diào)客觀、公正的話語方式。
四、結(jié)論與展望
(一)結(jié)論
通過當(dāng)代漢語流通語料庫的定量分析,挖掘漢語兼類詞的隱性知識,有以下幾點(diǎn)發(fā)現(xiàn):
1.現(xiàn)代漢語詞類具有鮮明的“上下文相關(guān)”語法特征。這與前輩提出的“依句辨品”原則具有傳承性,也證明了前賢所論的合理性和獨(dú)到之處。
2.沒有形態(tài)標(biāo)記的漢語隱含大量“非顯性”功能屬性,“一成不變”的漢字記錄的書面漢語掩蓋了古今漢語演變的蛛絲馬跡。
3.自動分詞軟件“二級標(biāo)注”模式增加了兼類詞隱性知識挖掘空間,具有重要參考價(jià)值。有些小類如“姓名”“專名”等,在自然語言理解、輿情分析等領(lǐng)域具有重要的參考價(jià)值。
4.基于大規(guī)模真實(shí)文本語料庫知識挖掘,可以透過“不動聲色”的字面表層獲得深藏不露的隱性知識,因而具有廣域的研發(fā)空間和應(yīng)用前景。
(二)展望
1.語料庫加工質(zhì)量決定挖掘質(zhì)量
語料庫規(guī)模和加工質(zhì)量直接關(guān)系到知識挖掘的水平和質(zhì)量。因?yàn)楦鞣矫鏃l件的限制,采用人工抽樣校對的方法,難免存在大量疏漏和偏誤,直接影響到知識挖掘結(jié)果的信度。這是本研究的不足和缺憾。
2.兼類詞隱含語法化信息
兼類詞所兼的主要詞類之間,隱含著大量“語法化”的信息,例如“動詞、介詞、副詞、連詞”兼類,數(shù)量分布差異實(shí)際上反映的是語法化程度的差異。語言共時(shí)系統(tǒng)是歷時(shí)系統(tǒng)的映射,共時(shí)系統(tǒng)中并存的“兼類”現(xiàn)象,在一定程度上反映了不同歷時(shí)層面的語法化狀態(tài)。這一“假說”有待深入挖掘和大數(shù)據(jù)求證。
本文在寫作過程中參閱了前輩時(shí)賢的大量論著,恕不一一具名,謹(jǐn)此一并致謝。
參考文獻(xiàn):
[1]北京語言學(xué)院語言教學(xué)研究所.現(xiàn)代漢語頻率詞典[Z].北京:北京語言學(xué)院出版社,1986.
[2]常寶儒.關(guān)于《現(xiàn)代漢語頻率詞典》的編纂問題[J].辭書研究,1986,(4).
[3]本刊特約記者.社會語言學(xué)創(chuàng)始人拉波夫[J].世界漢語教學(xué),2001,(1).
[4]馬建忠.馬氏文通[M].北京:商務(wù)印書館,1998.
[5]王力.關(guān)于詞類的劃分[A].王力文集·第十六卷[C].山東教育出版社,1990.
[6]中國社會科學(xué)院語言研究所詞典編輯室.現(xiàn)代漢語詞典(第7版)[Z].北京:商務(wù)印書館,2016.
[7]國家技術(shù)監(jiān)督局.中華人民共和國國家標(biāo)準(zhǔn)GB/T 13715-92信息處理用現(xiàn)代漢語分詞規(guī)范[Z].1992—10—04.