劉 云
(華中師范大學(xué)文學(xué)院,湖北武漢,430079)
漢語(yǔ)特征詞研究的緣起、意義和方法
劉 云
(華中師范大學(xué)文學(xué)院,湖北武漢,430079)
特征詞指能夠反映文本特征、分布差異較大的詞語(yǔ)。特征詞的研究緣于以下四個(gè)方面:信息論中關(guān)于熵的研究,情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究,語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立,語(yǔ)言學(xué)研究中的方言特征詞研究。特征詞的研究具有較大的理論意義和現(xiàn)實(shí)意義,一個(gè)可行的研究方法是以國(guó)家語(yǔ)委通用語(yǔ)料庫(kù)為對(duì)象來(lái)考察時(shí)代特征詞和語(yǔ)體特征詞。
特征詞 語(yǔ)料庫(kù) 詞語(yǔ)分布
所謂特征詞,是指能夠反映文本特征、分布差異較大的詞語(yǔ)。由于詞匯統(tǒng)計(jì)對(duì)語(yǔ)言研究、語(yǔ)言教學(xué)、詞典編撰、信息處理等有較大的實(shí)用價(jià)值,世界上幾種主要語(yǔ)言如英語(yǔ)、法語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、日語(yǔ)、德語(yǔ)等都進(jìn)行過(guò)較大規(guī)模的詞匯統(tǒng)計(jì)研究,已有統(tǒng)計(jì)項(xiàng)目涉及字節(jié)數(shù)、形符數(shù)、類符數(shù)、類符形符比、平均詞長(zhǎng)、句子數(shù)、平均句長(zhǎng)、段落數(shù)、平均段落長(zhǎng),等等。漢語(yǔ)的詞匯統(tǒng)計(jì)主要通過(guò)“頻率”“分布率”“覆蓋率”等統(tǒng)計(jì)項(xiàng)來(lái)建立詞頻詞典和常用詞表,這種統(tǒng)計(jì)是把語(yǔ)料庫(kù)作為一個(gè)整體進(jìn)行統(tǒng)計(jì);漢語(yǔ)特征詞的統(tǒng)計(jì)與分析試圖把通用語(yǔ)料庫(kù)按時(shí)間、領(lǐng)域等分為子語(yǔ)料庫(kù)分別進(jìn)行統(tǒng)計(jì),然后通過(guò)比較得出特征詞,這種統(tǒng)計(jì)是把語(yǔ)料庫(kù)分解為子語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)。特征詞的統(tǒng)計(jì)需要一個(gè)高質(zhì)量的平衡語(yǔ)料庫(kù),國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)(以下簡(jiǎn)稱“通用語(yǔ)料庫(kù)”)是國(guó)家語(yǔ)委精心打造的國(guó)家級(jí)平衡語(yǔ)料庫(kù),主要服務(wù)于語(yǔ)言文字的信息處理、語(yǔ)言文字規(guī)范標(biāo)準(zhǔn)的制訂、語(yǔ)言文字的學(xué)術(shù)研究、語(yǔ)文教學(xué)和語(yǔ)言文字的社會(huì)應(yīng)用等方面。本文的統(tǒng)計(jì)對(duì)象就是國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)。
漢語(yǔ)特征詞的統(tǒng)計(jì)與分析的對(duì)象是通用語(yǔ)料庫(kù)中那些分布上的特征詞。在日常的語(yǔ)言使用中,我們時(shí)常會(huì)發(fā)現(xiàn)有這樣一種現(xiàn)象:有些常用的特高頻詞(如“的”“了”“不”“在”“是”等)在不同領(lǐng)域(如“政治”“經(jīng)濟(jì)”“科技”“文化”等)和不同時(shí)期(如“解放前”“‘文革’期間”“改革開(kāi)放后”等)的文檔中出現(xiàn)的頻率差別不大,也就是說(shuō),這些特高頻詞在不同領(lǐng)域和不同時(shí)期的文檔中分布得比較均勻。同時(shí),也有一些詞語(yǔ)(如“跑道”“蛙泳”“裸絞”“預(yù)蹲”“疊兵”等)在某些特定類別(如“體育”)的文檔中出現(xiàn)的頻率會(huì)高于它們?cè)谄渌悇e文檔(如“經(jīng)濟(jì)”“科技”“文化”等)的頻率。這說(shuō)明有些詞語(yǔ)在區(qū)分文檔類別方面的能力較強(qiáng),這些分布上差異大的詞就是需要研究的特征詞。漢語(yǔ)特征詞研究的內(nèi)容主要有兩大部分:一是利用數(shù)理統(tǒng)計(jì)的方法,把通用語(yǔ)料庫(kù)中的年代特征詞和語(yǔ)體特征詞抽取出來(lái)并建立特征詞表,同時(shí),設(shè)計(jì)一些簡(jiǎn)單實(shí)用、易操作的語(yǔ)料庫(kù)統(tǒng)計(jì)工具;二是結(jié)合時(shí)代文化背景和語(yǔ)體特征對(duì)這些特征詞進(jìn)行分析。語(yǔ)言與社會(huì)有著密不可分的關(guān)系,從語(yǔ)言與社會(huì)、語(yǔ)言與文化的角度分析年代特征詞和語(yǔ)體特征詞,例如不同時(shí)期、不同語(yǔ)體的人名、地名和機(jī)構(gòu)名等特征詞反映的社會(huì)文化意義。
(一) 特征詞研究的緣起
漢語(yǔ)特征詞的統(tǒng)計(jì)與分析緣于以下四個(gè)方面:信息論中關(guān)于熵的研究,情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究,語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立,語(yǔ)言學(xué)研究中的方言特征詞研究。
(1) 信息論中關(guān)于熵的研究。1850年,德國(guó)物理學(xué)家魯?shù)婪颉た藙谛匏故状翁岢鲮氐母拍?,用?lái)表示任何一種能量在空間中分布的均勻程度,能量分布得越均勻,熵就越大。1948年,美國(guó)數(shù)學(xué)家香農(nóng)(Claude E.Shanon)在BellSystemTechnicalJournal上發(fā)表了《通信的數(shù)學(xué)原理》(AMathematicalTheoryofCommunication)一文,將熵的概念引入信息論中。在信息論中,熵表示的是不確定性的量度。從信息論的角度看來(lái),用自然語(yǔ)言交際的過(guò)程,就是從語(yǔ)言的發(fā)送者通過(guò)通訊媒介,傳輸?shù)秸Z(yǔ)言的接收者的過(guò)程,因此,也可以測(cè)定語(yǔ)言的熵。語(yǔ)言的熵就是在交際過(guò)程中語(yǔ)言符號(hào)出現(xiàn)的不定度,不定度的大小與語(yǔ)言的熵的高低一致。當(dāng)語(yǔ)言的接收者接收到語(yǔ)言符號(hào)之后,不定度被消除,熵等于零,因而在交際過(guò)程中,語(yǔ)言接收者所得到的信息量恰恰等于被消除的熵[1]。特征詞在不同的文本中分布差異較大,不確定性比非特征詞要大,因此,特征詞尤其值得關(guān)注。
(2) 情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究。1972年,Spark Jones提出計(jì)算文獻(xiàn)頻率有助于計(jì)算詞權(quán)重,從此反文獻(xiàn)頻率(Inverse Document Frequency,簡(jiǎn)稱IDF)公式在信息檢索中占據(jù)重要地位,是信息檢索中計(jì)算詞與文獻(xiàn)的相關(guān)權(quán)重的經(jīng)典計(jì)算方法,它不僅可以用于計(jì)算關(guān)鍵字檢索中關(guān)鍵字與相關(guān)文獻(xiàn)的相關(guān)權(quán)重,而且可以用于計(jì)算文獻(xiàn)自動(dòng)分類中主題詞與相關(guān)文獻(xiàn)的相關(guān)權(quán)重。IDF基于這樣一個(gè)假設(shè):稀有詞比常用詞包含更新的信息。構(gòu)成文本的詞的數(shù)據(jù)量是相當(dāng)大的,因此在進(jìn)行文本特征抽取時(shí),如果把所有的詞都作為文本特征,計(jì)算量會(huì)非常大,而且不同的詞對(duì)文本分類的貢獻(xiàn)差別很大,因此在文本分類時(shí)優(yōu)先選擇的是更有效的特征詞語(yǔ),這些特征詞語(yǔ)選擇的標(biāo)準(zhǔn)就是要最大限度地區(qū)分不同的文檔,其特征選擇的依據(jù)就是詞語(yǔ)在文章中的權(quán)重,包括該詞語(yǔ)在文本中出現(xiàn)的頻率和該詞語(yǔ)在文本集合中的分布情況。在反文獻(xiàn)頻率的研究中,特征詞占有重要地位。
(3) 語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,學(xué)界為了服務(wù)于語(yǔ)言研究、語(yǔ)文教學(xué)、中文信息處理和辭書(shū)編纂等工作,建立了一大批語(yǔ)料庫(kù)。隨著研究和統(tǒng)計(jì)手段的提高,先后建立了十多個(gè)有影響的詞表。這些詞表對(duì)語(yǔ)言研究、語(yǔ)文教學(xué)、中文信息處理和辭書(shū)編纂等工作起到了極大的推動(dòng)作用,仔細(xì)觀察這些詞表可以發(fā)現(xiàn),各個(gè)詞表的規(guī)模、性質(zhì)、作用與目的各不相同,對(duì)統(tǒng)計(jì)項(xiàng)的選擇也不相同。所憑借的統(tǒng)計(jì)項(xiàng)不一樣導(dǎo)致部分詞語(yǔ)有的詞表收了有的詞表沒(méi)有收,其中就有一些特征詞。對(duì)特征詞的進(jìn)一步深入研究,還可以反觀這些詞表的優(yōu)劣。
(4) 語(yǔ)言學(xué)中方言特征詞的研究。方言特征詞是不同方言詞匯之間的區(qū)別特征,是表現(xiàn)該方言詞匯特征的最重要的方言詞。李如龍編《漢語(yǔ)方言特征詞研究》共收錄12篇研究特征詞的文章,它們從內(nèi)部和外部分別研究了官話方言、山東方言、晉語(yǔ)、北部吳語(yǔ)、徽語(yǔ)、贛語(yǔ)、客家方言、閩方言、閩東方言、粵語(yǔ)、雷瓊閩語(yǔ)等方言的特征詞。李如龍先生把“方言特征詞”界定為:方言特征詞是一定地域里一定批量的、區(qū)內(nèi)大體一致、區(qū)外相對(duì)殊異的方言詞[2]。此外,辛世彪《關(guān)中方言特征詞概說(shuō)》(錢曾怡、李行杰主編《首屆官話方言國(guó)際學(xué)術(shù)討論會(huì)論文集》,青島出版社,1997年)、張振興《閩語(yǔ)特征詞舉例》(《漢語(yǔ)學(xué)報(bào)》2004年第1期)等也都對(duì)方言特征詞進(jìn)行了探討。方言特征詞從某種意義上說(shuō)是詞匯在地域上的分布特點(diǎn),如果探討詞匯在年代和語(yǔ)體上的分布特點(diǎn),相應(yīng)的也會(huì)有年代特征詞和語(yǔ)體特征詞[3]。
(二) 特征詞研究的意義
漢語(yǔ)特征詞的統(tǒng)計(jì)與分析是一個(gè)值得下大力氣認(rèn)真研究的課題,具有較大的理論意義和現(xiàn)實(shí)意義。
(1) 推進(jìn)語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究。近年來(lái)語(yǔ)料庫(kù)語(yǔ)言學(xué)得到了迅猛發(fā)展,在多個(gè)領(lǐng)域取得了豐碩的成果。語(yǔ)料庫(kù)語(yǔ)言學(xué)是語(yǔ)言研究中的一種重要方法,通過(guò)對(duì)語(yǔ)言的結(jié)構(gòu)、分布、使用、變遷等要素進(jìn)行數(shù)量分析來(lái)揭示語(yǔ)言的狀態(tài)、性質(zhì)和特點(diǎn)。特征詞的統(tǒng)計(jì)與分析試圖深入語(yǔ)料庫(kù)的內(nèi)部,通過(guò)比較各子語(yǔ)料庫(kù)詞匯的頻率差、頻率比、頻序比、獨(dú)用詞、出現(xiàn)文本數(shù)等得出特征詞;反過(guò)來(lái),通過(guò)子語(yǔ)料庫(kù)的頻差分析、相似性對(duì)比分析和信息熵計(jì)算等來(lái)考察通用語(yǔ)料庫(kù)的建設(shè)質(zhì)量,進(jìn)而反思語(yǔ)料庫(kù)的建設(shè)。
(2) 推進(jìn)計(jì)量詞匯學(xué)的研究。判斷成詞與否一般有三個(gè)標(biāo)準(zhǔn):結(jié)構(gòu)、意義和音節(jié),除此之外還有頻率標(biāo)準(zhǔn)[4]。特征詞的研究表明頻率標(biāo)準(zhǔn)不能僅以頻率高低為依據(jù),還要結(jié)合分布率,因?yàn)轭l率高不一定分布率高,頻率的高低只是在整個(gè)語(yǔ)料庫(kù)中的總體表現(xiàn),而分布率則需綜合考察詞匯在子語(yǔ)料庫(kù)中的表現(xiàn)。目前的語(yǔ)言研究主要還是定性研究,科學(xué)研究的方法除了定性研究的方法外,還有一種是定量方法。定量方法運(yùn)用數(shù)學(xué)方法對(duì)客觀事物及其現(xiàn)象進(jìn)行測(cè)量,并通過(guò)獲得的數(shù)據(jù)對(duì)事物的屬性進(jìn)行研究,從而從本質(zhì)上把握該事物。對(duì)漢語(yǔ)詞語(yǔ)的研究是否也能進(jìn)行計(jì)量研究,以及從何種角度進(jìn)行研究,是值得嘗試的課題。
(3) 推進(jìn)社會(huì)語(yǔ)言學(xué)的研究。通過(guò)比較各子語(yǔ)料庫(kù)詞匯的頻率差、頻率比、頻序比,可以得出年代特征詞和語(yǔ)體特征詞,進(jìn)而結(jié)合時(shí)代背景和語(yǔ)體風(fēng)格考察這些特征詞反映的時(shí)代特征和語(yǔ)體特征。通過(guò)特征詞的考察,可以把語(yǔ)言中的詞匯同社會(huì)、文化等背景結(jié)合起來(lái)進(jìn)行研究。
(4) 推進(jìn)中文信息處理研究。特征詞研究使用的統(tǒng)計(jì)方法可以用于文本數(shù)據(jù)挖掘、文本自動(dòng)分類、自動(dòng)文摘、全文檢索等。以領(lǐng)域特征詞為例,領(lǐng)域特征詞的獲取是基于內(nèi)容的文本處理中的基礎(chǔ)關(guān)鍵技術(shù),文本分類和主題分析等需要龐大的領(lǐng)域詞表支撐,在信息抽取和信息檢索中抽取和檢索的對(duì)象很大程度上也依賴于領(lǐng)域特征。中文信息處理迫切需要在特征詞的提取上取得突破性的進(jìn)展,要求特征詞能夠確實(shí)標(biāo)識(shí)文本的特征內(nèi)容,具有將目標(biāo)文本與其他文本相區(qū)分的能力,而且特征詞的分離要比較容易實(shí)現(xiàn)。
(一) 基本思路
就基本思路而言,特征詞的研究可以采用間接式和直接式兩種方式。間接式是以已有的詞語(yǔ)研究為基礎(chǔ),例如《現(xiàn)代漢語(yǔ)詞典》從1965年的試用本迄今已有近半個(gè)世紀(jì),也先后出版了多個(gè)版本,由于不同版本的收詞都有一些變化,有增詞也有減詞,正好可以用來(lái)研究各個(gè)不同時(shí)期的特征詞。這種方法的優(yōu)點(diǎn)是工作量比較小,但間接式的特征詞研究最大的問(wèn)題在于其研究不是基于真實(shí)語(yǔ)言生活,是建立在研究基礎(chǔ)之上的研究,難免會(huì)有較大的誤差;而且,《現(xiàn)代漢語(yǔ)詞典》沒(méi)有給每個(gè)詞標(biāo)注語(yǔ)體,這樣就沒(méi)辦法考察語(yǔ)體特征詞。直接式的特征詞研究是以真實(shí)的語(yǔ)言生活為材料,考察各個(gè)階段和各個(gè)領(lǐng)域的特征詞,這種方法最大的優(yōu)點(diǎn)是盡可能地接近真實(shí)的語(yǔ)言生活,缺點(diǎn)是工作量較大,考慮到計(jì)算機(jī)的強(qiáng)大處理能力,這種方法還是值得嘗試的。因此,漢語(yǔ)特征詞的統(tǒng)計(jì)與分析以國(guó)家語(yǔ)委通用語(yǔ)料庫(kù)為對(duì)象來(lái)考察時(shí)代特征詞和語(yǔ)體特征詞。
首先按照不同的分類方式把整個(gè)通用語(yǔ)料庫(kù)分為若干子語(yǔ)料庫(kù)。三種分類方式為:(1)以“大事件”為節(jié)點(diǎn)的社會(huì)階段分期,即以“建國(guó)”、“改革開(kāi)放”為節(jié)點(diǎn)劃分為三個(gè)子語(yǔ)料庫(kù):1919—1949年、1950—1978年、1979—2000年;(2)以“十個(gè)自然年”為節(jié)點(diǎn)的時(shí)間分期。即:以10個(gè)自然年為節(jié)點(diǎn),劃為六個(gè)階段:1919—1949年、1950—1959年、1960—1969年、1970—1979年、1980—1989年、1990—2000年;(3)以語(yǔ)體劃分,即按通用語(yǔ)料庫(kù)的一級(jí)分類劃分為四個(gè)子語(yǔ)料庫(kù):報(bào)紙、人文社會(huì)科學(xué)、自然科學(xué)和綜合類。
再次,給這三種統(tǒng)計(jì)量設(shè)定一個(gè)閾值,把待篩選的特征詞自動(dòng)抽取出來(lái)。綜合頻率差、頻率比和頻序比三種統(tǒng)計(jì)量抽出的待篩選特征詞,出現(xiàn)三次的可以確認(rèn)為特征詞,出現(xiàn)兩次的可以基本確認(rèn)為特征詞,出現(xiàn)一次的則需考慮統(tǒng)計(jì)量的具體數(shù)值,必要時(shí)進(jìn)行人工篩選。
最后,結(jié)合社會(huì)文化背景和語(yǔ)體特征分析這些特征詞,包括言語(yǔ)詞和語(yǔ)言詞。
(二) 具體方法
具體研究方法擬采取先易后難、先試驗(yàn)后全面展開(kāi)的方法。以年代為例,比較而言,新中國(guó)成立前子語(yǔ)料庫(kù)與改革開(kāi)放后子語(yǔ)料庫(kù)語(yǔ)言差異要大一些,容易提取特征詞,所以先比較這兩個(gè)子語(yǔ)料庫(kù);而兩者與新中國(guó)成立到改革開(kāi)放之間的子語(yǔ)料庫(kù)的差異要小一些,放在后面比較。在進(jìn)行全面統(tǒng)計(jì)之前,先抽取一定數(shù)量的樣本進(jìn)行試驗(yàn),以比較各種統(tǒng)計(jì)量之間的優(yōu)劣,初步試驗(yàn)表明頻率差、頻率比、頻序比各有所長(zhǎng),頻率差的優(yōu)點(diǎn)是直接了然,缺點(diǎn)是對(duì)高頻詞容易誤判;頻率比的優(yōu)點(diǎn)是準(zhǔn)確率高,缺點(diǎn)是有些低頻詞的比值差異相當(dāng)細(xì)微難以發(fā)現(xiàn);頻序比的優(yōu)點(diǎn)是準(zhǔn)確率高,缺點(diǎn)是由于各子語(yǔ)料庫(kù)詞語(yǔ)總數(shù)不同導(dǎo)致少數(shù)低頻詞的可比性低。因此,特征詞的統(tǒng)計(jì)綜合考慮頻率差、頻率比、頻序比這三個(gè)統(tǒng)計(jì)量,試圖抽出一個(gè)盡可能完整的待篩選特征詞表,最后結(jié)合時(shí)代文化背景和語(yǔ)體特征分析這些特征詞。
主要使用定量分析方法和結(jié)合社會(huì)文化的方法。所謂定量分析方法,就是“將處于隨機(jī)狀態(tài)的某種語(yǔ)言現(xiàn)象給予一定的數(shù)量統(tǒng)計(jì),然后通過(guò)頻率、頻度、頻度鏈等量化形式來(lái)揭示這類隨機(jī)現(xiàn)象背后所隱藏的規(guī)律性”,也就是借鑒自然科學(xué)的方法,用統(tǒng)計(jì)數(shù)字說(shuō)話[5]。詞匯研究長(zhǎng)期以來(lái)以定性研究方法為主,“所謂定性式研究方法,即研究主要評(píng)介的是研究者對(duì)材料的主觀感受與判斷”[6]。在定性研究中,個(gè)人的判斷起著重要作用,研究所依據(jù)的主要是個(gè)人熟知的部分語(yǔ)料以及研究者的個(gè)人語(yǔ)感,因此不可避免地會(huì)帶來(lái)個(gè)別結(jié)論與普遍規(guī)律、個(gè)人判斷與普遍占有材料之間的矛盾。尤其是詞匯的研究中,個(gè)人的主觀感知往往會(huì)對(duì)客觀的評(píng)判產(chǎn)生深刻的影響。所以,有必要運(yùn)用定量分析方法這種自然科學(xué)的常用方法,對(duì)詞匯進(jìn)行研究。社會(huì)生活的各個(gè)方面,諸如政治、軍事、法律、習(xí)俗、工商業(yè)、教育等的發(fā)展變化,無(wú)不影響著詞語(yǔ)的產(chǎn)生、發(fā)展、演變。只有將詞匯研究置于社會(huì)發(fā)展的大環(huán)境中,才能把握詞匯分布、發(fā)展的歷史動(dòng)因。特征詞直接反映了社會(huì)的發(fā)展變遷、民族的文化傳統(tǒng),從詞匯與社會(huì)政治、經(jīng)濟(jì)、文化教育、社會(huì)意識(shí)形態(tài)等的發(fā)展相聯(lián)系的角度出發(fā),探究和把握詞匯發(fā)展史的外部歷史原因。
(三) 采用的統(tǒng)計(jì)項(xiàng)目
統(tǒng)計(jì)的對(duì)象主要是詞語(yǔ),統(tǒng)計(jì)項(xiàng)目主要有頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率、詞性分布、詞類分布、獨(dú)用詞、共用詞、頻差、頻比、使用度、通用度、語(yǔ)料相似度和熵。漢語(yǔ)特征詞的統(tǒng)計(jì)與分析先統(tǒng)計(jì)出詞語(yǔ)出現(xiàn)的次數(shù),然后計(jì)算出這些詞出現(xiàn)的頻率,再在此基礎(chǔ)上統(tǒng)計(jì)其他項(xiàng)目。其中頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率是比較常用的概念,不需贅述,其他項(xiàng)目相關(guān)方法的描述如下[7]:
(1) 頻率差
假設(shè)總語(yǔ)料為S,A為S的一個(gè)子庫(kù),相對(duì)于S和A,任一詞匯wi的頻率差(簡(jiǎn)稱頻差)的計(jì)算公式為:
頻差(A,wi)=f(A,wi)-f(S,wi)
(1)
其中,f(S,wi)表示頻率,即詞語(yǔ)wi在分類語(yǔ)料中的頻率與在總語(yǔ)料中的頻率之差。
頻差一般反映了某一個(gè)詞語(yǔ)在分階段語(yǔ)料和在總語(yǔ)料中的分布差異性,能夠凸顯子語(yǔ)料庫(kù)的一些語(yǔ)言特征。
(2) 頻率比
假設(shè)總語(yǔ)料為S,A為S的一個(gè)子庫(kù),相對(duì)于S和A,任一詞匯wi的頻率比(簡(jiǎn)稱頻比)的計(jì)算公式為:
(2)
相對(duì)頻差而言,頻比更能反映出分類語(yǔ)料的特色,頻比高的詞語(yǔ)一般是分類語(yǔ)料的獨(dú)用詞,而且使用較頻繁。
(3) 使用度
使用度用來(lái)刻畫(huà)字或詞語(yǔ)在應(yīng)用上的廣泛性、平衡性,是壓縮后的頻次,在相同頻率下,詞頻分布越均勻,則壓縮越少,使用度越高。
使用度的計(jì)算涉及另外兩個(gè)參數(shù):變異系數(shù)與擴(kuò)散率。
詞語(yǔ)wi變異系數(shù)的計(jì)算公式為:
(3)
其中D為wi的方差,E為期望,n為分類語(yǔ)料的數(shù)目。
擴(kuò)散率的計(jì)算公式為:
(4)
使用度的計(jì)算公式則為:
(5)
其中C(Aj,wi)表示詞語(yǔ)wi在語(yǔ)料Aj中出現(xiàn)的頻次。
(4) 通用度
與使用度類似,通用度也是用來(lái)刻畫(huà)詞語(yǔ)在應(yīng)用上的廣泛性和平衡性。尹斌庸、方世增在《語(yǔ)言文字應(yīng)用》1994年第2期的《詞頻統(tǒng)計(jì)的新概念和新方法》中提出了通用度的概念。所謂詞語(yǔ)的“通用度”,是指詞語(yǔ)在語(yǔ)言應(yīng)用的各個(gè)領(lǐng)域里常用性的綜合指標(biāo)。簡(jiǎn)單地說(shuō),通用度就是詞語(yǔ)在語(yǔ)言應(yīng)用的各個(gè)領(lǐng)域里通用的程度。通用度兼顧了詞語(yǔ)的分布率和頻率兩個(gè)方面,并且把兩者有機(jī)地結(jié)合起來(lái)了。通用度概念中所說(shuō)的“領(lǐng)域”,既可以指“空間”,也可以指“時(shí)間”,它既可指一個(gè)詞在共時(shí)的語(yǔ)言應(yīng)用中各領(lǐng)域里的通用程度,也可指一個(gè)詞在歷時(shí)的各個(gè)時(shí)期里的語(yǔ)言應(yīng)用中的通用程度。
通用度的計(jì)算公式為:
(6)
其中C(Aj,wi)表示wi在子語(yǔ)料庫(kù)Aj中出現(xiàn)的次數(shù)。
(5) 語(yǔ)料相似度
將每個(gè)語(yǔ)料A表示成向量:
Corpus(A)=(w1,w2,w3,…,wi,…,wn)
其中,wi為語(yǔ)料中出現(xiàn)的詞語(yǔ)的頻次,然后使用VSM計(jì)算語(yǔ)料之間的相似度,相似度計(jì)算公式如下:
(7)
(6) 熵比較
按信息論的理論,熵表示信息量的多少。如語(yǔ)料用A表示,則其熵的計(jì)算公式為:
(8)
其中f(wi)表示語(yǔ)料庫(kù)A中某一對(duì)象wi在A中的頻率。
本文為教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(NCET-11-0655);國(guó)家社會(huì)科學(xué)基金項(xiàng)目(批準(zhǔn)號(hào):08BYY059)。
注釋:
[1]馮志偉在國(guó)內(nèi)首先測(cè)定了漢字的熵,認(rèn)為從漢語(yǔ)書(shū)面語(yǔ)文句的總體來(lái)考慮,在浩如煙海的全部現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)文句中,包含在一個(gè)漢字中的熵為9.65比特,因而每當(dāng)我們從漢語(yǔ)書(shū)面語(yǔ)文句中讀到一個(gè)漢字時(shí),我們就獲得9.65比特的信息量。參見(jiàn)馮志偉:《漢字的熵》,《語(yǔ)文建設(shè)》,1984年第4期。
[2]參見(jiàn)李如龍:《中國(guó)語(yǔ)言學(xué)報(bào)》,2001年第10期。
[3]國(guó)外的語(yǔ)言學(xué)研究中早就關(guān)注到特征詞的問(wèn)題,例如Halliday, M. A. K., A. McIntosh & P. Strevens.TheLinguisticScienceandLanguageTeaching.(London: Longman1964)認(rèn)為語(yǔ)域之間的不同主要表現(xiàn)在形式上,即表現(xiàn)在詞匯和語(yǔ)法上,其中詞匯方面的區(qū)別表現(xiàn)得最明顯,以英語(yǔ)為例,cleanse(清掃)主要用在廣告里,probe(探查)主要用在報(bào)紙上,特別是報(bào)紙的標(biāo)題上。
[4]參見(jiàn)劉云、李晉霞:《論頻率對(duì)詞感的制約》,《語(yǔ)言教學(xué)與研究》,2009年第3期。
[5]參見(jiàn)唐鈕明:《定量方法與古文字資料的詞匯語(yǔ)法研究》,《海南師范學(xué)院學(xué)報(bào)》,1991年第4期。
[6]參見(jiàn)蘇新春:《漢語(yǔ)詞匯計(jì)量研究》,廈門:廈門大學(xué)出版社,2002年,第14頁(yè)。
[7]這些常見(jiàn)統(tǒng)計(jì)項(xiàng)目的解釋可參見(jiàn)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心編:《中國(guó)語(yǔ)言生活狀況報(bào)告》(2007),商務(wù)印書(shū)館,2007年。書(shū)中收錄的《語(yǔ)言資源監(jiān)測(cè)與研究相關(guān)術(shù)語(yǔ)(2008版)》公布了108條相關(guān)術(shù)語(yǔ)。