漢語(yǔ)特征詞研究的緣起、意義和方法

2013-11-03 03:28:35劉云

華中學(xué)術(shù) 2013年2期

關(guān)鍵詞：特征詞語(yǔ)體語(yǔ)料

劉云

(華中師范大學(xué)文學(xué)院，湖北武漢，430079)

漢語(yǔ)特征詞研究的緣起、意義和方法

劉云

(華中師范大學(xué)文學(xué)院，湖北武漢，430079)

特征詞指能夠反映文本特征、分布差異較大的詞語(yǔ)。特征詞的研究緣于以下四個(gè)方面：信息論中關(guān)于熵的研究，情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究，語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立，語(yǔ)言學(xué)研究中的方言特征詞研究。特征詞的研究具有較大的理論意義和現(xiàn)實(shí)意義，一個(gè)可行的研究方法是以國(guó)家語(yǔ)委通用語(yǔ)料庫(kù)為對(duì)象來(lái)考察時(shí)代特征詞和語(yǔ)體特征詞。

特征詞語(yǔ)料庫(kù) 詞語(yǔ)分布

一、引言

所謂特征詞，是指能夠反映文本特征、分布差異較大的詞語(yǔ)。由于詞匯統(tǒng)計(jì)對(duì)語(yǔ)言研究、語(yǔ)言教學(xué)、詞典編撰、信息處理等有較大的實(shí)用價(jià)值，世界上幾種主要語(yǔ)言如英語(yǔ)、法語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、日語(yǔ)、德語(yǔ)等都進(jìn)行過(guò)較大規(guī)模的詞匯統(tǒng)計(jì)研究，已有統(tǒng)計(jì)項(xiàng)目涉及字節(jié)數(shù)、形符數(shù)、類符數(shù)、類符形符比、平均詞長(zhǎng)、句子數(shù)、平均句長(zhǎng)、段落數(shù)、平均段落長(zhǎng)，等等。漢語(yǔ)的詞匯統(tǒng)計(jì)主要通過(guò)“頻率”“分布率”“覆蓋率”等統(tǒng)計(jì)項(xiàng)來(lái)建立詞頻詞典和常用詞表，這種統(tǒng)計(jì)是把語(yǔ)料庫(kù)作為一個(gè)整體進(jìn)行統(tǒng)計(jì)；漢語(yǔ)特征詞的統(tǒng)計(jì)與分析試圖把通用語(yǔ)料庫(kù)按時(shí)間、領(lǐng)域等分為子語(yǔ)料庫(kù)分別進(jìn)行統(tǒng)計(jì)，然后通過(guò)比較得出特征詞，這種統(tǒng)計(jì)是把語(yǔ)料庫(kù)分解為子語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)。特征詞的統(tǒng)計(jì)需要一個(gè)高質(zhì)量的平衡語(yǔ)料庫(kù)，國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)(以下簡(jiǎn)稱“通用語(yǔ)料庫(kù)”)是國(guó)家語(yǔ)委精心打造的國(guó)家級(jí)平衡語(yǔ)料庫(kù)，主要服務(wù)于語(yǔ)言文字的信息處理、語(yǔ)言文字規(guī)范標(biāo)準(zhǔn)的制訂、語(yǔ)言文字的學(xué)術(shù)研究、語(yǔ)文教學(xué)和語(yǔ)言文字的社會(huì)應(yīng)用等方面。本文的統(tǒng)計(jì)對(duì)象就是國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)。

漢語(yǔ)特征詞的統(tǒng)計(jì)與分析的對(duì)象是通用語(yǔ)料庫(kù)中那些分布上的特征詞。在日常的語(yǔ)言使用中，我們時(shí)常會(huì)發(fā)現(xiàn)有這樣一種現(xiàn)象：有些常用的特高頻詞(如“的”“了”“不”“在”“是”等)在不同領(lǐng)域(如“政治”“經(jīng)濟(jì)”“科技”“文化”等)和不同時(shí)期(如“解放前”“‘文革’期間”“改革開(kāi)放后”等)的文檔中出現(xiàn)的頻率差別不大，也就是說(shuō)，這些特高頻詞在不同領(lǐng)域和不同時(shí)期的文檔中分布得比較均勻。同時(shí)，也有一些詞語(yǔ)(如“跑道”“蛙泳”“裸絞”“預(yù)蹲”“疊兵”等)在某些特定類別(如“體育”)的文檔中出現(xiàn)的頻率會(huì)高于它們?cè)谄渌悇e文檔(如“經(jīng)濟(jì)”“科技”“文化”等)的頻率。這說(shuō)明有些詞語(yǔ)在區(qū)分文檔類別方面的能力較強(qiáng)，這些分布上差異大的詞就是需要研究的特征詞。漢語(yǔ)特征詞研究的內(nèi)容主要有兩大部分：一是利用數(shù)理統(tǒng)計(jì)的方法，把通用語(yǔ)料庫(kù)中的年代特征詞和語(yǔ)體特征詞抽取出來(lái)并建立特征詞表，同時(shí)，設(shè)計(jì)一些簡(jiǎn)單實(shí)用、易操作的語(yǔ)料庫(kù)統(tǒng)計(jì)工具；二是結(jié)合時(shí)代文化背景和語(yǔ)體特征對(duì)這些特征詞進(jìn)行分析。語(yǔ)言與社會(huì)有著密不可分的關(guān)系，從語(yǔ)言與社會(huì)、語(yǔ)言與文化的角度分析年代特征詞和語(yǔ)體特征詞，例如不同時(shí)期、不同語(yǔ)體的人名、地名和機(jī)構(gòu)名等特征詞反映的社會(huì)文化意義。

二、特征詞研究的緣起和意義

(一) 特征詞研究的緣起

漢語(yǔ)特征詞的統(tǒng)計(jì)與分析緣于以下四個(gè)方面：信息論中關(guān)于熵的研究，情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究，語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立，語(yǔ)言學(xué)研究中的方言特征詞研究。

(1) 信息論中關(guān)于熵的研究。1850年，德國(guó)物理學(xué)家魯?shù)婪颉た藙谛匏故状翁岢鲮氐母拍?，用?lái)表示任何一種能量在空間中分布的均勻程度，能量分布得越均勻，熵就越大。1948年，美國(guó)數(shù)學(xué)家香農(nóng)(Claude E.Shanon)在BellSystemTechnicalJournal上發(fā)表了《通信的數(shù)學(xué)原理》(AMathematicalTheoryofCommunication)一文，將熵的概念引入信息論中。在信息論中，熵表示的是不確定性的量度。從信息論的角度看來(lái)，用自然語(yǔ)言交際的過(guò)程，就是從語(yǔ)言的發(fā)送者通過(guò)通訊媒介，傳輸?shù)秸Z(yǔ)言的接收者的過(guò)程，因此，也可以測(cè)定語(yǔ)言的熵。語(yǔ)言的熵就是在交際過(guò)程中語(yǔ)言符號(hào)出現(xiàn)的不定度，不定度的大小與語(yǔ)言的熵的高低一致。當(dāng)語(yǔ)言的接收者接收到語(yǔ)言符號(hào)之后，不定度被消除，熵等于零，因而在交際過(guò)程中，語(yǔ)言接收者所得到的信息量恰恰等于被消除的熵[1]。特征詞在不同的文本中分布差異較大，不確定性比非特征詞要大，因此，特征詞尤其值得關(guān)注。

(2) 情報(bào)學(xué)中關(guān)于反文獻(xiàn)頻率的研究。1972年，Spark Jones提出計(jì)算文獻(xiàn)頻率有助于計(jì)算詞權(quán)重，從此反文獻(xiàn)頻率(Inverse Document Frequency，簡(jiǎn)稱IDF)公式在信息檢索中占據(jù)重要地位，是信息檢索中計(jì)算詞與文獻(xiàn)的相關(guān)權(quán)重的經(jīng)典計(jì)算方法，它不僅可以用于計(jì)算關(guān)鍵字檢索中關(guān)鍵字與相關(guān)文獻(xiàn)的相關(guān)權(quán)重，而且可以用于計(jì)算文獻(xiàn)自動(dòng)分類中主題詞與相關(guān)文獻(xiàn)的相關(guān)權(quán)重。IDF基于這樣一個(gè)假設(shè)：稀有詞比常用詞包含更新的信息。構(gòu)成文本的詞的數(shù)據(jù)量是相當(dāng)大的，因此在進(jìn)行文本特征抽取時(shí)，如果把所有的詞都作為文本特征，計(jì)算量會(huì)非常大，而且不同的詞對(duì)文本分類的貢獻(xiàn)差別很大，因此在文本分類時(shí)優(yōu)先選擇的是更有效的特征詞語(yǔ)，這些特征詞語(yǔ)選擇的標(biāo)準(zhǔn)就是要最大限度地區(qū)分不同的文檔，其特征選擇的依據(jù)就是詞語(yǔ)在文章中的權(quán)重，包括該詞語(yǔ)在文本中出現(xiàn)的頻率和該詞語(yǔ)在文本集合中的分布情況。在反文獻(xiàn)頻率的研究中，特征詞占有重要地位。

(3) 語(yǔ)料庫(kù)統(tǒng)計(jì)中各種詞表的建立。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，學(xué)界為了服務(wù)于語(yǔ)言研究、語(yǔ)文教學(xué)、中文信息處理和辭書(shū)編纂等工作，建立了一大批語(yǔ)料庫(kù)。隨著研究和統(tǒng)計(jì)手段的提高，先后建立了十多個(gè)有影響的詞表。這些詞表對(duì)語(yǔ)言研究、語(yǔ)文教學(xué)、中文信息處理和辭書(shū)編纂等工作起到了極大的推動(dòng)作用，仔細(xì)觀察這些詞表可以發(fā)現(xiàn)，各個(gè)詞表的規(guī)模、性質(zhì)、作用與目的各不相同，對(duì)統(tǒng)計(jì)項(xiàng)的選擇也不相同。所憑借的統(tǒng)計(jì)項(xiàng)不一樣導(dǎo)致部分詞語(yǔ)有的詞表收了有的詞表沒(méi)有收，其中就有一些特征詞。對(duì)特征詞的進(jìn)一步深入研究，還可以反觀這些詞表的優(yōu)劣。

(4) 語(yǔ)言學(xué)中方言特征詞的研究。方言特征詞是不同方言詞匯之間的區(qū)別特征，是表現(xiàn)該方言詞匯特征的最重要的方言詞。李如龍編《漢語(yǔ)方言特征詞研究》共收錄12篇研究特征詞的文章，它們從內(nèi)部和外部分別研究了官話方言、山東方言、晉語(yǔ)、北部吳語(yǔ)、徽語(yǔ)、贛語(yǔ)、客家方言、閩方言、閩東方言、粵語(yǔ)、雷瓊閩語(yǔ)等方言的特征詞。李如龍先生把“方言特征詞”界定為：方言特征詞是一定地域里一定批量的、區(qū)內(nèi)大體一致、區(qū)外相對(duì)殊異的方言詞[2]。此外，辛世彪《關(guān)中方言特征詞概說(shuō)》(錢曾怡、李行杰主編《首屆官話方言國(guó)際學(xué)術(shù)討論會(huì)論文集》，青島出版社，1997年)、張振興《閩語(yǔ)特征詞舉例》(《漢語(yǔ)學(xué)報(bào)》2004年第1期)等也都對(duì)方言特征詞進(jìn)行了探討。方言特征詞從某種意義上說(shuō)是詞匯在地域上的分布特點(diǎn)，如果探討詞匯在年代和語(yǔ)體上的分布特點(diǎn)，相應(yīng)的也會(huì)有年代特征詞和語(yǔ)體特征詞[3]。

(二) 特征詞研究的意義

漢語(yǔ)特征詞的統(tǒng)計(jì)與分析是一個(gè)值得下大力氣認(rèn)真研究的課題，具有較大的理論意義和現(xiàn)實(shí)意義。

(1) 推進(jìn)語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究。近年來(lái)語(yǔ)料庫(kù)語(yǔ)言學(xué)得到了迅猛發(fā)展，在多個(gè)領(lǐng)域取得了豐碩的成果。語(yǔ)料庫(kù)語(yǔ)言學(xué)是語(yǔ)言研究中的一種重要方法，通過(guò)對(duì)語(yǔ)言的結(jié)構(gòu)、分布、使用、變遷等要素進(jìn)行數(shù)量分析來(lái)揭示語(yǔ)言的狀態(tài)、性質(zhì)和特點(diǎn)。特征詞的統(tǒng)計(jì)與分析試圖深入語(yǔ)料庫(kù)的內(nèi)部，通過(guò)比較各子語(yǔ)料庫(kù)詞匯的頻率差、頻率比、頻序比、獨(dú)用詞、出現(xiàn)文本數(shù)等得出特征詞；反過(guò)來(lái)，通過(guò)子語(yǔ)料庫(kù)的頻差分析、相似性對(duì)比分析和信息熵計(jì)算等來(lái)考察通用語(yǔ)料庫(kù)的建設(shè)質(zhì)量，進(jìn)而反思語(yǔ)料庫(kù)的建設(shè)。

(2) 推進(jìn)計(jì)量詞匯學(xué)的研究。判斷成詞與否一般有三個(gè)標(biāo)準(zhǔn)：結(jié)構(gòu)、意義和音節(jié)，除此之外還有頻率標(biāo)準(zhǔn)[4]。特征詞的研究表明頻率標(biāo)準(zhǔn)不能僅以頻率高低為依據(jù)，還要結(jié)合分布率，因?yàn)轭l率高不一定分布率高，頻率的高低只是在整個(gè)語(yǔ)料庫(kù)中的總體表現(xiàn)，而分布率則需綜合考察詞匯在子語(yǔ)料庫(kù)中的表現(xiàn)。目前的語(yǔ)言研究主要還是定性研究，科學(xué)研究的方法除了定性研究的方法外，還有一種是定量方法。定量方法運(yùn)用數(shù)學(xué)方法對(duì)客觀事物及其現(xiàn)象進(jìn)行測(cè)量，并通過(guò)獲得的數(shù)據(jù)對(duì)事物的屬性進(jìn)行研究，從而從本質(zhì)上把握該事物。對(duì)漢語(yǔ)詞語(yǔ)的研究是否也能進(jìn)行計(jì)量研究，以及從何種角度進(jìn)行研究，是值得嘗試的課題。

(3) 推進(jìn)社會(huì)語(yǔ)言學(xué)的研究。通過(guò)比較各子語(yǔ)料庫(kù)詞匯的頻率差、頻率比、頻序比，可以得出年代特征詞和語(yǔ)體特征詞，進(jìn)而結(jié)合時(shí)代背景和語(yǔ)體風(fēng)格考察這些特征詞反映的時(shí)代特征和語(yǔ)體特征。通過(guò)特征詞的考察，可以把語(yǔ)言中的詞匯同社會(huì)、文化等背景結(jié)合起來(lái)進(jìn)行研究。

(4) 推進(jìn)中文信息處理研究。特征詞研究使用的統(tǒng)計(jì)方法可以用于文本數(shù)據(jù)挖掘、文本自動(dòng)分類、自動(dòng)文摘、全文檢索等。以領(lǐng)域特征詞為例，領(lǐng)域特征詞的獲取是基于內(nèi)容的文本處理中的基礎(chǔ)關(guān)鍵技術(shù)，文本分類和主題分析等需要龐大的領(lǐng)域詞表支撐，在信息抽取和信息檢索中抽取和檢索的對(duì)象很大程度上也依賴于領(lǐng)域特征。中文信息處理迫切需要在特征詞的提取上取得突破性的進(jìn)展，要求特征詞能夠確實(shí)標(biāo)識(shí)文本的特征內(nèi)容，具有將目標(biāo)文本與其他文本相區(qū)分的能力，而且特征詞的分離要比較容易實(shí)現(xiàn)。

三、特征詞研究的方法

(一) 基本思路

就基本思路而言，特征詞的研究可以采用間接式和直接式兩種方式。間接式是以已有的詞語(yǔ)研究為基礎(chǔ)，例如《現(xiàn)代漢語(yǔ)詞典》從1965年的試用本迄今已有近半個(gè)世紀(jì)，也先后出版了多個(gè)版本，由于不同版本的收詞都有一些變化，有增詞也有減詞，正好可以用來(lái)研究各個(gè)不同時(shí)期的特征詞。這種方法的優(yōu)點(diǎn)是工作量比較小，但間接式的特征詞研究最大的問(wèn)題在于其研究不是基于真實(shí)語(yǔ)言生活，是建立在研究基礎(chǔ)之上的研究，難免會(huì)有較大的誤差；而且，《現(xiàn)代漢語(yǔ)詞典》沒(méi)有給每個(gè)詞標(biāo)注語(yǔ)體，這樣就沒(méi)辦法考察語(yǔ)體特征詞。直接式的特征詞研究是以真實(shí)的語(yǔ)言生活為材料，考察各個(gè)階段和各個(gè)領(lǐng)域的特征詞，這種方法最大的優(yōu)點(diǎn)是盡可能地接近真實(shí)的語(yǔ)言生活，缺點(diǎn)是工作量較大，考慮到計(jì)算機(jī)的強(qiáng)大處理能力，這種方法還是值得嘗試的。因此，漢語(yǔ)特征詞的統(tǒng)計(jì)與分析以國(guó)家語(yǔ)委通用語(yǔ)料庫(kù)為對(duì)象來(lái)考察時(shí)代特征詞和語(yǔ)體特征詞。

首先按照不同的分類方式把整個(gè)通用語(yǔ)料庫(kù)分為若干子語(yǔ)料庫(kù)。三種分類方式為：(1)以“大事件”為節(jié)點(diǎn)的社會(huì)階段分期，即以“建國(guó)”、“改革開(kāi)放”為節(jié)點(diǎn)劃分為三個(gè)子語(yǔ)料庫(kù)：1919—1949年、1950—1978年、1979—2000年；(2)以“十個(gè)自然年”為節(jié)點(diǎn)的時(shí)間分期。即：以10個(gè)自然年為節(jié)點(diǎn)，劃為六個(gè)階段：1919—1949年、1950—1959年、1960—1969年、1970—1979年、1980—1989年、1990—2000年；(3)以語(yǔ)體劃分，即按通用語(yǔ)料庫(kù)的一級(jí)分類劃分為四個(gè)子語(yǔ)料庫(kù)：報(bào)紙、人文社會(huì)科學(xué)、自然科學(xué)和綜合類。

再次，給這三種統(tǒng)計(jì)量設(shè)定一個(gè)閾值，把待篩選的特征詞自動(dòng)抽取出來(lái)。綜合頻率差、頻率比和頻序比三種統(tǒng)計(jì)量抽出的待篩選特征詞，出現(xiàn)三次的可以確認(rèn)為特征詞，出現(xiàn)兩次的可以基本確認(rèn)為特征詞，出現(xiàn)一次的則需考慮統(tǒng)計(jì)量的具體數(shù)值，必要時(shí)進(jìn)行人工篩選。

最后，結(jié)合社會(huì)文化背景和語(yǔ)體特征分析這些特征詞，包括言語(yǔ)詞和語(yǔ)言詞。

(二) 具體方法

具體研究方法擬采取先易后難、先試驗(yàn)后全面展開(kāi)的方法。以年代為例，比較而言，新中國(guó)成立前子語(yǔ)料庫(kù)與改革開(kāi)放后子語(yǔ)料庫(kù)語(yǔ)言差異要大一些，容易提取特征詞，所以先比較這兩個(gè)子語(yǔ)料庫(kù)；而兩者與新中國(guó)成立到改革開(kāi)放之間的子語(yǔ)料庫(kù)的差異要小一些，放在后面比較。在進(jìn)行全面統(tǒng)計(jì)之前，先抽取一定數(shù)量的樣本進(jìn)行試驗(yàn)，以比較各種統(tǒng)計(jì)量之間的優(yōu)劣，初步試驗(yàn)表明頻率差、頻率比、頻序比各有所長(zhǎng)，頻率差的優(yōu)點(diǎn)是直接了然，缺點(diǎn)是對(duì)高頻詞容易誤判；頻率比的優(yōu)點(diǎn)是準(zhǔn)確率高，缺點(diǎn)是有些低頻詞的比值差異相當(dāng)細(xì)微難以發(fā)現(xiàn)；頻序比的優(yōu)點(diǎn)是準(zhǔn)確率高，缺點(diǎn)是由于各子語(yǔ)料庫(kù)詞語(yǔ)總數(shù)不同導(dǎo)致少數(shù)低頻詞的可比性低。因此，特征詞的統(tǒng)計(jì)綜合考慮頻率差、頻率比、頻序比這三個(gè)統(tǒng)計(jì)量，試圖抽出一個(gè)盡可能完整的待篩選特征詞表，最后結(jié)合時(shí)代文化背景和語(yǔ)體特征分析這些特征詞。

主要使用定量分析方法和結(jié)合社會(huì)文化的方法。所謂定量分析方法，就是“將處于隨機(jī)狀態(tài)的某種語(yǔ)言現(xiàn)象給予一定的數(shù)量統(tǒng)計(jì)，然后通過(guò)頻率、頻度、頻度鏈等量化形式來(lái)揭示這類隨機(jī)現(xiàn)象背后所隱藏的規(guī)律性”，也就是借鑒自然科學(xué)的方法，用統(tǒng)計(jì)數(shù)字說(shuō)話[5]。詞匯研究長(zhǎng)期以來(lái)以定性研究方法為主，“所謂定性式研究方法，即研究主要評(píng)介的是研究者對(duì)材料的主觀感受與判斷”[6]。在定性研究中，個(gè)人的判斷起著重要作用，研究所依據(jù)的主要是個(gè)人熟知的部分語(yǔ)料以及研究者的個(gè)人語(yǔ)感，因此不可避免地會(huì)帶來(lái)個(gè)別結(jié)論與普遍規(guī)律、個(gè)人判斷與普遍占有材料之間的矛盾。尤其是詞匯的研究中，個(gè)人的主觀感知往往會(huì)對(duì)客觀的評(píng)判產(chǎn)生深刻的影響。所以，有必要運(yùn)用定量分析方法這種自然科學(xué)的常用方法，對(duì)詞匯進(jìn)行研究。社會(huì)生活的各個(gè)方面，諸如政治、軍事、法律、習(xí)俗、工商業(yè)、教育等的發(fā)展變化，無(wú)不影響著詞語(yǔ)的產(chǎn)生、發(fā)展、演變。只有將詞匯研究置于社會(huì)發(fā)展的大環(huán)境中，才能把握詞匯分布、發(fā)展的歷史動(dòng)因。特征詞直接反映了社會(huì)的發(fā)展變遷、民族的文化傳統(tǒng)，從詞匯與社會(huì)政治、經(jīng)濟(jì)、文化教育、社會(huì)意識(shí)形態(tài)等的發(fā)展相聯(lián)系的角度出發(fā)，探究和把握詞匯發(fā)展史的外部歷史原因。

(三) 采用的統(tǒng)計(jì)項(xiàng)目

統(tǒng)計(jì)的對(duì)象主要是詞語(yǔ)，統(tǒng)計(jì)項(xiàng)目主要有頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率、詞性分布、詞類分布、獨(dú)用詞、共用詞、頻差、頻比、使用度、通用度、語(yǔ)料相似度和熵。漢語(yǔ)特征詞的統(tǒng)計(jì)與分析先統(tǒng)計(jì)出詞語(yǔ)出現(xiàn)的次數(shù)，然后計(jì)算出這些詞出現(xiàn)的頻率，再在此基礎(chǔ)上統(tǒng)計(jì)其他項(xiàng)目。其中頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率是比較常用的概念，不需贅述，其他項(xiàng)目相關(guān)方法的描述如下[7]：

(1) 頻率差

假設(shè)總語(yǔ)料為S，A為S的一個(gè)子庫(kù)，相對(duì)于S和A，任一詞匯wi的頻率差(簡(jiǎn)稱頻差)的計(jì)算公式為：

頻差(A,wi)=f(A,wi)-f(S,wi)

(1)

其中，f(S，wi)表示頻率，即詞語(yǔ)wi在分類語(yǔ)料中的頻率與在總語(yǔ)料中的頻率之差。

頻差一般反映了某一個(gè)詞語(yǔ)在分階段語(yǔ)料和在總語(yǔ)料中的分布差異性，能夠凸顯子語(yǔ)料庫(kù)的一些語(yǔ)言特征。

(2) 頻率比

假設(shè)總語(yǔ)料為S，A為S的一個(gè)子庫(kù)，相對(duì)于S和A，任一詞匯wi的頻率比(簡(jiǎn)稱頻比)的計(jì)算公式為：

(2)

相對(duì)頻差而言，頻比更能反映出分類語(yǔ)料的特色，頻比高的詞語(yǔ)一般是分類語(yǔ)料的獨(dú)用詞，而且使用較頻繁。

(3) 使用度

使用度用來(lái)刻畫(huà)字或詞語(yǔ)在應(yīng)用上的廣泛性、平衡性，是壓縮后的頻次，在相同頻率下，詞頻分布越均勻，則壓縮越少，使用度越高。

使用度的計(jì)算涉及另外兩個(gè)參數(shù)：變異系數(shù)與擴(kuò)散率。

詞語(yǔ)wi變異系數(shù)的計(jì)算公式為：

(3)

其中D為wi的方差，E為期望，n為分類語(yǔ)料的數(shù)目。

擴(kuò)散率的計(jì)算公式為：

(4)

使用度的計(jì)算公式則為：

(5)

其中C(Aj,wi)表示詞語(yǔ)wi在語(yǔ)料Aj中出現(xiàn)的頻次。

(4) 通用度

與使用度類似，通用度也是用來(lái)刻畫(huà)詞語(yǔ)在應(yīng)用上的廣泛性和平衡性。尹斌庸、方世增在《語(yǔ)言文字應(yīng)用》1994年第2期的《詞頻統(tǒng)計(jì)的新概念和新方法》中提出了通用度的概念。所謂詞語(yǔ)的“通用度”，是指詞語(yǔ)在語(yǔ)言應(yīng)用的各個(gè)領(lǐng)域里常用性的綜合指標(biāo)。簡(jiǎn)單地說(shuō)，通用度就是詞語(yǔ)在語(yǔ)言應(yīng)用的各個(gè)領(lǐng)域里通用的程度。通用度兼顧了詞語(yǔ)的分布率和頻率兩個(gè)方面，并且把兩者有機(jī)地結(jié)合起來(lái)了。通用度概念中所說(shuō)的“領(lǐng)域”，既可以指“空間”，也可以指“時(shí)間”，它既可指一個(gè)詞在共時(shí)的語(yǔ)言應(yīng)用中各領(lǐng)域里的通用程度，也可指一個(gè)詞在歷時(shí)的各個(gè)時(shí)期里的語(yǔ)言應(yīng)用中的通用程度。

通用度的計(jì)算公式為：

(6)

其中C(Aj，wi)表示wi在子語(yǔ)料庫(kù)Aj中出現(xiàn)的次數(shù)。

(5) 語(yǔ)料相似度

將每個(gè)語(yǔ)料A表示成向量：

Corpus(A)=(w1,w2,w3,…,wi,…,wn)

其中，wi為語(yǔ)料中出現(xiàn)的詞語(yǔ)的頻次，然后使用VSM計(jì)算語(yǔ)料之間的相似度，相似度計(jì)算公式如下：

(7)

(6) 熵比較

按信息論的理論，熵表示信息量的多少。如語(yǔ)料用A表示，則其熵的計(jì)算公式為：

(8)

其中f(wi)表示語(yǔ)料庫(kù)A中某一對(duì)象wi在A中的頻率。

本文為教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃(NCET-11-0655)；國(guó)家社會(huì)科學(xué)基金項(xiàng)目(批準(zhǔn)號(hào)：08BYY059)。

注釋：

[1]馮志偉在國(guó)內(nèi)首先測(cè)定了漢字的熵，認(rèn)為從漢語(yǔ)書(shū)面語(yǔ)文句的總體來(lái)考慮，在浩如煙海的全部現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)文句中，包含在一個(gè)漢字中的熵為9.65比特，因而每當(dāng)我們從漢語(yǔ)書(shū)面語(yǔ)文句中讀到一個(gè)漢字時(shí)，我們就獲得9.65比特的信息量。參見(jiàn)馮志偉：《漢字的熵》，《語(yǔ)文建設(shè)》，1984年第4期。

[2]參見(jiàn)李如龍：《中國(guó)語(yǔ)言學(xué)報(bào)》，2001年第10期。

[3]國(guó)外的語(yǔ)言學(xué)研究中早就關(guān)注到特征詞的問(wèn)題，例如Halliday, M. A. K., A. McIntosh & P. Strevens.TheLinguisticScienceandLanguageTeaching.(London: Longman1964)認(rèn)為語(yǔ)域之間的不同主要表現(xiàn)在形式上，即表現(xiàn)在詞匯和語(yǔ)法上，其中詞匯方面的區(qū)別表現(xiàn)得最明顯，以英語(yǔ)為例，cleanse(清掃)主要用在廣告里，probe(探查)主要用在報(bào)紙上，特別是報(bào)紙的標(biāo)題上。

[4]參見(jiàn)劉云、李晉霞：《論頻率對(duì)詞感的制約》，《語(yǔ)言教學(xué)與研究》，2009年第3期。

[5]參見(jiàn)唐鈕明：《定量方法與古文字資料的詞匯語(yǔ)法研究》，《海南師范學(xué)院學(xué)報(bào)》，1991年第4期。

[6]參見(jiàn)蘇新春：《漢語(yǔ)詞匯計(jì)量研究》，廈門：廈門大學(xué)出版社，2002年，第14頁(yè)。

[7]這些常見(jiàn)統(tǒng)計(jì)項(xiàng)目的解釋可參見(jiàn)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心編：《中國(guó)語(yǔ)言生活狀況報(bào)告》(2007)，商務(wù)印書(shū)館，2007年。書(shū)中收錄的《語(yǔ)言資源監(jiān)測(cè)與研究相關(guān)術(shù)語(yǔ)(2008版)》公布了108條相關(guān)術(shù)語(yǔ)。

漢語(yǔ)特征詞研究的緣起、意義和方法

一、 引 言

二、 特征詞研究的緣起和意義

三、 特征詞研究的方法

漢語(yǔ)特征詞研究的緣起、意義和方法

一、引言

二、特征詞研究的緣起和意義

三、特征詞研究的方法