文獻(xiàn)中的詞語(yǔ)分布、詞型等級(jí)和風(fēng)格計(jì)算

2017-10-11 07:31:45馬創(chuàng)新陳小荷

中文信息學(xué)報(bào) 2017年4期

關(guān)鍵詞：總數(shù)論語(yǔ)詞語(yǔ)

馬創(chuàng)新,陳小荷

(1. 江蘇師范大學(xué) 語(yǔ)言科學(xué)與藝術(shù)學(xué)院，江蘇徐州 221009; 2. 南京師范大學(xué) 文學(xué)院，江蘇南京 210097)

文獻(xiàn)中的詞語(yǔ)分布、詞型等級(jí)和風(fēng)格計(jì)算

馬創(chuàng)新1,陳小荷2

(1. 江蘇師范大學(xué) 語(yǔ)言科學(xué)與藝術(shù)學(xué)院，江蘇徐州 221009; 2. 南京師范大學(xué) 文學(xué)院，江蘇南京 210097)

文獻(xiàn)的語(yǔ)言風(fēng)格是作者在語(yǔ)言運(yùn)用方面的思維定勢(shì)的體現(xiàn)，對(duì)于文獻(xiàn)之間語(yǔ)言風(fēng)格的差異，以前的研究大多采用定性分析的方式加以比較和概括，而在文獻(xiàn)檢索和文本分類(lèi)領(lǐng)域需要得到量化的語(yǔ)言風(fēng)格相似度。該文首先分析文獻(xiàn)中詞語(yǔ)分布的普遍規(guī)律，以先秦八部經(jīng)典文獻(xiàn)為觀察語(yǔ)料，發(fā)現(xiàn)這些文獻(xiàn)中的詞語(yǔ)既呈離散分布，又呈集中分布；然后通過(guò)計(jì)算文獻(xiàn)之間詞型等級(jí)的相關(guān)系數(shù)，來(lái)獲取量化的語(yǔ)言風(fēng)格相似度，構(gòu)建了八部文獻(xiàn)之間的相似度矩陣，驗(yàn)證了語(yǔ)言風(fēng)格的差異不僅體現(xiàn)在使用的常用詞上，還更細(xì)微地體現(xiàn)在常用詞的使用頻率等級(jí)上。

詞語(yǔ)分布；離散；集中；檢索；風(fēng)格

Abstract: The language style of literature is the embodiment of the author’s mindset using language. For a quantitative analysis of the language style, this paper analyzes the word distribution in the pre-Qin literatures, collecting eight classic literatures as the corpus. The power-law distribution is again testified. Then the correlation coefficient of the word type grades between the literatures are calculated. We show that the language style differs not only in the use of common words, but also in the word types grade.

Key words: words distribution; dispersion; concentration; retrieval; style

收稿日期： 2016-07-11 定稿日期： 2017-02-23

基金項(xiàng)目：江蘇省社科基金(15YYC001)；國(guó)家社科基金(15BYY096)

1 引言

人類(lèi)行為由于受到思維定勢(shì)的影響，會(huì)表現(xiàn)出相對(duì)固定的模式。思維定勢(shì)是個(gè)體受到生活環(huán)境、知識(shí)背景和過(guò)往經(jīng)驗(yàn)的影響而逐漸形成的相對(duì)穩(wěn)定的思維方式，在一定的時(shí)期內(nèi)，成為指導(dǎo)個(gè)體行為方式的固有模式。文獻(xiàn)的語(yǔ)言風(fēng)格就是作者在語(yǔ)言運(yùn)用方面的思維定勢(shì)的體現(xiàn)，是作者在遣詞造句方面的個(gè)性特征。當(dāng)作者在表達(dá)一個(gè)事物或者現(xiàn)象時(shí)，會(huì)有一系列的同類(lèi)詞語(yǔ)可供選擇，有的詞語(yǔ)會(huì)被經(jīng)常選用，有的不常被選用。這種頻度不均的選擇本身使得被選詞語(yǔ)的特征信息更加突出，又會(huì)反過(guò)來(lái)作為再次被選擇的依據(jù)。如果把個(gè)體在表達(dá)一個(gè)事物或者現(xiàn)象時(shí)選用某個(gè)詞語(yǔ)看作是這個(gè)詞語(yǔ)的一次成功，那么這種成功的累積必然容易產(chǎn)生新的成功，這就逐漸形成個(gè)體在語(yǔ)言運(yùn)用方面的思維定勢(shì)[1]。

對(duì)于作品之間語(yǔ)言風(fēng)格的差異，以前的研究大多采用定性分析的方式，加以比較、歸納和概括。那么，如何才能得到文獻(xiàn)之間量化的語(yǔ)言風(fēng)格相似度呢?這成為文獻(xiàn)檢索和文本分類(lèi)領(lǐng)域亟需解決的關(guān)鍵問(wèn)題。本文在分析文獻(xiàn)中詞語(yǔ)分布普遍規(guī)律的基礎(chǔ)上，首次提出通過(guò)計(jì)算文獻(xiàn)之間在詞頻等級(jí)方面的相關(guān)系數(shù)來(lái)嘗試獲取量化的語(yǔ)言風(fēng)格相似度的方法。

2 相關(guān)研究

在詞頻等級(jí)的研究方面，布拉德福提出了一種在社會(huì)科學(xué)領(lǐng)域中應(yīng)用廣泛的重要研究方法，即頻次-等級(jí)排序法。按某一具體事項(xiàng)在其主體來(lái)源中的出現(xiàn)頻次按遞減順序排列起來(lái)，就會(huì)導(dǎo)出布拉德福分布。比如，如果把某篇文章中的詞語(yǔ)按照其出現(xiàn)頻次遞減排列，就會(huì)呈現(xiàn)出布拉德福分布。布拉德福分布的特點(diǎn)顯示出我們考察的具體對(duì)象的大多數(shù)集中于少數(shù)主體來(lái)源。比如，人們寫(xiě)文章時(shí)總是傾向于選擇自己常用的詞語(yǔ)。齊普夫定律[2]描述了詞語(yǔ)的頻率與等級(jí)序號(hào)之間的關(guān)系，發(fā)現(xiàn)任何一篇文章中詞的頻次和頻次等級(jí)的乘積總是一個(gè)常數(shù)。孫清蘭[3]研究高頻、低頻詞界分公式，分析詞頻與同頻詞數(shù)量的內(nèi)在規(guī)律。

在計(jì)算語(yǔ)言風(fēng)格的研究方面，徐秉錚等[4]從詞的相關(guān)性和上下文的相關(guān)性、字符數(shù)的統(tǒng)計(jì)、字符串的統(tǒng)計(jì)等三方面判斷《紅樓夢(mèng)》前八十回與后四十回的語(yǔ)言風(fēng)格有明顯的不同。日本學(xué)者金明哲[5]采用基于詞性組合的統(tǒng)計(jì)分析方法，使用以字符為單位的unigram 和以詞性為單位的n-gram 作為特征，分析文本的語(yǔ)言風(fēng)格。武曉春等[6]依據(jù)文體學(xué)理論,利用HowNet知識(shí)庫(kù),提出一種基于詞匯語(yǔ)義分析的相似度評(píng)估方法,有效利用了功能詞以外的其他詞匯,達(dá)到了較好的作者身份識(shí)別性能。王少康等[7]基于對(duì)句長(zhǎng)的統(tǒng)計(jì)構(gòu)建段長(zhǎng)的序列組合，分析寫(xiě)作風(fēng)格，利用不同作者寫(xiě)作時(shí)在文章語(yǔ)句節(jié)奏控制方面的特點(diǎn)，對(duì)十位作家進(jìn)行識(shí)別分類(lèi)。陳芯瑩等[8]對(duì)兩個(gè)語(yǔ)料樣本進(jìn)行統(tǒng)計(jì)分析，從中總結(jié)出句長(zhǎng)、型例比、名詞比例、代詞比例、標(biāo)點(diǎn)符號(hào)比例、感嘆句比例、單現(xiàn)詞比例等七個(gè)具有顯著分布差異的語(yǔ)言結(jié)構(gòu)特征，并以這些特征作為文本的表示特征對(duì)兩個(gè)未知作家文本進(jìn)行了相關(guān)系數(shù)統(tǒng)計(jì)和分析，準(zhǔn)確地判定了這兩個(gè)文本的作者。

3 文獻(xiàn)中詞語(yǔ)分布的普遍規(guī)律

為了考察文獻(xiàn)中的詞語(yǔ)分布規(guī)律，我們選取了八部先秦經(jīng)典文獻(xiàn)作為觀察語(yǔ)料。這八部文獻(xiàn)中包含三部儒家著作：《論語(yǔ)》、《孟子》、《荀子》；兩部道家著作：《老子》、《莊子》；兩部法家著作：《韓非子》、《管子》；一部墨家著作：《墨子》。我們首先對(duì)這八部文獻(xiàn)作了人工分詞處理，然后再考察它們的詞語(yǔ)分布狀況[9-10]。通過(guò)對(duì)文獻(xiàn)中出現(xiàn)的詞語(yǔ)進(jìn)行排序、統(tǒng)計(jì)和比較，我們發(fā)現(xiàn)文獻(xiàn)中的詞語(yǔ)分布普遍存在兩個(gè)相互對(duì)立而又統(tǒng)一的規(guī)律，即離散分布和集中分布。

3.1 離散分布

詞型(word types)是指詞表中所包含的一個(gè)個(gè)詞語(yǔ)條目，詞例(word tokens)是指某個(gè)詞型在特定語(yǔ)料中的使用實(shí)例，如果某個(gè)詞型被多次使用，這個(gè)詞型就會(huì)有多個(gè)詞例。我們首先統(tǒng)計(jì)了文獻(xiàn)中出現(xiàn)的詞型總數(shù)和詞例總數(shù)(詞例總數(shù)等于所有詞型的出現(xiàn)次數(shù)之和)，再把各個(gè)詞型按照其出現(xiàn)次數(shù)(即各個(gè)詞型的詞例數(shù))從高到低排序[11-12]，我們發(fā)現(xiàn)各個(gè)文獻(xiàn)中出現(xiàn)一次的詞型數(shù)占總詞型數(shù)的比例是基本相同的，全都呈現(xiàn)出極具規(guī)律性的離散分布。如表1所示。

表1 文獻(xiàn)中詞語(yǔ)的離散分布情況

續(xù)表

分析表1，發(fā)現(xiàn)如下特點(diǎn)。

(1) 在各部文獻(xiàn)中，詞型的平均出現(xiàn)次數(shù)差異很大，在6.25次～23.46次之間，均值為14.88。在《老子》中每個(gè)詞型平均出現(xiàn)次數(shù)最少，為6.25次，《管子》中每個(gè)詞型平均出現(xiàn)次數(shù)最多，為23.46次，這兩個(gè)文獻(xiàn)中的每個(gè)詞型平均出現(xiàn)次數(shù)相差17.21次。

(2) 在各個(gè)文獻(xiàn)中，“僅出現(xiàn)一次的詞型數(shù)量”與“詞型總數(shù)”之比是相近的，在39.02%～49.50%之間，均值為44.13%，全距為10.48%?！皟H出現(xiàn)兩次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的，在13.55%～16.15%之間，均值為14.81%，全距為2.6%?！皟H出現(xiàn)三次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的，在7.12%～9.95%之間，均值為7.79%，全距為2.83%。

(3) 文獻(xiàn)中出現(xiàn)的大量詞型是呈離散分布的。在這八部文獻(xiàn)中，平均44.13%的詞型僅出現(xiàn)一次，14.81%的詞型只出現(xiàn)兩次，7.79%的詞型僅出現(xiàn)三次。也就是說(shuō)，僅出現(xiàn)一次、兩次和三次的詞型就占了詞型總數(shù)的66.73%。

(4) “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間基本上呈負(fù)相關(guān)趨勢(shì)。為了能夠得到準(zhǔn)確的分析結(jié)果，我們統(tǒng)計(jì)了《孟子》中出現(xiàn)頻次在1～20次之間的詞型數(shù)量，統(tǒng)計(jì)結(jié)果如表2所示。其中,出現(xiàn)一次的詞型數(shù)量為1 186，出現(xiàn)二次的詞型數(shù)量為433，出現(xiàn)三次的詞型數(shù)量為211, ……詞型的出現(xiàn)次數(shù)越多，出現(xiàn)相同頻次的詞型數(shù)量就會(huì)越少，例外情況極少，兩者之間基本上呈負(fù)相關(guān)關(guān)系。

表2 “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間關(guān)系

3.2 集中分布

我們分別統(tǒng)計(jì)文獻(xiàn)中出現(xiàn)頻次排前5%、10%、15%、20%的詞型的出現(xiàn)頻次之和，計(jì)算它們占詞例總數(shù)的比例，把數(shù)據(jù)匯總起來(lái)，形成表3。

通過(guò)對(duì)表3的分析，發(fā)現(xiàn)如下特點(diǎn)：

(1) 在各個(gè)文獻(xiàn)中，雖然出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大，但在各個(gè)文獻(xiàn)中“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比是相近的，在51.92%～72.21%之間，均值為66.75%，全距為20.29%?！俺霈F(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比更加相近，在77.23%～92.12%之間，均值為87.13%，全距為14.89%。

表3 文獻(xiàn)中詞語(yǔ)的集中分布情況

(2) 在各部文獻(xiàn)中，詞語(yǔ)均呈現(xiàn)出集中分布的狀況，“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”就占“詞例總數(shù)”的66.75%左右，“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右，呈現(xiàn)出高度集中的狀況。

我們還分別統(tǒng)計(jì)了文獻(xiàn)中出現(xiàn)頻次排在前400位、500位、600位、700位、800位、900位的詞型出現(xiàn)頻次之和，并且計(jì)算頻次之和與詞例總數(shù)的比率，把數(shù)據(jù)匯總起來(lái)，形成表4。通過(guò)分析，我們發(fā)現(xiàn)雖然各部文獻(xiàn)中出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大，比如《管子》中出現(xiàn)的詞型總數(shù)是《老子》的5.36倍，出現(xiàn)的詞例總數(shù)更是相差20多倍。但是在各部文獻(xiàn)中，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 與“詞例總數(shù)”的比率卻是非常相近，在78.84%～88.70%之間，均值為82.03%，全距為9.86%。

表4 出現(xiàn)頻次排在前列的詞型出現(xiàn)頻次之和及其與詞例總數(shù)之比

續(xù)表

另外，文獻(xiàn)中的詞語(yǔ)分布呈現(xiàn)高度集中的狀況，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 就占到“詞例總數(shù)”的82.03%左右，“前500位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的85.27%左右，“前600位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.54%左右，“前700位的詞型的出現(xiàn)頻次之和” 占到“詞例總數(shù)”的89.30%左右，“前800位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的90.79%左右，“前900位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

3.3 小結(jié)

文獻(xiàn)中的詞語(yǔ)既呈現(xiàn)離散分布，又呈現(xiàn)集中分布，并且離散分布是絕對(duì)的，集中分布是相對(duì)的。從低頻詞的詞型方面看，詞語(yǔ)在文獻(xiàn)中呈現(xiàn)離散分布，在本文考察的八部文獻(xiàn)中，平均44.13%的詞型僅出現(xiàn)一次，14.81%的詞型只出現(xiàn)兩次，7.79%的詞型僅只出現(xiàn)三次；從高頻詞的詞例方面看，詞語(yǔ)在文獻(xiàn)中呈現(xiàn)出高度集中的分布狀況，“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右?！扒?00位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

我們認(rèn)為齊普夫所提出的“最小努力原則”可以解釋這種詞語(yǔ)分布狀況。齊普夫發(fā)現(xiàn)自然語(yǔ)言的詞匯使用服從“最小努力原則”這個(gè)定律，就是當(dāng)人們用語(yǔ)言表達(dá)思想時(shí)，同時(shí)受到“單一化的力”和“多樣化的力”的共同作用，說(shuō)話(huà)者希望盡量簡(jiǎn)短，只用一個(gè)詞表達(dá)要領(lǐng)最為省力，而聽(tīng)話(huà)者希望盡量詳盡，每個(gè)概念都用一個(gè)詞表達(dá)，理解起來(lái)最為省力。這兩者的相互作用，取得平衡，使自然語(yǔ)言的詞匯出現(xiàn)頻次雙曲線。

4 語(yǔ)言風(fēng)格的相似度計(jì)算

4.1 詞型等級(jí)的確定方法如何確定詞型的等級(jí)是一個(gè)非常重要的問(wèn)題。一般情況下，“詞型等級(jí)”是按照詞型在文獻(xiàn)中的出現(xiàn)頻次(即詞型的詞例數(shù))以遞減順序排列，把出現(xiàn)頻次最高的詞型等級(jí)定為1，次高的詞型等級(jí)定為2，依次類(lèi)推。然而，還有大量的同頻詞型存在，如何確定同頻詞型的等級(jí)，國(guó)內(nèi)外學(xué)者提出過(guò)四種方法[13-14]。

(1) 并列法。把同一頻次的詞型都當(dāng)作一個(gè)詞型對(duì)待，以其在文獻(xiàn)中詞頻序值為等級(jí)。

(2) 最大值法。對(duì)同一頻次的詞型排序，排法任意，取它們?cè)谖墨I(xiàn)中序值的最大值作為這些詞型的等級(jí)。國(guó)內(nèi)外語(yǔ)言研究者一般認(rèn)為齊普夫定律采用的是這種確定等級(jí)的方法。

(3) 最小值法。對(duì)同一頻次的詞型任意排序，取它們?cè)谖墨I(xiàn)中序值的最小值作為這些詞型的等級(jí)。

(4) 平均值法。對(duì)同一頻次的詞型任意排列，取這些同頻詞在文獻(xiàn)中序值的算術(shù)平均數(shù)作為它們的等級(jí)。

表5以《孟子》中出現(xiàn)頻次排前30位的詞型為例，對(duì)比了這四種詞型等級(jí)的確定方法。

表5 詞型等級(jí)的確定實(shí)例(以《孟子》中出現(xiàn)頻次排前30位的詞型為例)

續(xù)表

4.2 相似度的計(jì)算方法

本文通過(guò)計(jì)算文獻(xiàn)之間詞型等級(jí)的相關(guān)系數(shù)，來(lái)估量文獻(xiàn)之間語(yǔ)言風(fēng)格的相似度。相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中廣泛使用的一種量數(shù)，它表示兩組變量之間聯(lián)系的強(qiáng)度。根據(jù)研究目的和研究數(shù)據(jù)的不同，選擇不同的相關(guān)系數(shù)計(jì)算方法[15-16]。當(dāng)研究數(shù)據(jù)是具有等級(jí)性質(zhì)的順序變量，數(shù)據(jù)的總體分布不是正態(tài)分布時(shí)，可以計(jì)算數(shù)據(jù)的“斯皮爾曼等級(jí)相關(guān)”，它是英國(guó)統(tǒng)計(jì)學(xué)家、心理學(xué)家斯皮爾曼根據(jù)積差相關(guān)的概念推導(dǎo)出來(lái)的。斯皮爾曼等級(jí)相關(guān)的計(jì)算如式(1)。

(1)

其中Di表示每一對(duì)數(shù)據(jù)相應(yīng)的兩個(gè)等級(jí)之差，n表示樣本數(shù)。

斯皮爾曼等級(jí)相關(guān)適用于研究數(shù)據(jù)是具有等級(jí)性質(zhì)的成對(duì)數(shù)據(jù)，并且變量之間呈線性關(guān)系。但是，文獻(xiàn)之間出現(xiàn)的詞型數(shù)據(jù)并不是成對(duì)的，從表1可見(jiàn)，各部文獻(xiàn)中出現(xiàn)的詞型數(shù)量差異很大，比如，《論語(yǔ)》中出現(xiàn)1 622個(gè)詞型，《孟子》中出現(xiàn)2 723個(gè)詞型，不僅詞型數(shù)量不同，而且《論語(yǔ)》中出現(xiàn)的1 622個(gè)詞型在《孟子》中也不一定都會(huì)出現(xiàn)。所以，我們不能照搬斯皮爾曼等級(jí)相關(guān)來(lái)計(jì)算詞型等級(jí)的相似度，需要對(duì)原公式作一些改進(jìn)和限定。

我們用ARs來(lái)表示“以文獻(xiàn)A中詞型為樣本”與文獻(xiàn)B比較所得到的相關(guān)系數(shù)，對(duì)于在文獻(xiàn)A中出現(xiàn)而文獻(xiàn)B中沒(méi)有出現(xiàn)的詞型，不放在計(jì)算范圍內(nèi)。同樣，以BRs來(lái)表示“以文獻(xiàn)B中詞型為樣本”與文獻(xiàn)A比較所得到的相關(guān)系數(shù)，對(duì)于在文獻(xiàn)B中出現(xiàn)而文獻(xiàn)A中沒(méi)有出現(xiàn)的詞型，也不在計(jì)算范圍內(nèi)。

由于語(yǔ)言風(fēng)格體現(xiàn)在常用的詞語(yǔ)和句式中，并且從3.2節(jié)我們得知文獻(xiàn)中“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右。所以，本文選取在文獻(xiàn)中出現(xiàn)頻次排在前400、500、600、700、800、900位的詞型作為樣本。當(dāng)然，采用這種計(jì)算方法所得到的相關(guān)系數(shù)是一個(gè)近似值。

例如，以《論語(yǔ)》中出現(xiàn)頻次排在前400位的詞型作為樣本，計(jì)算它們與《孟子》中對(duì)應(yīng)詞型的等級(jí)相關(guān)性，首先要計(jì)算這400個(gè)詞型在《論語(yǔ)》和《孟子》中的詞型等級(jí)差，對(duì)于沒(méi)有在《孟子》中出現(xiàn)的詞型不作統(tǒng)計(jì)，然后再使用斯皮爾曼等級(jí)相關(guān)公式計(jì)算它們相關(guān)系數(shù)。

我們假定為詞型等級(jí)的相關(guān)系數(shù)就是語(yǔ)言風(fēng)格的相似度，文獻(xiàn)A與B的語(yǔ)言風(fēng)格相似度用ABRs來(lái)表示，ABRs等于ARs與BRs的均值，即： ABRs=(ARs+BRs)/2。也就是說(shuō)，文獻(xiàn)A與B的語(yǔ)言風(fēng)格相似度就等于“以文獻(xiàn)A中詞型為樣本”與文獻(xiàn)B比較所得到的相關(guān)系數(shù)，加上“以文獻(xiàn)B中詞型為樣本”與文獻(xiàn)A比較所得到的相關(guān)系數(shù)，兩個(gè)系數(shù)之和再除以2所得到的商。

4.3 實(shí)驗(yàn)和分析

為了驗(yàn)證本文所提出理論和方法的有效性，我們選取《論語(yǔ)》作為參照文獻(xiàn)，采用“并列法”確定詞型等級(jí)，計(jì)算《論語(yǔ)》的折半相似度(所謂折半相似度，即把《論語(yǔ)》均分成兩部文獻(xiàn)，再計(jì)算這兩部文獻(xiàn)的相似度)，以及《論語(yǔ)》分別與另外七部文獻(xiàn)之間的風(fēng)格相似度。實(shí)驗(yàn)數(shù)據(jù)如表6所示，表6中第一行的“400”表示選取文獻(xiàn)中出現(xiàn)頻次排在前400位的詞型作為樣本，依此類(lèi)推，500、600、700、800和900也表示同類(lèi)含義。

表6 以《論語(yǔ)》為參照的相似度數(shù)據(jù)

觀察表6中的數(shù)據(jù)，可以發(fā)現(xiàn)如下特點(diǎn)。

(1) 《論語(yǔ)》的折半相似度高于《論語(yǔ)》與其他任一文獻(xiàn)之間的相似度。

(2) 《論語(yǔ)》作為儒家文獻(xiàn)，與其他兩部儒家文獻(xiàn)之間的相似度較高，與道家文獻(xiàn)的相似度也比較高，與法家、墨家文獻(xiàn)的相似度比較低。

(3) 選取的詞型樣本數(shù)越多，相似度越大。比如，在選取頻次排在前400位的詞型作為樣本時(shí)，《論語(yǔ)》《管子》的相似度是63.24%，選取前500位的詞型作為樣本時(shí)，相似度是72.05%，選取前600位的詞型作為樣本時(shí)，相似度是77.97%，隨著選取樣本數(shù)的增加，相似度也在增加。

(4) 無(wú)論選取多少個(gè)詞型樣本，不管是400個(gè)、500個(gè)，還是900個(gè)，相似度的高低順序是相同的。按照相似度由高到低排列，依次是：《論語(yǔ)》折半相似度、《論語(yǔ)》與《孟子》、《論語(yǔ)》與《老子》、《論語(yǔ)》與《莊子》、《論語(yǔ)》與《荀子》、《論語(yǔ)》與《墨子》、《論語(yǔ)》與《韓非子》、《論語(yǔ)》與《管子》。

(5) 隨著樣本數(shù)的增加，相似度之間的差距在縮小。比如，在選取頻次排在前400位的詞型作為樣本時(shí)，《論語(yǔ)》折半相似度是99.88%，《論語(yǔ)》與《墨子》相似度是78.95%，兩個(gè)相似度之間的差距是20.93%；而在選取頻次排在前500位的詞型作為樣本時(shí)，兩個(gè)相似度之間的差距是15.51%；選取前600位的詞型作為樣本時(shí)，兩個(gè)相似度之間的差距是11.09%，差距都是越來(lái)越小。

以上的觀察，證明了本文所提出的方法是能夠有效測(cè)量文獻(xiàn)之間語(yǔ)言風(fēng)格相似度的。

為了能夠更全面地分析八部先秦經(jīng)典文獻(xiàn)之間的風(fēng)格相似度，我們采用并列法確定詞型等級(jí)，全部選取頻次排在前500位的詞型作為樣本，分別測(cè)量八部文獻(xiàn)兩兩之間的相似度，以及它們各自的折半相似度，形成如表7所示的相似度矩陣[17]。

表7 八部文獻(xiàn)之間的相似度矩陣

表7中黑體加粗的數(shù)字表示的是文獻(xiàn)自身的折半相似度，比如第二行第二列的99.93%就是《論語(yǔ)》的折半相似度，第三行第三列的99.82%是《孟子》的折半相似度，依此類(lèi)推。觀察表7，我們能夠得到如下規(guī)律：

(1) 文獻(xiàn)的折半相似度總是高于該文獻(xiàn)與其他文獻(xiàn)之間的相似度。例如，《墨子》的折半信度為98.36%，高于《墨子》與其他任一文獻(xiàn)之間的相似度；

(2) 同一學(xué)術(shù)流派內(nèi)文獻(xiàn)之間的相似度一般高于流派之間文獻(xiàn)的相似度。例如，《論語(yǔ)》與《孟子》的相似度為98.19%，《韓非子》與《管子》的相似度為96.32%。

5 結(jié)語(yǔ)

本文分析了文獻(xiàn)中詞語(yǔ)分布的普遍規(guī)律，提出通過(guò)計(jì)算文獻(xiàn)之間詞型等級(jí)的相關(guān)系數(shù)，來(lái)獲取量化的語(yǔ)言風(fēng)格相似度。實(shí)驗(yàn)證明，我們提出的方法是切實(shí)可行的，并且還驗(yàn)證了文獻(xiàn)語(yǔ)言風(fēng)格的差異不僅體現(xiàn)在使用的常用詞上,還更加細(xì)微地體現(xiàn)在常用詞的使用頻率等級(jí)上。

本文提出的方法，除了用于測(cè)量語(yǔ)言風(fēng)格的相似度，還具有一些其他用途[18]，比如本方法對(duì)于文獻(xiàn)的自動(dòng)分類(lèi)具有輔助作用，同一流派、同一體裁，或者同一時(shí)代的文獻(xiàn)之間語(yǔ)言風(fēng)格相似度會(huì)高于其他文獻(xiàn)之間的相似度。此外，本方法還可作為鑒定文獻(xiàn)作者的輔助方法，古代的一些文獻(xiàn)的作者難以認(rèn)定，當(dāng)今學(xué)者有著不同的看法，那么可把“存疑文獻(xiàn)”分別與多位作者的“確認(rèn)文獻(xiàn)”進(jìn)行對(duì)比，估量文獻(xiàn)之間在詞型等級(jí)方面的相似度，這能夠?yàn)楸鎰e“存疑文獻(xiàn)”的作者提供參考信息。

[1] 靖繼鵬,馬費(fèi)成,張向先. 情報(bào)科學(xué)理論[M].北京：科學(xué)出版社，2009： 33-50.

[2] G.K.Zipf, Human behavior and the principle of least effort[M], 1949: 5-12.

[3] 孫清蘭. 高頻、低頻詞的界分及詞頻估計(jì)方法[J]. 情報(bào)科學(xué)，1992，13(2)： 28-32.

[4] 徐秉錚，蔡偉鴻. 從信息論角度探討《紅樓夢(mèng)》的作者[J].中文信息學(xué)報(bào)，1990，4(2)： 1-5.

[5] 金明哲.中文文章的作者識(shí)別[R].第二屆中國(guó)社會(huì)語(yǔ)言學(xué)國(guó)際學(xué)術(shù)研討會(huì)暨中國(guó)社會(huì)語(yǔ)言學(xué)會(huì)成立大會(huì)，2003.

[6] 武曉春，黃萱菁，吳立德.基于語(yǔ)義分析的作者身份識(shí)別方法研究[J].中文信息學(xué)報(bào)，2006，20(6): 61-68.

[7] 王少康，董科軍，閻保平.基于語(yǔ)句節(jié)奏特征的作者身份識(shí)別研究[J]. 計(jì)算機(jī)工程， 2011，37(9): 4-5.

[8] 陳芯瑩，李雯雯，王燕. 計(jì)量特征在語(yǔ)言風(fēng)格比較及作家判定中的應(yīng)用：以韓寒《三重門(mén)》與郭敬明《夢(mèng)里花落知多少》為例[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012，48(3): 137-139, 208.

[9] 石民,李斌,陳小荷. 基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J]. 中文信息學(xué)報(bào),2010, 24(2): 39-45.

[10] 段磊,韓芳,宋繼華. 古漢語(yǔ)雙字詞自動(dòng)獲取方法的比較與分析[J]. 中文信息學(xué)報(bào),2012,26(4): 34-42.

[11] 史存直.漢語(yǔ)詞匯史綱要[M].上海: 華東師范大學(xué)出版社,1989: 79-96.

[12] 潘允中.漢語(yǔ)詞匯史概要[M].上海: 上海古籍出版社,1989: 1-15.

[13] 劉偉成，孫吉紅. 跨語(yǔ)言信息檢索進(jìn)展研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào)，2008(1): 88-92.

[14] Booth, A.D. A law of occurrences for words of low frequency[J],Information and control, 1967,10(4): 386-393.

[15] Michel J B, Yuan K S, Aiden A P, et al. Quantitative analysis of culture using millions of digitized books[J].Science, 2011,331(6014): 176-182.

[16] 羅德里克·弗拉德.計(jì)量史學(xué)方法導(dǎo)論[M]. 王小寬，譯. 上海: 上海譯文出版社,1997: 50-60.

[17] 陸宇杰，許鑫，郭金龍. 文本挖掘在人文社會(huì)科學(xué)研究中的典型應(yīng)用述評(píng)[J]. 圖書(shū)情報(bào)工作，2012(8): 18-25.

[18] 馬創(chuàng)新，陳小荷. 基于引文分析的古籍文獻(xiàn)影響力評(píng)估[J]. 大學(xué)圖書(shū)館學(xué)報(bào)，2016(1): 16-24.

馬創(chuàng)新(1980—)，博士，講師，主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、知識(shí)組織。

E-mail: machxin@126.com

陳小荷(1952—)，博士，教授，博士生導(dǎo)師，主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、漢語(yǔ)語(yǔ)法學(xué)。

E-mail: chenxiaohe5209@126.com

Word Distribution, Word Type Grades and Style Computing in Literatures

MA Chuangxin1, CHEN Xiaohe2

(1. Linguistic Sciences and Arts School， Jiangsu Normal University, Xuzhou, Jiangsu 221009, China; 2. College of Liberal Arts, Nanjing Normal University, Nanjing, Jiangsu 210097, China)

1003-0077(2017)04-0020-08

TP391

文獻(xiàn)中的詞語(yǔ)分布、詞型等級(jí)和風(fēng)格計(jì)算

1 引言

2 相關(guān)研究

3 文獻(xiàn)中詞語(yǔ)分布的普遍規(guī)律

4 語(yǔ)言風(fēng)格的相似度計(jì)算

5 結(jié)語(yǔ)

文獻(xiàn)中的詞語(yǔ)分布、詞型等級(jí)和風(fēng)格計(jì)算