基于聚類分析的《紅樓夢(mèng)》前后作者差異檢驗(yàn)

2017-02-23 06:31:36陳恩宏劉陳帥賈學(xué)勇

西部論叢 2017年10期

陳恩宏　劉陳帥　賈學(xué)勇

摘要：《紅樓夢(mèng)》成為文學(xué)中“紅學(xué)”的代表，被越來越多的人進(jìn)行研究，其中前后作者寫作風(fēng)格的差異成為人們首要研究的問題。本文從數(shù)學(xué)建模的角度出發(fā)，利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。首先將前后章節(jié)分為兩個(gè)樣本，選取實(shí)詞“紅”、“玉”以及8個(gè)虛詞，統(tǒng)計(jì)得出各個(gè)詞在前80回和后40回的使用頻率，作為樣本元素，接著選取顯著性水平a=0.05，提出原假設(shè)，即兩個(gè)樣本之間不存在差異；最后將樣本集元素進(jìn)行排序，分別平均計(jì)算得到秩和統(tǒng)計(jì)量，代入數(shù)據(jù)結(jié)合曼—惠特尼檢驗(yàn)統(tǒng)計(jì)量使用SPSS軟件，得出檢驗(yàn)值Z=11.7075，因?yàn)椋芙^原假設(shè)，可得出前后作者不同的結(jié)論。再從計(jì)算前后章回中獨(dú)有詞的出現(xiàn)比例，直觀體現(xiàn)出前后章回中詞量的差異，接著統(tǒng)計(jì)每十章出現(xiàn)二元文法前200序列的次數(shù)，進(jìn)行數(shù)據(jù)的歸一化處理，形成單獨(dú)樣本，并利用歐式距離公式計(jì)算數(shù)據(jù)間的距離，利用MATLAB軟件進(jìn)行依次聚類，從聚類圖可得出前80回中作者對(duì)相鄰兩詞的使用習(xí)慣相似，但與后40回表達(dá)習(xí)慣差異較大。接著將高頻的實(shí)詞和虛詞同樣進(jìn)行頻數(shù)統(tǒng)計(jì)與歸一化，選取前后兩部分樣本均值作為聚類中心，得出前80回和后40回的樣本點(diǎn)分別聚集在不同的區(qū)域內(nèi)。綜上，從詞量和詞頻的角度都可證明前80回與后40回作者不同。

關(guān)鍵詞：曼—惠特尼U檢驗(yàn) N元文法聚類 k-means聚類

1. 引言

《紅樓夢(mèng)》流傳至今，是一部以四大家族的發(fā)展興衰為時(shí)代背景，以故事主人公的感情為主線，隨著劇情發(fā)展不斷揭示當(dāng)代社會(huì)危機(jī)以及人性的善惡，已經(jīng)成為我國(guó)小說的經(jīng)典。本書作者曹雪芹的寫作風(fēng)格新穎別致、擺脫俗套、備受后世讀者贊嘆。但是在后續(xù)的保留和傳播過程中，紅樓夢(mèng)遭到損壞，只保留下完整的80章，后續(xù)作者高鶚續(xù)寫后40章，以此完善《紅樓夢(mèng)》。

《紅樓夢(mèng)》已經(jīng)形成了獨(dú)有的文學(xué)——“紅學(xué)”，雖然《紅樓夢(mèng)》故事情節(jié)大致完整，但是作者不同，寫作風(fēng)格自然不同。通過建立模型，比較“紅”“玉”兩字在前80章與后40章的使用頻率，證明兩者作者的不同。

《紅樓夢(mèng)》前后的作者除了對(duì)指定詞的使用頻數(shù)同外，在一些詞匯和詞義上的理解和使用同樣大相徑庭，通過建立模型，說明前后作者的不同。

若再進(jìn)行深入的研究，《紅樓夢(mèng)》中前80章和后40章的使用語句和語句的含義也存在差異，通過建立模型，定量的證明差異的存在性。

2.基于曼-惠特尼U檢驗(yàn)的作者差異分析

在一部小說中，作者使用詞語風(fēng)格應(yīng)該是一貫的、連續(xù)的，因此，對(duì)《紅樓夢(mèng)》這部小說而言，前八十章回和后四十章回的絕大部分詞語也應(yīng)該保持一致。為了佐證《紅樓夢(mèng)》前八十章回與后四十章回的作者不同，本文選取“紅”、“玉”和幾個(gè)虛詞統(tǒng)計(jì)其在前后兩部分的使用頻率，然后通過曼-惠特尼U檢驗(yàn)對(duì)兩組數(shù)據(jù)進(jìn)行差異性檢驗(yàn)。

本文共計(jì)選擇20個(gè)字詞，分別為：

實(shí)詞：紅、玉；

虛詞：被、從、于、因、在、向、以、之、者、或、的、罷、呢、便、就、亦、未、既。

為了提高檢驗(yàn)的準(zhǔn)確性，對(duì)每一章回中各個(gè)字詞使用的次數(shù)分別統(tǒng)計(jì)，并在次基礎(chǔ)上進(jìn)行標(biāo)準(zhǔn)化處理。

設(shè)前八十章回中某一個(gè)字詞的使用頻率來自正態(tài)總體N1的樣本，而后四十章回中該字詞的使用頻率來自正態(tài)總體N2的樣本，兩個(gè)樣本總體相互獨(dú)立。使用假設(shè)檢驗(yàn)中的曼-惠特尼U檢驗(yàn)對(duì)兩個(gè)樣本的差異性做檢驗(yàn)。

3基于高頻虛詞的k-means聚類

這里對(duì)全部虛詞——副詞（d）、介詞（p）、連詞（c）、助詞（u）、語氣詞（y）在每十章回中的使用次數(shù)進(jìn)行歸一化處理，對(duì)得到的結(jié)果進(jìn)行k-means聚類。

k-means聚類是一種劃分聚類。其基本思想是：從文本中隨機(jī)選擇k個(gè)文本作為聚類中心，并根據(jù)每類與中心的遠(yuǎn)近將其余文本劃分為k類，再重新計(jì)算每類的中心并作為新的聚類中心；根據(jù)與中心的距離對(duì)所有文本重新分類；一直迭代下去，直到聚類中心不再改變?yōu)橹?。其最終目的是實(shí)現(xiàn)類內(nèi)文本之間相似性最大，而類與類之間的相似性最小。

綜上所述，從高頻實(shí)詞和高頻虛詞兩方面的聚類結(jié)果分析可知，《紅樓夢(mèng)》前八十章回和后四十章回的作者確實(shí)不是同一個(gè)人。

4.總結(jié)

文學(xué)風(fēng)格是創(chuàng)作的命脈。本文從數(shù)學(xué)建模的角度出發(fā)，利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。本文的主要?jiǎng)?chuàng)新點(diǎn)有下面兩點(diǎn)：

1）采用曼—惠特尼檢驗(yàn)?zāi)Ｐ?，找出所有章回關(guān)鍵詞的頻數(shù)，進(jìn)行排序與平均值求取，用SPSS軟件進(jìn)行數(shù)理統(tǒng)計(jì)檢驗(yàn)，準(zhǔn)確性較高。

2）從詞量角度進(jìn)行分析時(shí)采用獨(dú)有詞聚類和層次聚類法，都能準(zhǔn)確具體體現(xiàn)出前80章回和后40章回之間的差異，其中包括前后章回出現(xiàn)獨(dú)有詞的比例和種類，但是前后章回有關(guān)獨(dú)有詞聚類難度大，算法運(yùn)算時(shí)間長(zhǎng)，每發(fā)現(xiàn)一個(gè)新的短語，算法就要從頭開始，而層次聚類，則是忽略那種介于兩個(gè)層次之間的樣本，結(jié)果可能存在較大的差異和一定的偶然性。本文將均值聚類方法用于詞匯角度分析，將高頻詞頻率進(jìn)行歸一化，可較快得到聚類結(jié)果，并且結(jié)果非常直觀。

參考文獻(xiàn)

[1] 孟廣仕.大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)[J].電子技術(shù)與軟件工程，2018（15）：164. 1]韋博成.《紅樓夢(mèng)》前80回與后40回某些文風(fēng)差異的統(tǒng)計(jì)分析（兩個(gè)獨(dú)立二項(xiàng)總體等價(jià)性檢驗(yàn)的一個(gè)應(yīng)用）[J]. 應(yīng)用概率統(tǒng)計(jì)，2009，25（04）：441-448.

[2] 楊梅.《紅樓夢(mèng)》前80回程度副詞計(jì)量研究[D].蘇州大學(xué)，2011.

[3] 汪維輝.《紅樓夢(mèng)》前80回和后40回的詞匯差異[J].古漢語研究，2010（03）：35-40+95-96.

[4] 楊粟森，彭旭，趙映誠.基于數(shù)理統(tǒng)計(jì)的《紅樓夢(mèng)》前80回與后40回相關(guān)性的多指標(biāo)綜合分析[J].電子世界，2017（02）：197-199.