陳恩宏 劉陳帥 賈學(xué)勇
摘 要:《紅樓夢(mèng)》成為文學(xué)中“紅學(xué)”的代表,被越來越多的人進(jìn)行研究,其中前后作者寫作風(fēng)格的差異成為人們首要研究的問題。本文從數(shù)學(xué)建模的角度出發(fā),利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。首先將前后章節(jié)分為兩個(gè)樣本,選取實(shí)詞“紅”、“玉”以及8個(gè)虛詞,統(tǒng)計(jì)得出各個(gè)詞在前80回和后40回的使用頻率,作為樣本元素,接著選取顯著性水平a=0.05,提出原假設(shè),即兩個(gè)樣本之間不存在差異;最后將樣本集元素進(jìn)行排序,分別平均計(jì)算得到秩和統(tǒng)計(jì)量,代入數(shù)據(jù)結(jié)合曼—惠特尼檢驗(yàn)統(tǒng)計(jì)量使用SPSS軟件,得出檢驗(yàn)值Z=11.7075,因?yàn)椋芙^原假設(shè),可得出前后作者不同的結(jié)論。再從計(jì)算前后章回中獨(dú)有詞的出現(xiàn)比例,直觀體現(xiàn)出前后章回中詞量的差異,接著統(tǒng)計(jì)每十章出現(xiàn)二元文法前200序列的次數(shù),進(jìn)行數(shù)據(jù)的歸一化處理,形成單獨(dú)樣本,并利用歐式距離公式計(jì)算數(shù)據(jù)間的距離,利用MATLAB軟件進(jìn)行依次聚類,從聚類圖可得出前80回中作者對(duì)相鄰兩詞的使用習(xí)慣相似,但與后40回表達(dá)習(xí)慣差異較大。接著將高頻的實(shí)詞和虛詞同樣進(jìn)行頻數(shù)統(tǒng)計(jì)與歸一化,選取前后兩部分樣本均值作為聚類中心,得出前80回和后40回的樣本點(diǎn)分別聚集在不同的區(qū)域內(nèi)。綜上,從詞量和詞頻的角度都可證明前80回與后40回作者不同。
關(guān)鍵詞:曼—惠特尼U檢驗(yàn) N元文法聚類 k-means聚類
1. 引言
《紅樓夢(mèng)》流傳至今,是一部以四大家族的發(fā)展興衰為時(shí)代背景,以故事主人公的感情為主線,隨著劇情發(fā)展不斷揭示當(dāng)代社會(huì)危機(jī)以及人性的善惡,已經(jīng)成為我國(guó)小說的經(jīng)典。本書作者曹雪芹的寫作風(fēng)格新穎別致、擺脫俗套、備受后世讀者贊嘆。但是在后續(xù)的保留和傳播過程中,紅樓夢(mèng)遭到損壞,只保留下完整的80章,后續(xù)作者高鶚續(xù)寫后40章,以此完善《紅樓夢(mèng)》。
《紅樓夢(mèng)》已經(jīng)形成了獨(dú)有的文學(xué)——“紅學(xué)”,雖然《紅樓夢(mèng)》故事情節(jié)大致完整,但是作者不同,寫作風(fēng)格自然不同。通過建立模型,比較“紅”“玉”兩字在前80章與后40章的使用頻率,證明兩者作者的不同。
《紅樓夢(mèng)》前后的作者除了對(duì)指定詞的使用頻數(shù)同外,在一些詞匯和詞義上的理解和使用同樣大相徑庭,通過建立模型,說明前后作者的不同。
若再進(jìn)行深入的研究,《紅樓夢(mèng)》中前80章和后40章的使用語句和語句的含義也存在差異,通過建立模型,定量的證明差異的存在性。
2.基于曼-惠特尼U檢驗(yàn)的作者差異分析
在一部小說中, 作者使用詞語風(fēng)格應(yīng)該是一貫的、連續(xù)的, 因此,對(duì)《紅樓夢(mèng)》這部小說而言,前八十章回和后四十章回的絕大部分詞語也應(yīng)該保持一致。為了佐證《紅樓夢(mèng)》前八十章回與后四十章回的作者不同,本文選取“紅”、“玉”和幾個(gè)虛詞統(tǒng)計(jì)其在前后兩部分的使用頻率,然后通過曼-惠特尼U檢驗(yàn)對(duì)兩組數(shù)據(jù)進(jìn)行差異性檢驗(yàn)。
本文共計(jì)選擇20個(gè)字詞,分別為:
實(shí)詞:紅、玉;
虛詞:被、從、于、因、在、向、以、之、者、或、的、罷、呢、便、就、亦、未、既。
為了提高檢驗(yàn)的準(zhǔn)確性,對(duì)每一章回中各個(gè)字詞使用的次數(shù)分別統(tǒng)計(jì),并在次基礎(chǔ)上進(jìn)行標(biāo)準(zhǔn)化處理。
設(shè)前八十章回中某一個(gè)字詞的使用頻率來自正態(tài)總體N1的樣本,而后四十章回中該字詞的使用頻率來自正態(tài)總體N2的樣本,兩個(gè)樣本總體相互獨(dú)立。使用假設(shè)檢驗(yàn)中的曼-惠特尼U檢驗(yàn)對(duì)兩個(gè)樣本的差異性做檢驗(yàn)。
3基于高頻虛詞的k-means聚類
這里對(duì)全部虛詞——副詞(d)、介詞(p)、連詞 (c)、助詞(u)、語氣詞(y)在每十章回中的使用次數(shù)進(jìn)行歸一化處理,對(duì)得到的結(jié)果進(jìn)行k-means聚類。
k-means聚類是一種劃分聚類。其基本思想是:從文本中隨機(jī)選擇k個(gè)文本作為聚類中心,并根據(jù)每類與中心的遠(yuǎn)近將其余文本劃分為k類,再重新計(jì)算每類的中心并作為新的聚類中心;根據(jù)與中心的距離對(duì)所有文本重新分類;一直迭代下去,直到聚類中心不再改變?yōu)橹?。其最終目的是實(shí)現(xiàn)類內(nèi)文本之間相似性最大,而類與類之間的相似性最小。
綜上所述,從高頻實(shí)詞和高頻虛詞兩方面的聚類結(jié)果分析可知,《紅樓夢(mèng)》前八十章回和后四十章回的作者確實(shí)不是同一個(gè)人。
4.總結(jié)
文學(xué)風(fēng)格是創(chuàng)作的命脈。本文從數(shù)學(xué)建模的角度出發(fā),利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。本文的主要?jiǎng)?chuàng)新點(diǎn)有下面兩點(diǎn):
1)采用曼—惠特尼檢驗(yàn)?zāi)P?,找出所有章回關(guān)鍵詞的頻數(shù),進(jìn)行排序與平均值求取,用SPSS軟件進(jìn)行數(shù)理統(tǒng)計(jì)檢驗(yàn),準(zhǔn)確性較高。
2)從詞量角度進(jìn)行分析時(shí)采用獨(dú)有詞聚類和層次聚類法,都能準(zhǔn)確具體體現(xiàn)出前80章回和后40章回之間的差異,其中包括前后章回出現(xiàn)獨(dú)有詞的比例和種類,但是前后章回有關(guān)獨(dú)有詞聚類難度大,算法運(yùn)算時(shí)間長(zhǎng),每發(fā)現(xiàn)一個(gè)新的短語,算法就要從頭開始,而層次聚類,則是忽略那種介于兩個(gè)層次之間的樣本,結(jié)果可能存在較大的差異和一定的偶然性。本文將均值聚類方法用于詞匯角度分析,將高頻詞頻率進(jìn)行歸一化,可較快得到聚類結(jié)果,并且結(jié)果非常直觀。
參考文獻(xiàn)
[1] 孟廣仕.大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)[J].電子技術(shù)與軟件工程,2018(15):164. 1]韋博成.《紅樓夢(mèng)》前80回與后40回某些文風(fēng)差異的統(tǒng)計(jì)分析(兩個(gè)獨(dú)立二項(xiàng)總體等價(jià)性檢驗(yàn)的一個(gè)應(yīng)用)[J]. 應(yīng)用概率統(tǒng)計(jì),2009,25(04):441-448.
[2] 楊梅.《紅樓夢(mèng)》前80回程度副詞計(jì)量研究[D].蘇州大學(xué),2011.
[3] 汪維輝.《紅樓夢(mèng)》前80回和后40回的詞匯差異[J].古漢語研究,2010(03):35-40+95-96.
[4] 楊粟森,彭旭,趙映誠.基于數(shù)理統(tǒng)計(jì)的《紅樓夢(mèng)》前80回與后40回相關(guān)性的多指標(biāo)綜合分析[J].電子世界,2017(02):197-199.