• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類分析的《紅樓夢(mèng)》前后作者差異檢驗(yàn)

      2017-02-23 06:31:36陳恩宏劉陳帥賈學(xué)勇
      西部論叢 2017年10期
      關(guān)鍵詞:means聚類紅樓夢(mèng)

      陳恩宏 劉陳帥 賈學(xué)勇

      摘 要:《紅樓夢(mèng)》成為文學(xué)中“紅學(xué)”的代表,被越來越多的人進(jìn)行研究,其中前后作者寫作風(fēng)格的差異成為人們首要研究的問題。本文從數(shù)學(xué)建模的角度出發(fā),利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。首先將前后章節(jié)分為兩個(gè)樣本,選取實(shí)詞“紅”、“玉”以及8個(gè)虛詞,統(tǒng)計(jì)得出各個(gè)詞在前80回和后40回的使用頻率,作為樣本元素,接著選取顯著性水平a=0.05,提出原假設(shè),即兩個(gè)樣本之間不存在差異;最后將樣本集元素進(jìn)行排序,分別平均計(jì)算得到秩和統(tǒng)計(jì)量,代入數(shù)據(jù)結(jié)合曼—惠特尼檢驗(yàn)統(tǒng)計(jì)量使用SPSS軟件,得出檢驗(yàn)值Z=11.7075,因?yàn)椋芙^原假設(shè),可得出前后作者不同的結(jié)論。再從計(jì)算前后章回中獨(dú)有詞的出現(xiàn)比例,直觀體現(xiàn)出前后章回中詞量的差異,接著統(tǒng)計(jì)每十章出現(xiàn)二元文法前200序列的次數(shù),進(jìn)行數(shù)據(jù)的歸一化處理,形成單獨(dú)樣本,并利用歐式距離公式計(jì)算數(shù)據(jù)間的距離,利用MATLAB軟件進(jìn)行依次聚類,從聚類圖可得出前80回中作者對(duì)相鄰兩詞的使用習(xí)慣相似,但與后40回表達(dá)習(xí)慣差異較大。接著將高頻的實(shí)詞和虛詞同樣進(jìn)行頻數(shù)統(tǒng)計(jì)與歸一化,選取前后兩部分樣本均值作為聚類中心,得出前80回和后40回的樣本點(diǎn)分別聚集在不同的區(qū)域內(nèi)。綜上,從詞量和詞頻的角度都可證明前80回與后40回作者不同。

      關(guān)鍵詞:曼—惠特尼U檢驗(yàn) N元文法聚類 k-means聚類

      1. 引言

      《紅樓夢(mèng)》流傳至今,是一部以四大家族的發(fā)展興衰為時(shí)代背景,以故事主人公的感情為主線,隨著劇情發(fā)展不斷揭示當(dāng)代社會(huì)危機(jī)以及人性的善惡,已經(jīng)成為我國(guó)小說的經(jīng)典。本書作者曹雪芹的寫作風(fēng)格新穎別致、擺脫俗套、備受后世讀者贊嘆。但是在后續(xù)的保留和傳播過程中,紅樓夢(mèng)遭到損壞,只保留下完整的80章,后續(xù)作者高鶚續(xù)寫后40章,以此完善《紅樓夢(mèng)》。

      《紅樓夢(mèng)》已經(jīng)形成了獨(dú)有的文學(xué)——“紅學(xué)”,雖然《紅樓夢(mèng)》故事情節(jié)大致完整,但是作者不同,寫作風(fēng)格自然不同。通過建立模型,比較“紅”“玉”兩字在前80章與后40章的使用頻率,證明兩者作者的不同。

      《紅樓夢(mèng)》前后的作者除了對(duì)指定詞的使用頻數(shù)同外,在一些詞匯和詞義上的理解和使用同樣大相徑庭,通過建立模型,說明前后作者的不同。

      若再進(jìn)行深入的研究,《紅樓夢(mèng)》中前80章和后40章的使用語句和語句的含義也存在差異,通過建立模型,定量的證明差異的存在性。

      2.基于曼-惠特尼U檢驗(yàn)的作者差異分析

      在一部小說中, 作者使用詞語風(fēng)格應(yīng)該是一貫的、連續(xù)的, 因此,對(duì)《紅樓夢(mèng)》這部小說而言,前八十章回和后四十章回的絕大部分詞語也應(yīng)該保持一致。為了佐證《紅樓夢(mèng)》前八十章回與后四十章回的作者不同,本文選取“紅”、“玉”和幾個(gè)虛詞統(tǒng)計(jì)其在前后兩部分的使用頻率,然后通過曼-惠特尼U檢驗(yàn)對(duì)兩組數(shù)據(jù)進(jìn)行差異性檢驗(yàn)。

      本文共計(jì)選擇20個(gè)字詞,分別為:

      實(shí)詞:紅、玉;

      虛詞:被、從、于、因、在、向、以、之、者、或、的、罷、呢、便、就、亦、未、既。

      為了提高檢驗(yàn)的準(zhǔn)確性,對(duì)每一章回中各個(gè)字詞使用的次數(shù)分別統(tǒng)計(jì),并在次基礎(chǔ)上進(jìn)行標(biāo)準(zhǔn)化處理。

      設(shè)前八十章回中某一個(gè)字詞的使用頻率來自正態(tài)總體N1的樣本,而后四十章回中該字詞的使用頻率來自正態(tài)總體N2的樣本,兩個(gè)樣本總體相互獨(dú)立。使用假設(shè)檢驗(yàn)中的曼-惠特尼U檢驗(yàn)對(duì)兩個(gè)樣本的差異性做檢驗(yàn)。

      3基于高頻虛詞的k-means聚類

      這里對(duì)全部虛詞——副詞(d)、介詞(p)、連詞 (c)、助詞(u)、語氣詞(y)在每十章回中的使用次數(shù)進(jìn)行歸一化處理,對(duì)得到的結(jié)果進(jìn)行k-means聚類。

      k-means聚類是一種劃分聚類。其基本思想是:從文本中隨機(jī)選擇k個(gè)文本作為聚類中心,并根據(jù)每類與中心的遠(yuǎn)近將其余文本劃分為k類,再重新計(jì)算每類的中心并作為新的聚類中心;根據(jù)與中心的距離對(duì)所有文本重新分類;一直迭代下去,直到聚類中心不再改變?yōu)橹?。其最終目的是實(shí)現(xiàn)類內(nèi)文本之間相似性最大,而類與類之間的相似性最小。

      綜上所述,從高頻實(shí)詞和高頻虛詞兩方面的聚類結(jié)果分析可知,《紅樓夢(mèng)》前八十章回和后四十章回的作者確實(shí)不是同一個(gè)人。

      4.總結(jié)

      文學(xué)風(fēng)格是創(chuàng)作的命脈。本文從數(shù)學(xué)建模的角度出發(fā),利用前后章節(jié)字、詞、句定性定量的差異來證明前后作者不同。本文的主要?jiǎng)?chuàng)新點(diǎn)有下面兩點(diǎn):

      1)采用曼—惠特尼檢驗(yàn)?zāi)P?,找出所有章回關(guān)鍵詞的頻數(shù),進(jìn)行排序與平均值求取,用SPSS軟件進(jìn)行數(shù)理統(tǒng)計(jì)檢驗(yàn),準(zhǔn)確性較高。

      2)從詞量角度進(jìn)行分析時(shí)采用獨(dú)有詞聚類和層次聚類法,都能準(zhǔn)確具體體現(xiàn)出前80章回和后40章回之間的差異,其中包括前后章回出現(xiàn)獨(dú)有詞的比例和種類,但是前后章回有關(guān)獨(dú)有詞聚類難度大,算法運(yùn)算時(shí)間長(zhǎng),每發(fā)現(xiàn)一個(gè)新的短語,算法就要從頭開始,而層次聚類,則是忽略那種介于兩個(gè)層次之間的樣本,結(jié)果可能存在較大的差異和一定的偶然性。本文將均值聚類方法用于詞匯角度分析,將高頻詞頻率進(jìn)行歸一化,可較快得到聚類結(jié)果,并且結(jié)果非常直觀。

      參考文獻(xiàn)

      [1] 孟廣仕.大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)[J].電子技術(shù)與軟件工程,2018(15):164. 1]韋博成.《紅樓夢(mèng)》前80回與后40回某些文風(fēng)差異的統(tǒng)計(jì)分析(兩個(gè)獨(dú)立二項(xiàng)總體等價(jià)性檢驗(yàn)的一個(gè)應(yīng)用)[J]. 應(yīng)用概率統(tǒng)計(jì),2009,25(04):441-448.

      [2] 楊梅.《紅樓夢(mèng)》前80回程度副詞計(jì)量研究[D].蘇州大學(xué),2011.

      [3] 汪維輝.《紅樓夢(mèng)》前80回和后40回的詞匯差異[J].古漢語研究,2010(03):35-40+95-96.

      [4] 楊粟森,彭旭,趙映誠.基于數(shù)理統(tǒng)計(jì)的《紅樓夢(mèng)》前80回與后40回相關(guān)性的多指標(biāo)綜合分析[J].電子世界,2017(02):197-199.

      猜你喜歡
      means聚類紅樓夢(mèng)
      《紅樓夢(mèng)》處處都是慈悲
      文苑(2020年11期)2021-01-04 01:53:18
      論《紅樓夢(mèng)》中的賭博之風(fēng)
      從《紅樓夢(mèng)》看養(yǎng)生
      海峽姐妹(2020年7期)2020-08-13 07:49:32
      話中話:《紅樓夢(mèng)》直接引語中的元話語分析
      《〈紅樓夢(mèng)〉寫作之美》序
      別樣解讀《紅樓夢(mèng)》
      海峽姐妹(2018年5期)2018-05-14 07:37:10
      基于“粉絲經(jīng)濟(jì)”的自媒體社群用戶消費(fèi)意愿研究
      人工神經(jīng)網(wǎng)絡(luò)在聚類分析中的運(yùn)用
      雹云圖像的識(shí)別指標(biāo)設(shè)計(jì)
      基于QPSO聚類算法的圖像分割方法
      科技視界(2016年12期)2016-05-25 11:54:25
      西藏| 玉山县| 玉田县| 宜君县| 临汾市| 吉隆县| 石渠县| 仁化县| 沭阳县| 大厂| 孝昌县| 怀宁县| 中山市| 古田县| 南充市| 小金县| 阳曲县| 东港市| 灵璧县| 苍溪县| 镇雄县| 名山县| 吉木萨尔县| 岗巴县| 吴旗县| 高台县| 宁明县| 彭州市| 榆林市| 石嘴山市| 镇远县| 黑水县| 松滋市| 大邑县| 辽阳市| 洛浦县| 上高县| 运城市| 洛扎县| 顺平县| 谢通门县|