• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      運(yùn)用基于統(tǒng)計(jì)學(xué)建立的數(shù)學(xué)模型解決《紅樓夢》作者之謎

      2019-04-29 00:14:12陳城鈺于欣雨蘇世杰
      關(guān)鍵詞:線性回歸紅樓夢

      陳城鈺 于欣雨 蘇世杰

      【摘要】本文借助數(shù)學(xué)知識(shí)建立一元線性回歸模型,利用最小二乘法來擬合出虛詞頻率直線,通過分析虛詞頻率的差異,來推斷《紅樓夢》作者的問題.根據(jù)建模分析,得出前80回與后40回不是同一個(gè)作者的結(jié)論.

      【關(guān)鍵詞】紅樓夢;線性回歸;詞向量

      《紅樓夢》是具有高度思想性和藝術(shù)性的偉大作品,因某些歷史原因,在傳播過程中出現(xiàn)了增補(bǔ)、修訂的現(xiàn)象.本文借助數(shù)學(xué)模型,對《紅樓夢》前80回與后40回作者是否為同一人進(jìn)行了研究.

      一、問題的分析

      本文作者在前期研究中發(fā)現(xiàn),《紅樓夢》主要人物出現(xiàn)的頻率受小說情節(jié)的影響較大,雖能在一定程度上體現(xiàn)出作者的差異,但并不明顯.

      現(xiàn)代漢語言文學(xué)研究認(rèn)為,虛詞的使用更能夠體現(xiàn)出作者的寫作習(xí)慣與語言風(fēng)格.因此,通過大規(guī)模的統(tǒng)計(jì)與合理地建模,對不同章回中相同的虛詞進(jìn)行頻率分析,得出每章回作者的語言習(xí)慣,在誤差范圍內(nèi)進(jìn)行比較和判斷,可判斷不同章回之間作者的異同.

      二、模型假設(shè)

      1.同一個(gè)作者,認(rèn)為他對詞、句法的使用習(xí)慣基本保持不變,作品中的虛詞出現(xiàn)頻率幾乎沒有差別;

      2.不同的作者之間,詞匯的使用習(xí)慣、詞與詞的相關(guān)性處理、長短句的偏好有較大的差別;

      3.本次所用《紅樓夢》版本為作者成書時(shí)原貌,成書后,除去遺失的原稿外,在傳播過程中無其他人的修訂.

      三、數(shù)據(jù)概覽

      在使用模型對虛詞詞頻進(jìn)行分析之前,使用MATLAB語言對虛詞在前后章節(jié)中出現(xiàn)的次數(shù)差異進(jìn)行了統(tǒng)計(jì),為模型的建立及其結(jié)果提供有力論據(jù).

      采用Python語言及Jieba分詞插件進(jìn)行詞頻統(tǒng)計(jì),挑選了“再、可、別、為、之、啊、咧、嗎、呀、仍、要、也、尚、偏、很、比、越、往、向、讓、故、皆”22個(gè)在一般古漢語中高頻出現(xiàn)的虛詞進(jìn)行統(tǒng)計(jì)比對,發(fā)現(xiàn)對虛詞的使用偏好在前后兩部分出現(xiàn)了巨大差異,如“嗎”在前半部分出現(xiàn)頻率0.0375次/回,而在后半部分出現(xiàn)頻率1.875次/回,驗(yàn)證了前后部分是由語言習(xí)慣相差明顯的兩位作者分別完成的推論.之后的模型求解均基于該理念完成.

      四、模型的建立

      本文通過建立一元回歸方程,對虛詞頻率位次的分析來估計(jì)不同文本之間虛詞的頻率異同.作者取樣同一部小說中的大量虛詞,根據(jù)虛詞的頻率從小到大排列,視其位次為自變量x1,x2,…,xn.以虛詞對應(yīng)的頻率為因變量,記y1,y2,…,yn,并在直角坐標(biāo)系上制得散點(diǎn)圖,并用最小二乘法擬合出詞頻——虛詞序次直線.其中,b為該直線在y軸上的斜率,a為該直線在x軸上的截距,且滿足方程如下:

      b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,

      a=y-bx.

      線性相關(guān)系數(shù)(R2):由于之后的線性回歸模型需要以一個(gè)同類隨機(jī)樣本虛詞的順序?yàn)榛鶞?zhǔn),因此,兩個(gè)變量之間的關(guān)系強(qiáng)度無法得到保證.此時(shí)需要計(jì)算每條擬合直線的線性相關(guān)系數(shù),即R2來判斷兩個(gè)變量之間的線性關(guān)系密切程度,在該問題中表現(xiàn)為虛詞的位次與頻率是否大致與隨機(jī)樣本一致.

      觀測數(shù)據(jù)(xi,yi),i=1,2,…,n的樣本相關(guān)系數(shù)

      R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2

      =∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .

      根據(jù)統(tǒng)計(jì)學(xué)知識(shí),在本數(shù)學(xué)模型中規(guī)定:當(dāng)0.75

      由假設(shè)可知,同一作者作品中虛詞詞頻是一致的.因此,如果各章節(jié)作者相同,那么相同的一組虛詞按照不變的排序后,所擬合出的直線近似一致.并且,由于相同虛詞在不同作者作品中詞頻不同,所以一組虛詞按照不變的順序排序后,擬合出的詞頻-虛詞直線一般不同,且擬合效果一般較差.同時(shí),相關(guān)系數(shù)也與擬合直線的斜率一同作為判斷依據(jù):當(dāng)斜率相差小且擬合效果好時(shí),認(rèn)為匹配成功;否則,認(rèn)為匹配失敗.

      五、標(biāo)準(zhǔn)數(shù)據(jù)設(shè)立

      為了論證虛詞詞頻的異同能夠體現(xiàn)作者的異同,首要任務(wù)是建立各線性回歸方程斜率之間的可承受誤差區(qū)間,即標(biāo)準(zhǔn)數(shù)據(jù).本文選用已確認(rèn)由唯一作者書寫的《西游記》為參數(shù)來源.

      數(shù)據(jù)獲得步驟:將100回的《西游記》平均分為前后各50回兩個(gè)部分;通過Python語言及Jieba分詞插件得出總出現(xiàn)頻率較高的虛詞:嗎、仍、越、讓、其、比、但、可;使用MATLAB語言對這8個(gè)虛詞的出現(xiàn)次數(shù)及頻率進(jìn)行統(tǒng)計(jì);以前50回中8個(gè)虛詞的頻率升序?yàn)榛鶞?zhǔn),將前后兩部分的數(shù)據(jù)制作成散點(diǎn)圖,并繪制出各自的線性回歸方程.兩方程斜率的差即為該問題中可接受的誤差,即在該范圍內(nèi)可認(rèn)為兩篇文本出自同一作者.

      進(jìn)行多組數(shù)據(jù)比對,作者認(rèn)為以1±0.1為標(biāo)準(zhǔn)數(shù)據(jù)具有適用性.

      六、模型的求解

      為使數(shù)據(jù)盡量可控、精細(xì),將《紅樓夢》以每10回劃分為1節(jié),分別從前8節(jié)和后4節(jié)中各抽出1節(jié)作為順序基準(zhǔn).求解過程中21~30回和101~110回被隨機(jī)選中.剩余10節(jié)分別以這兩節(jié)的順序?yàn)榛鶞?zhǔn),構(gòu)建一元線性回歸方程,通過對線性相關(guān)系數(shù)及斜率的比較,將剩余10節(jié)歸入到誤差較小即在標(biāo)準(zhǔn)數(shù)據(jù)內(nèi)的那組,由此確認(rèn)120回中哪幾回屬于同一個(gè)作者.

      使用盲眼測試法,即將章回?cái)?shù)當(dāng)作未知數(shù)據(jù),通過將該小節(jié)以兩個(gè)數(shù)據(jù)基準(zhǔn)數(shù)據(jù)得出的散點(diǎn)圖及線性回歸方程與其基準(zhǔn)進(jìn)行比較,得出更接近基準(zhǔn)的該組即為該小節(jié)所屬部分.

      以31~40回小節(jié)為例進(jìn)行歸類,將兩組數(shù)據(jù)的相對差距進(jìn)行比較:

      以21~30回為基準(zhǔn)時(shí),線性相關(guān)系數(shù)為0.765 223 92,擬合效果出色,適合進(jìn)行方程截距比較;截距與基準(zhǔn)之比為0.765 223 920.810 458 30=0.944 186 666,將該比值與標(biāo)準(zhǔn)數(shù)據(jù)1±01進(jìn)行絕對差距比較,發(fā)現(xiàn)在可承受范圍內(nèi).

      以101~110回為基準(zhǔn)時(shí),該小節(jié)線性相關(guān)系數(shù)為0392 719 34,擬合效果偏差,不宜進(jìn)行方程截距比較;為使得結(jié)果更合理、有力,進(jìn)一步進(jìn)行截距比較:截距與基準(zhǔn)之比為0.392 719 340.855 150 40=0.459 240 082.再將比值與標(biāo)準(zhǔn)數(shù)據(jù)1±01進(jìn)行絕對差距比較,發(fā)現(xiàn)遠(yuǎn)超出可承受范圍.

      由于第31~40回與21~30回?cái)M合效果出色,比值在合理范圍內(nèi);與101~110回?cái)M合效果較差,比值超出范圍.因而,可以得出31~40回小節(jié)屬于前80回.

      將剩余9小節(jié)按照如上方法進(jìn)行比對,結(jié)果顯示前80回在以21~30回為基準(zhǔn)的可接受范圍內(nèi);后40回在以101~110回為基準(zhǔn)的可接受范圍內(nèi).

      七、結(jié) 論

      綜上所述,通過虛詞詞頻的一元線性回歸模型,可以得出《紅樓夢》前80回與后40回分別由兩位作者撰寫的結(jié)論.

      【參考文獻(xiàn)】

      [1]李賢平.《紅樓夢》成書新說[J].復(fù)旦大學(xué)學(xué)報(bào)社科版,1987(5):3-16.

      [2]韋博成.紅樓夢前80回與后40回某些文風(fēng)差異的統(tǒng)計(jì)分析[J].應(yīng)用概率統(tǒng)計(jì),2009(4):441-448.

      [3]吳軍.數(shù)學(xué)之美:第2版[M].北京:人民郵電出版社,2014.

      [4]韋博成.漫談統(tǒng)計(jì)學(xué)的應(yīng)用與發(fā)展[J].數(shù)理統(tǒng)計(jì)與管理,2011(1):85-97.

      猜你喜歡
      線性回歸紅樓夢
      《紅樓夢》處處都是慈悲
      文苑(2020年11期)2021-01-04 01:53:18
      論《紅樓夢》中的賭博之風(fēng)
      從《紅樓夢》看養(yǎng)生
      海峽姐妹(2020年7期)2020-08-13 07:49:32
      話中話:《紅樓夢》直接引語中的元話語分析
      《〈紅樓夢〉寫作之美》序
      別樣解讀《紅樓夢》
      海峽姐妹(2018年5期)2018-05-14 07:37:10
      國道公路養(yǎng)護(hù)管理與規(guī)劃研究
      投資者情緒與股票市場收益的相互影響分析
      中國市場(2016年18期)2016-06-07 05:12:49
      影響上市公司股票價(jià)格的微觀因素分析
      商(2016年13期)2016-05-20 09:12:44
      企業(yè)退休金收支平衡的研究
      科技視界(2016年9期)2016-04-26 12:16:25
      额尔古纳市| 达孜县| 鄂州市| 张家口市| 徐闻县| 广州市| 陆丰市| 曲松县| 连云港市| 沙坪坝区| 甘谷县| 屏山县| 务川| 九龙城区| 弥渡县| 娱乐| 鲁山县| 织金县| 皮山县| 邵东县| 措勤县| 文山县| 宁远县| 万宁市| 江西省| 都兰县| 盖州市| 阿拉善左旗| 循化| 淳化县| 耿马| 西峡县| 辰溪县| 长岛县| 松滋市| 涪陵区| 新郑市| 通海县| 陆川县| 庄浪县| 海口市|