陳城鈺 于欣雨 蘇世杰
【摘要】本文借助數(shù)學(xué)知識(shí)建立一元線性回歸模型,利用最小二乘法來擬合出虛詞頻率直線,通過分析虛詞頻率的差異,來推斷《紅樓夢》作者的問題.根據(jù)建模分析,得出前80回與后40回不是同一個(gè)作者的結(jié)論.
【關(guān)鍵詞】紅樓夢;線性回歸;詞向量
《紅樓夢》是具有高度思想性和藝術(shù)性的偉大作品,因某些歷史原因,在傳播過程中出現(xiàn)了增補(bǔ)、修訂的現(xiàn)象.本文借助數(shù)學(xué)模型,對《紅樓夢》前80回與后40回作者是否為同一人進(jìn)行了研究.
一、問題的分析
本文作者在前期研究中發(fā)現(xiàn),《紅樓夢》主要人物出現(xiàn)的頻率受小說情節(jié)的影響較大,雖能在一定程度上體現(xiàn)出作者的差異,但并不明顯.
現(xiàn)代漢語言文學(xué)研究認(rèn)為,虛詞的使用更能夠體現(xiàn)出作者的寫作習(xí)慣與語言風(fēng)格.因此,通過大規(guī)模的統(tǒng)計(jì)與合理地建模,對不同章回中相同的虛詞進(jìn)行頻率分析,得出每章回作者的語言習(xí)慣,在誤差范圍內(nèi)進(jìn)行比較和判斷,可判斷不同章回之間作者的異同.
二、模型假設(shè)
1.同一個(gè)作者,認(rèn)為他對詞、句法的使用習(xí)慣基本保持不變,作品中的虛詞出現(xiàn)頻率幾乎沒有差別;
2.不同的作者之間,詞匯的使用習(xí)慣、詞與詞的相關(guān)性處理、長短句的偏好有較大的差別;
3.本次所用《紅樓夢》版本為作者成書時(shí)原貌,成書后,除去遺失的原稿外,在傳播過程中無其他人的修訂.
三、數(shù)據(jù)概覽
在使用模型對虛詞詞頻進(jìn)行分析之前,使用MATLAB語言對虛詞在前后章節(jié)中出現(xiàn)的次數(shù)差異進(jìn)行了統(tǒng)計(jì),為模型的建立及其結(jié)果提供有力論據(jù).
采用Python語言及Jieba分詞插件進(jìn)行詞頻統(tǒng)計(jì),挑選了“再、可、別、為、之、啊、咧、嗎、呀、仍、要、也、尚、偏、很、比、越、往、向、讓、故、皆”22個(gè)在一般古漢語中高頻出現(xiàn)的虛詞進(jìn)行統(tǒng)計(jì)比對,發(fā)現(xiàn)對虛詞的使用偏好在前后兩部分出現(xiàn)了巨大差異,如“嗎”在前半部分出現(xiàn)頻率0.0375次/回,而在后半部分出現(xiàn)頻率1.875次/回,驗(yàn)證了前后部分是由語言習(xí)慣相差明顯的兩位作者分別完成的推論.之后的模型求解均基于該理念完成.
四、模型的建立
本文通過建立一元回歸方程,對虛詞頻率位次的分析來估計(jì)不同文本之間虛詞的頻率異同.作者取樣同一部小說中的大量虛詞,根據(jù)虛詞的頻率從小到大排列,視其位次為自變量x1,x2,…,xn.以虛詞對應(yīng)的頻率為因變量,記y1,y2,…,yn,并在直角坐標(biāo)系上制得散點(diǎn)圖,并用最小二乘法擬合出詞頻——虛詞序次直線.其中,b為該直線在y軸上的斜率,a為該直線在x軸上的截距,且滿足方程如下:
b=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=∑ni=1xiyi-nx y∑ni=1x2i-nx2,
a=y-bx.
線性相關(guān)系數(shù)(R2):由于之后的線性回歸模型需要以一個(gè)同類隨機(jī)樣本虛詞的順序?yàn)榛鶞?zhǔn),因此,兩個(gè)變量之間的關(guān)系強(qiáng)度無法得到保證.此時(shí)需要計(jì)算每條擬合直線的線性相關(guān)系數(shù),即R2來判斷兩個(gè)變量之間的線性關(guān)系密切程度,在該問題中表現(xiàn)為虛詞的位次與頻率是否大致與隨機(jī)樣本一致.
觀測數(shù)據(jù)(xi,yi),i=1,2,…,n的樣本相關(guān)系數(shù)
R=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2
=∑ni=1xiyi-nx y∑ni=1x2i-nx2∑ni=1y2i-ny2 .
根據(jù)統(tǒng)計(jì)學(xué)知識(shí),在本數(shù)學(xué)模型中規(guī)定:當(dāng)0.75 由假設(shè)可知,同一作者作品中虛詞詞頻是一致的.因此,如果各章節(jié)作者相同,那么相同的一組虛詞按照不變的排序后,所擬合出的直線近似一致.并且,由于相同虛詞在不同作者作品中詞頻不同,所以一組虛詞按照不變的順序排序后,擬合出的詞頻-虛詞直線一般不同,且擬合效果一般較差.同時(shí),相關(guān)系數(shù)也與擬合直線的斜率一同作為判斷依據(jù):當(dāng)斜率相差小且擬合效果好時(shí),認(rèn)為匹配成功;否則,認(rèn)為匹配失敗. 五、標(biāo)準(zhǔn)數(shù)據(jù)設(shè)立 為了論證虛詞詞頻的異同能夠體現(xiàn)作者的異同,首要任務(wù)是建立各線性回歸方程斜率之間的可承受誤差區(qū)間,即標(biāo)準(zhǔn)數(shù)據(jù).本文選用已確認(rèn)由唯一作者書寫的《西游記》為參數(shù)來源. 數(shù)據(jù)獲得步驟:將100回的《西游記》平均分為前后各50回兩個(gè)部分;通過Python語言及Jieba分詞插件得出總出現(xiàn)頻率較高的虛詞:嗎、仍、越、讓、其、比、但、可;使用MATLAB語言對這8個(gè)虛詞的出現(xiàn)次數(shù)及頻率進(jìn)行統(tǒng)計(jì);以前50回中8個(gè)虛詞的頻率升序?yàn)榛鶞?zhǔn),將前后兩部分的數(shù)據(jù)制作成散點(diǎn)圖,并繪制出各自的線性回歸方程.兩方程斜率的差即為該問題中可接受的誤差,即在該范圍內(nèi)可認(rèn)為兩篇文本出自同一作者. 進(jìn)行多組數(shù)據(jù)比對,作者認(rèn)為以1±0.1為標(biāo)準(zhǔn)數(shù)據(jù)具有適用性. 六、模型的求解 為使數(shù)據(jù)盡量可控、精細(xì),將《紅樓夢》以每10回劃分為1節(jié),分別從前8節(jié)和后4節(jié)中各抽出1節(jié)作為順序基準(zhǔn).求解過程中21~30回和101~110回被隨機(jī)選中.剩余10節(jié)分別以這兩節(jié)的順序?yàn)榛鶞?zhǔn),構(gòu)建一元線性回歸方程,通過對線性相關(guān)系數(shù)及斜率的比較,將剩余10節(jié)歸入到誤差較小即在標(biāo)準(zhǔn)數(shù)據(jù)內(nèi)的那組,由此確認(rèn)120回中哪幾回屬于同一個(gè)作者. 使用盲眼測試法,即將章回?cái)?shù)當(dāng)作未知數(shù)據(jù),通過將該小節(jié)以兩個(gè)數(shù)據(jù)基準(zhǔn)數(shù)據(jù)得出的散點(diǎn)圖及線性回歸方程與其基準(zhǔn)進(jìn)行比較,得出更接近基準(zhǔn)的該組即為該小節(jié)所屬部分. 以31~40回小節(jié)為例進(jìn)行歸類,將兩組數(shù)據(jù)的相對差距進(jìn)行比較: 以21~30回為基準(zhǔn)時(shí),線性相關(guān)系數(shù)為0.765 223 92,擬合效果出色,適合進(jìn)行方程截距比較;截距與基準(zhǔn)之比為0.765 223 920.810 458 30=0.944 186 666,將該比值與標(biāo)準(zhǔn)數(shù)據(jù)1±01進(jìn)行絕對差距比較,發(fā)現(xiàn)在可承受范圍內(nèi). 以101~110回為基準(zhǔn)時(shí),該小節(jié)線性相關(guān)系數(shù)為0392 719 34,擬合效果偏差,不宜進(jìn)行方程截距比較;為使得結(jié)果更合理、有力,進(jìn)一步進(jìn)行截距比較:截距與基準(zhǔn)之比為0.392 719 340.855 150 40=0.459 240 082.再將比值與標(biāo)準(zhǔn)數(shù)據(jù)1±01進(jìn)行絕對差距比較,發(fā)現(xiàn)遠(yuǎn)超出可承受范圍. 由于第31~40回與21~30回?cái)M合效果出色,比值在合理范圍內(nèi);與101~110回?cái)M合效果較差,比值超出范圍.因而,可以得出31~40回小節(jié)屬于前80回. 將剩余9小節(jié)按照如上方法進(jìn)行比對,結(jié)果顯示前80回在以21~30回為基準(zhǔn)的可接受范圍內(nèi);后40回在以101~110回為基準(zhǔn)的可接受范圍內(nèi). 七、結(jié) 論 綜上所述,通過虛詞詞頻的一元線性回歸模型,可以得出《紅樓夢》前80回與后40回分別由兩位作者撰寫的結(jié)論. 【參考文獻(xiàn)】 [1]李賢平.《紅樓夢》成書新說[J].復(fù)旦大學(xué)學(xué)報(bào)社科版,1987(5):3-16. [2]韋博成.紅樓夢前80回與后40回某些文風(fēng)差異的統(tǒng)計(jì)分析[J].應(yīng)用概率統(tǒng)計(jì),2009(4):441-448. [3]吳軍.數(shù)學(xué)之美:第2版[M].北京:人民郵電出版社,2014. [4]韋博成.漫談統(tǒng)計(jì)學(xué)的應(yīng)用與發(fā)展[J].數(shù)理統(tǒng)計(jì)與管理,2011(1):85-97.