• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合詞相關(guān)性特征的《紅樓夢(mèng)》作者辨析

      2020-03-14 23:26:06陳藹瑞?吳士軍?展浩宇
      人物畫(huà)報(bào) 2020年29期
      關(guān)鍵詞:支持向量機(jī)頻數(shù)紅樓夢(mèng)

      陳藹瑞?吳士軍?展浩宇

      摘 要:自《紅樓夢(mèng)》成書(shū)以來(lái)存有多種版本,對(duì)其作者的辨析也在不斷地進(jìn)行,其本質(zhì)是一個(gè)分類問(wèn)題。本文以120回程高版本的《紅樓夢(mèng)》的每個(gè)回合作為樣本,在人物頻數(shù)、虛詞頻數(shù)為樣本特征的基礎(chǔ)上,提出了一種用詞和詞之間的相關(guān)性差異作為不同作者寫(xiě)作差異性度量,并用word2vec詞向量方法來(lái)計(jì)算詞與詞之間的相關(guān)性作為特征,對(duì)比了線性模型和非線性模型下,采用SVM分類器對(duì)樣本進(jìn)行訓(xùn)練和判別,實(shí)驗(yàn)數(shù)據(jù)表明,結(jié)合詞相關(guān)性特征后,采用高斯核的非線性SVM,得出前80回和后40回存在顯著差異,從而可以合理地假設(shè)是兩位不同的作者。

      關(guān)鍵詞:詞相關(guān)性;頻數(shù);特征;詞向量;支持向量機(jī)

      一、引言

      《紅樓夢(mèng)》是我國(guó)的明清四大名著之一,具有極高的藝術(shù)成就。自《紅樓夢(mèng)》成書(shū)以來(lái),一直有學(xué)者對(duì)其內(nèi)容不斷進(jìn)行研究探討。但因?yàn)闅v史上流傳不便等原因,現(xiàn)存的《紅樓夢(mèng)》具有多個(gè)版本,其作者也存在較大爭(zhēng)議。目前較為公認(rèn)的120回版本是指前80回由曹雪芹所創(chuàng),后四十回由高鶚續(xù)寫(xiě)的版本。

      在過(guò)去,大多數(shù)對(duì)《紅樓夢(mèng)》作者討論的工作都是基于文學(xué)上感性的認(rèn)識(shí)或者歷史上文獻(xiàn)文物的考證進(jìn)行的。一些作者嘗試采用多元統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的方法探討《紅樓夢(mèng)》作者。瑞典漢學(xué)家高本漢最早使用統(tǒng)計(jì)方法研究《紅樓夢(mèng)》,根據(jù)32中語(yǔ)法、詞匯現(xiàn)象的統(tǒng)計(jì)結(jié)果得出前80回和后40回為同一作者的結(jié)論。李賢平、成大康、施建軍等人的工作,都是以每回中文言虛詞的頻數(shù)作為訓(xùn)練樣本的特征,結(jié)合方差分析、回歸分析、SVM分類器、K近鄰等方法進(jìn)行分析,基本假設(shè)是每個(gè)作者使用虛詞的習(xí)慣是不同的。采用文言虛詞的頻數(shù)作為學(xué)習(xí)模型中樣本空間的特征值稱為辨析《紅樓夢(mèng)》作者相關(guān)研究的主流。

      這種特征選擇方法在一定程度上是有效地,但也存在一些問(wèn)題:首先,虛詞頻數(shù)的差異程度多大能夠判決是不同的作者難以定義。其次這種特征選擇拋棄了語(yǔ)言成分如詞、語(yǔ)句的結(jié)構(gòu)特性,事實(shí)上這種語(yǔ)言結(jié)構(gòu)上的差異信息更能區(qū)分著者的不同寫(xiě)作習(xí)慣和風(fēng)格。

      本文從統(tǒng)計(jì)的角度出發(fā),選擇人物出場(chǎng)頻數(shù)、虛詞頻數(shù)等多個(gè)特征,并且引入詞向量分析提取詞和詞之間的關(guān)聯(lián)程度作為特征選擇,采用SVM分類器對(duì)120回程高版《紅樓夢(mèng)》的作者進(jìn)行了分析。

      本文假設(shè)《紅樓夢(mèng)》作者的分析問(wèn)題可視為機(jī)器學(xué)習(xí)中經(jīng)典的二類分類問(wèn)題,整本《紅樓夢(mèng)》可視為含有120個(gè)樣本點(diǎn)的樣本集。

      我們?cè)趯?shí)驗(yàn)中分別試驗(yàn)了線性近似可分SVM和非線性SVM的分類性能;尤其通過(guò)使用非線性SVM模型,取得了高置信度的分類結(jié)果,證明了在不同的回目上曹雪芹、高鶚兩位作者存在“可分的”差異。

      二、基于統(tǒng)計(jì)分析的文本分類方法

      1.模型

      令D={x1,x2,…,xm}表示具有m個(gè)樣本(sample)的數(shù)據(jù)集(data set),每個(gè)樣本xi=(xi1; xi2; …;xid)X是d維樣本空間中的一個(gè)向量,xi1是xi在第i個(gè)特征(feature)的取值,d為樣本xi的維數(shù)(dimensionality)。標(biāo)有類標(biāo)號(hào)(label)的樣本成為樣例(example),(xi,yi)表示第i個(gè)樣例。

      文本分類的基本流程如圖1所示:

      2.詞向量

      在文本分類中,詞向量是用來(lái)表示詞的特征向量,One-hot表示方法將每個(gè)詞表示為只有一個(gè)維度取值為1、其余維度取值都為0的d維向量,d也是詞表的大小。在深度學(xué)習(xí)中,采用一種低維的實(shí)值向量表示詞向量。利用詞向量之間定義的各種度量,可以表示詞語(yǔ)之間的相似性程度。詞向量可以通過(guò)基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型經(jīng)過(guò)訓(xùn)練而產(chǎn)生,目標(biāo)函數(shù)可以采用對(duì)數(shù)似然函數(shù):

      三、基于人物出場(chǎng)頻數(shù)、虛詞頻數(shù)和詞向量的作者辨析

      我們按照題意分別采取了幾種不同的提取《紅樓夢(mèng)》語(yǔ)料中詞語(yǔ)特征的方法。通過(guò)組合這些詞的特征,我們構(gòu)建了《紅樓夢(mèng)》每一回目的文本特征。我們將前40回文本樣本作為正例、81~100回文本樣本為反例,用以訓(xùn)練SVM模型,41~80回文本樣本、101~120回文本樣本作為測(cè)試樣本,最終輸出分類結(jié)果,以判別《紅樓夢(mèng)》前80回與后40回是否是同一作者。

      下面我們按照題目順序介紹幾種特征提取的方法。

      1.統(tǒng)計(jì)120回中每一回目主要人物名稱出現(xiàn)的頻數(shù)

      首先我們將程高版《紅樓夢(mèng)》的txt文檔按照120回目分開(kāi),儲(chǔ)存為一個(gè)csv格式的文件,然后我們用python的pandas框架讀取這個(gè)文件,并用python的jieba框架對(duì)文本進(jìn)行了分詞。在去掉中文的停用詞之后,我們用python的nltk框架的FreqDist模塊統(tǒng)計(jì)了分詞后每個(gè)回目每個(gè)詞的頻數(shù)。

      由于紅樓夢(mèng)的出場(chǎng)人物眾多,造成了統(tǒng)計(jì)120回中每一回目主要人物名稱出現(xiàn)的頻數(shù)的以下3個(gè)困難:

      a.人物眾多,有名有姓者就有732人;

      b.許多人物往往只在120回中出現(xiàn)了一次,造成了樣本的稀疏性。

      c.對(duì)于文本分詞產(chǎn)生的指代性人稱代詞、別名、小名無(wú)法處理。

      針對(duì)問(wèn)題b,我們采用主成分分析PCA(Principal Component Analysis)進(jìn)行降維,計(jì)算出主要人物。最終選取了15個(gè)人物每一回目的出場(chǎng)次數(shù),作為每一回的文本特征,如圖2所示:

      2. 統(tǒng)計(jì)120回中每一回目常見(jiàn)文言虛詞的頻數(shù)

      處理思路和方法與統(tǒng)計(jì)人物出場(chǎng)次數(shù)相同,但統(tǒng)計(jì)虛詞作為文本特征相比于統(tǒng)計(jì)人物出場(chǎng)次數(shù)有兩個(gè)優(yōu)勢(shì)。規(guī)定的文言虛詞數(shù)量只有18個(gè)。除去2個(gè)120回都沒(méi)有出現(xiàn)過(guò)的虛詞外,其余的16個(gè)虛詞出現(xiàn)頻數(shù)都相對(duì)正常。

      我們完整地統(tǒng)計(jì)了每一回目16個(gè)虛詞出現(xiàn)的頻數(shù),如圖3所示。

      3.基于詞與詞之間相關(guān)性的特征提取

      我們采用了一種word2vec的詞向量方法來(lái)計(jì)算詞與詞之間的相關(guān)性。為了節(jié)約篇幅,我忽略了對(duì)自然語(yǔ)言處理從詞的one-hot向量的特征形式到詞向量的特征形式發(fā)展的介紹,簡(jiǎn)單來(lái)說(shuō)可將one-hot視作對(duì)字典中的詞一種非常稀疏的編碼形式,且無(wú)法計(jì)算出詞與詞的相關(guān)性;詞向量則是將某個(gè)詞與上下文n個(gè)詞之間的相關(guān)性用馬爾科夫決策過(guò)程計(jì)算,用計(jì)算的數(shù)值來(lái)作為這個(gè)詞的特征。而word2vec算法主要功能就是通過(guò)簡(jiǎn)單的單隱層神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練出表示詞和詞之間相關(guān)性的詞向量。

      word2vec算法的輸入是one-hot向量,隱藏層沒(méi)有非線性激活函數(shù),也就是線性的單元。輸出層維度跟輸入層的維度一樣,用的是softmax回歸。我們要獲取的詞向量其實(shí)就是隱藏層的輸出單元。

      word2vec算法有兩種結(jié)構(gòu),分別為CBOW和skip-gram,它們的結(jié)構(gòu)分別如圖4所示。

      CBOW模式根據(jù)上下文n個(gè)詞計(jì)算某個(gè)詞的相關(guān)性,適合小語(yǔ)料;skip-gram模式根據(jù)某個(gè)詞計(jì)算上下文n個(gè)詞的相關(guān)性作為該詞的特征,適合大型語(yǔ)料。

      我們通過(guò)調(diào)用python的gensim框架中word2vec模塊,采用skip-gram模式,設(shè)置計(jì)算一個(gè)詞前后五十個(gè)詞的相關(guān)性,對(duì)整本《紅樓夢(mèng)》進(jìn)行了訓(xùn)練。訓(xùn)練的結(jié)果顯示模型已經(jīng)掌握了一些詞與詞之間結(jié)構(gòu)的高級(jí)特征。圖5、圖-6給出了模型輸出與“賈寶玉”加“林黛玉”和“賈寶玉”加“薛寶釵”最相關(guān)的詞語(yǔ)。

      我們將每一回目所有詞的特征相加后求平均作為該回目的文本特征,從而進(jìn)一步作為SVM的輸入來(lái)訓(xùn)練模型。

      4.基于tf-idf的特征提取

      tf指詞頻,idf指逆文本頻率指數(shù),某一特定詞語(yǔ)的idf,可以由總文本數(shù)目除以包含該詞語(yǔ)的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。tf-idf算法的內(nèi)容就是將一個(gè)詞的tf和idf相乘得到這個(gè)詞的權(quán)重或者特征。這樣做的好處在于能將那些真正對(duì)文本分類重要的詞作為文本的特征,而將那些雖然出現(xiàn)很多但毫不重要的詞例如“的”“了”給過(guò)濾掉,這正是乘積中idf項(xiàng)起到的作用。

      我們用python的tensorflow框架實(shí)現(xiàn)了用tf-idf作為特征提取來(lái)對(duì)《紅樓夢(mèng)》每一回的文本提取特征。

      四、實(shí)驗(yàn)和數(shù)據(jù)分析。

      我們分別用幾種不同的特征提取方法提取了《紅樓夢(mèng)》每一回的文檔特征,并分別連接了線性SVM和非線性SVM用來(lái)產(chǎn)生分類的結(jié)果。

      對(duì)比表1,表2,表3,我們可以看出在200輪迭代后不同特征提取方法連接的非線性SVM分類器對(duì)于測(cè)試數(shù)據(jù)都已接近1的置信度成功分類,說(shuō)明了《紅樓夢(mèng)》每個(gè)回目的特征空間在映射的高維空間上是線性可分的,證明了在不同的回目上曹雪芹、高鶚兩位作者存在“可分的”差異。

      我們也通過(guò)圖7可以看出,使用線性SVM作為分類器時(shí)訓(xùn)練精度和測(cè)試精度不能收斂,存在震蕩,說(shuō)明我們?cè)燃僭O(shè)回目的特征空間線性近似可分是錯(cuò)誤地。

      我們還發(fā)現(xiàn)當(dāng)?shù)?00輪時(shí),非線性SVM的損失已經(jīng)收斂到0,然而訓(xùn)練精度和測(cè)試精度還未達(dá)到最高。這也許會(huì)對(duì)那些優(yōu)先考慮算法速度的任務(wù)很有幫助。

      此外還有曲線平滑度的問(wèn)題,在超參數(shù)相同的情況下,用主要人物出現(xiàn)頻數(shù)提取特征的測(cè)試曲線最為光滑,用虛詞出現(xiàn)頻數(shù)提取特征的測(cè)試曲線光滑度次之,用word2vec提取特征的曲線,光滑度最差。猜測(cè)在超參數(shù)相同的情況下,測(cè)試曲線的光滑可能與特征的維數(shù)有關(guān),維數(shù)越高,越不光滑。

      結(jié)束語(yǔ)

      本文基于幾種不同的特征提取方法和兩種SVM分類器對(duì)現(xiàn)存公認(rèn)的《紅樓夢(mèng)》120回目版本的文本建立了模型。通過(guò)迭代訓(xùn)練,非線性SVM分類器能夠以接近1的置信度將每一回目的作者成功分類,證明了在不同的回目上曹雪芹、高鶚兩位作者存在“可分的”差異。

      進(jìn)一步地工作包括以下兩個(gè)方面:

      (1)在通過(guò)word2vec訓(xùn)練詞向量時(shí),實(shí)際上將模型的訓(xùn)練分成了兩塊:用于提取特征的單隱層網(wǎng)絡(luò)和用來(lái)分類的SVM。這樣使得后端更新的參數(shù)不能反饋到前端去更新單隱層網(wǎng)絡(luò),不利于損失函數(shù)的收斂。假如能夠構(gòu)造出一種能夠?qū)崿F(xiàn)end-to-end的網(wǎng)絡(luò)結(jié)構(gòu),既能用來(lái)提取詞向量特征,又能用來(lái)文本分類,這樣參數(shù)可以用BP算法從后端更新到前端。有利于提升損失函數(shù)的收斂速度和測(cè)試的精度。

      (2)對(duì)于《紅樓夢(mèng)》這樣的特定語(yǔ)料,我們無(wú)法判斷樣本是否基于獨(dú)立同分布產(chǎn)生的。同時(shí)也存在類別不平衡的問(wèn)題。進(jìn)一步地工作將圍繞這兩個(gè)問(wèn)題展開(kāi)對(duì)模型的修正。

      參考文獻(xiàn):

      [1]劉鈞杰.《紅樓夢(mèng)》前八十回與后四十回言語(yǔ)差異考察[J].語(yǔ)言研究,1986,1(2):172-181.

      [2]蔣紹愚.近代漢語(yǔ)研究概率[M].北京:北京大學(xué)出版社,2005.

      [3]李賢平.《紅樓夢(mèng)》成書(shū)新說(shuō)[J].復(fù)旦學(xué)報(bào) (社會(huì)科學(xué)版),2005,5(8):3-16.

      [4]陳大康.從數(shù)理語(yǔ)言學(xué)看后四十回的作者——與陳炳藻先生商榷[J].紅樓夢(mèng)學(xué)刊, 1987,1(2):293-318.

      [5]施建軍.基于支持向量機(jī)技術(shù)的《紅樓夢(mèng)》作者研究[J]. 紅樓夢(mèng)學(xué)刊,2011,9(14):35-52.

      [6]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:2-3.

      [7]Hinton, Geoffrey E. Learning distributed representation of concepts[C]. Pro-ceedings of the eighth annual conference of the cognitive science socith.1986

      [8]N Cristianini, J Shawe-Taylor, An Introduction to Support Vector Machines[M] Cambridge Univer-sity Press, Cambridge, UK, 2000.

      本文受江蘇省政策引導(dǎo)類計(jì)劃(產(chǎn)學(xué)研合作)-前瞻性聯(lián)合研究項(xiàng)目資助,項(xiàng)目編號(hào):BY2016065-5。

      作者簡(jiǎn)介:吳士軍(1967-),男,本科,講師,主要研究方向?yàn)榇髷?shù)據(jù)分析。

      猜你喜歡
      支持向量機(jī)頻數(shù)紅樓夢(mèng)
      論《紅樓夢(mèng)》中的賭博之風(fēng)
      從《紅樓夢(mèng)》看養(yǎng)生
      海峽姐妹(2020年7期)2020-08-13 07:49:32
      《〈紅樓夢(mèng)〉寫(xiě)作之美》序
      別樣解讀《紅樓夢(mèng)》
      海峽姐妹(2018年5期)2018-05-14 07:37:10
      中考頻數(shù)分布直方圖題型展示
      動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
      昌邑市| 资中县| 鱼台县| 宜良县| 赤峰市| 海门市| 苍山县| 博湖县| 灵台县| 乌鲁木齐县| 沂源县| 仁寿县| 通河县| 林口县| 旌德县| 吉林市| 宣武区| 台北县| 宜丰县| 平原县| 辽宁省| 定州市| 延川县| 绥阳县| 民权县| 辰溪县| 屯昌县| 峨眉山市| 南澳县| 舞钢市| 分宜县| 花莲县| 枝江市| 通州市| 安阳县| 鹤庆县| 连州市| 沾化县| 伊春市| 嘉鱼县| 景东|