• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于關(guān)聯(lián)規(guī)則的黨的十九大報(bào)告關(guān)鍵詞相關(guān)性分析

      2018-06-14 10:28:50馬琳琳
      關(guān)鍵詞:小康社會(huì)數(shù)據(jù)挖掘關(guān)聯(lián)

      馬琳琳,劉 繼

      (新疆財(cái)經(jīng)大學(xué),新疆 烏魯木齊 830012)

      一、引言

      2017年10月18日至24日,中國共產(chǎn)黨第十九次全國代表大會(huì)在北京勝利召開。習(xí)近平代表第十八屆中央委員會(huì)向大會(huì)作了題為《決勝全面建成小康社會(huì) 奪取新時(shí)代中國特色社會(huì)主義偉大勝利》的報(bào)告,對當(dāng)前我國發(fā)展提出了許多新的觀點(diǎn)和舉措,是一篇對統(tǒng)一全黨思想認(rèn)識(shí)、帶領(lǐng)全國各族人民決勝全面建成小康社會(huì)、奪取新時(shí)代中國特色社會(huì)主義偉大勝利有著重要指導(dǎo)意義的綱領(lǐng)性文獻(xiàn)。深入解讀黨的十九大報(bào)告,準(zhǔn)確理解和把握報(bào)告中提出的新思想新論斷新舉措,不僅可以從思想上武裝自己,提高自身思想理論水平,同時(shí)也可為實(shí)際工作提供正確指導(dǎo)。

      大數(shù)據(jù)時(shí)代下,經(jīng)濟(jì)社會(huì)的各種數(shù)據(jù)化特征和發(fā)展態(tài)勢使得數(shù)據(jù)格式已由簡單的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)變?yōu)槎鄻踊臄?shù)據(jù)格式,面對類型繁多的數(shù)據(jù),如何提高多類型數(shù)據(jù)的處理能力以及如何通過強(qiáng)大的軟件算法更迅速地完成對海量數(shù)據(jù)的價(jià)值挖掘和質(zhì)量提純,已成為大數(shù)據(jù)時(shí)代下亟待解決的一大難題。云計(jì)算和互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了大量的文本信息,文本數(shù)據(jù)量的快速增長以及文本數(shù)據(jù)結(jié)構(gòu)的特殊性等因素,均在數(shù)據(jù)處理上給我們帶來了新的問題。如何利用數(shù)據(jù)挖掘中的方法對文本數(shù)據(jù)進(jìn)行有效的整合分析,幫助使用者從文本數(shù)據(jù)中發(fā)掘潛在信息,這是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域面臨的一大挑戰(zhàn);與此同時(shí),數(shù)據(jù)挖掘中的文本分析也得到了學(xué)者的廣泛關(guān)注。

      文本分析作為數(shù)據(jù)挖掘中的新領(lǐng)域,它可以從海量的、結(jié)構(gòu)特殊的文本信息中量化數(shù)據(jù),發(fā)現(xiàn)內(nèi)在信息,并從中抽取出有效的信息。借鑒既有研究,本文對文本分析定義如下:文本分析是指通過文本處理,把從大量的文本數(shù)據(jù)中抽取出的特征詞進(jìn)行量化來表示文本信息,產(chǎn)生高質(zhì)量的最終可用信息的過程。在文本分析中,首先需要對文本中的詞語進(jìn)行分析,即完成“文本→詞語”的轉(zhuǎn)換;然后通過引入詞向量,對語義維度進(jìn)行合理定義,將對文本的分析轉(zhuǎn)化為對詞語語義的分析,這樣就能有效地對文本內(nèi)蘊(yùn)含的潛在信息進(jìn)行分析。它從詞的角度上量化觀測文本內(nèi)容,使得文本內(nèi)容可以初步由機(jī)器進(jìn)行量化分析計(jì)算,以便較快地把握文本的主旨意義并挖掘文本的潛在信息。因此,利用文本分析方法可以較好地分析黨的十九大報(bào)告中的文本數(shù)據(jù)。本文使用詞向量和關(guān)聯(lián)規(guī)則,采用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘方法,對黨的十九大報(bào)告文本進(jìn)行分詞處理,構(gòu)建文本中關(guān)鍵詞的詞向量矩陣,進(jìn)行關(guān)鍵詞相關(guān)性分析,實(shí)現(xiàn)對文本信息的深度挖掘,以期為深入解讀黨的十九大報(bào)告提供文本量化技術(shù)支持。

      二、文本分析方法

      基于數(shù)據(jù)挖掘的文本分析現(xiàn)已成為許多學(xué)者的熱點(diǎn)研究對象,目前的文本挖掘方法有很多[1],如聚類、分類和關(guān)聯(lián)規(guī)則等。聚類是無指導(dǎo)的學(xué)習(xí)過程,能夠不依賴預(yù)先定義的類進(jìn)行分析,數(shù)據(jù)挖掘中的聚類分析[2]在文本分析中的應(yīng)用是十分廣泛的,文本聚類分析已成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究分支。文本聚類分析常用的方法一般有K-means、K-modes以及它們的改進(jìn)優(yōu)化算法。有學(xué)者基于組合神經(jīng)網(wǎng)絡(luò)的商品屬性聚類分析方法,并運(yùn)用word2vec對商品評論進(jìn)行情感分析以幫助商家及時(shí)改進(jìn)營銷策略[3],對潛在消費(fèi)者進(jìn)行消費(fèi)指導(dǎo);有研究者運(yùn)用word2vec和SVMperf對中文評論進(jìn)行情感分類研究[4],并利用有監(jiān)督的機(jī)器學(xué)習(xí)方法對文本數(shù)據(jù)進(jìn)行情感分類;還有研究者利用不同度量距離作為詞語間的相似度,使用K-means聚類以達(dá)到提高文本聚類質(zhì)量的目的[5]。

      分類與聚類相反,它是有指導(dǎo)的學(xué)習(xí)過程,使用分類方法進(jìn)行文本分析也是常見模式。文本分類分析的方法有許多,常見的有樸素貝葉斯(Naive Bayes)、Logistic回歸(Logistic Regression)、決策樹(Decision)和支持向量機(jī)(Support Vector Machine,SVM)等方法。有研究者針對中文文本數(shù)據(jù),通過分析不同的文本特征,比較Logistic回歸模型中的分類器與SVM中的文本分類器性能的差別,證明了Logistic回歸在文本分類上的有效性[6]。在分類分析中,樸素貝葉斯算法是貝葉斯算法中一種極其經(jīng)典的算法,受到眾多研究者的關(guān)注,經(jīng)改進(jìn)性能逐步提高的樸素貝葉斯算法已經(jīng)成為分類算法中的一個(gè)重要研究分支。例如有研究者利用改進(jìn)的樸素貝葉斯算法,實(shí)現(xiàn)了對論壇中評論的分類;還有研究者將貝葉斯算法與決策樹結(jié)合使用,綜合了決策樹中ID3算法對網(wǎng)頁檢測精度高和樸素貝葉斯分類器對文本內(nèi)容分類精度高的優(yōu)點(diǎn),實(shí)現(xiàn)了對垃圾網(wǎng)頁的有效過濾。

      關(guān)聯(lián)規(guī)則也是數(shù)據(jù)挖掘中的一種重要方法,它在數(shù)據(jù)處理上具有方法簡單且十分實(shí)用的優(yōu)點(diǎn),許多研究者利用關(guān)聯(lián)規(guī)則算法對數(shù)據(jù)進(jìn)行預(yù)處理,以便發(fā)掘數(shù)據(jù)之間的內(nèi)在關(guān)系。目前,關(guān)聯(lián)規(guī)則已被廣泛應(yīng)用于文本數(shù)據(jù)分析研究中。有研究者使用關(guān)聯(lián)規(guī)則對文本數(shù)據(jù)進(jìn)行分析[7-8],從而發(fā)現(xiàn)與其關(guān)心的特定事物有相關(guān)關(guān)系的其他事物,或?yàn)楹罄m(xù)研究提供幫助;還有研究者將主題模型與關(guān)聯(lián)規(guī)則分析方法相結(jié)合,以實(shí)現(xiàn)對文本主題更深層次的挖掘[9]。

      本文基于關(guān)聯(lián)規(guī)則對黨的十九大報(bào)告進(jìn)行關(guān)鍵詞相關(guān)性分析。首先從新華網(wǎng)獲取黨的十九大報(bào)告的原始文本數(shù)據(jù),利用自然語言分詞工具對報(bào)告進(jìn)行分詞處理,對分詞后的文本內(nèi)容提取關(guān)鍵詞[7],并對報(bào)告中的段落進(jìn)行詞頻計(jì)算,進(jìn)而得到各段落中的高頻詞。然后根據(jù)研究需要構(gòu)造詞語相似度矩陣,并根據(jù)高頻詞繪制標(biāo)簽詞云。最后通過關(guān)聯(lián)規(guī)則挖掘,揭示報(bào)告中各關(guān)鍵詞之間的潛在聯(lián)系,同時(shí)結(jié)合報(bào)告原文進(jìn)行分析得到有益啟示,以期為進(jìn)一步深入學(xué)習(xí)研究黨的十九大精神提供幫助。

      三、文本分析模型

      (一) word2vec模型

      語言模型是根據(jù)語言客觀事實(shí)而進(jìn)行的語言抽象數(shù)字建模,是用于計(jì)算一個(gè)句子概率的模型。在典型的神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model)中,詞是以向量形式表示的,兩個(gè)語義相似的詞所對應(yīng)的向量也是相似的,這樣就可以利用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練詞向量以及處理詞與詞之間的關(guān)系。一般多采用經(jīng)典的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別為輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer),且一般分為CBOW和Skip-gram兩種模型。

      word2vec模型[3-4]的基本思想就來源于神經(jīng)網(wǎng)絡(luò)語言模型,word2vec也使用了CBOW與Skip-gram這兩種模型,同時(shí)使用霍夫曼樹來替代隱藏層與輸出層。word2vec模型通過分析文本中蘊(yùn)含的信息預(yù)測當(dāng)前詞語的思想來生成詞向量,是一種針對海量文本數(shù)據(jù)并從中以無指導(dǎo)學(xué)習(xí)發(fā)掘語義知識(shí)的模型。word2vec可以在百萬數(shù)量級的數(shù)據(jù)集上進(jìn)行高效訓(xùn)練,得到的結(jié)果是可以很好地度量詞與詞之間相似性的詞向量,即通過構(gòu)造多維空間使得語義接近的詞語在該空間中距離也接近,進(jìn)而通過詞向量間距離的度量來表示詞語間的相似度,可以解決在文本挖掘中語義相近的不同詞語所帶來的分析難題?;谶@些特點(diǎn),研究人員可以利用得到的數(shù)量化的詞向量計(jì)算出這些詞語與用于研究分析的詞語之間的相似度,進(jìn)而將文本數(shù)據(jù)數(shù)量化,為后續(xù)其他分析方法的展開提供基礎(chǔ)。

      (二)TFIDF模型

      在對文本數(shù)據(jù)進(jìn)行分析研究時(shí),不論研究的目的與需求是什么,首要的工作都是對文本進(jìn)行數(shù)據(jù)預(yù)處理,包括對文本數(shù)據(jù)進(jìn)行分詞處理、特征選擇與權(quán)重計(jì)算等,將文本數(shù)據(jù)量化為計(jì)算機(jī)算法可以使用的數(shù)據(jù),隨后才能對數(shù)據(jù)進(jìn)行各種需求的分析。對中文文本進(jìn)行分詞處理是文本挖掘工作的基礎(chǔ),完成分詞操作以后,計(jì)算機(jī)才能識(shí)別語句的基本詞,進(jìn)而才能根據(jù)詞的分布情況進(jìn)行文本分析與部分語義分析。特征選擇與權(quán)重計(jì)算則可以將以人類閱讀理解為目的的文本轉(zhuǎn)變?yōu)橛?jì)算機(jī)能夠識(shí)別的數(shù)據(jù)模式。在實(shí)際文本處理中,數(shù)據(jù)預(yù)處理的權(quán)重計(jì)算方法有許多,例如熵函數(shù)、對數(shù)函數(shù)、頻度函數(shù)、開根號函數(shù)及TFIDF函數(shù),其中TFIDF是一種較為簡單且經(jīng)典的詞語權(quán)重算法,它具有思想簡潔和準(zhǔn)確率高等優(yōu)點(diǎn),不斷改進(jìn)優(yōu)化的TFIDF模型一直備受研究人員的青睞。

      TFIDF(Term Frequency Inverse Document Frequency )是一種用于文本挖掘的加權(quán)統(tǒng)計(jì)方法[8],它是用來衡量一個(gè)詞語對某個(gè)文本重要程度的方法。TFIDF的主要思想是:假設(shè)某個(gè)詞語在指定文本中出現(xiàn)的頻率很大,并且在文本集的其他文本中很少出現(xiàn),就可以認(rèn)為這個(gè)詞語是指定文本的關(guān)鍵詞,可以用來作分類或作為標(biāo)簽使用。使用TFIDF可以過濾掉文本中常見的詞語,保留對研究分析有重要意義的詞語,這可在很大程度上縮小文本詞空間,以便更有效地對文本進(jìn)行主要特征分析。TFIDF被廣泛應(yīng)用于搜索引擎、文獻(xiàn)分類以及其他領(lǐng)域的實(shí)際運(yùn)用中,是一種基礎(chǔ)的信息檢索模型。

      在TFIDF模型中,詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語在該文本中出現(xiàn)的頻率。逆向文件頻率(Inverse Document Frequency,IDF)用來度量一個(gè)詞語的普遍重要性,計(jì)算在文檔集中包含某指定詞語的文檔數(shù)量,數(shù)量越小代表這個(gè)詞語越能代表指定的文本。

      對于文檔集中指定的文本,某個(gè)詞語ti的TF值可表示為:

      (1)

      上式分子中的ni,j是這個(gè)詞語ti在指定文本dj中出現(xiàn)的次數(shù),而分母是文本dj中所有字詞出現(xiàn)的次數(shù)之和。

      用總文本數(shù)除以包含該詞語的文本數(shù),再將得到的結(jié)果取對數(shù)即可得出該詞語ti的IDF值,即:

      (2)

      其中|D|是文檔集中文本的數(shù)量,|{j∶tidj}|是含有該詞語ti的文本數(shù)量。

      TFIDF的計(jì)算公式如下:

      tidi,j=ti,j×idi

      (3)

      (三)關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則最初是研究人員為了解決“購物籃”分析問題而提出的,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助銷售者了解哪些商品被消費(fèi)者頻繁購買,從而幫助其制定更好的銷售策略[10]。如今信息的主要載體已經(jīng)由傳統(tǒng)的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)特殊的文本數(shù)據(jù),當(dāng)面對海量的文本數(shù)據(jù)時(shí),針對“購物籃”問題所提出的關(guān)聯(lián)規(guī)則,可以用來對文本數(shù)據(jù)中的特定詞進(jìn)行相關(guān)性分析。

      在關(guān)聯(lián)規(guī)則中,支持度(support)和置信度(confidence)[10]是用來描述結(jié)果的兩個(gè)重要指標(biāo),它們分別衡量分析結(jié)果中發(fā)現(xiàn)規(guī)則的有效性和確定性。最小支持度的值和最小置信度的值是根據(jù)不同的研究需求自主設(shè)定的。假設(shè)D為數(shù)據(jù)庫中的記錄總數(shù),t為D的元素,I為t的真子集,則I的支持度如下:

      (4)

      關(guān)聯(lián)規(guī)則是類似于X→Y的規(guī)則形式,即規(guī)則X→Y在D中成立。

      support(X→Y)=P(X∪Y)

      (5)

      P(X∪Y)表示規(guī)則X→Y在數(shù)據(jù)庫D中成立,具有支持度support(X→Y),其中support(X→Y)是D中包含X∪Y的百分比,就是概率P(X∪Y)。

      (6)

      P(Y|X) 表示規(guī)則X→Y在數(shù)據(jù)庫D中具有置信度confidence(X→Y),這個(gè)置信度是D中同時(shí)包含X和Y的數(shù)據(jù)的百分比,就是條件概率P(Y|X) 。

      使用關(guān)鍵詞進(jìn)行的文本關(guān)聯(lián)規(guī)則研究大致可以分為兩個(gè)步驟:一是使用文本挖掘算法得到文本中的關(guān)鍵詞;二是在由關(guān)鍵詞組成的頻繁項(xiàng)集中使用關(guān)聯(lián)規(guī)則方法以得出潛在規(guī)則。

      四、實(shí)例分析

      (一)數(shù)據(jù)來源

      為保證研究的完整性和準(zhǔn)確性,本文研究的原始文本數(shù)據(jù)是從新華網(wǎng)上獲取的習(xí)近平在中國共產(chǎn)黨第十九次全國代表大會(huì)上所作的《決勝全面建成小康社會(huì) 奪取新時(shí)代中國特色社會(huì)主義偉大勝利》的報(bào)告。

      (二)數(shù)據(jù)處理

      本文在數(shù)據(jù)處理中使用了計(jì)算機(jī)程序設(shè)計(jì)語言Python和數(shù)據(jù)挖掘應(yīng)用程序平臺(tái)Weka。Weka[6]是由Java編寫的具有全面功能的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用程序平臺(tái),在數(shù)據(jù)挖掘?qū)W科歷史上具有里程碑意義。Weka包含了種類繁多的機(jī)器學(xué)習(xí)算法,能夠?qū)崿F(xiàn)對數(shù)據(jù)的預(yù)處理、聚類、分類、回歸、關(guān)聯(lián)規(guī)則挖掘及數(shù)據(jù)可視化等多種操作。由于包含的算法全面且操作簡單,因而Weka被廣泛應(yīng)用于各領(lǐng)域。與當(dāng)下大多數(shù)據(jù)分析軟件一樣,用于Weka分析的數(shù)據(jù)要求是二維表格形式,其中二維表格的行元素一般可看作數(shù)據(jù)集中的一個(gè)樣本,類似于數(shù)據(jù)表中的記錄;列元素可看作數(shù)據(jù)集中樣本的一個(gè)觀測變量。Weka支持arff和csv格式的數(shù)據(jù),其中的associations和core兩個(gè)模塊是涉及關(guān)聯(lián)算法的。本文使用Weka中associate模塊的Apriori方法對處理過的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析。

      Python是一種解釋型計(jì)算機(jī)程序設(shè)計(jì)語言,具有形式簡潔和開源等優(yōu)點(diǎn)。Python不僅有非常豐富的模塊庫,而且還能與其他語言較好地建立模塊接口。近年來,許多研究者開始使用Python并利用其編寫多種多樣的程序庫,已構(gòu)成了大數(shù)據(jù)分析的語言生態(tài)庫。本文使用的word2vec算法與TFIDF算法均由Python語言編寫完成。

      首先進(jìn)行數(shù)據(jù)預(yù)處理。從新華網(wǎng)上獲取的黨的十九大報(bào)告原始數(shù)據(jù)的類型是文本類型,本文的研究目標(biāo)是運(yùn)用關(guān)聯(lián)規(guī)則計(jì)算報(bào)告中詞語之間的相關(guān)性。由于原始數(shù)據(jù)與分析所需數(shù)據(jù)的格式有差異,因而需要進(jìn)行數(shù)據(jù)預(yù)處理,將文本進(jìn)行分詞處理,為將文本數(shù)據(jù)量化為關(guān)聯(lián)規(guī)則分析方法能夠使用的二維表格形式提供支持。

      用于預(yù)處理的文本數(shù)據(jù)分為兩類:第一類是原始文本,用來提取全文分詞;第二類是規(guī)約后的文本,用于提取段落高頻詞,規(guī)約規(guī)則是按照段落主題進(jìn)行的。黨的十九大報(bào)告中有13個(gè)主題,按照主題規(guī)約為1段引言和13段主題文,即規(guī)約為14個(gè)段落。

      預(yù)處理第一步即對第一類數(shù)據(jù)使用Python中的jieba分詞包進(jìn)行全文分詞得到cutWord,在進(jìn)行分詞時(shí)去除停用詞,將剩余詞語依照在文本中出現(xiàn)的頻率大小提取每段的前10個(gè)高頻詞keywordSet1;對第二類文本進(jìn)行分詞處理后提取14個(gè)段落的前10個(gè)高頻詞keywordSet2。

      預(yù)處理第二步即運(yùn)用TFIDF算法對cutWord進(jìn)行關(guān)鍵詞提取,得到全文的關(guān)鍵詞與相對應(yīng)的TFIDF值集合TKS。TKS中的詞是按照詞語的TFIDF值從大到小排列的。選取前10個(gè)關(guān)鍵詞作為實(shí)驗(yàn)樣本,結(jié)果如表1所示。

      表1 TFIDF運(yùn)算結(jié)果

      其次計(jì)算相似度。構(gòu)造14個(gè)10×10矩陣,矩陣的列元素固定為提取的10個(gè)關(guān)鍵詞并作為研究的觀測點(diǎn),行元素為關(guān)鍵詞的標(biāo)簽,分別是14個(gè)段落的前10個(gè)高頻詞。隨后使用word2vec算法計(jì)算出全文的關(guān)鍵詞與每段高頻詞之間的相似度。

      最后進(jìn)行矩陣的整合與規(guī)約。通過word2vec算法計(jì)算出的值代表的是詞語之間的相似度,通過觀察可以發(fā)現(xiàn)這個(gè)數(shù)值的符號不定,最大值為1,最小值為-1,并且會(huì)出現(xiàn)值為0的情況。這個(gè)為0的結(jié)果并不代表兩個(gè)詞語之間沒有相似度,而是因文本中出現(xiàn)的詞相對的稀疏性,算法無法計(jì)算出這兩個(gè)詞語之間的相似度,這些詞對后續(xù)的分析研究意義不大,因此在對14個(gè)矩陣進(jìn)行整合的過程中刪除了相似度為0的行標(biāo)簽。整理后的數(shù)據(jù)集命名為test1。

      實(shí)驗(yàn)工作已經(jīng)將文本數(shù)據(jù)量化為二維表格形式的數(shù)字?jǐn)?shù)據(jù),但在分析中又面臨著另一個(gè)問題,即word2vec的計(jì)算結(jié)果是一個(gè)表示詞語間相似度的具體數(shù)值,而Weka中關(guān)聯(lián)規(guī)則的Apriori算法是對詞語離散數(shù)值進(jìn)行關(guān)聯(lián)度的劃分。因此word2vec的計(jì)算結(jié)果并不能直接滿足Weka對數(shù)據(jù)格式的要求,需要對test1的相似度數(shù)值進(jìn)行區(qū)間劃分與規(guī)約以滿足后續(xù)研究的需要。進(jìn)行區(qū)間劃分與規(guī)約需要選定區(qū)間界限,界限的選定方法有多種,本文選用了較為簡捷有效的方法,即根據(jù)數(shù)據(jù)的整體分布結(jié)構(gòu)選取界限。利用SPSS統(tǒng)計(jì)軟件對數(shù)據(jù)進(jìn)行描述分析,結(jié)果見表2。

      表2 test1相似度數(shù)值的統(tǒng)計(jì)描述

      通過表2可以得出test1的相似度數(shù)值均值為0.2095;第1四分位數(shù) (Q1)為0.0231,表明test1中小于0.0231的數(shù)值占25%;第2四分位數(shù) (Q2)為0.2075,表明test1中小于0.2075的數(shù)值占50%;第3四分位數(shù) (Q3)為0.3825,表明test1中小于0.3825的數(shù)值占75%。所以可將數(shù)據(jù)規(guī)約為3類:將相似度大于第3四分位數(shù)的樣本規(guī)約為相關(guān)度高——“high”,介于第3四分位數(shù)與第1四分位數(shù)之間的樣本規(guī)約為相關(guān)度中等——“normal”,將小于第1四分位數(shù)的樣本規(guī)約為相關(guān)度低——“l(fā)ow”。依據(jù)選定的界限,規(guī)約后的數(shù)據(jù)滿足Apriori算法的格式要求。

      (三)關(guān)聯(lián)規(guī)則分析

      下文將規(guī)約后的數(shù)據(jù)導(dǎo)入Weka中,使用associate中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析。把相關(guān)參數(shù)“l(fā)owerBoundMinSupport”和“upperBO-undMinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為confidence,“minMetric”設(shè)為0.9,“numRules”設(shè)為10,其他選項(xiàng)均保持默認(rèn)值。

      在數(shù)據(jù)預(yù)處理時(shí),已將報(bào)告全文分為了14個(gè)段落,每段取10個(gè)高頻詞,共計(jì)140個(gè)詞,刪去重復(fù)詞語,得出了90個(gè)不重復(fù)高頻詞,再經(jīng)過word2vec計(jì)算,最后用于Weka中Apriori關(guān)聯(lián)規(guī)則計(jì)算的標(biāo)簽數(shù)為44個(gè)。這些標(biāo)簽就是樣本的屬性,代表了統(tǒng)計(jì)學(xué)中研究的變量,各標(biāo)簽對應(yīng)的高頻詞如表3所示。

      表3 樣本的標(biāo)簽說明

      將表3的數(shù)據(jù)轉(zhuǎn)換為JSON格式后,把44個(gè)高頻詞與對應(yīng)的TFTDF值轉(zhuǎn)化為詞名和詞的權(quán)重,可通過HTML5中的D3進(jìn)行數(shù)據(jù)可視化,并利用 cloud進(jìn)行動(dòng)態(tài)云圖描述,結(jié)果如圖1所示,其中詞語字體的大小由詞權(quán)重標(biāo)識(shí)。

      圖1標(biāo)簽詞云

      在圖1的標(biāo)簽詞云中,詞語字體的大小是由詞語自身的TFIDF值決定的,這樣可以簡潔明了地體現(xiàn)各組詞語在黨的十九大報(bào)告文本中所占的比重。通過觀察,我們可以看到“中國”“發(fā)展”“人民”“社會(huì)主義”“建設(shè)”“時(shí)代”和“堅(jiān)持”等詞語在報(bào)告中占有較大比重。

      將樣本test1導(dǎo)入Weka可計(jì)算出10條規(guī)則結(jié)果。通過解讀樣本test1的規(guī)則結(jié)果,可以發(fā)現(xiàn)在黨的十九大報(bào)告中“社會(huì)主義”“中華民族”“發(fā)展”“建設(shè)”“實(shí)現(xiàn)”“和平”和“全黨”這些高頻詞與文本前10位關(guān)鍵詞聯(lián)系較為緊密。

      規(guī)則表明,黨的十九大報(bào)告中指出中華民族迎來了偉大飛躍,將以更加昂揚(yáng)的姿態(tài)屹立于世界民族之林;中國社會(huì)在建設(shè)與發(fā)展上將按照新的理念進(jìn)行全方位發(fā)展。通過關(guān)聯(lián)規(guī)則發(fā)掘出test1中詞語的相關(guān)性與專家解讀的內(nèi)容相符,但是通過與圖1中的詞語進(jìn)行比較,可以發(fā)現(xiàn)這些規(guī)則并不能全面展示報(bào)告的主旨意義,而且也難以有效地幫助我們精確地分析黨的十九大報(bào)告。

      樣本test1的實(shí)驗(yàn)結(jié)果并不理想,為了使分析結(jié)果更具價(jià)值,能夠更加精準(zhǔn)地描述出報(bào)告中詞語的相關(guān)性,本文選擇擴(kuò)大樣本,即選取前50個(gè)有效關(guān)鍵詞,對新樣本重新進(jìn)行word2vec相似度計(jì)算,并將擴(kuò)充后的新計(jì)算結(jié)果集命名為test2。將實(shí)驗(yàn)樣本擴(kuò)充后,后續(xù)實(shí)驗(yàn)步驟與上述研究一致。在矩陣的規(guī)約中,需重新對整體數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,尋求新的區(qū)間界限,劃分新的規(guī)約區(qū)間,統(tǒng)計(jì)描述結(jié)果如表4所示。

      表4 test2相似度數(shù)值的統(tǒng)計(jì)描述

      參數(shù)設(shè)定不變,將樣本test2導(dǎo)入Weka計(jì)算出來的結(jié)果如下所示。

      Best rules found:

      1. label_22=high 19 ? label_19=low 19 conf:(1)

      2. label_8=normal label_26=normal 17 ?label_1=normal 17 conf:(1)

      3. label_4=high label_41=high 19 ? label_7=high 18 conf:(0.95)

      4. label_4=high label_7=high 19 ? label_41=high 18 conf:(0.95)

      5. label_1=normal label_33=normal 18 ? label_19=low 17 conf:(0.94)

      6. label_9=high label_32=normal 18 ? label_41=high 17 conf:(0.94)

      7. label_4=high 21 ? label_7=high 19 conf:(0.9)

      8. label_4=high 21 ? label_41=high 19 conf:(0.9)

      9. label_7=high label_9=high 20 ? label_1=normal 18 conf:(0.9)

      10. label_7=high label_41=high 20 ? label_4=high 18 conf:(0.9)

      由此可見,擴(kuò)大樣本后在Best rules found中所得規(guī)則的置信度均在0.9之上,表明所得規(guī)則結(jié)果的可信度很高。對test2的Weka規(guī)則結(jié)果進(jìn)行解讀后可以較為清楚地看到一些詞語之間的關(guān)聯(lián)性。如在規(guī)則1、6中,詞語“建成”與詞語“時(shí)代”“文化”“文明”的關(guān)聯(lián)度較高;在規(guī)則2、5、9中,詞語“小康社會(huì)”與詞語“時(shí)代”“建設(shè)”“發(fā)展”“經(jīng)濟(jì)”“推進(jìn)”等關(guān)聯(lián)度較高;在規(guī)則3、4、7、8中,詞語“中華民族”與詞語“文明”和“發(fā)展”的關(guān)聯(lián)度較高。

      習(xí)近平多次強(qiáng)調(diào)要全面建成小康社會(huì),實(shí)現(xiàn)中華民族偉大復(fù)興的中國夢。根據(jù)近年來的社會(huì)熱點(diǎn)問題與事件可以看出,小康社會(huì)的全面建成并不只取決于經(jīng)濟(jì)發(fā)展,如若忽視精神文明建設(shè),勢必不能很好地全面建成小康社會(huì),不能很好地實(shí)現(xiàn)中華民族偉大復(fù)興這一宏偉目標(biāo)。在黨的十九大報(bào)告中,習(xí)近平提出要堅(jiān)定文化自信,推動(dòng)社會(huì)主義文化繁榮興盛,堅(jiān)持中國特色社會(huì)主義文化發(fā)展道路,建設(shè)社會(huì)主義文化強(qiáng)國。

      (四)結(jié)果討論

      對規(guī)則結(jié)果進(jìn)行分析,大致可以看出“中華民族”“文明”“發(fā)展”“小康社會(huì)”“建設(shè)”“文化”“時(shí)代”“推進(jìn)”“建成”“經(jīng)濟(jì)”和“加強(qiáng)”等詞語與樣本的50個(gè)關(guān)鍵詞聯(lián)系較為緊密。此外,本文通過關(guān)聯(lián)規(guī)則還發(fā)現(xiàn)了報(bào)告中的隱含議題。

      一是規(guī)則中與“時(shí)代”關(guān)聯(lián)度高的詞語并不是“經(jīng)濟(jì)”,而是“建成”“小康社會(huì)”和“加強(qiáng)”等詞語,這說明我國社會(huì)經(jīng)濟(jì)發(fā)展現(xiàn)狀的變化使得改革開放不再僅僅圍繞著經(jīng)濟(jì)建設(shè)進(jìn)行,全面建成小康社會(huì)對譜寫國家富強(qiáng)、民族振興、人民幸福的時(shí)代新篇章具有現(xiàn)實(shí)而深遠(yuǎn)的意義。新時(shí)代下,“小康社會(huì)”不再只是一代人的夢想,而是要“建成”小康社會(huì),體現(xiàn)了黨在新時(shí)代的決心。二是規(guī)則中與“發(fā)展”有較高關(guān)聯(lián)度的詞語為“中華民族”“文明”“建設(shè)”和“小康社會(huì)”等,這說明決勝全面建成小康社會(huì)將是當(dāng)前和今后一個(gè)時(shí)期內(nèi)工作的重中之重。堅(jiān)持和發(fā)展中國特色社會(huì)主義現(xiàn)代化道路是實(shí)現(xiàn)中華民族偉大復(fù)興中國夢的根本途徑,也是全面建成富強(qiáng)、民主、文明、和諧、美麗的社會(huì)主義現(xiàn)代化強(qiáng)國的重要保證。三是規(guī)則中“中華民族”“發(fā)展”和“文明”的關(guān)聯(lián)度較高,潛在說明要注重文化上的改革發(fā)展,形成中華民族特有的中國現(xiàn)代文化體系,既要有中華民族傳統(tǒng)文化的精髓,又要結(jié)合新時(shí)代的要素,弘揚(yáng)優(yōu)秀傳統(tǒng)文化和主流價(jià)值觀。四是在規(guī)則中出現(xiàn)的詞語均與小康社會(huì)建設(shè)有一定聯(lián)系,這些詞語涉及經(jīng)濟(jì)、政治、文化、社會(huì)與生態(tài)文明等方面,揭示了從現(xiàn)在到2020年是決勝全面建成小康社會(huì)的關(guān)鍵時(shí)期。五是規(guī)則中“中華民族”“發(fā)展”和“文明”這幾個(gè)詞語出現(xiàn)次數(shù)較多,在規(guī)則3、4和10中均有出現(xiàn),為我們深入解讀黨的十九大報(bào)告尤其是正確看待文明建設(shè)提供了思路。黨的十九大報(bào)告指出,我國社會(huì)主要矛盾已經(jīng)轉(zhuǎn)化為人民日益增長的美好生活需要和不平衡不充分的發(fā)展之間的矛盾,這是中國特色社會(huì)主義進(jìn)入新時(shí)代的特征之一。文明建設(shè)與中華民族歷史文明高度相關(guān),應(yīng)結(jié)合歷史唯物主義和辯證唯物主義,處理好文明發(fā)展問題,以滿足時(shí)代和社會(huì)發(fā)展的需要。

      五、結(jié)論

      網(wǎng)絡(luò)的迅速發(fā)展使得經(jīng)濟(jì)社會(huì)中的文本數(shù)據(jù)呈爆發(fā)式增長,如何有效地對各種文本信息進(jìn)行分析已成為當(dāng)前研究中亟待解決的問題。本文使用關(guān)聯(lián)規(guī)則方法,利用Python、D3及Weka對黨的十九大報(bào)告文本進(jìn)行數(shù)據(jù)挖掘,根據(jù)研究需要設(shè)定不同的參數(shù),得出不同層次的結(jié)論。研究結(jié)果表明,在黨的十九大報(bào)告中與“時(shí)代”關(guān)聯(lián)度高的詞語并不是“經(jīng)濟(jì)”而是“建成”“小康社會(huì)”和“加強(qiáng)”等,規(guī)則中與“發(fā)展”有較高關(guān)聯(lián)度的詞語為“中華民族”“文明”“建設(shè)”和“小康社會(huì)”等,且“中華民族”“發(fā)展”和“文明”這幾個(gè)詞語出現(xiàn)的頻率較高,詞語的關(guān)聯(lián)度也較高。此外,黨的十九大報(bào)告中涉及經(jīng)濟(jì)、政治、文化、社會(huì)與生態(tài)文明等方面的詞語均與全面建成小康社會(huì)有聯(lián)系。

      在對經(jīng)濟(jì)社會(huì)文本信息的處理中,數(shù)據(jù)挖掘作為一門方法,不僅要使用相關(guān)專業(yè)知識(shí)進(jìn)行分析,還需要結(jié)合多個(gè)領(lǐng)域的背景知識(shí),從多角度出發(fā)考慮及解決問題。當(dāng)然本文還存在一些不足,在今后可以嘗試使用其他來源的文本數(shù)據(jù),如針對黨的十九大報(bào)告的網(wǎng)絡(luò)評論進(jìn)行評論分析。另外,本文中使用的關(guān)聯(lián)規(guī)則方法,其算法還需進(jìn)一步細(xì)化;在文本分析時(shí)還需提高關(guān)鍵詞相似度計(jì)算的精度和效率,在對挖掘結(jié)果進(jìn)行解讀時(shí)也可嘗試使用不同領(lǐng)域的背景知識(shí)。

      參考文獻(xiàn):

      [1]張軍玲.我國網(wǎng)絡(luò)輿情信息挖掘研究綜述[J].情報(bào)科學(xué),2016(11):167-172.

      [2]郭韌,李紅,陳福集.基于可拓聚類的網(wǎng)絡(luò)輿情演化預(yù)測研究[J].情報(bào)理論與實(shí)踐,2017(1):83-87.

      [3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計(jì)算機(jī)科學(xué),2016(6A):387-389.

      [4]張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評論情感分類研究[J].計(jì)算機(jī)科學(xué),2016(6A):418-421.

      [5]翟東海,魚江,高飛,于磊,丁鋒.最大距離法選取初始簇中心的K-means文本聚類算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2014(3):713-715.

      [6]李新福,趙蕾蕾,何海斌,李芳.使用Logistic回歸模型進(jìn)行中文文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2009(14):152-154.

      [7]王彥增,曹正.基于WEKA數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的分析及應(yīng)用舉例[J].經(jīng)濟(jì)論壇,2013(1):165-167.

      [8]汪祖柱,阮振秋.基于關(guān)聯(lián)規(guī)則的政務(wù)微博公眾評論觀點(diǎn)挖掘[J].情報(bào)科學(xué),2017(8):19-22.

      [9]阮光冊,夏磊.基于關(guān)聯(lián)規(guī)則的文本主題深度挖掘應(yīng)用研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(12):50-56.

      [10]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.

      猜你喜歡
      小康社會(huì)數(shù)據(jù)挖掘關(guān)聯(lián)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      《 2020全面建成小康社會(huì)》
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      凝聚三秦巾幗力量 決勝全面小康社會(huì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      為小康社會(huì)提供健康保障
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      大同夢想與小康社會(huì)
      桂平市| 旬邑县| 胶州市| 屯门区| 浪卡子县| 阿巴嘎旗| 蕉岭县| 郸城县| 利辛县| 镇赉县| 微博| 搜索| 宜宾县| 恩施市| 定西市| 南皮县| 化州市| 红安县| 平遥县| 安西县| 汝阳县| 巴林左旗| 华池县| 仁寿县| 江城| 通山县| 禄丰县| 康平县| 呼玛县| 老河口市| 玛曲县| 曲沃县| 聊城市| 博兴县| 诏安县| 巴塘县| 灵寿县| 临澧县| 涟水县| 柘荣县| 宁夏|