李嬌 曹暉 李倩
摘 要:共現(xiàn)分析就是利用共同出現(xiàn)的關(guān)鍵詞來(lái)反映兩者之間的親疏程度。文章研究的是按段分詞來(lái)提取關(guān)鍵詞的詞頻。兩個(gè)關(guān)鍵詞在同一段中出現(xiàn)的次數(shù)越多,它們之間的聯(lián)系越密切,與反映的主題內(nèi)容越密切。通過(guò)給出的關(guān)鍵詞挖掘出頻繁項(xiàng)集,然后發(fā)現(xiàn)它們之間存在的關(guān)聯(lián)規(guī)則。
關(guān)鍵詞:共現(xiàn)分析;詞頻;頻繁項(xiàng)集;關(guān)聯(lián)規(guī)則
1 研究現(xiàn)狀
1.1 國(guó)外研究現(xiàn)狀
共現(xiàn)分析在國(guó)外已經(jīng)相當(dāng)成熟了,最初是由法國(guó)文獻(xiàn)計(jì)量學(xué)家提出來(lái)的[1],發(fā)展至今差不多有50年了。起初主要應(yīng)用于文獻(xiàn)計(jì)量、圖書(shū)情報(bào)學(xué)等領(lǐng)域,隨著共現(xiàn)分析的發(fā)展成熟,20世紀(jì)90年代,共現(xiàn)分析應(yīng)用的范圍越來(lái)越細(xì)化,參與的學(xué)科越來(lái)越多,成果也越來(lái)越突出[1]。
1.2 國(guó)內(nèi)研究現(xiàn)狀
相較于外國(guó),國(guó)內(nèi)起步比較晚,共現(xiàn)分析發(fā)展的分界點(diǎn)在2007年,在此之前共詞的文獻(xiàn)量較少,2007年之后得到了蓬勃發(fā)展[1],尤其是在情報(bào)學(xué)領(lǐng)域,如《情報(bào)雜志》《情報(bào)科學(xué)》和《圖書(shū)情報(bào)工作》這些期刊。
2 研究對(duì)象、目的和意義
2.1 研究對(duì)象
本文選取的研究對(duì)象可以是任意一本小說(shuō),從網(wǎng)絡(luò)上下載電子版,將文本中所有的人名摘取下來(lái),做成自定義詞典,以備后來(lái)分詞時(shí)使用。選取的小說(shuō)人物越多越好,因?yàn)槿宋锉姸?,關(guān)系錯(cuò)綜復(fù)雜,對(duì)于喜歡的讀者來(lái)說(shuō),通讀全文耗時(shí)較長(zhǎng),所以用計(jì)算機(jī)的方式分析全文,找到人物間的關(guān)聯(lián)。通過(guò)共現(xiàn)分析研究文章中人物與人物之間的聯(lián)系,進(jìn)一步地挖掘出不同人物的社交圈。
2.2 研究目的和意義
使用共現(xiàn)的方法得出的人物關(guān)系圖可以幫助讀者理清著作中的復(fù)雜人物關(guān)聯(lián),更好地閱讀和理解作品;用共現(xiàn)分析方法研究人物關(guān)系,由可視化軟件呈現(xiàn)出的人物關(guān)系圖更加直觀,它拋開(kāi)人們的主觀判斷,以數(shù)據(jù)的大小為分析依據(jù)來(lái)說(shuō)明人物之間的親密程度。
3 使用的工具和方法及構(gòu)建過(guò)程
3.1 使用的工具和方法
在這里,筆者選用的編程語(yǔ)言是python語(yǔ)言,python語(yǔ)言簡(jiǎn)單,可移植性強(qiáng),沒(méi)有框架。使用的中文分詞工具是jieba分詞,jieba的分詞功能強(qiáng)大而且好用。用到的方法有共詞分析、聚類(lèi)分析和關(guān)聯(lián)規(guī)則。在進(jìn)行聚類(lèi)分析時(shí)可以使用SPSS繪制圖譜,在最后圖形可視化用到了可視化軟件Gephi。
3.2 人物關(guān)系圖的構(gòu)建過(guò)程
對(duì)于共現(xiàn)分析的分析流程,這些步驟并非固定的,可根據(jù)研究對(duì)象和目標(biāo)有選擇地省略或重復(fù)[2]?;诠铂F(xiàn)人物關(guān)系圖譜流程如圖1所示。
如果有兩個(gè)關(guān)鍵詞出現(xiàn)在整個(gè)文本的某一段落中,說(shuō)明這兩個(gè)關(guān)鍵詞之間有聯(lián)系,可能關(guān)系比較密切,也可能關(guān)系較其他關(guān)鍵詞疏遠(yuǎn)一點(diǎn),所以,可以按照?qǐng)D1的流程最終繪制出人物關(guān)系圖,最后,對(duì)數(shù)據(jù)的分析結(jié)果進(jìn)行合理的可視化表達(dá)。
3.2.1 確定高頻詞
將小說(shuō)中所有人物放在文本文檔中保存,從這些關(guān)鍵詞中確定高頻詞,主要是根據(jù)自己的經(jīng)驗(yàn)進(jìn)行選取,具有一定的主觀性[3]。
3.2.2 設(shè)計(jì)共詞矩陣
對(duì)關(guān)鍵詞的共詞頻率進(jìn)行統(tǒng)計(jì),設(shè)計(jì)共詞矩陣。對(duì)于所有的關(guān)鍵詞進(jìn)行兩兩組合并排序,最后所有的數(shù)據(jù)合并到一起,并去掉單個(gè)數(shù)據(jù)。在設(shè)計(jì)共詞矩陣的時(shí)候,可以選擇使用Excel構(gòu)建共詞矩陣。Excel作為統(tǒng)計(jì)學(xué)軟件,具有這個(gè)功能。將上一步得到的高頻詞對(duì)復(fù)制到Excel中,使用Excel中的數(shù)據(jù)透視表功能即可獲得共詞矩陣。Excel表有個(gè)優(yōu)點(diǎn),就是可以手動(dòng)添加,使得出的數(shù)據(jù)更精確[4]。
3.2.3 共詞聚類(lèi)分析法
對(duì)共詞矩陣進(jìn)行處理,揭示共詞信息。聚類(lèi)分析分為Q型觀測(cè)值聚類(lèi)和R型變量聚類(lèi)。R型變量聚類(lèi)主要是對(duì)相關(guān)系數(shù)進(jìn)行的聚類(lèi)。聚類(lèi)分析時(shí)可以選擇統(tǒng)計(jì)學(xué)軟件SPSS,將Excel中得到的共詞矩陣導(dǎo)入SPSS中。對(duì)變量進(jìn)行標(biāo)準(zhǔn)化以求得相似程度,利用Ochiai系數(shù)將共詞矩陣轉(zhuǎn)化為相關(guān)矩陣,利用Ochiai系數(shù)求出該矩陣的相關(guān)系數(shù),相關(guān)系數(shù)越大的變量相似性越高。根據(jù)置信度c將相關(guān)關(guān)鍵詞歸為一類(lèi)。c的值越大,相關(guān)關(guān)鍵詞越多。R型聚類(lèi)按層進(jìn)行聚類(lèi),將相關(guān)關(guān)鍵詞進(jìn)行聚類(lèi),最后再把整個(gè)分類(lèi)繪制成一張關(guān)系圖,用關(guān)系圖把所有的關(guān)鍵詞間的親疏關(guān)系表示出來(lái)[5]。
3.2.4 關(guān)鍵詞間的距離計(jì)算
另一種方法根據(jù)距離求得變量間的相似性,關(guān)鍵詞間的距離越小越具有相似性。在計(jì)算name1與name2之間的詞距的時(shí)候,可以選用歐氏距離計(jì)算公式,二維空間的計(jì)算公式如下:,|X|=。其中,ρ為點(diǎn)(x2,y2)與點(diǎn)(x1,y1)之間的歐氏距離;|X|為點(diǎn)(x2,y2)到原點(diǎn)的歐氏距離。即對(duì)人物關(guān)系圖中的節(jié)點(diǎn)中心度的研究,從人物關(guān)系圖中研究單個(gè)節(jié)點(diǎn)在人物圖中的位置,找到節(jié)點(diǎn)中心度,研究他們的共現(xiàn)強(qiáng)度以及跟整個(gè)文本的密切度。
4 圖譜繪制
使用可視化軟件Gephi繪制人物關(guān)系圖譜。將統(tǒng)計(jì)出來(lái)的關(guān)鍵詞詞頻導(dǎo)入可視化軟件Gephi中,進(jìn)行可視化繪圖,圖可以放大或者縮小。假設(shè)我們想要了解這部作品中圖的節(jié)點(diǎn)特征向量中心度,找到這部作品中最關(guān)鍵的話(huà)題人物,圍繞著誰(shuí)展開(kāi)的故事情節(jié)。其次,可以將圖中節(jié)點(diǎn)以節(jié)點(diǎn)大小來(lái)排序,以分清全體人物的主次,與主題內(nèi)容聯(lián)系的親疏遠(yuǎn)近程度。再者,對(duì)圖進(jìn)行歸類(lèi)分割,用過(guò)濾工具將值相同的節(jié)點(diǎn)或者邊用不同的顏色標(biāo)出來(lái),為了分辨出同樣詞頻的關(guān)鍵詞哪個(gè)是哪個(gè),不致混淆。改變斥力強(qiáng)度來(lái)改變邊的長(zhǎng)短,選中顯示標(biāo)簽即可。最后預(yù)覽,將圖進(jìn)行美化和修改,再將圖可視化的結(jié)果輸出[6]。
5 關(guān)聯(lián)分析法
關(guān)聯(lián)規(guī)則即關(guān)鍵詞A的出現(xiàn)對(duì)于關(guān)鍵詞B的出現(xiàn)的影響,從而發(fā)現(xiàn)兩者之間有趣的關(guān)系。支持度和置信度是評(píng)價(jià)關(guān)聯(lián)規(guī)則的標(biāo)準(zhǔn)[7]。
對(duì)于關(guān)聯(lián)規(guī)則挖掘使用的方法如圖2所示。
以一個(gè)包含A與B兩個(gè)關(guān)鍵詞的二項(xiàng)集為例,可以通過(guò)公式求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度門(mén)檻值時(shí),則{A,B}稱(chēng)為高頻項(xiàng)目組。最小支持度是自己給定的。本論文研究計(jì)算頻繁3項(xiàng)集(name1,name2,name3)的支持度,以此來(lái)找到大于等于最小支持度的高頻項(xiàng)目組。
置信度的公式求解,以頻繁二項(xiàng)集{A,B}為例,置信度confidence(A=>B)=p(B|A)。通過(guò)這個(gè)公式計(jì)算頻繁項(xiàng)集的置信度。本論文通過(guò)計(jì)算頻繁3項(xiàng)集的支持度和置信度,是否滿(mǎn)足最小支持度和最小置信度,來(lái)判定它們之間是否具有關(guān)聯(lián)規(guī)則[8]。
將所有的關(guān)鍵詞放入數(shù)據(jù)庫(kù)中,使用先驗(yàn)算法第一次掃描數(shù)據(jù),產(chǎn)生候選項(xiàng)集,每個(gè)關(guān)鍵詞都是候選項(xiàng)集,對(duì)每個(gè)出現(xiàn)的關(guān)鍵詞進(jìn)行計(jì)數(shù)。設(shè)定最小支持度閾值,確定頻繁一項(xiàng)集,假設(shè)頻繁1項(xiàng)集的集合為C1。再次掃描數(shù)據(jù)庫(kù),為了挖掘出頻繁2項(xiàng)集,將頻繁1項(xiàng)集的集合C1進(jìn)行連接,得到頻繁2項(xiàng)集的集合C2,計(jì)算頻繁2項(xiàng)集的支持度,并與最小支持度比較,將沒(méi)有候選的關(guān)鍵詞從集合C2中刪除,剩下的都是符合的。同樣的,第3次掃描數(shù)據(jù)庫(kù),將頻繁2項(xiàng)集的集合進(jìn)行連接,然后剪枝,得到頻繁3項(xiàng)集。
得到的頻繁3項(xiàng)集可以產(chǎn)生很多關(guān)聯(lián)規(guī)則,但只有滿(mǎn)足最小置信度閾值的才是強(qiáng)關(guān)聯(lián)規(guī)則,由它們直接產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則[9]。
6 結(jié)語(yǔ)
共現(xiàn)分析在中國(guó)起步較晚,應(yīng)用于文學(xué)作品構(gòu)建人物關(guān)系圖更是晚很多年。本論文研究的構(gòu)建小說(shuō)或者劇本的人物關(guān)系圖,將共現(xiàn)與數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則相結(jié)合,不僅構(gòu)建人物關(guān)系圖,也通過(guò)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘出了頻繁項(xiàng)集是否滿(mǎn)足關(guān)聯(lián)規(guī)則[10]。
共現(xiàn)分析在各個(gè)領(lǐng)域已經(jīng)有了很好的發(fā)展,希望自己能從這個(gè)領(lǐng)域中收獲一些知識(shí),也希望自己在學(xué)的時(shí)候能夠發(fā)現(xiàn)一些別人還沒(méi)發(fā)現(xiàn)的東西,為學(xué)術(shù)界作一些貢獻(xiàn)。
將關(guān)聯(lián)規(guī)則應(yīng)用于劇本人物中是一個(gè)不錯(cuò)的主意,發(fā)現(xiàn)人物間的頻繁項(xiàng)集,找到一些有趣的關(guān)聯(lián)規(guī)則。
[參考文獻(xiàn)]
[1]李穎,賈二鵬,馬力.國(guó)內(nèi)外共詞分析研究綜述[J].新世紀(jì)圖書(shū)館,2012(1):23-27.
[2]王紅.國(guó)內(nèi)外共詞分析法的研究現(xiàn)狀[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2015(1):51-54.
[3]傅柱,王曰芬.共詞分析中術(shù)語(yǔ)收集階段的若干問(wèn)題研究[J].情報(bào)學(xué)報(bào),2016(7):704-713.
[4]CHOI J,YI S,LEE K C.Analysis of keyword networks in MIS researchand implications for predicting knowledge evolution[J].Information & Management,2011(8):371-381.
[5]葉鷹,張力,趙星,等.用共關(guān)鍵詞網(wǎng)絡(luò)揭示領(lǐng)域知識(shí)結(jié)構(gòu)的實(shí)驗(yàn)研究[J].情報(bào)學(xué)報(bào),2012(12):1245-1251.
[6]肖偉,魏慶琦.學(xué)術(shù)論文共詞分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2009(3):102-105.
[7]魏瑞斌.國(guó)內(nèi)知識(shí)圖譜研究的可視化分析[J].圖書(shū)情報(bào)工作,2011(8):126-130.
[8]ZHU W, GUAN J.A bibliometric study of service innovation research: based on complex network analysis[M].Springer-Verlag New York,2013.
[9]BHATTACHARYA S,KRETSCHMER H,MEYER M.Characterizing intellectualspaces between science and technology[J].Scientometrics,2003(2):369-390.
[10]馬費(fèi)成,望俊成,陳金霞,等.我國(guó)數(shù)字信息資源研究的熱點(diǎn)領(lǐng)域:共詞分析透視[J].情報(bào)理論與實(shí)踐,2007(4):438-443.