周拴龍
(鄭州大學信息管理學院,河南 鄭州 450052)
基于UCINET的詞匯共現(xiàn)網絡可視化研究
周拴龍
(鄭州大學信息管理學院,河南 鄭州 450052)
詞匯按照一定規(guī)則相互聯(lián)系形成的網絡結構呈現(xiàn)出復雜網絡特征。本文首先給出了詞匯共現(xiàn)網絡的構造方法,分析詞匯網絡的復雜網絡特征,然后利用復雜網絡可視化工具UCINET對詞匯共現(xiàn)網絡進行可視化研究,從可視化網絡圖中獲取詞匯聚類的涌現(xiàn)。
UCINET;詞匯網絡;共現(xiàn);可視化;涌現(xiàn)
近年來,隨著復雜網絡研究的不斷深入,人們發(fā)現(xiàn)現(xiàn)實世界中存在著許多具有相同特征的網絡拓撲結構,如萬維網、社會關系網、科學研究合作網絡、流行病傳播網絡等,這些網絡具有與規(guī)則網絡不同的統(tǒng)計特性,其中最重要的就是小世界特性和無標度特性。研究表明作為自然語言中能夠獨立活動的最小語義單位的詞匯按照一定規(guī)則相互聯(lián)系形成的網絡結構按照規(guī)則的層次可分為:共現(xiàn)網絡、語法網絡和語義網絡,無論在哪個層次上都體現(xiàn)出了復雜網絡特征。
詞匯網絡可視化屬于復雜網絡可視化的范疇。由于復雜網絡規(guī)模很大并且結構復雜,不但難于組織和管理網絡中的信息,而且包含在其中非常豐富的信息資源也將難于被發(fā)現(xiàn),可視化技術提供了有效的方法來理解復雜網絡的結構并從中挖掘有效信息[1]。本文利用復雜網絡可視化工具UCINET對詞匯共現(xiàn)網絡進行可視化研究,目的在于從可視化網絡圖中獲取詞匯聚類、文本主題詞的涌現(xiàn)。
2.1 詞匯共現(xiàn)網絡定義。詞匯的共現(xiàn)網絡是最簡單的一種自然語言網絡。在網絡圖中,每一個詞匯作為一個節(jié)點,若兩個詞匯出現(xiàn)在同一個窗口(句子、段落、篇、領域等)中,則認為它們之間有一定相關關系,它們之間存在一條邊,邊具有權值表示兩個詞匯共現(xiàn)程度的大小。網絡圖中的邊可以是無向邊也可以是有向邊,分別表示是否忽略詞匯順序情況下的詞匯關系。根據圖論知識給出詞匯共現(xiàn)網絡的定義。
定義1 詞匯共現(xiàn)網絡
詞匯網絡WN=<Wd,Rl,Dt>,其中
Wd={w1,w2,…,wn}是一個非空集合,稱為詞匯集,其中元素Wi(i=1,2,…,n)稱為詞匯節(jié)點;
Rl={(wi,wj)|wi,wj∈Wd}是無序集Wd&Wd的子集,稱Rl為WN的詞匯節(jié)點之間共現(xiàn)邊的集合,集合中的元素(wi,wj)稱為共現(xiàn)邊。此時Rl為忽略了詞匯之間出現(xiàn)順序的共現(xiàn)邊集合,因此,(wi,wj)=(wj,wi)。
D={di|dij∈R∧i,j=1,2,…,n}是實數集合的子集,對于任意的共現(xiàn)邊(wi,wj)=都有D中一個元素且僅有一個元素dij與之對應,元素dij稱為共現(xiàn)邊(wi,wj)的權值。
從定義中可以看出詞匯網絡屬于標定的無向帶權圖。
從以上定義不難看出詞匯共現(xiàn)網絡構建方法主要有三個步驟:
2.1.1 確定W集合中的詞匯結點。
2.1.2 確定詞匯結點之間的共現(xiàn)邊。應用窗口機制選擇一定數量的詞匯建立詞匯網絡,該窗口可以是一篇文章、某個時間段內的所有領域文獻、某一個專題的文獻等,詞匯結點如果處于同一個窗口就將兩個同現(xiàn)的詞匯結點用共現(xiàn)邊連接起來,得到詞匯網絡。
2.1.3 確定邊的權值。最簡單的可以選擇詞匯共現(xiàn)頻率的倒數作為邊的權值,共現(xiàn)頻率越大,權值越小,則表明兩個詞之間的距離越近。權值d的計算公式為:
其中P(wi)表示詞匯集合中詞匯wi出現(xiàn)的概率,P(wj|wi)表示詞匯wi出現(xiàn)的條件下詞匯wj出現(xiàn)的概率,P(wi,wj)表示兩個詞匯同時出現(xiàn)的概率??紤]到詞匯出現(xiàn)某一個窗口是獨立的,所以公式(1)也可以用以下公式代替:
2.2 網絡特性分析。詞匯共現(xiàn)網絡除了具有小世界特性以及無標度特性以外,還具有其他一些復雜網絡的共同性質。
2.2.1 非線性。具有非線性性質的系統(tǒng)不服從疊加原理,即兩次獨立的輸入與兩個聯(lián)合的輸入產生的系統(tǒng)效果不同,用數學公式表示為:f(x1)+f(x2)≠f(x1+x2)。在詞匯網絡中任意兩個單獨出現(xiàn)的詞匯語義之和一定弱于這兩個詞匯同時出現(xiàn)的語義,例如在標引文獻時,利用兩個不同的關鍵詞所標引的文獻數量之和一定多于用兩個詞共同標引的文獻數量。
2.2.2 存在著社團結構。整個網絡由若干個社團構成,每個社團內部的節(jié)點之間的連接相對非常緊密,但是,各個社團之間的連接相對來說卻比較稀疏。詞匯網絡中的社團結構體現(xiàn)在詞聚類上,通常的詞聚類結果也可以利用復雜網絡的社團結構發(fā)現(xiàn)算法獲得。
2.2.3 涌現(xiàn)現(xiàn)象。由于非線性特征,復雜網絡中會出現(xiàn)涌現(xiàn)現(xiàn)象,即宏觀行為是在復雜系統(tǒng)中微觀組件的非線性相互作用下而自發(fā)涌現(xiàn)出來的表現(xiàn)。詞匯網絡中的單個詞匯只具有詞匯各自的語義,兩兩詞匯間的關系只能局限于共現(xiàn)(語法、語義)相關關系,但是,作為復雜網絡的詞匯網絡能夠涌現(xiàn)出具有檢索和標引功能的關鍵詞,甚至是具有層次結構的分類。
3.1 UCINET介紹。UCINET6是一款功能全面的復雜網絡分析工具,該軟件主要用以分析社會網絡,它包含了相當豐富的網絡分析工具,是社會網絡分析領域最著名同時也最為常用的一款網絡分析軟件包。它能讀取文本文檔(*.txt)和excel文檔(*.exl),能夠對表示關系的數據做中心性分析、子群分析、角色分析和基于置換的統(tǒng)計分析等這些社會網絡分析法所包含的主要分析。
3.2 詞匯共現(xiàn)網絡的可視化過程
3.2.1 采集詞匯和確定共現(xiàn)邊
采集詞匯最直觀的方法是利用分詞算法將窗口(句子、段落、篇、領域等)中具有語法、語義的字串分為獨立的詞匯,這些詞匯兩兩之間具有相同窗口的共現(xiàn)關系。
本文實驗選取的數據來自中國知網www.cnki.net圖書、情報與檔案領域的核心期刊文獻。實驗未涉及分詞,為簡單起見僅選取文獻關鍵詞,并確定窗口為“篇”。這樣確定了同一窗口中詞匯節(jié)點以及節(jié)點間的邊。表1給出7個窗口中的詞匯節(jié)點。
3.2.2 確定共現(xiàn)邊的權值。利用CAJViewer中的“搜索”功能查找關鍵詞在文獻中出現(xiàn)的次數并計算其在詞匯集合中出現(xiàn)的頻率。在UCINET6中輸入詞匯矩陣。
3.3 可視化結果的分析及應用
表 1 7個窗口中的詞匯節(jié)點
圖 1 共現(xiàn)詞匯網絡可視化結果
圖 2 詞匯共現(xiàn)網絡的聚類結果
詞匯網絡的可視化結果。以上數據在UCINET6中得到可視化的共現(xiàn)詞匯網絡圖,如圖1所示。圖中每個詞匯以節(jié)點表示,出現(xiàn)在同一個窗口的節(jié)點之間有邊相連,邊上標注的數字是兩點的共現(xiàn)頻率的倒數,作為兩點之間的距離。UCINET允許選擇不同的網絡顯示方式,圖1是圓形顯示方式。
UCINET針對各種不同的社會網絡提供中心性分析、子群分析、角色分析和基于置換的統(tǒng)計分析等分析工具[2]。例如,圖2給出了利用層次聚類法得到的詞匯網絡中的詞匯聚類結果,詞匯聚類結果有助于用戶得到相關性較高的詞匯簇,在檢索應用中,可利用相關詞匯依次查找,提高查全率。
本文提出了一種建立共現(xiàn)詞匯網絡的方法,分析了詞匯網絡所具有社會化網絡特征,然后利用復雜網絡可視化工具UCINET對詞匯共現(xiàn)網絡進行可視化研究,從可視化網絡圖中獲取詞匯聚類的涌現(xiàn)。由于本文主要工作是實驗性的考察該方法的可行性,因此文中所選數據量較小,下一步的工作主要集中在數據的收集和整理,選擇3 000個以“篇”為單位的窗口,以此得到更精確的詞匯聚類。
[1]克勞斯.邁因策爾.復雜性中的思維[M].北京:中央編譯出版社,2000.
[2]約翰.斯科特著,劉軍譯.社會網絡分析法[M].重慶:重慶大學出版社,2007.
G203
A
1671-0037(2014)10-74-2
周拴龍(1964-),男,碩士,副教授,研究方向:復雜網絡、數字圖書館。