• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      微博語言的復(fù)雜網(wǎng)絡(luò)特征研究

      2015-04-16 08:52:04馬宏煒諶志群黃孝喜王榮波
      計算機工程與應(yīng)用 2015年19期
      關(guān)鍵詞:標度博文分詞

      馬宏煒,陸 蓓,諶志群,黃孝喜,王榮波

      MA Hongwei,LU Bei,CHEN Zhiqun,HUANG Xiaoxi,WANG Rongbo

      杭州電子科技大學(xué) 計算機學(xué)院 認知與智能計算研究所,杭州310018

      Institute of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,China

      1 引言

      2006 年誕生的微博,相比于傳統(tǒng)媒體雖然還是一種新鮮事物,但由于其獨樹一幟的簡短性(每條微博不超過140 字)和普及性(人人都可發(fā)微博),近幾年得到了很大的發(fā)展。微博的出現(xiàn)極大地促進了信息的傳播和共享,并日益顯現(xiàn)出其巨大商業(yè)價值。

      早期的微博文本相關(guān)研究工作主要集中在語言表面特征分析上。Java 等[1]對微博的概念和作用進行了總結(jié),分析了微博及時、快速傳播的特點,統(tǒng)計了微博使用增長情況,并根據(jù)用戶之間的關(guān)系,發(fā)現(xiàn)了分享相同微博信息的用戶之間的共同點。Kwak 等[2]討論了微博的出現(xiàn)對世界的影響,并全面統(tǒng)計分析了Twitter出現(xiàn)三年來相關(guān)的數(shù)據(jù),包括日發(fā)布數(shù)、總發(fā)布數(shù)、總使用人數(shù)等。鄒艷菁[3]通過使用較大規(guī)模的新浪微博語料庫分析了微博的話語特征,以定量分析的形式指出了微博語言在話語表達傾向上的一些特點。鄔智慧[4]同樣通過分析新浪微博語料,統(tǒng)計分析了微博中的字、詞、句的使用情況,并將微博語言與手機短信語言、博客語言做了對比,總結(jié)出中文微博具有開放性、精煉性、隨意性、獨特性等特征。

      在研究微博文本語言特征的同時,研究者們開始嘗試對微博文本進行處理。對微博文本的傳統(tǒng)處理主要包括文本分類和聚類、信息抽取、話題檢測和情感分析等,主要采用特征提取、分類及聚類算法等文本挖掘方法。這些方法大部分是基于向量空間模型的,其不足之處在于采用傳統(tǒng)文本處理方法處理微博文本的時候,忽視了微博的獨特特征。由于一條微博的文本限定在140個字以內(nèi),很多微博文本只是一個句子甚至一個短語,這給傳統(tǒng)的文本數(shù)據(jù)挖掘帶來嚴重的數(shù)據(jù)稀疏問題。本文嘗試使用復(fù)雜網(wǎng)絡(luò)的方法來分析微博文本。

      自然界中存在的大量復(fù)雜系統(tǒng)都可以用網(wǎng)絡(luò)來描述,其中具有自組織、自相似、小世界、無標度等特性的網(wǎng)絡(luò)稱為復(fù)雜網(wǎng)絡(luò)。復(fù)雜網(wǎng)絡(luò)的小世界(small world)現(xiàn)象和無標度(scare free)特性是20 世紀末的兩個重大發(fā)現(xiàn),奠定了復(fù)雜網(wǎng)絡(luò)的理論基礎(chǔ)。1998 年Watts 和Strogatz[5]將小世界模型引入到了復(fù)雜網(wǎng)絡(luò)的研究當中,建立了WS 小世界模型。1999 年Barabási 和Albert[6]揭示了復(fù)雜網(wǎng)絡(luò)中的無標度性質(zhì),并建立了相應(yīng)的模型闡述了這些特性的產(chǎn)生機理。這兩篇文章的出現(xiàn),標志著網(wǎng)絡(luò)科學(xué)的興起。

      語言系統(tǒng)是一種復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)體,其在詞語、語法、語義各個層面上都顯示出極其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。復(fù)雜網(wǎng)絡(luò)理論的興起,提供了新的視角來研究人類語言的本質(zhì)。通過用計算復(fù)雜網(wǎng)絡(luò)參數(shù)的方法來分析語言網(wǎng)絡(luò)的特性,可以研究其整體特征,發(fā)現(xiàn)人類語言與認知之間的關(guān)系。語言網(wǎng)絡(luò)的研究課題涉及到了復(fù)雜系統(tǒng)、語言學(xué)、自然語言處理、統(tǒng)計學(xué)等多個學(xué)科,具有重要的科學(xué)意義。

      本文基于微博語料庫,構(gòu)建對應(yīng)的語言網(wǎng)絡(luò),并采用復(fù)雜網(wǎng)絡(luò)分析方法對該語言網(wǎng)絡(luò)進行分析,得到其整體特性,并且運用可視化分析方法,對其特征進行研究。

      2 基于復(fù)雜網(wǎng)絡(luò)的語言研究

      各國學(xué)者已在語言復(fù)雜網(wǎng)絡(luò)研究方面做了很多的研究。這些研究涉及到了多種人類語言,其構(gòu)造原則也多種多樣,包括字同現(xiàn)、詞同現(xiàn)、句法依存關(guān)系、語義關(guān)系等。英語語言網(wǎng)絡(luò)的研究已經(jīng)取得了很多成果。Cancho 和Solé[7]在1 000 萬個詞的英語國家語料庫基礎(chǔ)上建立了詞同現(xiàn)網(wǎng)絡(luò)和句法網(wǎng)絡(luò)。Motter 和Moura 等[8]基于3 000 多個英語單詞之間的概念相似性構(gòu)建了英語的 概 念 網(wǎng);Sigman 等[9]基 于Wordnet 上66 025 個 名 詞 之間的語義關(guān)系構(gòu)建了英語的語義網(wǎng)。研究表明這些網(wǎng)絡(luò)都表現(xiàn)出復(fù)雜網(wǎng)絡(luò)的基本特征:小世界特性和無標度特性。

      漢語語言網(wǎng)絡(luò)的研究也已經(jīng)取得了一些成果。韋落霞等[10]根據(jù)一個基本詞集構(gòu)建了漢語詞網(wǎng)絡(luò)及詞組網(wǎng)絡(luò);劉知遠等[11]在《人民日報》1 300 萬字的人工分詞語料庫和國語委5 000 萬字人工分詞語料庫基礎(chǔ)上構(gòu)建了漢語詞同現(xiàn)網(wǎng)絡(luò);劉海濤[12]基于“實話實說”和“新聞聯(lián)播”構(gòu)建了詞共現(xiàn)和句法依存網(wǎng)絡(luò)。對不同語體的字、詞同現(xiàn)網(wǎng)絡(luò)的研究表明,這些網(wǎng)絡(luò)同樣都具有復(fù)雜網(wǎng)絡(luò)的小世界和無標度特性。

      語言網(wǎng)絡(luò)只是研究語言的手段,并不是研究的目的。除了用復(fù)雜網(wǎng)絡(luò)的理論模型來分析語言網(wǎng)絡(luò)的各項參數(shù)之外,更重要的是挖掘其在語言研究中的應(yīng)用。微博作為語言載體之一,可以通過對微博文本構(gòu)建語言網(wǎng)絡(luò),來對其復(fù)雜網(wǎng)路參數(shù)進行分析。復(fù)雜網(wǎng)絡(luò)分析技術(shù)可以在大規(guī)模真實語料的基礎(chǔ)上,通過實證方法來研究微博語言網(wǎng)絡(luò)的特征,加深對微博這種新興語言形式的了解。復(fù)雜網(wǎng)絡(luò)方法有益于對以下問題的了解:微博語言網(wǎng)絡(luò)的特征;不同文體網(wǎng)絡(luò)結(jié)構(gòu)的特征;復(fù)雜網(wǎng)絡(luò)作為語言研究手段的可能性;語言網(wǎng)絡(luò)作為微博信息挖掘手段的可行性。

      3 微博語言網(wǎng)絡(luò)模型

      基于復(fù)雜網(wǎng)絡(luò)的微博語言特征研究主要分為以下幾個步驟:微博數(shù)據(jù)獲取和預(yù)處理;詞同現(xiàn)網(wǎng)絡(luò)構(gòu)建;復(fù)雜網(wǎng)絡(luò)整體參數(shù)分析;結(jié)果可視化等。下面對各個步驟進行說明:

      (1)微博數(shù)據(jù)獲取和預(yù)處理。根據(jù)任務(wù)需求,獲取相應(yīng)的微博數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理,去掉其中的冗余數(shù)據(jù)和結(jié)構(gòu),得到結(jié)構(gòu)相對簡單的文本待進一步利用。主要任務(wù):①去掉其中的用戶名、@用戶名、轉(zhuǎn)發(fā)關(guān)系和網(wǎng)絡(luò)鏈接地址,提取出需要的微博內(nèi)容部分;②剔除處理后長度過短的文本。

      (2)詞同現(xiàn)語言網(wǎng)絡(luò)的構(gòu)建。所謂詞同現(xiàn),是指在一個句子中間隔距離小于某個n值的兩個詞語,在該距離內(nèi)的詞可以稱為共詞關(guān)系。

      (3)語言網(wǎng)絡(luò)復(fù)雜網(wǎng)絡(luò)參數(shù)定量分析。將構(gòu)建出的詞同現(xiàn)網(wǎng)絡(luò)導(dǎo)入到復(fù)雜網(wǎng)絡(luò)分析軟件中計算得到復(fù)雜網(wǎng)絡(luò)參數(shù)。

      (4)結(jié)果可視化。將詞同現(xiàn)網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)分析結(jié)果以可視化的形式直觀地展示出來。

      (5)最后,利用網(wǎng)絡(luò)分析的結(jié)果和其他語體的類似網(wǎng)絡(luò)進行對比,得出微博文本網(wǎng)絡(luò)的特性。

      3.1 微博詞同現(xiàn)網(wǎng)絡(luò)的構(gòu)建

      對于語言網(wǎng)絡(luò)的構(gòu)建,首先要解決的問題是網(wǎng)絡(luò)中的節(jié)點和邊代表什么。對詞法網(wǎng)絡(luò)來說,語料庫中的每個詞,對應(yīng)著同現(xiàn)網(wǎng)絡(luò)中的一個節(jié)點。如果在一個句子中,兩個詞之間在小于n的鄰間距離條件下存在同現(xiàn)關(guān)系,則認為網(wǎng)絡(luò)中相應(yīng)節(jié)點之間存在一個鏈接。依次對語料庫中的所有句子進行上述處理,便構(gòu)建出詞同現(xiàn)網(wǎng)絡(luò)。劉知遠等構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)表明,鄰間距離的n取2 比較合適,一方面可以真實反映上下文之間的約束關(guān)系,另一方面可有效降低網(wǎng)絡(luò)的復(fù)雜程度[11]。

      對于微博作為語料庫的詞同現(xiàn)網(wǎng)絡(luò)的構(gòu)建,首先要解決的就是每條微博內(nèi)容的分詞問題。微博文本中充斥著語言的不規(guī)則使用現(xiàn)象,并且有大量的新詞出現(xiàn)。在選擇分詞工具的時候考慮到要有新詞發(fā)現(xiàn)的能力,并且支持自定義詞庫,對于少數(shù)不能通過分詞工具得到的詞語,可以將其添加到自定義詞庫中,通過人工干預(yù)得到準確度相對高的分詞結(jié)果。實驗中采用了Python 作為文本處理工具,對微博語料庫進行預(yù)處理和清理工作,為了便于處理,分詞工具選擇了Python 中的中文分詞組件結(jié)巴分詞。該分詞組件采用基于圖的動態(tài)規(guī)劃查找最大概率算法,從所有可能成詞情況所構(gòu)成的有向無環(huán)圖中找出基于詞頻的最大切分組合。對于未登錄詞,采用了HMM 模型和Viterbi 算法。實驗結(jié)果表明,該分詞組件對微博的分詞基本可以滿足需求。

      一個詞同現(xiàn)網(wǎng)絡(luò)可以抽象成為一個無向圖G,頂點V代表詞集,邊E代表兩個詞之間的同現(xiàn)關(guān)系。當構(gòu)建出網(wǎng)絡(luò)G(V,E)之后,可以對該網(wǎng)絡(luò)進行分析。在語言網(wǎng)絡(luò)中,網(wǎng)絡(luò)的平均最短路徑代表網(wǎng)絡(luò)中任意兩個詞之間有聯(lián)系的最短距離,聚類系數(shù)代表與該詞有聯(lián)系的詞之間的聚集傾向,度分布代表該詞與其他詞的結(jié)合能力。

      下面給出由一條真實微博文本生成漢語詞同現(xiàn)網(wǎng)絡(luò)的簡單示例。

      這條微博的原始內(nèi)容為:“我好象不太喜歡聽上海話…我喜歡聽粵語”。先將微博中的內(nèi)容根據(jù)標點符號分句,得到“我好像不太喜歡聽上海話”和“我喜歡聽粵語”兩個句子。然后分別對這兩個句子分詞得到的詞同現(xiàn)網(wǎng)絡(luò)如圖1 所示。

      圖1 由一條微博生成的詞同現(xiàn)網(wǎng)絡(luò)

      3.2 網(wǎng)絡(luò)參數(shù)

      在復(fù)雜網(wǎng)絡(luò)上,通??梢酝ㄟ^以下幾個參數(shù)來分析其網(wǎng)絡(luò)的復(fù)雜性。

      (1)小世界特性:平均最短路徑長度和聚類系數(shù)

      網(wǎng)絡(luò)中兩個節(jié)點i和j之間的最短路徑是dij指鏈接這兩個節(jié)點的邊數(shù)最少的路徑。無向網(wǎng)絡(luò)的平均最短路徑長度L是任意兩個節(jié)點之間距離的平均值,見公式(1):

      其中N是網(wǎng)絡(luò)中的節(jié)點數(shù)。設(shè)網(wǎng)絡(luò)節(jié)點的平均度為<k>,對“小世界網(wǎng)絡(luò)”,則有:

      聚類系數(shù)是用來衡量網(wǎng)絡(luò)聚類傾向的指標,反映了其相鄰節(jié)點構(gòu)成集合的聚集程度。設(shè)網(wǎng)絡(luò)節(jié)點i有k個節(jié)點與它相連,Ei是其k個鄰接點之間實際存在的邊數(shù),那么Ei與這k個節(jié)點之間最多可有的邊數(shù)k(k-1)之比就成為該節(jié)點i的聚類系數(shù)C:

      整個網(wǎng)絡(luò)的聚類系數(shù)C為所有節(jié)點聚類系數(shù)Ci的平均值:

      其中N為網(wǎng)絡(luò)的節(jié)點數(shù)。

      利用網(wǎng)絡(luò)的平均最短路徑長度和聚類系數(shù),可以來衡量網(wǎng)絡(luò)是否具有小世界特性。小世界指的是這樣一種網(wǎng)絡(luò):雖然網(wǎng)絡(luò)很龐大,但網(wǎng)絡(luò)中任意兩個節(jié)點間都存在一條較短的路徑相互連接,聚類系數(shù)要比隨機網(wǎng)絡(luò)大的多,即L≈Lr,C?Cr。Lr和Cr代表用同樣邊數(shù)和節(jié)點數(shù)構(gòu)建的隨機復(fù)雜網(wǎng)絡(luò)的平均最短路徑和聚類系數(shù)。

      (2)無標度特性:度分布

      度數(shù)即網(wǎng)絡(luò)中某個節(jié)點i擁有相鄰節(jié)點的數(shù)目,對于有向圖來說,度數(shù)又分為入度與出度。網(wǎng)絡(luò)中度為k的節(jié)點所占的比列稱為度分布,用度分布函數(shù)P(k)來描述。P(k)的期望<k>稱為網(wǎng)絡(luò)的平均度分布。度分布服從冪律分布的網(wǎng)絡(luò)叫作無標度網(wǎng)絡(luò)。

      4 實證分析

      4.1 實驗描述

      實驗利用了從爬盟中國上下載的2012 年5 月25 日起一周內(nèi)加V 用戶發(fā)表的4 萬條微博作為實驗語料。應(yīng)用本文提到的理論和方法,考查微博詞同現(xiàn)網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)性質(zhì)。每條微博包括消息原始ID、微博內(nèi)容、轉(zhuǎn)發(fā)數(shù)和評論數(shù)、用戶名稱、發(fā)布時間等字段。

      為了考察不同網(wǎng)絡(luò)規(guī)模下微博文本的網(wǎng)絡(luò)特性,設(shè)計了3 組實驗,分別構(gòu)建3 個不同規(guī)模的詞同現(xiàn)網(wǎng)絡(luò)。第一個網(wǎng)絡(luò)簡稱為CW1,是從5 萬條微博中隨機選取了2 000 條構(gòu)建的網(wǎng)絡(luò);第二個網(wǎng)絡(luò)簡稱為CW2,是從5 萬條中隨機選取了6 300 條構(gòu)建的網(wǎng)絡(luò);第三個網(wǎng)絡(luò)簡稱為CW3,是從5 萬條微博中隨機選取20 000 條來構(gòu)建網(wǎng)絡(luò)。構(gòu)建出詞同現(xiàn)網(wǎng)絡(luò)之后,再分別對網(wǎng)絡(luò)進行復(fù)雜網(wǎng)絡(luò)參數(shù)分析,計算其復(fù)雜網(wǎng)絡(luò)參數(shù)。

      4.2 微博詞同現(xiàn)網(wǎng)絡(luò)的特征

      3 個不同規(guī)模微博網(wǎng)絡(luò)的節(jié)點度分布情況見表1,表1 顯示了網(wǎng)絡(luò)中節(jié)點度分布的統(tǒng)計值。四分之一分位數(shù)、中位數(shù)、四分之三分位數(shù)指的是節(jié)點的度由小到大排列后第25%、50%、75%的數(shù)字;平均數(shù)指的是所有節(jié)點的平均度。通過表1 可以發(fā)現(xiàn):CW1、CW2 和CW3的度分布最小值、四分之一分位數(shù)、中位數(shù)都相同。不同之處在于度分布的平均值、四分之三分位數(shù)和最大值。CW1 度分布最大值為3 479,平均值為4.912,四分之三分位數(shù)為3。CW2 度分布的最大值為8 901,平均值為6.621,四分之三分位數(shù)為4。CW3 度分布的最大值為17 575,平均值為9.128,四分之三分位數(shù)為5。由此可見,微博中只出現(xiàn)過一次或兩次的詞匯占到了一半。這與微博的語體特征是符合的,一方面詞語使用不規(guī)范的現(xiàn)象在微博中普遍存在,會出現(xiàn)大量的新詞。另一方面微博內(nèi)容覆蓋面廣,內(nèi)容多來源于微博用戶的日常生活。所以一段時間內(nèi)的微博可能涉及到生活中的各個方面,其詞匯的重復(fù)率相比小說、新聞稿等規(guī)范文本要低的多。不僅如此,通過比較這3 個規(guī)模由小到大的網(wǎng)絡(luò)的度分布情況可以發(fā)現(xiàn),隨著網(wǎng)絡(luò)規(guī)模的增大,新加入的節(jié)點會與已經(jīng)存在的節(jié)點相連接,這就會導(dǎo)致度分布最大值增大,度分布平均值增大。這與實際生活中詞語的使用情況是相符的,不斷會產(chǎn)生詞語的新用法,出現(xiàn)新的詞語搭配使用情況。

      表2 給出的是3 個網(wǎng)絡(luò)中度數(shù)排名前10 的詞語。觀察表2 發(fā)現(xiàn),雖然3 個網(wǎng)絡(luò)的規(guī)模不同,但網(wǎng)絡(luò)度數(shù)前10 的節(jié)點基本是一致的。不同之處在于CW1 節(jié)點度數(shù)前10 的詞其度數(shù)并不像CW2 和CW3 一樣是嚴格遞減分布的??梢哉J為這是由于CW1 的規(guī)模小,低于能正常反應(yīng)詞語使用情況的閾值,因為部分常用詞語還未得到充分使用。在語言網(wǎng)絡(luò)中,節(jié)點的度是由詞節(jié)點本身所具有的配價能力決定的[13]。通過分析發(fā)現(xiàn),這10 個詞主要是虛詞和指示代詞,前者有著重要的粘著成句作用,而后者具有指示作用。陳芯瑩等[14]通過用“實話實說”和“新聞聯(lián)播”兩種不同語體的語料庫構(gòu)建的依存句法網(wǎng)絡(luò)研究了詞頻最高的虛詞“的”、“了”和“在”這3 個節(jié)點的網(wǎng)絡(luò)特性,得出虛詞是網(wǎng)絡(luò)中的中心節(jié)點的結(jié)論。一旦去除這些詞,會影響網(wǎng)絡(luò)整體結(jié)構(gòu)。同樣在微博文本構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)中,這3 個虛詞也是網(wǎng)絡(luò)的中心節(jié)點。不僅如此,經(jīng)過對比,可以發(fā)現(xiàn)“是”這個詞在微博中詞頻排名要比“實話實說”和“新聞聯(lián)播”要高的多,其度數(shù)比“在”這個字要高?!笆恰痹诰渥又兄饕鹂隙ê吐?lián)系的作用,并可以表示多種關(guān)系。由此可以推斷微博和“實話實說”與“新聞聯(lián)播”這兩種語體相比,微博的內(nèi)容更多的跟發(fā)布者自身相關(guān),多用來表達自己的認知,更加愿意分享自身的活動。這與發(fā)布微博的目的也是相符的??梢哉J為,“是”是對語體敏感的詞語。

      表3 中E代表復(fù)雜網(wǎng)絡(luò)的邊數(shù),在構(gòu)建網(wǎng)絡(luò)過程中,將多重邊合成為一條邊,多重邊的數(shù)量作為邊的屬性存儲;N代表復(fù)雜網(wǎng)絡(luò)的節(jié)點數(shù),<k>代表平均度分布,C代表聚類系數(shù),L代表平均最短路徑長度,Lrandom代表相同邊數(shù)和節(jié)點數(shù)的隨機網(wǎng)絡(luò)的平均最短路徑,Crandom代表相同邊數(shù)和節(jié)點數(shù)的隨機網(wǎng)絡(luò)的聚類系數(shù);T(s)代表計算這些參數(shù)所需時間,單位為s(計算環(huán)境為Intel雙核E4600,2 GB 內(nèi)存)。通過觀察發(fā)現(xiàn),平均最短路徑CW1 為3.78,CW2 為3.54,CW3 為3.34,聚類系數(shù)CW1 為9.79×10-3,CW2 為9.6×10-3,CW3 為1.195×10-2。雖然得到的網(wǎng)絡(luò)很龐大,但其平均最短路徑都很小,并且滿足L≈Lrandom和C?Crandom,由此可以得出結(jié)論:這3 個詞同現(xiàn)網(wǎng)絡(luò)符合復(fù)雜網(wǎng)絡(luò)的小世界特性。

      接下來計算網(wǎng)絡(luò)節(jié)點累積度分布,以度為x軸,累積度分布為y軸,得到其累積度分布曲線見圖2。累積度分布是度不少于k的節(jié)點的分布概率:

      可以看到3 組實驗結(jié)果都服從冪律分布,顯示了其無標度特性。

      表1 節(jié)點的度分布情況

      表2 CW1、CW2 和CW3 度數(shù)前10 的詞語

      表3 其他復(fù)雜網(wǎng)絡(luò)參數(shù)

      圖2 累積度分布

      在計算CW1、CW2 和CW3 的小世界和無標度特性參數(shù)的基礎(chǔ)上,還計算了CW3 全部兩萬條微博構(gòu)成的詞同現(xiàn)網(wǎng)絡(luò)中每個節(jié)點的介數(shù)betweennes、緊密度closeness、聚類系數(shù)clustering coefficient和PageRank值,并且分別以節(jié)點的度為x軸,這4 個參數(shù)為y軸作圖。得到4 副圖,可以直觀看到這4 個參數(shù)與度之間的相關(guān)性關(guān)系。分布圖見圖3。簡單來講,一個節(jié)點的介數(shù)等于網(wǎng)絡(luò)中的所有節(jié)點對之間經(jīng)過該節(jié)點的最短路徑條數(shù)。

      節(jié)點緊密度等于該節(jié)點到所有其余節(jié)點最短路徑長度之和的倒數(shù)。

      節(jié)點的PageRank值是Google PageRank 算法在語言網(wǎng)絡(luò)中的應(yīng)用,Mihalcea 和Tarau 提出了TextRank 算法,首次將PageRank 算法應(yīng)用到了自然語言處理當中,并且驗證了在關(guān)鍵字抽取和句子摘要中的有效性[15]。

      節(jié)點的度數(shù)反映的是網(wǎng)絡(luò)中有多少節(jié)點與該節(jié)點相連,節(jié)點的介數(shù)和PageRank值都可以作為節(jié)點在網(wǎng)絡(luò)中重要性的測量標準,節(jié)點的緊密度反映的是節(jié)點在網(wǎng)絡(luò)中的中心性,節(jié)點的聚類系數(shù)反映其相鄰節(jié)點的連接情況。通過分析圖3 可以得到,節(jié)點的介數(shù)、PageRank值和其度之間有著明顯的正相關(guān)關(guān)系,也就是說在該網(wǎng)絡(luò)中度大的節(jié)點,其介數(shù)和PageRank值也大,節(jié)點聚類系數(shù)和其度之間基本是負相關(guān)關(guān)系,對于度大的節(jié)點,其聚類系數(shù)小。緊密度和節(jié)點的度之間不存在明顯的正相關(guān)關(guān)系。

      圖3 CW3 的介數(shù)、緊密度、PageRank、聚類系數(shù)相關(guān)性分布

      表4 驗證網(wǎng)絡(luò)CW4 參數(shù)

      表5 詞同現(xiàn)網(wǎng)絡(luò)的基本數(shù)據(jù)

      由上面的分析可知微博詞同現(xiàn)網(wǎng)絡(luò)符合復(fù)雜網(wǎng)絡(luò)的小世界和無標度特性,那么在更大規(guī)模的微博語料的基礎(chǔ)上構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)是否還符合這些特性。為了驗證本文的結(jié)論,使用全部的5 萬條微博語料構(gòu)建了一個更大的詞同現(xiàn)網(wǎng)絡(luò)CW4,并且對其參數(shù)進行了計算,結(jié)果見表4。

      由表4可知,詞同現(xiàn)網(wǎng)絡(luò)CW4仍然滿足L≈Lrandom和C?Crandom,這說明其仍滿足復(fù)雜網(wǎng)絡(luò)的小世界特性。累計度分布見圖4,其結(jié)果服從冪律分布,滿足復(fù)雜網(wǎng)絡(luò)的無標度特性。

      圖4 驗證網(wǎng)絡(luò)CW4 累積度分布

      4.3 微博詞同現(xiàn)網(wǎng)絡(luò)和規(guī)范文本詞同現(xiàn)網(wǎng)絡(luò)參數(shù)對比

      劉知遠等[11]基于不同規(guī)模和類型的語料庫,建立了詞同現(xiàn)網(wǎng)絡(luò),其語料來源是北京大學(xué)《人民日報(1998年上半年)》1 300 萬字左右的人工分詞語料庫和國家語委5 000 萬字左右的人工分詞語料庫。前者是新聞?wù)Z料,后者則包含了各種題材的文本。其生成詞同現(xiàn)網(wǎng)絡(luò)的語料和本文采用的微博文本不同,更加規(guī)范并且經(jīng)過人工分詞。對微博詞同現(xiàn)網(wǎng)絡(luò)和這類規(guī)范文本詞同現(xiàn)網(wǎng)絡(luò)的參數(shù)做對比,見表5。

      表中CPD12 是《人民日報(1988 年上半年)》第1~2月份詞語料庫的詞同現(xiàn)網(wǎng)絡(luò)數(shù)據(jù),引自文獻[11]。比較表4 中CW1、CW2 和CW3 的參數(shù)可以發(fā)現(xiàn),隨著網(wǎng)絡(luò)規(guī)模的上升,網(wǎng)絡(luò)的平均度<k>和聚類系數(shù)C會隨著增大,新的詞會被加入到原有的語言當中,原來很少使用的詞越來越被人們熟知并使用。相反地,發(fā)現(xiàn)網(wǎng)絡(luò)的平均最短路徑L隨著網(wǎng)絡(luò)的增大有減小的趨勢,這說明網(wǎng)絡(luò)中詞與詞之間的跳轉(zhuǎn)更加的容易了,越來越多的詞被人們拿來一起使用。把本文構(gòu)建的微博詞同現(xiàn)網(wǎng)絡(luò)CW3 和《人民日報》規(guī)范文本且經(jīng)過人工分詞處理的語料庫構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)CPD12 對比,可以發(fā)現(xiàn)網(wǎng)絡(luò)的平均度<k>和聚類系數(shù)C要小得多,這也是符合預(yù)期的,在微博語言網(wǎng)絡(luò)的度分布情況就可以看出,一半以上的節(jié)點的度都是1 或者2,在微博中有更多的新詞或者語言的不規(guī)范使用情況。不僅如此,CW3 的平均最短路徑L也比CPD12 的要大,這說明微博中任意兩個詞之間有聯(lián)系的距離要比規(guī)范文本要遠,這與微博語言使用的不規(guī)范也是有關(guān)的。

      5 結(jié)束語

      基于新浪微博的大規(guī)模語料庫,構(gòu)建了3 個不同規(guī)模的詞同現(xiàn)網(wǎng)絡(luò),并通過實驗揭示了微博詞同現(xiàn)網(wǎng)絡(luò)上的小世界效應(yīng)和無標度特性。不僅如此,還通過構(gòu)建更大規(guī)模的詞同現(xiàn)網(wǎng)絡(luò)驗證了結(jié)論。雖然微博文本存在著開放性和隨意性的特征,但在詞同現(xiàn)網(wǎng)絡(luò)上表現(xiàn)出了類似的復(fù)雜網(wǎng)絡(luò)特性。然后對其復(fù)雜網(wǎng)絡(luò)參數(shù)做了相關(guān)性分析,驗證了節(jié)點的度是決定詞網(wǎng)絡(luò)參數(shù)的主要因素。最后與由規(guī)范文本構(gòu)建的詞同現(xiàn)網(wǎng)絡(luò)做了對比,發(fā)現(xiàn)其復(fù)雜網(wǎng)絡(luò)參數(shù)跟其詞匯的使用情況是相關(guān)的。本文從定量分析的角度驗證了微博的語體特點,驗證了復(fù)雜網(wǎng)絡(luò)作為語言研究的手段在微博這一新興語言載體形式上是有效的。但是,作為一種新的微博研究方法,本文也存在不足之處:一方面是語料來源問題,本文構(gòu)建的微博語言網(wǎng)絡(luò),其語料來自爬蟲抓取的一段時間內(nèi)的微博,在內(nèi)容方面涉及到的范圍太廣,進一步工作可以嘗試抓取某一話題的相關(guān)微博或是某條熱門微博的評論等;另一方面考慮到微博依存句法分析的難度,本文構(gòu)建的是詞同現(xiàn)網(wǎng)絡(luò),難免忽視了語言本身的詞語之間的依賴關(guān)系,微博依存句法網(wǎng)絡(luò)的構(gòu)建與分析是今后研究的重要課題。

      [1] Java A,Song X,F(xiàn)inin T,et al.Why we twitter:Understanding microblogging usage and communities[C]//Proceedings of the Joint 9th WebKDD and 1st SNA-KDD Workshop,2007:56-65.

      [2] Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media[C]//Proceedings of the 19th International Conference on World Wide Web,2010:591-600.

      [3] 鄒艷菁.基于語料庫的中文微博話語特征研究初探[J].中國報業(yè),2012,18:101-103.

      [4] 鄔智慧.中文微博的語體特征研究[D].武漢:華中師范大學(xué),2012.

      [5] Watts Duncan J,Strogatz Steven H.Collective dynamics of“small-world”networks[J].Nature,1998,393(6684):440-442.

      [6] László B A,Réka A.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.

      [7] Cancho R F,Solé R V.The small world of human language[J].Proceedings of the Royal Society of London:Series B Biological Sciences,2001,268:2261-2265.

      [8] Motter A E,de Moura A P S,Lai Y C,et al.Topology of the conceptual network of language[J].Physical Review E,2002,65(6):065102.

      [9] Sigman M,Cecchi G A.Global organization of the Wordnet lexicon[C]//Proc of the National Academy of Sciences,2002,99(3):1742-1747.

      [10] 韋洛霞,李勇,康世勇,等.漢語詞組網(wǎng)的組織結(jié)構(gòu)與無標度特性[J].科學(xué)通報,2005,50(15):1575-1579.

      [11] 劉知遠,孫茂松.漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標度特性[J].中文信息學(xué)報,2007,21(6):52-58.

      [12] Haitao Liu.The complexity of Chinese syntactic dependency networks[J].Physica A:Statistical Mechanics and its Applications,2008,387(12):3048-3058.

      [13] 劉海濤,馮志偉.自然語言處理的概率配價模式理論[J].語言科學(xué),2007,6(3):32-41.

      [14] 陳芯瑩,劉海濤.漢語句法網(wǎng)絡(luò)的中心節(jié)點研究[J].科學(xué)通報,2011,56(10):735-740.

      [15] Mihalcea R,Tarau P.TextRank:Bringing order into texts[C]//Proceedings of EMNLP 2004,2004:404-411.

      猜你喜歡
      標度博文分詞
      層次分析法中兩種標度的對比分析
      第一次掙錢
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      誰和誰好
      值得重視的分詞的特殊用法
      加權(quán)無標度網(wǎng)絡(luò)上SIRS 類傳播模型研究
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      打電話2
      創(chuàng)新孵化網(wǎng)絡(luò)演化無標度特征仿真分析
      高考分詞作狀語考點歸納與疑難解析
      密山市| 昭苏县| 沙田区| 万山特区| 定南县| 麻阳| 来凤县| 台中市| 仙居县| 灌阳县| 曲阳县| 正镶白旗| 临猗县| 德化县| 米泉市| 惠安县| 武冈市| 凤凰县| 奉节县| 英吉沙县| 吉林省| 喀什市| 开化县| 托克托县| 岳阳市| 秦皇岛市| 神池县| 凤山市| 乌兰浩特市| 吕梁市| 义马市| 石泉县| 东乌| 安仁县| 车险| 合阳县| 广饶县| 怀宁县| 明溪县| 延津县| 武定县|