謝松燕 劉肖依
摘要:微博作為當(dāng)前社會(huì)中最重要的社會(huì)信息傳播平臺(tái),具有快速、高效、方便的特點(diǎn)。人們?cè)絹?lái)越依賴微博來(lái)進(jìn)行社交活動(dòng),微博平臺(tái)每天所產(chǎn)生的信息量越來(lái)越大,這其中蘊(yùn)含了大量有價(jià)值的信息,因此,針對(duì)微博平臺(tái)的數(shù)據(jù)挖掘引起了很多學(xué)者的關(guān)注和研究。為全面了解當(dāng)前國(guó)內(nèi)微博研究的發(fā)展現(xiàn)狀,分析了現(xiàn)有的對(duì)微博方面的研究并對(duì)其進(jìn)行總結(jié)。
關(guān)鍵詞:微博;社交網(wǎng)絡(luò);數(shù)據(jù)挖掘
一、研究背景及相關(guān)研究
微博作為典型的應(yīng)用,發(fā)展勢(shì)頭迅猛并得到日益增多的用戶的喜愛與應(yīng)用,成為當(dāng)下最流行的社交平臺(tái)之一。
國(guó)內(nèi)關(guān)于微博的研究始于2008年,研究者從不同的角度對(duì)微博進(jìn)行了分析。國(guó)內(nèi)針對(duì)微博用戶數(shù)據(jù)的信息挖掘研究主要包括信息智能推薦、情感分析、話題事件分析、網(wǎng)絡(luò)關(guān)系分析及影響力分析等,此外還有一些關(guān)于微博自身的特性、博文內(nèi)容價(jià)值、可信度等方面的研究;而國(guó)外對(duì)微博的研究主要在于技術(shù)和應(yīng)用方面。因此本文將對(duì)國(guó)內(nèi)外的微博研究進(jìn)行綜合分析,為之后的研究提供參考。
二、微博的數(shù)據(jù)來(lái)源
在微博分析過程中需要采集大量的微博數(shù)據(jù),目前獲取微博數(shù)據(jù)的方法有很多,但最主要的可以分為以下三種。
API(Application Programming Interface)。用戶通過程序調(diào)用官方的API,程序會(huì)返回API相應(yīng)的官方信息數(shù)據(jù),用戶可以通過查看自由選擇所需要的信息。通過API獲取數(shù)據(jù)集用戶可以很方便地得到想要的數(shù)據(jù),但它的缺點(diǎn)在于微博平臺(tái)對(duì)其API的訪問有設(shè)置權(quán)限,并且有訪問次數(shù)的限制,若要獲取大量的數(shù)據(jù)一般要通過API經(jīng)過多次的訪問才能得到。
網(wǎng)絡(luò)爬蟲。這是一種按照一定規(guī)則自動(dòng)抓取網(wǎng)頁(yè)信息的程序,我們可以通過這種程序從訪問的網(wǎng)頁(yè)中獲得HTML文本文件,然后根據(jù)特定規(guī)則通過表達(dá)式來(lái)分析其HTML文本并提取信息,獲取指定數(shù)據(jù)。最后爬蟲根據(jù)某一標(biāo)準(zhǔn)停止運(yùn)行。使用爬蟲軟件爬取數(shù)據(jù)的優(yōu)點(diǎn)是軟件可以自動(dòng)提取頁(yè)面上的信息,且信息數(shù)據(jù)較全,操作相對(duì)簡(jiǎn)單。但通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的缺點(diǎn)是需要用戶自己分析所需要數(shù)據(jù)的表達(dá)式,并進(jìn)行解析和數(shù)據(jù)提取,工作量較大。
下載公共數(shù)據(jù)集。現(xiàn)在有一部分學(xué)者或研究人員會(huì)將自己擁有的數(shù)據(jù)信息共享到網(wǎng)上,供其他研究者學(xué)習(xí)使用,并且隨著研究人員的不斷更新,這些數(shù)據(jù)集也在逐漸完善,對(duì)于很多研究網(wǎng)上的公告數(shù)據(jù)集都能夠滿足。但這些數(shù)據(jù)集也有其局限性:不同的研究所需要的數(shù)據(jù)集是不同的,并且有的數(shù)據(jù)具有時(shí)效性。
三、微博內(nèi)容研究
根據(jù)微博的特點(diǎn),研究人員對(duì)微博進(jìn)行了以下幾個(gè)方面的研究:
(一)微博話題事件分析
話題事件是指由某些原因或條件引起的,發(fā)生在特定時(shí)間和地點(diǎn),以及所有預(yù)測(cè)直接相關(guān)的事件或活動(dòng)。
(二)微博情感分析
情感分析又稱意見挖掘,是對(duì)帶有情感色彩的主管性文本進(jìn)行分析的過程,分析過程包括文本處理、歸納和推理。Barbosa等人利用博文的一系列特征和詞的原信息來(lái)檢測(cè)Twitter中的情感。Davidov等人利用Twitter中的50個(gè)Hashtag情感標(biāo)簽和15個(gè)“笑臉”標(biāo)簽,提出了監(jiān)督式的分類方法識(shí)別情感。
(三)微博關(guān)系分析與挖掘
微博用戶之間的交互是多樣性的,這使得微博的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多關(guān)系的特性,用戶可以根據(jù)關(guān)注關(guān)系來(lái)構(gòu)造朋友網(wǎng)絡(luò),根據(jù)轉(zhuǎn)發(fā)關(guān)系構(gòu)造傳播網(wǎng)絡(luò),根據(jù)回復(fù)關(guān)系構(gòu)造評(píng)論網(wǎng)絡(luò)。Romero等人根據(jù)Twitter中的關(guān)注行為,研究了Twitter中關(guān)注關(guān)系的形成機(jī)制;同時(shí),Romero等人研究了用戶關(guān)注關(guān)系的交互機(jī)制,驗(yàn)證了關(guān)系保持特點(diǎn):平衡性、交互性、中介性。Yin等人通過研究微博中用戶關(guān)注關(guān)系的形成機(jī)制,發(fā)現(xiàn)用戶中大約90%的新關(guān)系建立都有兩跳的關(guān)系形成。Welch等人通過研究Twitter中關(guān)注和轉(zhuǎn)發(fā)關(guān)系的語(yǔ)義信息,發(fā)現(xiàn)這兩種關(guān)系中轉(zhuǎn)發(fā)關(guān)系具有更強(qiáng)的話題關(guān)聯(lián)性。
(四)微博信息傳播
微博的轉(zhuǎn)發(fā)功能使信息在微博平臺(tái)能夠無(wú)限制地被傳播,這使得微博平臺(tái)的信息能夠以“核裂變”式速度傳播。研究微博中信息的傳播模式與擴(kuò)散機(jī)制,能夠有助于微博輿情的控制與引導(dǎo),能夠更好地推廣企業(yè)品牌和產(chǎn)品。Romero等人研究了不同的HashTag在Twitter中的傳播模式,發(fā)現(xiàn)相比而言,有爭(zhēng)議性的政治話題通常能夠持續(xù)更長(zhǎng)時(shí)間的傳播,而習(xí)語(yǔ)和新詞通常傳播的持續(xù)時(shí)間較短,并且不同的信息在傳播路徑上也存在差異。Dabeer等人分析了粉絲節(jié)點(diǎn)對(duì)微博信息傳播的影響,發(fā)現(xiàn)粉絲節(jié)點(diǎn)的活躍度不同對(duì)源信息節(jié)點(diǎn)的響應(yīng)性和傳播能力等都有不同影響,因此提出了基于馬爾科夫決策處理的框架來(lái)度量微博中信息的傳播效果。
(五)微博中用戶的影響力分析
微博中的用戶由于自身的特性,對(duì)網(wǎng)絡(luò)中其他用戶的影響力作用也不同。影響力的研究的數(shù)量在微博研究中占很大的比例,傳統(tǒng)的有關(guān)個(gè)體影響力的度量技術(shù)相關(guān)研究中主要包括點(diǎn)度中心度、接近中心度、中間中心度、HITS、PageRank及擴(kuò)展方法等。應(yīng)用最多且最成熟的是PageRank的算法,很多研究者針對(duì)微博中的關(guān)注關(guān)系構(gòu)造類似PageRank的算法,加入粉絲的影響力等參考因素來(lái)衡量用戶的影響力,如果粉絲數(shù)越多,并且這些粉絲對(duì)其他用戶的關(guān)注度越少,那么這些粉絲對(duì)該用戶的影響力貢獻(xiàn)就越大。
四、總結(jié)與展望
隨著網(wǎng)絡(luò)的不斷普及,微博平臺(tái)每天所產(chǎn)生的信息量越來(lái)越大,這其中蘊(yùn)含了大量有價(jià)值的信息。因此,針對(duì)微博平臺(tái)的數(shù)據(jù)挖掘研究越來(lái)越多。通過研究出微博的規(guī)律,我們可以利用微博預(yù)測(cè)時(shí)間的發(fā)展趨勢(shì),也可以將微博應(yīng)用到商業(yè)領(lǐng)域,通過微博影響力大的用戶進(jìn)行信息擴(kuò)散、輿論導(dǎo)向、商品推介和宣傳,這無(wú)疑將收到事半功倍的效果。但國(guó)內(nèi)微博分析領(lǐng)域研究起步較晚,對(duì)微博接口資源的限制問題以及分析精確度方面還有待進(jìn)一步提高。(作者單位:中央財(cái)經(jīng)大學(xué))
參考文獻(xiàn):
[1]Page L, Brin S and Motwani R. The PageRank citation ranking: Bringing order to the web [R]. Tech. Report of the Stanford University,USA, 1999.
[2]Weng J, Yao, Y, Leonardi, E and Lee, F. Event detection in Twitter [R]. Tech. Report of HP Laboratories, USA, 2011.
[3]尹紅軍.大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.
[4]熊小兵.微博網(wǎng)絡(luò)傳播行為中的關(guān)鍵問題研究[D].解放軍信息工程大學(xué),2014.
[5]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(4):691-704.
[6]陸研 毛健驗(yàn) 屠方楠.網(wǎng)絡(luò)信息老化規(guī)律研究新浪新聞與新浪微博實(shí)證研究[J].高等函授學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2011,24(12):52-55.
[7]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(04):691-704.