• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于微博平臺(tái)的輿情分析研究綜述

      2016-05-30 09:48:08謝松燕劉肖依
      2016年14期
      關(guān)鍵詞:社交網(wǎng)絡(luò)微博數(shù)據(jù)挖掘

      謝松燕 劉肖依

      摘要:微博作為當(dāng)前社會(huì)中最重要的社會(huì)信息傳播平臺(tái),具有快速、高效、方便的特點(diǎn)。人們?cè)絹?lái)越依賴微博來(lái)進(jìn)行社交活動(dòng),微博平臺(tái)每天所產(chǎn)生的信息量越來(lái)越大,這其中蘊(yùn)含了大量有價(jià)值的信息,因此,針對(duì)微博平臺(tái)的數(shù)據(jù)挖掘引起了很多學(xué)者的關(guān)注和研究。為全面了解當(dāng)前國(guó)內(nèi)微博研究的發(fā)展現(xiàn)狀,分析了現(xiàn)有的對(duì)微博方面的研究并對(duì)其進(jìn)行總結(jié)。

      關(guān)鍵詞:微博;社交網(wǎng)絡(luò);數(shù)據(jù)挖掘

      一、研究背景及相關(guān)研究

      微博作為典型的應(yīng)用,發(fā)展勢(shì)頭迅猛并得到日益增多的用戶的喜愛與應(yīng)用,成為當(dāng)下最流行的社交平臺(tái)之一。

      國(guó)內(nèi)關(guān)于微博的研究始于2008年,研究者從不同的角度對(duì)微博進(jìn)行了分析。國(guó)內(nèi)針對(duì)微博用戶數(shù)據(jù)的信息挖掘研究主要包括信息智能推薦、情感分析、話題事件分析、網(wǎng)絡(luò)關(guān)系分析及影響力分析等,此外還有一些關(guān)于微博自身的特性、博文內(nèi)容價(jià)值、可信度等方面的研究;而國(guó)外對(duì)微博的研究主要在于技術(shù)和應(yīng)用方面。因此本文將對(duì)國(guó)內(nèi)外的微博研究進(jìn)行綜合分析,為之后的研究提供參考。

      二、微博的數(shù)據(jù)來(lái)源

      在微博分析過程中需要采集大量的微博數(shù)據(jù),目前獲取微博數(shù)據(jù)的方法有很多,但最主要的可以分為以下三種。

      API(Application Programming Interface)。用戶通過程序調(diào)用官方的API,程序會(huì)返回API相應(yīng)的官方信息數(shù)據(jù),用戶可以通過查看自由選擇所需要的信息。通過API獲取數(shù)據(jù)集用戶可以很方便地得到想要的數(shù)據(jù),但它的缺點(diǎn)在于微博平臺(tái)對(duì)其API的訪問有設(shè)置權(quán)限,并且有訪問次數(shù)的限制,若要獲取大量的數(shù)據(jù)一般要通過API經(jīng)過多次的訪問才能得到。

      網(wǎng)絡(luò)爬蟲。這是一種按照一定規(guī)則自動(dòng)抓取網(wǎng)頁(yè)信息的程序,我們可以通過這種程序從訪問的網(wǎng)頁(yè)中獲得HTML文本文件,然后根據(jù)特定規(guī)則通過表達(dá)式來(lái)分析其HTML文本并提取信息,獲取指定數(shù)據(jù)。最后爬蟲根據(jù)某一標(biāo)準(zhǔn)停止運(yùn)行。使用爬蟲軟件爬取數(shù)據(jù)的優(yōu)點(diǎn)是軟件可以自動(dòng)提取頁(yè)面上的信息,且信息數(shù)據(jù)較全,操作相對(duì)簡(jiǎn)單。但通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的缺點(diǎn)是需要用戶自己分析所需要數(shù)據(jù)的表達(dá)式,并進(jìn)行解析和數(shù)據(jù)提取,工作量較大。

      下載公共數(shù)據(jù)集。現(xiàn)在有一部分學(xué)者或研究人員會(huì)將自己擁有的數(shù)據(jù)信息共享到網(wǎng)上,供其他研究者學(xué)習(xí)使用,并且隨著研究人員的不斷更新,這些數(shù)據(jù)集也在逐漸完善,對(duì)于很多研究網(wǎng)上的公告數(shù)據(jù)集都能夠滿足。但這些數(shù)據(jù)集也有其局限性:不同的研究所需要的數(shù)據(jù)集是不同的,并且有的數(shù)據(jù)具有時(shí)效性。

      三、微博內(nèi)容研究

      根據(jù)微博的特點(diǎn),研究人員對(duì)微博進(jìn)行了以下幾個(gè)方面的研究:

      (一)微博話題事件分析

      話題事件是指由某些原因或條件引起的,發(fā)生在特定時(shí)間和地點(diǎn),以及所有預(yù)測(cè)直接相關(guān)的事件或活動(dòng)。

      (二)微博情感分析

      情感分析又稱意見挖掘,是對(duì)帶有情感色彩的主管性文本進(jìn)行分析的過程,分析過程包括文本處理、歸納和推理。Barbosa等人利用博文的一系列特征和詞的原信息來(lái)檢測(cè)Twitter中的情感。Davidov等人利用Twitter中的50個(gè)Hashtag情感標(biāo)簽和15個(gè)“笑臉”標(biāo)簽,提出了監(jiān)督式的分類方法識(shí)別情感。

      (三)微博關(guān)系分析與挖掘

      微博用戶之間的交互是多樣性的,這使得微博的網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)多關(guān)系的特性,用戶可以根據(jù)關(guān)注關(guān)系來(lái)構(gòu)造朋友網(wǎng)絡(luò),根據(jù)轉(zhuǎn)發(fā)關(guān)系構(gòu)造傳播網(wǎng)絡(luò),根據(jù)回復(fù)關(guān)系構(gòu)造評(píng)論網(wǎng)絡(luò)。Romero等人根據(jù)Twitter中的關(guān)注行為,研究了Twitter中關(guān)注關(guān)系的形成機(jī)制;同時(shí),Romero等人研究了用戶關(guān)注關(guān)系的交互機(jī)制,驗(yàn)證了關(guān)系保持特點(diǎn):平衡性、交互性、中介性。Yin等人通過研究微博中用戶關(guān)注關(guān)系的形成機(jī)制,發(fā)現(xiàn)用戶中大約90%的新關(guān)系建立都有兩跳的關(guān)系形成。Welch等人通過研究Twitter中關(guān)注和轉(zhuǎn)發(fā)關(guān)系的語(yǔ)義信息,發(fā)現(xiàn)這兩種關(guān)系中轉(zhuǎn)發(fā)關(guān)系具有更強(qiáng)的話題關(guān)聯(lián)性。

      (四)微博信息傳播

      微博的轉(zhuǎn)發(fā)功能使信息在微博平臺(tái)能夠無(wú)限制地被傳播,這使得微博平臺(tái)的信息能夠以“核裂變”式速度傳播。研究微博中信息的傳播模式與擴(kuò)散機(jī)制,能夠有助于微博輿情的控制與引導(dǎo),能夠更好地推廣企業(yè)品牌和產(chǎn)品。Romero等人研究了不同的HashTag在Twitter中的傳播模式,發(fā)現(xiàn)相比而言,有爭(zhēng)議性的政治話題通常能夠持續(xù)更長(zhǎng)時(shí)間的傳播,而習(xí)語(yǔ)和新詞通常傳播的持續(xù)時(shí)間較短,并且不同的信息在傳播路徑上也存在差異。Dabeer等人分析了粉絲節(jié)點(diǎn)對(duì)微博信息傳播的影響,發(fā)現(xiàn)粉絲節(jié)點(diǎn)的活躍度不同對(duì)源信息節(jié)點(diǎn)的響應(yīng)性和傳播能力等都有不同影響,因此提出了基于馬爾科夫決策處理的框架來(lái)度量微博中信息的傳播效果。

      (五)微博中用戶的影響力分析

      微博中的用戶由于自身的特性,對(duì)網(wǎng)絡(luò)中其他用戶的影響力作用也不同。影響力的研究的數(shù)量在微博研究中占很大的比例,傳統(tǒng)的有關(guān)個(gè)體影響力的度量技術(shù)相關(guān)研究中主要包括點(diǎn)度中心度、接近中心度、中間中心度、HITS、PageRank及擴(kuò)展方法等。應(yīng)用最多且最成熟的是PageRank的算法,很多研究者針對(duì)微博中的關(guān)注關(guān)系構(gòu)造類似PageRank的算法,加入粉絲的影響力等參考因素來(lái)衡量用戶的影響力,如果粉絲數(shù)越多,并且這些粉絲對(duì)其他用戶的關(guān)注度越少,那么這些粉絲對(duì)該用戶的影響力貢獻(xiàn)就越大。

      四、總結(jié)與展望

      隨著網(wǎng)絡(luò)的不斷普及,微博平臺(tái)每天所產(chǎn)生的信息量越來(lái)越大,這其中蘊(yùn)含了大量有價(jià)值的信息。因此,針對(duì)微博平臺(tái)的數(shù)據(jù)挖掘研究越來(lái)越多。通過研究出微博的規(guī)律,我們可以利用微博預(yù)測(cè)時(shí)間的發(fā)展趨勢(shì),也可以將微博應(yīng)用到商業(yè)領(lǐng)域,通過微博影響力大的用戶進(jìn)行信息擴(kuò)散、輿論導(dǎo)向、商品推介和宣傳,這無(wú)疑將收到事半功倍的效果。但國(guó)內(nèi)微博分析領(lǐng)域研究起步較晚,對(duì)微博接口資源的限制問題以及分析精確度方面還有待進(jìn)一步提高。(作者單位:中央財(cái)經(jīng)大學(xué))

      參考文獻(xiàn):

      [1]Page L, Brin S and Motwani R. The PageRank citation ranking: Bringing order to the web [R]. Tech. Report of the Stanford University,USA, 1999.

      [2]Weng J, Yao, Y, Leonardi, E and Lee, F. Event detection in Twitter [R]. Tech. Report of HP Laboratories, USA, 2011.

      [3]尹紅軍.大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.

      [4]熊小兵.微博網(wǎng)絡(luò)傳播行為中的關(guān)鍵問題研究[D].解放軍信息工程大學(xué),2014.

      [5]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(4):691-704.

      [6]陸研 毛健驗(yàn) 屠方楠.網(wǎng)絡(luò)信息老化規(guī)律研究新浪新聞與新浪微博實(shí)證研究[J].高等函授學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2011,24(12):52-55.

      [7]丁兆云 賈焰 周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(04):691-704.

      猜你喜歡
      社交網(wǎng)絡(luò)微博數(shù)據(jù)挖掘
      青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      事實(shí)與流言的博弈
      人間(2016年26期)2016-11-03 18:19:04
      基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
      戲劇之家(2016年19期)2016-10-31 19:44:28
      社交網(wǎng)絡(luò)自拍文化的心理解讀
      新聞前哨(2016年10期)2016-10-31 17:46:44
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      神回復(fù)
      意林(2013年15期)2013-05-14 16:49:23
      他們用微博玩營(yíng)銷
      宁蒗| 赫章县| 嘉善县| 贵港市| 宁晋县| 高陵县| 宜兰市| 泗水县| 莎车县| 湖州市| 大兴区| 始兴县| 宁强县| 伊金霍洛旗| 天柱县| 肃北| 台山市| 正镶白旗| 韶关市| 青冈县| 当涂县| 樟树市| 荆州市| 灌阳县| 定边县| 临沧市| 两当县| 黑水县| 桂东县| 宜都市| 高安市| 凤翔县| 吉隆县| 拉萨市| 化州市| 周至县| 巴林左旗| 涞水县| 吴忠市| 泸溪县| 汤原县|