• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)評論數(shù)據(jù)處理技術(shù)應(yīng)用

      2017-01-09 19:03:05沈艷宋燕燕
      今傳媒 2016年12期
      關(guān)鍵詞:網(wǎng)絡(luò)分析提取

      沈艷 宋燕燕?

      摘 要:Web2.0帶來了信息傳播的根本性變革,信息不僅僅總量大,更體現(xiàn)了及時(shí)性、流動(dòng)性的特點(diǎn)。對于信息的掌握、分析和運(yùn)用,利用文本挖掘技術(shù)對網(wǎng)絡(luò)評論的信息提取,可以說是近年來的熱點(diǎn)領(lǐng)域。本文重點(diǎn)探討網(wǎng)絡(luò)評論中具有較強(qiáng)應(yīng)用性的四種分析:主題詞提取、社會(huì)網(wǎng)絡(luò)分析、輿情分析以及情感強(qiáng)度分析,這四種分析都是以計(jì)算機(jī)文本挖掘?yàn)榧夹g(shù)支持,是新聞學(xué)、傳播學(xué)、營銷學(xué)以及社會(huì)學(xué)研究中具有較強(qiáng)應(yīng)用性的領(lǐng)域。

      關(guān)鍵詞:網(wǎng)絡(luò)評論;文本挖掘;關(guān)鍵詞提取;網(wǎng)絡(luò)分析;情感傾向

      中圖分類號(hào):G20 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-8122(2016)12-0112-02

      一、文本挖掘的概況

      1.研究意義

      互聯(lián)網(wǎng)自產(chǎn)生那天起就有著強(qiáng)大的功能,隨著世界網(wǎng)民數(shù)量的激增,近十年來,移動(dòng)互聯(lián)網(wǎng)網(wǎng)民更是呈現(xiàn)指數(shù)級(jí)的增長[1]。在Web2.0的新環(huán)境下,基于互聯(lián)網(wǎng)的輿論平臺(tái)包括論壇、微博、微信、QQ、網(wǎng)絡(luò)購物商業(yè)平臺(tái)等所有開放平臺(tái)成為巨大的信息場,這些信息不僅巨大(數(shù)據(jù)存儲(chǔ)量已經(jīng)從TB級(jí)別升至PB級(jí)別),而且體現(xiàn)了及時(shí)性、互動(dòng)性、流動(dòng)性等屬性,傳統(tǒng)的數(shù)據(jù)收集(主要指結(jié)構(gòu)性數(shù)據(jù))和輿情分析方法處理能力非常有限,也影響了有效分析網(wǎng)絡(luò)評論的效果。有鑒于此,從紛繁龐雜的海量非結(jié)構(gòu)性數(shù)據(jù)中,挖掘提取有價(jià)值的信息變得非常重要。而基于Web2.0的文本挖掘在網(wǎng)絡(luò)營銷和輿情追蹤領(lǐng)域上,對于決策和未來趨勢的預(yù)測上能夠提供更加深層和豐富的信息。文本挖掘?qū)儆诖髷?shù)據(jù)分支領(lǐng)域,十三五期間,大數(shù)據(jù)應(yīng)用更是提到了“助力產(chǎn)業(yè)升級(jí)轉(zhuǎn)型和社會(huì)治理創(chuàng)新”的高度[2]。目前我們看到的文獻(xiàn)大多基于計(jì)算機(jī)軟件科學(xué)研究不同算法和原理,比如提出新算法或者優(yōu)化原有算法,在精確度上不斷改進(jìn)。在商業(yè)智能研判上,比如客戶產(chǎn)品需求、精準(zhǔn)營銷上,各個(gè)大的網(wǎng)絡(luò)銷售平臺(tái)均由團(tuán)隊(duì)做大數(shù)據(jù)分析,數(shù)據(jù)挖掘已經(jīng)比較成熟。而在社會(huì)科學(xué)領(lǐng)域中,比如傳播學(xué)、新聞學(xué)、社會(huì)學(xué)大多依賴傳統(tǒng)的抽樣調(diào)查,如何應(yīng)對新的社會(huì)發(fā)展形態(tài),優(yōu)化社會(huì)治理模式,借助文本挖掘技術(shù)對于拓展研究領(lǐng)域,深化研究方法均具有重要的意義。網(wǎng)絡(luò)評論在互聯(lián)網(wǎng)信息中直接體現(xiàn)用戶個(gè)人態(tài)度、情感,這些信息特征是怎么樣的又是怎樣關(guān)聯(lián)的,運(yùn)用文本挖掘方法可以回答這些問題。

      2.文本挖掘的特點(diǎn)和方法

      網(wǎng)絡(luò)評論屬于文本信息,文本挖掘也稱為文本數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),是從大量文本的集合或者語料庫中提取事先未知的,可以理解的有潛在實(shí)用價(jià)值的模式和知識(shí)[3]。在大數(shù)據(jù)應(yīng)用商業(yè)和社會(huì)治理層面,人們更看重的是精準(zhǔn)預(yù)測。網(wǎng)絡(luò)評論屬于非結(jié)構(gòu)性數(shù)據(jù),其中意見挖掘主要針對非事實(shí)性主觀文本,加之中文語法的特點(diǎn),這三個(gè)因素增加了文本挖掘的難度,中文文本挖掘技術(shù)至今在算法和精確度方面還在不斷探索。概括而言,文本挖掘的方法主要有以下四個(gè)方面:(1)分詞技術(shù)。中文分詞時(shí)中文信息處理的基礎(chǔ),比如中科院的ICTCLAS分詞系統(tǒng)可以提供詞性標(biāo)注、新詞識(shí)別、用戶詞典等,是開源分詞系統(tǒng);(2)信息提取和關(guān)聯(lián)分析。信息抽取的目的是抽取出指定的事件、事實(shí)等信息供用戶查詢使用。如新聞報(bào)道中的時(shí)間、地點(diǎn)、人物、關(guān)系、事件。關(guān)聯(lián)分析是發(fā)現(xiàn)兩個(gè)或者兩個(gè)以上的變量取值之間存在某種規(guī)則,比如時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián);(3)分類分析。找出并區(qū)分?jǐn)?shù)據(jù)分類的模型,以便能夠使用模型預(yù)測給定數(shù)據(jù)對象所屬的數(shù)據(jù)類。比如,財(cái)經(jīng)新聞、社會(huì)新聞等新聞歸檔的應(yīng)用,建立先模型(分類器),再將文檔通過分類器歸為某種類別;(4)聚類分析。將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)分析過程。它的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。比如圖書評論中抽取好、一般、比較差等。

      二、文本挖掘的技術(shù)實(shí)現(xiàn)

      文本挖掘技術(shù)屬于計(jì)算機(jī)、數(shù)學(xué)等學(xué)科,研究主要側(cè)重在研究技術(shù)層面,其中僅僅分詞方法和算法就有十幾種。目前的文本挖掘側(cè)重在不同領(lǐng)域中的應(yīng)用,比如在輿情領(lǐng)域,商業(yè)智能研判領(lǐng)域中。越來越多的語言或者軟件的開源系統(tǒng)和界面友好的數(shù)據(jù)挖掘軟件比如KNIME,以及在線網(wǎng)站玻森,只需要“拖、拉、拽”就可以實(shí)現(xiàn)部分的數(shù)據(jù)挖掘,所以越來越多的商業(yè)領(lǐng)域和社會(huì)領(lǐng)域可以使用文本挖掘。本文主要介紹在文本關(guān)鍵詞提取、網(wǎng)絡(luò)輿情分析、社會(huì)網(wǎng)絡(luò)應(yīng)用分析以及用戶情感傾向分析。這四種應(yīng)用通過文本挖掘可以實(shí)現(xiàn),具體如下:

      1.文本關(guān)鍵詞提取。新聞學(xué)中的標(biāo)題往往具有概況、總結(jié)的功能,需要新聞從業(yè)者或者讀者看完全篇再歸納整理出來新聞?wù)D敲丛诤A康奈恼轮?,在全面把握文章的中心思想的基礎(chǔ)上,迅速(每小時(shí)至少處理50萬篇文章)提取出若干個(gè)代表文章語義內(nèi)容的詞匯或短語,相關(guān)結(jié)果可用于精化閱讀、精準(zhǔn)排序。比如2015年李克強(qiáng)總理的政府工作報(bào)告,依據(jù)分詞技術(shù)計(jì)算詞頻,可以提取出市場化、改革等關(guān)鍵詞。這些關(guān)鍵詞往往能反映出政府工作報(bào)告的主干特征。比如數(shù)據(jù)挖掘工具KNIME軟件和Orange。另外,在線中文數(shù)據(jù)挖掘網(wǎng)站玻森中文語義開放平臺(tái)(http://bosonnlp.com/demo)可以進(jìn)行分詞處理,關(guān)鍵詞提取,形成新聞?wù)?。?是Boson根據(jù)寶馬車召回新聞形成的關(guān)鍵詞提取頁面[4]。

      2.輿情分析應(yīng)用。在海量的網(wǎng)絡(luò)信息環(huán)境下,人們面臨的問題不是信息匱乏,而是信息過載和信息噪音,所以人們關(guān)注的重心已從搜索采集的信息序化變?yōu)榉治鰹橹鞯男畔⑥D(zhuǎn)化。輿情信息獲取的速度和質(zhì)量依賴于輿情系統(tǒng)技術(shù)。網(wǎng)絡(luò)輿情系統(tǒng)的主要功能有信息數(shù)據(jù)自動(dòng)采集、文本自動(dòng)聚類和自動(dòng)分類、話題與跟蹤。目前輿情分析主要集中在信息采集、熱點(diǎn)問題發(fā)現(xiàn)和熱點(diǎn)評估[5]。信息采集主要用爬蟲Python以及Heritrix從web、博客、郵件、微博等采集數(shù)據(jù),存儲(chǔ)在PostgreSQL數(shù)據(jù)庫中,再進(jìn)行主題提取等。熱點(diǎn)問題發(fā)現(xiàn)技術(shù)主要使用文本聚類分析的辦法發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)。熱點(diǎn)事件抽取方面主要是首先對微博數(shù)據(jù)進(jìn)行預(yù)處理,去除數(shù)據(jù)中噪聲信息;文本聚類有很多算法,相對傳統(tǒng)的Single-pass和K-means規(guī)則簡單比較易用[6]。輿情處理本質(zhì)上是中文聚類和分類處理,關(guān)鍵是主要用到分詞系統(tǒng),Python語言調(diào)入的jieba詞包,再結(jié)合各個(gè)領(lǐng)域的詞庫可以實(shí)現(xiàn)。

      3.社會(huì)網(wǎng)絡(luò)分析。本文介紹應(yīng)用社會(huì)網(wǎng)絡(luò)分析(關(guān)聯(lián)分析)技術(shù)實(shí)現(xiàn)KOL(Key Opinion Leade)意見領(lǐng)袖查找,KOL被稱為意見持有者的識(shí)別,是影響力較大的用戶。意見領(lǐng)袖能在短時(shí)間內(nèi)對數(shù)量眾多的用戶產(chǎn)生直接或間接的影響。因此,挖掘意見領(lǐng)袖成為了解決社交網(wǎng)絡(luò)中許多實(shí)際問題的關(guān)鍵點(diǎn),社會(huì)治理當(dāng)中的輿論引導(dǎo),特別是傳播學(xué)領(lǐng)域中的社會(huì)網(wǎng)絡(luò)研究(如圖1所示),特別是近年來的商業(yè)上比較熱門的廣告投放和微商開展。比如用戶屬性分類方法進(jìn)行意見領(lǐng)袖挖掘,主要依據(jù)關(guān)注度、粉絲數(shù)、發(fā)帖數(shù)以及是否認(rèn)證對用戶重要性進(jìn)行評分,以關(guān)系為處理單位的社會(huì)網(wǎng)絡(luò)分析方法在意見領(lǐng)袖識(shí)別當(dāng)中應(yīng)用越來越多。網(wǎng)絡(luò)分析有了非常多的理論成果和軟件分析工具,方法有隨機(jī)網(wǎng)絡(luò)、規(guī)整網(wǎng)絡(luò)、小世界理論等,Ucinet是主要處理數(shù)據(jù)的關(guān)聯(lián)規(guī)律軟件,結(jié)合網(wǎng)絡(luò)的可視化技術(shù),用Netdraw軟件進(jìn)行展現(xiàn),這兩款軟件均可以人機(jī)互動(dòng),操作比較簡單。

      4.情感傾向性分析。主要指的是用戶評價(jià)分析,主要是態(tài)度、評價(jià)等級(jí)的測量。過程如下:抓取獲得語料,其工具主要是Python網(wǎng)絡(luò)爬蟲,這是非常龐大的海量數(shù)據(jù),將原始數(shù)據(jù)存儲(chǔ)在PostgreSQL數(shù)據(jù)庫中。不過,原始數(shù)據(jù)中有很多無用信息、重復(fù)評論等這些都是屬于無效信息,所以要進(jìn)行語料預(yù)處理,將PostgreSQL數(shù)據(jù)庫轉(zhuǎn)換成文本格式(txt)格式文件,再用停用詞表進(jìn)行過濾垃圾。預(yù)處理之后,開始進(jìn)行分詞處理,只有進(jìn)行分詞計(jì)算機(jī)才能找到關(guān)鍵詞和特征詞,分詞技術(shù)和分詞方法已經(jīng)比較成熟,業(yè)界使用比較多的中文分詞工具是ICTCLAS中文分詞系統(tǒng)[8],分詞工具常用的有jieba和Ansj。首先是將海量的數(shù)據(jù)通過分詞找到主題詞,比如購物平臺(tái)上的服裝評論,其中有款式、質(zhì)量、物流三個(gè)主題詞,按照三個(gè)主題詞使用Word2Vec進(jìn)行詞語聚類,把語義距離相近的詞歸為一類,比如在預(yù)處理后的可用語料庫中把時(shí)尚、休閑等歸為款式一類,把正品、不掉色等放在質(zhì)量一類,把塊、及時(shí)放在物流一類。之后分別進(jìn)行HowNet情感詞典構(gòu)建和程度級(jí)別詞典構(gòu)建以及否定詞典構(gòu)建,再進(jìn)行主題詞分類,計(jì)算得出句子情感傾向,用戶情感傾向,最后分別得出質(zhì)量、內(nèi)容、物流情感傾向(如圖1所示)。

      這里需要說明,四種文本挖掘可以交叉使用,比如輿情分析中評論的情感性分析,可以通過上述第四種操作實(shí)現(xiàn)。不管是哪種分析,都包含數(shù)據(jù)爬取、存儲(chǔ)、分詞。

      三、探討和總結(jié)

      隨著數(shù)據(jù)挖掘技術(shù)在各個(gè)領(lǐng)域的不斷擴(kuò)展和深入,實(shí)際生活中,文本挖掘還可以拓展更寬更深的應(yīng)用,不僅僅限于本文列舉的四種。大數(shù)據(jù)變成人們生活中的思維意識(shí)離不開數(shù)據(jù)挖掘技術(shù)更多的使用,而文本挖掘可以一定程度上實(shí)現(xiàn)更多人的技術(shù)可能,這需要更多的團(tuán)隊(duì)合作,更重要的是有更多的專業(yè)交叉,比如計(jì)算機(jī)應(yīng)用和社會(huì)學(xué)、傳播學(xué)專業(yè)、漢語言學(xué)的交叉。

      參考文獻(xiàn):

      [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第37次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》:截至2015年12月,中國網(wǎng)民規(guī)模達(dá)到6.88億,互聯(lián)網(wǎng)普及率達(dá)到50.3%,手機(jī)網(wǎng)民規(guī)模達(dá)6.20億,有90.1%的網(wǎng)民通過手機(jī)上網(wǎng).

      [2] 出自2016.3月《國民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》第二十七章:“國家大數(shù)據(jù)戰(zhàn)略”

      [3] 費(fèi)爾德曼.文本挖掘[M].北京:人民郵電大學(xué)出版社,2009.

      [4] http://www.chinadaily.com.cn/hqgj/jryw/2014-04-15/content_11593048.html.

      [5] 蔡淑琴,張靜,王旸.基于中心化的微博熱點(diǎn)研究方法[J].管理學(xué)報(bào),2012,9(6):874-879.

      [6] 唐濤.大數(shù)據(jù)環(huán)境下輿情分析[J].現(xiàn)代情報(bào),2014,34(3):3-6.

      [7] 張莉,蘇新寧,王東波.通用領(lǐng)域的中文意見的挖掘研究[J].情報(bào)理論與實(shí)踐,2012,35(4):103-108.

      [8] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,20112,48(1)1-4.

      [責(zé)任編輯:東方緒]

      猜你喜歡
      網(wǎng)絡(luò)分析提取
      基于ISM模型的EPC項(xiàng)目風(fēng)險(xiǎn)網(wǎng)絡(luò)分析
      鐵路有線調(diào)度通信的網(wǎng)絡(luò)分析
      現(xiàn)場勘查中物證的提取及應(yīng)用
      土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
      中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
      淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
      蝦蛄殼中甲殼素的提取工藝探究
      科技視界(2016年22期)2016-10-18 17:02:00
      2016年社交網(wǎng)絡(luò)分析
      環(huán)保新型緩蝕劑發(fā)展?fàn)顩r與展望
      科技視界(2015年25期)2015-09-01 15:33:38
      基于需求拉動(dòng)的戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新價(jià)值網(wǎng)絡(luò)分析
      和林格尔县| 台东县| 白朗县| 贺州市| 鄂伦春自治旗| 纳雍县| 横峰县| 睢宁县| 高雄市| 江都市| 如皋市| 陵川县| 安康市| 阿克陶县| 文昌市| 浪卡子县| 合作市| 六盘水市| 安义县| 新丰县| 通渭县| 浑源县| 茂名市| 紫阳县| 全椒县| 富民县| 和平区| 商河县| 徐州市| 米泉市| 海林市| 沾化县| 阜平县| 武宁县| 鄂尔多斯市| 津南区| 蒲城县| 卓资县| 东海县| 如东县| 天台县|