• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Web挖掘技術(shù)的網(wǎng)絡(luò)輿情研究

      2011-05-14 20:07:28李雪妍
      卷宗 2011年10期
      關(guān)鍵詞:網(wǎng)絡(luò)輿情

      李雪妍

      摘要:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)輿情的預(yù)警和分析對(duì)掌控網(wǎng)絡(luò)、促進(jìn)社會(huì)和諧發(fā)展起著至關(guān)重要的作用。面對(duì)網(wǎng)絡(luò)中的海量數(shù)據(jù),引入Web 挖掘技術(shù)可以快速有效的從互聯(lián)網(wǎng)上獲得并分析輿情信息。本文闡述了Web挖掘技術(shù)及基于Web挖掘的網(wǎng)絡(luò)輿情分析方法,最終將該方法運(yùn)用于一個(gè)校園輿情分析治理的系統(tǒng)構(gòu)架中。

      關(guān)鍵詞:Web挖掘;網(wǎng)絡(luò)輿情;輿情分析

      1. 引言

      網(wǎng)絡(luò)輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,廣泛的網(wǎng)絡(luò)平臺(tái)為公眾內(nèi)隱的情緒和態(tài)度的表達(dá)提供了開放、快速、交互的渠道,為社會(huì)各階層成員自由發(fā)表言論、參與公共事務(wù)討論提供了便利,對(duì)社會(huì)一些突發(fā)事件的處理起到了積極有效的作用。然而,這些變化也為一些有害信息、雜音和噪音的傳播提供了渠道。因而對(duì)輿情的管控就是要使輿情不轉(zhuǎn)化為輿論或轉(zhuǎn)化為良性輿論,為此需要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情信息的分析和預(yù)警處理,從而及時(shí)發(fā)現(xiàn)輿情的熱點(diǎn)以及正確引導(dǎo)民意的走勢(shì),這已成為成為社會(huì)管理者面臨的重大課題。

      近年來,國(guó)內(nèi)外許多專家學(xué)者和研究機(jī)構(gòu)從事于網(wǎng)絡(luò)輿情分析技術(shù)的研究和探討,并取得了一定進(jìn)展。這些研究雖然在一定程度上增強(qiáng)了相關(guān)職能部門對(duì)輿情信息的監(jiān)控和引導(dǎo)能力,但仍存在一些不足。由于網(wǎng)絡(luò)的信息量十分巨大,僅僅依靠人工的方法難以應(yīng)付海量信息的收集和處理,而自動(dòng)化、智能化的輿情收集和分析處理技術(shù)的研究甚少,針對(duì)這一難題,Web挖掘作為一種新興的數(shù)據(jù)挖掘技術(shù),可以有效地從互聯(lián)網(wǎng)上獲取并分析相關(guān)輿情,達(dá)到監(jiān)控和治理的目的,為處置網(wǎng)絡(luò)輿情提供很大幫助。

      2. Web挖掘技術(shù)

      Web挖掘能夠快速、準(zhǔn)確地獲得有價(jià)值的網(wǎng)絡(luò)信息、利用歷史數(shù)據(jù)預(yù)測(cè)未來的行為以及從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。它克服了普通數(shù)據(jù)庫(kù)管理系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則、無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)、缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識(shí)的手段等弱點(diǎn)。它的出現(xiàn)為自動(dòng)和智能地把互聯(lián)網(wǎng)上的海量數(shù)據(jù)轉(zhuǎn)化為有用信息和知識(shí)提供了條件,在實(shí)際工作中具有重要的意義

      2.1 Web挖掘的方法和過程

      1. 數(shù)據(jù)源的收集

      通過各種信息渠道收集互聯(lián)網(wǎng)上的信息,包括門戶網(wǎng)站、博客、微博、論壇等網(wǎng)站上的信息,通過這些網(wǎng)站的WWW服務(wù)器中提取存儲(chǔ)的用戶的訪問日志和用戶訪問的交互信息,這也是Web使用記錄挖掘的重要數(shù)據(jù)來源,對(duì)于這些數(shù)據(jù),可以分為日志文件和用戶訪問數(shù)據(jù)。

      2. 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理主要對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化和數(shù)據(jù)集成等,形成事務(wù)數(shù)據(jù)庫(kù),其目標(biāo)是,通過對(duì)用戶訪問站點(diǎn)留下的數(shù)據(jù),整理成為便于被模式挖掘算法所使用的數(shù)據(jù)形式,以供數(shù)據(jù)挖掘階段使用。

      3. 模式挖掘

      對(duì)數(shù)據(jù)預(yù)處理所形成的事務(wù)數(shù)據(jù)庫(kù),利用模式挖掘的一些有效算法來發(fā)現(xiàn)隱藏的模式或者規(guī)則。常用的技術(shù)有:統(tǒng)計(jì)分析、路徑分析技術(shù)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式、分類和聚類等技術(shù)。

      4. 模式分析

      由于用戶使用模式挖掘出來的信息還不能直接被人們所理解,需要把這些模式解釋為人們可以理解的知識(shí),同時(shí)也要去除對(duì)人們沒有用的模式,所以對(duì)于模式分析需要借助一些工具來實(shí)現(xiàn)。

      2.2 Web挖掘的分類

      Web 數(shù)據(jù)挖掘可以分為Web 內(nèi)容挖掘(Web Content mining),Web結(jié)構(gòu)挖掘(Web structure mining),Web 使用挖掘(Web usage Mining)三類。

      2.2.1 Web內(nèi)容挖掘

      Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識(shí)。例如:根據(jù)網(wǎng)頁的主題,我們可以進(jìn)行自動(dòng)的聚類和分類。雖然這些任務(wù)與傳統(tǒng)數(shù)據(jù)挖掘的任務(wù)相似,但是我們依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息,例如熱點(diǎn)詞的跟蹤商品描述、論壇回帖等。而這些信息可以被用作進(jìn)一步分析來挖掘用戶態(tài)度。這些任務(wù)也不是傳統(tǒng)的數(shù)據(jù)挖掘任務(wù)。

      2.2.2 Web結(jié)構(gòu)挖掘

      Web結(jié)構(gòu)挖掘從表征Web結(jié)構(gòu)的超鏈接(簡(jiǎn)稱鏈接)中尋找有用的知識(shí)。例如:從這些鏈接中,我們可以找出哪些是重要的網(wǎng)頁,這是一項(xiàng)搜索引擎采用的重要技術(shù)。我們也可以發(fā)掘具有共同興趣的用戶社區(qū)。這些任務(wù)在傳統(tǒng)的數(shù)據(jù)挖掘中并不存在,因?yàn)樵陉P(guān)系型表格中并沒有鏈接結(jié)構(gòu)。挖掘頁面的結(jié)構(gòu)和Web 結(jié)構(gòu),可以用來指導(dǎo)對(duì)頁面進(jìn)行分類和聚類,找到權(quán)威頁面、中心頁面,從而提高檢索的性能。同時(shí)還可以用來指導(dǎo)頁面采集工作,提高采集效率。

      2.2.3 Web使用挖掘

      Web使用挖掘從記錄每位用戶點(diǎn)擊情況的使用日志中挖掘用戶的訪問模式。這項(xiàng)任務(wù)也使用了許多數(shù)據(jù)挖掘的算法。其中一項(xiàng)重要的議題是點(diǎn)擊流數(shù)據(jù)的預(yù)處理,以便生成可以用來挖掘的合適數(shù)據(jù)。

      3. 基于Web挖掘的網(wǎng)絡(luò)輿情分析方法

      1. 主題詞檢索

      主題詞檢索是將Web上的文檔轉(zhuǎn)化為一種類似關(guān)系型數(shù)據(jù)庫(kù)中記錄的形式,內(nèi)容較規(guī)則且能反應(yīng)文本內(nèi)容特征的中間形式,一般采用文本特征向量表示法來進(jìn)行表示、特征抽取、內(nèi)容總結(jié),然后利用機(jī)器學(xué)習(xí)方法來提取知識(shí)模式。通過自動(dòng)主題詞檢索,可以及時(shí)掌握用戶關(guān)心的重點(diǎn)輿情問題,實(shí)時(shí)跟蹤了解情況。

      2. 輿情熱點(diǎn)跟蹤

      該方法首先將存放在文本文件中的Web記錄轉(zhuǎn)換成序列數(shù)據(jù)庫(kù)中的訪問記錄,然后采用某種序列模式挖掘算法對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行挖掘,最后分析出用戶所關(guān)心的序列模式。通過對(duì)輿情熱點(diǎn)的跟蹤,可以發(fā)現(xiàn)網(wǎng)絡(luò)輿情問題的演變情況,分析出輿情問題的發(fā)展規(guī)律,從而可以預(yù)測(cè)輿情問題的發(fā)展趨勢(shì),為下一步的決策做準(zhǔn)備。

      3. 分類分析

      分類分析首先按特定標(biāo)記對(duì)記錄集合進(jìn)行分類,然后挖掘出比按特定標(biāo)記分類的記錄集合更豐富、更細(xì)致的特征描述或模式描述。分類技術(shù)要求對(duì)輿情的描述對(duì)象及其行為方式進(jìn)行歸類,然后將這些歸類進(jìn)行聯(lián)合,從而分析出具有相似描述和相似行為的對(duì)象是否可以符合。

      4. 聚類分析

      聚類首先采用訪問頻度閾值和頁面間距離閾值對(duì)頁面進(jìn)行初步的篩選,然后把訪問頻度大于訪問頻度閾值的頁面加到頻繁訪問頁面集合中,然后將其中距離低于頁面距離閾值的頁面聚合在一起。聚類分析的結(jié)果是一系列相近信息組成的集合,同一組中的信息相近,不同組的信息相差較大。據(jù)此可以判別當(dāng)前網(wǎng)絡(luò)輿情的熱點(diǎn)及重點(diǎn)問題。類似的輿情問題存在某種有序關(guān)系,這種有序關(guān)系反映了此類輿情的特征,通過聚類分析,可以得出各種不同的熱點(diǎn)問題集合,有益于相關(guān)部門采取進(jìn)一步的行動(dòng)。

      5. 統(tǒng)計(jì)分析

      統(tǒng)計(jì)分析是利用統(tǒng)計(jì)、概率的原理對(duì)關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。統(tǒng)計(jì)分析是數(shù)據(jù)挖掘最基本的技術(shù)方法之一。常用的統(tǒng)計(jì)方法有判別分析、因子分析、相關(guān)分析、回歸分析等。通過對(duì)互聯(lián)網(wǎng)上日志訪問頻率進(jìn)行統(tǒng)計(jì)分析,可以在一定程度上發(fā)現(xiàn)用戶感興趣的問題,從而確定當(dāng)前的熱點(diǎn)網(wǎng)絡(luò)輿情話題。

      4. 校園輿情分析治理系統(tǒng)架構(gòu)

      依據(jù)基于Web挖掘的網(wǎng)絡(luò)輿情分析方法,結(jié)合Web挖掘的工作流程和數(shù)據(jù)庫(kù)原理,設(shè)計(jì)了一個(gè)校園輿情分析治理系統(tǒng)構(gòu)架,該系統(tǒng)主要由三個(gè)功能平臺(tái)構(gòu)成,如圖1所示。

      (1)內(nèi)容管理平臺(tái)

      內(nèi)容管理平臺(tái)通過詞典管理、系統(tǒng)管理和數(shù)據(jù)庫(kù)管理功能對(duì)整個(gè)輿情分析系統(tǒng)進(jìn)行全面的管理,同時(shí)該平臺(tái)的鏈接功能保證了系統(tǒng)的可擴(kuò)展和靈活性。

      (2)監(jiān)控分析平臺(tái)

      利用主題詞檢索、輿情熱點(diǎn)跟蹤、分類分析、聚類分析和統(tǒng)計(jì)分析等多種方法對(duì)收集來的輿情信息進(jìn)行監(jiān)控和分析,從而有效的為校園輿情治理提供必要的準(zhǔn)備。

      (3)輿情發(fā)布平臺(tái)

      通過輿情預(yù)警、輿情監(jiān)測(cè)、輿情導(dǎo)向等手段,為學(xué)管人員和指導(dǎo)教師提供經(jīng)過總結(jié)的有指導(dǎo)意義的輿情分析報(bào)告,進(jìn)一步采取座談交流、干預(yù)教育、對(duì)BBS論壇輿情引導(dǎo)等途徑,實(shí)現(xiàn)校園輿情的分析和治理。

      參考文獻(xiàn)

      [1] 梅中玲.基于WEB信息挖掘與網(wǎng)絡(luò)輿情分析技術(shù)[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,(4)

      [2] 陳文舉,夏泉.試論高校輿論引導(dǎo)與和諧校園建設(shè)[J].濟(jì)南大學(xué)學(xué)報(bào).2006.16(6):88-95

      [3] 黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社.2005

      [4] 費(fèi)愛國(guó),王新輝.一種基于Web日志文件的信息挖掘方法[J].計(jì)算機(jī)應(yīng)用,2004,24(6):58

      猜你喜歡
      網(wǎng)絡(luò)輿情
      新媒體環(huán)境下網(wǎng)絡(luò)輿情預(yù)警體系研究
      微博問政與回應(yīng)中的政府形象塑造
      試論高校大學(xué)生網(wǎng)絡(luò)輿情引導(dǎo)方略
      自媒體時(shí)代下高校網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系構(gòu)建
      山東青年(2016年9期)2016-12-08 16:45:59
      新媒介生態(tài)環(huán)境下高職院校網(wǎng)絡(luò)輿情特點(diǎn)及研判機(jī)制思考
      山東青年(2016年9期)2016-12-08 16:38:43
      網(wǎng)絡(luò)輿情編輯能力構(gòu)成因素淺析
      今傳媒(2016年10期)2016-11-22 13:04:37
      網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      淺析網(wǎng)絡(luò)輿情治理
      平凉市| 青州市| 光山县| 米林县| 那曲县| 青州市| 五大连池市| 甘德县| 金湖县| 自贡市| 溧阳市| 巴东县| 赫章县| 卢龙县| 营口市| 垦利县| 洪雅县| 甘肃省| 如皋市| 龙川县| 炉霍县| 万山特区| 尼玛县| 泗水县| 宝应县| 武邑县| 肃北| 紫金县| 山西省| 西丰县| 富锦市| 双城市| 承德市| 温宿县| 韩城市| 垫江县| 文昌市| 肥城市| 钟祥市| 锦州市| 秦安县|