• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      網(wǎng)絡(luò)熱點信息發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)

      2014-03-08 02:01:45邱海健
      自動化與儀表 2014年8期
      關(guān)鍵詞:熱點話題熱點網(wǎng)頁

      邱海健

      (南京工業(yè)大學(xué) 電子與信息工程學(xué)院,南京 211816)

      隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,大量網(wǎng)民認(rèn)為互聯(lián)網(wǎng)是獲取信息的最重要的渠道,網(wǎng)絡(luò)信息的爆炸增長和網(wǎng)民參與熱情的空前高漲使得對網(wǎng)絡(luò)內(nèi)容的監(jiān)控和管理變得十分迫切和緊要,而面對海量的互聯(lián)網(wǎng)信息,網(wǎng)絡(luò)輿論信息為其中比較突出的代表,網(wǎng)絡(luò)輿論是在互聯(lián)網(wǎng)上傳播的公眾對某一焦點所表現(xiàn)出的有一定影響力的、帶傾向性的意見,而且網(wǎng)民言論同時具有巨大的信息爆發(fā)力和輿論影響力[1]。

      互聯(lián)網(wǎng)上,熱點話題表現(xiàn)為互聯(lián)網(wǎng)用戶閱讀網(wǎng)頁、回帖和跟帖等,隨著網(wǎng)民的關(guān)注和事情的發(fā)展和變化,討論中心也會發(fā)生改變,同時真實地反映了大多數(shù)網(wǎng)民對該事件的態(tài)度??梢姡@取熱點信息變得更加重要。

      根據(jù)某單位的需求,要及時地發(fā)現(xiàn)熱點問題和熱點話題的變化[2],提出熱點信息發(fā)現(xiàn)系統(tǒng)。系統(tǒng)主要功能是利用Web技術(shù)[3]采集頁面信息并且根據(jù)Single Pass算法熱點評價算法[4]檢測網(wǎng)絡(luò)熱點信息。

      1 方案設(shè)計

      發(fā)現(xiàn)熱點話題是為熱點信息檢測服務(wù)的,首先把測試信息結(jié)合在一起,分析其中有影響力的話題,為熱點挖掘提供可靠的依據(jù)。

      按照處理過程,本系統(tǒng)主要可以分為以下幾個步驟:信息采集、信息挖掘、信息熱度評價。系統(tǒng)流程如圖1所示。

      系統(tǒng)主要流程是提取出來用戶可能感興趣的頁面信息,再進(jìn)行處理,將大量的信息整合成為有序的熱點話題,來提高熱點信息發(fā)現(xiàn)系統(tǒng)挖掘熱點信息的準(zhǔn)確度和效率。

      圖1 系統(tǒng)流程圖Fig.1 Flow chart of system

      2 系統(tǒng)總體設(shè)計

      本系統(tǒng)采用B/S三層體系結(jié)構(gòu),由應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)服務(wù)層構(gòu)成,三層之間相互交互來實現(xiàn)系統(tǒng)的整個功能。用戶通過發(fā)送請求到應(yīng)用層查詢需要處理的頁面,通過Web技術(shù)和相關(guān)算法處理得到信息存儲在數(shù)據(jù)庫中。數(shù)據(jù)服務(wù)層主要提供數(shù)據(jù)存儲服務(wù),由數(shù)據(jù)庫的服務(wù)器和文件系統(tǒng)組成。系統(tǒng)總體框架如圖2所示。

      圖2 系統(tǒng)總體框架Fig.2 Modules of system

      每個子系統(tǒng)都有自己單獨功能模塊程序,而且需要不斷地和數(shù)據(jù)庫進(jìn)行交互完成各自的功能。整個系統(tǒng)包含信息采集子系統(tǒng)、熱點挖掘子系統(tǒng)、熱點評價子系統(tǒng)。

      信息采集子系統(tǒng) 主要是對網(wǎng)頁的內(nèi)容進(jìn)行篩選,選出網(wǎng)頁的主要內(nèi)容。

      熱點挖掘子系統(tǒng) 主要是對信息采集子系統(tǒng)處理過的內(nèi)容進(jìn)行聚類分析,把信息進(jìn)行歸類。

      熱點評價子系統(tǒng) 主要是對熱點挖掘子系統(tǒng)的歸類信息進(jìn)行熱點評價,評價并且排行出近期活躍度高的熱點話題。

      3 系統(tǒng)的關(guān)鍵算法

      3.1 網(wǎng)頁信息采集

      本論文所構(gòu)建的熱點信息發(fā)現(xiàn)及分析系統(tǒng)是利用網(wǎng)絡(luò)信息采集和挖掘等相關(guān)技術(shù),將互聯(lián)網(wǎng)上可能引起用戶興趣話題和關(guān)注比較大的信息整理出來,以直觀的數(shù)據(jù)表現(xiàn)方式提供給相關(guān)用戶進(jìn)行特定處理。

      信息采集子系統(tǒng)中主要工作:首先處理測試網(wǎng)頁中一些沒有用的信息例如廣告信息等,得到一些干凈的網(wǎng)頁之后,找出相關(guān)信息網(wǎng)頁。

      3.2 熱點信息檢測相關(guān)算法3.2.1 Single Pass聚類算法

      Single Pass算法主要是根據(jù)輸入內(nèi)容,將內(nèi)容處理為內(nèi)容文本,將內(nèi)容文本與已有話題進(jìn)行相似性比較,根據(jù)相似度的值進(jìn)行匹配選取。如果與某個話題相似度高,則把文本歸入該話題,如果相似度度量均小于某一閾值,則將該文本定義為一個新的話題,創(chuàng)建一個新的話題類型。其Single Pass算法的流程圖如圖3所示。

      圖3 Single pass算法Fig.3 Single pass algorithm

      3.2.2 話題熱度評價

      性能評測一般采用漏檢率(Pm)誤檢率(Pf)來判斷算法存在的問題,而檢測代價[5](Cn)是用來衡量話題發(fā)現(xiàn)的質(zhì)量,Cn一般是越小表示效果越好。如話題i中相關(guān)的文檔數(shù)目為H、不相關(guān)的數(shù)目為H1、與話題i不相關(guān)文本C,其中C中有C1篇被誤放入話題i中,則:

      平均漏報率Pm,平均誤報率Pf和檢測代價Cn。其計算公式為

      其中:G1、G2是漏報和誤報的代價;Pm、Pf是漏報和誤報的概率;P是文本話題類的先驗概率。根據(jù)熱點評價的標(biāo)準(zhǔn),一般設(shè)定 G1=1,G2=0.1,P=0.02。

      4 系統(tǒng)測試

      為了驗證本系統(tǒng)采用2013年4月新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)等幾個網(wǎng)站的網(wǎng)頁,首先利用信息采集子系統(tǒng)的Web技術(shù)處理網(wǎng)頁內(nèi)容,得到一些關(guān)鍵信息內(nèi)容;再利用熱點挖掘子系統(tǒng)處理歸類;最后利用熱點話題評價子系統(tǒng)進(jìn)行熱度排行。

      頁面信息處理得到四川雅安地震(YA)、H7N9亞型禽流感病毒(H7N9)、明星跳水秀(MX)、復(fù)旦投毒案(FD)、鳳凰古城(FH)、海天盛筵(HT)等 6 個話題,驗證系統(tǒng)檢測話題的有效性和準(zhǔn)確性。測試各項數(shù)據(jù)如表1所示。

      表1 熱點信息表Tab.1 Information hotspots

      測試中各項數(shù)據(jù)根據(jù)式(1)~式(5)得出,漏報率 數(shù) 據(jù) 是 0.253、0.229、0.221、0.222、0.257、0.1875,誤報率數(shù)據(jù)是 0.01125、0.01、0.00875、0.005、0.0038、0.0075,而檢測代價數(shù)據(jù)是 0.0062、0.0056、0.0053、0.0049、0.0055、0.0045。在漏報率和誤報率計算中,檢測代價越小表示信息的集中程度越高。根據(jù)結(jié)果數(shù)據(jù)可以得出,信息熱度排名為海天盛筵(HT)、復(fù)旦投毒案(FD)、明星跳水秀(MX)、鳳凰古城(FH)、四川雅安地震(YA)、H7N9亞型禽流感病毒(H7N9)。

      5 結(jié)語

      本系統(tǒng)基本達(dá)到了企業(yè)提出的需求,基于.NET和關(guān)鍵算法構(gòu)建出熱點信息發(fā)現(xiàn)系統(tǒng),實現(xiàn)了網(wǎng)頁信息熱點檢測。系統(tǒng)在網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)上既保證了一定的準(zhǔn)確性、實時性,又為某單位對某事件的態(tài)度傾向提供數(shù)據(jù)服務(wù)。

      網(wǎng)絡(luò)熱點話題檢測作為輿情信息挖掘的關(guān)鍵任務(wù)也是研究重點,同時還有許多問題有待進(jìn)一步的探索與研究。如實時動態(tài)的信息獲取并發(fā)送分析好的信息給領(lǐng)導(dǎo),作為下個版本開發(fā)的新內(nèi)容。

      [1] Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2010:1361-1370.

      [2] Kitsak M,Gallos L K,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physic,2010,6(11):893-898.

      [3] 岳國偉,永全,陳玉娥.ASP.NET中數(shù)據(jù)分頁技術(shù)的研究[J].計算機應(yīng)用研究,2007,24(9):159-161.

      [4] 洪宇,張宇,范基禮,等.基于話題分治匹配的蜥事件檢測[J].計算機學(xué)報,2008,31(4):687-695.

      [5] Makkonen J,Ahonen-Myka H,Salmenkivi M.Simple semantics in topic detection and tracking[J].Information Retrieval,2004,7(3-4):347-368. ■

      猜你喜歡
      熱點話題熱點網(wǎng)頁
      熱點
      熱點
      車迷(2019年10期)2019-06-24 05:43:28
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      結(jié)合熱點做演講
      快樂語文(2018年7期)2018-05-25 02:32:00
      2017年高考作文熱點話題預(yù)測
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      基于SVM的熱點話題跟蹤實現(xiàn)過程研究
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      10個必知的網(wǎng)頁設(shè)計術(shù)語
      熱點話題排行榜
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      德兴市| 新安县| 黄冈市| 措勤县| 蒲江县| 崇义县| 德庆县| 阿勒泰市| 浑源县| 巨野县| 宜阳县| 宝兴县| 青河县| 长宁县| 班戈县| 灌云县| 神木县| 石楼县| 偃师市| 郧西县| 余姚市| 五家渠市| 名山县| 桃源县| 张家川| 云浮市| 景洪市| 天台县| 云安县| 淮滨县| 梁平县| 咸阳市| 桂东县| 宁明县| 延长县| 山东省| 泰和县| 合作市| 雅江县| 舟曲县| 东山县|