• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于搜索引擎的校園網(wǎng)站信息監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2011-10-18 07:39:14樊建永劉宏杰田素云
      中國教育信息化 2011年8期
      關(guān)鍵詞:分詞網(wǎng)頁監(jiān)控

      樊建永,劉宏杰,田素云

      (陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

      基于搜索引擎的校園網(wǎng)站信息監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      樊建永,劉宏杰,田素云

      (陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

      互聯(lián)網(wǎng)的發(fā)展為知識與信息的傳播提供了前所未有的便利,但同時也為不良信息的傳播提供了條件。高校作為互聯(lián)網(wǎng)應(yīng)用與研究的前沿陣地,信息安全尤為重要。為了防止校園網(wǎng)上非法信息的傳播,實(shí)現(xiàn)對網(wǎng)上信息內(nèi)容的主動監(jiān)管,保護(hù)網(wǎng)絡(luò)信息的安全,本文設(shè)計(jì)并實(shí)現(xiàn)了基于搜索引擎的網(wǎng)站內(nèi)容監(jiān)控系統(tǒng),它主動地掃描校園網(wǎng)網(wǎng)站,獲取網(wǎng)站內(nèi)容信息,利用關(guān)鍵詞匹配技術(shù)及時發(fā)現(xiàn)包含敏感詞的網(wǎng)站,并將結(jié)果及時提供給網(wǎng)絡(luò)管理員。通過使用本系統(tǒng)有效地防止了非法信息在校園網(wǎng)中的傳播,實(shí)現(xiàn)了對校園網(wǎng)站的主動監(jiān)控與管理。

      信息安全;內(nèi)容監(jiān)控;校園網(wǎng)絡(luò);分詞處理;搜索引擎

      一、高校信息安全的現(xiàn)狀

      隨著高校信息化建設(shè)的快速發(fā)展,校園網(wǎng)絡(luò)已遍及學(xué)校的各個部門,一方面校園網(wǎng)站的數(shù)量迅速增長,精品課程等網(wǎng)站越來越多,網(wǎng)絡(luò)已成為師生工作、學(xué)習(xí)、生活不可缺少的一部分;另一方面學(xué)校通過校園網(wǎng)站發(fā)布教學(xué)安排、學(xué)生管理、科研動態(tài)諸多方面的信息,學(xué)校的各項(xiàng)工作都與其形成密切的關(guān)系。然而網(wǎng)站信息安全管理卻不容樂觀,信息安全形勢日趨嚴(yán)峻,由于網(wǎng)站大多是分散式的管理,網(wǎng)站管理人員安全防范意識不強(qiáng),給計(jì)算機(jī)病毒和網(wǎng)絡(luò)黑客以可乘之機(jī),有的部門主頁多次受到黑客的攻擊,網(wǎng)頁上的數(shù)據(jù)被更改,擾亂了學(xué)校正常的工作秩序。學(xué)校的電子留言板、公告板方便了師生交流,但同時也為非法言論等信息提供了交流的場所,一些不法分子利用網(wǎng)絡(luò)傳播小道消息,向高校散布有害信息,擾亂校園秩序。有的學(xué)生因在平時的學(xué)習(xí)、生活中受到一些委屈,就隨意在網(wǎng)站中發(fā)表一些十分偏激的言辭,或?qū)W(xué)校老師進(jìn)行人身攻擊,損壞了學(xué)校形象,因此網(wǎng)站信息安全監(jiān)控成為亟待解決的問題。

      目前由于缺乏成熟的、針對特定網(wǎng)絡(luò)應(yīng)用下的信息內(nèi)容監(jiān)控系統(tǒng),對網(wǎng)站內(nèi)容的檢查都是通過人工來完成的。但是這種方法不能做到實(shí)時地監(jiān)控,并且效率低下,無法適應(yīng)網(wǎng)絡(luò)發(fā)展的需要。人們迫切需要計(jì)算機(jī)輔助來進(jìn)行網(wǎng)絡(luò)內(nèi)容的自動監(jiān)控。

      二、校園網(wǎng)絡(luò)信息內(nèi)容監(jiān)控的現(xiàn)狀與分析

      目前對網(wǎng)絡(luò)信息內(nèi)容的監(jiān)控主要是使用網(wǎng)絡(luò)安全審計(jì)系統(tǒng),通常部署在校園網(wǎng)絡(luò)出口,通過對網(wǎng)絡(luò)出口鏈路數(shù)據(jù)的鏡像或者分光后從旁路接入審計(jì)系統(tǒng),實(shí)時捕獲網(wǎng)絡(luò)數(shù)據(jù)包,還原并分析數(shù)據(jù)包的內(nèi)容,可以實(shí)現(xiàn)對敏感關(guān)鍵字、非法URL的監(jiān)控與過濾。這一類型的監(jiān)控系統(tǒng)可以及時發(fā)現(xiàn)包含有非法詞匯的網(wǎng)站,及時屏蔽包含該詞匯的網(wǎng)頁,使用戶免受非法詞匯的影響。但這種監(jiān)控的缺點(diǎn)是它是一種被動的監(jiān)控模式,只有通過出口訪問的內(nèi)容中包含敏感詞匯才能被監(jiān)控到,并且無法得到非法內(nèi)容的來源,不能對整體的網(wǎng)絡(luò)和特定網(wǎng)站中的網(wǎng)頁信息進(jìn)行監(jiān)控。

      基于這種現(xiàn)狀,筆者設(shè)計(jì)實(shí)現(xiàn)了一個基于搜索引擎的網(wǎng)站內(nèi)容監(jiān)控系統(tǒng)。它主動掃描整個網(wǎng)站,獲得網(wǎng)站的網(wǎng)頁內(nèi)容,并對內(nèi)容進(jìn)行預(yù)處理分析,利用關(guān)鍵詞匹配技術(shù)對結(jié)果進(jìn)行匹配,及時發(fā)現(xiàn)網(wǎng)站中包含的非法詞匯,并將結(jié)果提供給管理員,方便管理員對網(wǎng)絡(luò)內(nèi)容進(jìn)行監(jiān)控,還可以與報警系統(tǒng)相關(guān)聯(lián)實(shí)現(xiàn)郵件或者短信息報警,使網(wǎng)絡(luò)管理員在第一時間采取相應(yīng)的處理措施,及時阻止這些內(nèi)容的傳播。從而實(shí)現(xiàn)對網(wǎng)站信息主動、實(shí)時的監(jiān)控。

      三、本系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      網(wǎng)站內(nèi)容監(jiān)控的過程其實(shí)就是對校園網(wǎng)站內(nèi)容進(jìn)行搜索、分析、比較的過程。首先要獲取被監(jiān)控網(wǎng)站的網(wǎng)頁作為數(shù)據(jù)源,然后對網(wǎng)頁數(shù)據(jù)內(nèi)容進(jìn)行分析預(yù)處理,為搜集到的網(wǎng)頁建立索引數(shù)據(jù)庫和分詞庫信息。通過與用戶設(shè)定的敏感關(guān)鍵字或URL鏈接信息進(jìn)行對比匹配,從分詞庫中查找到包含敏感關(guān)鍵詞的網(wǎng)頁URL,再通過網(wǎng)頁索引在網(wǎng)頁信息數(shù)據(jù)庫中查找并返回整個網(wǎng)頁的全部內(nèi)容。通過以上分析與研究,網(wǎng)站信息監(jiān)控系統(tǒng)主要由以下五個功能模塊組成:網(wǎng)站內(nèi)容采集模塊、網(wǎng)頁分析預(yù)處理模塊、自動分詞模塊、查詢匹配模塊、結(jié)果反饋模塊。為了提高搜索運(yùn)行的效率本系統(tǒng)使用C++多線程設(shè)計(jì)完成。處理流程如圖1所示。

      1.網(wǎng)站內(nèi)容采集模塊

      采集模塊主要完成獲取網(wǎng)頁內(nèi)容、分析鏈接、存儲網(wǎng)頁信息的功能。采集模塊的核心是網(wǎng)頁抓取程序,網(wǎng)頁抓取的過程是從URL庫 (初始為用戶指定的URL集合)獲得輸入,解析URL中標(biāo)明的Web服務(wù)器地址、與服務(wù)器建立連接、構(gòu)造請求消息體并發(fā)送給服務(wù)器、獲取服務(wù)器返回的網(wǎng)頁信息,最后將獲得的網(wǎng)頁數(shù)據(jù)存儲在網(wǎng)頁信息數(shù)據(jù)庫。我們使用網(wǎng)頁抓取程序自動對指定IP范圍內(nèi)的網(wǎng)站進(jìn)行遍歷,主動發(fā)現(xiàn)網(wǎng)站信息。網(wǎng)頁抓取程序?qū)⒀刂W(wǎng)頁上的鏈接按照深度優(yōu)先算法進(jìn)行網(wǎng)頁搜集,然后從本網(wǎng)頁中解析出所包含的的URL鏈接信息,看是否已經(jīng)被訪問過,將未訪問的URL加入到URL列表中供網(wǎng)頁抓取程序繼續(xù)搜索,并從URL列表中移除已訪問過的URL,最后將URL、IP地址、采集時間、數(shù)據(jù)長度信息保存到數(shù)據(jù)庫建立網(wǎng)頁信息數(shù)據(jù)庫,采集模塊結(jié)構(gòu)如圖2所示。

      2.網(wǎng)頁分析預(yù)處理模塊

      網(wǎng)頁分析預(yù)處理模塊主要是為采集模塊產(chǎn)生的網(wǎng)頁信息數(shù)據(jù)庫建立索引信息,并生成索引網(wǎng)頁庫。通過使用索引網(wǎng)頁庫我們就可以在網(wǎng)頁信息數(shù)據(jù)庫中快速定位到給定URL所指向的記錄。如果不對網(wǎng)頁信息數(shù)據(jù)庫建立索引信息,也可以通過順序查找的方法完成URL到指定記錄的過程,但是會消耗大量的I/O,數(shù)據(jù)量增大的時候不能夠滿足快速響應(yīng)的要求,因此網(wǎng)頁預(yù)處理的第一步就是為原始網(wǎng)頁建立索引,實(shí)現(xiàn)圖1中的索引網(wǎng)頁庫,從而就能隨機(jī)存取其所指向的網(wǎng)頁,實(shí)現(xiàn)快速查詢與匹配。我們對URL采用MD5算法生成URL摘要,產(chǎn)生16個字節(jié)的唯一標(biāo)識,然后對URL唯一標(biāo)識信息進(jìn)行排序,生成一個有序的URL索引數(shù)據(jù)庫。在查詢匹配模塊中可以使用二分查找算法在網(wǎng)頁索引庫中快速查找到相應(yīng)的網(wǎng)頁文檔編號,然后再通過文檔編號在網(wǎng)頁信息數(shù)據(jù)庫中查找到對應(yīng)的網(wǎng)頁。

      3.自動分詞模塊

      如果直接在網(wǎng)頁數(shù)據(jù)庫中查找與我們所設(shè)置的關(guān)鍵字或者文本信息相匹配的網(wǎng)站,查詢效率將無法滿足我們快速搜索的需要。為了提高關(guān)鍵字與網(wǎng)頁數(shù)據(jù)庫中的內(nèi)容匹配速度,我們需要把整個網(wǎng)頁的文本內(nèi)容字串分隔成詞串,將整句切割成小的詞匯單元,即分詞處理。然后再為分詞庫建立索引,來提高查詢的效率。所以分詞是對中文文本進(jìn)行快速查詢匹配的前提。

      在本系統(tǒng)中我們采用基于字符串匹配的分詞方法,這種方法又稱為機(jī)械分詞方法,使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,它按照一定的策略將待分析的字符串與已設(shè)定好的詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功。在使用逐詞匹配算法的同時,我們還使用統(tǒng)計(jì)的方法來識別一些新的詞,同時將這些新詞添加到分詞詞典中。我們把串匹配和串頻統(tǒng)計(jì)結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了統(tǒng)計(jì)分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點(diǎn)。具體的流程為先取網(wǎng)頁信息數(shù)據(jù)庫中的HTML源代碼,對源代碼進(jìn)行過濾,提取文本內(nèi)容,然后調(diào)用分詞程序,對文本內(nèi)容進(jìn)行分詞處理。將得到的每個詞串連同它所在的URL、文件名、瀏覽量作為一條記錄,保存到分詞庫里,供查詢匹配模塊使用。

      4.查詢與匹配模塊

      該模塊主要實(shí)現(xiàn)了按照用戶設(shè)置的關(guān)鍵字在網(wǎng)頁信息數(shù)據(jù)庫中查詢包含敏感詞記錄的功能。首先將用戶設(shè)置的關(guān)鍵詞提交給查詢代理,查詢代理檢索分詞模塊生成的分詞索引表和索引網(wǎng)頁數(shù)據(jù)庫,并通過多表連接在網(wǎng)頁信息數(shù)據(jù)庫中查詢返回具體的網(wǎng)頁源代碼信息,將返回信息提供給結(jié)果反饋模塊。

      5.結(jié)果反饋模塊

      此模塊主要負(fù)責(zé)把前四個階段建立好的索引網(wǎng)頁庫、分詞庫、網(wǎng)頁信息數(shù)據(jù)庫進(jìn)行處理后將結(jié)果呈現(xiàn)給用戶,實(shí)現(xiàn)基于Web的結(jié)果顯示功能,包括響應(yīng)用戶的查詢檢索和記錄用戶的行為。我們使用ASP.NET 2.0進(jìn)行網(wǎng)絡(luò)程序設(shè)計(jì),用戶可以通過網(wǎng)頁形式查看監(jiān)控的結(jié)果,返回的結(jié)果包括網(wǎng)站的URL、IP地址、敏感關(guān)鍵字的位置等信息。也可以通過配置電子郵件網(wǎng)關(guān)將監(jiān)控結(jié)果以電子郵件形式自動發(fā)送給管理員,并且可以按照IP地址、關(guān)鍵字等進(jìn)行結(jié)果的查詢和統(tǒng)計(jì),同時將用戶查詢的內(nèi)容和查詢時間等信息記錄到日志文件中。結(jié)果反饋模塊還可以與專用SMS短信息收發(fā)平臺互聯(lián)實(shí)現(xiàn)短信息報警功能,使網(wǎng)絡(luò)管理員在第一時間發(fā)現(xiàn)敏感信息并及時做出相應(yīng)的處理。

      四、結(jié)束語

      本系統(tǒng)結(jié)合搜索引擎技術(shù),對網(wǎng)站內(nèi)容的獲取、存儲、分析、匹配問題都提出了較好的解決方案,通過對指定IP地址范圍內(nèi)或特定的網(wǎng)站內(nèi)容進(jìn)行自動掃描、分詞、預(yù)處理后與事先設(shè)定的關(guān)鍵字進(jìn)行匹配,及時發(fā)現(xiàn)違規(guī)信息,對網(wǎng)頁篡改、不良信息的傳播等可以及時報警,實(shí)現(xiàn)了網(wǎng)站內(nèi)容的自動監(jiān)控與管理。

      此系統(tǒng)模塊化設(shè)計(jì),靈活可擴(kuò)展,很容易擴(kuò)展成一個集文字、圖像監(jiān)控于一身的綜合監(jiān)控系統(tǒng),而自身體系結(jié)構(gòu)無需大的變動。此系統(tǒng)除了在校園網(wǎng)中使用外也很容易推廣到其他行業(yè)使用,如網(wǎng)絡(luò)提供商、各企業(yè)事業(yè)單位以及需要對網(wǎng)絡(luò)內(nèi)容進(jìn)行監(jiān)控的單位或部門。此外對系統(tǒng)進(jìn)行升級還可以實(shí)現(xiàn)自動搜索網(wǎng)站,及時發(fā)現(xiàn)未備案的網(wǎng)站和私自架設(shè)的網(wǎng)站信息等功能。☉

      [1]Piotr K Arakis.An early warning and attack identification system[C].Dudapest,Hungary:Proceeding of 16th Annual First Conference,2004:35-41.

      [2]陳紅松,胡長軍.網(wǎng)絡(luò)內(nèi)容監(jiān)控與預(yù)警系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(1).

      [3]林海霞,原福永,陳金森等.一種改進(jìn)的主題網(wǎng)絡(luò)蜘蛛搜索算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(10):174-176.

      [4]梅龍寶.趙毅校園安全管理信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].中國教育信息化,2007(4).

      [5]熊馨,康國磊,胡光武等.基于Web Service的分布式網(wǎng)站內(nèi)容監(jiān)控系統(tǒng)設(shè)計(jì)[J].電腦知識與技術(shù),2009(18).

      [6]孫紅杰,方濱興,張宏莉.一種新的大規(guī)模網(wǎng)絡(luò)主動預(yù)警方法[J].電信科學(xué),2007(1):74-78.

      [7]晉耀紅.基于語義的文本過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(17):22-25.

      [8]易青松.基于NDIS的網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(15):91-98.

      (編輯:金冉)

      TP393.18

      B

      1673-8454(2011)15-0034-03

      猜你喜歡
      分詞網(wǎng)頁監(jiān)控
      The Great Barrier Reef shows coral comeback
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      你被監(jiān)控了嗎?
      Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      看監(jiān)控攝像機(jī)的4K之道
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      值得重視的分詞的特殊用法
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      10個必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      甘泉县| 大荔县| 临洮县| 卢湾区| 黎城县| 海宁市| 库尔勒市| 松滋市| 永吉县| 长宁县| 明溪县| 南投县| 响水县| 连山| 兴海县| 曲阜市| 阜新市| 壤塘县| 寿阳县| 平顶山市| 丽江市| 固安县| 修水县| 安乡县| 桓仁| 二连浩特市| 会东县| 疏附县| 辽源市| 进贤县| 灵丘县| 塔城市| 西藏| 乌拉特前旗| 金湖县| 汶川县| 喜德县| 南汇区| 吴桥县| 连南| 绥化市|