開源搜索引擎在網(wǎng)絡(luò)公共信息搜集上的研究應(yīng)用

2014-09-19 09:22:30李鵬程

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2014年1期

李鵬程

（鐵道警察學(xué)院河南 450053）

0 引言

美國前總統(tǒng)杜魯門曾說：“美國有95%的秘密情報，都在報紙和其他刊物上發(fā)表過”。美國中央情報局 80% 的情報來源于公開材料，由此可見公共情報信息的重要性。公共情報信息主要類型有：報刊、圖書、地圖、聲像資料、互聯(lián)網(wǎng)資料、照片、實物等。而互聯(lián)網(wǎng)又是其中更新最快，內(nèi)容最豐富的信息載體。對于公安機關(guān)，互聯(lián)網(wǎng)的有效信息源主要包括：普通Web站點；網(wǎng)絡(luò)社區(qū)，BBS論壇，博客網(wǎng)站，網(wǎng)絡(luò)聊天室和新聞討論組等互動媒體；MSN，QQ，E-mail等即時通訊工具；網(wǎng)絡(luò)數(shù)據(jù)庫等。如何對這些互聯(lián)網(wǎng)情報信息進行有效的搜集成為公安情報工作的重點。

1 互聯(lián)網(wǎng)公共情報搜集的方式

現(xiàn)有的進行互聯(lián)網(wǎng)公共情報搜集的方式主要有一下幾種：

1.1 通過人工瀏覽及對固定網(wǎng)站監(jiān)控

對于一些BBS論壇，博客網(wǎng)站及聊天室信息，屬于通用搜索引擎（谷歌，百度，雅虎等）不容易搜索到的網(wǎng)絡(luò)信息，這樣的互聯(lián)網(wǎng)信息通過人工瀏覽的方式進行搜集和整理。對于基層的派出所和信息化程度不高的公安機關(guān)通過專人對所在轄區(qū)的論壇版塊和聊天室視頻信息等進行查閱和收集整理。

1.2 通過通用搜索引擎進行搜集和整理

對于專題情報和固定的網(wǎng)絡(luò)信息搜集采用通用搜索引擎進行搜集和整理，如網(wǎng)絡(luò)群體性事件預(yù)防，為積極預(yù)防群體性事件的發(fā)生，公安機關(guān)針對網(wǎng)絡(luò)上可能引發(fā)群體性事件的社會矛盾輿情動態(tài)以及可能參與群體性事件的重點人群常登陸網(wǎng)站做好情報信息的系統(tǒng)收集工作。通過搜索引擎對固定詞匯和事件進行搜索，對群體性事件的發(fā)展做出應(yīng)有的判斷。

1.3 通過定制搜索引擎對網(wǎng)絡(luò)信息進行下載分析分類

公安機關(guān)情報部門根據(jù)自身的需要，自己定制開發(fā)搜索引擎，通過它可以快速獲取大量感興趣的網(wǎng)頁資料，從而及時發(fā)現(xiàn)網(wǎng)絡(luò)上存在的符合公安情報收集需求和信息。再通過信息過濾技術(shù)從“信息過載”的動態(tài)信息流中抽取中符合公安機關(guān)個性化需求的信息，使用Web挖掘技術(shù)分析出信息數(shù)據(jù)所呈現(xiàn)的規(guī)律，及時發(fā)現(xiàn)敏感的虛擬網(wǎng)絡(luò)團體，分析其目的、行為、特征、趨勢等。

搜索引擎是現(xiàn)有的對互聯(lián)網(wǎng)信息搜索的最有效的方式，但是隨著網(wǎng)絡(luò)信息的增長，通用的搜索引擎（谷歌，百度，雅虎等）用于公開情報信息的搜集的缺陷日益凸顯，傳統(tǒng)的安排專人使用通用搜索引擎對網(wǎng)絡(luò)信息進行搜集的方式不但消耗人力，而且出現(xiàn)信息不全面，準(zhǔn)確度不高，實時性差的問題。而公安輿情信息匯集的基本要求是快、準(zhǔn)、全，即搜集對公安機關(guān)及其相關(guān)輿情信息要及時，早發(fā)現(xiàn)、早收集，注重時效性；反映和搜集的問題要準(zhǔn)，真實可靠，匯集信息全面。所以采用定制搜索引擎對網(wǎng)絡(luò)信息進行搜集成為現(xiàn)代網(wǎng)絡(luò)公共信息搜集的大趨勢。

圖1 搜索引擎原理圖

2 開源搜索引擎的原理及現(xiàn)狀

開源搜索引擎是一個軟件系統(tǒng)，傳統(tǒng)網(wǎng)絡(luò)用戶所使用的搜索引擎（百度，谷歌等）只是整個搜索引擎軟件系統(tǒng)面向用戶的一個應(yīng)用，搜索引擎應(yīng)該包括爬蟲系統(tǒng)、網(wǎng)頁抽取及文本分類系統(tǒng)、索引分類及數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)存儲系統(tǒng)、面向管理員和用戶的交互系統(tǒng)。各個系統(tǒng)之間的關(guān)系如圖1所示。

開源搜索引擎為源代碼開放的搜索引擎，編程愛好者們根據(jù)搜索引擎的工作原理開發(fā)的適合不同搜索需求的引擎系統(tǒng)，特點是：免費使用；可以修改定制源碼以定制自己所需要的功能；開發(fā)快捷，方便；開源搜索引擎的原理和通用搜索引擎是相同的，但是通用搜索引擎存在著功能限制和實時性差，搜索信息不準(zhǔn)確的問題，這些都可以通過對開源搜索引擎的定制解決。

現(xiàn)有主流的開源搜索引擎主要有：基于 JAVA語言的Nutch，Lucence，MG4J，Heritrix，基于PHP語言的Sphider，PhpDig，OpenWebSpider等。其中 Nutch，Heritrix和 Sphider為編程人員比較常用的開源搜索引擎，可以查閱的資料和文檔相對豐富，以上這些搜索引擎的配置并不需要很深的計算機知識，筆者對Heritrix，Sphider和PhpDig分別進行和配置測試，其安裝和使用都比較簡單，對計算機操作熟練的人即可配置安裝。對于不同的開源搜索引擎其用途和功能有所差別，黃翼彪等對其進行了詳細的比較和研究。

3 定制搜索引擎在情報中的應(yīng)用

趙蓉英等提出了基于Nutch的圖情博客搜索引擎，采用控制信息采集更新網(wǎng)站范圍的方法構(gòu)建搜索引擎，對Nutch 系統(tǒng)中的爬蟲下載模塊制定合理的抓取策略；對Nutch 系統(tǒng)的檢索模塊進行優(yōu)化和改進。共改進了主題資源發(fā)現(xiàn)模塊、爬蟲模塊和檢索模塊。

葛敏提出網(wǎng)絡(luò)公開軍事情報的搜集需要充分利用智能搜索引擎信息自動推送隱含數(shù)據(jù)挖掘、敏感詞匯過濾、海量數(shù)據(jù)管理等信息技術(shù)手段。網(wǎng)絡(luò)公開軍事情報搜集對科學(xué)技術(shù)的依賴程度大大增加，成為科技武裝下的情報活動。

沈振萍等提出了新浪微博的競爭情報搜集研究，其中采用新浪開放API應(yīng)用和新浪微博搜索引擎進行定制搜索，及時、準(zhǔn)確的方式掌握用戶及用戶微博信息。通過地域分布、性別認(rèn)證比例、粉絲活躍度等指標(biāo)來對某個微博客帳號的關(guān)注者進行統(tǒng)計分析，進而對該帳號進行分析評估，通過微博互相關(guān)注和粉絲屬性等分析微博用戶關(guān)系。

4 網(wǎng)絡(luò)信息的組織方式和開源搜索引擎的結(jié)合

互聯(lián)網(wǎng)是由多個網(wǎng)站組成，每個站點之間由超鏈接進行關(guān)聯(lián)如圖2。

圖2 互聯(lián)網(wǎng)站點關(guān)系圖

每個站點通過瀏覽器訪問時，都可以通過超鏈接跳轉(zhuǎn)到其他站點上，這一點為搜索引擎對網(wǎng)頁的遍歷提供了基礎(chǔ)理論依據(jù)，當(dāng)搜索引擎的爬蟲從一個網(wǎng)站開始抓取頁面時，可以通過超鏈接遍歷整個互聯(lián)網(wǎng)上所有站點。單個站點的結(jié)構(gòu)如下圖3：

圖3 網(wǎng)站結(jié)構(gòu)圖

當(dāng)搜索引擎的爬蟲從一個頁面開始抓取時，可以通過站內(nèi)網(wǎng)頁間的超鏈接抓取關(guān)聯(lián)頁面，整個網(wǎng)站的結(jié)構(gòu)能夠保證爬蟲可以抓取整個站點的所有網(wǎng)頁。

筆者以 Sphider開源搜索引擎系統(tǒng)為例，通過圖 4介紹Sphider的基礎(chǔ)環(huán)境搭建和安裝配置。安裝搜索引擎系統(tǒng)的服務(wù)器配置如表1：

表1 服務(wù)器配置表

圖4 sphider安裝步驟

Sphider安裝完成后即可通過瀏覽器進行訪問配置，安裝漢化版后訪問管理員控制面板頁面如截圖5：

圖5 sphider管理員控制面板

可以根據(jù)管理員控制面板中的提示開始對某個感興趣的網(wǎng)站進行索引操作，待索引完成后可以在搜索頁面對需要的關(guān)鍵字進行搜索。

5 開源搜索引擎對網(wǎng)絡(luò)公共信息的搜集

隨著計算機與互聯(lián)網(wǎng)技術(shù)的普及網(wǎng)絡(luò)技術(shù)門檻及成本越來越低，越來越多的政府機關(guān) 企事業(yè)單位和個人開始籌建網(wǎng)站或撰寫博客。截至2012年6月底，我國網(wǎng)民數(shù)量達到5.38億人，互聯(lián)網(wǎng)普及率已經(jīng)達到39.9%，網(wǎng)民規(guī)模世界第一位。2012年12月，中國網(wǎng)站數(shù)量為268萬，網(wǎng)頁數(shù)量為1227億個，均處于迅速遞增狀態(tài)。要全面監(jiān)測所有網(wǎng)站網(wǎng)頁信息是不現(xiàn)實的，因此要在了解全國性的主要Web網(wǎng)站、網(wǎng)絡(luò)論壇、討論組等網(wǎng)絡(luò)媒體的基礎(chǔ)上確定重點監(jiān)測對象。

根據(jù)開源搜索引擎的特點可以把重點監(jiān)測對象站點添加到搜索引擎索引列表中，搜索引擎會實時的把站點上所有的文本信息都下載，分類保存到數(shù)據(jù)庫中，當(dāng)需要對某個特點的事件進行分析和監(jiān)控發(fā)展動態(tài)時，可以先根據(jù)事件確定關(guān)鍵字，通過關(guān)鍵字在搜索引擎的搜索界面進行搜索。搜索結(jié)果會把和關(guān)鍵字有關(guān)的所有的信息都反饋出來。用戶可以根據(jù)信息對事件進行分析和研判。

和通用搜索引擎不同，當(dāng)重點監(jiān)測站點的信息一旦被搜索引擎索引后，站點中幾乎所有的文本信息都會保存在本地服務(wù)器上，可以根據(jù)公安機關(guān)的需要進行數(shù)據(jù)挖掘操作，抽取出符合公安機關(guān)個性化需求的信息，分析出信息數(shù)據(jù)所呈現(xiàn)的規(guī)律。通用搜索引擎和開源搜索引擎對特定站點搜索的比較如下：

表2 通用搜索引擎和開源搜索引擎對特點站點搜索的比較

6 對基層情報搜集的作用

隨著公安信息化程度的提高，網(wǎng)絡(luò)公共信息情報被越來越重視，對網(wǎng)絡(luò)公共信息情報的搜集成為了新的研究方向，對于大型的情報中心，可以投入大量的人力物力進行系統(tǒng)的研發(fā)對開源的搜索引擎進行二次開發(fā)和定制，使其根據(jù)當(dāng)?shù)毓睬閳蟮男枨筮M行信息自動化搜集和敏感信息自動挖掘推送。對于基層的派出所和信息化投入不高的公安機關(guān)，情報人員可以安裝基本的開源搜索引擎，對需要監(jiān)控的網(wǎng)站進行索引，不僅能減輕瀏覽和搜索的工作量，還能夠保存歷史信息，為以后的數(shù)據(jù)分析、事件關(guān)聯(lián)和跟蹤打下基礎(chǔ)。

[1]張玲，搜索引擎情報檢索功能視角分析. 現(xiàn)代情報，2003（08）.

[2]彭知輝，論公安情報的收集內(nèi)容與方式. 公安學(xué)刊（浙江警察學(xué)院學(xué)報），2012（2）：第42-45頁.

[3]熊允發(fā)與吳紹忠，基于互聯(lián)網(wǎng)的公安情報收集技術(shù)研究.警察技術(shù)，2007（06）.

[4]劉正強，關(guān)于公安輿情信息機制建設(shè)的思考. 公安研究，2007（12）.

[5]黃翼彪與孫淑蘭，開源搜索引擎索引性能的比較研究. 圖書館學(xué)研究，2012（11）：第68-72頁.

[6]趙蓉英與陳必坤，基于 Nutch的圖情博客搜索引擎的設(shè)計與實現(xiàn). 情報科學(xué)，2012（4）：第486-491頁.

[7]葛敏，網(wǎng)絡(luò)公開軍事情報搜集的探索. 高校圖書館工作，2012（2）：第54-57+96頁.

[8]沈振萍與謝陽群，基于微博客的競爭情報搜集研究：以新浪微博為例. 情報雜志，2012（5）：第29-35頁.

[9]謝曉專，公安網(wǎng)絡(luò)輿情搜集機制研究：內(nèi)容與渠道建設(shè).吉林公安高等?？茖W(xué)校學(xué)報，2009（02）.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看