黃曉芹
摘 要: 對于政務(wù)網(wǎng)產(chǎn)生的政務(wù)信息越來越多,信息組織分散,信息結(jié)構(gòu)多樣的現(xiàn)實(shí)問題,如何統(tǒng)一并有效地管理是新一代搜索引擎及信息檢索系統(tǒng)開發(fā)需要解決的問題。文章探討了政務(wù)網(wǎng)信息采集和檢索業(yè)務(wù)的應(yīng)用目標(biāo),分析了系統(tǒng)的應(yīng)用需求,從設(shè)計和實(shí)現(xiàn)的角度闡述了系統(tǒng)的開發(fā)思路、總體框架和主要功能。
關(guān)鍵詞: 政務(wù)網(wǎng); 搜索引擎; 信息檢索系統(tǒng); 政務(wù)信息
中圖分類號:TP399 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2013)05-62-04
Design of searching engines and information retrieval system based on government network
Huang Xiaoqin
(Economic information center in Zhejiang Province, Hangzhou, Zhejiang 310006, China)
Abstract: Since information generated by government network has increased greatly, decentralized, and diversified, it is a problem how to unify and manage them effectively in the development of a new generation of search engines and information retrieval system. Application goals of government in information collection and information retrieval system are discussed. The system's application requirements are analyzed. The developing ideas, the general framework and main functions of the system are introduced from the perspective of design and implementation.
Key words: chief network; search engine; information retrieval system; government information
0 引言
近年來,隨著各級政府機(jī)關(guān)網(wǎng)站內(nèi)容的不斷豐富,網(wǎng)頁數(shù)量也呈幾何式增加,由此也帶來了一個結(jié)果:政府門戶網(wǎng)站或網(wǎng)站群信息量巨大,缺乏一條有效的信息快速獲取的途徑,導(dǎo)致政府機(jī)關(guān)和社會公眾用戶在相關(guān)的政府門戶網(wǎng)站上不知道如何快速找到自己需要或最感興趣的內(nèi)容,查詢所需要的信息變得越來越困難,網(wǎng)絡(luò)信息利用率低。鑒于此,在政務(wù)網(wǎng)建設(shè)搜索引擎系統(tǒng),采集、處理、存儲政務(wù)網(wǎng)上網(wǎng)頁信息,建立網(wǎng)頁文件信息資源庫,向政府機(jī)關(guān)和社會公眾提供查詢服務(wù),從而實(shí)現(xiàn)信息整合和有效利用,就顯得比較重要和必要。
1 基于政務(wù)網(wǎng)的搜索引擎及信息檢索系統(tǒng)應(yīng)用目標(biāo)
⑴ 網(wǎng)絡(luò)信息搜索采集智能化。通過采用智能化的搜索引擎技術(shù)及開發(fā)定制的產(chǎn)品,可以方便地實(shí)現(xiàn)對信息網(wǎng)上各類信息資源的搜索、自動跟蹤與采集,自動化程度高。
⑵ 信息分析與處理的自動化。對于采集下來的Web頁面及其他格式的信息資源,系統(tǒng)可以通過自動分類、聚類、自動摘要、信息自動抽取及自動標(biāo)引等應(yīng)用技術(shù),達(dá)到對所采集的信息內(nèi)容進(jìn)行自動化的分析與挖掘。
⑶ 海量信息內(nèi)容的統(tǒng)一管理。通過數(shù)據(jù)庫倉庫系統(tǒng),實(shí)現(xiàn)對采集入庫的各類格式的信息資源進(jìn)行集中統(tǒng)一管理。
⑷ 靈活高效的查詢手段。對于采集與分析的各類Web頁面庫、Web頁面信息索引數(shù)據(jù)庫等數(shù)據(jù)庫,可以方便地掛接到網(wǎng)站上,提供靈活多樣的查詢方式,滿足各層次用戶的實(shí)際查詢的需要。
2 基于政務(wù)網(wǎng)的搜索引擎及信息檢索系統(tǒng)分析
2.1 應(yīng)用需求及分析
⑴ 政務(wù)網(wǎng)信息資源組織和利用。通過系統(tǒng)的建設(shè),在已有信息資源的基礎(chǔ)上進(jìn)一步拓寬信息資源渠道,建立完整規(guī)范的系統(tǒng)信息服務(wù)的信息資源組織體系,對資源的組織進(jìn)行規(guī)范和整合,實(shí)現(xiàn)對信息服務(wù)系統(tǒng)資源的有效分類和管理利用。
⑵ 政務(wù)網(wǎng)信息的自動采集。系統(tǒng)盡量依靠對口的業(yè)務(wù)信息組織人員負(fù)責(zé)信息的組織和提供維護(hù),從技術(shù)上盡量提供方便的手段;盡量加強(qiáng)對已有系統(tǒng)中資源的利用,技術(shù)上采取自動的數(shù)據(jù)采集。通過讓業(yè)務(wù)人員而不是技術(shù)人員直接完成信息的組織提供業(yè)務(wù)系統(tǒng)信息的自動采集,保證資源組織的效率和及時的更新。
⑶ 政務(wù)網(wǎng)信息資源個性化檢索服務(wù)。對資源進(jìn)行有針對性的整合與配置,在此基礎(chǔ)上提供更好的個性化檢索服務(wù)。
⑷ 業(yè)務(wù)系統(tǒng)應(yīng)用接口。結(jié)合典型業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換體系建設(shè),實(shí)現(xiàn)在分布式環(huán)境下各單位信息的自動采集,在進(jìn)一步充實(shí)信息資源的同時大大提高信息提供的效率,保證信息的及時更新。
2.2 業(yè)務(wù)功能需求分析
該系統(tǒng)應(yīng)適應(yīng)政務(wù)網(wǎng)信息安全系統(tǒng)和數(shù)據(jù)交換系統(tǒng)環(huán)境,為便于系統(tǒng)擴(kuò)展和獲得較高的性價比,我們考慮采用分層功能結(jié)構(gòu)。
⑴ 信息搜索采集
系統(tǒng)要能夠全面完整地搜索采集各級政府機(jī)關(guān)網(wǎng)頁信息,隨時搜索采集重點(diǎn)網(wǎng)站和網(wǎng)頁的動態(tài)信息;可以根據(jù)授權(quán)搜索采集政務(wù)網(wǎng)頁信息,并提供方便的權(quán)限設(shè)置功能;可以按定義自動搜索采集政務(wù)網(wǎng)頁信息,可以記錄網(wǎng)頁中的單位名稱、系統(tǒng)名稱等標(biāo)識網(wǎng)頁屬性的信息;能夠提供超鏈拓?fù)渌阉?,自動地搜索整個政務(wù)網(wǎng)中的超鏈信息;提供政務(wù)網(wǎng)信息更新搜索;支持用戶自行制定對網(wǎng)頁信息采集和更新的搜索方案和策略,包括設(shè)置搜索的范圍、內(nèi)容、網(wǎng)頁文件類型等;支持對框架(Frame)網(wǎng)頁結(jié)構(gòu)的搜索。
⑵ 信息分析
信息分析作為政府信息網(wǎng)搜索引擎及信息檢索系統(tǒng)分析挖掘的工具,主要提供對采集的Web信息內(nèi)容進(jìn)行分析與挖掘等信息二次利用,提高信息的利用效率。
系統(tǒng)應(yīng)提供自動分類、自動聚類功能,并提供方便的人工維護(hù)手段,可以依據(jù)政府信息類別及用戶提出的其他標(biāo)準(zhǔn)和參考信息,對搜集到的政務(wù)網(wǎng)上全部網(wǎng)頁信息自動分類,具有多類內(nèi)容的網(wǎng)頁應(yīng)分別歸入相應(yīng)類中,并顯現(xiàn)歸屬類的網(wǎng)頁內(nèi)容。
⑶ 數(shù)據(jù)庫管理
數(shù)據(jù)庫管理作為下載網(wǎng)頁內(nèi)容、網(wǎng)頁超鏈拓?fù)浼坝脩舻目蛻舳藘?nèi)容管理平臺,向請求服務(wù)系統(tǒng)提供各類應(yīng)用資源庫。資源庫類型如圖1所示。
[數(shù)據(jù)庫管理][聚類信息數(shù)據(jù)庫][主題詞詞庫 ][同義詞詞庫 ][近義詞詞庫 ][熱點(diǎn)詞詞庫 ][限制詞詞庫 ]
圖1 數(shù)據(jù)庫分類圖
另外,通過數(shù)據(jù)庫鏡像功能,從提供鏡像服務(wù)的其他搜索引擎服務(wù)網(wǎng)站下載數(shù)據(jù),復(fù)制數(shù)據(jù)庫。系統(tǒng)提供完備的數(shù)據(jù)庫管理工具,便于維護(hù)數(shù)據(jù)庫,控制數(shù)據(jù)庫的安全性、完整性、一致性;可以便捷地建立新的數(shù)據(jù)庫。
⑷ 信息服務(wù)
系統(tǒng)提供對網(wǎng)頁內(nèi)容較全面的查詢服務(wù),包括網(wǎng)頁中文本的索引與摘要信息、全文信息、應(yīng)用系統(tǒng)定位信息和政務(wù)網(wǎng)上的其他信息;網(wǎng)頁間超鏈拓?fù)浣Y(jié)構(gòu)信息;信息查詢可以提供統(tǒng)一格式的查詢頁面,可以將采集的網(wǎng)頁轉(zhuǎn)換為格式統(tǒng)一的查詢頁面供查詢用戶瀏覽,查詢頁面應(yīng)具有特色,方便實(shí)用。
查詢系統(tǒng)提供多種查詢方式,包括:類目查詢、查詢詞查詢、任務(wù)定制查詢、欄目定制查詢等,并可以將多種查詢方式結(jié)合使用。
信息查詢系統(tǒng)提供多種查詢方法,包括模糊查詢、精確查詢、外部特征與正文內(nèi)容的各種邏輯組合查詢、全方位的位置查詢、二次查詢、漸進(jìn)查詢等。
⑸ 系統(tǒng)管理
系統(tǒng)管理模塊作為整個系統(tǒng)的管理工具,應(yīng)提供實(shí)用的管理控制功能,保證用戶可以協(xié)調(diào)并控制系統(tǒng)運(yùn)行,進(jìn)行參數(shù)設(shè)置,具有完整的容錯、備份、崩潰修復(fù)機(jī)制,便于用戶對鏡像站下載、復(fù)制數(shù)據(jù)庫。系統(tǒng)具備用戶權(quán)限管理功能,提供實(shí)用方便的用戶管理界面和查詢界面的維護(hù)、修改工具。便于用戶管理人員查詢網(wǎng)頁信息和管理系統(tǒng)。
系統(tǒng)應(yīng)提供方便的查詢頁面維護(hù)手段,以便用戶管理人員自行對頁面增、刪、改。信息查詢系統(tǒng)可以方便地鏈接到各級政府機(jī)關(guān)網(wǎng)站。
系統(tǒng)應(yīng)提供系統(tǒng)日志及管理日志功能。
⑹ 應(yīng)用接口
系統(tǒng)應(yīng)具有良好的開放性,并能提供相應(yīng)的開發(fā)接口(包括COM、JavaBeans、C/C++等開發(fā)接口),能夠檢索、處理各種關(guān)系型數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)庫中的內(nèi)容,提供與請求服務(wù)系統(tǒng)和其他應(yīng)用軟件的接口,便于輸出和利用搜索引擎所收集的信息。
2.3 系統(tǒng)性能需求分析
⑴ 查詢性能指標(biāo)
系統(tǒng)的查詢速度在百G級以下數(shù)據(jù)集合上達(dá)到亞秒級,對于查詢請求,應(yīng)在秒級顯示查詢結(jié)果,并且不隨文件數(shù)量增大而降低效率。搜索引擎應(yīng)具有較強(qiáng)的并發(fā)訪問性能,近期應(yīng)支持500個用戶同時查詢的要求,查詢速度小于1秒。
系統(tǒng)的查準(zhǔn)率應(yīng)達(dá)到90%以上,查全率應(yīng)達(dá)到99%以上。
⑵ 采集更新性能指標(biāo)
系統(tǒng)按照授權(quán)采集政務(wù)網(wǎng)上的所有網(wǎng)頁信息,應(yīng)具有較高的網(wǎng)頁信息更新速度,在傳輸速率10Mb以上的網(wǎng)絡(luò)環(huán)境中,網(wǎng)頁信息可以每日更新,在傳輸速率10MB以下的網(wǎng)絡(luò)環(huán)境中,網(wǎng)頁信息可以每周更新,任務(wù)定制查詢中所需網(wǎng)頁信息可隨時更新。數(shù)據(jù)索引更新時間平均小于0.02秒/記錄(每條記錄4Kb)。
⑶ 網(wǎng)頁文件數(shù)據(jù)庫性能指標(biāo)
系統(tǒng)采用的網(wǎng)頁文件數(shù)據(jù)庫滿足以下性能指標(biāo)要求:
① 支持跨平臺的應(yīng)用,支持各種主流的操作系統(tǒng);
② 支持?jǐn)?shù)據(jù)庫一對多的單向鏡像;
③ 多線程設(shè)計,支持SMP體系結(jié)構(gòu),支持大量并發(fā)用戶訪問,峰值訪問量滿足1000人/秒。
3 基于政務(wù)網(wǎng)的搜索引擎及信息檢索管理系統(tǒng)設(shè)計
3.1 總體架構(gòu)
整個系統(tǒng)采用三層體系框架,①門戶接口層:檢索與服務(wù)子系統(tǒng)、管理子系統(tǒng)、資源注冊子系統(tǒng)和交換接口子系統(tǒng);②資源庫子系統(tǒng):網(wǎng)頁數(shù)據(jù)庫、文本數(shù)據(jù)庫和詞典庫;③核心功能層:搜索采集子系統(tǒng)、信息分析子系統(tǒng)、索引子系統(tǒng)和統(tǒng)計分析子系統(tǒng)。
利用Web Service技術(shù)實(shí)現(xiàn)客戶端和數(shù)據(jù)庫服務(wù)器之間的數(shù)據(jù)交互,以達(dá)到門戶接口層和核心功能層的分離。
整個系統(tǒng)總體框架結(jié)構(gòu)如圖2所示。
[技術(shù)標(biāo)準(zhǔn)規(guī)范] [網(wǎng)頁數(shù)據(jù)庫] [文本數(shù)據(jù)庫] [詞典庫][資源庫子系統(tǒng)][核心功能層][搜索采集
子系統(tǒng)][信息分析
子系統(tǒng)][索引
子系統(tǒng)][統(tǒng)計分析
子系統(tǒng)] [門戶接口層][檢索與服務(wù)
子系統(tǒng)][管理
子系統(tǒng)][資源注冊
子系統(tǒng)][交換接口
子系統(tǒng)] [安全保障體系]
圖2 系統(tǒng)框架結(jié)構(gòu)圖
3.2 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
基于以上的分布式搜索引擎設(shè)計及項目的性能要求,建議采用以下的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如圖3所示。
圖3 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
兩臺數(shù)據(jù)庫服務(wù)器為一組,互為鏡像、動態(tài)切換,一組數(shù)據(jù)庫服務(wù)器連接兩臺采集服務(wù)器。
在系統(tǒng)運(yùn)行初期,建議部署兩組數(shù)據(jù)庫服務(wù)器,共4臺數(shù)據(jù)庫服務(wù)器,配4臺采集服務(wù)器。今后隨著網(wǎng)頁數(shù)據(jù)庫內(nèi)容的增長,可再以組為單位擴(kuò)充數(shù)據(jù)庫服務(wù)器。
Web服務(wù)器和應(yīng)用服務(wù)器可配置在一臺PC服務(wù)器上,安裝搜索引擎門戶軟件。
另外再部署一臺控制服務(wù)器,用以安裝分布式搜索引擎的并發(fā)控制中心以及報錯系統(tǒng)日志。
3.3 功能模塊
[搜索采集 ][信息分析 ][交換與接口][用戶權(quán)限][檢索與服務(wù)][系統(tǒng)控制 ][統(tǒng)計分析 ][索引資源庫][系統(tǒng)功能]
圖4 系統(tǒng)功能模塊圖
⑴ 搜索采集子系統(tǒng)
網(wǎng)站搜索采集是搜索引擎系統(tǒng)的第一個關(guān)鍵性環(huán)節(jié)。只有首先從浩如煙海的網(wǎng)頁中采集到與目標(biāo)主題相關(guān)的大批量的數(shù)據(jù),并且盡量做到完整與準(zhǔn)確,才能保證后續(xù)對數(shù)據(jù)進(jìn)行分析、分類、加工等處理的有效性和準(zhǔn)確性。
⑵ 信息分析子系統(tǒng)
采集子系統(tǒng)已經(jīng)生成了原始網(wǎng)頁數(shù)據(jù)集,信息分析子系統(tǒng)是在此基礎(chǔ)之上對網(wǎng)頁內(nèi)容進(jìn)行分析處理,生成網(wǎng)頁元數(shù)據(jù)信息、網(wǎng)頁文本摘要、內(nèi)容分類、關(guān)鍵詞等信息,以備后續(xù)的索引和利用。
信息分析子系統(tǒng)根據(jù)功能的不同又可以分為內(nèi)容提取模塊、分類和聚類模塊、文本過濾模塊、詞典自動生成模塊。
⑶ 交換與接口子系統(tǒng)
經(jīng)過分析的數(shù)據(jù),在檢索門戶上提供查詢請求的WebService服務(wù),以利于其他應(yīng)用系統(tǒng)查詢和獲取搜索引擎資源庫中的信息,然后,通過數(shù)據(jù)交換區(qū)進(jìn)行信息安全交換,最終進(jìn)入數(shù)據(jù)庫服務(wù)器。安全交換如圖5所示。
圖5 安全交換示意圖
⑷ 檢索與服務(wù)子系統(tǒng)
支持多種檢索運(yùn)算符;支持包括外部特征與正文內(nèi)容的各種邏輯組合檢索、多字段復(fù)合檢索、距離檢索、二次檢索、歷史檢索、相關(guān)詞擴(kuò)展檢索、分類導(dǎo)航檢索、西文(字符)字段支持前方一致檢索、短語與句子檢索功能等。系統(tǒng)提供基于知識或同義詞典的擴(kuò)展檢索功能,能夠滿足特殊應(yīng)用領(lǐng)域的高查準(zhǔn)率和高查全率的要求,詞典可維護(hù)。支持對檢索結(jié)果的各種排序;對檢索結(jié)果可按與檢索表達(dá)式的相關(guān)性和重要性程度排序;基于字段的排序;后進(jìn)先出的快速排序;系統(tǒng)和主流的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)無縫集成;支持對關(guān)系型數(shù)據(jù)庫的文本數(shù)據(jù)的檢索能力。
⑸ 用戶權(quán)限子系統(tǒng)
系統(tǒng)將用戶分為系統(tǒng)管理員、搜索采集員、數(shù)據(jù)庫管理員、普通查詢用戶四個等級的用戶。用戶根據(jù)自己的權(quán)限,各司其職,完成相應(yīng)的系統(tǒng)維護(hù)任務(wù)。
表1 用戶角色和操作關(guān)系表
[用戶\&操作\&系統(tǒng)管理員\&管理用戶、分配管理權(quán)限、設(shè)置系統(tǒng)運(yùn)行參數(shù)、管理系統(tǒng)日志\&搜索采集員\&定義和配置采集域、監(jiān)控采集程序運(yùn)行、設(shè)置采集策略\&數(shù)據(jù)管理員\&管理和維護(hù)資源庫,分配資源庫權(quán)限,備份、復(fù)制數(shù)據(jù)庫\&普通查詢用戶\&根據(jù)授權(quán)訪問和查詢資源庫,獲得個性化服務(wù)\&]
⑹ 系統(tǒng)控制子系統(tǒng)
控制子系統(tǒng)實(shí)現(xiàn)對分布式搜索引擎系統(tǒng)的并發(fā)調(diào)度。
分布式搜索引擎是根據(jù)地域、分類、IP地址及其他的劃分標(biāo)準(zhǔn)將全網(wǎng)分成若干個自治區(qū)域,在每個自治區(qū)域內(nèi)設(shè)立一個檢索服務(wù)器,而每個檢索服務(wù)器由信息搜索機(jī)器人、網(wǎng)頁索引數(shù)據(jù)庫和檢索代理三部分組成。
⑺ 索引子系統(tǒng)與資源庫
經(jīng)過信息分析子系統(tǒng)生成的數(shù)據(jù),由索引子系統(tǒng)加載入網(wǎng)頁資源庫中。網(wǎng)頁資源庫包括網(wǎng)頁數(shù)據(jù)庫、網(wǎng)頁文本庫和詞典庫三類。具體流程如圖6所示。
[索引數(shù)據(jù)緩存區(qū)] [檢索門戶][檢索代理] [檢索庫][數(shù)據(jù)采集
數(shù)據(jù)分析][索引模塊] [索引庫][切換控制
模塊]
圖6 索引子系統(tǒng)于資源庫流程圖
⑻ 統(tǒng)計分析子系統(tǒng)
統(tǒng)計管理是在日志的基礎(chǔ)上,提供用戶操作統(tǒng)計、資源分布統(tǒng)計、網(wǎng)站訪問統(tǒng)計等幾種統(tǒng)計功能。
統(tǒng)計項目有:信息資源量;統(tǒng)計按地域、按單位的信息資源量及分布狀況;統(tǒng)計網(wǎng)站網(wǎng)頁數(shù)量;統(tǒng)計查詢詞頻、分類查詢頻度、欄目查詢頻度;統(tǒng)計用戶的訪問頻度和分布狀況。
4 結(jié)束語
本文探索研究了政務(wù)網(wǎng)搜索引擎及信息檢索系統(tǒng),實(shí)現(xiàn)了政務(wù)網(wǎng)上的網(wǎng)頁文件信息的抓取,通過加工整合,構(gòu)建起政務(wù)網(wǎng)網(wǎng)頁信息資源庫,實(shí)現(xiàn)對網(wǎng)頁信息二次開發(fā)利用,為政務(wù)網(wǎng)內(nèi)各級機(jī)關(guān)提供快速、簡便地查找信息提供了參考,為推進(jìn)政務(wù)網(wǎng)業(yè)務(wù)應(yīng)用建設(shè)積累經(jīng)驗(yàn)、創(chuàng)造條件。另外,隨著信息時代的到來,政務(wù)網(wǎng)上圖片,音、視頻等多媒體信息應(yīng)用越來越廣泛,如何做好采集后多媒體信息的檢索和關(guān)聯(lián)利用是下一步關(guān)注的方向和研究的重點(diǎn)。
參考文獻(xiàn):
[1] GB/T 9385-1988.計算機(jī)軟件需求編制指南,2012.
[2] 國務(wù)院信息化辦公室和國家標(biāo)準(zhǔn)化管理委員會.電子政務(wù)標(biāo)
準(zhǔn)化指南(第二版),2010.
[3] 穆勇,彭凱.政務(wù)信息資源目錄體系建設(shè)理論與實(shí)踐[M].北京大學(xué)出
版社,2009.
[4] 基于XML的電子文件格式規(guī)范.
[5] 汪風(fēng)蘭.軟件體系結(jié)構(gòu)初探[J].計算機(jī)時代,2011.8.