宋超
摘要:本文對基于Web的數(shù)據(jù)庫技術進行探討,確定基于Web的數(shù)據(jù)庫系統(tǒng)總體框架,詳細劃分了系統(tǒng)的總體功能并進行分別闡述,通過MySQL數(shù)據(jù)庫設計信息的采集、分析以及管理過程,確定并設計了各模塊的主要功能,經(jīng)實踐證實,該系統(tǒng)可實現(xiàn)對系統(tǒng)的有效管理,可自動跟蹤互聯(lián)網(wǎng)信息并進行分析與處理,自動生成網(wǎng)絡信息簡報,可滿足用戶對獲取信息的需求。
關鍵詞:數(shù)據(jù)庫;Web開發(fā)技術;系統(tǒng)開發(fā)
互聯(lián)網(wǎng)技術不斷發(fā)展的當前,通過網(wǎng)絡獲取信息具有方便、快速的優(yōu)勢,因此人們已經(jīng)習慣于這一信息獲取方式。本文探討了基于Web的數(shù)據(jù)庫開發(fā),可實現(xiàn)自動跟蹤信息并獲取,分析信息并處理,生成網(wǎng)絡信息簡報,能滿足人們對信息獲取的需求。
1Web信息獲取方法
Web的圖形界面良好,容易操作,因此受到人們的廣泛認可。Web上的信息資源豐富,但是Web基于文件系統(tǒng),通過靜態(tài)HTML文本形式儲存,不能像數(shù)據(jù)庫系統(tǒng)一樣來對數(shù)據(jù)進行管理。當前信息量不斷增加,為了為人們發(fā)現(xiàn)知識以及查詢信息提供便利,需要研制基于Web的檢索系統(tǒng)及索引。信息獲取系統(tǒng)主要有人工轉換與自動轉換這兩種。
人工轉換這一方法利用搜索引擎來實現(xiàn)對HTML等信息的獲取,經(jīng)人工處理轉化為數(shù)據(jù)庫系統(tǒng),之后進行查詢、排序以及索引,這種方法的優(yōu)勢在于實現(xiàn)難度低,但是其重要缺陷在于周期較長,因此無法滿足迅速更新數(shù)據(jù)的要求。
自動轉換這一方法經(jīng)系統(tǒng)在指定范圍內(nèi)迅速且自動地發(fā)現(xiàn)新信息并進行自動更新,能通過搜索引擎實現(xiàn)數(shù)據(jù)的收集及索引。
2基于Web的數(shù)據(jù)庫開發(fā)
2.1系統(tǒng)總體設計
系統(tǒng)為數(shù)據(jù)庫、信息采集以及信息管理等服務器組成,通過互聯(lián)網(wǎng)實現(xiàn)彼此的通信。系統(tǒng)用戶有兩類,普通用戶以及系統(tǒng)管理員,從系統(tǒng)管理員的權限上劃分可以細化為管理員與操作員。普通用戶的權限只有對相應文檔進行查閱與下載;管理員可登錄信息管理服務器創(chuàng)建采集任務,在數(shù)據(jù)庫中存入配置數(shù)據(jù)。信息采集服務器讀取相關數(shù)據(jù)后,采集信息并分析,在數(shù)據(jù)庫中儲存分析結果。信息管理服務器對采集任務結果進行讀取并進行統(tǒng)計及展示。
2.2功能模塊設計
子系統(tǒng)主要包括采集系統(tǒng)、處理系統(tǒng)、分析體統(tǒng)以及信息服務系統(tǒng)。
(1)信息采集系統(tǒng)
該系統(tǒng)負責對指定范圍的網(wǎng)站內(nèi)容進行定向采集,支持對PDF、word、PHP、ASP、JSP等動態(tài)內(nèi)容的分頁抓取,將信息抓取后以文件的形式單獨保存,也可以在數(shù)據(jù)庫的字段中進行存儲,采集范圍可包括整站采集、板塊內(nèi)容以及部分欄目采集。
通過關鍵詞:在常用搜索引擎中自動搜索數(shù)據(jù),結合實際需要來設計采集狀態(tài)、采集數(shù)量、開始/結束采集等,具備對站點資源數(shù)據(jù)進行查找、刪除、增添以及修改等管理權限。自動識別采集主體后追蹤采集任務。
(2)信息處理系統(tǒng)
這一系統(tǒng)可以設置行業(yè)用戶信息類以及報紙類等不同網(wǎng)站站點的開發(fā)優(yōu)先級,經(jīng)專題設置實現(xiàn)對信息的管理及分類,結合需要來對數(shù)據(jù)進行增添、刪除、編輯以及整理等管理維護;以媒體的時間、來源等為依據(jù)對采集到的目標媒體數(shù)據(jù)進行分類統(tǒng)計,之后自動生成信息目錄;采用平面媒體報告的形式將所采集的信息展示出來;獲取地址中的指定內(nèi)容;生成信息簡報并進行編輯;導入/導出需要采集的站點數(shù)據(jù)。
(3)信息分析系統(tǒng)
其功能包括對采集到的信息進行分析,對信息的主題進行識別,同時多角度跟蹤,通過熱詞以及聚類等方法來對發(fā)展趨勢進行判斷以及對所需內(nèi)容進行提取?;谏鲜龉δ芙y(tǒng)計根據(jù)信息的站點分布以及采集時間統(tǒng)計,輸出圖表形式的報告。
(4)信息服務系統(tǒng)
其功能包括對系統(tǒng)賬戶以及權限進行管理,確定信息采集詞;監(jiān)測專題采集,顯示信息詳情;對關注信息進行收藏。
2.3整體功能流程
根據(jù)專題出結果時,單個網(wǎng)站配置,之后在專題里設置關鍵詞:并添加網(wǎng)址,對篩選進行設置,對采集時間進行設置最后進入信息分析流程。當選擇根據(jù)詞頻出結果時,配置單個網(wǎng)站,確定模塊或者板塊,對篩選及采集時間進行設置,根據(jù)熱度給出關鍵詞:,最后進入信息分析流程。
進行信息分析時,信息的采集管理包括專題配置以及單個網(wǎng)站配置,確定信息采集管理之后選擇采集方式,采集方式包括專題采集、全網(wǎng)采集以及網(wǎng)站采集,之后進行定時采集,對內(nèi)容進行識別,分析信息并進行統(tǒng)計,生成簡報。
分別根據(jù)網(wǎng)站采集以及專題采集做出配置說明,采集方式包括全網(wǎng)(主要是搜狗以及百度等潴留搜索引擎)、專題(主要是網(wǎng)站中的某個欄目板塊)以及網(wǎng)站(指定的網(wǎng)站)這三種,指定采集數(shù)據(jù)類型,當進行全網(wǎng)采集時,要求指定關鍵詞:。
信息采集效率直接影響系統(tǒng)的使用效果,因此采用多線程方式來設計總體信息采集框架以提高信息采集效率,各線程執(zhí)行不同操作,從而充分利用資源。
2.4數(shù)據(jù)庫設計
由于系統(tǒng)設計大量數(shù)據(jù)表,需要通過多表分離的方式來對荷載進行均衡,為了解決數(shù)據(jù)的檢索及存儲問題,采用MySQL數(shù)據(jù)庫,其具有容易操作且高效、安全的優(yōu)勢,能為信息的管理以及統(tǒng)計分析提供便利。建立字段并完善,從而做到準確、全面地查詢數(shù)據(jù)。
邏輯結構中,采集任務信息表最為關鍵,采用關聯(lián)設計的方法來對相關的關鍵數(shù)據(jù)表進行設計。
3系統(tǒng)主要功能
3.1用戶管理功能
正如上文所說,系統(tǒng)的用戶有管理員與普通用戶兩種。具體的權限劃分方面,系統(tǒng)管理員可管理各模塊的內(nèi)容,設置采集時間權限等;操作員沒有權限操作用戶管理模式,但是有對其他模塊進行操作的權限;普通用戶只有對文檔進行查閱及下載的權限。根據(jù)這些需求,首先對系統(tǒng)模塊功能進行確定,對功能點進行排序標號,組合相應用戶類型,在數(shù)據(jù)庫的用戶權限表中進行儲存,將功能點的耦合度降低,基于此關聯(lián)匹配新用戶與指定用戶類型,從而配置用戶權限。
3.2采集及分析功能
分析需要采集的網(wǎng)站,基于此定義信息采集規(guī)則、處理流程。在網(wǎng)站的對應目錄下自定義配置文件,編寫對應網(wǎng)站的處理代碼。讀取采集任務時,先與數(shù)據(jù)庫連接,之后進行SQL語句的編寫。采集信息時,對采集任務的網(wǎng)站模塊ID、時間間隔、關鍵詞以及采集方式等進行解析讀寫,基于此將采集線程開啟,執(zhí)行采集任務。當成功采集結果主要內(nèi)容時,先以文章的位置為依據(jù)來編寫正則表達式,過濾結構化標簽,之后再提取文章主要信息。分析信息時,過濾文本無用符號,先建立系統(tǒng)通用詞庫,再通過調用功能去除文本通用詞,最后采用TextRank~法對關鍵詞進行提取,信息采集階段已經(jīng)在數(shù)據(jù)庫中存放了標題,處理階段已經(jīng)在磁盤上存放了正文,依次讀取文章信息,通過算法分析關鍵詞,待相同采集任務相關的文章都已經(jīng)分析完畢時,提取熱度最高的五個詞,這些詞就是關鍵詞。
4系統(tǒng)測試
通過黑盒測試法來測試該系統(tǒng)的主要功能模塊的主要功能,進而檢測該系統(tǒng)穩(wěn)定性與實用性。經(jīng)測試證明,系統(tǒng)管理員能有效管理系統(tǒng),能以用戶的需求為依據(jù)設置信息采集的目標站點、時間間隔以及主體,能通過多角度跟蹤主題的后續(xù)發(fā)展,且該系統(tǒng)在信息的采集、讀取以及分析方面表現(xiàn)良好,可通過平面媒體報告的形式將結果呈現(xiàn)給用戶。該系統(tǒng)的拓展性以及穩(wěn)定性良好,可投入使用。
5結束語
為了能夠滿足用戶的需求,本文對基于Web的數(shù)據(jù)庫技術進行探討,與Web技術以及HTTP協(xié)議相結合確定基于Web的數(shù)據(jù)庫系統(tǒng)總體框架,詳細劃分了系統(tǒng)的總體功能并進行分別闡述,基于系統(tǒng)整體拓撲結構,通過MySQL數(shù)據(jù)庫設計信息的采集、分析以及管理過程,確定并設計了各模塊的主要功能,最終經(jīng)實踐證實,該系統(tǒng)可實現(xiàn)對系統(tǒng)的有效管理,可自動跟蹤互聯(lián)網(wǎng)信息并進行分析與處理,自動生成網(wǎng)絡信息簡報,可滿足用戶對獲取信息的需求。