周力峰,王 奔
(長江科學(xué)院科技成果推廣及信息中心,武漢430010)
《長江水利科技網(wǎng)》(簡稱院網(wǎng)站,備案序號為鄂 ICP 備 05012336,http://www.crsri.cn)是長江科學(xué)院的對外網(wǎng)站,其功能定位為對外宣傳窗口、文獻(xiàn)交流平臺及異地辦公工具。圍繞這3個(gè)功能,進(jìn)行數(shù)據(jù)組織并常年開展運(yùn)行維護(hù)。
網(wǎng)站建設(shè)主要包括網(wǎng)站開發(fā)與數(shù)據(jù)組織2部分?!堕L江水利科技網(wǎng)》由長江科學(xué)院自主開發(fā),根據(jù)需要,于2002年、2007年、2010年3次進(jìn)行了網(wǎng)站升級,持續(xù)對網(wǎng)站的結(jié)構(gòu)進(jìn)行了優(yōu)化[1]。在10余年的網(wǎng)站建設(shè)運(yùn)行過程中,筆者體會很深的是,數(shù)據(jù)是網(wǎng)站的生命,數(shù)據(jù)組織是網(wǎng)站運(yùn)行維護(hù)的核心工作?;诖苏J(rèn)識,本文不談網(wǎng)站開發(fā),而重點(diǎn)討論網(wǎng)站數(shù)據(jù)組織問題,其中主要有數(shù)據(jù)規(guī)劃、數(shù)據(jù)管理、數(shù)據(jù)安全等。
數(shù)據(jù)規(guī)劃是在網(wǎng)站建設(shè)前期應(yīng)該解決的關(guān)鍵技術(shù)問題,主要包括數(shù)據(jù)源分析、確定數(shù)據(jù)格式及數(shù)據(jù)平臺選型等。數(shù)據(jù)規(guī)劃要相對獨(dú)立于網(wǎng)站開發(fā)平臺,總體要求是全面、系統(tǒng)、準(zhǔn)確、關(guān)聯(lián)。合理的數(shù)據(jù)規(guī)劃可以簡化程序代碼開發(fā),可以保證數(shù)據(jù)長期有效的使用,還可以使得數(shù)據(jù)在更大的范圍內(nèi)被共享。
網(wǎng)站建設(shè)首先要摸清網(wǎng)站需要哪些數(shù)據(jù)、數(shù)據(jù)源于何方,這屬于網(wǎng)站開發(fā)需求分析的組成部分[2]。數(shù)據(jù)源是由網(wǎng)站的用途所決定的,院網(wǎng)站需要的數(shù)據(jù)來源于新聞稿、文獻(xiàn)資料、辦公與交互等3方面,建立相應(yīng)的數(shù)據(jù)源統(tǒng)計(jì)表。
數(shù)據(jù)源統(tǒng)計(jì)表要羅列所有需要用到的數(shù)據(jù)來源。網(wǎng)站數(shù)據(jù)可以分為自產(chǎn)數(shù)據(jù)、他引數(shù)據(jù)2大類。對于自產(chǎn)數(shù)據(jù),要在表中確定每一種數(shù)據(jù)的數(shù)據(jù)類型、數(shù)據(jù)提供責(zé)任者,數(shù)據(jù)提交時(shí)限(或數(shù)據(jù)刷新頻度);對于他引數(shù)據(jù),要確定穩(wěn)定數(shù)據(jù)獲取渠道,并確認(rèn)數(shù)據(jù)引用的合法性,保護(hù)原產(chǎn)數(shù)據(jù)的知識產(chǎn)權(quán)。在完成了數(shù)據(jù)源統(tǒng)計(jì)過程中,最好還要估算各類數(shù)據(jù)容量,以便為數(shù)據(jù)庫平臺選型提供依據(jù)。
數(shù)據(jù)格式是指數(shù)據(jù)在數(shù)據(jù)庫中的存儲格式,即保存在文件或記錄中的編排格式。要采用數(shù)據(jù)字典,在描述網(wǎng)頁基本信息及數(shù)據(jù)提取方式的同時(shí),確定網(wǎng)站數(shù)據(jù)表和字段基本信息的元數(shù)據(jù)[3]。
數(shù)據(jù)庫數(shù)據(jù)也可以分為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)即可以存儲在數(shù)據(jù)庫中、并能用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的行數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)主要指辦公文檔、文本、圖片、XML、HTML、各類報(bào)表,以及圖象、聲音、影視、超媒體等信息等大文本文件。院網(wǎng)站數(shù)據(jù)表格式如表1所示(表1只選取了部分主要字段進(jìn)行單項(xiàng)與關(guān)聯(lián)說明)。
采用行業(yè)(單位)統(tǒng)一確定的數(shù)據(jù)格式也叫數(shù)據(jù)標(biāo)準(zhǔn)。網(wǎng)站數(shù)據(jù)格式是單位數(shù)據(jù)標(biāo)準(zhǔn)的子集。它要保障網(wǎng)站數(shù)據(jù)的產(chǎn)生、處理、使用的規(guī)范性,并能保證網(wǎng)站數(shù)據(jù)與單位數(shù)據(jù)中心數(shù)據(jù)的共享。有了標(biāo)準(zhǔn)的數(shù)據(jù)格式,既可以保證數(shù)據(jù)錄入的規(guī)范性、滿足數(shù)據(jù)表的合理性,也可以為數(shù)據(jù)在新聞、資料、專題等欄目中的多重調(diào)用與復(fù)用創(chuàng)造條件。
表1 院網(wǎng)站數(shù)據(jù)表格式Table 1 Formats of various data sheets
要選擇合適的數(shù)據(jù)庫平臺,以承載所需所有類型的數(shù)據(jù),保證有足夠大的存儲空間,提供快速的數(shù)據(jù)提取能力,并有健全的數(shù)據(jù)安全機(jī)制。
數(shù)據(jù)庫選型的原則是穩(wěn)定可靠、可擴(kuò)展、安全性,并支持豐富的開發(fā)工具[4]。院網(wǎng)站數(shù)據(jù)庫比選在Oracle與SQL Server之間進(jìn)行,兩者都是目前的主流數(shù)據(jù)庫管理系統(tǒng)。Oracle是目前的主流數(shù)據(jù)庫管理系統(tǒng),在提供完備數(shù)據(jù)管理能力同時(shí),對數(shù)據(jù)備份保護(hù)、數(shù)據(jù)恢復(fù)等方面都有獨(dú)到之處;而SQL Server作為微軟在Windows平臺上開發(fā)的數(shù)據(jù)庫,一經(jīng)推出就以其易用性得到了廣大用戶的青睞。區(qū)別于FoxPro、Access小型數(shù)據(jù)庫,SQL Server功能完備,它支持開發(fā)的引擎、標(biāo)準(zhǔn)的SQL語言、擴(kuò)展的特性(如復(fù)制、OLAP、分析)等功能,并具備像存儲過程、觸發(fā)器等大型數(shù)據(jù)庫才擁有的特性;且相對Oracle,SQL Server性價(jià)比高,輕便且功能強(qiáng)大,因此,我們選用了SQL Server 2000。
數(shù)據(jù)管理是在網(wǎng)站運(yùn)行維護(hù)階段的主要工作,其管理對象是數(shù)據(jù)實(shí)體。本節(jié)結(jié)合院網(wǎng)站運(yùn)行維護(hù)的實(shí)際情況來具體論述數(shù)據(jù)管理,主要包括數(shù)據(jù)組織制度、數(shù)據(jù)處理、數(shù)據(jù)表現(xiàn)、數(shù)據(jù)檢索,以及多網(wǎng)站之間的數(shù)據(jù)共享等。
我們在實(shí)際工作中認(rèn)識到,網(wǎng)站數(shù)據(jù)源渠道多,涉及各個(gè)責(zé)任單位,需要有一個(gè)統(tǒng)一的制度來保障數(shù)據(jù)的有效提供。為了保障院網(wǎng)站的正常、高效運(yùn)行,頒布了《長江科學(xué)院網(wǎng)站管理實(shí)施細(xì)則》①長江科學(xué)院.長江科學(xué)院網(wǎng)站管理實(shí)施細(xì)則,科[2010]55號。,在明確網(wǎng)站建設(shè)、網(wǎng)站運(yùn)行維護(hù)責(zé)任要求的同時(shí),重點(diǎn)提出了“內(nèi)外網(wǎng)資料性信息的更新要求”,見表2。
表2 長江科學(xué)院內(nèi)外網(wǎng)資料類信息的更新要求Table 2 Requirements for document information update on the external and internal websites of YRSRI
表2明確了各方職責(zé),很好地保障了數(shù)據(jù)的提供與更新。而對于一些外引數(shù)據(jù),我們要求必須是公開網(wǎng)站發(fā)布的,在轉(zhuǎn)載時(shí)要準(zhǔn)確注明出處。
數(shù)據(jù)處理包括材料加工、數(shù)據(jù)錄入與編輯等。
材料加工主要針對文檔、圖片、聲音、影視文件而言。對圖片文件,院網(wǎng)站允許發(fā)布的格式包括GIF/JPG/PNG/BMP等。在一般的新聞稿中,推薦使用JPG格式;在文獻(xiàn)資料中,必要時(shí)可以使用其他3種格式。為了有效利用存儲容量,院網(wǎng)站要求的單張圖片大小限制為300 kB。其他類別文件(WORD,EXCEL,PDF,WAV,MPEG)精簡到必要大小以后都可以作為附件編輯入庫供使用。
院網(wǎng)站提供可視化的后臺編輯平臺,保證數(shù)據(jù)錄入與編輯審核(信息發(fā)布流程)正常進(jìn)行。為了保障信息發(fā)布責(zé)任制得以落實(shí),采用統(tǒng)一的《新聞稿紙》提交稿件。在《新聞稿紙》中,除了要求提交規(guī)范的標(biāo)題、正文、圖片(含其他附件)以外,還要求撰稿人、審核人及編輯簽字,并鉤選編發(fā)轉(zhuǎn)發(fā)的網(wǎng)站要求。《新聞稿紙》的使用,增強(qiáng)了撰稿人、審核人及編輯的責(zé)任感,提高了編輯的質(zhì)量。
其實(shí),除了新聞稿件編輯之外。還有大量的資料性數(shù)據(jù)要處理,如文獻(xiàn)專題、單位資質(zhì)、項(xiàng)目成果數(shù)據(jù)庫等,其中有些需要批量導(dǎo)入。對于這些需求,院網(wǎng)站均提供相應(yīng)的數(shù)據(jù)接口。他引新聞或文獻(xiàn)在院網(wǎng)站中也占相當(dāng)比重,多采用編輯轉(zhuǎn)發(fā)形式,而對一些時(shí)效性強(qiáng)、篇幅大的稿件有時(shí)也采用網(wǎng)頁直接鏈接方式。
院網(wǎng)站以靜態(tài)網(wǎng)頁文件(HTML/CSS)、動態(tài)網(wǎng)頁文件(ASP/JSP/PL/PHP)2類方式完成數(shù)據(jù)展現(xiàn)。
靜態(tài)網(wǎng)頁是標(biāo)準(zhǔn)的HTML文件,不包含在服務(wù)器端運(yùn)行的腳本,由開發(fā)人員編好后交給Web服務(wù)器運(yùn)行,沒有數(shù)據(jù)庫的支持。由于靜態(tài)網(wǎng)頁可以包含文本、圖像、聲音、FLASH動畫、客戶端腳本和ActiveX控件及JAVA小程序等,會使得網(wǎng)頁動感十足,很具表現(xiàn)力。
動態(tài)網(wǎng)頁在確定的頁面上,按要求提取數(shù)據(jù)庫數(shù)據(jù)來實(shí)現(xiàn)信息發(fā)布。動態(tài)網(wǎng)頁實(shí)際上并不是獨(dú)立存在于服務(wù)器上的網(wǎng)頁文件,只有當(dāng)用戶請求時(shí),服務(wù)器才返回一個(gè)完整的網(wǎng)頁。動態(tài)網(wǎng)頁的特征是以數(shù)據(jù)庫為基礎(chǔ),可以大大降低網(wǎng)站維護(hù)的工作量;網(wǎng)站采用動態(tài)網(wǎng)頁技術(shù)的優(yōu)勢很多,可以實(shí)現(xiàn)大量服務(wù)器與用戶之間的信息交互,如用戶注冊、用戶登錄、在線調(diào)查、用戶與網(wǎng)站互動等;還可以大大降低網(wǎng)頁日常維護(hù)的工作量。
院網(wǎng)站的數(shù)據(jù)展示以動態(tài)網(wǎng)頁為主,靜態(tài)網(wǎng)頁為輔。靜態(tài)網(wǎng)頁主要顯示院基本情況介紹(院簡介、組織機(jī)構(gòu)、資質(zhì)證書、質(zhì)量管理、文明單位等),并實(shí)現(xiàn)首頁與專題中的動畫渲染表現(xiàn);院網(wǎng)站大量使用動態(tài)網(wǎng)頁去顯示新聞、文獻(xiàn)、數(shù)據(jù)圖表,并用于公益性開放項(xiàng)目申報(bào)、研究生報(bào)名考試登記、人員招聘、項(xiàng)目質(zhì)量反饋等交互式的查詢處理欄目?!皠屿o結(jié)合”有效地保證了數(shù)據(jù)展示的準(zhǔn)確生動、豐富與靈活。
當(dāng)網(wǎng)站達(dá)到一定的數(shù)據(jù)規(guī)模時(shí),就需要有方便的數(shù)據(jù)檢索。院網(wǎng)站運(yùn)行10余年,數(shù)據(jù)已經(jīng)積累到了一定程度,逐步在重視檢索技術(shù)應(yīng)用。在分欄目檢索時(shí),新聞性數(shù)據(jù)與文獻(xiàn)性數(shù)據(jù)檢索一般是分開進(jìn)行的。但是在實(shí)際使用中,兩類數(shù)據(jù)的內(nèi)容有些相互滲透。這就需要網(wǎng)站首先實(shí)現(xiàn)全站題錄級數(shù)據(jù)檢索,有條件的情況下實(shí)現(xiàn)全文檢索。目前,院網(wǎng)站在提供網(wǎng)站導(dǎo)航的基礎(chǔ)上,重點(diǎn)做了基于欄目的題錄級數(shù)據(jù)檢索,滿足基本檢索需要。由于我們大量使用動態(tài)網(wǎng)頁,全文檢索需要專用工具,現(xiàn)在也在開展相關(guān)軟件選型技術(shù)調(diào)研。
如表2所示,長江科學(xué)院開發(fā)的網(wǎng)站群包括院內(nèi)外網(wǎng)站、重點(diǎn)實(shí)驗(yàn)室(工程研究中心)網(wǎng)站、研究生教育網(wǎng)站、掛靠長江科學(xué)院的學(xué)會(協(xié)會)網(wǎng)站、院屬企業(yè)網(wǎng)站等。在院網(wǎng)站之中,每年又要建設(shè)若干個(gè)網(wǎng)站專欄。網(wǎng)站群及網(wǎng)站專欄產(chǎn)生了大量的數(shù)據(jù),在網(wǎng)站規(guī)劃中統(tǒng)一了數(shù)據(jù)表及數(shù)據(jù)格式,使得一份數(shù)據(jù)可以多處共享。內(nèi)網(wǎng)信息經(jīng)審核后,可以跨越防火墻“擺渡”進(jìn)入外網(wǎng)數(shù)據(jù)庫;基于院網(wǎng)站數(shù)據(jù)庫的稿件(含文獻(xiàn))可以一稿多發(fā),也實(shí)現(xiàn)了一稿的欄目(網(wǎng)站)轉(zhuǎn)移、復(fù)制功能。這樣,既大大減輕了編輯工作量,也有效降低了數(shù)據(jù)容量。
網(wǎng)站安全的“先天不足”,需要注重網(wǎng)站數(shù)據(jù)的安全防范。院網(wǎng)站主要通過設(shè)備配備、權(quán)限限制、數(shù)據(jù)備份等措施來保障網(wǎng)站數(shù)據(jù)安全。
當(dāng)前,黑客對網(wǎng)站破壞的主要手段是SQL注入攻擊,它利用Web應(yīng)用程序或網(wǎng)頁中編碼缺陷進(jìn)行攻擊,例如,黑客可能在某個(gè)字段后輸入一小段SQL代碼來收集郵件地址,如果應(yīng)用程序?qū)斎氲膬?nèi)容未作安全驗(yàn)證,服務(wù)器就可能執(zhí)行黑客輸入的SQL命令,讓黑客獲得服務(wù)器的控制權(quán)。院網(wǎng)站服務(wù)器配備了網(wǎng)頁防篡改軟件天融信TopIDP,有效防范了SQL 注入攻擊[5]。
院網(wǎng)站在文獻(xiàn)資料訪問方面注意內(nèi)外有別。對于內(nèi)部專業(yè)文獻(xiàn)(含中外文期刊文獻(xiàn)數(shù)據(jù)庫)應(yīng)用,使用VPN通道及用戶密碼。對于安全性要求更高文件訪問,使用網(wǎng)絡(luò)文件加密方式,需安裝專門的加密軟件客戶端才能查閱,并且不允許拷貝、拷屏、打印。
數(shù)據(jù)備份是網(wǎng)站數(shù)據(jù)保護(hù)的常規(guī)措施。院網(wǎng)站每月、季、年定期統(tǒng)計(jì)數(shù)據(jù)增長情況,為數(shù)據(jù)存儲提供依據(jù)。首先,充分利用SQL Server數(shù)據(jù)保護(hù)機(jī)制實(shí)現(xiàn)系統(tǒng)內(nèi)的安全防護(hù)。在此基礎(chǔ)上,院網(wǎng)站數(shù)據(jù)納入院數(shù)據(jù)中心,一起進(jìn)行每天的增量備份、每月的全備份,并在院網(wǎng)絡(luò)存儲設(shè)備中實(shí)現(xiàn)了大容量的數(shù)據(jù)異地備份。
10余年來,《長江水利科技網(wǎng)》功能不斷完善、數(shù)據(jù)日益豐富、運(yùn)行比較穩(wěn)定,這些得益于良好的數(shù)據(jù)規(guī)劃、有效的數(shù)據(jù)管理。隨著網(wǎng)絡(luò)通訊技術(shù)、網(wǎng)站技術(shù)的發(fā)展,院網(wǎng)站也需要提高與發(fā)展。在功能方面,希望增加視頻文件的播放、開發(fā)基于WAP協(xié)議的手機(jī)版網(wǎng)站;在數(shù)據(jù)方面,爭取大力加強(qiáng)文獻(xiàn)資料性數(shù)據(jù)的網(wǎng)站共享,引進(jìn)集成文獻(xiàn)全文檢索軟件,以使長江科學(xué)院60年豐富的治水治江成果能夠更好地為國家、為社會服務(wù)。
[1]周秋菊,周力峰,徐洪林.長江科學(xué)院Internet網(wǎng)站開發(fā)[J].長江科學(xué)院院報(bào),2001,(6):59 -61.(ZHOU Qiu-ju,ZHOU Li-feng,XU Hong-ling.Development of YRSRI’s Internet Site[J].Journal of Yangtze River Scientific Research Institute,2001,(6):59 - 61.(in Chinese))
[2]鄭 艷.關(guān)于網(wǎng)站開發(fā)項(xiàng)目的需求分析[J].今日科苑,2009,(18):282 - 283.(ZHENG Yan.Demands of Website Development[J].Modern Science,2009,(18):282 -283.(in Chinese))
[3]鄧鐵清,王 愷,李德彩.網(wǎng)站建模與網(wǎng)站開發(fā)通用平臺的研究[J].軍事運(yùn)籌與系統(tǒng)工程,2003,(3):30-33.(DENG Tie-qing,WANG Kai,LI De-cai.Universal Platform for Website Modelling and Website Development[J].Military Operations Research and Systems Engineering,2003,(3):30 -33.(in Chinese))
[4]阿里西西網(wǎng)站.數(shù)據(jù)庫的選型原則[EB/OL].(2008-02 -09)[2012 -10 -12].http://www.alixixi.com/program/a/2008020938072.shtml.(Web Development Team.Principle of Database Selection[EB/OL].(2008-02 -09)[2012 -10 -12].http://www.alixixi.com/program/a/2008020938072.shtml.(in Chinese))
[5]張 敏.基于ASP的網(wǎng)站開發(fā)安全問題及漏洞防范研究[J].價(jià)值工程,2011,(13):183.(ZHANG Min.ASP-based Website Development Security and Vulnerability Prevention[J].Value Engineering,2011,(13):183.(in Chinese))