張駿 孫臻
【摘要】? ? 校園網(wǎng)環(huán)境下的互聯(lián)網(wǎng)應(yīng)用以教學(xué)科研為主,對圖書館文獻信息庫訪問的需求不斷增加,優(yōu)化網(wǎng)絡(luò)資源實現(xiàn)快捷查詢是一項重要工作。結(jié)合校園網(wǎng)出口帶寬用量數(shù)據(jù)和《電子資源訪問分析系統(tǒng)》項目中讀者訪問數(shù)據(jù),采取定期檢測為主、忙時檢測為輔的方式,著重在用網(wǎng)高峰時段和查詢高峰時段,對訪問目標文獻信息庫的網(wǎng)絡(luò)響應(yīng)速度等狀態(tài)進行自動檢測,形成多維度優(yōu)化策略,提升訪問體驗,提高查詢效率,增強服務(wù)能力。
【關(guān)鍵詞】? ? 校園網(wǎng)? ? 文獻信息庫訪問? ? 優(yōu)化
The Realization of the Optimization of Library Document Information Database Access Based on Big Data
ZHANG jun,SUN zhen (Ocean University of China,Qingdao 266100,China)
Abstract: The Internet application in the campus network environment is mainly for teaching and research, and the demand for access to the librarys document information database is increasing. It is an important task to optimize network resources to achieve quick query. Combining the campus network export bandwidth usage data and the reader access data in the “Electronic Resource Access Analysis System” project, adopt the method of regular detection as the main and busy hour detection as the supplement, focusing on the peak hours of network usage and query peak hours, and access to target documents The network response speed and other status of the information database are automatically detected to form a multi-dimensional optimization strategy to improve access experience, improve query efficiency, and enhance service capabilities.
Keywords: campus network; document information database access; optimization
引言
利用國內(nèi)外著名文獻信息庫獲取科研信息資料,成為高校師生日常工作中必不可少的技能。但由于國內(nèi)互聯(lián)網(wǎng)運營商眾多,網(wǎng)間互聯(lián)和國際互聯(lián)帶寬的不同,產(chǎn)生訪問文獻信息庫的速度快慢的差異。本文試著從分析影響網(wǎng)絡(luò)訪問的變量因素出發(fā),基于校園網(wǎng)產(chǎn)生的網(wǎng)絡(luò)大數(shù)據(jù)分析,提出一種圖書館文獻信息庫訪問優(yōu)化的方法。
一、影響變量因素
打開瀏覽器,輸入網(wǎng)址,填入關(guān)鍵字,點擊回車,返回結(jié)果,這一連串網(wǎng)絡(luò)通訊過程中的變量因素,可能影響目標是否可達,或者影響訪問速度。
1.1域名解析
瀏覽器應(yīng)答的第一步是DNS域名解析,它將我們輸入的英文域名轉(zhuǎn)譯成對應(yīng)的IP地址。由于中國聯(lián)通、中國電信、中國移動以及各大互聯(lián)網(wǎng)云服務(wù)提供商并存,同一個域名對應(yīng)著多個IP地址信息,這些IP的歸屬可能包含上述服務(wù)商的一種或者多種,也可能是IPv4或IPv6的一種或者多種。解析返回哪個IP信息能夠訪問更快捷,是第一個變量因素。
1.2路徑選擇
當域名解析成IP地址后,第二步就該選擇走哪條路到達對方。校園網(wǎng)一般配置多運營商互聯(lián)網(wǎng)出口,通過鏈路負載均衡設(shè)備進行預(yù)設(shè)和動態(tài)調(diào)整算法控制著各鏈路流量占比和路由選擇情況。當流量進入鏈路負載均衡設(shè)備后,鏈路負載均衡設(shè)備會根據(jù)訪問流量的目的IP地址對照運營商列表進行逐一匹配。在匹配的過程中該地址如果命中某運營商的IP地址,鏈路負載均衡設(shè)備則將流量引導(dǎo)向該運營商所對應(yīng)的接口,從而將流量成功的進行分流引導(dǎo)。選擇從那條路走,這是第二個變量因素。
1.3帶寬情況
第三個變量因素是帶寬,包含內(nèi)部設(shè)備互聯(lián)帶寬和互聯(lián)網(wǎng)出口帶寬。校園網(wǎng)內(nèi)接入層、匯聚層、核心層、邊界層等設(shè)備的性能和接口帶寬擁塞程度,也影響著訪問互聯(lián)網(wǎng)的體驗。中國海洋大學(xué)部署千兆到桌面,萬兆骨干互聯(lián)的網(wǎng)絡(luò)硬件設(shè)備,配置中國教育和科研計算機網(wǎng)(以下簡稱教育網(wǎng))、中國聯(lián)通、中國電信、中國移動共計13.3Gbps的IPv4和Cernet2[1]總計4Gbps的IPv6互聯(lián)網(wǎng)容量。對關(guān)鍵設(shè)備進行流量統(tǒng)計,按需采取QoS流量保障,優(yōu)化特定應(yīng)用或訪問。
二、校園網(wǎng)大數(shù)據(jù)
與文獻信息庫訪問關(guān)系最為密切的校園網(wǎng)大數(shù)據(jù),主要包含出口帶寬用量和讀者訪問數(shù)據(jù)兩部分。通過SNMP協(xié)議[2]讀取負載均衡設(shè)備的互聯(lián)網(wǎng)接口屬性,形成帶寬用量歷史數(shù)據(jù),便于我們了解出口使用情況。大數(shù)據(jù)項目《電子資源訪問分析系統(tǒng)》中,通過鏡像梳理校園網(wǎng)全流量,便于我們了解用戶關(guān)心的文獻數(shù)據(jù)庫情況,如統(tǒng)計訪問文獻信息庫站點域名熱度排名,或是單列訪問cnki.net的條目數(shù)量及內(nèi)容。
三、系統(tǒng)設(shè)計建設(shè)
分析檢測系統(tǒng)采用tracert、ping方式檢測用戶到目標站點的連通情況,加入校園網(wǎng)大數(shù)據(jù)的統(tǒng)計信息進行系統(tǒng)功能設(shè)計,輔以優(yōu)化效果對比。系統(tǒng)功能設(shè)計主要確定各模塊組成以及功能關(guān)系,優(yōu)化效果對比舉例比較調(diào)整前后的差異。
3.1系統(tǒng)功能設(shè)計
前面提到的影響變量因素中,因DNS工作機制具有緩存、老化和更新周期等因素,除檢測到某解析不可達時修改外,我們不對它進行過多調(diào)整。校園網(wǎng)雖具備IPv6通訊資源,但僅由Cernet2唯一提供,不具備多運營商多路由條件,不在本文討論范圍內(nèi),本系統(tǒng)設(shè)計僅考慮在IPv4環(huán)境下。所以路徑選擇和帶寬情況這兩個因素,是本系統(tǒng)主要控制單元。
本系統(tǒng)通過模擬四個運營商的網(wǎng)絡(luò)環(huán)境,按大數(shù)據(jù)平臺輸出的讀者訪問量排名的目標站點進行測試,算法分析將最優(yōu)者的DNS解析IP地址信息設(shè)定至負載均衡設(shè)備列表中,以實現(xiàn)訪問目標站點的最快路徑,優(yōu)化圖書館文獻數(shù)據(jù)庫訪問體驗。
檢測模塊:部署四臺Windows 2012R2虛擬機,在鏈路負載均衡設(shè)備上對其設(shè)置強制出入向流量分流,分別模擬教育網(wǎng)、聯(lián)通、電信、移動的單一網(wǎng)絡(luò)環(huán)境,配置對應(yīng)運營商提供的DNS信息。虛擬機上部署腳本,對目標站點進行預(yù)設(shè)周期的tracert、ping檢測,返回躍點和時延存儲至SQL數(shù)據(jù)庫。通過tracert回顯檢測站點是否可達;通過ping回顯檢測站點網(wǎng)絡(luò)層延遲情況。
采集模塊:部署一臺Windows 2012R2虛擬機,部署SNMP程序獲取出口鏈路帶寬用量情況和內(nèi)網(wǎng)設(shè)備接口情況,記錄用網(wǎng)高峰時間點;調(diào)用大數(shù)據(jù)分析平臺的API接口獲取讀者訪問量排名信息,記錄查詢高峰時間點和目標站點信息。上述信息存儲至SQL數(shù)據(jù)庫,并將用網(wǎng)高峰時間點和查詢高峰時間點反饋給檢測模塊,在下一個周期增加一次額外檢測記錄。
分析模塊:調(diào)用記錄數(shù)據(jù)對比tracert躍點、ping時延和抖動等多種參數(shù)進行算法分析,并輸出設(shè)備操作命令行以供執(zhí)行模塊修改相關(guān)設(shè)備配置。同時將初步輸出結(jié)果進行瀏覽器加載測試,形成最優(yōu)路徑選擇。
執(zhí)行模塊:通過SNMP的write權(quán)限,將目標站點的IP地址信息寫入到鏈路負載均衡的對應(yīng)運營商列表庫內(nèi),將QoS流控操作執(zhí)行到相應(yīng)節(jié)點設(shè)備間的鏈路上。
分析檢測系統(tǒng)與其他設(shè)備的邏輯結(jié)構(gòu)見下圖1:
3.2優(yōu)化效果對比
根據(jù)讀者訪問排名,選取apps.webofknowledge.com為例,按照校園網(wǎng)默認訪問路由經(jīng)由聯(lián)通至互聯(lián)網(wǎng),網(wǎng)頁打開速率不是很快。經(jīng)分析檢測系統(tǒng)判斷處理,截取四次部分檢測數(shù)據(jù)形成表格,可見經(jīng)過系統(tǒng)算法分析得到優(yōu)選從教育網(wǎng)訪問目標站點。將該域名解析IP添加到教育網(wǎng)列表,tracert檢查從教育網(wǎng)出互聯(lián)網(wǎng),實際從瀏覽器加載時長可知,網(wǎng)站打開速度變快,系統(tǒng)預(yù)判正常。
四、意義和結(jié)語
一切以數(shù)據(jù)說話,依托讀者訪問量排名等大數(shù)據(jù)為基礎(chǔ)進行的調(diào)整具有準確定位,實時性高等特點,符合現(xiàn)代高校在教學(xué)科研方面標新立異、多維度發(fā)散、融會貫通的趨勢。結(jié)合校園網(wǎng)出口用量、設(shè)備接口情況等大數(shù)據(jù)評估體系,由內(nèi)而外、自下而上的疏通整個網(wǎng)絡(luò)架構(gòu)體系,優(yōu)化資源配置,保障重點應(yīng)用。在圖書館文獻信息庫訪問的研究過程中,將大數(shù)據(jù)信息價值作用于實際需求,變被動接收反饋問題為主動發(fā)現(xiàn)梳理隱患,提升了網(wǎng)絡(luò)服務(wù)能力,提高了文獻信息庫服務(wù)質(zhì)量。
由于受時間和條件有限,系統(tǒng)還有很多待完善的功能。比如,目前基于腳本后臺執(zhí)行方式,沒有圖形化交互界面,對非開發(fā)人員不友好,暫時不支持手工輸入站點計算,系統(tǒng)在執(zhí)行前未通過任何途徑告知管理員,也未形成包含修改時間和內(nèi)容的日志文件等存在尚待增改的地方。
參? 考? 文? 獻
[1]吳建平,李星,李崇榮.CNGI核心網(wǎng)CERNET2的設(shè)計[J].中興通訊技術(shù),2005(03):16-20.
[2] 網(wǎng)絡(luò)管理協(xié)議及應(yīng)用開發(fā)[M].清華大學(xué)出版社,岑賢道,安常青編著, 1998