文/王佶 單康康
浙江大學(xué)電子資源違規(guī)使用分析及用戶定位研究
文/王佶 單康康
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,高校師生已經(jīng)開始習(xí)慣于使用電子資源檢索并獲取信息,然而也隨之產(chǎn)生了電子資源違規(guī)使用的情況,查處電子資源違規(guī)使用行為成了高校圖書館和網(wǎng)絡(luò)管理部門日常工作之一。為了提高電子資源訪問速度、改善用戶訪問體驗(yàn),國(guó)外數(shù)據(jù)庫商開始嘗試使用內(nèi)容分發(fā)網(wǎng)絡(luò)技術(shù)(CDN)來加快電子資源的訪問速度。目前電子資源訪問控制主要以IP授權(quán)為主,結(jié)合CDN技術(shù)原理和國(guó)內(nèi)高校的網(wǎng)絡(luò)現(xiàn)狀,違規(guī)行為查處卻成為了網(wǎng)絡(luò)管理部門的難題。本研究基于網(wǎng)絡(luò)數(shù)據(jù),分析用戶違規(guī)使用CDN電子資源的行為特征和準(zhǔn)確查找出違規(guī)用戶的方法,從而減少因電子資源被封而給高校師生帶來的不利影響。
2011至2016期間,浙江大學(xué)共計(jì)發(fā)生電子資源違規(guī)行為216次,涉及25種電子資源,均為國(guó)外電子資源,其中6種電子資源啟用CDN服務(wù)。CDN電子資源違規(guī)行為106次,其中約70%違規(guī)IP并非單一用戶獨(dú)享的IP,而是使用了端口多路復(fù)用(PAT)技術(shù)的動(dòng)態(tài)NAT轉(zhuǎn)換IP,同一時(shí)間段內(nèi)單個(gè)IP地址對(duì)應(yīng)多個(gè)用戶,電子資源違規(guī)次數(shù)TOP10如表1所示。
一旦發(fā)生違規(guī)使用電子資源的事件,數(shù)據(jù)庫商一般會(huì)臨時(shí)封閉違規(guī)IP,并通知所屬高校,經(jīng)高校查明違規(guī)用戶身份并確認(rèn)其刪除已下載文件后才解封該IP。數(shù)據(jù)庫商向所屬高校提供的違規(guī)行為信息,一般包含時(shí)間、違規(guī)公網(wǎng)IP和電子資源域名,部分?jǐn)?shù)據(jù)庫商會(huì)附上日志,但是數(shù)據(jù)庫商一般不提供與違規(guī)IP通信的服務(wù)器IP。對(duì)于沒有CDN加速的電子資源,短期內(nèi)IP和域名是對(duì)應(yīng)不變的,只要通過域名解析,就能將域名信息轉(zhuǎn)換成IP信息,從而實(shí)現(xiàn)違規(guī)用戶的定位。而部分電子資源啟用了CDN服務(wù),同時(shí)國(guó)內(nèi)高校由于公網(wǎng)IP地址有限和多互聯(lián)網(wǎng)線路等因素都會(huì)采用NAT地址轉(zhuǎn)換方式提供上網(wǎng)服務(wù),高校網(wǎng)絡(luò)管理部門所保存的網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)與CDN電子資源之間無法直接確立域名和IP的對(duì)應(yīng)關(guān)系,使違規(guī)行為查處變得更為復(fù)雜。國(guó)內(nèi)有高校采用“端口鏡像+旁路阻斷”方式控制電子資源違規(guī)使用行為,通過鏡像Web80端口數(shù)據(jù)獲取用戶訪問電子資源域名URL信息,當(dāng)用戶訪問量超過一定閾值時(shí)實(shí)行TCP旁路阻斷,獲得了不錯(cuò)的效果。然而國(guó)內(nèi)高校網(wǎng)絡(luò)現(xiàn)狀是多出口鏈路、NAT地址轉(zhuǎn)換、異地設(shè)備備份等,使端口鏡像變得不那么容易,同時(shí)隨著高校出口帶寬的提升,萬兆出口鏈路已經(jīng)很常見,旁路阻斷技術(shù)在高流量的情況下可能會(huì)失去對(duì)網(wǎng)絡(luò)的控制管理,另外以浙江大學(xué)為例,年均違規(guī)次數(shù)不足40次,其中涉及CDN加速的電子資源違規(guī)事件更少,為此建設(shè)及維護(hù)一套違規(guī)行為管理系統(tǒng)收益并不高,不是所有高校都愿意采用。如何在現(xiàn)有網(wǎng)絡(luò)日志的基礎(chǔ)上利用簡(jiǎn)單的方法實(shí)現(xiàn)電子資源違規(guī)用戶的準(zhǔn)確定位,是本文研究的重點(diǎn)。
表1 2011-2016年浙江大學(xué)電子資源違規(guī)TOP10
數(shù)據(jù)采集環(huán)境
浙江大學(xué)網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)一般包括認(rèn)證信息、NAT日志和DNS日志等,NAT日志主要是IP信息相關(guān)的syslog,里面僅包含時(shí)間、用戶源IP、NAT轉(zhuǎn)換IP和被訪問目的IP四個(gè)要素,并不包含域名信息,而DNS日志僅包含用戶源IP和訪問域名,并不包含該域名解析的返回IP信息。本文通過安裝嗅探器(Sniffer)的方法獲取電子資源解析返回IP,用于確立電子資源域名和IP對(duì)應(yīng)關(guān)系。為了避免對(duì)生產(chǎn)系統(tǒng)產(chǎn)生影響,采用交換機(jī)端口鏡像的方式,將三臺(tái)主DNS的流量鏡像到備用DNS服務(wù)器上,在備服務(wù)器上抓包,獲取DNS報(bào)文。不同于DNS日志,DNS報(bào)文含有域名解析返回的IP,可用于建立域名和IP對(duì)應(yīng)關(guān)系,將DNS報(bào)文與NAT日志等統(tǒng)一存儲(chǔ)于日志服務(wù)器內(nèi),用于違規(guī)用戶的定位,數(shù)據(jù)采集架構(gòu)如圖1所示。
數(shù)據(jù)分析
收集啟用CDN服務(wù)電子資源DNS報(bào)文數(shù)據(jù),能獲得該電子資源IP地址列表。以違規(guī)下載最多的ACS數(shù)據(jù)庫為例,單日內(nèi)共解析出8個(gè)不同網(wǎng)段的IP。7日內(nèi)解析相對(duì)穩(wěn)定,然而半年前解析的該域名的IP不在其中,可見CDN服務(wù)商IP變化屬正常情況,因此需分析違規(guī)事件發(fā)生時(shí)間內(nèi)的電子資源解析結(jié)果,方能準(zhǔn)確分析違規(guī)行為。
結(jié)合DNS及NAT日志的用戶行為分析
以違規(guī)行為期間的DNS返回所有CDN電子資源IP為目標(biāo),以數(shù)據(jù)庫商提供違規(guī)用戶的公網(wǎng)IP為NAT IP,在相應(yīng)時(shí)間內(nèi)篩選NAT日志,定位違規(guī)用戶。如表2所示,與ACS完整的IP地址列表相比,該時(shí)段內(nèi),全部用戶僅解析獲得4個(gè)IP,而違規(guī)用戶僅訪問了其中一個(gè)IP,如果以傳統(tǒng)單次域名解析結(jié)果為篩選條件,如果解析返回IP不是違規(guī)用戶訪問的電子資源的IP,將直接遺漏該用戶,使違規(guī)行為查詢陷入無結(jié)果或者錯(cuò)誤的困境。通過DNS報(bào)文數(shù)據(jù)結(jié)合NAT日志,可以篩選該時(shí)段內(nèi)出訪問ACS的所有用戶,按訪問量排序,可以確認(rèn)違規(guī)用戶,表2中內(nèi)10.190段IP 地址NAT轉(zhuǎn)化124段公網(wǎng)IP后訪問ACS數(shù)據(jù)庫的其中一個(gè)CDN IP,可見只有結(jié)合DNS報(bào)文和NAT日志,才能準(zhǔn)確定位違規(guī)用戶。
誤判分析及排除方法
由于CDN服務(wù)商有一定概率為不同的電子資源或者網(wǎng)站提供加速服務(wù)且使用相同的對(duì)外虛擬IP地址,以ACS為例,ACS與iCast媒體等網(wǎng)站使用同一家CDN服務(wù)商的內(nèi)容分發(fā)服務(wù),根據(jù)單日DNS數(shù)據(jù)統(tǒng)計(jì),ACS解析占比為83%,因此存在一定的誤判率,有必要進(jìn)行誤判排除。誤判排除的方法是篩選疑似違規(guī)行為用戶IP的域名解析請(qǐng)求數(shù)據(jù),如果該時(shí)段內(nèi)對(duì)應(yīng)資源IP對(duì)應(yīng)的不是該電子資源而是其他網(wǎng)站,則排除該用戶的違規(guī)嫌疑。
此外,為了降低誤判率,應(yīng)將數(shù)據(jù)庫商提供違規(guī)下載日志時(shí)間明細(xì)與篩選結(jié)果時(shí)間比對(duì),確認(rèn)時(shí)間上的一致性。
本文針對(duì)電子資源的特性而產(chǎn)生的違規(guī)行為分析,在統(tǒng)計(jì)歷年電子資源違規(guī)情況的基礎(chǔ)上,分析了現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)不足,提出了通過采集DNS報(bào)文和浙江大學(xué)互聯(lián)網(wǎng)出口鏈路NAT日志的電子資源違規(guī)行為分析方法和誤判排除手段,并驗(yàn)證了該方法的可行性。此方法避免了審計(jì)高?;ヂ?lián)網(wǎng)出口鏈路的海量數(shù)據(jù),僅在現(xiàn)有日志系統(tǒng)下,抓取少量DNS數(shù)據(jù),過濾分析獲取違規(guī)行為數(shù)據(jù),是相對(duì)低成本的違規(guī)行為分析方式。
然而,日志服務(wù)器每天接收20億條400GB的NAT數(shù)據(jù)和2億條80GB的DNS數(shù)據(jù),長(zhǎng)時(shí)間儲(chǔ)存日志信息會(huì)生成海量數(shù)據(jù),在單一機(jī)器上處理往往耗時(shí)很長(zhǎng),現(xiàn)有IT架構(gòu)在處理和計(jì)算能力方面存在瓶頸,如何利用分布式存儲(chǔ)等大數(shù)據(jù)技術(shù)構(gòu)建高效的日志分析系統(tǒng)是下一步繼續(xù)研究的課題。
(責(zé)編:王左利)
表2 網(wǎng)絡(luò)數(shù)據(jù)分析違規(guī)訪問ACS行為示例
圖1 數(shù)據(jù)采集架構(gòu)
(作者單位為浙江大學(xué)信息中心)