郭玉彬 吳宇航 薄傲峰 鄭淑敏 張曉鵬
1(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院 廣東 廣州 510642)2(中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院 廣東 廣州 510006)
高校校園網(wǎng)是承載高校學(xué)生學(xué)習(xí)、生活、娛樂(lè)等各類(lèi)活動(dòng)的基礎(chǔ)性設(shè)施。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,學(xué)生對(duì)網(wǎng)絡(luò)的使用增長(zhǎng)迅速,其上網(wǎng)行為也呈現(xiàn)多樣化和復(fù)雜化特征。校園網(wǎng)認(rèn)證數(shù)據(jù)包含了學(xué)生用戶(hù)名、上網(wǎng)端口地址、上下線(xiàn)時(shí)間等信息。通過(guò)對(duì)這些數(shù)據(jù)的分析,可發(fā)現(xiàn)學(xué)生上網(wǎng)時(shí)間、時(shí)長(zhǎng)等信息及相關(guān)的特征分類(lèi)規(guī)律。而這些規(guī)律性信息對(duì)學(xué)生管理、專(zhuān)業(yè)課程設(shè)置等工作具有較高的參考價(jià)值。2016年上網(wǎng)認(rèn)證數(shù)據(jù)量約8 000萬(wàn)條,并以每年約1億條的速度增加。
針對(duì)校園網(wǎng)日志數(shù)據(jù)進(jìn)行學(xué)生行為分析的研究有很多,大多數(shù)研究都是采用傳統(tǒng)的K-means算法對(duì)在線(xiàn)時(shí)長(zhǎng)和校園網(wǎng)使用流量進(jìn)行聚類(lèi),利用聚類(lèi)結(jié)果分析每一類(lèi)用戶(hù)的上網(wǎng)行為和優(yōu)化校園網(wǎng)管理[1-4]。文獻(xiàn)[5]基于一種改進(jìn)的K-means算法,即SimiClustering算法,對(duì)校園網(wǎng)用戶(hù)在線(xiàn)時(shí)長(zhǎng)和流量進(jìn)行聚類(lèi),得出3種用戶(hù)行為,并利用聚類(lèi)結(jié)果為校園網(wǎng)用戶(hù)個(gè)性化需求方面提供理論依據(jù)。文獻(xiàn)[6]利用優(yōu)化層次聚類(lèi)算法對(duì)校園網(wǎng)主干數(shù)據(jù)流的IP地址進(jìn)行聚類(lèi),得到網(wǎng)絡(luò)用戶(hù)的訪(fǎng)問(wèn)地址分布情況,從中了解用戶(hù)行為特征。文獻(xiàn)[7]提出結(jié)合網(wǎng)絡(luò)用戶(hù)數(shù)據(jù)特點(diǎn)的預(yù)處理方式,并引入基于圖論的子空間聚類(lèi)方法、粒子群聚類(lèi)算法得到校園網(wǎng)用戶(hù)網(wǎng)絡(luò)行為模式。文獻(xiàn)[8]利用K-means算法和統(tǒng)計(jì)技術(shù)對(duì)校園網(wǎng)用戶(hù)日志數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)大部分學(xué)生每個(gè)月上網(wǎng)時(shí)間小于170小時(shí)、學(xué)生上網(wǎng)時(shí)間越長(zhǎng)越容易掛科的規(guī)律。文獻(xiàn)[9]對(duì)Concordia大學(xué)Wi-Fi日志數(shù)據(jù)利用PCA制導(dǎo)的聚類(lèi)算法進(jìn)行分析,得到7類(lèi)行為模式,并給出多天同類(lèi)型活動(dòng)的搜索算法。
上述研究中,聚類(lèi)中采用上網(wǎng)時(shí)間都是用戶(hù)一天或者一個(gè)月為單位的上網(wǎng)時(shí)間,大多數(shù)研究沒(méi)有去除臟數(shù)據(jù)。本文將學(xué)生上網(wǎng)認(rèn)證數(shù)據(jù)轉(zhuǎn)換為24小時(shí)時(shí)長(zhǎng)向量,保留較多細(xì)節(jié),更方便分析學(xué)生上網(wǎng)時(shí)刻及更能反映學(xué)生上網(wǎng)時(shí)間分布規(guī)律;采用改進(jìn)Canopy算法,即K-canopy算法,去除離群點(diǎn),提高聚類(lèi)質(zhì)量,進(jìn)而提高分析結(jié)論的可靠性。本文首先選擇校園網(wǎng)認(rèn)證數(shù)據(jù)并對(duì)其進(jìn)行清洗,去除與研究目標(biāo)無(wú)關(guān)的數(shù)據(jù);然后進(jìn)行數(shù)據(jù)預(yù)處理,得到學(xué)生上網(wǎng)時(shí)長(zhǎng)向量集;再對(duì)學(xué)生工作日和周末的上網(wǎng)時(shí)長(zhǎng)向量分別進(jìn)行聚類(lèi)。最后依據(jù)聚類(lèi)結(jié)果分析了各類(lèi)學(xué)生上網(wǎng)時(shí)間和時(shí)長(zhǎng)分布特征,結(jié)合年級(jí)專(zhuān)業(yè)上網(wǎng)規(guī)律進(jìn)行總結(jié),為學(xué)生管理、專(zhuān)業(yè)課程設(shè)置等工作提供參考。
本文選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。因?yàn)?1月份是正常學(xué)期時(shí)間,不受開(kāi)學(xué)、期末考試影響,且11月假期較少,更能全面反映學(xué)生上網(wǎng)行為分布規(guī)律。在數(shù)據(jù)預(yù)處理階段,首先進(jìn)行數(shù)據(jù)清洗,去掉與研究目標(biāo)無(wú)關(guān)的數(shù)據(jù),然后計(jì)算每個(gè)用戶(hù)、每天24小時(shí)內(nèi)每小時(shí)的上網(wǎng)時(shí)長(zhǎng),得到上網(wǎng)時(shí)長(zhǎng)向量集合。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于SAM網(wǎng)絡(luò)認(rèn)證計(jì)費(fèi)系統(tǒng)和Syslog網(wǎng)絡(luò)設(shè)備日志收集系統(tǒng)。主要提供的信息有:用戶(hù)帳號(hào)、IP地址信息、上線(xiàn)時(shí)間、下線(xiàn)時(shí)間和離線(xiàn)原因等。表1給出源數(shù)據(jù)表中關(guān)鍵字段說(shuō)明。
(1) 數(shù)據(jù)選擇:校園網(wǎng)認(rèn)證記錄數(shù)據(jù)量比較大,其中包括本科生、研究生、教職工和住宅區(qū)等多種類(lèi)型賬號(hào)的認(rèn)證數(shù)據(jù),也包括了線(xiàn)路故障反復(fù)登錄、設(shè)備自動(dòng)登錄等其他與本研究無(wú)關(guān)的認(rèn)證數(shù)據(jù)。針對(duì)本文研究目標(biāo),下面詳細(xì)列出需要清洗的數(shù)據(jù)及其清洗原因和處理策略。
① 研究生、教職工、辦公區(qū)、來(lái)訪(fǎng)人員和住宅區(qū)等非本科生認(rèn)證數(shù)據(jù)。此類(lèi)數(shù)據(jù)與本研究無(wú)關(guān),依據(jù)帳號(hào)特征去除該類(lèi)數(shù)據(jù)。
② 大學(xué)一、五年級(jí)學(xué)生認(rèn)證數(shù)據(jù)。學(xué)校規(guī)定僅有少量滿(mǎn)足特殊條件的一年級(jí)學(xué)生可開(kāi)設(shè)校園網(wǎng)帳號(hào),五年級(jí)學(xué)生是特殊專(zhuān)業(yè)或者學(xué)籍異動(dòng)的學(xué)生,此類(lèi)學(xué)生不具有代表性,依據(jù)帳號(hào)特征去除。
③ 去除11日的數(shù)據(jù)。雙11購(gòu)物節(jié),按學(xué)校規(guī)定10-11日夜間不斷網(wǎng),因此這一天學(xué)生的上網(wǎng)行為不是常規(guī)工作日行為或者周末行為,屬于異常行為,直接刪除該時(shí)間段全部認(rèn)證記錄。
④ 上下線(xiàn)時(shí)間間隔小于或等于60秒的數(shù)據(jù)。機(jī)器故障所產(chǎn)生的,這類(lèi)數(shù)據(jù)對(duì)分析學(xué)生上網(wǎng)行為沒(méi)有意義,依據(jù)上下線(xiàn)時(shí)間計(jì)算時(shí)長(zhǎng),然后去除該類(lèi)數(shù)據(jù)。
⑤ 單次在線(xiàn)時(shí)長(zhǎng)超過(guò)48個(gè)小時(shí)的數(shù)據(jù)??赡苁窃O(shè)備掛機(jī)或者是個(gè)人極端行為,這類(lèi)數(shù)據(jù)不反映學(xué)生上網(wǎng)行為或者不具有代表性。依據(jù)上下線(xiàn)時(shí)間計(jì)算時(shí)長(zhǎng),然后去除該類(lèi)數(shù)據(jù)。
⑥ 從6點(diǎn)鐘到23點(diǎn)鐘時(shí)間段內(nèi)上網(wǎng)時(shí)長(zhǎng)都是3 600秒的數(shù)據(jù)。設(shè)備自動(dòng)認(rèn)證數(shù)據(jù),不反映學(xué)生上網(wǎng)行為,依據(jù)帳號(hào)每小時(shí)上網(wǎng)時(shí)長(zhǎng)去除該類(lèi)數(shù)據(jù)。
綜上所述,本文實(shí)驗(yàn)數(shù)據(jù)范圍:全月原始數(shù)據(jù)有1 990 396條認(rèn)證數(shù)據(jù),其中工作日數(shù)據(jù)1 487 914條,周末502 482條。清洗后總數(shù)據(jù)量201 523條,其中工作日152 007條,周末49 516條。
(2) 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理:本小節(jié)對(duì)學(xué)生每天產(chǎn)生的多條上網(wǎng)認(rèn)證數(shù)據(jù)進(jìn)行處理,得到每個(gè)學(xué)生每天的上網(wǎng)時(shí)長(zhǎng)向量。計(jì)算每個(gè)學(xué)生每天24小時(shí)上網(wǎng)時(shí)長(zhǎng)向量,從而將學(xué)生一天上網(wǎng)時(shí)長(zhǎng)細(xì)化到每天每小時(shí),更能反映學(xué)生上網(wǎng)時(shí)間分布。為保護(hù)學(xué)生隱私,本文對(duì)用戶(hù)帳號(hào)進(jìn)行了脫敏處理,利用無(wú)意義的數(shù)字替代敏感信息。
表2給出學(xué)號(hào)為2013000XXXX的學(xué)生在2016年11月2日的認(rèn)證數(shù)據(jù)預(yù)處理結(jié)果,假設(shè)其上網(wǎng)時(shí)長(zhǎng)向量m,那么m值如下:
m=[2013000XXXX,2016/11/2,0,0,0,0,0,0,0,0,876,2 278,0,0,0,2 626,3 600,3 600,3 018,0,2 400,3 600,3 600,3 530,3 600,1 799]
表2 認(rèn)證數(shù)據(jù)表
本小節(jié)使用K-canopy算法對(duì)上網(wǎng)時(shí)長(zhǎng)向量集進(jìn)行粗聚類(lèi),去除離群點(diǎn)并估計(jì)聚類(lèi)個(gè)數(shù)。
Canopy算法一般稱(chēng)為粗聚類(lèi)算法,它不需要指定聚類(lèi)個(gè)數(shù),算法簡(jiǎn)單,運(yùn)算速度快[10]。Canopy算法原理和實(shí)現(xiàn)方法見(jiàn)文獻(xiàn)[11]。本文基于Canopy算法基本原理設(shè)計(jì)并實(shí)現(xiàn)K-canopy聚類(lèi)算法,用于去除離群點(diǎn)。K-canopy聚類(lèi)算法的基本思想是首先利用Canopy算法對(duì)數(shù)據(jù)進(jìn)行一次粗聚類(lèi),取數(shù)據(jù)個(gè)數(shù)少且聚類(lèi)中心與其他Canopy中心距離較遠(yuǎn)的Canopy作為離群點(diǎn)去掉。重復(fù)此操作直到去掉總數(shù)據(jù)量的2%~5%的離群數(shù)據(jù)為止。按常規(guī),2%~5%的數(shù)據(jù)為離群點(diǎn)是合理的,具體數(shù)量可依據(jù)數(shù)據(jù)質(zhì)量、學(xué)生實(shí)際上網(wǎng)特征異常的人數(shù)來(lái)設(shè)定,以下是K-canopy聚類(lèi)算法步驟。
(1) 構(gòu)造原始數(shù)據(jù)集合List,計(jì)算全部數(shù)據(jù)兩兩之間的歐式距離的均值T,令T1=0.65×T;
(2) 在List中隨機(jī)選取一個(gè)樣本數(shù)據(jù)作為基點(diǎn)P,將其從List刪除,并計(jì)算List中其他樣本點(diǎn)到基點(diǎn)P的距離d1;
(3) 把d1小于T1的樣本劃到一個(gè)Canopy中,同時(shí)把這些已劃分好的數(shù)據(jù)從原始數(shù)據(jù)集合List中移除;
(4) 重復(fù)(2)、(3),直到List為空;
(5) 開(kāi)始發(fā)現(xiàn)異常點(diǎn),構(gòu)造由各個(gè)Canopy的中心組成的數(shù)據(jù)集合Center,令T2=0.95×T1;
(6) 從Center中順序選取一個(gè)數(shù)據(jù)C,計(jì)算C與Center中其他所有數(shù)據(jù)的距離d2,統(tǒng)計(jì)d2小于T2的次數(shù)n,直到遍歷Center;
(7)n小于或者等于2,則將由樣本C生成的Canopy定義為一個(gè)異常類(lèi),其他Canopy定義為正常類(lèi),該異常類(lèi)中的樣本全部定義為離群點(diǎn)。
該算法中變量T、T1、T2和n是較重要的參數(shù)。T是兩兩向量之間距離的平均值,用來(lái)劃分Canopy的閾值。對(duì)每個(gè)向量,若其與選定向量的距離小于T1,則被劃分到選定向量所在的Canopy中,此處取T1=0.65×T是針對(duì)本實(shí)驗(yàn)數(shù)據(jù)經(jīng)過(guò)多次實(shí)驗(yàn)后能有效避免數(shù)據(jù)傾斜現(xiàn)象而選定的。參數(shù)T2和n是劃分離群點(diǎn)所在類(lèi)的閾值。若一個(gè)類(lèi)與其他類(lèi)的中心之間的距離小于T2的次數(shù)少于或等于2次,則說(shuō)明此類(lèi)的中心與其他類(lèi)的中心距離較遠(yuǎn)。如果類(lèi)包含向量個(gè)數(shù)少于200,則此類(lèi)中所有向量為離群點(diǎn)。此處取T2=0.95×T1、n=2、類(lèi)中向量個(gè)數(shù)小于200是針對(duì)本實(shí)驗(yàn)上網(wǎng)時(shí)長(zhǎng)向量集多次實(shí)驗(yàn)選定的。對(duì)其他數(shù)據(jù)集,可選擇不同參數(shù)。本文為達(dá)到更好的粗聚類(lèi)結(jié)果,對(duì)向量集循環(huán)了20次K-canopy聚類(lèi)算法。
由于學(xué)校工作日和周末的斷網(wǎng)策略不同,本文將工作日和周末分別粗聚類(lèi)。工作日粗聚類(lèi)后得到148個(gè)Canopy,其中包含6個(gè)向量數(shù)量明顯較大的Canopy,去除2 323個(gè)離群點(diǎn),占比1.53%;周末粗聚類(lèi)后得到106個(gè)Canopy,其中包含5個(gè)向量數(shù)量明顯較大的Canopy,去除3 627個(gè)離群點(diǎn),占比7.32%。通過(guò)分析發(fā)現(xiàn),去除的向量確實(shí)與其他向量差異較大。
K值,即聚類(lèi)個(gè)數(shù),是K-均值聚類(lèi)算法(K-means算法)中最重要的參數(shù),會(huì)極大地影響聚類(lèi)結(jié)果。確定K值的思路有很多種[12-14]。本文采用投票機(jī)制,即利用多種指標(biāo)最終確定K值。在對(duì)數(shù)據(jù)樣本分布缺乏先驗(yàn)的理解前提下,本文選擇穩(wěn)定性較好的三種指標(biāo),分別是輪廓系數(shù)[15]、戴維森堡丁指數(shù)(DBI)[16]與誤差平方和系數(shù)(SSE)[17]。輪廓系數(shù)、戴維森堡丁指數(shù)側(cè)重于類(lèi)間間隔性與類(lèi)內(nèi)緊密性,輪廓系數(shù)越大、戴維森堡丁指數(shù)越小說(shuō)明聚類(lèi)效果好。誤差平方和系數(shù)則是常規(guī)K-means算法的損失函數(shù),可以直接表現(xiàn)出聚類(lèi)效果[18]。
K-means算法是一種簡(jiǎn)單、收斂速度快、易實(shí)現(xiàn)的經(jīng)典聚類(lèi)算法,適用于數(shù)值型數(shù)據(jù)集聚類(lèi)。該算法的核心思想是找出K個(gè)聚類(lèi)中心,使得每一個(gè)樣本點(diǎn)和與其最近的聚類(lèi)中心的平方距離和被最小化[19]。本文K-means算法流程如下:
(1) 根據(jù)K-canopy聚類(lèi)得到最優(yōu)K值,并從數(shù)據(jù)集中隨機(jī)選取K個(gè)樣本點(diǎn)作為初始中心點(diǎn);
(2) 計(jì)算各個(gè)樣本點(diǎn)到各個(gè)中心點(diǎn)的距離,并將其歸類(lèi)到距離最小時(shí)對(duì)應(yīng)的類(lèi);
(3) 根據(jù)聚類(lèi)結(jié)果,重新計(jì)算每一個(gè)類(lèi)的中心值;
(4) 重復(fù)(2)、(3),直到每一個(gè)類(lèi)的中心值穩(wěn)定或者迭代次數(shù)超過(guò)給定閾值。
本文首先依據(jù)K-canopy算法計(jì)算結(jié)果中向量個(gè)數(shù)明顯較大的Canopy個(gè)數(shù),粗略得出K值范圍;然后對(duì)范圍內(nèi)每個(gè)K值的每一個(gè)指標(biāo)都進(jìn)行10次K-means聚類(lèi)再求均值,以降低隨機(jī)性影響;再利用投票原則來(lái)選取最優(yōu)K值;最后通過(guò)K-means聚類(lèi)算法對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)。
綜上,本文最終得到的工作日學(xué)生的上網(wǎng)行為聚類(lèi)個(gè)數(shù)即K值為6,周末聚類(lèi)個(gè)數(shù)即K值為5。通過(guò)實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn)本文對(duì)工作日和周末數(shù)據(jù)聚類(lèi)所得到的K值可得到較好的聚類(lèi)效果。
本文實(shí)驗(yàn)使用Java編程語(yǔ)言實(shí)現(xiàn),主機(jī)的CPU型號(hào)為CPUi7-8700K,內(nèi)存為8 GB,操作系統(tǒng)為Microsoft Windows 10。
由于工作日和周末的斷網(wǎng)策略不同,且學(xué)生課程安排也不一樣,學(xué)生的行為也存在較大差異,因此本文將周末和工作日數(shù)據(jù)分開(kāi)處理。以下是整體的實(shí)驗(yàn)流程:(1) 選擇校園網(wǎng)2016年11月本科生的認(rèn)證數(shù)據(jù),并對(duì)其預(yù)處理得到上網(wǎng)時(shí)長(zhǎng)向量集合;(2) 利用K-canopy算法對(duì)得到上網(wǎng)時(shí)長(zhǎng)向量集進(jìn)行粗聚類(lèi),去除離群點(diǎn)并估計(jì)聚類(lèi)個(gè)數(shù);(3) 利用K-means算法和估計(jì)聚類(lèi)個(gè)數(shù)對(duì)去除離群點(diǎn)后的上網(wǎng)時(shí)長(zhǎng)向量集合進(jìn)行進(jìn)一步聚類(lèi),并使用三種指標(biāo)對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià),選擇出最優(yōu)的聚類(lèi)個(gè)數(shù)和聚類(lèi)結(jié)果。
以下先對(duì)工作日12天數(shù)據(jù)進(jìn)行聚類(lèi)分析。圖1給出工作日聚類(lèi)結(jié)果,圖的橫坐標(biāo)是時(shí)間,代表24個(gè)時(shí)段,縱坐標(biāo)為平均上網(wǎng)時(shí)長(zhǎng)。曲線(xiàn)反應(yīng)各類(lèi)各時(shí)段上網(wǎng)平均時(shí)長(zhǎng)。表3給出工作日各類(lèi)中學(xué)生人數(shù)分布,按學(xué)生學(xué)號(hào)統(tǒng)計(jì)每類(lèi)中學(xué)生人數(shù)。
圖1 工作日聚類(lèi)結(jié)果
從圖1和表3可總結(jié)工作日校園網(wǎng)用戶(hù)的上網(wǎng)時(shí)間分布規(guī)律如下:
(1) a類(lèi)學(xué)生和b類(lèi)學(xué)生上網(wǎng)行為相似,都是白天長(zhǎng)時(shí)間上網(wǎng)的學(xué)生。其中a類(lèi)學(xué)生從早晨6點(diǎn)時(shí)段陸續(xù)開(kāi)始上網(wǎng),8點(diǎn)時(shí)段幾乎全部上線(xiàn),直到當(dāng)天結(jié)束。b類(lèi)學(xué)生在8點(diǎn)時(shí)段陸續(xù)開(kāi)始上線(xiàn),10點(diǎn)時(shí)段幾乎全部上線(xiàn),10點(diǎn)到16點(diǎn)時(shí)段有少量下線(xiàn),16點(diǎn)時(shí)段到23點(diǎn)時(shí)段在線(xiàn)人數(shù)有細(xì)微波動(dòng),直到0點(diǎn)斷網(wǎng)時(shí)全部下線(xiàn)。
a類(lèi)學(xué)生人數(shù)少,占比為7.88%。其中,三個(gè)年級(jí)學(xué)生人數(shù)差距不大,分別占30.21%、35.84%和33.96%。本類(lèi)學(xué)生工作日全天上網(wǎng)而且人數(shù)較少,說(shuō)明上網(wǎng)應(yīng)屬個(gè)人行為,學(xué)生個(gè)人有網(wǎng)癮的概率較高。b類(lèi)學(xué)生人數(shù)中等,占比16.48%,明顯大四、大二學(xué)生較多,分別占43.32%、35.66%。分析原因應(yīng)該與學(xué)校各專(zhuān)業(yè)課程設(shè)計(jì)相關(guān),是大二學(xué)生上午有課的較多,而大四學(xué)生上午沒(méi)課的比例較大。
(2) c類(lèi)學(xué)生在12點(diǎn)時(shí)段陸續(xù)開(kāi)始上網(wǎng),13時(shí)段上線(xiàn)在數(shù)達(dá)到最多,14點(diǎn)時(shí)段到22點(diǎn)時(shí)段有少量學(xué)生下線(xiàn),22點(diǎn)到23點(diǎn)時(shí)段又有少量上線(xiàn),直到24點(diǎn)斷網(wǎng)。
此類(lèi)學(xué)生人數(shù)占比16.54%,同樣大三和大四學(xué)生較多,分別占36.70%和39.93%。分析原因同樣應(yīng)該是大三、大四學(xué)生下午沒(méi)課的比例較大。
(3) d類(lèi)學(xué)生白天上網(wǎng)較少,峰值出現(xiàn)在13點(diǎn)時(shí)段,但此時(shí)段時(shí)長(zhǎng)均值僅1 100秒(約合18分鐘)。13點(diǎn)時(shí)段后繼續(xù)下線(xiàn),至16點(diǎn)時(shí)段到達(dá)最低點(diǎn),平均上網(wǎng)時(shí)間約180秒(約3分鐘)。之后繼續(xù)上線(xiàn),至晚上22點(diǎn)時(shí)段時(shí)達(dá)到峰值,平均上網(wǎng)時(shí)長(zhǎng)3 437秒(約57分鐘)。之后繼續(xù)下線(xiàn),直到12點(diǎn)斷網(wǎng)。
此類(lèi)學(xué)生使用網(wǎng)絡(luò)較少,工作時(shí)間基本不使用網(wǎng)絡(luò),上線(xiàn)時(shí)間集中在晚上7點(diǎn)-10點(diǎn)時(shí)段。此類(lèi)學(xué)生總數(shù)點(diǎn)比較高,點(diǎn)18.30%,有10 398人。三四年級(jí)學(xué)生人數(shù)占比稍大,分別占35.85%和38.30%。
(4) e類(lèi)學(xué)生與d類(lèi)有些相似,白天上網(wǎng)較少,峰值出現(xiàn)在13點(diǎn)時(shí)段,該時(shí)段平均時(shí)長(zhǎng)略高于d類(lèi)學(xué)生,1 311秒(約22分鐘)。其主要上網(wǎng)時(shí)間從21點(diǎn)時(shí)段開(kāi)始陸續(xù)上網(wǎng),至22點(diǎn)-23點(diǎn)時(shí)段達(dá)到峰值。其峰值比a-d類(lèi)學(xué)生平均時(shí)長(zhǎng)都少3 066秒,約51分鐘。
此類(lèi)學(xué)生工作日基本不使用網(wǎng)絡(luò),僅在晚上10點(diǎn)-11點(diǎn)時(shí)段上網(wǎng)。對(duì)大二、大三學(xué)生預(yù)計(jì)上課、自習(xí)時(shí)間較長(zhǎng),而對(duì)大四學(xué)生,可能因?yàn)閰⒓訉?shí)習(xí)等原因未在宿舍使用網(wǎng)絡(luò)。
(5) f類(lèi)學(xué)生全天在線(xiàn)時(shí)間最短,峰值出現(xiàn)在中午13點(diǎn)時(shí)段,此時(shí)段平均上網(wǎng)時(shí)長(zhǎng)峰值也僅僅551秒,約9分鐘。
此類(lèi)學(xué)生上網(wǎng)行為與前面5類(lèi)學(xué)生差異較大。此類(lèi)學(xué)生總體占比23.95%,人數(shù)最多。在此類(lèi)學(xué)生中同樣大三、大四學(xué)生較多。
與工作日分析相類(lèi)似,本文對(duì)周末同樣進(jìn)行聚類(lèi)分析。圖2給出周末聚類(lèi)結(jié)果,表4給出周末各類(lèi)學(xué)生人數(shù)分布。
圖2 周末聚類(lèi)結(jié)果
分類(lèi)總體大二大三大四人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%a9 54834.54241225.26335335.12378339.62b7 08825.641 87126.402 50135.282 71638.32c7 79828.212 26028.982 64533.922 89337.10d1 4995.4245930.6254336.2249733.16e1 7106.1949328.8358734.3363036.84
在周末,學(xué)校24小時(shí)不會(huì)斷網(wǎng),根據(jù)圖2和表4總結(jié)出代表周末校園網(wǎng)用戶(hù)的上網(wǎng)行為如下:
(1) a類(lèi)學(xué)生周末會(huì)熬夜,在0點(diǎn)時(shí)段在線(xiàn)時(shí)長(zhǎng)均值為1 449秒(約24分鐘),說(shuō)明約一半學(xué)生在線(xiàn)。從0點(diǎn)時(shí)段開(kāi)始陸續(xù)下線(xiàn),4點(diǎn)時(shí)段差才全部下線(xiàn)。之后上午8點(diǎn)時(shí)段開(kāi)始陸續(xù)上線(xiàn),至14點(diǎn)時(shí)段時(shí)多數(shù)學(xué)生上線(xiàn),上網(wǎng)時(shí)長(zhǎng)均值達(dá)到3 386秒(約56分鐘)。從此時(shí)段直到晚23點(diǎn)時(shí)段此類(lèi)學(xué)生大部分在線(xiàn)。
此類(lèi)學(xué)生周末主要是白天長(zhǎng)時(shí)間在線(xiàn)、會(huì)熬夜。總學(xué)生人數(shù)占比34.54%,是人數(shù)最多的一類(lèi)。其中大二、大三、大四學(xué)生各占25.26%、35.12%、39.62%。
(2) b類(lèi)學(xué)生周末熬夜,白天上網(wǎng)較少。在0點(diǎn)時(shí)段在線(xiàn)時(shí)長(zhǎng)均值為963秒(約16分鐘),說(shuō)明有些學(xué)生熬夜,但人數(shù)比a類(lèi)少。此類(lèi)學(xué)生熬夜集中在0點(diǎn)-4點(diǎn)時(shí)段。白天上網(wǎng)時(shí)間不多,峰值出現(xiàn)在中午13點(diǎn)時(shí)段,均值512秒,約9分鐘。下午在線(xiàn)人數(shù)少,晚上在線(xiàn)人數(shù)繼續(xù)增加,23點(diǎn)時(shí)段達(dá)到峰值,平均時(shí)長(zhǎng)為3 392秒(約57分鐘)。
此類(lèi)學(xué)生白天上網(wǎng)少,有少量學(xué)生會(huì)熬夜。占總?cè)藬?shù)的25.64%,其中大二、大三和大四年級(jí)學(xué)生各占26.40%、35.28%、38.32%。
(3) c類(lèi)學(xué)生在線(xiàn)峰值出現(xiàn)在凌晨0點(diǎn)、中午13點(diǎn)和晚23點(diǎn)時(shí)段,但時(shí)長(zhǎng)均值不大,最高1 587秒(約16分鐘),說(shuō)明最多約一半學(xué)生23點(diǎn)時(shí)在線(xiàn)。其他時(shí)間在線(xiàn)的學(xué)生不超過(guò)一半。
此類(lèi)學(xué)生使用網(wǎng)絡(luò)時(shí)長(zhǎng)較短,少量熬夜,白天較少上網(wǎng),人數(shù)占總?cè)藬?shù)的28.21%,比例較大。各級(jí)學(xué)生占比分別是28.98%、33.92%和37.10%。
(4) d類(lèi)學(xué)生全部通宵,白天很少上網(wǎng)。這類(lèi)學(xué)生從0點(diǎn)到6點(diǎn)多全部通宵,6點(diǎn)多后陸續(xù)下線(xiàn),至19點(diǎn)時(shí)段的在線(xiàn)人數(shù)趨近0。22點(diǎn)時(shí)段開(kāi)始又有少量學(xué)生開(kāi)始上線(xiàn),至23點(diǎn)時(shí)段在線(xiàn)時(shí)長(zhǎng)均值為239秒(約4分鐘)。
此類(lèi)學(xué)生在總體中占比最少,為5.42%,人數(shù)1 499人。此類(lèi)學(xué)生中三年級(jí)基本均衡,都占30%以上。
(5) e類(lèi)0點(diǎn)到18點(diǎn)時(shí)段幾乎在線(xiàn)上,在線(xiàn)時(shí)長(zhǎng)均值達(dá)到59分鐘。18點(diǎn)時(shí)段開(kāi)始至24點(diǎn)有少量下線(xiàn)。此類(lèi)學(xué)生在總體中占比6.19%,人數(shù)較少,約1 700人。且在此類(lèi)三個(gè)年級(jí)人數(shù)相差不多,大四學(xué)生稍多,大二學(xué)生略少。
(1) 個(gè)人上網(wǎng)時(shí)間特征:針對(duì)每個(gè)學(xué)生,依據(jù)帳號(hào)可統(tǒng)計(jì)其上網(wǎng)時(shí)間分布所屬的類(lèi),從而發(fā)現(xiàn)學(xué)生個(gè)人的上網(wǎng)時(shí)間分布。表5給出兩個(gè)學(xué)生的上網(wǎng)時(shí)間分布。第一個(gè)學(xué)生工作日在線(xiàn)時(shí)間較少,有2天屬b類(lèi)、1天c類(lèi)、2天d類(lèi)、1天e類(lèi)和5天f類(lèi)。其工作日大約有2天工作時(shí)間在線(xiàn)、6天時(shí)間晚睡。周末白天上網(wǎng)較多,有2天可能晚睡,但未通宵熬夜??芍?,此學(xué)生是正常上網(wǎng)的學(xué)生。第二個(gè)學(xué)生15天中有10個(gè)工作日上網(wǎng)行為屬于a類(lèi),幾乎工作時(shí)間都在線(xiàn),周末又有4天屬于a類(lèi),即白天幾乎全在線(xiàn),晚上有晚睡。此學(xué)生使用網(wǎng)絡(luò)時(shí)間超長(zhǎng),有網(wǎng)癮的可能性較大。此類(lèi)學(xué)生需要統(tǒng)計(jì)后提請(qǐng)學(xué)生管理部門(mén)特別注意。通過(guò)聚類(lèi)結(jié)果,可以很容易發(fā)現(xiàn)使用網(wǎng)絡(luò)過(guò)多、過(guò)少或具有其他特征的學(xué)生,為學(xué)生管理部門(mén)提供建議。
表5 某學(xué)生上網(wǎng)時(shí)間特征分布
(2) 各專(zhuān)業(yè)學(xué)生的上網(wǎng)時(shí)間特征:對(duì)各專(zhuān)業(yè)可統(tǒng)計(jì)每年級(jí)屬于不同類(lèi)的學(xué)生人數(shù),再對(duì)比其他年級(jí)專(zhuān)業(yè)可發(fā)現(xiàn)各專(zhuān)業(yè)學(xué)生上網(wǎng)時(shí)間分布特征。作為示例,表6給出計(jì)算機(jī)科學(xué)技術(shù)專(zhuān)業(yè)學(xué)生總?cè)藬?shù)、上網(wǎng)人數(shù)、工作日和周末上網(wǎng)人數(shù)分布。
表6 此校計(jì)算機(jī)科學(xué)技術(shù)專(zhuān)業(yè)學(xué)生上網(wǎng)分布
從表6可知,三個(gè)年級(jí)總?cè)藬?shù)相似,大四學(xué)生上網(wǎng)人數(shù)較多(149人)??傮w來(lái)看,工作日大二學(xué)生使用網(wǎng)絡(luò)較少,晚睡、通宵的人數(shù)都比較少。大三使用網(wǎng)絡(luò)人數(shù)有所增加,晚睡、通宵的人數(shù)也都有增加。大四學(xué)生上網(wǎng)人數(shù)增加,在各類(lèi)中人數(shù)占比大,說(shuō)明學(xué)生上網(wǎng)時(shí)間差異較大,可能因?yàn)檎n程設(shè)置較少,學(xué)生不受上課時(shí)間約束,自由度高。對(duì)于周末人數(shù)分布,大四學(xué)生使用網(wǎng)絡(luò)最多,通宵、熬夜人最多。大二學(xué)生周末使用網(wǎng)絡(luò)比大三學(xué)生多,熬夜通宵人數(shù)少于大三人數(shù)。
對(duì)其他專(zhuān)業(yè)可進(jìn)行類(lèi)似分析。當(dāng)然也可通過(guò)數(shù)據(jù)對(duì)比獲取各專(zhuān)業(yè)學(xué)生上網(wǎng)時(shí)間分布的差異。限于篇幅,本文未給出各專(zhuān)業(yè)對(duì)比情況。通過(guò)專(zhuān)業(yè)對(duì)比,可為專(zhuān)業(yè)設(shè)置、專(zhuān)業(yè)各年級(jí)課程設(shè)置提供參考。
本文選擇2016年11月的校園網(wǎng)上網(wǎng)認(rèn)證數(shù)據(jù),清洗掉與研究目標(biāo)無(wú)關(guān)的數(shù)據(jù),然后計(jì)算得到學(xué)生的上網(wǎng)時(shí)長(zhǎng)向量集合。對(duì)上網(wǎng)時(shí)長(zhǎng)向量的聚類(lèi)分三步進(jìn)行,首先利用K-canopy算法選擇并去除離群點(diǎn)數(shù)據(jù),提高了數(shù)據(jù)質(zhì)量和聚類(lèi)效率,使聚類(lèi)結(jié)果更具說(shuō)服力。再用輪廓系數(shù)、戴維森堡丁指數(shù)與誤差平方和系數(shù)三種參數(shù)投票確定最優(yōu)聚類(lèi)個(gè)數(shù)。最后利用K-means算法對(duì)工作日和周末上網(wǎng)時(shí)長(zhǎng)向量集分別進(jìn)行聚類(lèi),對(duì)聚類(lèi)結(jié)果進(jìn)行分析,得到工作日、周末不同類(lèi)型學(xué)生上網(wǎng)時(shí)長(zhǎng)特征。另外,統(tǒng)計(jì)單個(gè)學(xué)生、某專(zhuān)業(yè)各年級(jí)學(xué)生的聚類(lèi)結(jié)果,分別得到對(duì)應(yīng)的上網(wǎng)時(shí)長(zhǎng)特征。本文分析結(jié)果可為專(zhuān)業(yè)課程安排、學(xué)生管理工作提供參考。
隨著無(wú)線(xiàn)網(wǎng)絡(luò)認(rèn)證數(shù)據(jù)的暴增,學(xué)生上網(wǎng)行為信息更為豐富。因此下一步會(huì)利用Spark平臺(tái)對(duì)有線(xiàn)、無(wú)線(xiàn)認(rèn)證數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)及學(xué)生成績(jī)等數(shù)據(jù)進(jìn)行進(jìn)一步分析,在校園人員流動(dòng)規(guī)律、學(xué)生成績(jī)與上網(wǎng)成績(jī)關(guān)聯(lián)性等方面獲取更有價(jià)值的分析結(jié)果。