紀松江 陳豪 唐博浩 張明
摘要:隨著數(shù)字化時代的到來,推動著校園數(shù)字化快速發(fā)展,校園卡的普及更是對校園數(shù)字化最突出的部分。通過對校園卡的使用,并對校園卡所產(chǎn)生的數(shù)據(jù),直接反映了學生在校生活的消費情況。能夠幫助學校對學生的消費行為有大體的了解,同時利用大數(shù)據(jù)分析技術,對電子科技大學成都學院的學生做一個細致的研究,利用K-means聚類算法對學生使用校園卡的消費記錄聚類分析,同時能得出每一位學生的消費能力層級。其所得到的成果能幫助學校做出科學有效的決策,同時對異常的消費行為做出科學的引導。
關鍵詞:大數(shù)據(jù)分析;校園卡;消費能力
從大量的數(shù)據(jù)中提取出需要的數(shù)據(jù),并且讓數(shù)據(jù)發(fā)揮出各自的價值,這就是數(shù)據(jù)的價值?,F(xiàn)在很多的問題都能通過海量的數(shù)據(jù)去解決,提取大量數(shù)據(jù)其中隱含的消息,潛在的規(guī)律?,F(xiàn)在研究的內(nèi)容包括:通過已經(jīng)認定的貧困生所處的貧困等級線,比較每名學生與貧困等級線的偏離程度;采用月消費金額,通過聚類算法對學生校園卡消費數(shù)據(jù)進行分組;用整體的消費金額的平均水平衡量貧困等級線,并作出調(diào)整;由于上述研究內(nèi)容易存在弊端,不具有強有力的說服力:在已經(jīng)獲得的貧困生里面,存在少部分的假貧困生,對貧困等級線帶來誤差;對最后得出的貧困等級,需要做數(shù)據(jù)檢驗,看整體的偏移程度,核對算法的整體有效性。
綜上所述,基于大學生校園卡消費數(shù)據(jù)特征分析學生消費能力整體的思路是:統(tǒng)計整個學生的消費能力數(shù)據(jù),得出整體的消費金額的平均水平;根據(jù)整合的數(shù)據(jù)得出每一名學生的月消費總金額和月消費總次數(shù);根據(jù)整體的消費情況得出的消費金額和消費次數(shù)剔除部分異常的數(shù)據(jù)值;并且將學生分成四類。
A類:消費次數(shù)低于均值,消費金額高于均值定位消費能力良好
B類:消費次數(shù)處于均值,消費金額低于均值定位消費能力為一般
C類:消費次數(shù)高于均值,消費金額低于均值定位消費能力為差
D類:消費次數(shù)高于均值,消費金額高于均值定位消費能力較好
聚類是指將相似的事物或者事件化成同一類別,將不相似事物或者事件劃分為同一類別。按照K-means聚類算法對學生分類,最后得出每位學生的消費能力等級。
一、校園卡數(shù)據(jù)與消費能力
(一)校園卡數(shù)據(jù)結構
以電子科技大學成都學院為例,該校的校園卡用于存儲學生的消費記錄,校園卡的數(shù)據(jù)結構包含了學生的年級、院系、身份證號碼、姓名、交易類型、交易金、交易終端和交易時間的數(shù)據(jù)。對總的消費數(shù)據(jù)進行研究和分類。校園卡的數(shù)據(jù)結構如表1所示。
(二)學生消費能力
根據(jù)表1的校園卡數(shù)據(jù)結構,可知目前電子科技大學成都學院的學生目前的消費能力,消費的時間。每位學生在不同的交易時間里,消費的地點和消費的金額也不相同。由于每個人消費觀念不同,對于每次消費的支出金額也不相同。
二、數(shù)據(jù)處理及數(shù)據(jù)分類
(一)數(shù)據(jù)獲取與處理
首先對數(shù)據(jù)進行獲取和預處理,通過電子科技大學成都學院校園卡數(shù)據(jù)庫后臺導出的數(shù)據(jù),經(jīng)過初步的篩選,得出學生的姓名、學號、交易類型、交易金額、交易終端、交易時間以及學生所屬的二級學院具體的如表2學生校園卡數(shù)據(jù)結構所示。
可以看出,在表2中,每一位同學的姓名和每次交易時間下花費的金額。將每次的消費記錄統(tǒng)計出來之后,將會在表2的基礎上進行優(yōu)化,將會統(tǒng)計出每位學生和每位學生月消費金額,如表3月消費金額和月消費次數(shù)所示。
在這個過程中,針對大一、大二、大三學生,畢業(yè)班學生不做參考,同時數(shù)據(jù)表里存在部分的異常數(shù)據(jù),也同時剔除出去??紤]到大部分學生會在學校正常就餐,少部分同學訂外賣,外出吃飯和一些家庭條件困難同學可能會一日兩餐,將月消費次數(shù)低于60的數(shù)據(jù)剔除。
(二)消費能力對應關系
深入分析消費金額和消費次數(shù)與規(guī)定的學生的A,B,C,D四個等級之間的對應關系,通過K-means聚類算法,得出表4學生的消費能力等級與消費金額和消費次數(shù)的對應關系所示。
通過表4可以看出,當符合等級A的同學,每個月最低的消費金額是782.449533,而消費次數(shù)是88.876999;當符合等級為C的同學,每個月最低的消費金額是171.466299,而消費次數(shù)是17.9199105;當符合等級為D的同學,每個月最低消費金額是1270.302469,而消費的次數(shù)最低是135.882793;當符合等級為B的同學,每個月最低的消費金額是493.674104,而消費的次數(shù)最低是55.868327。
通過使用K-means聚類算法,將數(shù)據(jù)進行預處理之后,又最開始定的學生四類等級,同時將最后的結果回歸到學生四類等級中,就可以知道符合四類等級的區(qū)間的詳細的消費信息。表4中,變量S代表每一位學生的月消費金額。同時也將會根據(jù)實際需要并且同時結合實際的情況,適當?shù)倪M行修改標準,同時也給出最終判定大學生消費能力的標準:
1. 0
2. 171.466299
3. 493.674104
4. 782.449533