楊江?!∴嚭I涞潞±钚駯|
摘要:為研究校園學(xué)生的消費(fèi)行為規(guī)律,以校內(nèi)食堂的學(xué)生微信消費(fèi)記錄為數(shù)據(jù)基礎(chǔ),結(jié)合數(shù)據(jù)挖掘技術(shù)對其進(jìn)行研究分析,嘗試挖掘出學(xué)生消費(fèi)的行為規(guī)律。通過對原始數(shù)據(jù)進(jìn)行預(yù)處理、計(jì)算相關(guān)系數(shù)、選取最佳K值和評估輪廓系數(shù),采用K均值聚類算法找出不同消費(fèi)行為的學(xué)生群體,研究分析其不同群體的消費(fèi)行為規(guī)律特征。研究結(jié)果表明,該算法將學(xué)生分成了低中高水平的消費(fèi)群體,得出了不同時段學(xué)生在食堂各樓層的消費(fèi)習(xí)慣。
關(guān)鍵詞:學(xué)生群體;微信消費(fèi);數(shù)據(jù)挖掘;消費(fèi)行為;K-means聚類算法
中圖分類號:G642? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)08-0016-04
1 引言
國家提倡數(shù)字化以來,校園的數(shù)字化和信息化也緊跟步伐不斷發(fā)展,校園的消費(fèi)方式從線下的紙幣支付轉(zhuǎn)變成了線上掃碼支付,并已在全國高校推廣應(yīng)用。對于線上支付消費(fèi),學(xué)校都有配套管理系統(tǒng)來記錄學(xué)生的消費(fèi)情況,該系統(tǒng)具有用戶量大、每日交易多、單筆交易金額參差不齊等特點(diǎn)。通過這些龐大的數(shù)據(jù)量,對其進(jìn)行有效地挖掘、分析,可發(fā)現(xiàn)消費(fèi)人群的消費(fèi)特點(diǎn)和規(guī)律。
2 相關(guān)研究
2.1 研究現(xiàn)狀
2015年,姜楠、許維勝[1]在學(xué)生一卡通數(shù)據(jù)上,采用優(yōu)化的K-means算法進(jìn)行聚類分析,輔助管理部門更好地服務(wù)學(xué)生。2020年,李婷等在以陜西工業(yè)職業(yè)技術(shù)學(xué)院校園“一卡通”中教職工交易流水?dāng)?shù)據(jù)為研究對象,利用分類、K-means聚類算法,研究教職工的就餐規(guī)律和消費(fèi)水平等,為后勤部門優(yōu)化提供了科學(xué)依據(jù)[2]。2020年,龔黎旰以高校校園一卡通消費(fèi)記錄為數(shù)據(jù)基礎(chǔ),利用K-means算法結(jié)合Spark大數(shù)據(jù)計(jì)算框架,深度分析不同群體的消費(fèi)組成結(jié)構(gòu)和消費(fèi)行為特征,為學(xué)校心理輔導(dǎo)提供參考依據(jù)[3]。
2.2 學(xué)生消費(fèi)行為分析
截至目前,校園在線支付已經(jīng)得到非常廣泛的應(yīng)用,小到日用品,大到看病購藥,每天在校園群體中使用得很頻繁。
本文研究數(shù)據(jù)由西京學(xué)院智媒體傳播研究中心資助,主要通過對西京學(xué)院的校園微信消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析。第一步,整理歸納校園消費(fèi)數(shù)據(jù)對于現(xiàn)實(shí)的需求;第二步,從數(shù)據(jù)庫中提取原始數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理操作,主要包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)篩選、數(shù)據(jù)集成和數(shù)據(jù)歸約等[4];第三步,對于預(yù)處理后的數(shù)據(jù),將相關(guān)的字段變量按照實(shí)際情況進(jìn)行量化處理,字段包括學(xué)生性別、學(xué)生年級、消費(fèi)金額、商家所在樓層和支付時間;最后,通過聚類算法對該數(shù)據(jù)進(jìn)行分析,提取當(dāng)中潛在的數(shù)據(jù)價值,如消費(fèi)行為規(guī)律。
3 相關(guān)技術(shù)
董新科等人在基于校園一卡通消費(fèi)數(shù)據(jù)的幾種聚類算法的分析比較論文中,使用常用的聚類算法在校園一卡通的消費(fèi)數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),通過對多個指標(biāo)的分析,得出了K-means 算法最合適在當(dāng)前的數(shù)據(jù)上做聚類分析的結(jié)論[5]。本文基于該結(jié)論,使用K-means對校園微信消費(fèi)數(shù)據(jù)進(jìn)行聚類分析,對學(xué)生在食堂飲食的消費(fèi)習(xí)慣劃分類別。
在聚類分析中,大多數(shù)都是通過優(yōu)化初始聚類中心選擇的方式,來達(dá)到提高聚類效果的準(zhǔn)確性和類內(nèi)密集程度。本文在進(jìn)行聚類分析前,使用相關(guān)系數(shù)對數(shù)據(jù)中的變量進(jìn)行相關(guān)關(guān)系分析,找出正相關(guān)的變量;再通過手肘法選取數(shù)據(jù)的真實(shí)聚類數(shù);最后用輪廓系數(shù)評估聚類結(jié)果。
3.1 皮爾遜pearson相關(guān)系數(shù)
在本次使用的微信消費(fèi)數(shù)據(jù)中,通過總體Pearson相關(guān)系數(shù)來計(jì)算數(shù)據(jù)各變量的相關(guān)性,從而找出協(xié)方差為正的變量。
4) 誤差平方和[SSE]為全部樣本的聚類誤差,其結(jié)果表示聚類效果的優(yōu)劣。
當(dāng)聚類數(shù)k增大,樣本會被更加細(xì)分,每個簇的聚合程度也會被提高,[SSE]也會隨著變小;相反,當(dāng)k值小于真實(shí)聚類數(shù)時,[SSE]的下降幅度會變大;當(dāng)k值接近真實(shí)聚類數(shù)時,[SSE]的下降幅度會減小,之后隨著k值的增大而趨于平緩,最終生成的關(guān)系圖是一個手肘的形狀,而數(shù)據(jù)的真實(shí)聚類數(shù)就對應(yīng)肘部的k值[6]。
3.3 輪廓系數(shù)
本文所研究的消費(fèi)數(shù)據(jù)分類類別是未知的,故使用輪廓系數(shù)作為聚類性能的評估指標(biāo),以評估分類結(jié)果的準(zhǔn)確度。該系數(shù)的取值范圍在[-1,1]之間,當(dāng)取值靠近1時,證實(shí)聚類成果越優(yōu)越;反之,當(dāng)取值偏向-1時,則證實(shí)聚類效果越弱。其計(jì)算步驟如下:
1) 第[i]個樣本對象到所屬簇中其他對象的平均距離,記為[ai](體現(xiàn)凝聚度)[7],稱為樣本對象[i]的簇內(nèi)不相似度;[ai]越小,則該簇對其聚類到內(nèi)的可能性越大。
2) 第[i]個樣本對象和不包含該對象的其他任意簇,記為[bi](體現(xiàn)分離度)[7],稱為樣本對象[i]與簇[ci]間的不相似度:[bi=min{bi1,bi2,???,bik}]
3) 依據(jù)樣本對象[i]的簇內(nèi)不相似度[ai]和簇間不相似度[bi],其樣本對象[i]的輪廓系數(shù)為:
4 數(shù)據(jù)處理與建模
4.1 數(shù)據(jù)提取
本文數(shù)據(jù)從高校的服務(wù)器中提取校園學(xué)生微信消費(fèi)數(shù)據(jù)樣本,包含食堂消費(fèi)、卡機(jī)充值、校園公交消費(fèi)及圖書館消費(fèi)等數(shù)據(jù)。為了保護(hù)學(xué)生個人隱私,以上研究數(shù)據(jù)均已通過脫敏處理。該原始數(shù)據(jù)每天都會從客戶端往服務(wù)器產(chǎn)生大量的消費(fèi)記錄存入數(shù)據(jù)庫中,故選取時間為2021年1~5月份校內(nèi)本科生和研究生作為研究數(shù)據(jù),約三百萬條消費(fèi)記錄。表中字段如表1所示:
4.2 數(shù)據(jù)預(yù)處理
校園學(xué)生微信消費(fèi)數(shù)據(jù)存在一些不符合規(guī)范或超出范圍的數(shù)據(jù),在分析研究學(xué)生的消費(fèi)行為之前,需要通過數(shù)據(jù)預(yù)處理技術(shù)對該消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理。為了保證數(shù)據(jù)的完整性,即消費(fèi)記錄盡量保證所有學(xué)生都在校內(nèi)食堂消費(fèi),故排除2021年1月份和2月份的寒假時間,共統(tǒng)計(jì)3個月(2021年3月至2021年5月)的消費(fèi)記錄;并排除在食堂消費(fèi)以外的非餐飲商家消費(fèi)記錄,如圖書館消費(fèi)、校園公交消費(fèi)、醫(yī)務(wù)室消費(fèi)等,數(shù)據(jù)經(jīng)過處理后從原始包含的2983824條消費(fèi)記錄降到2503243條。對于時間字段,需要將消費(fèi)時間的時和分提取出來,存放于單獨(dú)的字段內(nèi)。根據(jù)食堂的就餐開放時間,將6點(diǎn)零分至9點(diǎn)零分劃分為早晨就餐時間,10點(diǎn)零分至13點(diǎn)零分為午餐就餐時間,17點(diǎn)零分至20點(diǎn)零分為晚餐就餐時間。65E71114-E2A4-42E9-96FB-4A0F5E09D398
4.3 變量間相關(guān)性
為了觀察消費(fèi)與各變量的相關(guān)關(guān)系,以方便后面進(jìn)行模型建立。對學(xué)生的消費(fèi)水平進(jìn)行多方面考量,分析校內(nèi)學(xué)生的消費(fèi)結(jié)構(gòu)以及不同時段的消費(fèi)差異,通過選用消費(fèi)金額(pay_surplus)、時段(session)、樓層(level)、性別(sex)及年級(grade)這5個變量進(jìn)行Pearson相關(guān)性計(jì)算。計(jì)算結(jié)果及可視化如圖1、表2所示:
由上述圖表可看出,消費(fèi)與樓層是呈正相關(guān)的,越往高的樓層,消費(fèi)也在隨著增加;在消費(fèi)時段上也是同樣的關(guān)系,晚上時段的消費(fèi)會比上午和下午的消費(fèi)高;而性別和年級呈負(fù)相關(guān)關(guān)系,不適合作為聚類。故選用時段和樓層來作為聚類模型的分類指標(biāo)。
4.4 聚類模型建立與評估
對上述經(jīng)過相關(guān)關(guān)系計(jì)算篩選出來的變量,采用K-means聚類算法對該消費(fèi)數(shù)據(jù)進(jìn)行聚類分析。
首先,將以上3個變量指標(biāo)的數(shù)據(jù)單獨(dú)存放到新的數(shù)據(jù)框中,并對其進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,即去均值和方差歸一化,使得經(jīng)過處理的消費(fèi)數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布;然后通過手肘方法,依次做K-means聚類,計(jì)算k值取1到10的誤差平方和,看不同值對應(yīng)的簇內(nèi)誤差平方和,以找出最佳k值,結(jié)果如圖2所示,由圖可看出,k值從5開始簇內(nèi)誤差平方和趨于平緩,故k值取5效果最佳。
因此,K-means聚類模型的參數(shù)以k值(n_clusters)為5,初始化方法(init)為K-means++,質(zhì)心初始化值(n_init)為10,最大迭代數(shù)(max_iter)為300,隨機(jī)從訓(xùn)練數(shù)據(jù)中選取初始質(zhì)心(random_state)為0。通過訓(xùn)練得出聚類模型,并以模型為基礎(chǔ)計(jì)算出預(yù)測值;最后利用輪廓系數(shù),將變量指標(biāo)數(shù)據(jù)和預(yù)測值各取60000條數(shù)據(jù)作為輸入?yún)?shù),來評估分類結(jié)果的準(zhǔn)確度,評估結(jié)果約為0.923??梢姺诸愋Ч诲e。
5 結(jié)果分析
校園學(xué)生微信消費(fèi)數(shù)據(jù)通過K-means聚類模型的訓(xùn)練后,將分類后的標(biāo)簽并入到數(shù)據(jù)表中,對聚類后的情況進(jìn)行統(tǒng)計(jì),結(jié)果如圖3所示??梢?,學(xué)生的消費(fèi)情況被分成5個群體,3群的占比最大,占總學(xué)生消費(fèi)記錄數(shù)的32.9%,其次是0群,占總記錄數(shù)的28.3%,而4群僅占0.1%。
為進(jìn)一步地刻畫校園內(nèi)學(xué)生的微信支付消費(fèi)情況,對聚類指標(biāo)進(jìn)行統(tǒng)計(jì)分析。各分類群的消費(fèi)區(qū)間分布如表3所示??梢?,占比最大的3群,其消費(fèi)范圍在2~28元不等,平均消費(fèi)價格在7.5元;0群的消費(fèi)范圍和3群接近,但平均消費(fèi)在6.9元;1群的學(xué)生群體的消費(fèi)則在5.9~60.8元,屬于消費(fèi)偏高的群體,平均消費(fèi)在15.6元;而2群體屬于低消費(fèi)人群,價格在1.8~16.4元,平均消費(fèi)屬于5群體中最低,在4.5元;4群的消費(fèi)價格已超出普通學(xué)生的正常范圍,且僅占消費(fèi)總數(shù)的0.1%,故在此不做深入分析。
為了比較全面地分析學(xué)生在食堂的消費(fèi)規(guī)律,故以類別為依據(jù),按樓層和時段的分類結(jié)果,結(jié)合各群體的消費(fèi)范圍做整體分析,如表4表5所示。
在表4樓層分類中,屬于中等消費(fèi)且占總量較大的0和3群體,其消費(fèi)習(xí)慣主要分布在食堂的1和2層,3層也有部分消費(fèi);屬于高消費(fèi)的1群體在食堂的消費(fèi)習(xí)慣大部分集中在3層,小部分在4層;而平均消費(fèi)最低的2群體出現(xiàn)在1和2層,兩層的消費(fèi)各占50%??梢姡?層和2層的是學(xué)生比較習(xí)慣去消費(fèi)的樓層,且屬于中低消費(fèi)群體,占到了總消費(fèi)記錄的78.6%;而3層和4層屬于高消費(fèi)群體經(jīng)常去的地方,僅占到了21.3%。由此說明校園內(nèi)學(xué)生的消費(fèi)普遍屬于經(jīng)濟(jì)性。
在表5時段分類中,中等消費(fèi)的0群和3群的消費(fèi)群體各集中在中午和早上時段,高消費(fèi)1群體的消費(fèi)分布在中午和晚上,低消費(fèi)的2群體主要集中在晚上。由此可見session在群組中是較好的分群變量。
從學(xué)生消費(fèi)的整體客觀因素來看,2群的消費(fèi)習(xí)慣是根據(jù)時段消費(fèi)的;而1群和4群更側(cè)重于樓層的選擇,如表6所示:
綜上分析,可得出以下結(jié)論:消費(fèi)價格范圍在1.8~16.4
元的低消費(fèi)學(xué)生群體,其消費(fèi)規(guī)律主要在晚上的1層和2層;處在2~28元的中消費(fèi)學(xué)生群體,其出現(xiàn)在中午的1和2層,小部分在第三層;而高消費(fèi)的學(xué)生在5.9~60.8元范圍消費(fèi),主要出現(xiàn)在3和4層的中午和晚上。
6 結(jié)語
本文通過多個計(jì)算方法對研究數(shù)據(jù)進(jìn)行篩選和處理,再對其進(jìn)行聚類統(tǒng)計(jì)分析,與實(shí)際情況相結(jié)合,從而大致了解學(xué)生在校的消費(fèi)水平和行為規(guī)律,研究結(jié)果可為學(xué)校餐飲部門或者在獎學(xué)金的發(fā)放上提供相關(guān)參考依據(jù)。本文通過對校園學(xué)生消費(fèi)數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù),來探險其中的數(shù)據(jù)價值,為以后相關(guān)的校園數(shù)據(jù)研究建設(shè)打下基礎(chǔ)。
參考文獻(xiàn):
[1] 姜楠,許維勝.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費(fèi)行為分析[J].大眾科技,2015,17(1):26-28,39.
[2] 李婷,李海平,尉亦兵.校園“一卡通”消費(fèi)行為數(shù)據(jù)分析[J].微型電腦應(yīng)用,2020,36(4):42-46.
[3] 龔黎旰,顧坤,明心銘,等.基于校園一卡通大數(shù)據(jù)的高校學(xué)生消費(fèi)行為分析[J].深圳大學(xué)學(xué)報(理工版),2020,37(S1):150-154.
[4] 徐云.多通道數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)預(yù)處理方法研究[D].杭州:浙江大學(xué),2014:14-18.
[5] 董新科,張暉.基于校園一卡通消費(fèi)數(shù)據(jù)的幾種聚類算法的分析比較[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(1):158-161,183.
[6] 夏海峰,陳軍華.基于文本挖掘的投訴熱點(diǎn)智能分類[J].上海師范大學(xué)學(xué)報(自然科學(xué)版),2013,42(5):470-475.
[7] 張冬梅.基于輪廓系數(shù)的層次聚類算法研究[D].秦皇島:燕山大學(xué),2010.
【通聯(lián)編輯:王力】65E71114-E2A4-42E9-96FB-4A0F5E09D398