劉訓(xùn)星 姜峰 龔勇
摘要:隨著智慧校園的建設(shè),一卡通在校園中發(fā)揮重要的作用,在一卡通中存放大量數(shù)據(jù),本文中使用weka調(diào)用Apriori算法,分析我校貧困生消費情況,同時對全校消費額占比分析和刷卡次數(shù)占比分析,為學(xué)校管理層在降低學(xué)生生活成本和提供高效服務(wù)兩方面提供數(shù)據(jù)支持。
關(guān)鍵詞:智慧校園;一卡通;消費行為分析
一、引言
宣城職業(yè)技術(shù)學(xué)院經(jīng)過這幾年的快速發(fā)展,信息化技術(shù)得到長足的發(fā)展,隨著德處項目不斷推進(jìn),學(xué)校在基礎(chǔ)建設(shè)、管理多方面將得到很大提高,其中智慧校園建設(shè)是德處項目的重要組成部分,校園一卡通將是智慧校園建設(shè)實現(xiàn)的基礎(chǔ),包含學(xué)生大量信息,具有消費功能和身份識別功能。
本文通過對宣城職業(yè)技術(shù)學(xué)院校園一卡通產(chǎn)生的數(shù)據(jù)獲取、處理、分析,獲取當(dāng)前學(xué)生消費行為,通過關(guān)聯(lián)性因素挖掘分析,獲得有效數(shù)據(jù),可以依據(jù)對數(shù)據(jù)挖掘分析的結(jié)果,有助與學(xué)生管理、有助于提高服務(wù)水平,為我校智慧校園的建設(shè)提供更有價值的數(shù)據(jù)。
二、消費行為分析
Apriori算法能夠通過對數(shù)據(jù)的分析挖掘出強關(guān)聯(lián),在Apriori算法中支持度是重要指標(biāo)用來表示集中項一同出現(xiàn)的概率大小,當(dāng)概率小時說明兩個數(shù)據(jù)集間的關(guān)聯(lián)小,當(dāng)概率為百分之百時前一個項集直接影響后面一個項集。Apriori算法在關(guān)聯(lián)規(guī)則挖掘重要算法,主要任務(wù)有頻繁項集產(chǎn)生和關(guān)聯(lián)規(guī)則產(chǎn)生。
三、算法介紹
(一)Apriori關(guān)聯(lián)規(guī)則指標(biāo)
從樣本中能挖掘大量的關(guān)聯(lián)規(guī)則,現(xiàn)實中在大量關(guān)聯(lián)規(guī)則中只有部分關(guān)聯(lián)規(guī)則是有效的。造成無效的原因主要在兩個方面:一個是沒有達(dá)到足以信服程度,另一個是所產(chǎn)生的規(guī)則只能很小范圍使用。所以我在判斷一條挖掘的規(guī)則是否有價值,有不少衡量指標(biāo),在這其中支持度和置信度是兩條重要衡量指標(biāo)。
(二)Apriori關(guān)聯(lián)規(guī)則操作步驟
(1)頻繁項集的產(chǎn)生與發(fā)現(xiàn)。步驟一:構(gòu)建單元素項集列表,可以通過構(gòu)造相應(yīng)的數(shù)據(jù),然后將數(shù)據(jù)元素轉(zhuǎn)換位不可變的集合,并將其存儲到列表里;步驟二選擇滿足支持度要求數(shù)據(jù)集合,創(chuàng)建頻繁項集同時記錄任意元素支持度并存放到字典中,刪除不符合支持度要求的元素;步驟三尋找符合支持度要求組合集合,創(chuàng)建頻繁我們所需項集列表,找出符合支持度要求集合列表。
(2)頻繁項集發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
(三)實驗的數(shù)據(jù)獲取
從宣城職業(yè)技術(shù)學(xué)院校園一卡通數(shù)據(jù)存放數(shù)據(jù)庫中將最新數(shù)據(jù)導(dǎo)出,從而用于實驗。打開存放數(shù)據(jù)服務(wù)器的sql server 2005,從中找到存放數(shù)據(jù)的數(shù)據(jù)庫。
從數(shù)據(jù)庫找到存放數(shù)據(jù)的表,從中我們就能看到一卡通在使用過程中產(chǎn)生的數(shù)據(jù)了。
為了使得獲取的數(shù)據(jù)有助于數(shù)據(jù)挖掘過程中的的使用,將存放在服務(wù)器中一卡通的數(shù)據(jù)以.csv格式導(dǎo)出數(shù)據(jù)。在SQL Server Management Studio窗口中找到新建查詢命令,打開新建查詢窗口,在窗口中輸入查詢SQL語句;執(zhí)行查詢命令;將查詢結(jié)果另存為制定格式文件(.csv)。
三、一卡通中學(xué)生消費數(shù)據(jù)的分析和挖掘
在服務(wù)器中獲取9257條一卡通原始消費數(shù)據(jù)。
(一)按消費場所的角度分析
通過獲取2018年9月1日-2018年12月31日一卡通數(shù)據(jù),通過分析處理:①在此期間一共消費1539678.41元;②消費額占總比前三位的是食堂一樓、超市、食堂二樓。為此供學(xué)校管理層提供基礎(chǔ)數(shù)據(jù),嚴(yán)格管理食堂與超市,有助于降低學(xué)生生活費,特別是生活困難的學(xué)生;③一卡通共刷卡次數(shù)為1048575次。④刷卡次數(shù)前三位是二樓浴室、一樓浴室、開水房。有助于管理層,重視熱水供應(yīng)過程中安全問題,同時注意浴室設(shè)施設(shè)備是否安全夠用,設(shè)備是否需要更新,改善學(xué)生生活水平;⑤二號樓門面八和二號樓門面十二刷卡次數(shù)和消費額都比較低,有助于管理層引進(jìn)更加有競爭力服務(wù)商,從而更好為學(xué)校師生提供服務(wù)。
(二)使用軟件weka3.8.0挖掘數(shù)據(jù)
(1)數(shù)據(jù)預(yù)處理。在眾多數(shù)據(jù)中有少數(shù)一卡通消費次數(shù)和消費額都非常低,可能是走讀生或卡片丟失重新補辦,同時目前數(shù)據(jù)量比較大,為了防止這些數(shù)據(jù)對后面挖掘結(jié)果的影響,我們刷卡次數(shù)低于等于100,同時消費額低于300元數(shù)據(jù)刪除,處理之后還保留2546條有效數(shù)據(jù)。
(2)數(shù)據(jù)離散化處理。由于在進(jìn)行關(guān)聯(lián)規(guī)則分析時,不能處理為Numeric型數(shù)據(jù),所以必要的Numeric型數(shù)據(jù)進(jìn)行離散化處理,將刷卡次數(shù)分為B_H、B_M、B_L,將消費金額分為C_H、C_M、C_L。
(3)將經(jīng)過預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換為.csv格式存放,用weka軟件打開.csv格式數(shù)據(jù),并保存為.arff格式數(shù)據(jù)。在weka中打開 ? ? .arff格式數(shù)據(jù),由于一卡通卡號對后面數(shù)據(jù)處理沒有意義,故在進(jìn)行關(guān)聯(lián)規(guī)則分析前將其刪除。
(4)Apriori算法的使用。將參數(shù)metrictype設(shè)為Confidence,此處共三個可選擇分別是杠桿率、提升度、確信度。將參數(shù)numRules設(shè)為6,目的是通過管理規(guī)則算法產(chǎn)生6條規(guī)則,其它參數(shù)設(shè)置如圖3所示。
(5)關(guān)聯(lián)規(guī)則分析結(jié)果。通過上述6條規(guī)則,我們能獲得以下結(jié)論:第一個:消費水平為C_H的有624張卡,有621張卡不是貧困生,可信度是100%;第二個:消費水平為C_M的有873張卡,有863張卡不是貧困生,可信度是99%;通過對規(guī)則4、5分析我校貧困生比較節(jié)約,非常珍惜來之不易的補助。第三個:刷卡次數(shù)為B_H且消費金額為C_H有304張卡,有304張卡不是貧困生,可信度是100%;第四個:刷卡次數(shù)為B_H且消費金額為C_M有261張卡,有260張卡不是貧困生,可信度是100%。通過對規(guī)則2、3分析我校貧困生消費比較控制。
四、結(jié)語
關(guān)聯(lián)規(guī)則能夠真實反應(yīng)學(xué)生消費情況,通過數(shù)據(jù)挖掘不難發(fā)現(xiàn)存在規(guī)律,這些規(guī)律有助于管理者作出恰當(dāng)決策。
學(xué)生貧困等級劃分時,有清晰界限,然而在消費時界限還比較模糊。前期對數(shù)據(jù)處理進(jìn)行大量處理工作,雖然食堂、浴室和超市都使用便捷Pos終端,但是依然有不少同學(xué)使用微信和支付寶支付。在消費額會存在一定程度的偏差。本文只在數(shù)據(jù)挖掘一個方面進(jìn)行研究,在數(shù)據(jù)挖掘還有許多挖掘算法,能進(jìn)一步提高挖掘數(shù)據(jù)的準(zhǔn)確性。在未來尋找性能更加優(yōu)秀的挖掘模型。
參考文獻(xiàn):
[1]丁榮,孫曉輝,李智勇.基于校園一卡通的高校貧困生消費行為分析[J].網(wǎng)絡(luò)與信息工程,2016(18):78-79.
[2]張紅蕾.數(shù)據(jù)挖掘在校園卡消費中的研究與應(yīng)用[D].蘭州:蘭州交通大學(xué),2016.
作者簡介:
劉訓(xùn)星(1981.11-),男,安徽宣城人,講師,碩士,主要研究方向:數(shù)據(jù)挖掘和教育技術(shù)信息化。
姜峰(1986.10-),男,安徽池州人,初級職稱,大學(xué)本科。
龔勇(1982-),男,安徽宣城人,碩士,講師,主要研究方向:人工智能。
基金項目:
2018年度安徽省高等學(xué)校省級質(zhì)量工程計算機教研室項目,編號:2018jyssf087,負(fù)責(zé)人:劉訓(xùn)星。