• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于校園卡學生消費行為的分析與研究

      2020-11-13 03:38張亮
      微型電腦應用 2020年10期
      關鍵詞:數(shù)據(jù)挖掘

      摘要:以校園一考通系統(tǒng)為依托,對學生消費數(shù)據(jù)記錄開展分析和研究。首先對學生基礎消費進行數(shù)據(jù)處理,通過數(shù)據(jù)清洗和集成,完成歸約,然后再利用Kmeans算法對學生消費行為聚類分析,分析系統(tǒng)內(nèi)數(shù)據(jù)的隱含特征規(guī)律,為今后的貧困生資助管理工作中進行數(shù)據(jù)分析與輔助決策有一定的指導意義。

      關鍵詞:數(shù)據(jù)挖掘;Kmeans算法;消費記錄;校園卡

      中圖分類號:TP301

      文獻標志碼:A

      ResearchandAnalysisofStudentConsumingBehavior

      BasedonCampusCardsofStudents

      ZHANGLiang

      NetworkInformationCenter,ChinaUniversityofPetroleum(EastChina),Qingdao266500,China

      Abstract:Thepaperresearchesstudentconsumptiondatabasedoncampuscards.Consumptionrecordsarepreprocessed,includingdatacleaning,dataintegrationandtransformation,datareduction.ThroughtheKmeanscluster,studentconsumptionbehaviorsareanalyzed,andthehiddencharacteristicsofdatainthesystemarediscovered.Thepaperhasimportantguidingsignificancefordataanalysisandauxiliarydecisionmakingofthesepoorstudents.

      Keywords:datamining;Kmeansalgorithm;consumptionrecords;campuscard

      0引言

      隨著大型數(shù)據(jù)庫的技術成熟以及普及應用,數(shù)據(jù)挖掘是當前學術界的熱點話題。近年來,基于卡片應用的校園一卡通[13](以下簡稱校園卡)系統(tǒng)的得到快速的發(fā)展,并廣泛應用于各大高校,生成了的大量的信息數(shù)據(jù),用戶的用卡痕跡通過這些數(shù)據(jù)被記錄下來,用戶的行為習慣可以通過分析這些數(shù)據(jù)被反映出來。

      在各高校,國家每年通過勤工儉學崗位、貧困生補助等方式,為困難學生提供大量的助學金、貸款和工作崗位。由于認定涉及到多方面的無法衡量的因素,學校僅僅通過學生提交的相關貧困證明等非量化方式進行判定,貧困生的鑒別在各高校都是一個難題。如果鑒別不準確,會造成國家資助工作不到位,教育資源分配出現(xiàn)偏差。通過數(shù)據(jù)分析算法,對大學生校內(nèi)消費記錄進行整理、分類、預測,從而整體反應學生在校消費情況,形成量化的評判標準,為今后的貧困生資助管理工作提供可靠的數(shù)據(jù)支持,輔助完成貧困生的相關工作。

      1校園卡消費數(shù)據(jù)預處理

      在進行數(shù)據(jù)挖掘或者數(shù)據(jù)分析之前,需要對“臟數(shù)據(jù)”數(shù)據(jù)進行數(shù)據(jù)預處理,一般采用數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等方式[46],已獲得更高的挖掘效率和更好的挖掘效果。

      1.1數(shù)據(jù)清洗

      最初獲得的原始數(shù)據(jù)往往存在很多冗余、含噪聲、不一致或者不完整的數(shù)據(jù),也就是常說的“臟數(shù)據(jù)”,因此需要對數(shù)據(jù)進行清洗。數(shù)據(jù)預處理主要去處可忽略的字段、忽略空缺記錄、可處理噪聲的數(shù)據(jù)、可刪除的數(shù)據(jù)等。由于部分校園卡用戶,如教職工、研究生等,消費時具有很強的隨機性和離散型,因此,本文選取計算機科學與技術專業(yè)在校本科生2017年6月1日2019年6月1日兩年的校園卡消費流水記錄作為樣本。結合校園卡系統(tǒng)的后臺數(shù)據(jù)庫表導出校園卡消費數(shù)據(jù)表,表中包含的字段有學號、姓名、卡號、專業(yè)、余額、交易額、交易時間、對方帳號、POS號,系統(tǒng)代碼。為了保護隱私,對部分屬性做了脫敏和隱私處理。

      通過對數(shù)據(jù)進行分析,由于一些學生休學、退學、服兵役、開出等原因,這些數(shù)據(jù)的清理對不會對整體造成影響。經(jīng)過預處理,一共得到227538條有效數(shù)據(jù)。

      1.2數(shù)據(jù)集成和變換

      預處理后的數(shù)據(jù)不一定適合數(shù)據(jù)挖掘的使用,因此需要對數(shù)據(jù)進行集成和變換,以便能夠直接為數(shù)據(jù)挖掘所使用。本文研究數(shù)據(jù)主要涉及教務系統(tǒng)數(shù)據(jù)庫和校園卡消費流水數(shù)據(jù)庫,因此需要將兩個數(shù)據(jù)庫中提取出的數(shù)據(jù)項整合到一起,組成新的數(shù)據(jù)集環(huán)境,并經(jīng)過詳細對比和篩選解決數(shù)據(jù)不一致和數(shù)據(jù)冗余等問題。

      本文對數(shù)據(jù)變換主要側重對消費總金額進行離散化處理,把來自不同源的數(shù)據(jù)統(tǒng)一為標準格式,進行數(shù)據(jù)泛化,將不同的消費記錄對應相當?shù)牡燃?。例如將消費記錄日期格式轉換成數(shù)值型的日期格式。

      1.3數(shù)據(jù)歸約

      數(shù)據(jù)歸約是指將數(shù)據(jù)庫中的海量數(shù)據(jù)進行歸約,本文是對校園卡的消費數(shù)據(jù)進行數(shù)據(jù)歸約。通過分析,數(shù)據(jù)存儲表中很多屬性與本文的研究沒有關聯(lián),可以通過刪除與挖掘目標不相關的屬性減少數(shù)據(jù)量,還有一些屬性可以被少量屬性替代。數(shù)據(jù)歸約前后的對比,如表1、表2所示。

      2核心算法

      2.1基于Kmeans的聚類分析

      Kmeans聚類算法一種動態(tài)硬聚類算法,是一種基于靜態(tài)數(shù)據(jù)對象間相似度的,以實現(xiàn)類間獨立、類內(nèi)緊湊的目的。本節(jié)將使用Kmeans算法進行聚類分析[78],聚類結果受到隨機選取初始聚類中心點的影響,有可能導致出現(xiàn)局部最小的情況,因此本文通過加權兩個數(shù)據(jù)點間的歐式距離,來衡量數(shù)據(jù)點的相似性,初始聚類中心通過目標價值函數(shù)的大小排序得到,聚類算法的具體過程如下:

      (1)聚類初始中心數(shù)據(jù)點有系統(tǒng)隨機選擇選定

      數(shù)目k′(k′>k)個;

      (2)讀取并各自計算數(shù)據(jù)集中的其余數(shù)據(jù)點與k′個初始聚類中心的賦權歐式距離,按照距離的不同從大的開始排列,把距離最小值點分割到相應類別;

      (3)對k′個類別的賦權目標價值函數(shù)值δi進行計算,δi值按照越來越大的層級排序,取前k個δi值對應的聚類中心歸納為初始聚類中心;

      (4)依據(jù)最小相似度的原則,將每個對象與這k個對象進行相似度的比較,并分別分配到以這k個對象為中心所代表的類中;

      (5)采用算法選取非中心點Orand;

      (6)用Orand作為Ok替換,形成總代價S;

      (7)對于每個類,假如,S<0,用Ok被Orand代替,該類的中心在進行重新計算;

      (8)依照步驟(4)(5)的迭代N次,若收斂或中心點數(shù)據(jù)一致無波動,結束過程;

      (9)聚類算法結束,獲得最終模型,明確聚類中心。

      開始時規(guī)定準則函數(shù)、迭代次數(shù),考慮算法的成本,迭代次數(shù)等于5。為了判斷函數(shù)收斂性,確定準則函數(shù)為均方差方法,作以下規(guī)定如式(1)。

      E=∑ki=1∑x∈Cix-x2

      (1)

      其中誤差總和做平均即是E,x是已知的對象。x是類Ci的平均值。

      3數(shù)據(jù)分析

      本文將利用Kmeans算法對消費總金額進行聚集[910],通過5次的迭代聚類3個簇的聚類結果,如圖1所示。

      依據(jù)消費金額以年為單位將學生聚集為三類,即高消費、中等消費、低消費,此時得到的聚類中心為586.32、372.75、203.65。

      根據(jù)聚類效果圖繪制圓餅圖,如圖2所示。

      依據(jù)Kmeans算法分析的結果,可以將所有樣本分成三簇,具體分布如表3所示。

      根據(jù)對計算機科學與技術專業(yè)2016級本科生校園卡聚類情況進行分析,可以得出處于低消費水平的學生占29%。

      依據(jù)校園卡的學生消費水平的分析情況,學院老師可以了解一些低消費水平學生的情況,在發(fā)放助學貸款、助學金或者申請勤工儉學等助學崗位時給予優(yōu)選考慮。

      4總結

      本文完成了計算機科學與技術專業(yè)本科生的刷卡消費數(shù)據(jù)進行挖掘的初步探索,首先對校園卡中的消費記錄進行預處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約,然后再利用Kmeans算法對學生消費行為聚類分析,分析系統(tǒng)內(nèi)數(shù)據(jù)的隱含特征規(guī)律,依據(jù)學生的消費水平為學院貧困生量化評定與資助、貧困等級的界限劃分提供科學的、可靠的數(shù)據(jù)支持。

      參考文獻

      [1]

      劉志宏,喻曉旭.基于數(shù)據(jù)挖掘的校園一卡通消費行為分析[J].信息記錄材料,2018,19(12):8990.

      [2]陳鋒.基于校園一卡通系統(tǒng)的高校用戶就餐消費行為分析與數(shù)據(jù)挖掘[J].中國教育信息化,2014(9):4749.

      [3]ADutt,MAIsmail,THerawan.Asystematicreviewoneducationdatamining[J].IEEEAccess,2017,5(99):1599116005.

      [4]紀系禹,韓秋明,李微,等.數(shù)據(jù)挖掘技術應用實例[M].北京:機械工業(yè)出版社,2009.

      [5]胡秀.數(shù)據(jù)挖掘中數(shù)據(jù)預處理的研究[J].赤峰學院學報(自然科學版),2015,31(3):56.

      [6]于琦.Web日志挖掘中的數(shù)據(jù)預處理研究[J].河南科技,2018(7):1820.

      [7]陳艷紅.高校信息系統(tǒng)中的數(shù)據(jù)挖掘與學生行為預警分析研究[D].武漢:湖北民族大學,2019:2930.

      [8]張亮,趙娜.高校新生社團推薦系統(tǒng)的開發(fā)及設計[J].計算技術與自動化,2016,35(2):8184.

      [9]郭鵬.基于校園一卡通數(shù)據(jù)的學生消費行為與成績的關聯(lián)性研究[D].西安:西北農(nóng)林科技大學,2019:3134.

      [10]張四海,李珊珊.校園一卡通消費行為數(shù)據(jù)分析與研究[J].北京聯(lián)合大學學報,2019,33(1):4749.

      (收稿日期:2020.01.20)

      猜你喜歡
      數(shù)據(jù)挖掘
      近十年國內(nèi)教育數(shù)據(jù)挖掘領域的應用技術分析
      數(shù)據(jù)挖掘技術在內(nèi)河航道維護管理中的應用研究
      數(shù)據(jù)挖掘技術在物流企業(yè)中的應用
      數(shù)據(jù)挖掘過程模型及創(chuàng)新應用
      數(shù)據(jù)挖掘綜述
      軟件工程領域中的異常數(shù)據(jù)挖掘算法
      基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究
      電子政務中基于云計算模式的數(shù)據(jù)挖掘研究
      數(shù)據(jù)挖掘創(chuàng)新應用
      數(shù)據(jù)挖掘的系統(tǒng)構成與發(fā)展趨勢
      昌黎县| 建平县| 泸西县| 库伦旗| 容城县| 宝兴县| 长垣县| 鲁山县| 扶沟县| 淄博市| 临泽县| 图木舒克市| 奉新县| 新干县| 吉林市| 德惠市| 博兴县| 营口市| 甘谷县| 博野县| 铜川市| 鹤峰县| 景谷| 平罗县| 廉江市| 五河县| 焦作市| 滨海县| 西城区| 嘉黎县| 黄骅市| 策勒县| 河北省| 扶余县| 共和县| 昌黎县| 昌宁县| 健康| 秦皇岛市| 综艺| 策勒县|