田然 劉嘉敏 歐思華 胡曉清
摘 要:基于對某獨立學院畢業(yè)生的調查問卷,通過Apriori算法進行關聯規(guī)則分析并實現數據可視化,挖掘畢業(yè)生平均學分績點,畢業(yè)半年后月收入和現狀滿意度之間的潛在關系,從而給學校相關部門以及在校生提供參考。
通過關聯分析,我們得出以下結論:平均學分績點在[3,4)的畢業(yè)生普遍對現狀感到不滿意;畢業(yè)生的平均學分績點越低,則畢業(yè)生半年后的月收入就呈較低的趨勢。對此,我們給出相應建議:在對畢業(yè)生進行就業(yè)指導時,可按績點進行分批培訓給不同層次的學生進行對應的輔導,適當對平均學分績點在[1,2)和[3,4)范圍內的學生加強輔導、勸導以及指導,增強對現狀的滿意度,使其更好的應對嚴峻的就業(yè)形勢。
關鍵詞:關聯規(guī)則;Apriori算法;數據可視化
中圖分類號:G420文獻標志碼:A文章編號:2095-9214(2016)07-0235-02
一、引言
近年來,我國大學生就業(yè)難問題愈發(fā)嚴重。本文在這一背景下以某獨立學院2010級畢業(yè)生為例,對其在校表現與就業(yè)現狀進行關聯性分析。旨在找出兩者間的關系,給學校相關部門和在校生提出一些切實可行的建議。
二、基于Apriori算法的靜態(tài)關聯規(guī)則基本原理
Apriori算法是一種先驗概率算法,它利用了頻集特性的先驗知識,采取層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作[1]。本文利用R語言中arules包及其相關包對我校畢業(yè)生半年后月收入,在校各類滿意度和平均學分績點進行關聯規(guī)則挖掘和數據可視化展現。
關聯規(guī)則的一般表示形式為: X=>Y (規(guī)則支持度,規(guī)則置信度,規(guī)則提升度),其中X為規(guī)則前項,Y為規(guī)則后項,規(guī)則支持度,規(guī)則置信度及規(guī)則提升度是規(guī)則的評價指標。
規(guī)則支持度是該項集出現的次數除以總的記錄數。其意義在于度量項集在整個事務集中出現的頻次。我們在發(fā)現有價值的規(guī)則時,會更多的關注頻次高的項集。
ConfidenceX=>Y=SupportX∪YSupportX
規(guī)則提升度反映X的出現對Y出現的影響程度,一般大于1才有意義,表示X的出現對Y的出現有促進作用,故規(guī)則提升度越大越好,其表達式如下:
LiftX=>Y=SupportX∪YSupportX*SupportY
三、關聯規(guī)則的應用
置信度和支持度閥值的設定直接影響到關聯規(guī)則結果輸出的數量。若置信度和支持度的閥值設置得越小,生成的關聯規(guī)則越多,而關聯規(guī)則所體現的項集之間的關聯更傾向于偶然;若置信度和支持度的閥值設置得太大,就可能無法得到關聯規(guī)則,因此需要合理地設置閥值。若計算出的規(guī)則的置信度大于或等于預先給定的最小置信度閾值,且支持度大于或等于預先給定的最小支持度閾值,那么這條規(guī)則就被保留下來,否則刪除。
得出符合條件的全部關聯規(guī)則中可能存在冗余的規(guī)則,即規(guī)則1實際上包含了規(guī)則2,且規(guī)則2與規(guī)則1的提升度相等,或低于規(guī)則1的提升度,由此認定規(guī)則2是冗余的。因此我們通過生成關聯規(guī)則子矩陣并刪除其每列元素和大于等于1的列將冗余的規(guī)則刪除,得到最終的關聯規(guī)則并根據提升度降序排序。
由于提升度大于1的才有意義,因此,本文提取提升度大于1的三條關聯規(guī)則進行分析討論。
本文做了兩個關聯分析,第一個關聯分析選取大學生對現狀滿意度為后項,以大學生平均學分績點為前項;第二個關聯分析是以大學生畢業(yè)后半年月收入為后項,以大學生平均學分績點為前項。
1.現狀滿意度跟平均績點的關聯規(guī)則
首先進行第一個關聯分析,選取最小置信度閾值為30%,且最小支持度閾值為0.4%,冗余處理后剩下3條關聯規(guī)則如表1。
圖1 現狀滿意度與平均績點的關聯規(guī)則泡泡圖
圖1中圈的大小表示支持度的值,支持度代表兩種事物同時出現的概率。顏色的深淺代表了提升度的大小。由圖可知,績點[1,2)和[3,4)范圍內的畢業(yè)生與對現狀不滿意關聯程度較高,績點[2,3)范圍內的畢業(yè)生與對現狀滿意關聯程度較高。
從表1看到,三條關聯規(guī)則的提升度均大于1,說明這三個規(guī)則中,一個學生出現該平均學分績點時,他相對于其他績點的學生對自己的現狀出現該滿意度的可能性較大,而且提升度越大,代表這條關聯規(guī)則越有價值。
第一個關聯規(guī)則:平均學分績點=[3,4) =>對自己的現狀是否滿意=不滿意的支持度為0.1633,這說明2014屆畢業(yè)生當中有16.33%的畢業(yè)生平均績點在[3,4)范圍內時,同時會對自己的現狀感到不滿意;它的置信度是0.3668,說明平均績點在[3,4)范圍內的畢業(yè)生中有36.68%的畢業(yè)生確實對自己現狀感到不滿意。
第二個關聯規(guī)則:平均學分績點=[2,3) =>對自己的現狀是否滿意=滿意的支持度為0.2933,這說明2014屆畢業(yè)生當中有29.33%的畢業(yè)生平均績點在[2,3)范圍內時,同時會對自己的現狀感到滿意;而在2014屆平均績點為[2,3)范圍內的畢業(yè)生中,對自己的現狀感到滿意的畢業(yè)生占55.80%,即該規(guī)則的置信度為0.5580。
第三個關聯規(guī)則:平均學分績點=[1,2) =>對自己的現狀是否滿意=不滿意的支持度為0.0097,這說明2014屆畢業(yè)生當中有0.97%的畢業(yè)生平均績點在[1,2)范圍內時,同時會對自己的現狀感到不滿意;而在2014屆平均績點為[1,2)范圍內的畢業(yè)生中,對自己的現狀感到不滿意的畢業(yè)生占35.29%,即該規(guī)則的置信度為0.3529。
平均學分績點在[3,4)范圍內的會對現狀感到不滿意的原因也許是要求過高,成績好的都希望找到一份好工作或者好的出路,但個人感覺并沒有很好,因此對現狀感到不滿意。因此,在對畢業(yè)生進行就業(yè)指導時,可按績點進行分批培訓給不同層次的學生進行對應的輔導,或者適當對平均學分績點在[1,2)和[3,4)范圍內的學生加強輔導、勸導以及指導,增強對現狀的滿意度。
2.月收入跟績點的關聯規(guī)則
注:月收入1類為(0,2500], 2類為(2500,3500], 3類為(3500,4500], 4類為(4500,5500], 5類為5500以上
從表2看到,在設定最小支持度的閥值為0.004,最小置信度閥值為0.1的條件下,七條關聯規(guī)則的提升度均大于1。經過冗余處理的數據,關聯規(guī)則并未有所減少,冗余前后都包含10條關聯規(guī)則,說明該數據并沒有存在冗余的規(guī)則。
第一條關聯規(guī)則:說明在2014屆畢業(yè)生中有0.49%的畢業(yè)半年后的月收入屬于5類,同時平均學分績點落在[1,2)的范圍內。且在平均績點在[1,2)范圍內的畢業(yè)生中有17.65%的畢業(yè)生月收入屬于5類。相對于其他規(guī)則,其可能性較低,屬于“令人費解的規(guī)則”,其價值不值得深入分析。
第四條關聯規(guī)則:說明在2014屆畢業(yè)生中有13.16%的畢業(yè)半年后的月收入屬于3類,同時平均學分績點落在[3,4)的范圍內。且在平均績點在[3,4)范圍內的畢業(yè)生中有29.56%的畢業(yè)生月收入屬于3類。
第五條關聯規(guī)則:說明在2014屆畢業(yè)生中有17.22%的畢業(yè)半年后的月收入屬于2類,同時平均學分績點落在[3,4)的范圍內。且在平均績點在[3,4)范圍內的畢業(yè)生中有38.69%的畢業(yè)生月收入屬于2類。
第四條關聯規(guī)則和第五條關聯規(guī)則均屬于發(fā)生概率較高的規(guī)則,說明在校成績較為良好的學生出來就業(yè)時的月收入均屬于中等水平,且該種現象普遍存在于本校。
從整體看,整體的支持度均較高,由此可知,畢業(yè)生的平均學分績點在一定程度上影響了畢業(yè)生半年后的月收入,并可看出,畢業(yè)生的平均學分績點越低,則畢業(yè)生畢業(yè)半年后的月收入就越低的趨勢。另一方面,說明我校在開展學生工作時應給予學生必要的思想工作,適當地跟學習成績較差的學生進行溝通,使其可以應對較為嚴峻的就業(yè)形勢。
四、結論及相關建議
通過關聯分析,我們分別研究了績點與現狀滿意度的關系,以及月收入與績點的關系。通過設定最小閥值消除冗余,提取提升度大于1的關聯規(guī)則,我們得出以下結論,并分別給出相應對策:
(1) 平均學分績點在[3,4)的畢業(yè)生普遍對現狀感到不滿意,在2014屆的畢業(yè)生中達到16.33%的比例。對此,在對畢業(yè)生進行就業(yè)指導時,可按績點進行分批培訓給不同層次的學生進行對應的輔導,或者適當對平均學分績點在[1,2)和[3,4)范圍內的學生加強輔導、勸導以及指導,增強對現狀的滿意度。
(2)畢業(yè)生的平均學分績點在一定程度上影響了畢業(yè)生半年后的月收入,畢業(yè)生的平均學分績點越低,則畢業(yè)生畢業(yè)半年后的月收入就越低的趨勢。其中平均績點落在[3,4)的畢業(yè)生中,畢業(yè)后的月收入多數落在2類和3類,其在2014屆的畢業(yè)生中分別達到13.16%和17.22%的比例。說明我校在開展學生工作時應給予學生必要的思想工作,適當地跟績點落在[3,4)的學生進行溝通,提供就業(yè)方面的相關輔導,使其可以應對較為嚴峻的就業(yè)形勢。
(作者單位:北京理工大學珠海學院數理與土木工程學院)
北京理工大學珠海學院大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目省級課題
參考文獻:
[1]王星等譯.大數據分析:方法與應用[M],清華大學出版社,2013.
[2]陳健等譯.R語言與數據挖掘(最佳實踐和經典案例)[M],機械工業(yè)出版社,2014.
[3]李洪成等譯.機器學習與R語言[M],機械工業(yè)出版社,2015.
[4]范明等譯.數據挖掘基礎教程[M],機械工業(yè)出版社,2009.
[5]范明等譯.數據挖掘(概念與技術)[M],機械工業(yè)出版社,2012.
[6]范明等譯.數據挖掘導論(完整版)[M],人民郵電出版社,2013.