王亞娜
(南京審計(jì)大學(xué)金審學(xué)院,江蘇 南京 210000)
在高校學(xué)生培養(yǎng)及就業(yè)指導(dǎo)工作中,學(xué)生的成績(jī)數(shù)據(jù)、選課數(shù)據(jù)、就業(yè)數(shù)據(jù)可為工作的開展提供充足依據(jù),通過針對(duì)性開展數(shù)據(jù)挖掘,即可有效提升工作質(zhì)量。數(shù)據(jù)挖掘本質(zhì)上屬于一種工具,為保證其能夠較好用于高校學(xué)生培養(yǎng)及就業(yè)指導(dǎo),必須結(jié)合高校實(shí)際針對(duì)性設(shè)計(jì)數(shù)據(jù)挖掘模型,這一模型的設(shè)計(jì)正是本文研究的重點(diǎn)所在。
在數(shù)據(jù)挖掘技術(shù)支持下,通過收集高校各專業(yè)歷年來的就業(yè)數(shù)據(jù),如畢業(yè)生就業(yè)地域分布比例、行業(yè)分布比例、升學(xué)率、就業(yè)率,并基于歷史數(shù)據(jù)開展縱向比較,即可實(shí)現(xiàn)對(duì)就業(yè)市場(chǎng)的準(zhǔn)確監(jiān)控。通過針對(duì)性的數(shù)據(jù)挖掘,即可明確專業(yè)在不同地區(qū)的受歡迎程度,用人單位門檻和需求也能夠由此得以明確,由此深入了解行業(yè)現(xiàn)狀及就業(yè)前景,即可為學(xué)生培養(yǎng)和就業(yè)指導(dǎo)指明方向。此外,還應(yīng)圍繞畢業(yè)生背景信息開展的深入的數(shù)據(jù)挖掘,通過圍繞畢業(yè)生個(gè)人信息、就業(yè)基本意象、特長(zhǎng)、專業(yè)等因素開展深入挖掘,即可通過針對(duì)性的劃分提高就業(yè)指導(dǎo)效率和針對(duì)性。結(jié)合行業(yè)數(shù)據(jù)開展宏觀比較,高??勺罱K總結(jié)出各層次同學(xué)的就業(yè)標(biāo)準(zhǔn)、待遇級(jí)別的差異、不同(專業(yè)、成績(jī))人才的簽約單位,并通過圖表直觀向畢業(yè)生傳遞相關(guān)信息,信息閉塞對(duì)大學(xué)生就業(yè)帶來的困擾可由此得以有效消除,很多大學(xué)生存在的盲目求職問題也能夠有效規(guī)避[1]。
數(shù)據(jù)挖掘技術(shù)也能夠較好服務(wù)于高校學(xué)生的培養(yǎng),這一培養(yǎng)主要通過結(jié)合數(shù)據(jù)挖掘成果的教學(xué)改革實(shí)現(xiàn)。在高校教學(xué)改革過程中,必須設(shè)法實(shí)現(xiàn)社會(huì)需求與專業(yè)設(shè)置的統(tǒng)一、崗位針對(duì)性與社會(huì)適應(yīng)性的統(tǒng)一、社會(huì)實(shí)踐與專業(yè)學(xué)習(xí)的統(tǒng)一、適度靈活性與專業(yè)穩(wěn)定性的統(tǒng)一,配合完善的專業(yè)預(yù)警機(jī)制,即可為專業(yè)教學(xué)改革提供充足動(dòng)力。在具體實(shí)踐中,可采用數(shù)據(jù)挖掘技術(shù)全面分析高校各學(xué)科門類就業(yè)狀況,并關(guān)注不同地區(qū)存在的人才培養(yǎng)要求特殊性,貫徹“以市場(chǎng)為導(dǎo)向”原則。高??山Y(jié)合各類招聘會(huì)成果狀況,匯總合作頻率較高企業(yè)的資料,以此加強(qiáng)彼此合作,通過校企辦學(xué)互動(dòng),即可推進(jìn)大學(xué)生的綜合發(fā)展,人才對(duì)口培養(yǎng)模式的應(yīng)用價(jià)值也需要得到重視。此外,專業(yè)就業(yè)前景分析、專業(yè)的社會(huì)需求變化同樣需要得到重視,通過大力補(bǔ)修前沿學(xué)科、堅(jiān)持就業(yè)導(dǎo)向原則、明確專業(yè)社會(huì)需求“警戒線”、推進(jìn)專業(yè)細(xì)分、拓展式培養(yǎng)社會(huì)需求度高的專業(yè)能力、強(qiáng)化教學(xué)實(shí)踐、探索新型校企合作模式,專業(yè)教學(xué)改革的推進(jìn)、數(shù)據(jù)挖掘技術(shù)價(jià)值的發(fā)揮、高校學(xué)生培養(yǎng)水平的提升均可由此實(shí)現(xiàn)[2]。
在應(yīng)用數(shù)據(jù)挖掘技術(shù)的高校學(xué)生就業(yè)指導(dǎo)中,可靈活采用自主式與廣播式的就業(yè)指導(dǎo)模式,自主式就業(yè)指導(dǎo)模式要求學(xué)生基于數(shù)據(jù)挖掘因子自主檢索就業(yè)信息,并輔助解決學(xué)生很容易出現(xiàn)的就業(yè)內(nèi)容掌握不清問題,以此提高學(xué)生求職積極性。廣播式就業(yè)指導(dǎo)模式需得到高效就業(yè)指導(dǎo)數(shù)據(jù)庫(kù)的支持,該數(shù)據(jù)庫(kù)不同于大學(xué)生就業(yè)指導(dǎo)系統(tǒng)數(shù)據(jù)庫(kù),這是由于傳統(tǒng)的就業(yè)指導(dǎo)系統(tǒng)數(shù)據(jù)庫(kù)往往無(wú)法真正體現(xiàn)就業(yè)指導(dǎo)的價(jià)值,相關(guān)人員也無(wú)法準(zhǔn)確了解大學(xué)生就業(yè)需求,大學(xué)生的積極性往往會(huì)因此受到打擊。因此高校可針對(duì)性升級(jí)大學(xué)生就業(yè)指導(dǎo)系統(tǒng)數(shù)據(jù)庫(kù),通過引入數(shù)據(jù)挖掘技術(shù),定期展示數(shù)據(jù)挖掘成果,就業(yè)指導(dǎo)即可在數(shù)據(jù)支持下更為針對(duì)性,大學(xué)生也能夠由此更好找到自己心儀的工作。
為保證數(shù)據(jù)挖掘技術(shù)更好服務(wù)于高校學(xué)生培養(yǎng)及就業(yè)指導(dǎo),首先需明確挖掘?qū)ο?,結(jié)合相關(guān)研究及實(shí)踐,本文選擇學(xué)生基本情況信息、學(xué)生學(xué)籍和成績(jī)情況、學(xué)生就業(yè)信息作為挖掘?qū)ο螅饕▽W(xué)號(hào)、專業(yè)、姓名、性別、班級(jí)、政治面貌、獲獎(jiǎng)情況、實(shí)踐能力、學(xué)習(xí)成績(jī)、外語(yǔ)水平、本人聯(lián)系方式、簽約單位、就業(yè)狀態(tài)、經(jīng)濟(jì)情況、生源地。
確立挖掘?qū)ο蠛?,即可針?duì)性建設(shè)挖掘數(shù)據(jù)庫(kù),設(shè)計(jì)采用Windows系統(tǒng)、B/S架構(gòu)、SQL Server2012,開發(fā)語(yǔ)言選擇C#。在數(shù)據(jù)庫(kù)的建立過程中,需將收集到的包含學(xué)生基本情況信息、學(xué)生學(xué)籍和成績(jī)情況、學(xué)生就業(yè)信息的3張表格內(nèi)容導(dǎo)入數(shù)據(jù)庫(kù),生成一張新的就業(yè)數(shù)據(jù)表格,由此數(shù)據(jù)采樣即可滿足挖掘數(shù)據(jù)倉(cāng)庫(kù)建設(shè)需要。
數(shù)據(jù)預(yù)處理包含數(shù)據(jù)清理、數(shù)據(jù)集成、屬性規(guī)約三部分內(nèi)容,以此避免數(shù)據(jù)空缺、不一致、存在噪聲等問題影響數(shù)據(jù)挖掘效果,而通過數(shù)據(jù)預(yù)處理提高數(shù)據(jù)“質(zhì)量”,即可更好滿足數(shù)據(jù)挖掘需要。數(shù)據(jù)清理環(huán)節(jié)主要負(fù)責(zé)數(shù)據(jù)補(bǔ)缺、平滑噪聲、不一致錯(cuò)誤糾正、孤立點(diǎn)發(fā)現(xiàn),以此提高數(shù)據(jù)質(zhì)量,數(shù)據(jù)挖掘的精度和性能也能夠由此得到保障??紤]到空缺值屬于學(xué)生信息等數(shù)據(jù)的主要問題,因此需針對(duì)性采用忽略元組、人工填寫空缺值、用屬性平均值填充空缺值、用相臨近值代替等空缺值處理方法;在數(shù)據(jù)集成環(huán)節(jié),考慮到收集到的數(shù)據(jù)總量將較大,且會(huì)存在較大的重復(fù)量,因此必須進(jìn)行針對(duì)性的提取與加工。
考慮到數(shù)據(jù)分析的對(duì)象中可能含有沒有關(guān)聯(lián)或關(guān)聯(lián)不明顯的屬性,或存在冗余數(shù)據(jù),因此需開展針對(duì)性的屬性規(guī)約,決策樹的有效構(gòu)建可由此獲得支持。因此,采用維度歸約、數(shù)值規(guī)約的方式,由此排除對(duì)大學(xué)生就業(yè)影響較小的因素,包括本人聯(lián)系方式、簽約單位、姓名、班級(jí)、學(xué)號(hào),同時(shí)還需要通過“較小的”表示形式表達(dá)數(shù)據(jù),由此研究得出了學(xué)生就業(yè)信息訓(xùn)練樣本集。通過預(yù)處理,最終得到900條有效記錄,采用其中的600條構(gòu)建決策樹模型,300條用于后期測(cè)試。
數(shù)據(jù)采集需得到專業(yè)算法的支持,如K平均聚類算法、決策樹,本文采用貝葉斯網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)填充,這是由于貝葉斯網(wǎng)絡(luò)具備可發(fā)現(xiàn)數(shù)據(jù)間潛在關(guān)系,且能夠表達(dá)隨機(jī)變量間存在復(fù)雜關(guān)系概率的能力。結(jié)合貝葉斯網(wǎng)絡(luò)有機(jī)融合概率理論與有向無(wú)環(huán)圖、較好表示隨機(jī)變量的聯(lián)合概率的特性,即采用該算法進(jìn)行數(shù)據(jù)的空屬性填充。在貝葉斯理論方法的具體應(yīng)用中,需首先建立數(shù)據(jù)完整記錄子集與缺失數(shù)據(jù)子集,通過掃描,可發(fā)現(xiàn)64條存在數(shù)據(jù)不完整情況的記錄,由此按順序提取記錄,并分別計(jì)算屬性類先驗(yàn)概率,即可快速明確缺失值,配合預(yù)測(cè)數(shù)據(jù)的方法,即可順利完成缺失值補(bǔ)齊[3]。
采用“學(xué)習(xí)成績(jī)”作為類別的表示屬性,將政治面貌、專業(yè)、實(shí)踐能力、生源地、外語(yǔ)水平等作為決策依據(jù),即可構(gòu)建圖1所示的畢業(yè)生就業(yè)情況決策樹?;趫D1,計(jì)算分類屬性信息量,依據(jù)每個(gè)測(cè)試屬性的信息量、信息熵、信息增益量、信息增益率,并選擇最大信息增益率的測(cè)試屬性作為根節(jié)點(diǎn),依次逐步完成分支劃分?;凇拔春灱s比例小于15%,即判定葉子節(jié)點(diǎn)‘未簽約’”與“生源地中西部比例在20%以上,即判定葉子節(jié)點(diǎn)為‘中西部’”規(guī)則,即可最終得到就業(yè)信息決策樹模型。為滿足分類規(guī)則的應(yīng)用需要,需在設(shè)計(jì)過程中保證界面直觀、簡(jiǎn)單、易于操作,且能夠同時(shí)選取多個(gè)規(guī)則進(jìn)行提取。為更好滿足學(xué)生培養(yǎng)與就業(yè)指導(dǎo)需要,設(shè)計(jì)采用C#建立決策樹工作流程,可簡(jiǎn)單概括為:“輸入樣本數(shù)據(jù)→確定根節(jié)點(diǎn)并進(jìn)行劃分→判斷是否存在新劃分→不存在/存在→生成決策樹/重新選取屬性”。
主要算法步驟如下:
輸入:A=(X1,X2,…,Xi),X1,X2,…,Xi為原始屬性集,分類屬性為B={B1,B2,…,Bj},含有缺失值的訓(xùn)練集樣本表示為C。
輸出:一棵決策樹
1.劃分C為兩部分,即C1與C2,分別用于記錄數(shù)據(jù)完全記錄與有缺失值記錄。
2.按順序從C2中選擇1條記錄,對(duì)C1進(jìn)行基于貝葉斯模型的計(jì)算,得出Bj,以此填充缺失內(nèi)容。
3.完成填充后開展針對(duì)性整理,合并C1與C2,重新得到C。
4.設(shè)置新的節(jié)點(diǎn)Y,開展針對(duì)性預(yù)測(cè)判斷,Y用于標(biāo)記C中存在同一個(gè)屬性類別的記錄,如C為空,則需要在Y處標(biāo)記“空”,并輸出決策樹。在判斷C時(shí),如存在空的屬性值,葉節(jié)點(diǎn)需設(shè)置于Y處,并記錄最多的訓(xùn)練集中類。
5.分別計(jì)算和預(yù)測(cè)每個(gè)候選屬性,標(biāo)記存在最高增益率的屬性,并參考增益率進(jìn)行訓(xùn)練集劃分,設(shè)置訓(xùn)練樣本和樣本條件分支的集合,如樣本集不為空,需返回上一個(gè)葉結(jié)點(diǎn),否則需新設(shè)葉節(jié)點(diǎn)。
6.重復(fù)上述兩步驟,完成決策樹生成。
以某高校為例,通過上文涉及的設(shè)計(jì),可確定學(xué)習(xí)成績(jī)優(yōu)秀、實(shí)踐能力強(qiáng)、外語(yǔ)水平高的畢業(yè)生在就業(yè)領(lǐng)域表現(xiàn)優(yōu)秀,實(shí)踐能力差、學(xué)習(xí)成績(jī)差、未獲過相關(guān)獎(jiǎng)項(xiàng)的畢業(yè)生就業(yè)困難,且中西部生源地畢業(yè)生的就業(yè)率相對(duì)較低。由此即可挖掘結(jié)果,即可開展針對(duì)性的學(xué)生培養(yǎng)與就業(yè)指導(dǎo),如加強(qiáng)學(xué)生的英語(yǔ)能力和實(shí)踐能力培養(yǎng),關(guān)注學(xué)生的學(xué)習(xí)成績(jī)提升,就業(yè)指導(dǎo)也能夠由此獲得針對(duì)性方向。
綜上所述,基于數(shù)據(jù)挖掘的高校學(xué)生培養(yǎng)及就業(yè)指導(dǎo)具備較高實(shí)用性。在此基礎(chǔ)上,本文涉及的挖掘?qū)ο蟆⑼诰驍?shù)據(jù)庫(kù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)填充、挖掘模型、挖掘結(jié)果應(yīng)用等內(nèi)容,則提供了可行性較高的數(shù)據(jù)挖掘技術(shù)應(yīng)用路徑。為更好滿足高校學(xué)生培養(yǎng)與就業(yè)指導(dǎo)需要,招聘雙方就業(yè)行為的全程監(jiān)督、基于統(tǒng)計(jì)數(shù)據(jù)的就業(yè)指導(dǎo)均需要得到重視。
圖1 畢業(yè)生就業(yè)情況決策樹