文 任妮 栗薈荃 吳瓊
每個(gè)父母都望子成龍,希望自己的孩子大學(xué)畢業(yè)后能有個(gè)好的工作。國家對(duì)大學(xué)生的就業(yè)問題一直相當(dāng)重視,每到畢業(yè)季各高校就安排一場又一場的校園招聘活動(dòng),希望學(xué)生都很好地就業(yè)。然而近10年以來,高校應(yīng)屆畢業(yè)生的數(shù)量是逐年增長的,這是非常不錯(cuò)的,說明有越來越多的高素質(zhì)人才能夠?yàn)樯鐣?huì)、為國家做貢獻(xiàn);但另一方面,大學(xué)生的就業(yè)壓力也逐年增加,這就給我們的高校、學(xué)生以及家長都帶來了不小的壓力。據(jù)教育部發(fā)布的數(shù)據(jù),2022年全國普通高等學(xué)校畢業(yè)生高達(dá)1076萬人次,創(chuàng)歷史新高。教育部5月份在全國范圍舉辦應(yīng)屆高校畢業(yè)生“就業(yè)促進(jìn)周”活動(dòng),并于5—8月開展“百日沖刺”系列活動(dòng),加快推動(dòng)高校畢業(yè)生的就業(yè)工作。盡管教育部和各大院校積極地為畢業(yè)生就業(yè)做準(zhǔn)備,各大企業(yè)也積極地從四面八方為畢業(yè)生提供方便,但畢業(yè)生的就業(yè)仍然是我們需要重點(diǎn)關(guān)注的問題。
2022年2月25日,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第49次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年底,中國有10.32億網(wǎng)民,比2020年增長了4296萬人,比2019年增長了1.77億網(wǎng)民,比2018年增長了2.03億網(wǎng)民,今年中國的互聯(lián)網(wǎng)普及率已達(dá)到73%。Excelcom公司曾經(jīng)發(fā)表過一份關(guān)于“互聯(lián)網(wǎng)一分鐘產(chǎn)生數(shù)據(jù)”的調(diào)查結(jié)果顯示:2016年,每一分鐘有395833人登錄微信,有1.5億萬封郵件被發(fā)送,谷歌有240萬新搜索請求,YouTube有278萬視頻被播放。谷歌公司Kent Walker在2014年曾經(jīng)指出:“截至2000年,人類大約有12EB的存儲(chǔ)數(shù)據(jù),截至2014年,每天可以產(chǎn)生大約2EB的數(shù)據(jù)”。隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的不斷完善,大數(shù)據(jù)行業(yè)、人工智能行業(yè)、云計(jì)算產(chǎn)業(yè)的不斷發(fā)展,2020年全球數(shù)據(jù)總量約為40ZB。數(shù)據(jù)正以史無前例的方式增長??上攵?,今天我們面對(duì)的是數(shù)也數(shù)不清的數(shù)據(jù)海洋。這些數(shù)據(jù)能為我們做什么呢?它能夠促進(jìn)社會(huì)的發(fā)展,提高我們的生活質(zhì)量。數(shù)據(jù)已經(jīng)成為一個(gè)國家必不可少的重要資源,也確實(shí)讓我們足不出戶,便知曉天下。然而你會(huì)發(fā)現(xiàn),當(dāng)我們想要有針對(duì)地搜尋某些信息或者知識(shí)的時(shí)候,也會(huì)有非常多的內(nèi)容呈現(xiàn)在你的面前,但它們不一定是你想要的。舉個(gè)例子,當(dāng)我在某搜索引擎上搜尋旅游攻略時(shí),呈現(xiàn)在我面前的大量數(shù)據(jù)并不全是我想要的。這個(gè)時(shí)候推薦系統(tǒng)的出現(xiàn)給生活帶來了巨大的便利。我們享受了大數(shù)據(jù)帶來的豐富信息,又可以使用推薦系統(tǒng)避免大量數(shù)據(jù)帶來的麻煩。
推薦系統(tǒng)是一種比較新的技術(shù),它起源于1992年P(guān)ARC的一篇Using Collaborative Filtering to Weave an Information Tapestry論文,從此開啟了它長達(dá)31年的歷史行程。盡管推薦系統(tǒng)還很年輕,但隨著互聯(lián)網(wǎng)技術(shù)在國內(nèi)的飛速發(fā)展,推薦系統(tǒng)在我們的生活中逐漸占有一席之地,并且越來越重要。想要從數(shù)據(jù)的海洋里獲取有用的信息,一定離不開推薦系統(tǒng)的幫助??赡苣銜?huì)認(rèn)為自己從來沒有使用過推薦系統(tǒng),實(shí)際是,我們早就與它相遇過了,比如說搜索引擎的使用。本文主要采用的是協(xié)同過濾算法對(duì)大學(xué)生就業(yè)數(shù)據(jù)進(jìn)行分析。
數(shù)據(jù)預(yù)處理技術(shù)是完成大數(shù)據(jù)項(xiàng)目必不可少的關(guān)鍵步驟,占大數(shù)據(jù)項(xiàng)目90%的工作量。雖然數(shù)據(jù)預(yù)處理不難,但其結(jié)果直接影響到最終推薦效果,可以說是非常必要的。想要保質(zhì)保量地實(shí)現(xiàn)推薦系統(tǒng)的推薦功能,獲得一個(gè)用戶滿意度良好的推薦系統(tǒng),一定離不開數(shù)據(jù)預(yù)處理技術(shù)的幫助。
特征提取其根本目的是對(duì)數(shù)據(jù)中的屬性進(jìn)行降維。特征提取技術(shù)主要是發(fā)現(xiàn)數(shù)據(jù)屬性的關(guān)系,通過屬性的組合減少數(shù)據(jù)中屬性的總個(gè)數(shù),而組合后的屬性又可以有不一樣的表現(xiàn),數(shù)據(jù)特征空間就發(fā)生了改變。特征提取的本質(zhì)是降低數(shù)據(jù)維度,其常用的方法有主成分分析(PCA),線性判別分析(LDA):
1.主成分分析(PCA)
主成分分析主要是針對(duì)無監(jiān)督學(xué)習(xí)的降維技術(shù),是數(shù)據(jù)提取技術(shù)中非常經(jīng)典的降維技術(shù)之一。它需要將屬性的值進(jìn)行分解,就可以實(shí)現(xiàn)小幅度的降維,操作簡單,易于理解,因此使用廣泛。主成分分析實(shí)際上是一種統(tǒng)計(jì)學(xué)方法,用過正交變換將可能具有關(guān)聯(lián)的數(shù)據(jù)轉(zhuǎn)換成不相關(guān)的數(shù)據(jù),然后刪除達(dá)到降維的效果。主成分分析抓住了事物的主要矛盾,從多個(gè)屬性中用統(tǒng)計(jì)計(jì)算的方法計(jì)算出主要的影響因素,揭露問題的本來面貌。主成分分析技術(shù)用于數(shù)據(jù)降維,假設(shè)數(shù)據(jù)集有n個(gè)特征,有m個(gè)樣本,那么數(shù)據(jù)集就可以保存為一個(gè)n×m的數(shù)據(jù)矩陣。需要降維的數(shù)據(jù)集通常擁有較多的維度,因此,n的值通常較大。舉個(gè)例子,100個(gè)高校畢業(yè)生在招聘網(wǎng)站瀏覽職位信息,平臺(tái)可以獲得這些學(xué)生的個(gè)人信息包括:姓名、性別、年齡、籍貫、畢業(yè)院校、家庭住址、父母情況、身高、體重、銀行卡號(hào)碼10個(gè)屬性。也就是說,學(xué)生作為樣本m=100,學(xué)生的的個(gè)人屬性n=10,那么數(shù)據(jù)集可以建立一個(gè)100×10(m×n)的多維矩陣作為樣本矩陣。主成分分析通過協(xié)方差計(jì)算可以得到一個(gè)10×10的協(xié)方差矩陣,利用統(tǒng)計(jì)學(xué)計(jì)算,求出協(xié)方差矩陣的10個(gè)特征值和特征向量,并進(jìn)行排序。排在前4位的特征向量可以構(gòu)成10×4的矩陣,這就是通過計(jì)算得到的特征矩陣。將原有的樣本矩陣與特征矩陣相乘可以得到100×4的新矩陣,這就是降維后的數(shù)據(jù)矩陣,此時(shí)每個(gè)特征的維度都下降了。PCA最終目的實(shí)際上是計(jì)算的降維后的數(shù)據(jù)矩陣,所以PCA的過程是計(jì)算特征向量矩陣、計(jì)算協(xié)方差矩陣、取特征向量和特征值較大的k個(gè)作為降維特征矩陣與原始樣本矩陣進(jìn)行計(jì)算。PCA的計(jì)算非常簡單,非常適用于無監(jiān)督學(xué)習(xí)。
2.線性判別分析(LDA)
線性判別分析也采用統(tǒng)計(jì)學(xué)算法進(jìn)行數(shù)據(jù)降維,但其還會(huì)應(yīng)用到模式識(shí)別和機(jī)器學(xué)習(xí)算法來尋找事物之間的屬性的線性組合,然后對(duì)其特征化。LDA是一種典型的監(jiān)督學(xué)習(xí)降維技術(shù),在實(shí)現(xiàn)數(shù)據(jù)從高維度向低維度映射過程時(shí),盡可能地讓數(shù)據(jù)按照類別進(jìn)行分布。LDA有著相當(dāng)悠久的歷史,其在人臉識(shí)別、圖形圖像處理、語音語義識(shí)別項(xiàng)目中有著非常重要的地位。對(duì)于自然語言處理,LDA有著很好的表現(xiàn),是一個(gè)比較理想的文檔處理模型。
特征提取的方法還有很多,對(duì)于一般有類別屬性的數(shù)據(jù)集,LDA是最好的選擇。但大多數(shù)時(shí)候,實(shí)際采集到的數(shù)據(jù)不具有類別屬性,聚類算法應(yīng)用得是較多的,PCA是一個(gè)不錯(cuò)的選擇,可以優(yōu)先使用。除此之外,PCA可以實(shí)現(xiàn)小幅度的降維,還可以使用混組合方法先用PCA小幅度降維把數(shù)據(jù)中的噪聲刪除,再用LDA進(jìn)行降維,效果也相當(dāng)不錯(cuò)。
針對(duì)畢業(yè)生就業(yè)問題,LDA和PCA都是一個(gè)不錯(cuò)的選擇。不對(duì)大學(xué)生進(jìn)行分類時(shí),可以使用無監(jiān)督降維算法PCA,利用特征矩陣判斷影響學(xué)生擇業(yè)的主要因素,根據(jù)主成分進(jìn)行職位的推薦。綜合考慮,對(duì)于大學(xué)生的個(gè)性化推薦采用主成分分析方法。
相比于特征提取,特征選擇方法要更簡單,它是從原始數(shù)據(jù)的特征集合中選擇子集,數(shù)據(jù)集的原始特征集并未發(fā)生變化。特征選擇的方法也非常多,每種方法都有其優(yōu)勢,例如Filter方法、Wrapper方法以及Embedded方法.
特征選擇相對(duì)于特征提取更容易理解和操作,其算法復(fù)雜度、時(shí)間復(fù)雜度相對(duì)于特征提取都比較簡單,并且特征選擇能夠使預(yù)測的準(zhǔn)確性更高,解釋性也比較強(qiáng)。
特征提取是一個(gè)從高維度到低維度的俯瞰過程,我們可以在雜亂無章的數(shù)據(jù)中發(fā)現(xiàn)隱藏的理論;特征選擇是取特征之精華,去其特征之糟粕的過程,本質(zhì)是個(gè)篩選的過程。針對(duì)畢業(yè)生就業(yè)問題,采用特征提取的方法進(jìn)行降噪,用特征選擇的方法進(jìn)行特征組合,降低維度,綜合地對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。
完成了數(shù)據(jù)的預(yù)處理,基本已經(jīng)發(fā)現(xiàn)了數(shù)據(jù)之間的規(guī)則。能夠判斷影響畢業(yè)生就業(yè)的主要因素有薪資、學(xué)歷、工作時(shí)間、居住地等屬性,可以利用推薦算法進(jìn)行計(jì)算推薦。然而目前市場上相關(guān)的推薦算法各有利弊。協(xié)同過濾算法適合用戶量大的系統(tǒng),用戶越多,能夠分析的數(shù)據(jù)越多,系統(tǒng)性能越好。而且能夠發(fā)現(xiàn)用戶隱藏較深的興趣點(diǎn),對(duì)于雜亂無章的非結(jié)構(gòu)化項(xiàng)目處理起來也游刃有余,但是可擴(kuò)展性不好,對(duì)新用戶的推薦受限制,推薦能力受歷史數(shù)據(jù)集限制。簡而言之,協(xié)同過濾算法比較依賴用戶的歷史操作數(shù)據(jù)。
基于內(nèi)容的推薦算法也是大家用得比較多的算法。其推薦的結(jié)果依靠內(nèi)容,非常直觀,且解釋性強(qiáng)?;趦?nèi)容的推薦算法不過度依賴用戶的操作數(shù)據(jù),而且支持機(jī)器學(xué)習(xí),對(duì)于有特殊興趣愛好的用戶也能夠進(jìn)行很好的推薦。但是基于內(nèi)容的推薦算法受特征提取方法的限制,并且完成的數(shù)據(jù)模型需要進(jìn)行大量地訓(xùn)練,可擴(kuò)展性也較差?;趦?nèi)容的推薦算法彌補(bǔ)了協(xié)同過濾算法過于依賴用戶數(shù)據(jù)的短板。
為了獲得更個(gè)性化的推薦系統(tǒng),將協(xié)同過濾算法與基于內(nèi)容的推薦算法相結(jié)合,當(dāng)學(xué)生第一次訪問就業(yè)平臺(tái)時(shí),推薦系統(tǒng)優(yōu)先采用基于內(nèi)容的推薦算法將經(jīng)過特征選擇、特征提取、特征轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析推薦給學(xué)生,當(dāng)用戶不再是新用戶時(shí),采用基于內(nèi)容和協(xié)同過濾的推薦算法,利用數(shù)據(jù)預(yù)處理技術(shù)刪除冗余值,再推薦給用戶。這樣學(xué)生可以更精確、更全面地獲得職務(wù)推薦的信息。
大數(shù)據(jù)環(huán)境下,推薦系統(tǒng)十分便利,畢業(yè)生可以利用大學(xué)生個(gè)性化就業(yè)系統(tǒng)更精準(zhǔn)地找到理想的工作。大學(xué)生個(gè)性化就業(yè)系統(tǒng)主要采用了數(shù)據(jù)的預(yù)處理技術(shù),對(duì)大學(xué)生的特征數(shù)據(jù)進(jìn)行降維和標(biāo)準(zhǔn)化,將影響大學(xué)生擇業(yè)的特征保留,去除無關(guān)的數(shù)據(jù),例如手機(jī)號(hào)碼、電子郵箱等數(shù)據(jù)。利用特征轉(zhuǎn)換技術(shù)將數(shù)據(jù)進(jìn)行轉(zhuǎn)換使其成為適合挖掘的數(shù)據(jù)。最后利用基于內(nèi)容的推薦算法與基于系統(tǒng)過濾的推薦算法訓(xùn)練數(shù)據(jù)模型。