任妮 吳瓊 栗薈荃
(吉林動畫學院 吉林省長春市 130000)
2022年全國普通高校畢業(yè)生達到1076萬人次,創(chuàng)歷史新高,這也就意味著畢業(yè)生可能面臨著相當艱難的就業(yè)問題。盡管教育部、各高校都在積極幫助畢業(yè)生拓展就業(yè)渠道,為了畢業(yè)生能夠高質(zhì)量的就業(yè)而努力。然而,還是會有一部分畢業(yè)生就業(yè)難。期中固然有人多競爭壓力大、就業(yè)信息太多無從下手等問題,但究其根本原因是畢業(yè)生對自身的優(yōu)勢不了解,就業(yè)目標不明確導致的。這就出現(xiàn)了企業(yè)想找人才找不到,社會問題畢業(yè)生想就業(yè)難。推薦系統(tǒng)可以很好的幫助畢業(yè)生篩選海量就業(yè)數(shù)據(jù),對優(yōu)質(zhì)崗位進行推薦。本文以大學生個性化就業(yè)問題為例,對推薦系統(tǒng)常見算法進行深入的對比研究。
推薦系統(tǒng)是建立商品與用戶關(guān)系的橋梁,能夠幫助用戶發(fā)現(xiàn)物品的價值所在。也可以將信息精準的展示在用戶面前。目前,推薦系統(tǒng)在很多領(lǐng)域有所應用,包括電子商務、影視平臺、社交網(wǎng)絡、廣告推薦等。推薦系統(tǒng)在不同應用領(lǐng)域的表現(xiàn)也不盡相同。如何判斷一個推薦系統(tǒng)適合使用,是我們非常需要研究的問題。
需要對推薦系統(tǒng)的參與用戶進行判斷。常見的包括:消費者,銷售者以及推薦系統(tǒng)提供平臺。我們需要全方位的兼顧各種目標用戶,綜合評定,才能夠獲得性能優(yōu)越的推薦系統(tǒng)。因此,測評一個推薦系統(tǒng)可以通過以下常規(guī)方法對推薦系統(tǒng)進行分析:
1.1.1 日志分析法
消費者訪問平臺就會產(chǎn)生日志數(shù)據(jù)。日志數(shù)據(jù)是離線的、有固定標準的數(shù)據(jù)集。它能夠比較精準的反映用戶在某一時段的行為習慣及喜好。銷售者能夠很容易獲得日志數(shù)據(jù),并通過推薦系統(tǒng)分析出數(shù)據(jù)。其成本是非常少的。推薦系統(tǒng)可以將日志數(shù)據(jù)分成訓練集和測試集,并通過數(shù)據(jù)分析模型進行預測分析,對比預設的數(shù)據(jù)分析指標進行推薦。日志數(shù)據(jù)分析的方法實質(zhì)是對歷史數(shù)據(jù)的分析,其優(yōu)點是對平臺系統(tǒng)的設備性能要求較低,并且不需要用戶的實時參與。分析的歷史數(shù)據(jù)通常不會實時變化,分析的速度比較快。但是,日志數(shù)據(jù)用于作為推薦依據(jù)的局限性也相當明顯,舉個例子,用戶第一次訪問某一個網(wǎng)頁,由于數(shù)據(jù)集中沒有包含該用戶的歷史行為,因此不能推薦。除此之外,推薦系統(tǒng)推薦的結(jié)果是通過數(shù)據(jù)分析的到的客觀結(jié)果,但是用戶的喜好是隨時變化的、主觀的,因此,無法獲得用戶的主觀想法。
1.1.2 用戶信息調(diào)查法
通過問卷調(diào)查方法、分析用戶的操作數(shù)據(jù)了解真實用戶的喜好。例如,想大學生推薦工作,可以招募大量的大學生用戶對網(wǎng)頁進行操作,并回答一些問題。分析招募的大學生對工作的偏好數(shù)據(jù),包括行業(yè)、職位、職責、地點等數(shù)據(jù)。用戶信息調(diào)查法解決了無法獲得用戶的主觀想法的問題,但是招募大量用戶參與實驗的成本太大。
1.1.3 實時數(shù)據(jù)分析法
實時的數(shù)據(jù)分析是大數(shù)據(jù)分析比較有效的方法之一??梢酝ㄟ^并行給測試的方法,將用戶分成若干小組,采用不同的算法對不同組的用戶進行推薦。并以特定的規(guī)則實現(xiàn)優(yōu)勝劣汰。
總而言之,一個推薦算法從設計到推出使用至少需要完成以上三個步驟。利用日志數(shù)據(jù)證明算法在歷史數(shù)據(jù)計算的優(yōu)勢,然后通過用戶信息確定用戶對推薦算法的主觀想法,是否滿意,最后通過實時數(shù)據(jù)分析法客觀的展示算法的優(yōu)勢。
測評一個推薦系統(tǒng)可以使用上述方法,評價一個推薦系統(tǒng)的性能則可以通過定量的計算和定性的描述進行分析,常見的測評指標包括:
1.2.1 用戶滿意度
用戶滿意度是評測一個推薦系統(tǒng)好壞的最重要的指標之一,它能夠客觀的反饋用戶對該推薦算法的主觀態(tài)度。然而,用戶滿意度是比較難以獲得的數(shù)據(jù),它無法離線計算,只能在用戶使用推薦系統(tǒng)時間接的獲得。可以采用調(diào)查問卷等方式對用戶的態(tài)度進行調(diào)研,這就對調(diào)查問卷的質(zhì)量要求較高,只有綜合考慮用戶的個性化需求,用戶才能比較有針對性的給出較準確的答案。另一方面,也可以從用戶的行為間接的獲得用戶滿意度的定性描述。舉個例子,用戶購買了推薦系統(tǒng)推薦的商品,就間接說明用戶對推薦的結(jié)果是滿意的。一般情況下,還可以通過用戶的點擊情況、停留網(wǎng)頁時間、轉(zhuǎn)換率等數(shù)據(jù)間接了解用戶對該算法的滿意程度。針對大學生就業(yè)情況,可以通過用戶投遞簡歷數(shù)據(jù)、瀏覽推薦職位時間等間接獲分析戶滿意度數(shù)據(jù)。
1.2.2 預測準確度
預測準確度是非常重要的推薦系統(tǒng)離線測評度量指標。其判斷的是推薦系統(tǒng)對用戶行為的預測能力。在實際環(huán)境中,對推薦系統(tǒng)的評價研究都是通過預測準確度來衡量的。因為對推薦系統(tǒng)的研究方向有所差別,因此,預測準確度可以分為預測評分準確度以及TopN推薦。
預測評分準確度主要是對比用戶給系統(tǒng)評分的預測與用戶實際給系統(tǒng)的評分的誤差,誤差值越大,預測準確度越小,誤差值越小,預測準確度越好,推薦系統(tǒng)性能越好。預測評分準確度可以通過平均絕對誤差(MAE)、均方根誤差(RMSE)等來進行計算。評分預測的本質(zhì)是采用機器學習的思想,很多電商平臺會使用評分預測衡量推薦系統(tǒng),主要可以通過用戶評分來實現(xiàn)。分析用戶對商品的歷史評分,分析商品 屬性與商品的關(guān)系,建立模型,并通過學習模型不斷積累預測用戶對未知產(chǎn)品的評價。
TopN推薦一般是指對用戶進行個性化推薦,主要通過準確率及召回率度量TopN推薦的預測準確率。實際上,TopN推薦更符合實際應用需求。舉個例子,判斷用戶是否會購買商品比判斷用戶買完商品后對商品的評分,對商家更有用處。
預測準確度是對離線數(shù)據(jù)的分析,這意味著,預測推薦準確度不需要有實際的系統(tǒng)支撐,通過分析日志數(shù)據(jù)就可以實現(xiàn)。所以預測準確度,不需要實際控制推薦系統(tǒng),有數(shù)據(jù)即可;不需要用戶參與實踐,極大程度降低了用戶成本。這樣對預測準確度數(shù)據(jù)的采集速度極快,且可以完成大量算法的測試。然而,也存在一定風險,實際數(shù)據(jù)具有稀疏性,會限制預測準確度的使用范圍,舉個例子,大學生A第一次登錄就業(yè)平臺,因缺少歷史數(shù)據(jù)導致無發(fā)評價該用戶的推薦結(jié)果。除此之外,機器學習的結(jié)果是非??陀^的,無法像人一樣有主觀的感受,因此預測準確度只能提供完全客觀的結(jié)論,評價結(jié)果可能會與實際結(jié)果有所偏差。
1.2.3 新穎性
對用戶的體驗有著很大的影響。新穎性反映了當我們將非熱搜商品推薦給用戶時,用戶的接受程度。越新穎,用戶的接受能力越強,客戶的滿意度就有可能越高。該指標的計算是比較粗糙的,需要結(jié)合用戶信息的調(diào)查,才能夠比較準確的計算出新穎度。
推薦系統(tǒng)的評測指標是非常多的,除了上述介紹的意外,還可以通過覆蓋率、多樣性、驚喜度、信任度、實時性、健壯性、商業(yè)目標等評測推薦系統(tǒng)算法,可以根據(jù)實際情況合理算則。
協(xié)同過濾算法是建議系統(tǒng)使用頻率最高的算法之一。算法簡單、易于理解。協(xié)同過濾推薦不需要領(lǐng)域知識,推薦的內(nèi)容更個性化,對于非結(jié)構(gòu)化的數(shù)據(jù)表現(xiàn)也相當不錯。協(xié)同過濾算法的種類較多,比如以領(lǐng)域模型為基礎的協(xié)同過濾算法。可以從用戶(UserCF)角度分析用戶的行為。舉個例子,分析擇業(yè)學生在招聘平臺搜索的行為,點擊查看的行為,在網(wǎng)頁的瀏覽時間等進行匯總分析,將擁有相似數(shù)據(jù)額用戶通過聚類進行分類,然后根據(jù)相同分類成員彼此興趣愛好相互推薦。也可以從事物(ItemCF)的角度進行分析,分析崗位的特征,依據(jù)用戶的歷史操作精準匹配推薦?;谡Z義模型(LFM)也是協(xié)同過濾算法經(jīng)常使用的算法模型。其通過數(shù)據(jù)中的隱含特征將用戶的興趣與相關(guān)物品進行關(guān)聯(lián)。
綜上所述,基于用戶的協(xié)同過濾算法可以先完成與目標用戶興趣愛好相似的用戶,將用戶進行聚類,在根據(jù)挖掘的用戶喜愛的商品對目標用戶進行推薦。舉個例子,100個同學登錄招聘平臺,每個用戶都可以被認為是目標用戶,其他的就是普通用戶。以同學A為目標用戶為例,將剩余的99名同學與A同學進行聚類操作,如果有10人與A同學的興趣愛好相同,將他們歸類到同一組。挖掘除A同學以外其他同學感興趣的工作崗位,并進行匯總,推薦給同學A。因11個同學的興趣愛好相同,推薦的結(jié)果的用戶滿意度可能較好。
基于物品的協(xié)同過濾算法可以直接分析用戶的興趣愛好,通過尋找與之相似的物品從而達到推薦的目的。
基于語義的模型推薦算法可以先對物品進行分類,通過分析用戶的數(shù)據(jù)挖掘用戶的喜好,再將物品進行推薦。例如,先對招聘平臺的所有崗位按其屬性特點進行分類,分類依據(jù)越多月能夠精準的推薦職位給用戶。然后根據(jù)用戶的歷史操作數(shù)據(jù),操作平臺行為分析用戶的喜好,再將分類的崗位與用戶喜好相對應進行推薦。協(xié)同過濾算法包括常用的模型算法:以場域模型為基礎,以語義模型為基礎,以圖模型為基礎。
2.1.1 基于領(lǐng)域模型
基于領(lǐng)域模型的協(xié)同過濾算法可以從不同角度分為基于用戶的協(xié)同過濾算法及基于商品的協(xié)同過濾算法。
基于用戶的協(xié)同過濾算法。通過用戶的行為,將商品推薦給用戶。主要包括對用戶進行聚類分析,將有相同喜好或行為的用戶通過聚類算法進行分類。例如,對100名在校大學生進行了分類分析。通過大學生對工作的偏好設置將大學生分成N類。對相同分類的用戶的喜好進行列舉及匯總,并進行推薦。例如大學生A、B、C均想要找計算機類的工作,通過相似度算法發(fā)現(xiàn)大學生A與大學生C的行為相似度高,可以將A搜索,但C沒有搜索的工作推薦給大學生C。以用戶為基礎的協(xié)同過濾算法,其實質(zhì)是對用戶相似度的計算。將相似度高的用戶的興趣互相推薦。當用戶對冷門的事物的喜好相似(都喜歡或都不喜歡)是,更能說明用戶的興趣是相似的。但基于用戶的協(xié)同過濾算法只適用于對較少的用戶的推薦,當用戶特別多時,計算用戶的相似度就非常麻煩。
基于物品的協(xié)同過濾算法是電商領(lǐng)域使用較多的推薦算法,Amazon、Netflix、YouTube的推薦系統(tǒng)都是以該算法為基礎[1]。該算法通過用戶的歷史數(shù)據(jù),對商品的相似度進行計算。并通過用戶歷史行為及商品相似度對用戶進行推薦。例如大學生A找工作,第一次登陸平臺查詢了“大數(shù)據(jù)分析”、“數(shù)據(jù)可視化”等大數(shù)據(jù)相關(guān)崗位工作,第二次登錄,大學生A仍然搜尋大數(shù)據(jù)方向相關(guān)職位,系統(tǒng)可以將新發(fā)布的工作與第一次用戶查詢的工作進行對比,將相似的工作推薦給用。
2.1.2 基于語義模型
基于語義模型推薦算法是近幾年比較熱門的新型推薦算法。該算法主要通過隱藏特征對用戶進行推薦?;谡Z義模型推薦算法可以解要推薦給用戶的物品的分類問題,依據(jù)用戶的行為對商品進行聚類分析從而分類。例如大學生A想要找大數(shù)據(jù)方向工作,A同學在招聘平臺多次搜所“大數(shù)據(jù)”、“數(shù)據(jù)分析師”、“數(shù)據(jù)建模師”等職位的工作。招聘平臺可以根據(jù)用戶的搜索行為,將大數(shù)據(jù)相關(guān)崗位分成若干類“大數(shù)據(jù)開發(fā)”、“大數(shù)據(jù)分析”等,然后按照用戶偏好進行推薦。用戶的行為代表了用戶對物品類別的觀點,大多數(shù)用戶都對兩個物品感性卻,說明兩個物體極有可能是同一類別的。除此之外,基于語義模型的推薦算法在進行推薦時,允許系統(tǒng)對分類的數(shù)量、物品在每個分類中占的權(quán)重、每個分類的維度數(shù)據(jù)等進行定義,因此,該算法的靈活性很強[2]。基于語義模型推薦算法應用于PLSA、LDA、隱含類別模型、隱含主題模型、矩陣分解等眾多著名模型和方法[3]?;谡Z義模型推薦算法非常適用于個性化推薦系統(tǒng)。
2.1.3 基于圖模型
在圖論中有一個特殊的模型,叫做二分圖。可以用二分圖來表示用戶的行為。其本質(zhì)時將用戶行為與物品關(guān)聯(lián),并用二元組(用戶、物品)對物品產(chǎn)生的行為表示用戶。谷歌最著名的PageRank算法就是基于這種算法。對Google搜索結(jié)果進行網(wǎng)頁排名推薦。大師基于圖模型推薦算法在時間復雜度方面有明前的缺陷,計算時間長,且隨著迭代次數(shù)的減少,精準度下降。
基于內(nèi)容推薦算法與協(xié)同過濾算法較相似,主要時對用戶分析,推薦與用戶以前喜歡的物品在內(nèi)容上擁有相似度高的其他物品。例如,大學生A在某招聘平臺找工作,并收藏了某職務B,系統(tǒng)可以分析工作B的特征,包括但不限于薪酬、辦公地點、工作職責、公司規(guī)模、公司性質(zhì)等。然后將與工作B特征相同或相似的職位推薦給學生A。因此,提取要推薦對象的內(nèi)容,基于內(nèi)容推薦算法的本質(zhì)進行推薦。該算法時基于物品的內(nèi)容,因此用戶的評價意見并不重要,這也就解決的難以獲得用戶主觀想法的問題。但此算法需要使用機器學習方法獲取物品的內(nèi)容特征,因此推薦系統(tǒng)的性能取決于選擇的深度學習算法。基于內(nèi)容推薦的算法簡單、有效、具有很強的解釋性。便于學習與理解,即使是算法小白,也可輕松使用。用戶的行為對推薦算法的影響相對較小,冷啟動、稀疏等系統(tǒng)中常見的問題推薦較少。并且算法相當成熟。但基于內(nèi)容推薦的算法,這里面也有一定的麻煩。首先,特征提取問題。圖像、視頻等電子數(shù)據(jù)需要較難的技術(shù)進行特征提取,且提取到的特征很難保質(zhì)保量。二是用戶的興趣愛好隨時間的變化而變化。通過內(nèi)容推薦很難有驚喜,例如A同學第一次登錄招聘平臺希望找數(shù)據(jù)分析方面的工作,學習了Java編程語言后,再次登錄招聘平臺,很有可能就想要大數(shù)據(jù)開發(fā)方面工作。因此,該算法很難精準且個性化的推薦。
基于關(guān)聯(lián)規(guī)則推薦算法的核心是關(guān)聯(lián)規(guī)則,利用物品與物品之間的內(nèi)在聯(lián)系,進行推薦。相關(guān)規(guī)則算法是購物車的典型算法。在電商平臺中應用較多。例如通過計算發(fā)現(xiàn)大多數(shù)用戶購買了牛奶同時還會購買面包,購買牛奶、面包的用戶,也會購買火腿腸這兩種食品。那么就可以得出關(guān)聯(lián)規(guī)則:購買牛奶的人購買面包的可能性較大,購買牛奶和面包的人購買火腿腸的可能性較大。在推薦時可以將面包推薦給購買了牛奶的用戶,將火腿腸推薦給同時購買牛奶和面包的用戶?;陉P(guān)聯(lián)規(guī)則推薦算法的規(guī)則非常明確,簡單、易懂,但發(fā)現(xiàn)正確的關(guān)聯(lián)規(guī)則是比較難解決的問題。除此之外,實際環(huán)境下,產(chǎn)品的名稱可能存在同義性,比如土豆、馬鈴薯、洋芋,相同的商品,不同的名稱,在使用基于關(guān)聯(lián)規(guī)則推薦算法時也會出現(xiàn)問題。
知識是從海量大數(shù)據(jù)中篩選和論證的信息。以知識為基礎的推薦算法是[4]的推理技術(shù)。這個算法主要是給用戶提供精準的、個性化的建議。例如同學A在某學習平臺學習數(shù)學,那么A同學最好從最簡單的知識開始學習。但是學習一段時間就會出現(xiàn)一個問題,A同學的行為一直實在初級階段的數(shù)學學習范圍,根據(jù)愛好、行為推薦,系統(tǒng)只能推薦初級知識點,也就是說A同學被推薦的知識一直是簡單的數(shù)學知識。無法獲得更高級的知識,無法滿足A同學繼續(xù)學習的需求。該怎么辦呢?基于知識的推薦算法此時可以起到作用。推薦系統(tǒng)能夠獲取用戶的知識等級,也了解數(shù)學產(chǎn)品的知識等級,用戶已滿足進階的條件,推薦系統(tǒng)可以為用戶推薦合適的進階信息,根據(jù)用戶的實際情況而定。因此,以知識為基礎的推薦算法并不需要以用戶的需求和偏好為基礎。其本質(zhì)是利用用戶和產(chǎn)品兩者的知識,通過推理并不精準的判斷用戶的需求。該算法不存在冷啟動問題。
推薦算法的種類有很多,但可以看出,每一種推薦算法都不十分完美。在實際環(huán)境中,將多種推薦算法混合使用是一個比較不錯的選擇,可以取長補短。期中,在算法研究與應用中,基于用戶的協(xié)同過濾算法經(jīng)常和基于商品的協(xié)同過濾算法共同使用。既從用戶角度考慮了用戶與商品的關(guān)系,再一個從商品的角度考慮用戶和商品之間的關(guān)系。屬于雙向研究。除此之外基于內(nèi)容的推薦算法與協(xié)同過濾算法的組合使用也比較常見,這種混合算法可以產(chǎn)生一個推薦預測的結(jié)果。除此之外,有研究人員還給出了幾種推薦算法的組合意見:
使用權(quán)重。對不同推薦技術(shù)進行加權(quán)處理,將表現(xiàn)較好的推薦技術(shù)分配較大的權(quán)重。
變換技術(shù)。結(jié)合背景,合理選擇推薦算法。比如,既涉及到購物推薦,又涉及到個性化推薦,購物問題可以使用“基于關(guān)聯(lián)規(guī)則推薦算法”,需要個性化推薦的問題采用基于語義模型的推薦算法。
混合推薦。將相同數(shù)據(jù)用不同推薦算法計算,比較推薦結(jié)果,供用戶參考。
無論哪種組合,其實都是可以的,但一定要遵循取長補短的原則[5]。2009年,ACM推薦系統(tǒng)大會,研究人員Strand在報告中總結(jié)了如何開發(fā)和選擇合適的推薦系統(tǒng)。首先,明確對推薦系統(tǒng)的需求。我們真的需要使用推薦系統(tǒng)嗎?只有在用戶遇到過載信息時,推薦系統(tǒng)才會起作用。如果平臺物品較少、種類單一,用戶的興趣單一,那么推薦系統(tǒng)其實時不必要的。因此,不應過多的糾結(jié)于推薦系統(tǒng),用改從用戶角度出發(fā),設計能夠真正起到作用的系統(tǒng),無論系統(tǒng)復雜度,只要能夠真正有效就是好的系統(tǒng)。大學生就業(yè)市場時多元化的,就業(yè)信息也是較多的,因此對于大學生來說推薦系統(tǒng)是有必要的,那么就需要開發(fā)人員分析大學生的特征屬性,通過大學生實際情況,設計推薦系統(tǒng),幫助其就業(yè)。其次,要確定用戶滿意程度于商業(yè)目標之間的關(guān)系。好的推薦系統(tǒng)是指對用戶非常友好的推薦系統(tǒng),但這樣的系統(tǒng)不一定在商業(yè)上是有用的。要明確用戶的滿意度情況與商業(yè)需求的差異,畢竟開發(fā)的推薦系統(tǒng)除了要利益用戶也需要有所收益。因此,在開發(fā)推薦系統(tǒng)時也需要平衡以下長期利益與短期利益之間的關(guān)系。第三,開發(fā)團隊的選擇很重要。這個主要取決于開發(fā)的目的級開發(fā)的環(huán)境,目的時為推薦系統(tǒng)后期工作提供便利。第四,要考慮冷啟動的問題?;ヂ?lián)網(wǎng)上的數(shù)據(jù)時實時更新的,行業(yè)數(shù)據(jù)實時變化的,尤其時就業(yè)信息,推薦系統(tǒng)要不斷地創(chuàng)新才能夠獲得更多優(yōu)質(zhì)客戶。第五,找到平衡數(shù)據(jù)與算法之間關(guān)系的方法。用戶的數(shù)據(jù)對于推薦系統(tǒng)至關(guān)重要,只有精準的數(shù)據(jù)才可能獲得精準的結(jié)果,如何獲得精準的數(shù)據(jù)這是設計推薦系統(tǒng)急需解決的一大難題,常見的解決方法就是數(shù)據(jù)預處理的技術(shù),但是數(shù)據(jù)預處理的技術(shù)仍然有許多待解決的難題。數(shù)據(jù)分析是設計推薦系統(tǒng)的核心部分,決定了模型的設計方案級優(yōu)化方法。最后,要有合理的用戶反饋方式,舉個例子,設計合理的用戶評測平臺,時刻關(guān)注推薦系統(tǒng)的全方面性能。
在大數(shù)據(jù)時代,推薦系統(tǒng)是一個非常使用的技術(shù)。目前,已經(jīng)有很多的推薦算法相當成熟,但這些推薦算法各有千秋,在不同的領(lǐng)域性能表現(xiàn)也各不相同。在使用和開發(fā)推薦系統(tǒng)時,推薦算法可根據(jù)實際情況進行合理選擇。針對大學生個性化就業(yè)推薦問題,協(xié)同過濾的推薦算法更為合適,從學生和工作兩個角度,雙向分析推薦,可以實現(xiàn)個性化就業(yè)推薦。