王瑞琪,紀(jì)淑娟,曹 寧,郭亞杰
(山東省智慧礦山信息技術(shù)重點實驗室(山東科技大學(xué)),山東 青島 266590)
近年來,網(wǎng)絡(luò)招聘行業(yè)發(fā)展迅速,“云招聘”、視頻面試、人工智能(Artificial Intelligence,AI)面試等新型招聘形式涌現(xiàn),網(wǎng)絡(luò)招聘逐漸取代傳統(tǒng)的線下招聘方式。根據(jù)國家工業(yè)信息安全發(fā)展研究中心的報告[1]顯示,2020 年,中國線上招聘服務(wù)占整體招聘服務(wù)市場規(guī)模的32.3%,并且這一數(shù)字近年來持續(xù)上升。艾瑞咨詢的調(diào)查[2]顯示,2021 年上半年網(wǎng)絡(luò)招聘網(wǎng)站月平均覆蓋量超7 000 萬人,用戶數(shù)量突破8 000萬。中國人民大學(xué)中國市場營銷研究中心發(fā)布的《中國Z 世代求職趨勢調(diào)查報告》[3]也顯示,有76.1%的求職者通過網(wǎng)絡(luò)招聘平臺、搜索引擎等線上招聘渠道尋覓工作機(jī)會。以上種種數(shù)據(jù)均顯示出網(wǎng)絡(luò)招聘具有廣闊的市場空間。
然而,網(wǎng)絡(luò)招聘市場在迅猛發(fā)展的同時,在線招聘欺詐卻越來越多?!?019 年中國互聯(lián)網(wǎng)招聘行業(yè)市場研究》[4]的數(shù)據(jù)顯示,在網(wǎng)絡(luò)平臺的各種不良體驗中,求職者最介意企業(yè)信息不真實的情況,占比達(dá)34.8%;其次是個人信息遭泄露,占比31.8%。有的詐騙分子利用所謂的“體檢費”“保證金”騙取求職者的錢財,還有一些詐騙分子在網(wǎng)絡(luò)招聘平臺發(fā)布高薪招聘信息,誘導(dǎo)受害人至境外從事非法活動。因此,有效地檢測出虛假招聘廣告不僅可以維護(hù)求職者的合法權(quán)益,也有利于維護(hù)公平公正的就業(yè)環(huán)境。
在現(xiàn)有的虛假招聘廣告檢測方法中,文獻(xiàn)[5-10]中通過建立規(guī)則集來識別虛假招聘廣告;文獻(xiàn)[11-15]中利用機(jī)器學(xué)習(xí)檢測虛假招聘廣告;隨著深度學(xué)習(xí)的發(fā)展,文獻(xiàn)[16-17]中利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力來檢測虛假招聘廣告。上述檢測算法均是基于有監(jiān)督學(xué)習(xí)技術(shù)的檢測方法。眾所周知,訓(xùn)練基于有監(jiān)督學(xué)習(xí)模型,特別是深度神經(jīng)網(wǎng)絡(luò)需要大量的有標(biāo)簽數(shù)據(jù),但現(xiàn)實世界中標(biāo)簽數(shù)據(jù)的收集很困難,并且標(biāo)注成本較高。因此,有監(jiān)督訓(xùn)練容易受大量標(biāo)注數(shù)據(jù)的限制。雖然半監(jiān)督學(xué)習(xí)技術(shù)在圖像檢測與分類[18-21]、情感分析[22-23]等領(lǐng)域的應(yīng)用已經(jīng)趨向成熟,但在虛假招聘廣告檢測領(lǐng)域上的應(yīng)用還尚待探索,并且現(xiàn)有基于半監(jiān)督學(xué)習(xí)的方法僅在無標(biāo)簽數(shù)據(jù)上使用一致性正則化,忽視了Dropout 模型的隨機(jī)性帶來的在標(biāo)簽數(shù)據(jù)上訓(xùn)練和推理之間的不一致性問題,從而限制了模型性能的提高。
為了解決上述問題,本文提出基于一致性訓(xùn)練的半監(jiān)督虛假招聘廣告檢測模型(Semi-Supervised fake job advertisements detection model based on Consistency training,SSC)。本文的主要工作如下:
1)提出一種基于一致性訓(xùn)練的半監(jiān)督虛假招聘廣告檢測模型,可以有效解決標(biāo)簽數(shù)據(jù)較少帶來的局限問題。
2)分別對標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)應(yīng)用一致性正則項,最大限度地減小在擾動樣本上進(jìn)行的模型預(yù)測之間的雙向差異,有效提高了模型的學(xué)習(xí)能力。
3)在招聘廣告數(shù)據(jù)集EMSCAD(EMployment SCam Aegean Dataset)上,SSC 整體性能優(yōu)于基線模型,即使在標(biāo)簽數(shù)據(jù)極少的情況下虛假招聘廣告檢測的準(zhǔn)確率也優(yōu)于BERT(Bidirectional Encoder Representation from Transformers)[24]等模型。
4)由于現(xiàn)有的公開的虛假招聘廣告數(shù)據(jù)集較少,并且本文方法主要使用招聘廣告文本進(jìn)行虛假招聘廣告檢測,與情感分類任務(wù)具有相似性,因此也在電影評論IMDB 數(shù)據(jù)集(Internet Movie DataBase)上進(jìn)行了實驗,驗證了本文方法良好的可拓展性。
按照檢測過程中應(yīng)用的人工智能方法不同,將現(xiàn)有的虛假招聘廣告檢測方法分為三類:1)基于規(guī)則的學(xué)習(xí)方法,主要考慮了寫作風(fēng)格、語言學(xué)特征和上下文特征;2)基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,主要使用邏輯回歸、隨機(jī)森林、決策樹、多層感知器等傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)檢測虛假招聘廣告;3)基于深度學(xué)習(xí)的方法,利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力進(jìn)行虛假招聘廣告檢測。
針對在線招聘中虛假招聘廣告越來越多的問題,并考慮到就業(yè)欺詐與垃圾郵件檢測具有相似之處,Vidros 等[5]基于垃圾郵件檢測建立了一個初步的規(guī)則集,為每個規(guī)則賦予一個評分因子,通過評分因子為每條數(shù)據(jù)計算欺詐總分。Habiba 等[6]將公司標(biāo)志、就業(yè)類型、所需經(jīng)驗等7 個特征從文本轉(zhuǎn)換為數(shù)字,在不進(jìn)行任何自然語言處理的情況下對虛假招聘廣告進(jìn)行分類。針對在線招聘欺詐沒有得到應(yīng)有重視的問題,Vidros 等[7]定義并描述了在線招聘欺詐的特點,公開并評估了虛假廣告公共數(shù)據(jù)集EMSCAD,通過對數(shù)據(jù)集的統(tǒng)計觀察和經(jīng)驗評估,建立了一個由上下文、語言、元數(shù)據(jù)特征組成的規(guī)則集。針對現(xiàn)存的就業(yè)欺詐檢測方法僅使用招聘廣告中文本和結(jié)構(gòu)信息,但沒有考慮提供職位公司重要性的問題,Mahbub 等[8]集中在一種新的特征空間設(shè)計上,分別從數(shù)據(jù)集中提取公司名稱和有關(guān)該公司的上下文信息,包括公司網(wǎng)站的URL(Uniform Resource Locator)、域名年齡、LinkedIn 頁面的URL。Nindyati 等[9]提出一種基于行為活動上下文特征的虛假招聘廣告檢測算法,使用行為活動包括招聘廣告的發(fā)布者、發(fā)布時間、發(fā)布間隔作為上下文特征進(jìn)行虛假招聘廣告檢測。Lal 等[10]利用投票技術(shù)設(shè)計了一個基于集成學(xué)習(xí)的虛假招聘廣告檢測模型。
為了檢測出就業(yè)欺詐,Alghamdi 等[11]使用支持向量機(jī)(Support Vector Machine,SVM)提取數(shù)據(jù)中的主要特征,提出一種基于隨機(jī)森林分類器的檢測模型;Dutta 等[12]使用單分類器包括樸素貝葉斯、多層感知器、K近鄰、決策樹和集成分類器包括隨機(jī)森林、AdaBoost(Adaptive Boosting)、梯度增強(qiáng)分別進(jìn)行虛假招聘廣告的檢測;Mehboob 等[13]使用樸素貝葉斯、K近 鄰、決策樹、SVM、隨機(jī)森林和XGBoost(Extreme Gradient Boosting)作為分類器,采用兩步策略找出最佳的特征組合;Shree 等[14]針對虛假招聘廣告損害求職者利益的問題,提出基于機(jī)器學(xué)習(xí)技術(shù)的虛假招聘廣告檢測算法,包括邏輯回歸、K近鄰、隨機(jī)森林,使用文本和元數(shù)據(jù)信息進(jìn)行虛假招聘廣告檢測;Tabassum 等[15]使用了7 種機(jī)器學(xué)習(xí)算法檢測虛假招聘廣告,包括邏輯回歸、AdaBoost、決策樹、隨機(jī)森林、LightGBM(Light Gradient Boosting Machine)、梯度增強(qiáng)等,并比較了不同機(jī)器學(xué)習(xí)算法的性能和被移除的特征對檢測精度的影響。
針對欺詐規(guī)則容易被人學(xué)習(xí)從而限制檢測性能提高的問題,Kim 等[16]提出基于層次聚類的深度神經(jīng)網(wǎng)絡(luò)來檢測虛假招聘廣告,通過層次聚類得到的簇預(yù)訓(xùn)練初始權(quán)重,進(jìn)而計算欺詐候選預(yù)測,利用聚類和深度神經(jīng)網(wǎng)絡(luò)揭示了欺詐之間存在的內(nèi)在關(guān)系。由于虛假的招聘廣告往往包含一些與特定領(lǐng)域?qū)嶓w有關(guān)的不可靠事實,例如技能、行業(yè)、薪酬等方面,針對這一問題,Goyal 等[17]考慮特定領(lǐng)域?qū)嶓w之間的關(guān)系,提出基于特定領(lǐng)域常識的虛假招聘廣告檢測算法,通過構(gòu)建事實驗證數(shù)據(jù)集,使用自動事實檢查算法查找缺失的事實;另外,使用預(yù)訓(xùn)練好的BERT 為所有招聘廣告生成上下文,提取數(shù)據(jù)的元特征,包括教育程度、工作地點等。
綜上所述,在基于規(guī)則的學(xué)習(xí)方法中,規(guī)則集的制定耗時耗力并且靜態(tài)規(guī)則集拓展性較差,難以應(yīng)用到新數(shù)據(jù)集?;趥鹘y(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法需要大量的標(biāo)簽數(shù)據(jù)。但現(xiàn)實世界中標(biāo)簽數(shù)據(jù)的收集耗時、耗力、成本較高,且需要專家經(jīng)驗[25],因此傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法受到了標(biāo)簽數(shù)據(jù)較少的限制。
半監(jiān)督學(xué)習(xí)技術(shù)[26]能有效利用標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù),只需要少量標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)就有很好的效果,更適用于現(xiàn)實世界的應(yīng)用。但目前先進(jìn)的基于半監(jiān)督學(xué)習(xí)的方法[23,27-28]忽略了Dropout 模型的隨機(jī)性帶來的訓(xùn)練和推理之間的不一致性。
與現(xiàn)有半監(jiān)督學(xué)習(xí)算法僅在無標(biāo)簽數(shù)據(jù)上應(yīng)用一致性正則項不同,本文提出的基于半監(jiān)督學(xué)習(xí)技術(shù)的虛假招聘廣告檢測模型(SSC)同時在標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)上進(jìn)行一致性訓(xùn)練,并且考慮了標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練和推理之間的雙向差異,將一致性正則化技術(shù)同時應(yīng)用于標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù),提高了模型的學(xué)習(xí)能力。
本章將詳細(xì)介紹基于一致性訓(xùn)練的半監(jiān)督虛假招聘廣告檢測模型(SSC)。如圖1 所示,SSC 主要分為3 個模塊:無監(jiān)督訓(xùn)練模塊、有監(jiān)督訓(xùn)練模塊和聯(lián)合訓(xùn)練模塊。無監(jiān)督訓(xùn)練模塊產(chǎn)生無監(jiān)督損失Lu;有監(jiān)督訓(xùn)練模塊產(chǎn)生有監(jiān)督損失Ls;聯(lián)合訓(xùn)練模塊將無監(jiān)督損失Lu和有監(jiān)督損失Ls進(jìn)行整合得到半監(jiān)督損失Lsemi,最后使用半監(jiān)督損失進(jìn)行優(yōu)化整個模型。
圖1 SSC結(jié)構(gòu)Fig.1 Structure of SSC
無監(jiān)督訓(xùn)練模塊的目的是獲得無標(biāo)簽數(shù)據(jù)產(chǎn)生的無監(jiān)督損失。無監(jiān)督訓(xùn)練模塊使用數(shù)據(jù)增強(qiáng)、KL(Kullback Leibler)散度計算等操作。將無標(biāo)簽數(shù)據(jù)輸入Augmentation 模塊進(jìn)行數(shù)據(jù)增強(qiáng),得到增強(qiáng)后的樣本?;刈g技術(shù)[29]是數(shù)據(jù)增強(qiáng)的一種,能將一種語言A翻譯成語言B,再從語言B翻譯回語言A,如圖2 所示。回譯技術(shù)可以在保留句子原始語義的同時生成不同的釋義,還可以保留句子的上下文信息。本文在Augmentation 模塊使用Hugging Face發(fā)布的預(yù)訓(xùn)練模型mbart-large-50-many-to-many-mmt[30]進(jìn)行離線回譯。BERT 采用深層的雙向Transformer 組件構(gòu)建整個模型,并使用特殊標(biāo)記[SEP]、[CLS]等聚集整個序列表征,可以生成融合上下文信息的語言表征。鑒于BERT 強(qiáng)大的編碼能力,本文將和增 強(qiáng)后的樣本分別送入BERT 編碼器,通過BERT 的隨機(jī)掩碼機(jī)制進(jìn)行預(yù)測,得到輸出分布散度計算模塊通過計算輸出分布的KL 散度來最小化增強(qiáng)樣本與原始樣本之間的差異,得到無監(jiān)督訓(xùn)練模塊的損失Lu,如式(1)所示:
圖2 回譯示例Fig.2 Example of back translation
有監(jiān)督訓(xùn)練模塊旨在通過計算KL 散度和交叉熵?fù)p失從標(biāo)簽數(shù)據(jù)中獲得有監(jiān)督損失。在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時,正則化技術(shù)[31]對于防止過擬合和提高深度模型的泛化能力必不可少,使用正則化技術(shù)可以減少Dropout 模型的訓(xùn)練和推理之間的不一致性,最大限度地減少在輸出擾動樣本上進(jìn)行的模型預(yù)測之間的雙向差異[32],有助于更好地從標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)。受對比學(xué)習(xí)的啟發(fā),本文對有標(biāo)簽數(shù)據(jù)使用Dropout 一致性正則化方法,并使用Wu 等[33]提出的R-Drop 計算雙向KL 散度作為正則化損失,如圖3 所示。將有標(biāo)簽數(shù)據(jù)分別輸入BERT 兩次,由于Dropout 機(jī)制會隨機(jī)使一些神經(jīng)單元失效,因此會產(chǎn)生兩個不同的概率分布,將這兩個概率分布輸入KL 散度計算模塊DKL,通過計算雙向KL 散度來最小化兩個概率之間的雙向差異,同時結(jié)合標(biāo)簽yi計算交叉熵?fù)p失,相加得到有監(jiān)督部分的損失Ls,如式(2)所示:
圖3 R-Drop的簡單框架Fig.3 Simple framework of R-Drop
聯(lián)合訓(xùn)練模塊的目的是同時整合從有監(jiān)督訓(xùn)練模塊得到的有監(jiān)督損失Ls和無監(jiān)督訓(xùn)練模塊得到的無監(jiān)督損失Lu,相加得到最終的半監(jiān)督損失Lsemi,最后用半監(jiān)督損失優(yōu)化整個模型,如式(3)所示。SSC 使用半監(jiān)督損失優(yōu)化模型,有效利用了標(biāo)簽數(shù)據(jù)的信息,又充分利用了無標(biāo)簽數(shù)據(jù)的信息,可以使模型學(xué)習(xí)到更充分全面的信息。
本文在實驗過程中使用了兩個公開數(shù)據(jù)集。第1 個數(shù)據(jù)集是由Vidros 等[7]發(fā)布的EMSCAD,包括17 880 篇來自真實世界的招聘廣告,原始數(shù)據(jù)集分布如表1 所示,數(shù)據(jù)集的詳細(xì)信息如表2 所示。由于目前公開的就業(yè)欺詐檢測的數(shù)據(jù)集較少,并且本文主要使用招聘廣告文本進(jìn)行虛假招聘廣告檢測,與情感分類任務(wù)具有相似性,因此,本文選擇了電影評論IMDB 數(shù)據(jù)集[34]進(jìn)一步驗證模型的有效性和可擴(kuò)展性。IMDB 數(shù)據(jù)集包括50 000 條來自互聯(lián)網(wǎng)電影數(shù)據(jù)庫兩極分化的評論,數(shù)據(jù)集的詳細(xì)信息如表3 所示。
表1 原始數(shù)據(jù)集分布Tab.1 Distribution of original datasets
表2 EMSCAD的詳細(xì)信息Tab.2 Detailed information of EMSCAD
表3 IMDB的詳細(xì)信息Tab.3 Detailed information of IMDB
本文參考Xie 等[23]的數(shù)據(jù)集劃分方法,從完全監(jiān)督數(shù)據(jù)集中隨機(jī)采樣一定數(shù)量的平衡樣本數(shù)據(jù),測試集和無監(jiān)督數(shù)據(jù)集采用上述同樣的劃分方法。在EMSCAD 上,本文在有監(jiān)督訓(xùn)練過程選擇20 條平衡樣本數(shù)據(jù)(10 條正樣本、10 條負(fù)樣本);同時,在無監(jiān)督訓(xùn)練過程中選擇1 732 條平衡數(shù)據(jù)(866條正樣本、866 條負(fù)樣本)作為樣本。在IMDB 數(shù)據(jù)集上,本文在有監(jiān)督訓(xùn)練過程同樣選擇20 條平衡樣本數(shù)據(jù)(10 條正樣本、10 條負(fù)樣本),在無監(jiān)督訓(xùn)練過程中選擇20 000 條平衡樣本數(shù)據(jù)(10 000 條正樣本、10 000 條負(fù)樣本)。
為了進(jìn)一步研究標(biāo)簽數(shù)據(jù)的樣本數(shù)對實驗結(jié)果的影響,在保持無監(jiān)督訓(xùn)練過程中數(shù)據(jù)樣本設(shè)置不變的情況下將20條有監(jiān)督訓(xùn)練數(shù)據(jù)分別擴(kuò)大5、10、15、20 倍得到4 個數(shù)據(jù)集。此外,為了驗證本文的SSC 在整個數(shù)據(jù)集上的性能,在標(biāo)簽數(shù)據(jù)20 時,使用原始完整數(shù)據(jù)集作為無監(jiān)督訓(xùn)練過程中的無標(biāo)簽數(shù)據(jù)集進(jìn)行了實驗。在EMSCAD 和IMDB 上構(gòu)建的數(shù)據(jù)集詳細(xì)信息如表4 所示。
表4 基于EMSCAD和IMDB構(gòu)建的數(shù)據(jù)集及其分布Tab.4 Datasets and distributions based on EMSCAD and IMDB
本文采用4 種評價指標(biāo)來衡量模型在虛假招聘廣告檢測任務(wù)上的效果,分別是:虛假招聘廣告檢測的準(zhǔn)確率Acc、精確率P、召回率R和F1 值,針對虛假招聘廣告檢測問題,這4 種評價指標(biāo)的計算方法如式(4)~(7)所示:
其中:TP(True Positive)為正確檢測的虛假招聘廣告數(shù);TN(True Negative)為錯誤檢測的虛假招聘廣告數(shù);FP(False Positive)為錯誤檢測的真實招聘廣告數(shù);FN(False Negative)為正確檢測的真實招聘廣告數(shù)。
將本文算法與以下4 種算法進(jìn)行對比:
1)隨機(jī)森林:一種集成學(xué)習(xí)算法,以決策樹為基分類器,通過投票的方式輸出結(jié)果,解決了決策樹性能瓶頸的問題,對噪聲和異常值有較好的容忍性,對高維數(shù)據(jù)分類問題具有較好的可擴(kuò)展性。
2)支持向量機(jī)(SVM):建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的一種數(shù)據(jù)挖掘方法,SVM 的機(jī)理是在空間中尋找一個滿足分類要求的最優(yōu)超平面,使該超平面在保證分類精度的同時,還能使超平面兩側(cè)的空白區(qū)域最大化。
3)BERT[24]:是谷歌提出的通用預(yù)訓(xùn)練語言模型,利用語言遮掩模型(Masked Language Model,MLM)進(jìn)行預(yù)訓(xùn)練,并采用深度Transform 組件構(gòu)建模型,在語義捕捉方面具有強(qiáng)大的能力,在大多數(shù)自然語言處理任務(wù)上,BERT 取得了很好的效果。
4)UDA(Unsupervised Data Augmentation)[23]:使用隨機(jī)增強(qiáng)和反向翻譯等先進(jìn)的數(shù)據(jù)增強(qiáng)方法代替簡單的增強(qiáng)方法,為無標(biāo)簽數(shù)據(jù)添加高質(zhì)量的噪聲來提高一致性訓(xùn)練效果。在半監(jiān)督文本分類和情感分析領(lǐng)域,僅使用少量標(biāo)簽就取得了優(yōu)越的效果。
隨機(jī)森林和SVM 是經(jīng)典的機(jī)器學(xué)習(xí)算法,BERT 是近幾年深度神經(jīng)網(wǎng)絡(luò)中優(yōu)秀的預(yù)訓(xùn)練語言模型,以上3 種均是有監(jiān)督學(xué)習(xí)模型;而UDA 是現(xiàn)有情感分類方法中較先進(jìn)、新穎的半監(jiān)督學(xué)習(xí)框架。因此,本文選擇它們作為基線算法。
本文實驗中涉及學(xué)習(xí)率、序列最大長度、λ、Dropout 概率等參數(shù),多數(shù)參數(shù)遵循UDA 模型的默認(rèn)參數(shù)設(shè)置,少數(shù)具體的參數(shù)設(shè)置如表5 所示。
表5 實驗參數(shù)設(shè)置Tab.5 Experimental parameter setting
本文分別在EMSCAD 和IMDB 數(shù)據(jù)集上進(jìn)行了實驗并對實驗結(jié)果進(jìn)行了詳細(xì)分析。表6 是標(biāo)簽數(shù)據(jù)分別為20、100、200、300、400 時的實驗結(jié)果。
表6 標(biāo)簽數(shù)不同時EMSCAD和IMDB上的實驗結(jié)果Tab.6 Experimental results with different number of labels on EMSCAD and IMDB
可以看出,本文提出的SSC 在EMSCAD 和IMDB 數(shù)據(jù)集上均優(yōu)于基線比較算法。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型隨機(jī)森林和SVM 相比,SSC 具有明顯的優(yōu)勢;與最近流行的強(qiáng)基線模型BERT 和UDA 模型相比,SSC 也取得了最好的檢測效果。
在EMSCAD 中,招聘廣告以文本的形式呈現(xiàn),并且大多數(shù)以中性的語言進(jìn)行描述,招聘廣告文本中不存在感情極性,這使得真實的招聘廣告和虛假的招聘廣告更難以區(qū)分。但在標(biāo)簽數(shù)據(jù)極少的情況下,本文的SSC 與先進(jìn)的半監(jiān)督學(xué)習(xí)方法相比性能仍有提升,進(jìn)一步說明了SSC 的有效性。在EMSCAD 上,當(dāng)標(biāo)簽數(shù)據(jù)僅為20 條時,SSC 與傳統(tǒng)的機(jī)器學(xué)習(xí)方法中表現(xiàn)最好的SVM 和深度學(xué)習(xí)模型BERT 相比,準(zhǔn)確率提高了5.4 和3.4 個百分點,說明了半監(jiān)督學(xué)習(xí)技術(shù)能有效地利用無標(biāo)簽數(shù)據(jù),解決標(biāo)簽數(shù)據(jù)不足帶來的局限問題。與次優(yōu)的UDA 相比,SSC 的準(zhǔn)確率提高了2.2 個百分點,說明SSC 在標(biāo)簽數(shù)據(jù)極少的情況下的有效性。
與EMSCAD 類似,IMDB 數(shù)據(jù)集中的電影評論也是文本形式;與EMSCAD 不同,這些電影評論信息中帶有感情極性。在IMDB 數(shù)據(jù)集上,當(dāng)標(biāo)簽數(shù)據(jù)僅為20 條時,SSC 與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比具有明顯的優(yōu)勢,與機(jī)器學(xué)習(xí)方法中表現(xiàn)最好的隨機(jī)森林模型相比,準(zhǔn)確率提高了16.0 個百分點,與深度學(xué)習(xí)模型BERT 和UDA 模型相比,準(zhǔn)確率提高了11.7和2.8 個百分點。因此,可以得出如下結(jié)論。
結(jié)論1 SSC 不僅可以用于虛假招聘廣告檢測,還可以應(yīng)用于其他基于文本的分類任務(wù)中,具有良好的擴(kuò)展性。
從表6 還可以看出,在EMSCAD 和IMDB 數(shù)據(jù)集上,傳統(tǒng)的機(jī)器學(xué)習(xí)模型表現(xiàn)較差,且SVM 模型表現(xiàn)最差。隨著標(biāo)簽數(shù)據(jù)個數(shù)的增加,在EMSCAD 和IMDB 數(shù)據(jù)集上準(zhǔn)確率、精確率、召回率和F1 值都在逐步上升,并且SSC 始終表現(xiàn)最好,UDA 模型的表現(xiàn)次之。整體上,在標(biāo)簽數(shù)據(jù)較少時,SSC與其他基線模型相比具有明顯的優(yōu)勢;隨著標(biāo)簽數(shù)據(jù)個數(shù)的增加,SSC 的性能與BERT、UDA 強(qiáng)基線模型相比性能差距在逐漸縮小。因此,可以得出如下結(jié)論:
結(jié)論2 SSC 在標(biāo)簽數(shù)據(jù)極少的情況下更具有優(yōu)勢。
為了進(jìn)一步驗證模型的性能,本文在完整的原始數(shù)據(jù)集上進(jìn)行了實驗,由于隨機(jī)森林、SVM 和BERT 模型不使用無標(biāo)簽數(shù)據(jù)訓(xùn)練模型,且標(biāo)簽數(shù)據(jù)為20 時的實驗結(jié)果已在表6列出,因此本文單獨對原始數(shù)據(jù)集上的實驗結(jié)果進(jìn)行了統(tǒng)計分析,如表7 所示。
表7 標(biāo)簽數(shù)為20時,UDA和SSC在原始數(shù)據(jù)集上的結(jié)果對比Tab.7 Comparison of UDA and SSC results on original datasets when number of labels is 20
從表7 可以看出,在EMSCAD 和IMDB 數(shù)據(jù)集上,SSC 整體上優(yōu)于UDA 模型。與強(qiáng)基線模型UDA 相比,SSC 的準(zhǔn)確率提高了2.0 和2.7 個百分點,有效地驗證了它在原始完整數(shù)據(jù)集上的有效性。參考表6 可以看出,在EMSCAD 上,使用原始數(shù)據(jù)集作為無標(biāo)簽數(shù)據(jù)可以略微提升模型的性能;在IMDB 數(shù)據(jù)集上,使用原始數(shù)據(jù)集可以顯著提升模型的效果。這是因為EMSCAD 是極不平衡的數(shù)據(jù)集,而IMDB 的原始數(shù)據(jù)集是平衡數(shù)據(jù)集,當(dāng)無標(biāo)簽數(shù)據(jù)中的類別分布嚴(yán)重不平衡時,半監(jiān)督學(xué)習(xí)技術(shù)就失去了應(yīng)有的優(yōu)勢[35]。未來旨在設(shè)計更普適的半監(jiān)督學(xué)習(xí)檢測算法,更好地解決無標(biāo)簽數(shù)據(jù)中出現(xiàn)不可見類和類別嚴(yán)重不平衡的問題。
結(jié)論3 SSC 在原始完整數(shù)據(jù)集上仍具有較好的表現(xiàn)效果,在無監(jiān)督訓(xùn)練過程中增加無標(biāo)簽數(shù)據(jù)且無標(biāo)簽數(shù)據(jù)類別平衡時可以顯著地提升檢測效果。
為了進(jìn)一步分析SSC 的有效性,本文在標(biāo)簽數(shù)分別為20和400 時在EMSCAD 上應(yīng)用t-SNE[36]方法,將SSC 和UDA 學(xué)習(xí)到的特征表示進(jìn)行可視化,如圖4 所示。
圖4(a)、(b)分別是標(biāo)簽數(shù)為20 時UDA 和SSC 學(xué)習(xí)到的特征可視化??梢钥闯?,SSC 學(xué)習(xí)到的特征表示優(yōu)于UDA 學(xué)習(xí)到的特征表示。這是因為從圖4(a)可以看出,有較多特征被錯誤分類,且類別之間的間隔比較模糊,可區(qū)分性較低。相較于圖4(a),圖4(b)中雖然也存在特征被錯誤分類的情況,但被錯誤分類的特征大大減少并且類別之間的間隔比圖4(a)更明顯。
圖4(c)、(d)分別是標(biāo)簽數(shù)據(jù)為400 時UDA 和SSC 學(xué)習(xí)到的特征可視化。可以看出,當(dāng)標(biāo)簽數(shù)據(jù)增多時兩者都可以學(xué)習(xí)到更準(zhǔn)確的特征表示;但本文的SSC 學(xué)習(xí)到的特征更準(zhǔn)確,類別之間的距離更明顯,并且被錯誤分類的特征更少。這是因為本文使用KL 散度最大限度地縮小了訓(xùn)練和推理之間的雙向差異,緩解了Dropout 模型的隨機(jī)性帶來的訓(xùn)練和推理之間的不一致。因此,可以得出如下結(jié)論:
結(jié)論4 SSC 可以更準(zhǔn)確地學(xué)習(xí)招聘廣告文本的特征表示,因此檢測虛假招聘廣告的效果更好。
為了驗證SSC 中各模塊的有效性,在EMSCAD 和IMDB數(shù)據(jù)集上通過簡化模型分別進(jìn)行了消融分析,其中:EMSCAD 的有標(biāo)簽數(shù)為20,無標(biāo)簽數(shù)為1 732;IMDB 數(shù)據(jù)集的有標(biāo)簽數(shù)為20,無標(biāo)簽數(shù)為20 000。實驗結(jié)果如圖5 所示。簡化模型如下:
圖5 模塊消融分析Fig.5 Module ablation analysis
1)SSC:包含所有模塊,使用無監(jiān)督損失和有監(jiān)督損失共同優(yōu)化模型。
2)w/o R:刪除有監(jiān)督訓(xùn)練模塊中的KL 散度計算模塊,使用有監(jiān)督訓(xùn)練模塊中的交叉熵?fù)p失和無監(jiān)督訓(xùn)練模塊中的無監(jiān)督損失共同優(yōu)化模型。
3)w/o U:刪除無監(jiān)督訓(xùn)練模塊,使用有監(jiān)督損失優(yōu)化模型。
4)w/o S:刪除有監(jiān)督訓(xùn)練模塊,使用無監(jiān)督損失優(yōu)化模型。
從圖5 可以看出,在SSC 的基礎(chǔ)上刪減模塊之后,模型在EMSCAD 和IMDB 數(shù)據(jù)集上的準(zhǔn)確率都有一定程度的下降,其中w/o S 的準(zhǔn)確率最低,說明有監(jiān)督訓(xùn)練模塊產(chǎn)生的有監(jiān)督損失對模型優(yōu)化有著重要的作用。在EMSCAD 上w/o U 的準(zhǔn)確率高于w/o R,但在IMDB 上w/o U 的準(zhǔn)確率更低,這表明在EMSCAD 上KL 散度計算模塊比無監(jiān)督訓(xùn)練模塊更重要,而在IMDB 上無監(jiān)督訓(xùn)練模塊對準(zhǔn)確率的影響更大。在EMSCAD 和IMDB 數(shù)據(jù)集上,w/o R 和w/o U 的準(zhǔn)確率均低于SSC,說明通過KL 散度計算模塊計算雙向KL 散度可以有效減小模型預(yù)測時的雙向差異,提高模型的學(xué)習(xí)能力,而無標(biāo)簽數(shù)據(jù)可以在標(biāo)簽數(shù)據(jù)有限的情況下幫助模型學(xué)習(xí)到更好的表示,有效提高模型的檢測效果。因此,可以驗證SSC 中的模塊在檢測性能提升方面的有效性。
本節(jié)對SSC 和基線模型在EMSCAD 和IMDB 數(shù)據(jù)集上的時間效率進(jìn)行了對比,各個模型的運行時間如表8 所示。
表8 時間效率比較分析Tab.8 Comparative analysis of time efficiency
模型在IMDB 上的運行時間均高于EMSCAD,原因在于IMDB 的數(shù)據(jù)量大于EMSCAD,運行時間會隨著訓(xùn)練數(shù)據(jù)的增加而增加。不論在哪個數(shù)據(jù)集上,在基于監(jiān)督學(xué)習(xí)技術(shù)的模型中,SVM 的運行時間都是最短的。相對地,采用了12 層雙向Transform 組件構(gòu)建的BERT 模型的運行時間最長,而且是傳統(tǒng)機(jī)器學(xué)習(xí)方法105倍?;诒O(jiān)督學(xué)習(xí)技術(shù)模型的時間效率優(yōu)于基于半監(jiān)督學(xué)習(xí)技術(shù)的模型,這是因為基于半監(jiān)督學(xué)習(xí)技術(shù)的模型要同時聯(lián)合有監(jiān)督模塊和無監(jiān)督模塊進(jìn)行模型訓(xùn)練。相較于BERT 模型,在EMSCAD 上,基于半監(jiān)督學(xué)習(xí)技術(shù)的模型UDA 和SSC 的運行時間雖然是BERT 模型的2.5 倍和5.5 倍,但它們?nèi)蕴幵谙嗤臄?shù)量級。所以,對比深度監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)技術(shù)用時間效率的降低換取精度的提高是值得的。
本文提出了一種基于一致性訓(xùn)練的半監(jiān)督虛假招聘廣告檢測模型(SSC),同時對標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)應(yīng)用一致性正則化技術(shù),通過聯(lián)合訓(xùn)練的方式整合有監(jiān)督損失和無監(jiān)督損失得到半監(jiān)督損失,使用半監(jiān)督損失對模型進(jìn)行優(yōu)化。在EMSCAD 上的實驗結(jié)果表明,SSC 取得了最好的效果,可以有效檢測出虛假招聘廣告;在IMDB 數(shù)據(jù)集上的實驗結(jié)果表明,SSC 具有較好的可拓展性,可以應(yīng)用到其他自然語言處理任務(wù)。在未來工作中,本研究團(tuán)隊旨在收集更多的虛假招聘廣告檢測相關(guān)的數(shù)據(jù)集,研究檢測效果更好、更普適的虛假招聘廣告檢測算法。