李婷婷 呂佳 范偉亞
摘 要:正例無標(biāo)記(PU)學(xué)習(xí)中的間諜技術(shù)極易受噪聲和離群點(diǎn)干擾,導(dǎo)致劃分的可靠正例不純,且在初始正例中隨機(jī)選擇間諜樣本的機(jī)制極易造成劃分可靠負(fù)例時(shí)效率低下,針對(duì)這些問題提出一種結(jié)合新型間諜技術(shù)和半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)框架。首先,該框架對(duì)初始有標(biāo)記樣本進(jìn)行聚類并選取離聚類中心較近的樣本來取代間諜樣本,這些樣本能有效地映射出無標(biāo)記樣本的分布結(jié)構(gòu),從而更好地輔助選取可靠負(fù)例;然后對(duì)間諜技術(shù)劃分后的可靠正例進(jìn)行自訓(xùn)練提純,采用二次訓(xùn)練的方式取回被誤分為正例樣本的可靠負(fù)例。該框架有效地解決了傳統(tǒng)間諜技術(shù)在PU學(xué)習(xí)中分類效率易受數(shù)據(jù)分布干擾以及隨機(jī)間諜樣本影響的問題。通過9個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的仿真實(shí)驗(yàn)結(jié)果表明,所提框架的平均分類準(zhǔn)確率和F-值均高于基本PU學(xué)習(xí)算法(Basic_PU)、基于間諜技術(shù)的PU學(xué)習(xí)算法(SPY)、基于樸素貝葉斯的自訓(xùn)練PU學(xué)習(xí)算法(NBST)和基于迭代剪枝的PU學(xué)習(xí)算法(Pruning)。
關(guān)鍵詞:正例無標(biāo)記學(xué)習(xí);間諜技術(shù);半監(jiān)督自訓(xùn)練;聚類;可靠負(fù)例;可靠正例
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)志碼:A
Abstract: Spy technology in Positive and Unlabeled (PU) learning is easily susceptible to noise and outliers, which leads to the impurity of reliable positive instances, and the mechanism of selecting spy instances in the initial positive instances randomly tends to cause inefficiency in dividing reliable negative instances. To solve these problems, a PU learning framework combining new spy technology and semi-supervised self-training was proposed. Firstly, the initial labeled instances were clustered and the instances closer to the cluster center were selected to replace the spy instances. These instances were able to map the distribution structure of unlabeled instances effectively, so as to better assist to the selection of reliable negative instances. Then, the reliable positive instances divided by spy technology were purified by self-training, and the reliable negative instances which were divided as positive instances mistakenly were corrected by secondary training. The proposed framework can solve the problem of PU learning that the classification efficiency of traditional spy technology is susceptible to data distribution and random spy instances. The experiments on nine standard data sets show that the average classification accuracy and F-measure of the proposed framework are higher? than those of Basic PU-learning algorithm (Basic_PU), PU-learning algorithm based on spy technology (SPY), Self-Training PU learning algorithm based on Naive Bayes (NBST) and Iterative pruning based PU learning (Pruning) algorithm.
Key words: Positive and Unlabeled (PU) learning; spy technology; semi-supervised self-training; clustering; reliable negative instance; reliable positive instance
0 引言
正例無標(biāo)記(Positive and Unlabeled, PU)學(xué)習(xí)是指訓(xùn)練集在僅含正例樣本和無標(biāo)記樣本的情況下訓(xùn)練分類器的過程[1-2]。從正例樣本和無標(biāo)記樣本中學(xué)習(xí)分類器是實(shí)際應(yīng)用中一類重要的分類問題,常見于在用戶提供的大量數(shù)據(jù)中檢索相似樣本、網(wǎng)絡(luò)評(píng)論中的欺騙性意見檢測(cè)以及醫(yī)療行業(yè)中疾病基因預(yù)測(cè)等領(lǐng)域[3-4]。
PU學(xué)習(xí)的特點(diǎn)是初始有標(biāo)記樣本中沒有已標(biāo)注的負(fù)例樣本,常見的監(jiān)督學(xué)習(xí)或者半監(jiān)督學(xué)習(xí)方法在這樣的場(chǎng)景中往往失效[5]。近年來已有學(xué)者展開了相應(yīng)的研究,即通過找出無標(biāo)記樣本中的可靠負(fù)例來擴(kuò)充初始有標(biāo)記樣本集,進(jìn)而在重新初始化后的標(biāo)記樣本集上訓(xùn)練分類器對(duì)無標(biāo)記樣本進(jìn)行分類,但該方法得出的可靠負(fù)例往往包含較多被誤分為負(fù)例的正例樣本[6]。對(duì)此,Villatoro-Tello等[7]通過選出無標(biāo)記樣本集中分布較好的負(fù)例樣本迭代添加到初始已標(biāo)記樣本集中的訓(xùn)練分類器,降低了算法對(duì)已標(biāo)記樣本中噪聲的敏感性,有效地選出了無標(biāo)記樣本中的可靠負(fù)例,并成功地將該方法運(yùn)用于文本分類領(lǐng)域。Han等[8]進(jìn)一步研究發(fā)現(xiàn),在選出無標(biāo)記樣本中可靠負(fù)例的同時(shí),也可以對(duì)應(yīng)選出無標(biāo)記樣本中的可靠正例,由此提出了一種基于聚類提取可靠正負(fù)例樣本的方法,并用加權(quán)極值學(xué)習(xí)機(jī)對(duì)分類器進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地對(duì)僅含正樣本和無標(biāo)記樣本的不確定數(shù)據(jù)流進(jìn)行分類。以上方法都是在重新初始化后的已標(biāo)記樣本集上訓(xùn)練分類器,但重新初始化后的已標(biāo)記樣本集中正例樣本是絕對(duì)可靠的,而負(fù)例樣本則是相對(duì)可靠的,初始化強(qiáng)烈傾向于正例樣本,這在一定程度上影響了算法的分類效果。
第10期
李婷婷等:基于新型間諜技術(shù)的半監(jiān)督自訓(xùn)練正例無標(biāo)記學(xué)習(xí)
計(jì)算機(jī)應(yīng)用 第39卷
為了解決PU學(xué)習(xí)中重新初始化后的標(biāo)記樣本強(qiáng)烈傾向于正例的問題,Zeng等[9]采用一種能平衡傾向性的間諜技術(shù)來重新初始化標(biāo)記樣本,該技術(shù)通過將初始正例中部分樣本看作間諜樣本發(fā)送到無標(biāo)記樣本中,通過間諜樣本推斷出無標(biāo)記樣本中未知正例的行為,同時(shí)有效地選出了可靠負(fù)例。文獻(xiàn)[10]將間諜技術(shù)應(yīng)用于移動(dòng)互聯(lián)網(wǎng)流量數(shù)據(jù)的用戶行為分析上,提出了基于二分網(wǎng)絡(luò)特征的PU學(xué)習(xí)方法用于用戶行為分類和預(yù)測(cè),利用實(shí)際的QQ流量數(shù)據(jù)和移動(dòng)視頻流量數(shù)據(jù)驗(yàn)證了該方法的有效性。類似地,文獻(xiàn)[11]描述了現(xiàn)實(shí)獲取的數(shù)據(jù)只包含少量已知的被攻擊的統(tǒng)一資源定位符(Uniform Resource Locator, URL)和大量未標(biāo)記實(shí)例,文中將此形式化為PU問題。
通過將間諜技術(shù)與成本敏感策略相結(jié)合,提出一種基于間諜技術(shù)的PU學(xué)習(xí)算法(PU learning algorithm based on spy technology, SPY),用于檢測(cè)潛在URL攻擊。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地發(fā)現(xiàn)潛在的URL攻擊。張璞等[12]提出了一種基于間諜技術(shù)的PU學(xué)習(xí)的建議語句分類方法,該方法為了降低特征維度、緩解數(shù)據(jù)稀疏性,在自編碼神經(jīng)網(wǎng)絡(luò)特征空間中使用間諜技術(shù)劃分可靠反例無標(biāo)注樣例進(jìn)行分類。由此可見,嵌入間諜技術(shù)的PU學(xué)習(xí)方法有效地平衡了初始正負(fù)例樣本,使其在分類過程中具有更好的泛化性,從而更好地對(duì)無標(biāo)記樣本進(jìn)行分類。
然而,傳統(tǒng)間諜技術(shù)極易受噪聲和離群點(diǎn)干擾,分類過程中很少考慮到劃分結(jié)果的純凈度問題,且隨機(jī)選擇間諜樣本的機(jī)制也給分類結(jié)果帶來一定的不穩(wěn)定性。本文鑒于半監(jiān)督自訓(xùn)練方法可以迭代選取高質(zhì)量無標(biāo)記樣本對(duì)分類器進(jìn)行更新,更新后的分類器能產(chǎn)生更精準(zhǔn)的分類效果,從而提出了間諜技術(shù)結(jié)合半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法(PU learning method combining spy technology and semi-supervised Self-Training, SPYST),
SPYST通過將間諜技術(shù)的分類結(jié)果用半監(jiān)督自訓(xùn)練方法進(jìn)行二次提純?nèi)〉昧烁行У姆诸愋Ч?,但SPYST尚未解決間諜樣本選擇的隨機(jī)性帶來的分類誤差。因此,在SPYST的基礎(chǔ)上從數(shù)據(jù)的空間結(jié)構(gòu)出發(fā),將初始正例的空間結(jié)構(gòu)展露出來,然后挑選更具代表性的間諜樣本,進(jìn)一步提出了改進(jìn)間諜技術(shù)后結(jié)合半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法(Improved SPYST, ISPYST)。
本文的主要工作為:
1)對(duì)PU學(xué)習(xí)中間諜技術(shù)展開研究,結(jié)合自訓(xùn)練方法對(duì)間諜技術(shù)的粗糙分類結(jié)果進(jìn)行二次提純?,F(xiàn)有的國內(nèi)外文獻(xiàn)對(duì)間諜技術(shù)的研究主要集中于將該技術(shù)應(yīng)用于文本分類、網(wǎng)絡(luò)意見檢測(cè)等方面,極少對(duì)間諜技術(shù)分類結(jié)果的純凈度進(jìn)行研究。
2) 間諜技術(shù)中間諜樣本的隨機(jī)選取給分類結(jié)果帶來一定的不穩(wěn)定性,本文通過對(duì)初始正例的空間結(jié)構(gòu)進(jìn)行研究,選取了離聚類中心較近的樣本作為間諜樣本,這些樣本更具代表性,能更好地反映無標(biāo)記樣本中未知正例的行為方式。
1 相關(guān)工作
1.1 PU學(xué)習(xí)
PU學(xué)習(xí)是指在僅包含少量正例樣本和無標(biāo)記樣本中進(jìn)行分類的一種特殊半監(jiān)督學(xué)習(xí),常見的PU學(xué)習(xí)過程是把無標(biāo)記樣本全部看作負(fù)類結(jié)合初始正例構(gòu)造分類器再對(duì)無標(biāo)記樣本進(jìn)行分類,找出無標(biāo)記樣本中隱藏的可靠負(fù)例,進(jìn)而將可靠負(fù)例加入初始正例樣本重新初始化有標(biāo)記樣本集。分類過程如圖1所示,其中P表示初始正例樣本,U表示無標(biāo)記樣本,C表示分類器,RN表示可靠負(fù)例,P′表示劃分出的正例樣本,N′表示劃分出的負(fù)例樣本。但該方法獲得的標(biāo)記樣本中正例樣本是絕對(duì)可靠的,所包含的樣本信息也絕對(duì)準(zhǔn)確;而標(biāo)記樣本中負(fù)例樣本卻只是相對(duì)可靠,所包含的樣本信息的無法達(dá)到絕對(duì)真實(shí)。所以,重新初始化后的標(biāo)記樣本更傾向于正例樣本,在后續(xù)的分類過程中更利于無標(biāo)記樣本中未知正例的劃分,這就造成的分類結(jié)果的不平衡性。
1.2 基于間諜技術(shù)的PU學(xué)習(xí)
間諜技術(shù)是基于解決常見PU學(xué)習(xí)中重新初始化后標(biāo)記樣本強(qiáng)烈傾向于正例樣本而提出,該方法能有效地平衡初始化后標(biāo)記樣本的傾向性問題,同時(shí)輔助識(shí)別無標(biāo)記樣本中的可靠負(fù)例。間諜技術(shù)是指通過從初始有標(biāo)記樣本中隨機(jī)選出部分正例發(fā)送到無標(biāo)記樣本集,這些選出的正例樣本被稱之為間諜樣本,它與無標(biāo)記樣本中的未知正例樣本的行為是一致的,從而能夠可靠地對(duì)未知正例樣本行為進(jìn)行評(píng)估。混合間諜樣本的無標(biāo)記樣本集在分類算法訓(xùn)練完成后,根據(jù)間諜樣本的后驗(yàn)概率設(shè)置閾值θ,當(dāng)無標(biāo)記樣本屬于正類的概率小于θ時(shí),該樣本被視為可靠負(fù)例,其余樣本則被視為可靠正例[11]2599-2600。通過間諜技術(shù)劃分?jǐn)?shù)據(jù)類別的詳細(xì)算法過程如下。
1.3 半監(jiān)督自訓(xùn)練學(xué)習(xí)
半監(jiān)督自訓(xùn)練是指在無標(biāo)記樣本中選取高質(zhì)量樣本給初始標(biāo)記樣本學(xué)習(xí),底層分類器被重新訓(xùn)練,直至無標(biāo)記樣本被全部劃分。半監(jiān)督自訓(xùn)練算法在循環(huán)迭代的過程中,不斷更新分類器劃分無標(biāo)記樣本,使得無標(biāo)記樣本每一次都能在分類器狀態(tài)最好的情況下被提純,確保了無標(biāo)記樣本的分類準(zhǔn)確率[13-15]。半監(jiān)督自訓(xùn)練算法的一般流程如下:
輸入 初始有標(biāo)記樣本集L,初始無標(biāo)記樣本集U,底層分類器C,迭代次數(shù)f,用于選擇下一次迭代的無標(biāo)記樣本個(gè)數(shù)H,選擇度量M,選擇函數(shù)E(Uf,H,C,M),最大迭代次數(shù)Maxlteration。
2 本文算法
2.1 SPYST
2.1.1 算法思想
在初始數(shù)據(jù)集分布較好且無噪聲或離群點(diǎn)干擾的環(huán)境中使用間諜技術(shù)識(shí)別可靠負(fù)例和可靠正例能取得令人滿意的效果,然而,大多數(shù)真實(shí)的數(shù)據(jù)集都含有噪聲或離群點(diǎn),這樣的數(shù)據(jù)集通過傳統(tǒng)間諜技術(shù)分類變得不再可靠。原因是:間諜樣本中離群點(diǎn)的后驗(yàn)概率Pr(C1|st)可能比大多數(shù)甚至所有的實(shí)際的負(fù)例樣本要小得多。在這種情況下,通過間諜樣本的概率值Pr(C1|st)來確定閾值θ,就無法在召回間諜樣本的同時(shí)對(duì)無標(biāo)記樣本進(jìn)行有效分類,導(dǎo)致了選出的可靠正例往往不純,可靠負(fù)例過少甚至沒有。圖3表示在噪聲干擾的環(huán)境中的分類結(jié)果,其中C1代表在分類過程中被當(dāng)作正類的樣本集,C-1代表在分類過程中被當(dāng)作負(fù)類的樣本集。由圖3可知,在有噪聲或離群點(diǎn)的環(huán)境中通過間諜技術(shù)選出可靠負(fù)例時(shí)效率不高,得出的可靠正例包含較多被誤分為正類的負(fù)例樣本。所以,在數(shù)據(jù)分布較差的環(huán)境中用間諜技術(shù)進(jìn)行PU學(xué)習(xí)的方法變得不盡人意。
因此,本文提出了一種結(jié)合間諜技術(shù)與半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法SPYST。SPYST在間諜技術(shù)對(duì)無標(biāo)記樣本首次分類完成后,將RP看作新的無標(biāo)記樣本U′,并對(duì)新的無標(biāo)記樣本進(jìn)行自訓(xùn)練提純,此處選用穩(wěn)定性較強(qiáng)的樸素貝葉斯作為分類器。SPYST首先對(duì)新的無標(biāo)記樣本做樸素貝葉斯分類,然后將分類置信度從高到低排序,選出置信度較高的無標(biāo)記樣本及其相應(yīng)的類標(biāo)簽添加到初始正例樣本與RN的合集中,這主要是因?yàn)楦咧眯哦葮颖緮y帶更多有效分布信息,利于分類器的重新訓(xùn)練。循環(huán)迭代上述過程直至新的無標(biāo)記樣本被全部劃分完成。這也就達(dá)到了對(duì)間諜技術(shù)的粗糙分類結(jié)果進(jìn)行精細(xì)化提純的目的,從而得出了分類效率更高的PU學(xué)習(xí)框架。SPYST整體學(xué)習(xí)框架如圖4所示,其中P表示初始正例樣本,U表示無標(biāo)記樣本,S表示選出的間諜樣本,C表示樸素貝葉斯分類器,RN表示可靠負(fù)例,RP表示可靠正例,topf表示選出的前f個(gè)高置信度樣本。
2.2.1 算法思想
在SPYST算法流程的Step1中,通過隨機(jī)選取的機(jī)制選出了初始正例中的間諜樣本,但這種隨機(jī)性就可能導(dǎo)致間諜樣本處于類簇的邊界位置,如圖5所示,圖中圈出了初始正例中隨機(jī)選取的間諜樣本,并賦予間諜樣本1~11的編號(hào)。
從圖5可看出:編號(hào)為1和11的兩個(gè)間諜樣本對(duì)于初始正例集來說,屬于離群點(diǎn),而編號(hào)為3的間諜樣本屬于噪聲點(diǎn),這些間諜樣本與無標(biāo)記樣本中未知正例的空間結(jié)構(gòu)相似度較低,無法有效地對(duì)無標(biāo)記樣本的空間結(jié)構(gòu)進(jìn)行評(píng)估。在隨機(jī)選擇間諜樣本時(shí),若大量的噪聲或離群點(diǎn)被選作間諜樣本,會(huì)極大地影響分類器對(duì)無標(biāo)記樣本的評(píng)估,這種隨機(jī)選擇的機(jī)制直接導(dǎo)致了分類效率的降低。
因此,本文在算法SPYST的基礎(chǔ)上提出了一種結(jié)合改進(jìn)的間諜技術(shù)與自訓(xùn)練方法的PU學(xué)習(xí)算法ISPYST,有效地降低間諜樣本的隨機(jī)性帶來的分類誤差。ISPYST通過挖掘出初始正例樣本的空間分布信息來改進(jìn)SPYST算法,在把握空間結(jié)構(gòu)的基礎(chǔ)上計(jì)算正例樣本的聚類中心,并找出距離聚類中心較近的樣本作為間諜樣本。這些樣本在空間結(jié)構(gòu)上離聚類中心更近,所包含正例樣本的真實(shí)信息量也更大,當(dāng)這樣的樣本被選作間諜樣本時(shí),更能有效地體現(xiàn)無標(biāo)記樣本中未知正例的分布情況。在此,本文選用了簡(jiǎn)單實(shí)用且收斂速度較快的K-Means聚類算法對(duì)初始正例進(jìn)行聚類,K-Means算法的思想很簡(jiǎn)單,對(duì)于給定的樣本集X,按照樣本之間的距離大小,將樣本集劃分為K個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密地連在一起,而讓簇間的距離盡量地大,將離聚類中心較近的正例樣本選作間諜樣本[16]。
2.2.2 ISPYST算法流程
ISPYST僅對(duì)SPYST算法流程的Step 1進(jìn)行替換,即ISPYST通過找出初始正例集上離聚類中心較近的樣本代替?zhèn)鹘y(tǒng)隨機(jī)選擇的間諜樣本,而SPYST其余步驟Step2至Step16不變,替換完成后形成新算法ISPYST。具體替換步驟如下:
3 仿真實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)說明
為了驗(yàn)證算法SPYST以及ISPYST的有效性,選用以下算法進(jìn)行對(duì)比實(shí)驗(yàn):
1)基本PU學(xué)習(xí)算法(Basic PU-learning algorithm, Basic_PU)。
2)基于間諜技術(shù)的PU學(xué)習(xí)算法(SPY)[11]2600。
3)基于樸素貝葉斯的自訓(xùn)練PU學(xué)習(xí)算法(Self-Training PU learning algorithm based on Naive Bayes, NBST)。
4)基于迭代剪枝的PU學(xué)習(xí)(iterative Pruning based PU learning, Pruning)[17]。
對(duì)比實(shí)驗(yàn)所用數(shù)據(jù)集來自于UCI和Kaggle數(shù)據(jù)庫,總共選用9組二分類數(shù)據(jù)進(jìn)行實(shí)驗(yàn)說明,數(shù)據(jù)集名稱、規(guī)模以及屬性數(shù)見表1。
實(shí)驗(yàn)過程中,把數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和測(cè)試集兩部分,其中訓(xùn)練集占80%,測(cè)試集占20%。首先選出訓(xùn)練集中20%的正例樣本作為初始有標(biāo)記樣本,然后將剩余80%的正例樣本以及訓(xùn)練集中全部的負(fù)例樣本除去標(biāo)簽后作為無標(biāo)記樣本集。所有算法重復(fù)實(shí)驗(yàn)50次,以平均分類準(zhǔn)確率以及F-值作為算法性能評(píng)價(jià)指標(biāo)。
3.2 實(shí)驗(yàn)結(jié)果及分析
為了證明本文算法較傳統(tǒng)間諜技術(shù)的分類性能有所提升,設(shè)置了如表2 所示的實(shí)驗(yàn)。表2顯示了當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%,且間諜樣本占初始正例的15%時(shí),本文算法與傳統(tǒng)間諜技術(shù)的分類效果提升率。
由表2可知,改進(jìn)后的算法SPYST對(duì)比傳統(tǒng)的間諜技術(shù)在進(jìn)行PU學(xué)習(xí)的過程中整體上具有更好的分類性能。傳統(tǒng)的間諜技術(shù)在數(shù)據(jù)集Somerville Happiness Survey和Vertebral Column上分類效果極其異常,說明SPY根本無法在這樣的數(shù)據(jù)集上做PU分類。通過分析得知這兩組數(shù)據(jù)集初始分布不均勻,且其中包含大量噪聲和離群點(diǎn),而SPY對(duì)噪聲和離群點(diǎn)異常敏感,且SPY在初始正例過少的情況下極難捕捉有效信息,導(dǎo)致了該方法分類效率低下。本文所提算法SPYST通過對(duì)SPY的分類結(jié)果做深度自訓(xùn)練,不斷迭代提純可靠正例,從而取得了更高的分類效率。由于SPYST采用隨機(jī)選取間諜樣本的機(jī)制,導(dǎo)致分類結(jié)果存在一定的不穩(wěn)定性,針對(duì)這一問題,本文提出了改進(jìn)后的算法ISPYST,該方法基于初始正例的空間結(jié)構(gòu)選取最具代表性的正例作間諜樣本,有效地減小了隨機(jī)性帶來的分類誤差,從而提高了分類效率。從表2可以看出,ISPYST的分類效果在SPYST的基礎(chǔ)上整體得到了進(jìn)一步的提升。而在數(shù)據(jù)集Banknote authentication上,算法ISPYST的分類提升率相對(duì)低于算法SPYST,這是因?yàn)樵摂?shù)據(jù)集的數(shù)據(jù)分布過于集中,導(dǎo)致選出的間諜樣本結(jié)構(gòu)極其相似,所含的樣本信息不能很好地對(duì)無標(biāo)記樣本中的未知正例進(jìn)行評(píng)估。因此,算法ISPYST在空間分布過于密集的數(shù)據(jù)集上還存在一定的局限性。為了進(jìn)一步驗(yàn)證本文所提算法SPYST與ISPYST的有效性,表3給出了當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%,且間諜樣本占初始正例的15%時(shí),本文算法與4組對(duì)比算法的實(shí)驗(yàn)結(jié)果。
從表3可看出,當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%時(shí),本文所提算法SPYST與ISPYST整體性能均優(yōu)于對(duì)比算法。在數(shù)據(jù)集Somerville Happiness Survey、Balance Scale、Vertebral Column以及Habermans Survival上有較好的體現(xiàn),這主要是因?yàn)檫@四個(gè)數(shù)據(jù)集初始分布太差,對(duì)比算法易受噪聲干擾,無法有效地利用少量初始正例中的有用信息,導(dǎo)致分類誤判率過高;而SPYST通過對(duì)間諜技術(shù)的分類結(jié)果進(jìn)行再次的精細(xì)化提純,得出了更好的分類效果;ISPYST在SPYST的基礎(chǔ)上對(duì)初始正例樣本的空間結(jié)構(gòu)做深入剖析,選出更具代表性的間諜樣本,使得SPYST的分類效果得以進(jìn)一步提升。在數(shù)據(jù)集Breast Cancer Wisconsin Prognostic(wdbc)和Electrical Grid Stability Simulated上,本文算法和對(duì)比算法分類效果整體相差不大,這是因?yàn)檫@兩組數(shù)據(jù)集原始分布較為均勻,沒有噪聲和離群點(diǎn)的干擾,本文算法在這樣的數(shù)據(jù)集上進(jìn)行分類時(shí),提升效果不明顯。
為了說明初始正例樣本占比對(duì)各個(gè)算法的影響,圖6通過逐步提高初始正例樣本的占比進(jìn)行分類實(shí)驗(yàn),得出不同算法在初始樣本數(shù)量不同情況下的準(zhǔn)確率。從圖6可看出,本文所提算法SPYST與ISPYST分類準(zhǔn)確率整體上高于對(duì)比算法,尤其是在Wholesale customers、Somerville Happiness Survey、Vertebral Column、Habermans Survival、 pima以及Banknote authentication這6個(gè)數(shù)據(jù)集上,本文算法在初始正例占比極小的情況下相對(duì)于對(duì)比算法有較好的分類性能。這是因?yàn)镾PYST對(duì)間諜技術(shù)的粗糙分類結(jié)果進(jìn)行自訓(xùn)練加工,能得到更高的分類準(zhǔn)確率。此外,ISPYST將少量初始正例的空間結(jié)構(gòu)清晰地展示出來,選出了最能體現(xiàn)無標(biāo)記樣本中未知正例行為的樣本作為間諜樣本,解決了傳統(tǒng)間諜技術(shù)隨機(jī)選擇間諜樣本所帶來的分類誤差。而隨著初始正例占比的不斷增加,本文所提算法的分類優(yōu)勢(shì)逐漸減弱,在數(shù)據(jù)集Breast Cancer Wisconsin Origina、Electrical Grid Stability Simulated、 pima以及Habermans Survival上表現(xiàn)得尤為明顯,這主要是因?yàn)樵诔跏颊銐蚨嗟那闆r下,樣本包含的有用信息更全面,所有算法都能有效地捕捉樣本信息,從而達(dá)到較好的分類效果。SPYST與ISPYST傾向于在初始正例極其缺失的情況下做PU學(xué)習(xí),當(dāng)初始正例較多的情況下,本文所提算法并不占優(yōu)勢(shì),甚至可能處于劣勢(shì)。在數(shù)據(jù)集Banknote authentication上,改進(jìn)后的算法ISPYST比SPYST分類效果差,這是因?yàn)樵摂?shù)據(jù)集的原始數(shù)據(jù)分布過于密集,在找出離聚類中心較近的樣本作間諜樣本時(shí),間諜樣本相互之間的區(qū)分度并不明顯,導(dǎo)致間諜樣本無法有效地提取無標(biāo)記樣本中正例樣本的信息。算法ISPYST在空間分布過于密集的數(shù)據(jù)集上進(jìn)行PU學(xué)習(xí)時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象,降低了算法的分類性能。
4 結(jié)語
針對(duì)PU學(xué)習(xí)方法在初始正例過少的環(huán)境中難以有效地獲取樣本空間結(jié)構(gòu)信息,且傳統(tǒng)間諜技術(shù)易受噪聲和離群點(diǎn)干擾,導(dǎo)致劃分可靠負(fù)例時(shí)效率不高、得出的可靠正例不純等問題,提出了兩種學(xué)習(xí)框架,即間諜技術(shù)結(jié)合自訓(xùn)練的PU學(xué)習(xí)方法(SPYST)以及改進(jìn)間諜技術(shù)后結(jié)合自訓(xùn)練的PU學(xué)習(xí)方法(ISPYST)。SPYST通過對(duì)間諜技術(shù)的分類結(jié)果進(jìn)行二次訓(xùn)練,選取高置信度樣本加入已標(biāo)記樣本集迭代自訓(xùn)練,解決了部分樣本被誤標(biāo)記的問題;ISPYST在SPYST的基礎(chǔ)上利用初始正例空間結(jié)構(gòu)所包含的潛在信息,選出距離簇中心較近的樣本作為間諜樣本,這些間諜樣本更能體現(xiàn)正例的行為特征,從而有效地劃分出可靠正例與可靠負(fù)例。在9組標(biāo)準(zhǔn)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)證實(shí)了本文所提算法在僅含少量初始正例的環(huán)境中也能捕獲全面的數(shù)據(jù)分布信息,進(jìn)而得出更好的分類效果。但本文算法在數(shù)據(jù)分布過于密集的數(shù)據(jù)集上還存在一定的局限性,因此,在后續(xù)工作中,將討論如何通過挖掘數(shù)據(jù)集原始分布特征來獲取有用信息,從而選出可靠負(fù)例來擴(kuò)充初始有標(biāo)記樣本集,進(jìn)而提高PU學(xué)習(xí)的分類性能。
參考文獻(xiàn)(References)
[1] du PLESSIS M C, NIU G, SUGIYAMA M. Class-prior estimation for learning from positive and unlabeled data[J]. Machine Learning, 2017, 106(4): 463-492.
[2] SANSONE E, de NATALE F G B, ZHOU Z. Efficient training for positive unlabeled learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 38(7): 99-113.
[3] NIKDELFAZ O, JALILI S. Disease genes prediction by HMM based PU-learning using gene expression profiles[J]. Journal of Biomedical Informatics, 2018, 81: 102-111.
[4] FREY N C, WANG J, BELLIDO G I V, et al. Prediction of synthesis of 2D metal carbides and nitrides (MXenes) and their precursors with positive and unlabeled machine learning [J]. ACS Nano, 2019, 13(3): 3031-3041.
[5] 甘洪嘯. 基于PU學(xué)習(xí)和貝葉斯網(wǎng)的不確定數(shù)據(jù)分類研究[D]. 咸陽: 西北農(nóng)林科技大學(xué), 2017: 1-61. (GAN H X. Research on uncertain data classification based on PU learning and Bayesian network[D]. Xianyang: Northwest A & F University, 2017: 1-61.)
[6] WU Z, CAO J, WANG Y, et al. hPSD: a hybrid PU-learning-based spammer detection model for product reviews[J]. IEEE Transactions on Cybernetics, 2018(99): 1-12.
[7] VILLATORO-TELLO E, ANGUIANO E, MONTES-Y-GMEZ M, et al. Enhancing semi-supevised text classification using document summaries[C]// Proceedings of the 2016 Ibero-American Conference on Artificial Intelligence, LNCS 10022. Berlin: Springer, 2016: 115-126.
[8] HAN D, LI S, WEI F, et al. Two birds with one stone: classifying positive and unlabeled examples on uncertain data streams[J]. Neurocomputing, 2018, 277: 149-160.
[9] ZENG X, LIAO Y, LIU Y, et al. Prediction and validation of disease genes using HeteSim scores[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 14(3): 687-695.
[10] YU K, LIU Y, QIN L, et al. Positive and unlabeled learning for user behavior analysis based on mobile Internet traffic data[J]. IEEE Access, 2018, 6: 37568-37580.
[11] ZHANG Y, LI L, ZHOU J, et al. POSTER: a PU learning based system for potential malicious URL detection[C]// Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2017: 2599-2601.
[12] 張璞, 劉暢, 李逍. 基于PU學(xué)習(xí)的建議語句分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(3): 639-643. (ZHANG P, LIU C, LI X. Suggestion sentence classification method based on PU learning[J]. Journal of Computer Applications, 2019, 39(3): 639-643.)
[13] JUN N L, QING S Z. Semi-Supervised self-training method based on an optimum-path forest[J]. IEEE Access, 2019, 7(1): 2169-3536.
[14] TANHA J, van SOMEREN M, AFSARMANESH H. Semi-supervised self-training for decision tree classifiers[J]. International Journal of Machine Learning & Cybernetics, 2017, 8(1): 355-370.
[15] 羅云松, 呂佳. 結(jié)合密度峰值優(yōu)化模糊聚類的自訓(xùn)練方法[J]. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 36(2): 96-102. (LUO Y S, LYU J. Self-training algorithm combined with density peak optimization fuzzy clustering[J]. Journal of Chongqing Normal University (Natural Science Edition), 2019, 36(2): 96-102.)
[16] CAP M, PREZ A, LOZANO J A. An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems, 2017, 117: 56-69.
[17] FUSILIER D H, MONTES-Y-GMEZ M, ROSSO P, et al. Detecting positive and negative deceptive opinions using PU-learning[J]. Information Processing & Management, 2015, 51(4): 433-443.