基于SVM 的遷移學習方法在互聯(lián)網金融網頁分類中的應用*

2023-09-12 09:01:10謝林燕劉紀偉

通信技術 2023年7期

謝林燕，劉紀偉，張玉，張峰

（國家計算機網絡應急技術處理協(xié)調中心河北分中心，河北石家莊 050021）

0 引言

互聯(lián)網技術迅速發(fā)展，互聯(lián)網金融作為一種新生的金融形式逐漸發(fā)展起來。互聯(lián)網金融網頁的業(yè)態(tài)識別是互聯(lián)網金融監(jiān)測預警與風險防范的核心基礎。然而在實際中頻繁出現(xiàn)新興金融業(yè)態(tài)，相關網頁數量較少，其中只有少量的網頁經過人工標注。面對當前新興互聯(lián)網金融業(yè)態(tài)網頁訓練樣本過少的情況，如何實現(xiàn)對互聯(lián)網金融網頁的高效業(yè)態(tài)判定成為關注熱點。

網頁分類主要立足于文本分類，機器學習是網頁分類的一種常見方法，集中體現(xiàn)在網頁的特征選取、數據的特征表達上。文獻[1]提出了一種基于樸素貝葉斯協(xié)調分類器綜合網頁結構信息及內容文本的分類方法，通過組合分類器的方法，使分類性能得到了一定程度的提高。文獻[2]主要采用卷積神經網絡（Convolutional Neural Networks，CNN）進行文本分類，提出用于句子分類的單卷積層的卷積神經網絡（Text CNN），利用多個大小不同的卷積核來并行地提取不同的 n-gram 信息，然后對其進行最大池化（Max Pooling）操作提取重要的特征，從而完成分類。文獻[3]提出了循環(huán)卷積神經網絡（Recurrent Convolutional Neural Network，RCNN）模型，有效解決了固定窗口的卷積操作使得每一個詞向量的上下文受限的問題，實驗證明該模型在文本分類中普遍優(yōu)于單獨的循環(huán)神經網絡（Recurrent Neural Network，RNN）或CNN 模型。文獻[4]設計了基于深度學習的高效網頁分類算法框架，利用深度神經網絡，搭建了一種多通道輸入、復合特征抽取結構的分類模型，有效地提高了網頁分類的準確率。

深度學習的優(yōu)勢主要依賴于其大數據的提取能力，在樣本量足夠的情況下，深度學習往往可以取得較好的效果。然而對于互聯(lián)網金融網頁來說，數據量不足會導致模型出現(xiàn)過擬合的問題。因此，針對小數據集的小樣本學習技術是解決互聯(lián)網金融網頁分類問題的關鍵。文獻[5]通過對傳統(tǒng)支持向量機（Support Vector Machine，SVM）算法模型進行調整，引入新的參數控制模型超平面的位置，以緩解正負樣本不平衡對分類準確率的影響。文獻[6]提出基于主動學習的半監(jiān)督支持向量機學習算法，以少量的有標記數據來訓練初始學習器，通過主動學習策略來選擇最佳訓練樣本，并通過刪除非支持向量來降低學習代價，獲得較好的學習效果。文獻[7]提出了一種基于遷移學習與權重支持向量機的圖像自動標注方法，解決了所選數據集規(guī)模較小，無法訓練出最優(yōu)的卷積神經網絡的問題。文獻[8]基于遷移學習算法對SVM 模型進行優(yōu)化（Transferlearning-Support Vector Machine，TLSVM），通過使用目標域少量已標記數據和大量相關領域的舊數據來為目標域構建一個高質量的分類模型。

關于小樣本學習，目前常用的有基于數據增強和基于遷移學習的方法。基于數據增強的方法，主要是利用輔助數據集或者輔助信息增強目標數據集中樣本的特征，或者擴充目標數據集，使模型能夠更好地提取特征[9]?；谶w移學習的方法，主要是運用已存有的知識對不同但相關的領域問題進行求解的一種新的機器學習方法。它放寬了傳統(tǒng)機器學習中的兩個基本假設，目的是遷移已有的知識來解決目標領域中僅有少量有標簽樣本數據甚至沒有的學習問題[10]。

通過上述分析，為了準確、快速地對互聯(lián)網金融網頁業(yè)態(tài)進行識別，本文在遷移學習和數據增強方法的基礎上，通過調整超平面位置改進SVM算法，實現(xiàn)對小數據集的訓練與檢測。實驗結果表明，本文提出的基于超平面位置調優(yōu)SVM 的遷移學習算法對于互聯(lián)網金融網頁業(yè)態(tài)識別具有較好的分類效果，能夠有效檢測出已知業(yè)態(tài)的金融網頁，從而加強對各類金融網頁的關注，強化風險防范，促進互聯(lián)網金融發(fā)展。

1 TL-SVM

SVM 是Corinna Cortes 和Vapnik 等人[11]于1995 年提出的，主要用來解決小樣本、非線性及高維模式的識別。該方法是以統(tǒng)計學習理論（Statistical Learning Theory，SLT）[12]的VC 維理論和結構風險最小原理為基礎建立起來的，其本身的優(yōu)化目標并非經驗風險最小，而是結構化風險最小，根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳的折衷方案，以期獲得最好的推廣泛化能力[13]。

文獻[8]提出的TL-SVM 算法的核心理論是：若兩領域相關，則其各自分類器的ω值應相近，因此在SVM 目標式中增加遷移項μ||ωt-ωs||2。

式中：C為懲罰因子，代表算法對于分類錯誤樣本的容忍程度；代表第i個樣本的分類損失。

該算法在目標領域訓練分類模型時引入了源領域知識ωs，在目標函數構建的過程中利用源領域和目標領域知識最接近的遷移學習項，實現(xiàn)有效遷移學習。然而，當源領域和目標領域相關性較小時，則會出現(xiàn)負遷移現(xiàn)象，即遷移過程完成后實現(xiàn)的分類效果差于僅利用目標領域已標記數據的監(jiān)督分類效果。

2 基于超平面位置調優(yōu)SVM 的遷移學習算法

2.1 數據增強

數據增強[14]（Data Augmentation，DA）改善了深度學習中數據不足的場景，在不實質性地增加數據的情況下，讓有限的數據產生等價于更多數據的價值。其原理是，通過對原始數據融入先驗知識，加工出更多數據的表示，有助于模型判別數據中的統(tǒng)計噪聲，減少模型過擬合。其主要的方向是增加訓練數據的多樣性，從而提高模型泛化能力。小樣本學習的主要問題是樣本量過少，從而導致樣本多樣性不足以刻畫完整樣本分布，可以通過樣本增強來提升樣本多樣性?；跀祿鰪姷姆椒ㄊ抢幂o助數據集或者輔助信息對目標數據集進行數據擴充或特征增強，使模型能更好擬合。數據擴充可以是無標簽或者合成帶標簽數據；特征增強是在原樣本的特征空間中添加便于分類的特征，增加特征多樣性，從而降低樣本間的不均衡性，提高模型的泛化能力，使模型的魯棒性更高。

在樣本少、分布不均衡的情況下，可以通過數據增強[15]擴充訓練數據的量，降低樣本間的不均衡性，提高模型的泛化能力，使模型的魯棒性更高。數據增強技術包括回譯（Back Translation）、隨機詞替換、非核心詞替換、基于上下文信息的數據增強和基于語言生成模型的數據增強5 種經典方案。其中，基于隨機詞替換的數據增強方法類似于圖像增強技術中的隨機裁剪、圖像縮放，通常是隨機地選擇文本中一定比例的詞，對其進行同義詞替換、刪除等簡單操作。本文采用基于隨機詞替換的簡單數據增強（Easy Data Augmentation，EDA）[15]文本增強方法實現(xiàn)數據增強，主要包含以下4 種操作：

（1）同義詞替換（Synonym Replacement，SR）：從句子中隨機選擇非停用詞，用隨機選擇的同義詞替換這些單詞。

（2）隨機插入（Random Insertion，RI）：隨機找出句子中某個不屬于停用詞集的詞，并求出其隨機的同義詞，將該同義詞插入句子的一個隨機位置，重復n次。

（3）隨機交換（Random Swap，RS）：隨機選擇句子中兩個單詞并交換它們的位置，重復n次。

（4）隨機刪除（Random Deletion，RD）：以概率p隨機刪除句子中某個單詞。

2.2 基于超平面位置優(yōu)化SVM 的遷移學習算法

由于標記樣本數量不足，因此在模型訓練過程中可提供的有效信息不均衡，同時，基于SVM 算法的分類，在樣本數量少、無法準確預估負類樣本存在空間的情況下，引入參數主動調整分類超平面的位置，使其靠近正類樣本，為負類樣本預留較大的存在空間，以此提高分類的準確率?；诔矫嫖恢脙?yōu)化SVM 的遷移學習算法實現(xiàn)了領域間參數的遷移，原理如圖1 所示，其優(yōu)化目標函數的表達式為：

圖1 基于超平面位置優(yōu)化SVM 的遷移學習算法檢測流程

式中：調整超平面的程度通過參數λ進行控制，若λ較大，則源領域和目標領域的分類超平面非常接近；若λ較小，則源領域和目標領域的分類超平面相對獨立。

對于優(yōu)化目標函數，列出如下說明：

（1）式（2）中前兩項分別表示目標領域數據的結構風險項和經驗風險項。

（2）||ωt-ωs||2表示目標領域與源領域的差異程度，數值越大表示分類器之間的差異越大，反之表示二者相似，μ為協(xié)調系數。

式中：α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T為拉格朗日系數。

依據KKT[16]（Karush-Kuhn-Tucker）條件，對ωt，和bt求偏導數，推導如下：

將式（4）、式（5）代入式（3），化簡后可得對偶問題形式如下：

2.3 基于超平面位置調優(yōu)SVM 的遷移學習算法流程

（2）利用二次規(guī)劃原理求得目標域拉格朗日系數αt=(α1,α2,…,αn)T；

（3）根據式（4）求得決策超平面法向量ωt；

（5）構建劃分超平面ωtxt+bt=0，輸出分類決策函數

綜上，基于超平面位置優(yōu)化SVM 的遷移學習算法檢測流程如圖1 所示。

3 實驗與分析

為評價驗證基于超平面位置調優(yōu)SVM 的遷移學習算法在互聯(lián)網金融網頁業(yè)態(tài)分類中的效果，實驗采用從互聯(lián)網收集到的金融網頁為評測數據集，該數據集包含451 個互聯(lián)網金融網頁，涉及4 個金融業(yè)態(tài)下的8 個金融子業(yè)態(tài)，表1 為金融業(yè)態(tài)與相關網頁的數量。每兩個金融業(yè)態(tài)分別作為正樣本和負樣本，基于子業(yè)態(tài)進行檢測，學習任務的具體情況如表2 所示。在目標領域選取源領域訓練集數量的20%作為目標領域的訓練集，構成遷移學習任務。實驗主要從非遷移、遷移和基于超平面位置調優(yōu)SVM 的遷移3 個角度來進行，從而展現(xiàn)所提分類算法的優(yōu)勢。

表1 金融業(yè)態(tài)與相關網頁數量

表2 學習任務具體情況

3.1 評價指標

本文采用正確率（Precision）、召回率（Recall）和綜合指標F1-指數（F1）來評測互聯(lián)網金融網頁檢測的性能。其中，正確率P表示返回結果中正確的比例，召回率R表示所有正確結果中返回的比例。在檢測結果中，如表3 所示，假設檢測到的互聯(lián)網金融網頁中，相關網頁的數量為a，不相關網頁的數量為b；在未檢測到的互聯(lián)網金融網頁中，相關網頁的數量為c，不相關網頁的數量為d。

表3 評價指標

其中，測試數據中與金融業(yè)態(tài)相關的互聯(lián)網金融網頁數目為a+c，不相關的互聯(lián)網金融網頁數目為b+d。檢測結果中，判定與金融業(yè)態(tài)相關的互聯(lián)網金融網頁數目為a+b，不相關的互聯(lián)網金融網頁數目為c+d。關于實驗中的數據集，源領域和目標領域的樣本均為已標記信息，但目標領域樣本的標記信息僅用于評價各算法的分類性能。正確率P、召回率R和綜合指標F1 的計算方法如下：

3.2 實驗設計與結果分析

本文將各類業(yè)態(tài)互聯(lián)網金融網頁按照test_size=0.5，劃分為訓練集和測試集。同時，按照目標域訓練樣本總數20%的比例，選取目標域中的數據集作為目標域訓練集，剩余為目標領域測試集，實現(xiàn)遷移學習。

本文實驗中所有算法的最優(yōu)參數均通過網格搜索的方式來確定。其中懲罰因子Ct，μ的選取參照文獻[8]的設定策略，即因目標域參與訓練的樣本數量少，應盡量保證分類的正確性，因此Ct在（0.01,0.05,0.1,0.5,1,5,10,20,50）中選最優(yōu)；μ在（0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1）中選最優(yōu)。

通過超平面位置調整參數λ，實現(xiàn)對超平面的最優(yōu)位置的選定，從而實現(xiàn)對互聯(lián)網金融網頁業(yè)態(tài)識別的準確度。實驗采用本文提出的基于超平面位置優(yōu)化SVM 的遷移學習算法，通過調整λ的值，確定超平面位置對互聯(lián)網金融網頁業(yè)態(tài)分類的影響情況。由于本文主要針對小數據集的小樣本學習，考慮到提高數據分類的正確率便于后續(xù)分類模型的優(yōu)化，若λ較大，則源領域和目標領域的分類超平面非常接近，出現(xiàn)誤報的概率增大；若λ較小，則源領域和目標領域的分類超平面相對獨立，可有效保證分類的正確率。為保證超平面位置向正類樣本靠近，為負類樣本留出更大的存在可能性空間，λ的取值范圍為(0,1)。

本文實驗采用源領域與目標領域已標記樣本合集作為SVM 的訓練集進行訓練，標記為SVM-ST，利用此方法與遷移學習方法做比較，同時，將本文提出的方法與文獻[8]中提出的TL-SVM 方法做比較，用以說明本文所提方法的優(yōu)越性。3 種方法在6 個學習任務中的分類性能比較如表4 所示。

表4 3 種方法性能比較

根據實驗結果，得出以下結論：

（1）通過對比3 個實驗的結果發(fā)現(xiàn)，遷移學習方法的引入對分類效果有明顯提升，對比SVMST 分類方法，正確率提升較為明顯，TL-SVM 算法較SVM-ST 算法的分類正確率提升了3.2%，F(xiàn)1 測試值提升了0.4%；基于超平面位置調優(yōu)SVM 遷移算法較SVM-ST 算法的分類正確率提升了4.0%，F(xiàn)1 測試值提升了0.9%，說明遷移學習方法在相似領域的數據分類中，優(yōu)勢更明顯。

（2）通過對比TL-SVM 算法和SVM-ST 算法的實驗結果，發(fā)現(xiàn)對于源領域與目標領域關聯(lián)性較低的數據集（網絡借貸vs 網絡銀行），TL-SVM 的分類正確率反而降低了，說明TL-SVM 在處理數據負遷移方面有所欠缺。

（3）通過對比TL-SVM 和基于超平面位置調優(yōu)SVM 遷移算法的實驗結果，發(fā)現(xiàn)通過調整超平面位置，使其向正類樣本靠近，保證了分類的正確率。基于超平面位置調優(yōu)SVM 遷移算法較TL-SVM算法的分類正確率提升了0.8%，F(xiàn)1 測試值提升了0.5%，說明通過數據增強和分類超平面位置調整，在樣本數量少、無法準確預估負類樣本存在空間的情況下，分類超平面主動靠近正類樣本，保證了分類的正確性。

4 結語

本文提出了基于超平面位置調優(yōu)的SVM 遷移算法。該方法通過分類調整超平面位置，使其充分靠近正類樣本，結合數據增強技術，實現(xiàn)對小數據集的訓練與檢測，對于數據量不足的互聯(lián)網金融網頁來說，有效解決了模型出現(xiàn)過擬合的問題。實驗結果表明，基于超平面位置調優(yōu)的SVM 遷移算法在小樣本的情況下能夠提高檢測性能指標。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看