• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進自訓(xùn)練模型在業(yè)務(wù)質(zhì)差用戶識別中的應(yīng)用

      2021-11-11 06:04:18余立李哲高飛袁向陽楊永
      電信科學 2021年10期
      關(guān)鍵詞:精準度分類器標簽

      余立,李哲,高飛,袁向陽,楊永

      (1. 中國移動通信有限公司研究院,北京 100053; 2. 中國移動通信集團公司,北京 100033)

      1 引言

      隨著移動互聯(lián)網(wǎng)發(fā)展,我國移動互聯(lián)網(wǎng)用戶突破13億戶,占全球網(wǎng)民規(guī)模的32.17%[1],隨著新型技術(shù)(如5G、云計算等)的發(fā)展,用戶對上網(wǎng)速度、穩(wěn)定性等要求越來越高。

      質(zhì)差用戶指在使用移動通信網(wǎng)絡(luò)服務(wù)時,由于網(wǎng)絡(luò)質(zhì)量問題或其他因素對服務(wù)體驗不滿的用戶。網(wǎng)絡(luò)質(zhì)量問題導(dǎo)致的質(zhì)差用戶,對網(wǎng)絡(luò)服務(wù)的滿意度會降低,且可能存在投訴、轉(zhuǎn)網(wǎng)等行為。

      質(zhì)差用戶群體流失概率較高,他們是各大網(wǎng)絡(luò)運營商重點關(guān)注與關(guān)懷對象。傳統(tǒng)質(zhì)差用戶識別通過數(shù)據(jù)采集系統(tǒng)對用戶上網(wǎng)過程中產(chǎn)生的行為單據(jù)XDR(X data record)進行分析,即可過濾潛在的質(zhì)差用戶。但各用戶感知無法統(tǒng)一,不滿意原因及不滿意的業(yè)務(wù)也并不一致,傳統(tǒng)分析方法可識別的投訴用戶比例較低,無法滿足現(xiàn)網(wǎng)投訴處理要求。故通過將已存在的滿意度低或投訴行為的質(zhì)差用戶與XDR進行關(guān)聯(lián)標注后,利用機器學習算法,實現(xiàn)對質(zhì)差用戶進行分類識別與預(yù)測。

      通過現(xiàn)網(wǎng)收集的XDR數(shù)據(jù)中存在以下問題。

      ? 不同省份網(wǎng)絡(luò)基礎(chǔ)設(shè)備存在一定差異,數(shù)據(jù)中特征字段并不完全相同,且部分字段填充率較低,無法直接利用。

      ? 數(shù)據(jù)進行標簽化標注時,不同省份字段計算方法可能存在差異,且數(shù)據(jù)量巨大,導(dǎo)致標注成本高昂。

      ? 已投訴用戶單據(jù)中投訴原因眾多,部分原因來自于非網(wǎng)絡(luò)問題,存在大量對抗樣本,導(dǎo)致樣本本身含有較大噪聲,訓(xùn)練時會影響模型性能。

      2 半監(jiān)督學習

      有監(jiān)督學習需大量的有標簽數(shù)據(jù)訓(xùn)練模型,在質(zhì)差用戶識別模型中,一條有標簽數(shù)據(jù)包含兩部分:用戶XDR數(shù)據(jù)和是否為質(zhì)差用戶。前部分數(shù)據(jù)通過數(shù)據(jù)采集系統(tǒng)獲得,后部分標簽信息需豐富的專家知識,往往判定成本較高,造成整體訓(xùn)練成本的增加[2]。

      現(xiàn)網(wǎng)每日會產(chǎn)生海量的用戶XDR數(shù)據(jù),通過標注再進行訓(xùn)練,模型時效性較差,無法準確描述現(xiàn)網(wǎng)實時運行狀況。半監(jiān)督學習與有監(jiān)督學習相比可以利用現(xiàn)網(wǎng)實時海量無標簽數(shù)據(jù),效率較高;與無監(jiān)督學習相比可以保證模型準確率。

      質(zhì)差用戶識別為分類問題,已知的半監(jiān)督分類問題主要分為5類,具體優(yōu)劣勢見表1。

      表1 半監(jiān)督分類方法優(yōu)劣勢

      ? 基于圖的半監(jiān)督模型將標簽數(shù)據(jù)和未標簽數(shù)據(jù)構(gòu)建為圖,圖中節(jié)點為數(shù)據(jù)點,邊為節(jié)點權(quán)重,通過尋找圖的最小分割,然后計算反向傳播權(quán)重,其可應(yīng)用于圖片、中文文本、數(shù)據(jù)分類等各類場景,但是當新樣本加入時,需要重新訓(xùn)練得到圖模型,計算開銷較大[3-4]。

      ? 基于分歧的半監(jiān)督模型通過選擇差異化基模型,進行組合降低“錯誤”分類樣本對模型的不良影響,提升模型預(yù)測準確率,但是其對基模型選擇設(shè)定要求較高,并且運算效率也較低[5-6]。

      ? 半監(jiān)督支持向量機是將支持向量機應(yīng)用到半監(jiān)督模型中,將樣本空間映射到高維空間,并選擇合適平面將樣本集劃分,但是模型受參數(shù)影響,最終模型準確率較低[7]。

      ? 協(xié)同訓(xùn)練(co-training)用有標簽樣本的兩個視圖分別訓(xùn)練兩個弱分類器,再利用分類器對未標注樣本預(yù)測中高置信度樣本訓(xùn)練另一個分類器;即用一個視圖中獲得的知識來訓(xùn)練另一個視圖。缺點是對樣本要求高,要求具有兩個充分冗余且滿足條件獨立性的視圖,實際情況下較難滿足[8-9]。

      ? 自訓(xùn)練(self-training)需要一個基分類器和少量樣本數(shù)據(jù)可以實現(xiàn),核心思想是先學習有標簽數(shù)據(jù),然后計算無標簽樣本置信度,并將置信度高的樣本加入訓(xùn)練集,缺點是如果無標簽樣本預(yù)測錯誤,則隨著訓(xùn)練的深入,會造成錯誤的累計[10-12]。

      基于對以上半監(jiān)督方法的研究,本文選取一種改進自訓(xùn)練模型,通過設(shè)置基模型參數(shù)以及較高的置信度閾值,引入多個基模型學習器,降低傳統(tǒng)自訓(xùn)練中出現(xiàn)的誤差累計現(xiàn)象,提高模型訓(xùn)練精度。

      3 改進自訓(xùn)練應(yīng)用

      3.1 改進自訓(xùn)練模型

      自訓(xùn)練模型是一種增量模型,首先建立基分類器模型,通過有標簽數(shù)據(jù)進行訓(xùn)練,然后利用訓(xùn)練好的基模型不斷預(yù)測數(shù)據(jù)集中無標簽數(shù)據(jù),從中選擇置信度高樣本,將其加入有標簽數(shù)據(jù)中進行基模型循環(huán)訓(xùn)練。在滿足設(shè)定停止迭代條件后,得到具有最高分類精度和最強的泛化性能的最終分類器。模型在迭代過程中不可避免會產(chǎn)生誤分樣本,基模型學習誤分樣本會產(chǎn)生錯誤累計,最終影響模型效果。為降低錯誤累計,本文做出以下改進:設(shè)置模型性質(zhì)不同、性能相同的3種基模型,分別進行預(yù)測后,通過投票初步選定偽標簽樣本,隨后計算其置信度,將置信度高的偽樣本加入模型訓(xùn)練集中進行循環(huán)迭代。改進自訓(xùn)練模型示意圖如圖1所示。

      圖1 改進自訓(xùn)練模型示意圖

      其基本流程如下:

      (1)根據(jù)有標簽數(shù)據(jù)集訓(xùn)練3種基模型;

      (2)利用訓(xùn)練得到的基模型預(yù)測無標簽數(shù)據(jù);

      (3)選擇置信度高的樣本,將其加入有標簽數(shù)據(jù)集;

      (4)循環(huán)訓(xùn)練模型;

      (5)判斷是否滿足迭代條件,重復(fù)(1)~(3)。

      改進自訓(xùn)練模型算法見算法1。

      算法1

      輸入有標記樣本集:

      每i輪基學習器為 K1i、 K2i、 K3i;

      每i輪預(yù)測得到樣例數(shù)為pi;

      流程

      (1)初始化設(shè)置 K10、 K20、 K30;

      (2)i=1;

      (3)利 用 K10、 K20、 K30擬 合Dl得 到 K11、 K21、 K31;

      (4)利用 K11、 K21、 K31訓(xùn)練Du,得到pi例樣本不同分類情況下置信度;

      (5)進行選擇,將pi例預(yù)測樣本加入Dl;

      (6)利用新樣本集Dl訓(xùn)練,得到 K12、 K22;

      (7)循環(huán)(4)~(6),直到滿足迭代終止條件。

      3.2 基模型選取

      質(zhì)差用戶識別是一種分類問題,最終評價標簽為質(zhì)差用戶和非質(zhì)差用戶兩種。當前主流機器學習分類模型有貝葉斯分類器(NB)、Logistic模型、支持向量機、樹模型(如隨機森林(RF)和極限梯度提升(XGBoost)等[13])。本模型選擇樸素貝葉斯分類器、XGBoost、隨機森林為基模型進行訓(xùn)練。

      (1)樸素貝葉斯分類器

      該模型描述如下:設(shè)訓(xùn)練集中包含m個類H=(H1,H2,… ,Hm),n個條件屬性X=(X1,X2, …,Xn),并且假設(shè)所有條件屬性X為類變量H的子節(jié)點,并相互獨立,則當待分類樣本x=(x1,x2,…,xn)分配到類Hm時,根據(jù)貝葉斯定理可得:

      由于在本監(jiān)督學習中需要使用大量的無標簽數(shù)據(jù)進行模型訓(xùn)練,式(1)修改為:

      其中,(n+l) 表示迭代后有標簽樣本集與增加標記后的無標簽樣本集的合集,該合集增加了無標簽數(shù)據(jù)中預(yù)測得到的高置信度數(shù)據(jù)。

      (2)極限梯度提升和隨機森林

      XGBoost和RF都是基于樹模型的集成模型,但是兩者有所區(qū)別。XGBoost為并行化Boosting處理,RF為串行化Bagging處理[14]。

      給定數(shù)據(jù)集D=(Xi,yi),輸入Xi并通過線性疊加模式預(yù)測iy。并設(shè)學習使用k棵樹,模型如式(3)、式(4)所示。

      其中,()fX代表回歸樹,F(xiàn)代表回歸集合,()qX表示將X分到了某個葉子節(jié)點上,T為葉子節(jié)點的數(shù)量,ω為葉子節(jié)點分數(shù),ωq(X)代表f(X)對樣本的預(yù)測。

      通過二階泰勒展開式和正則項調(diào)整得到目標函數(shù)如式(5)所示。

      4 實驗與分析

      4.1 數(shù)據(jù)預(yù)處理

      (1)數(shù)據(jù)收集

      本次仿真實驗使用數(shù)據(jù)采集系統(tǒng)中的正常XDR數(shù)據(jù)和現(xiàn)網(wǎng)投訴XDR數(shù)據(jù)。其中包含199 998條、46項字段的正常XDR數(shù)據(jù)以及3 355條、125項字段的投訴XDR數(shù)據(jù)。

      (2)字段選取

      正常XDR數(shù)據(jù)的46項字段中,包含較多非結(jié)構(gòu)化離散字段(如小區(qū)ID、所屬城市、IPV類型等),并且部分字段缺失值比重較大,通過處理最終得到連續(xù)型字段15項。

      (3)標準化處理

      部分機器學習模型需要數(shù)據(jù)處于同一量綱,所以進行數(shù)值量綱轉(zhuǎn)化、標準化處理。處理后數(shù)據(jù)變化到均值為0、方差為1范圍內(nèi)。

      (4)樣本均衡

      因為質(zhì)差用戶識別為二分類問題,所以需要保證原始訓(xùn)練數(shù)據(jù)樣本集分布相同。使用隨機采樣方法,最終案例數(shù)據(jù)集組成見表2。

      表2 數(shù)據(jù)集組成

      (5)關(guān)鍵參數(shù)

      TCP建鏈成功到第一條事務(wù)請求的時延(tcp_ack_srv_dur):在終端和服務(wù)器完成TCP建鏈請求后,到終端發(fā)出業(yè)務(wù)請求前的時間間隔。

      第一個HTTP響應(yīng)包時延(fisrt_http_ response_ time):在業(yè)務(wù)請求過程中,第一次業(yè)務(wù)請求發(fā)出后到接收第一次業(yè)務(wù)請求響應(yīng)的時間間隔。

      TCP建鏈確認時延(fisrt_http_response_ time):在TCP建鏈過程中,第二次握手SYNACK報文發(fā)出后到收到第三次握手ACK報文的時間間隔。

      4.2 分類器評價標準

      對于每個待檢測的用戶數(shù)據(jù),分類器最終可能產(chǎn)生4種不同的結(jié)果,本實驗中對不同情況解釋如下。

      ? TP(true positive):質(zhì)差用戶,且模型預(yù)測結(jié)果為質(zhì)差用戶。

      ? TN(true negative):非質(zhì)差用戶,且模型預(yù)測結(jié)果為非質(zhì)差用戶。

      ? FP(false positive):非質(zhì)差用戶,但模型預(yù)測結(jié)果為質(zhì)差用戶。

      ? FN(false negative):質(zhì)差用戶,但模型預(yù)測結(jié)果為非質(zhì)差用戶。

      基于以上4種情況,引入精準度、F1值和AUC3項指標進行評判。精準度和F1主要判斷分類器預(yù)測結(jié)果的準確性,AUC主要判斷分類器對質(zhì)差用戶區(qū)分能力的強弱。

      精準度即精確率,在本實驗中表示正確判斷為質(zhì)差用戶的樣本占全部質(zhì)差樣本的比例:

      F1值是由Precision和Recall的調(diào)和平均數(shù),在本實驗中表示在保持一定精確率同時,盡可能保證所有質(zhì)差用戶可以被模型識別即保證召回率,兩者相互平衡。

      AUC值是ROC曲線下方的面積。ROC曲線繪制的橫坐標是FPR,而縱坐標是TPR。當無法直接衡量學習性能時,AUC值越大,表明模型效果越好。

      4.3 實驗結(jié)果與對比分析

      針對實驗數(shù)據(jù),分別使用全監(jiān)督方法、半監(jiān)督方法、無監(jiān)督方法進行擬合。其中全監(jiān)督方法選用XGBoost模型,半監(jiān)督方法使用本文提出的改進自訓(xùn)練模型,無監(jiān)督方法選用圖傳播label spreading模型。結(jié)果對比見表3。

      表3 3種模型運行結(jié)果

      對比3類模型精準度可得到如下結(jié)論:全監(jiān)督模型效果最好,各項評價指標數(shù)值最高;無監(jiān)督模型效果最差,因為在模型訓(xùn)練過程中不可避免會學習到數(shù)據(jù)中噪聲,影響模型評價指標;而半監(jiān)督模型介于兩者之間,可以充分利用大量無標簽數(shù)據(jù),此外還可以保證較高精準度。

      為了進一步驗證半監(jiān)督模型優(yōu)越性,將以上3類模型進行對比。其中在半監(jiān)督和無監(jiān)督模型中,橫軸設(shè)置為樣本標簽缺失值比率。在全監(jiān)督模型中,橫軸設(shè)置為訓(xùn)練集劃分比率。不同缺失值比率下模型精準度變化如圖2所示。

      圖2 3類模型精準度對比

      通過圖2可知,隨著缺失值比率增加,3類模型精準度都在下降,半監(jiān)督模型仍然處于一定精準度變化區(qū)間內(nèi),可以滿足模型識別精準度要求。

      在半監(jiān)督改進自訓(xùn)練模型中,使用迭代訓(xùn)練對無標簽數(shù)據(jù)進行標注,當缺失值比率相比于上次訓(xùn)練變化幅度低于0.1%時,模型迭代停止。具體數(shù)值和曲線變化如圖3和表4所示。

      圖3 半監(jiān)督模型評價指標變化趨勢

      表4 半監(jiān)督模型變化趨勢

      如表4所示,設(shè)置默認參數(shù)和初始樣本缺失值比率(Ratio)后,模型開始訓(xùn)練。通過10輪迭代計算后,Ratio變化幅度0.07%符合迭代終止條件,迭代停止。觀察表4中數(shù)據(jù)可知,缺失值比率列數(shù)值下降明顯,精準度、AUC、F1 3項評價指標有一定波動,且浮動下降。這是因為模型在自訓(xùn)練過程中不可避免會學習到樣本集中的噪聲,最終模型性能受到一定影響。為進一步提升模型識別精準度,在之后的模型訓(xùn)練過程中,需改進基模型選擇設(shè)計方案,并通過提高閾值、增加樣本預(yù)測可靠性水平等方法,降低訓(xùn)練過程的誤分類樣本噪聲。

      5 結(jié)束語

      本文針對質(zhì)差用戶識別問題,設(shè)計一種改進自訓(xùn)練的半監(jiān)督模型,采用無標簽樣本占90%的訓(xùn)練集時,最終模型精準度維持在90%左右。相比于全監(jiān)督模型和無監(jiān)督模型,該模型在保證一定性能指標前提下,能夠充分利用無標簽樣本數(shù)據(jù),在現(xiàn)網(wǎng)應(yīng)用中可有效降低數(shù)據(jù)標注成本,同時避免了人為主觀因素對于質(zhì)差規(guī)則設(shè)定的影響,可以有效實現(xiàn)質(zhì)差用戶識別。未來的工作重點為進一步提高該模型性能,降低在循環(huán)迭代中噪聲對于模型性能的影響。

      猜你喜歡
      精準度分類器標簽
      BH66F5355 增強型24-bit A/D MCU
      傳感器世界(2023年5期)2023-08-03 10:38:18
      讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準度
      當代陜西(2020年24期)2020-02-01 07:06:56
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      論提高不動產(chǎn)產(chǎn)權(quán)保護精準度的若干問題
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      標簽化傷害了誰
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      成安县| 永济市| 梅河口市| 礼泉县| 弥勒县| 莱芜市| 台中市| 沧州市| 沂南县| 马山县| 固安县| 城步| 龙海市| 革吉县| 隆林| 辽宁省| 弋阳县| 道孚县| 云龙县| 台中市| 蕉岭县| 揭西县| 托克逊县| 土默特左旗| 孝感市| 汝南县| 惠安县| 响水县| 瓦房店市| 涟水县| 闵行区| 临泉县| 焦作市| 四平市| 阿尔山市| 鹿泉市| 洛浦县| 始兴县| 屏南县| 石柱| 仪征市|