• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      實現(xiàn)網(wǎng)絡(luò)視頻流多分類的遷移學(xué)習(xí)算法

      2021-07-28 12:36:54董育寧
      計算機工程與應(yīng)用 2021年14期
      關(guān)鍵詞:視頻流準(zhǔn)確率分類

      王 彥,董育寧,葛 軍

      1.南京郵電大學(xué) 通信與信息工程學(xué)院,南京210003

      2.南京郵電大學(xué) 現(xiàn)代郵政學(xué)院,南京210003

      根據(jù)思科視覺網(wǎng)絡(luò)指數(shù)(2020)[1]的最新預(yù)測,從2017 年到2022 年,全球互聯(lián)網(wǎng)視頻流量將翻兩番,到2022 年將占所有互聯(lián)網(wǎng)流量的82%以上。不同類型的視頻應(yīng)用程序?qū)Ψ?wù)質(zhì)量(Quality of Service,QoS)的要求也不同。視頻業(yè)務(wù)的識別和分類是實現(xiàn)相關(guān)網(wǎng)絡(luò)行為以進(jìn)一步提高視頻服務(wù)端到端QoS 的前提。互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider,ISP)為了合理地將相應(yīng)的網(wǎng)絡(luò)資源分配給不同的視頻應(yīng)用程序,需要對視頻服務(wù)進(jìn)行精細(xì)的分類,而不僅僅是將視頻業(yè)務(wù)視為一個單獨的類別。

      近年來,機器學(xué)習(xí)(Machine Learning,ML)方法已經(jīng)成功地用于識別網(wǎng)絡(luò)視頻流量。但是傳統(tǒng)的ML 不能解決以下兩個問題:首先,由于網(wǎng)絡(luò)視頻服務(wù)技術(shù)的不斷更新,許多以前收集的視頻流數(shù)據(jù)集很容易過時,再重新收集和標(biāo)記新的實例需要花費大量人力成本。其次,每次更新數(shù)據(jù)集時,都需要重新訓(xùn)練新模型,該過程非常復(fù)雜且耗時。因此,本文提出一種遷移學(xué)習(xí)(Transfer Learning,TL)框架來解決上述問題。該方法可以在僅擁有比較少的新收集的有標(biāo)簽數(shù)據(jù)和大量過時的訓(xùn)練數(shù)據(jù)集的情況下來實現(xiàn)視頻流多分類。

      在基于ML的分類方法中,特征選擇(Feature Selection,F(xiàn)S)是重要的一步。它通常被視為數(shù)據(jù)預(yù)處理操作,可以減少后續(xù)分類算法的計算時間,改善預(yù)測性能。

      本文的主要創(chuàng)新點如下:

      (1)借鑒MultiSURF[2]與遺傳算法(Genetic Algorithm,GA)[3],提出一種混合式的FS算法——MSGA。該算法結(jié)合了過濾式與包裹式FS 方法的優(yōu)點,在實現(xiàn)特征尺寸快速降維的同時還可以降低特征子集的冗余度,能幫助后續(xù)分類器提高分類準(zhǔn)確率。

      (2)借鑒SAMME 算法[4],將TrAdaBoost 算法[5]從只可識別兩類擴(kuò)展到可識別多類,從而提出了MultiTrAda-Boost算法,實現(xiàn)對視頻流數(shù)據(jù)的精細(xì)分類;該算法可以較好地利用過去的數(shù)據(jù),從中篩選出有用的樣本遷移至分類目標(biāo)域,在節(jié)省大量收集和標(biāo)記新數(shù)據(jù)的成本的同時也提高了分類的準(zhǔn)確率。

      1 相關(guān)工作

      1.1 特征選擇方法

      Ferriyan 和Thamrin 等[6]提出了一種用于入侵檢測系統(tǒng)的基于遺傳算法的的優(yōu)化FS 方法,該方法采用單點交叉的方式來選擇GA的參數(shù),并結(jié)合隨機森林算法在分類率和訓(xùn)練時間方面取得了較好的結(jié)果。劉成鍇等[7]提出了一種將過濾式算法TF-IDF(Term Frequency-Inverse Document Frequency)與封裝式GA相結(jié)合的文本FS算法,該方法有效降低了高維的文本特征,并具有良好的分類效果。姚樹春等[8]針對高維小樣本數(shù)據(jù)FS冗余度高和過擬合的問題,提出一種基于混合GA與互信息分析的高維小樣本FS 算法,該算法有效地增強了GA的穩(wěn)定性和魯棒性,并且實現(xiàn)了較好的FS效果。

      1.2 網(wǎng)絡(luò)視頻流分類方法

      Canovas等[9]根據(jù)模式對多媒體流量進(jìn)行分類,這些模式允許使用視頻流和網(wǎng)絡(luò)特征作為輸入?yún)?shù)來區(qū)分流量類型。吳爭等[10]針對不同類別網(wǎng)絡(luò)流分布不平衡的問題,設(shè)計了一種能夠?qū)崿F(xiàn)低存儲、低時延、高準(zhǔn)確率的網(wǎng)絡(luò)視頻流細(xì)分類算法,并在真實數(shù)據(jù)集中取得了較高的識別率。楊凌云等[11]使用較小的數(shù)據(jù)來代替長視頻流進(jìn)行分類,減少了數(shù)據(jù)處理時間的同時也提高了分類精度。

      1.3 遷移學(xué)習(xí)分類方法

      Zhang 等[12]提出了一種新的TL 框架JGSA,該框架可減少兩個域之間在統(tǒng)計和幾何上的偏移,從而更好地實現(xiàn)跨域遷移,提高識別準(zhǔn)確率。Han等[13]提出了一種兩階段分類技術(shù),該技術(shù)結(jié)合了TL 和Web 數(shù)據(jù)擴(kuò)充方法,有效地減少了對訓(xùn)練集樣本數(shù)量的要求并避免了過擬合問題。劉三民等[14]結(jié)合TL 方法,利用大量的歷史標(biāo)注樣本來輔助當(dāng)前新概念的模型學(xué)習(xí),解決了代表新概念標(biāo)注樣本數(shù)量不足的問題。

      2 本文方法

      2.1 基礎(chǔ)理論

      2.1.1 MultiSURF模型

      MultiSURF 是一種過濾式FS 方法,它根據(jù)每個屬性和類別的相關(guān)性為每個屬性分配不同的權(quán)重。特征權(quán)重向量W[A] 的更新如下所示:

      其中,diff是一個距離函數(shù),用于計算樣本S1和樣本S2之間的屬性A的值的區(qū)別(其中S1=Ri和S2=最近的命中(H)或最近的未命中(M)),b是訓(xùn)練樣本的總數(shù),h和m分別為最近的命中次數(shù)和最近的未命中的個數(shù)。然后,該算法會依據(jù)各個特征的權(quán)重值大小進(jìn)行排序,進(jìn)而選擇特征子集。

      2.1.2 TrAdaBoost算法

      TrAdaBoost 是一個TL 算法,可通過提升基礎(chǔ)學(xué)習(xí)器從而將有用的知識從一個分布域遷移到另一個分布域。該算法的輸出如下:

      其中,γt為εt/(1-εt),εt是基礎(chǔ)學(xué)習(xí)器的分類錯誤率,N為最大迭代次數(shù)。從中可以看出它只可以處理兩分類(0或者1)問題。

      2.1.3 SAMME算法

      SAMME 是一種自然地將AdaBoost[15]算法擴(kuò)展到可實現(xiàn)多分類而不是將其轉(zhuǎn)化成進(jìn)行多次二分類情況的算法。它通過優(yōu)化一個多類指數(shù)損失函數(shù),來獲得樣本c屬于類k的概率,即:

      2.1.4 JGSA算法

      JGSA(Joint Geometrical and Statistical Alignment)是一個可以同時減少源和目標(biāo)域之間的分布和幾何差異的遷移學(xué)習(xí)框架,具體來說,通過學(xué)習(xí)兩個耦合投影(A代表源域,B代表目標(biāo)域)來獲得各自域的新表示。映射完成之后,可以達(dá)到(1)目標(biāo)域數(shù)據(jù)的方差最大化;(2)保留源域數(shù)據(jù)的判別信息;(3)源域和目標(biāo)域之間的分布散度最小化;(4)源域和目標(biāo)域的子空間散度最小化。該算法的整體目標(biāo)函數(shù)為:

      其中,St、Sw、Sb分別是目標(biāo)域散度矩陣、類內(nèi)散布矩陣和類間散度矩陣,λ、β、μ是重要的權(quán)衡參數(shù)。最終,該算法通過不斷優(yōu)化目標(biāo)函數(shù)來減小域位移。

      2.2 混合式特征選擇算法

      本節(jié)提出一種新的基于MultiSURF 和GA 的混合FS方法MSGA,如圖1所示。

      圖1 MSGA算法流程圖

      使用MSGA算法選擇特征子集的計算過程如下:

      步驟1 首先MultiSURF算法依據(jù)公式(1)計算出每個屬性的權(quán)重值,并將其按從大到小的順序進(jìn)行排序,去掉部分與類別關(guān)聯(lián)較弱的屬性,最后按照順序選擇前a個屬性。

      步驟2 基于上一步選出的a個屬性隨機初始化原始種群。

      步驟3 計算每個個體的適應(yīng)度函數(shù)值,本實驗中的適應(yīng)度值為CART算法的分類準(zhǔn)確率。

      步驟4 算法遵循基本的GA 操作,對個體進(jìn)行選擇、變異、交叉。

      步驟5 將新生成的所有解加到種群中,形成新的種群。

      步驟6 如果適應(yīng)度值不再變化,或者算法達(dá)到最大迭代次數(shù),則此時的輸出的結(jié)果為最佳個體,否則重復(fù)步驟3至5,直到滿足終止條件。

      在進(jìn)行分類實驗之前,使用MSGA特征選擇算法從原始的25個特征[10]中篩選出8個特征,具體如表1所示。

      表1 分類實驗數(shù)據(jù)集的8個特征

      2.3 分類算法框架

      本文提出的MultiTrAdaBoost算法繼承了TrAdaBoost的遷移思想,并結(jié)合SAMME 來實現(xiàn)多類識別。算法1給出了MultiTrAdaBoost 的詳細(xì)計算步驟。首先,分別初始化兩個有標(biāo)簽訓(xùn)練集Ta和Tb的權(quán)重向量W1(n是舊數(shù)據(jù)集Ta的大小,m是新數(shù)據(jù)集Tb的大?。?。β用于更新Ta中樣本的權(quán)重,被設(shè)置為,即它的大小由n和迭代次數(shù)N決定。然后算法進(jìn)入迭代過程,在每次迭代開始時首先歸一化pt,它是所有訓(xùn)練集T(Ta∪Tb)樣本的權(quán)重分布。本實驗中選擇CART算法作為基礎(chǔ)學(xué)習(xí)器,所有用于訓(xùn)練基礎(chǔ)學(xué)習(xí)器的樣本都遵循pt的分布,然后學(xué)習(xí)器將得到一個假設(shè)函數(shù)ht:X→Y,并將其保存起來,以便最終可以通過加性模型進(jìn)行組合以形成一個強分類器。之后計算數(shù)據(jù)集Tb上的錯誤率εt并根據(jù)它更新βt。如果Ta中的樣本分類錯誤,其權(quán)重將乘以,以減少其對下一輪迭代中的學(xué)習(xí)器的影響。如果Tb中的樣本分類錯誤,其權(quán)重將乘以增加權(quán)重值,這將使下一個分類器更加關(guān)注此樣本。經(jīng)過幾次迭代后,通過不斷從Ta中選擇輔助數(shù)據(jù)來幫助分類,基礎(chǔ)學(xué)習(xí)器的錯誤率將逐漸變小。最后,所有保存的基礎(chǔ)學(xué)習(xí)器將與各自的權(quán)重ln(1 /βt)集成在一起,以生成最終的強分類器。在本算法中,最終輸出的假設(shè)函數(shù)是:

      其中,N是迭代的次數(shù),ht是基礎(chǔ)學(xué)習(xí)器的假設(shè)函數(shù),βt=γt/(K-1) 。I是一個指示函數(shù),它代表如果ht(x)=k則它的值為1,否則為0。

      算法1 MultiTrAdaBoost

      輸入:兩個有標(biāo)簽訓(xùn)練集Ta和Tb,無標(biāo)簽測試集S,類別數(shù)目K,基礎(chǔ)學(xué)習(xí)器和最大迭代次數(shù)N。

      3 實驗結(jié)果及分析

      3.1 數(shù)據(jù)集

      實驗中共使用兩個數(shù)據(jù)集,一個是包含780個樣本的老數(shù)據(jù)集,于2013 年在南京郵電大學(xué)(Nanjing University of Posts and Telecommunications,NJUPT)收集。另一個新數(shù)據(jù)集包含438個樣本,是2019年在倫敦瑪麗皇后大學(xué)(Queen Mary University of London,QMUL)收集的。這兩個數(shù)據(jù)集的每個樣本都具有相同的25個特征和各自的類別標(biāo)簽。數(shù)據(jù)集總共包含6種類別,即在線標(biāo)清視頻(SD,480p),在線高清視頻(HD,720p),在線超清視頻(CD,1 080p),交互式視頻通信(IVC),P2P視頻(P2P)和網(wǎng)絡(luò)實時視頻(ILV)。

      由于NJUPT 數(shù)據(jù)集為六年前收集的,所以在某種程度上已經(jīng)過時了。因此,可以將其視為過時的數(shù)據(jù)集Ta。QMUL數(shù)據(jù)集分為兩部分:帶標(biāo)簽的新數(shù)據(jù)集(Tb)和無標(biāo)簽的測試集(S),這兩部分服從相同的分布。為了進(jìn)行更加詳細(xì)的比較,本文從QMUL 數(shù)據(jù)集中分別提取了20%、40%和60%的數(shù)據(jù)作為Tb,其余為測試集S。

      3.2 實驗設(shè)置

      將MSGA 與MultiSURF 和基于GA 的包裹式兩種FS算法進(jìn)行對比,后端分類算法都是MultiTrAdaBoost。

      為了驗證MultiTrAdaBoost 算法的性能,本文選擇了(1)Cart_a,它利用舊數(shù)據(jù)集Ta作為訓(xùn)練集;(2)Cart_ab,它將老數(shù)據(jù)集Ta和新數(shù)據(jù)集Tb組合起來形成訓(xùn)練集,這兩種方法均使用CART 算法訓(xùn)練分類器;(3)JGSA[13]TL 算法進(jìn)行性能比較。在MultiTrAdaBoost 中,CART算法被用作基礎(chǔ)學(xué)習(xí)器。

      使用總體準(zhǔn)確率、查準(zhǔn)率、查全率和F1-measure 來測試算法性能,分別定義如下:

      3.3 實驗結(jié)果

      分別使用MultiSURF、基于GA 的包裹式和MSGA三種FS 算法選出了8、10 和8 個特征,最后的分類總體準(zhǔn)確率如表2所示。

      表2 三種FS算法在測試集上的總體準(zhǔn)確率

      可以看出,使用MSGA的分類結(jié)果要高于其他兩種方法,這說明MSGA所選擇的特征對于分類來說更加有效。MultiSURF 算法選擇的特征子集大小與MSGA 相同,但子集內(nèi)容不一樣,由于其是過濾式FS 方法,所以無法避免特征子集冗余問題,分類精度均低于0.9。相較于MSGA,基于GA 的FS 方法選擇了更多的特征,但是分類精度仍然普遍低于MSGA,這意味著包裹式FS方法并不能很好地去除無關(guān)特征。

      表3 顯示了本文提出的TL 算法與兩種傳統(tǒng)ML 方法分類的總體準(zhǔn)確率??梢园l(fā)現(xiàn),本文算法的整體準(zhǔn)確率明顯高于其他兩種基于傳統(tǒng)ML的方法。

      表3 三種分類方法的總體準(zhǔn)確率

      Cart_a的總體準(zhǔn)確率均低于37%,這表明了新數(shù)據(jù)集和老數(shù)據(jù)集之間的分布是不相同的,通過訓(xùn)練老數(shù)據(jù)集得到的模型無法識別新的數(shù)據(jù)集。在Cart_ab 算法中,即使引入新數(shù)據(jù)集Tb作為訓(xùn)練集,由于有大量和新數(shù)據(jù)集分布不同的過時實例Ta的干擾,該算法不能很好地訓(xùn)練模型,分類準(zhǔn)確率均低于89%。而本文算法可以克服新老數(shù)據(jù)集分布不同的問題,通過從老數(shù)據(jù)集中篩選出有用的樣本來幫助分類進(jìn)而提高分類準(zhǔn)確率,其總體準(zhǔn)確率達(dá)到了94%以上,并且還可以減少大量老數(shù)據(jù)集的浪費。

      表4給出了JGSA與本文方法對六種不同類型的網(wǎng)絡(luò)視頻流分類的結(jié)果,可以看出,本文方法明顯優(yōu)于JGSA方法。JGSA不能很好地區(qū)分SD、HD和ILV三類,這是由于原始數(shù)據(jù)中這三個類別特征分布比較相似,當(dāng)通過JGSA 算法映射到更低維度的子空間之后,三個類別的新老數(shù)據(jù)的子空間無法很好地區(qū)別開,仍存在較大的域位移。另外,在總體準(zhǔn)確率方面,本文方法的分類精確度高于94%,而JGSA方法的總體正確率僅為67%。因為本文方法是通過迭代訓(xùn)練弱分類器來從源域中直接篩選出與目標(biāo)域相似的數(shù)據(jù),相較于JGSA,更為簡單有效。

      表4 JGSA和本文方法對6種網(wǎng)絡(luò)視頻流分類結(jié)果對比

      4 結(jié)束語

      本文提出了一種基于TL的新型網(wǎng)絡(luò)視頻流量分類算法MultiTrAdaBoost,該算法將TrAdaBoost與SAMME算法結(jié)合起來,可以實現(xiàn)多類別的分類。實驗結(jié)果表明,在訓(xùn)練集和測試集處于不同分布的情況下,本文方法可以在整體準(zhǔn)確率上獲得更好的性能。另外,為了提高分類準(zhǔn)確率,本文還提出了一種混合式的FS 方法MSGA,可以在選擇特征子集的過程中快速降維并減小子集的冗余度。盡管如此,仍有一些需要進(jìn)一步探索的問題,而下一步的工作是研究如何在具有不同特征空間或不同類標(biāo)簽的領(lǐng)域之間遷移知識。

      猜你喜歡
      視頻流準(zhǔn)確率分類
      邊緣實時視頻流分析系統(tǒng)配置動態(tài)調(diào)整算法研究
      分類算一算
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      基于視頻流傳輸中的擁塞控制研究
      分類討論求坐標(biāo)
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      高青县| 绩溪县| 手机| 武义县| 天全县| 乌拉特后旗| 康马县| 芷江| 贞丰县| 大城县| 容城县| 游戏| 乌恰县| 遵化市| 五峰| 桃源县| 阜城县| 辛集市| 呼图壁县| 西青区| 澜沧| 宜君县| 涪陵区| 佛冈县| 麻城市| 卢湾区| 嘉荫县| 门源| 从江县| 缙云县| 苗栗县| 宾川县| 东明县| 肃南| 海盐县| 镇坪县| 桃园市| 五大连池市| 夏邑县| 西宁市| 勃利县|