• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于動態(tài)域定界的循環(huán)分類模型

      2022-11-15 14:11:56鄧慧娜葉阿勇張嬌美
      關鍵詞:源域分類器標簽

      鄧慧娜,葉阿勇,張嬌美

      (福建師范大學計算機與網(wǎng)絡空間安全學院,福建 福州 350117;福建省網(wǎng)絡安全與密碼技術重點實驗室,福建 福州 350117)

      隨著傳統(tǒng)機器學習的不斷發(fā)展和成熟,從大量有標簽的數(shù)據(jù)中訓練得到一個好的分類模型已相對容易[1].但真實的應用場景中,傳統(tǒng)的機器學習方法仍然不能完全滿足應用需求.一方面,獲取帶標簽的數(shù)據(jù)相對困難.生活中產(chǎn)生的數(shù)據(jù)大多不含標簽,而人工標簽的成本又過高,并且數(shù)據(jù)采集往往還要考慮個人隱私及安全性問題,這也進一步增加數(shù)據(jù)獲取的難度.另一方面,傳統(tǒng)機器學習在每次數(shù)據(jù)更新時都需要重新建立模型和訓練,從而耗費大量的時間和資源.因此,2005年楊強教授提出遷移學習的概念,目標是讓計算機把大數(shù)據(jù)領域習得的知識和方法遷移到其他數(shù)據(jù)不足的領域,旨在能夠通過將已經(jīng)學習到的知識應用在新的目標任務中,從而提高學習效率和準確率.

      遷移學習一定程度上緩解了傳統(tǒng)機器學習的數(shù)據(jù)壓力,但遷移學習效果受眾多因素的影響,尤其是在多渠道獲取數(shù)據(jù)的情況下.一方面,由于數(shù)據(jù)相關性差別較大,源域難以包含目標域的完整信息[2].因此,源域的選擇對分類結果影響較大.而現(xiàn)有研究大都采用固定劃分源域和目標域的機制,導致分類精確度不高,且無法適應異構用戶的不同分類需求[3].另一方面,多渠道獲取的數(shù)據(jù)仍存在標簽缺失或無標簽問題,而常見算法都建立在數(shù)據(jù)具有完備標簽的基礎上,對無監(jiān)督數(shù)據(jù)分類難以保證精確度.最終在各方面因素的限制下,遷移學習的應用并未得到推廣.

      本文的研究目標是從數(shù)據(jù)的采集階段到產(chǎn)生分類結果建立完整流程的分類模型CAMDOT,其中包括多渠道獲取數(shù)據(jù)的聯(lián)合源域機制、基于Softmax和CNN的循環(huán)分類算法S-CNN.具體貢獻有:

      (1) 提出一種動態(tài)的聯(lián)合源域機制.傳統(tǒng)多源域遷移學習模型往往采用隨機或固定的方法來確定源域和目標域,容易導致分類精確度不高.針對該問題,本文引入數(shù)據(jù)相關性來動態(tài)選擇源域,從而提高其包含目標域信息的完整性.先利用信息論方法量化不同數(shù)據(jù)域間的相關性,并依此篩選與目標分類數(shù)據(jù)相關性較高的源域樣本數(shù)據(jù),再基于該樣本初始化Softmax分類器.此外,分別通過理論和模擬實驗證明了相關性系數(shù)會直接影響分類準確率,即相關性越大準確率越高,反之亦然.并且源域個數(shù)越多準確率越高.

      (2) 提出循環(huán)分類算法S-CNN(softmax-convolutional neural networks).為了進一步優(yōu)化多渠道獲取的數(shù)據(jù)差異大及標簽不足導致的分類效果差的問題,通過利用有標簽的源域數(shù)據(jù)初始化Softmax分類器,由該分類器給目標域數(shù)據(jù)加 “偽標簽”,從而解決CNN難以處理無標簽數(shù)據(jù)的問題;再利用CNN各層提取并強化數(shù)據(jù)特征,最后通過Softmax分類器進行分類.由此構建循環(huán)分類方法,實現(xiàn)有效利用CNN自動進行特征提取的優(yōu)勢,使結果更接近真實分類目標.此外,通過在人造數(shù)據(jù)集和真實數(shù)據(jù)集上的模擬實驗,證明該算法具有良好的分類精確度.

      (3) 提出基于遷移學習的分類模型CAMDOT.為解決遷移學習模式固定且不能適應多應用場景的問題,建立一個由本地端收集數(shù)據(jù)并進行數(shù)據(jù)初處理,服務器端數(shù)據(jù)整合并根據(jù)參與者上傳的請求對源域和目標域進行定界,最后進行分類的遷移學習模型.實現(xiàn)能夠適應不同用戶需求,支持動態(tài)調(diào)整的可移植數(shù)據(jù)分類模型.

      1 相關工作

      數(shù)據(jù)分類的研究方向依據(jù)研究對象的不同主要分為文本數(shù)據(jù)、圖像數(shù)據(jù)及其他實例或非實例數(shù)據(jù)的分類研究.其中,文本和圖像數(shù)據(jù)的研究相對成熟和具體,尤其在天氣和醫(yī)療圖像識別和分類上.近幾年,不斷有研究者將各領域醫(yī)學圖像和大數(shù)據(jù)預測模型相結合,為現(xiàn)代醫(yī)學發(fā)展作出重大貢獻.WANG等[4]提出了一種基于深度卷積神經(jīng)網(wǎng)絡的圖像分類算法,用于氣胸X射線的高分辨率醫(yī)學圖像分析,可以有效提高氣胸的正確診斷率.YANG等[5]提出了一種基于注意力指導的CNN方法,用于乳腺癌組織病理學圖像的分類.此外,在其他數(shù)據(jù)分類研究中,眾多研究者致力于基于不平衡的數(shù)據(jù)集的分類[6],從連續(xù)的文本數(shù)據(jù)流中挖掘用戶感興趣的有價值的信息[7],基于情感分析的自然語言分類[8].所以,無論是在圖像分類中,還是在文本數(shù)據(jù)與其他實例數(shù)據(jù)分類中,多數(shù)研究方案都基本能保證分類精確度較高,且分類效果良好.然而,一方面,自然圖像和醫(yī)學圖像具有實質(zhì)性的差異[9],另一方面,已有方案大都需要大量數(shù)據(jù)標簽來訓練分類器,因此現(xiàn)有研究仍然存在局限.

      為了進一步解決分類的準確性問題,有了深度學習與遷移學習的結合——深度遷移學習,其主要目標是將深度學習的魯棒性、泛化能力強的特點與遷移學習的領域無關的特點相結合,從而提高準確度問題.2015年后,已經(jīng)有人作出了相應的研究匯報.馮偉等[10]利用LSC模型基于遷移學習機制,引入自適應遷移策略,有選擇地利用前層模型知識輔助當前層的模型構建,提升了模型泛化性能,緩解了負遷移效應.NOOR等[11]基于CNN的體系結構使用遷移學習和微調(diào)功能自動對圖像進行分類.NGO等[12]為解決在現(xiàn)實世界中多樣環(huán)境因素影響下,面部表情識別的訓練數(shù)據(jù)集存在不平衡性而導致識別性能不高的問題,基于CNN提出了一種加權簇損失的新型損失函數(shù)在微調(diào)階段使用.雖然對深度遷移學習的研究已經(jīng)越來越深入,但大多數(shù)都停留在針對某一領域的數(shù)據(jù),且只考慮算法及損失函數(shù)的選擇和微調(diào).遷移學習對數(shù)據(jù)量要求比較嚴格,但是現(xiàn)實數(shù)據(jù)采集卻存在困難,所以沒有從數(shù)據(jù)采集到輸出結果的整體模型框架就導致深度遷移學習的應用并不廣泛.

      2 基本知識

      2.1 遷移學習的基本理論

      遷移學習是將在某領域?qū)W習到的知識遷移到其他領域,遷移的前提是這些領域要有一定的相似性[13].在遷移學習中有2個重要概念,分別是域(domain)和任務(task).一個域包括特征空間X和邊際概率分布P(X)兩個概念,其中X=x1,…,xn.遷移學習的目標是在給定原始域、原始任務、目標域、目標任務的情況下,借助原始域和原始任務提高目標函數(shù)f(x)在目標域的分類效果.其核心任務是找到源域特征集和目標域特征集之間相關性大的特征集合,即能夠較好地完成分類任務的特征表示,盡可能地減少不同域之間的分布差異,同時最大程度地保留各領域的獨立屬性.

      遷移學習根據(jù)遷移內(nèi)容與遷移方法有不同的分類方法,根據(jù)遷移內(nèi)容可以分為4種:基于實例的遷移學習[14]、基于特征的遷移學習[15]、基于參數(shù)的遷移學習[16]以及基于關系的遷移學習.

      2.2 CNN的基本理論

      卷積神經(jīng)網(wǎng)絡是神經(jīng)網(wǎng)絡模型的延伸,同樣是層級網(wǎng)絡結構,主要應用于解決圖像問題.但是卷積神經(jīng)網(wǎng)絡區(qū)別于一般神經(jīng)網(wǎng)絡的層級結構,其包括:卷積層、激勵層、池化層和全連接層.

      卷積層:卷積即卷積運算,是固定的權重和不同窗口內(nèi)數(shù)據(jù)作內(nèi)積.卷積運算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網(wǎng)絡能從低級特征中迭代提取更復雜的特征.

      激勵層:該層使用的是線性整流(rectified linear units,ReLU)規(guī)則,主要作用是提供激活函數(shù),把卷積層輸出結果作非線性映射.

      池化層:通常在卷積層之后會得到維度很大的特征,將特征切成幾個區(qū)域,取其最大值或均值,得到新的維度較小的特征.

      全連接層:把所有局部特征結合變成全局特征,用來計算最后每一類的得分.

      2.3 PCA算法

      主成分分析算法(PCA)是一種常用的特征提取與數(shù)據(jù)降維方法,將高維度的特征向量合并稱為低維度的特征屬性,是一種無監(jiān)督的降維方法.算法目標是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中表示,并且期望在所投影維度上數(shù)據(jù)的方差最大(最大方差理論),以此使用較少的數(shù)據(jù)維度,同時保留較多的原數(shù)據(jù)點的特性.

      3 問題定義

      定義1參與者.數(shù)據(jù)提供者可以是終端設備、公司服務器等,符號表示為u.

      表1 參數(shù)描述

      根據(jù)Softmax函數(shù):

      (1)

      定義分類器的損失函數(shù)為:

      (2)

      其中,θ表示分類器模型參數(shù),m表示類別總數(shù),Pzj表示Softmax函數(shù)值,即第j類的概率值,pj表示預測為第j類偽標簽的概率值.

      本文基于ReLU函數(shù)定義一個卷積神經(jīng)網(wǎng)絡,形成S-CNN循環(huán)分類器.具體地,假設神經(jīng)網(wǎng)絡的第1層是卷積層,則該層的輸出可以表示為:

      (3)

      (4)

      其中,z(·)表示池化層的輸出,a(·)表示經(jīng)過ReLU函數(shù)激活后的輸出,xi表示輸入,*表示卷積運算,w表示權重參數(shù),b為偏置參數(shù).

      將激活后的卷積層輸出作為池化層的輸入,選擇平均池化方法,則池化層輸出可表示為:

      (5)

      (6)

      (7)

      (8)

      4 本文方案

      4.1 CAMDOT框架

      CAMDOT包含本地端和云服務器端的兩端處理機制,如圖1所示.其中,數(shù)據(jù)采集和初級處理在本地端進行,域定界及分類過程在云服務器端進行.本地數(shù)據(jù)處理是參與者將數(shù)據(jù)上傳至服務器之前使用主成分分析法對數(shù)據(jù)進行的本地端降維處理,目的是減少本地與服務器端的通信開銷并降低信息敏感度;特征映射是針對不同分類需求(數(shù)據(jù)分類需求由聯(lián)合源域的某個或多個參與者提出,并上傳至云服務器),篩選數(shù)據(jù)并確定源域和目標域,提高數(shù)據(jù)有效利用率;分類核心是采用Softmax分類器為無標簽的目標域數(shù)據(jù)加“偽標簽”,CNN強化特征再利用Softmax分類器進行分類的方法.

      圖1 CAMDOT模型框架圖

      4.2 本地數(shù)據(jù)采集及降維

      模型的訓練數(shù)據(jù)由本地參與者提供,為了在一定程度上保護數(shù)據(jù)主體的隱私,并減少與服務器的通信開銷.參與者在本地使用主成分分析法PCA對數(shù)據(jù)進行降維處理,將原始數(shù)據(jù)庫中與分類需求相關性較低的特征去除,然后傳至云服務器.降維的具體步驟為:

      4.3 域定界

      圖2 域定界流程圖

      KL(p(xXi,xXu)‖p(xXi)p(xXu))=

      (9)

      其中,KL表示距離,是Kullback-Leibler差異的簡稱,它衡量相同空間里的兩個事件概率分布的差異情況.

      4.4 分類核心

      在S-CNN算法中,將特征遷移學習和實例遷移學習相結合,強化篩選出符合評估要求的數(shù)據(jù)特征,由有監(jiān)督學習指引無監(jiān)督學習定義標簽,最終由2個分類器循環(huán)遍歷數(shù)據(jù),得到符合應用要求的分類結果,如算法1和圖3所示.

      算法1INPUT:源于數(shù)據(jù)集XS={(xSi,ySi)},目標域數(shù)據(jù)集XT={(xTi)},批量大小v,總輪次數(shù)Q.OUPUT:S-CNN分類模型1.從XS中隨機選取v個有標簽的樣本數(shù)據(jù){(xSi,ySi)}vi=1,記為XS—v2.根據(jù)XS—v初始化Softmax分類器 Softmax(zj)=ezj∑mj=1ezm,(j=1…m)3.For qi in 1:Q do4.從XS中隨機選取v個有標簽的樣本數(shù)據(jù){(xSi,ySi)}vi=1,記為XS—v;從XT中隨機選取b個有標簽的樣本數(shù)據(jù){(xSi)}vi=1,記為XT—v5.XT—v通過Softmax分類器,得到預測不同類別的預測概率值Pzj={pzj}6.根據(jù)max(Pzj),為XT—v數(shù)據(jù)定義 “偽標簽”,得到X'T—v={(xTi,yTi)}7.XS—v通過卷積神經(jīng)網(wǎng)絡計算得到f=F(XS—v);X'T—v通過卷積神經(jīng)網(wǎng)絡計算得到f=F(X'T—v)8.根據(jù)損失函數(shù)計算誤差,并更新權值w和偏置參數(shù)b9.End for10.輸出S-CNN模型

      圖3 分類核心流程

      5 方案分析

      5.1 模型復雜度分析

      CAMDOT在本地端使用PCA方法,其矩陣的完整的特征向量分解的時間復雜度為O(n3).將數(shù)據(jù)集投影到前k個主成分中,即只需要前k個特征值和特征向量,所以它的時間復雜度為O(k·n2),這使得本地端上傳數(shù)據(jù)更高效.Softmax分類算法的時間復雜度為O(n),CNN的時間復雜度也是O(n),但是由于數(shù)據(jù)分批次輸入,二者可以看作是并行工作,所以分類算法的時間復雜度無需累加,還是O(n).

      5.2 相關性與準確率分析

      本文使用分類正確的數(shù)據(jù)量與所有數(shù)據(jù)量的商值計算分類準確率,如下式:

      (10)

      (11)

      定理1在多源域數(shù)據(jù)可選擇的情況下,選擇的源域個數(shù)Nu越多,源域數(shù)據(jù)量NS越大,則分類精確度越高.

      證明

      已知式(8)中NT和NTg為固值,0<β<1,且β越大,分類結果越好.可得變量NS越大,則acc的值越大,即分類精確度越高.

      式(11)中,源域數(shù)據(jù)量NS由用戶需求數(shù)據(jù)量Nu決定,而用戶源域數(shù)據(jù)個數(shù)Nu和相關系數(shù)β反向相關,即相關系數(shù)β越大,對源域數(shù)據(jù)與分類需求數(shù)據(jù)的相關性要求越高,那么可選擇的Nu越??;相反地,相關系數(shù)β越小,對源域數(shù)據(jù)與分類需求數(shù)據(jù)的相關性要求越小,那么可選擇的Nu越大.

      6 實驗與分析

      6.1 實驗數(shù)據(jù)

      (1)人造數(shù)據(jù)集

      在本文的硬件環(huán)境中,CPU使用Intel i5,GPU使用NVIDIA GeForce RTX 3080Ti,采用Python 3.9來構造一個無數(shù)據(jù)標簽的人造數(shù)據(jù)集,作為遷移學習的數(shù)據(jù)池.該數(shù)據(jù)集的類別為4,每個類別的樣本數(shù)為300,維度為2.本文的卷積神經(jīng)網(wǎng)絡由4個卷積層、4個池化層、1個分類器組成,卷積層采用了3×3大小的卷積核,卷積核的個數(shù)分別為16、32、64、128,步長為1,填充為0,Softmax作為分類器.本次實驗總共訓練迭代10 000次,初始學習率設為0.001,動量系數(shù)為0.9,權重衰減系數(shù)為0.005.此外,為了更直觀、更清晰地驗證分類算法,數(shù)據(jù)分布形式為螺旋分布.將數(shù)據(jù)集映射到空間中實現(xiàn)可視化,如圖4所示.實驗中,將數(shù)據(jù)集隨機分為10個數(shù)據(jù)組,模擬遷移學習中的多個源域,即本文中的多個用戶數(shù)據(jù),其中一組數(shù)據(jù)作為目標域數(shù)據(jù),其余分組作為源域數(shù)據(jù).

      圖4 原始數(shù)據(jù)分布

      (2)真實數(shù)據(jù)集

      采用Caltech和Office[17]兩個真實數(shù)據(jù)集進行模擬實驗.其包括4個域,即C(Caltech-256)、A(Amazon)、W(Webcam)和D(DSLR),具體情況參考表2.對于數(shù)據(jù)集,實驗中選取1個子集作為目標,剩余的子集計算與該目標域的相關性并排序,按照相關性從高到低分別構造1、2、3個源域的分類任務;分別選A和C為目標域構造A組和C組2組多源遷移任務.在實驗中,分別將2個多源遷移學習算法A-SVM、Multi-KMM及MTL-BDI[17]與本文分類算法S-CNN進行對比.

      表2 Caltech和Office數(shù)據(jù)集分布情況

      6.2 結果分析

      (1)人造數(shù)據(jù)集

      分別計算人造數(shù)據(jù)集中不同源域與目標數(shù)據(jù)的相關系數(shù),并模擬了源域個數(shù)Nu為9、6、3的分類效果;然后,將二維數(shù)據(jù)映射到坐標系中,實現(xiàn)可視化,如圖5所示.從實驗結果可以明顯看出,Nu=9的分類效果最好,這在一定程度上驗證了定理1.而根據(jù)表3的準確率,發(fā)現(xiàn)Nu=9和Nu=6的結果相差并不大.其原因可能是數(shù)據(jù)隨機分割為10組,其中一些組包含數(shù)據(jù)分類邊界的點,也有一些組包含數(shù)據(jù)分類內(nèi)部的點.而本文的模型在確定其中一組作為分類目標后,利用數(shù)據(jù)分布概率計算各組與目標分組的數(shù)據(jù)相關性,并令相關性高的分組優(yōu)先被選擇.所以當Nu=6時,可能被選擇的6組源域數(shù)據(jù)已經(jīng)包含大多數(shù)目標域數(shù)據(jù)的信息,因此訓練得到的模型獲得較高的準確率.

      圖5 S-CNN分類結果

      表3 人造數(shù)據(jù)集實驗準確率表

      (2)Caltech和Office數(shù)據(jù)集

      根據(jù)數(shù)據(jù)相關性計算,得到針對A組分類任務源域相關性排序為C>W>D,所以構建了CWD→A、CW→A、C→A共3組實驗,而為了證明本文提出的源域相關性與分類結果相關,增加了1組對比實驗D→A.同樣的方法,得到針對C組分類任務源域相關性排序為A>W>D,所以構建了AWD→C、AW→C、A→C和D→C共4小組實驗.

      模擬實驗以分類任務為自變量、分類準確率為因變量得到的實驗結果,并使用ROC曲線下面積(AUC)來評估模型的準確性,如圖6所示.從圖6可以看出,利用相關性排序選擇的前3小組與對比小組的實驗結果差別較大,且A→C和D→C組的分類準確度較差.這說明提出的相關性計算進行域定界的方法能夠有效地選出與目標域數(shù)據(jù)最相似的源域數(shù)據(jù),得到較好的分類結果.此外,在A組和C組內(nèi),隨著源域數(shù)量的增多,分類精確度也在不斷提高,這也表明一般情況下,多源域數(shù)據(jù)分類還是需要有足夠的數(shù)據(jù)量才能訓練較好的分類模型.不僅如此,在與其他多源域分類方法的對比中,本方案在CW→A、AW→C兩個小組的分類準確率比較中,有較明顯的優(yōu)勢.其原因可能是A、C和W數(shù)據(jù)的相關性較高,所以選擇其中一個子集的數(shù)據(jù)作為目標域都可以得到較好的分類結果,而本文提出的S-CNN算法是基于數(shù)據(jù)相關性基礎上,由源域數(shù)據(jù)初始化分類器,所以相關性較高的3個數(shù)據(jù)子集的分類結果就會表現(xiàn)良好.

      圖6 數(shù)據(jù)集分類準確率比較

      7 總結

      本文基于多源域遷移學習機制,提出了分類模型CAMDOT.本地端通過PCA降維增加了數(shù)據(jù)安全性,同時降低與服務器的通信開銷.服務器端針對用戶分類需求利用數(shù)據(jù)相關性選擇源域數(shù)據(jù),增強了分類模型的泛化能力.此外,使用S-CNN循環(huán)分類方法,提高了分類的精確度.在人造數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗結果均驗證了本文所提出的分類模型的有效性.最后,聯(lián)合源域中參與者的共識機制是本文進一步研究和討論的問題.

      猜你喜歡
      源域分類器標簽
      多源域適應方法綜述
      基于參數(shù)字典的多源域自適應學習算法
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      標簽化傷害了誰
      可遷移測度準則下的協(xié)變量偏移修正多源集成方法
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      莆田市| 景泰县| 都昌县| 北川| 新昌县| 隆尧县| 五河县| 阿鲁科尔沁旗| 浠水县| 江安县| 鹤壁市| 依兰县| 高青县| 东乌珠穆沁旗| 巴彦县| 平泉县| 乐业县| 宁化县| 昭觉县| 临西县| 高台县| 安阳县| 安庆市| 惠水县| 兴化市| 敖汉旗| 舒城县| 衡阳市| 泾川县| 柯坪县| 芒康县| 阿合奇县| 朝阳市| 正蓝旗| 松阳县| 成武县| 日土县| 都安| 台东县| 乌恰县| 泊头市|