• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度神經(jīng)網(wǎng)絡內部遷移的信息幾何度量分析

      2019-04-13 13:23陳力費洪曉李海峰何嘉寶譚風云
      湖南大學學報·自然科學版 2019年2期
      關鍵詞:遷移學習深度學習

      陳力 費洪曉 李海峰 何嘉寶 譚風云

      摘 ??要:使用深度神經(jīng)網(wǎng)絡處理計算機視覺問題時,在新任務數(shù)據(jù)量較少情況下,往往會采用已在大數(shù)據(jù)集上訓練好的模型權值作為新任務的初始權值進行訓練,這種訓練方式最終得到的模型泛化能力更好.對此現(xiàn)象,傳統(tǒng)解釋大多只是基于直覺分析而缺少合理的數(shù)學推導.本文將深度神經(jīng)網(wǎng)絡這種網(wǎng)絡結構不變下層間的學習轉為深度神經(jīng)網(wǎng)絡內部的遷移能力,并將學習過程變化形式化到數(shù)學表達式.考慮數(shù)據(jù)集對訓練過程帶來的影響,利用信息幾何分析方法,確定不同數(shù)據(jù)集流形之上的度量和聯(lián)絡,實現(xiàn)不同數(shù)據(jù)集之間的嵌入映射,同時將參數(shù)空間的變化也放入流形空間,探究其對學習過程的共同影響,最終實現(xiàn)對這種內部遷移現(xiàn)象的數(shù)學解釋.經(jīng)過分析和實驗驗證可得內部遷移過程其實是一種能使網(wǎng)絡可以在更廣空間進行最優(yōu)搜索的變化,有利于模型可以在學習過程中獲得相對的更優(yōu)解.

      關鍵詞:深度學習; 遷移學習; 信息幾何

      中圖分類號:TP183 ?????????????????????????????????文獻標志碼:A

      Analysis on Information Geometric Measurement

      of Internal Transfer of Deep Neural Network

      CHEN Li1,2,F(xiàn)EI Hongxiao2,LI Haifeng1?覮,HE Jiabao2,TAN Fengyun2

      (1. School of Geosciences and Info-Physics,Central South University,Changsha 410083,China;

      2. School of Software Engineering, Central South University, Changsha 410083,China)

      Abstract: When deep learning is used to deal with the computer vision tasks, under little number of new task data, the pre-trained model weight based on a very large data is trained as an initial weight to get better generalization ability. At this?point, former explanations are based on the intuitive analysis and lack of reasonable mathematical methods. In this paper, deep neural network, which trains on internal layers with fixed structure,changed into internal transfer ability in deep neural network. The changes of learning process are formalized into a mathematical expression. Considering the influence of the data set on the training process, the information geometric analysis method is used to determine the metrics and connections over manifolds of different data sets, which can realize the embedding mapping between different data sets. At the same time, the change of parameter space is also put into a manifold space to explore its common influence on learning process. Finally, a mathematical explanation is provided for the internal transfer phenomenon. Meanwhile, after the analysis and experiments, the process of internal transfer is identified as a change which can make the network search for optimal search in a wider space. Therefore, the model can obtain a relative better solution in learning process.

      Key words: deep learning; transfer learning; information geometry

      計算機視覺是人工智能非常重要的研究領域,視覺也是人和動物最重要的感覺,至少有80%以上的外界信息經(jīng)視覺獲得.大數(shù)據(jù)環(huán)境下,圖像與視頻類數(shù)據(jù)增長速度達到前所未有的高度.然而,Science雜志認為現(xiàn)狀可描述為:“data-rich but analysis-poor”[1].如何學習到好的“特征”,一直是計算機視覺中的基礎性問題[2].傳統(tǒng)圖像識別方法中,大多通過設計者的先驗知識,手工設計特征,如SIFT[3],HOG[4]等,往往很難真正捕捉到物體的本征特征.近年來深度學習[5]方法的興起,在圖像識別和理解等諸多任務上,獲得許多令人印象深刻的成績.本質上深度學習可以看成是一種“端到端”的特征學習方法[6],借助強大的計算力,通過大量訓練樣本從低層特征組合成更加抽象的高級特征來揭示事物的屬性和特征,這也是其在圖像識別應用中成功的重要原因.

      雖然借助深度學習技術[7],圖像識別問題取得了突破性進展,但深度學習也存在很多局限性.如果新的視覺任務上缺少大量標注的數(shù)據(jù),通常需要消耗大量人力物力對數(shù)據(jù)進行標注和清洗.而且在許多特定視覺識別任務中,例如糖尿病視網(wǎng)膜病變分析,大量標定的數(shù)據(jù)往往沒有那么容易獲得.這使得深度神經(jīng)網(wǎng)絡在小樣本學習問題上表現(xiàn)不是非常好,泛化性較差且容易過擬合.對此深度學習提供了一種遷移學習的方法,確定網(wǎng)絡結構,在訓練過程中,參數(shù)不再隨機初始化,可以利用已在大庫上學習到的收斂模型,將其權值作為新任務網(wǎng)絡模型的初始值進行再訓練,將這種神經(jīng)網(wǎng)絡的遷移過程叫做微調[8].深度神經(jīng)網(wǎng)絡遷移學習的結果往往比直接在新任務上重新隨機初始化參數(shù)訓練的收斂速度更快,泛化能力更強.Abràmoff等人[9]利用深度學習和微調等方法,輕易將糖尿病視網(wǎng)膜病變檢測能力提高到專家水平.

      微調的方法也具有很強的技巧性,針對不同的任務需要遷移不同的信息.例如在圖像任務中,固定前面幾層權值信息,然后重新訓練后幾層參數(shù),而在語音識別任務中,會固定后幾層參數(shù),需要重新訓練前幾層的參數(shù).并且遷移的層數(shù)對遷移的效果也會產(chǎn)生不同的影響,Yosinski等人[10]分析,隨著固定遷移層的參數(shù)增加,識別效果會先上升然后急速下降,因此遷移學習具有不穩(wěn)定性和不確定性.深度神經(jīng)網(wǎng)絡的訓練過程大多采用類梯度下降算法,雖然類隨機梯度下降算法在非凸優(yōu)化問題上對初始點敏感,但在深度學習中,在高維參數(shù)的情況下主要以鞍點的形式存在,即得到的局部最小可以近似等于全局最小[11].可是遷移學習這種表面上只影響了初始化參數(shù)而得到的效果又十分突出.現(xiàn)有的分析大多是基于直覺和特征可視化的直觀分析,認為在大庫上的信息更加豐富,所以卷積核獲取的特征也更加豐富,對于新任務圖片的響應,只需要在原有響應上做調整就能很輕松地適用于新任務.而且由于原有豐富的特征表達能力,這種特征表達在新任務學習過程中難以獲取,但又對新任務識別具有非常大的幫助作用,這就使得微調效果變得非常好.但這種解釋太過于依賴直覺分析,缺少更好的數(shù)學解釋,這種層間變化過程很難用傳統(tǒng)統(tǒng)計學的理論進行分析.

      信息幾何是一套研究流形內蘊幾何性質變化的理論體系[12],它將概率論、統(tǒng)計學和信息論中許多概念當作概率分布空間的幾何結構,使用微分幾何的手段進行分析.學習過程中,深度神經(jīng)網(wǎng)絡層之間的變化可以看成是參數(shù)概率分布的改變,而這種變化也不斷受到數(shù)據(jù)帶來的信息影響,這就為使用信息幾何的方法分析深度神經(jīng)網(wǎng)絡學習變化過程提供了可行性.

      綜上,本文將深度神經(jīng)網(wǎng)絡在視覺任務下,卷積核變化更新以適應新任務的能力稱為其內部遷移能力,并將神經(jīng)網(wǎng)絡在遷移過程中的變化進行形式化,使用嚴謹?shù)臄?shù)學模型進行表示.學習過程中,主要變化的是學習到的權值信息,將權值信息的變化放入到流形空間中,同時考慮樣本空間,利用信息幾何度量的方法對其進行分析,并通過實驗重現(xiàn)深度神經(jīng)網(wǎng)絡內部遷移變化的過程.結果表明在大庫上學到的模型可以提供更大的參數(shù)探索空間,為深度神經(jīng)網(wǎng)絡遷移變化提供一種可能的數(shù)學解釋.

      1 ??深度神經(jīng)網(wǎng)絡內部遷移

      1.1 ??深度神經(jīng)網(wǎng)絡符號定義

      深度神經(jīng)網(wǎng)絡通常由多個隱含層堆疊而成,輸入層所有神經(jīng)元的連接都與輸出層神經(jīng)元相連.假設有訓練樣本(x1,y1),(x2,y2),…,(xn,yn),xn表示第 n個樣本的輸入信息,yn表示對應的標簽信息.神經(jīng)網(wǎng)絡由d+1層構成,分別記為第0,1,…,d層.每層的節(jié)點數(shù)目分別為mi(i = 0,1,…,d) .在本文中進一步假設第d層的節(jié)點數(shù)目為1,即輸出為一維數(shù)值.假設每個節(jié)點的激活函數(shù)表示為σ,根據(jù)需要可以選擇Sigmoid函數(shù)或者其它threshold函數(shù)等,使偏置b = x0對應權值w0 = 1,每層線性組合統(tǒng)一為

      mij=0wj xj.神經(jīng)網(wǎng)絡最核心的要素是層與層之間的連接權重矩陣,假設第i層與第i + 1層之間的連接權重矩陣wi(i + 1) ∈Mmi × mi + 1(R)(i = 0,1,…,d-1).假設

      x是一個輸入向量,那么輸出數(shù)值為σ(WT ??????(d-1)d

      σ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…)).為了表述方便,定義集合M表示與神經(jīng)網(wǎng)絡匹配的連接權重矩陣集合,W表示集合M中的一個元素,具體如下所示:

      M = Mm0 × m1(R)×…×Mmd-1 × md(R)

      W = (W0 × 1,…,W(d-1)d),Wi(i+1)∈Mmi × mi+1(R)

      (1)

      此時神經(jīng)網(wǎng)絡的學習過程簡單表述為

      Fw(x)=σ(WT ??????(d-1)dσ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…))

      (2)

      1.2 ??內部遷移學習

      在計算機視覺任務中,神經(jīng)網(wǎng)絡在大數(shù)據(jù)集上學習的信息往往比在小數(shù)據(jù)集上學習的信息更加完備.通常將在ImageNet[13]上學習的模型作為新任務的預訓練模型,使用訓練好的模型的權值信息進行初始化訓練,網(wǎng)絡結構并不需要發(fā)生變化.網(wǎng)絡逐層的調整權值以適應新任務的需求,這種內部變化的過程叫做深度神經(jīng)網(wǎng)絡的內部遷移學習.

      為了更好地分析網(wǎng)絡的內部遷移變化,首先將學習過程進行數(shù)學抽象.對于訓練樣本(x1,y1),(x2,y2),…,(xn,yn),其中數(shù)據(jù)集X = {x1,…,xn}={xi}n ???i=1,每個數(shù)據(jù)對應相關的數(shù)據(jù)類別,數(shù)據(jù)的類別標簽是一個用來區(qū)分數(shù)據(jù)的映射,使用Y表示標簽集,Y = {y1,…,yn}={yi}n ???i=1,CY表示標簽類別數(shù)量.則上述映射過程可以表示成

      label:X→Y

      s.t.,label(xi)∈Y ????坌i = 1,…,n

      (3)

      因此給定一個數(shù)據(jù)集X,可以產(chǎn)生一個與之對應的標簽向量

      label(X) = (label(xi),…,label(xn))∈RCy ???(4)

      當給定一個神經(jīng)網(wǎng)絡,數(shù)據(jù)集輸入神經(jīng)網(wǎng)絡可以得到輸出向量,神經(jīng)網(wǎng)絡的學習過程如下所示,

      Fx(x)=(Fw(x1),…,F(xiàn)w(xn))∈RCy ????(5)

      數(shù)據(jù)集的學習可以表示成在整個假設空間中,選擇合適的目標函數(shù),并在給定一個損失函數(shù)loss:R+→R最小的情況下,尋找神經(jīng)網(wǎng)絡的最優(yōu)連接權重矩陣,即如下的優(yōu)化問題:

      mlabel(xi)-Fw(xi))+αΩ(w)

      s.t. ???w∈m (6)

      其中Ω(w)表示正則化項,上式可等價描述為

      Argminw∈? ? ? ? (7)

      由公式(7)可知,學習過程求解最優(yōu)解屬于一個無約束的優(yōu)化問題.如果神經(jīng)網(wǎng)絡中選擇的激活函數(shù)足夠光滑(如Sigmoid函數(shù)),或者寫成求偏導數(shù)的形式,可以利用既有的優(yōu)化算法,如隨機梯度下降法等實現(xiàn)求解.

      此時定義內部遷移學習過程.給定一個神經(jīng)網(wǎng)絡如下所示:

      Fw(·)=σ(WT ??????(d-1)dσ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…))

      (8)

      給定一個損失函數(shù)loss:R+→R.給定兩個數(shù)據(jù)集A,B.其中A數(shù)據(jù)集較大,表現(xiàn)在類別豐富度更多,數(shù)據(jù)量更大.具體可以表示為

      A = {a1,…,an1} = {ai}n1 ???i=1

      B = {b1,…,bn2} = {bj}n2 ???j=1

      (9)

      根據(jù)上文可得關于數(shù)據(jù)集A的學習模型如下所示:

      Argmin

      同理可得數(shù)據(jù)集B的學習模型如下所示:

      Argminw∈m(label(bj)-Fw(bj))+αΩ(w)

      (P2)

      首先求解問題 ,過程如下:

      Step 1.確定算法G;

      Step 2.確定停止準則S;

      Step 3.隨機選定初始連接權重矩陣W0∈M;

      Step 4.從W0開始按照停止準則S運行算法G

      迭代,得到結果WA.

      其次求解問題(P2).為了對比內部遷移學習變化,同時定義在新任務上隨機初始化進行學習,可以選擇兩個不同的過程.

      過程一:

      Step 1.確定算法G;

      Step 2.確定停止準則S;

      Step 3.隨機選定初始連接權重矩陣W0∈M;

      Step 4.從W0開始按照停止準則S運行算法G迭代,得到結果WB.

      過程二:

      Step 1.確定算法G;

      Step 2.確定停止準則S;

      Step 3.初始連接權重矩陣選定問題(P1)的結果,即是W0 :=WA;

      Step 4.從WA開始按照停止準則S運行算法G迭代,得到結果WB′.

      過程一屬于直接隨機初始化權值進行訓練,過程二屬于內部遷移學習,通常而言WB′模型比WB模型的泛化能力更強,且過程二的收斂速度更快.

      2 ??內部遷移信息幾何分析

      上文對內部遷移學習進行了形式化的描述,明確了遷移學習的內涵,構建了遷移學習的模型,但是這樣的描述只有形式上的意義,如果需要進一步進行可行、可操作的研究,需要對數(shù)據(jù)集和連接權重矩陣進行幾何化的描述以簡化模型并且給予最直觀的解釋.

      假設數(shù)據(jù)集先驗位于某個分布族之中,即假設有一個分布族F,這個族構成的流形記為MF,坐標卡系記為f,其上的Fisher度量記為

      ds2F =F df ?i × df ?j ???????????????(10)

      根據(jù)Amari信息幾何理論[14],可以確定流形MF上的度量ds2F與相容的聯(lián)絡DF,和聯(lián)絡形式ωF以及對應的Christoffel系數(shù)Γk ???ij,F(xiàn).

      假設數(shù)據(jù)集A的概率分布來源于分布族A,則其對應的某些分布構成流形MA,顯然MA是MF的子流形,假設嵌入方式為

      ?準:MA→MF ????????????????????????????????(11)

      根據(jù)嵌入方式的拉回,可得到流形MA的坐標卡系為a:=φ*(f),其上的Fisher度量記為

      ds2Adai × da j = φ*(ds2F) ????????????(12)

      根據(jù)Amari信息幾何理論[14],可以確定流形MA上的度量ds2A與相容的聯(lián)絡DA,和聯(lián)絡形式ωA以及對應的Christoffel系數(shù)Γk ???ij,A.顯然MA上的聯(lián)絡、聯(lián)絡形式和Christoffel系數(shù)還可以通過嵌入映射?準的拉回得到,即

      前文已知數(shù)據(jù)集B在規(guī)模上遠遠小于數(shù)據(jù)集 A的規(guī)模,且同作為計算機視覺任務,假設數(shù)據(jù)集被采樣的分布在結構上相似.這個基本的假定在數(shù)學上可用子流形來表示,即假設數(shù)據(jù)集B的概率分布來源于分布族B,某些可能分布構成流形MB,那么上面的基本假設可以表示為一個嵌入映射

      φ:MB→MA ????????????????????????(14)

      根據(jù)嵌入方式的拉回,可得到流形MB的坐標卡系為b:=φ*(a),其上的Fisher度量記為

      ds2B = bi × db j = φ*(ds2A) ????????????(15)

      根據(jù)Amari信息幾何理論[14],可以確定流形MB上的度量ds2B與相容的聯(lián)絡DB,和聯(lián)絡形式ωB以及對應的Christoffel系數(shù)Γk ???ij,B.顯然MB上的聯(lián)絡、聯(lián)絡形式和Christoffel系數(shù)還可以通過嵌入映射φ的拉回得到,即

      DB = φ*(DA)

      ωB = φ*(ωA)

      Γk ???ij,B= φ*(Γk ???ij,A)

      (16)

      由流形MA到MF的嵌入和從MB到MA的嵌入

      φ:MB→MA,?準:MA→MF ?????????(17)

      可以產(chǎn)生一個從MB到MF的直接嵌入

      ?準·φ:MB→MF ?????????(18)

      根據(jù)嵌入方式的拉回,可得到流形MB的坐標卡系為b:= (φ·?準)*(f),其上的Fisher度量記為

      ds2B j,B dbi × db j = (φ·?準)*(ds2F) ???????(19)

      顯然MB上的聯(lián)絡、聯(lián)絡形式和Christoffel系數(shù)還可以通過嵌入映射φ·?準的拉回得到,即

      DB = (φ·?準)*(DF)

      ωB = (φ·?準)**(ωF)

      Γk ???ij,B= (φ·?準)*(Γk ???ij,F(xiàn))

      (20)

      固定神經(jīng)網(wǎng)絡的拓撲結構,那么所謂學習,即確定連接權重矩陣W.一般而言,神經(jīng)網(wǎng)絡的節(jié)點個數(shù)是大規(guī)模的,具體確定一個連接權重矩陣是不現(xiàn)實的,需要對連接權重矩陣空間進行簡化.假設神經(jīng)網(wǎng)絡連接權重矩陣也落在某種分布族G之中,這個分布族構成的流形結構為MG,坐標卡系為θ,其上的Fisher度量記為

      ds2GG dθi × dθ j ?????(21)

      根據(jù)Amari信息幾何理論[14],可以確定流形上的度量ds2G與相容的聯(lián)絡DG,和聯(lián)絡形式ωG以及對應的Christoffel系數(shù)Γk ???ij,G.

      學習過程不僅與數(shù)據(jù)集相關,還與神經(jīng)網(wǎng)絡的聯(lián)接分布相關,因此考察學習的過程,即考察流形MA × MG,MB × MG上的曲線過程,不同的學習算法和機制對應于曲線的不同性質.

      定理1 ??當神經(jīng)網(wǎng)絡結構不變,且數(shù)據(jù)集數(shù)據(jù)量大小,以及類豐富度小于數(shù)據(jù)集A時,神經(jīng)網(wǎng)絡在數(shù)據(jù)集B上獲得的連接權重矩陣即流形MB × MG為神經(jīng)網(wǎng)絡在數(shù)據(jù) 上流形MA × MG的子流形.

      證 ??對于流形MA × MG,其上的Fisher度量為

      ds2 ????A+G = (da,dθ)gij,A ????00 ?????gij,GdaTdθT ?????(22)

      根據(jù)Amari信息幾何理論[14],可以確定流形MA × MG上的度量ds2 ????A+G與相容的聯(lián)絡DA+G,和聯(lián)絡形式 ωA+G以及對應的Christoffel系數(shù)Γk ????????ij,A+G.它們之間顯然有如下的簡單關系:

      DA+G = DA ????00 ?????DG;ωA+G = ωA ????00 ?????ωG ??(23)

      對于流形MB × MG,其上的Fisher度量為

      ds2 ????B+G = (db,dθ)gij,B ????00 ?????gij,GdbTdθT ?????????????(24)

      根據(jù)Amari信息幾何理論[14],可以確定流形MB × MG上的度量ds2 ????B+G與相容的聯(lián)絡DB+G,和聯(lián)絡形式 ωB+G以及對應的Christoffel系數(shù)Γk ????????ij,B+G.它們之間顯然有如下的簡單關系

      DB+G = DB ????00 ?????DG;ωB+G = ωB ????00 ?????ωG ??(25)

      流形MA × MG和流形MB × MG之間有自然的嵌入關系

      (φ,id):MB × MG→MA × MG(26)

      因此流形MB × MG是流形MA × MG的子流形.

      證畢.

      整個學習過程如圖1左所示,在問題(P1)中通過隨機初始化的模型W0在數(shù)據(jù)庫 上進行訓練得到最終模型權值WA.在問題(P2)中,過程一是使用隨機初始化模型W0重新進行訓練得到最后模型WB,過程二是使用得到的模型權值WA作為初始值,在數(shù)據(jù)庫B上進行訓練得到模型WB′.通常情況下,模型WB′比模型WB具有更好的泛化能力.

      根據(jù)定理1,以及內部遷移信息幾何分析可知,問題(P2)的學習過程一,可當作在MB × MG流形上進行探索,它屬于MA × MG的子流形.因此模型隨機初始化永遠也逃不出MB × MG的流形空間,模型參數(shù)在優(yōu)化過程中的探索空間有限.而通過WA進行初始化的模型可以在整個MA × MG流形上進行探索,則能很容易達到模型較為理想的參數(shù)WB′.整個過程可簡化為如圖1右所示.

      3 ??實驗與分析

      為了更好地體現(xiàn)不同數(shù)據(jù)集之間模型遷移的效果,選用3種計算機視覺數(shù)據(jù)集.具體實驗設置數(shù)據(jù)集 為ImageNet[13],數(shù)據(jù)集大小約為138 G,其中包含1 281 167張圖,1 000類,每類大約1 300張.數(shù)據(jù)集B采用Cal101[15],數(shù)據(jù)集約131 M,其中包含102類,每類大約50張圖.數(shù)據(jù)集C使用Cal256[16],數(shù)據(jù)大小約1.2 G,其中包含257類,每類約110張圖片.其中數(shù)據(jù)集A數(shù)據(jù)量大小和類別數(shù)都大于數(shù)據(jù)集 B,C.根據(jù)前文分析,數(shù)據(jù)集B,C可以實現(xiàn)到數(shù)據(jù)集A的嵌入映射.同理數(shù)據(jù)集B也能變化為數(shù)據(jù)集C的嵌入映射.例如,ImageNet包含大多數(shù)Cal101中的類別,而未包含的類別可以通過形態(tài)變化[17]的方法實現(xiàn)嵌入映射.同理可實現(xiàn)Cal101嵌入映射到Cal256數(shù)據(jù)集.深度神經(jīng)網(wǎng)絡結構使用AlexNet[18],GoogleNet[19].

      分析不同數(shù)據(jù)集上的學習問題,首先解決問題 (P1),隨機初始化神經(jīng)網(wǎng)絡進行訓練,通過不斷的迭代,最終收斂得到模型WA.其次對比過程一和過程二網(wǎng)絡訓練的差別.

      過程一通過在數(shù)據(jù)集上直接初始化網(wǎng)絡權值進行訓練.過程二通過在ImageNet上訓練得到的模型WA的權值進行初始化,然后進行微調.為了更好地分析大庫對小庫的影響,再次通過在數(shù)據(jù)集Cal256上訓練得到的模型作為新任務Cal101的初始化值進行訓練.圖2表示Alexnet網(wǎng)絡在不同數(shù)據(jù)集和情況下的表現(xiàn),圖3所示GoogleNet網(wǎng)絡在幾種情況下的表現(xiàn).分析實驗結果可知,在AlexNet網(wǎng)絡中,對于Cal101數(shù)據(jù)集而言,隨機初始化訓練的網(wǎng)絡迭代約60輪左右時收斂,且在測試集上的準確率為73.275 9%.而通過模型對網(wǎng)絡進行微調,可以發(fā)現(xiàn)網(wǎng)絡在迭代40次左右時已經(jīng)開始收斂,且在測試集上的準確率為90.625%,遠超過重新訓練權值的結果,具有非常好的泛化能力.即使是通過Cal256數(shù)據(jù)集得到的網(wǎng)絡模型進行微調,最終也能得到比直接初始化網(wǎng)絡得到的結果更好.

      同理對比圖3,GoogleNet的最終正確率雖跟AlexNet在各個數(shù)據(jù)集上不同,但都表現(xiàn)出同樣的性質.通過在大數(shù)據(jù)集上學習得到的模型對小數(shù)據(jù)集進行微調,模型可以得到比直接在小數(shù)據(jù)集上學習更好的表現(xiàn).具體在各個任務上,各網(wǎng)絡最終的準確率如表1所示.

      通過對比隨機初始化訓練的網(wǎng)絡與微調學習方法的網(wǎng)絡,還可以發(fā)現(xiàn)在學習過程中使用微調的網(wǎng)絡,訓練誤差和測試誤差下降速度非??欤⑶以诰W(wǎng)絡開始收斂時,誤差的波動都較小.這些實驗結果都說明了,通過在大數(shù)據(jù)集上學習的模型作為新任務的初始化權值信息,可以使得模型的參數(shù)探索的空間更大,使之能找到相對較優(yōu)的結果.

      4 ??結 ??論

      深度神經(jīng)網(wǎng)絡的內部遷移過程本質上只是參數(shù)的初始化方法不同.根據(jù)Im分析[20],即使得到的局部最小值不同,其表現(xiàn)的泛化能力并沒有太大的差異,這與Dauphin等[21]分析的結果相符.然而通過大數(shù)據(jù)集訓練的網(wǎng)絡進行參數(shù)初始化,往往可以得到一個更好的結果.本文通過形式化整個學習過程,將這種參數(shù)信息的變化放入流形空間中.在考慮參數(shù)變化的同時,也融合了樣本的分布信息.通過信息幾何理論對學習過程中流形的變化進行討論.分析可得大數(shù)據(jù)集下訓練的網(wǎng)絡作為權值更新,與小數(shù)據(jù)集上重新訓練相比,隱含的包含了原樣本的數(shù)據(jù)空間,使得其具備更大的探索空間且更容易找到一個更好的模型參數(shù).通過多組實驗對比重現(xiàn)這一過程,該分析也為深度神經(jīng)網(wǎng)絡內部遷移過程提供了一種可能的數(shù)學解釋.并且在深度遷移學習問題中有關遷移變化過程中定量的分析還缺少合理的手段,該方法可進一步探究深度神經(jīng)網(wǎng)絡在學習過程中獲取的有用信息量,以及相對應丟失的冗余信息量,探索網(wǎng)絡學習過程中的不變性分析,試圖打開學習過程的黑盒,實現(xiàn)不同應用場景下又快又準的遷移.

      參考文獻

      [1] ??CLERY D,VOSS D. All for one and one for all[J]. Science,2005,308(5723):809—809.

      [2] ???DENèVE S,MACHENS C K. Efficient codes and balanced networks[J]. Nature Neuroscience,2016,19(3):375.

      [3] ??NG P C,HENIKOFF S. SIFT: predicting amino acid changes that affect protein function[J]. Nucleic Acids Research,2003,31(13):3812—3814.

      [4] ??DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2005:886—893.

      [5] ??HINTON G E,OSINDERO S,TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2014,18(7):1527—1554.

      [6] ??LEVINE S,F(xiàn)INN C,DARREL T,et al. End-to-end training of deep visuomotor policies[J]. Journal of Machine Learning Research,2016,17(1):1334—1373.

      [7] ??LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553):436—444.

      [8] ??OUYANG W,WANG X,ZHANG C,et al. Factors in fine tuning deep model for object detection with long-tail distribution[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016:864—873.

      [9] ??ABRàMOFF M D,LOU Y,ERGINAY A,et al. Improved automated detection of diabetic retinopathy on a publicly available dataset through integration of deep learning[J]. Investigative Ophthalmology & Visual Science,2016,57(13):5200.

      [10] YOSINSKI J,CLUNE J,BENGIO Y,et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems 2014. 2014: 3320-3328.

      [11] ?DAUPHIN Y,PASCANU R,GULCEHRE C,et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics,2014,111(61):2475—2485.

      [12] AMARI S I. Information geometry of statistical inference-an overview[C]//Information Theory Workshop,2002. Proceedings of the 2002 IEEE. IEEE,2002: 86-89.

      [13] ?DENG J,DONG W,SOCHER R,et al. ImageNet: A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2009:248—255.

      [14] AMARI S,NAGAOKA H. Methods of information geometry[M]. American Mathematical Society,2000:13-206.

      [15] ?LI F F,F(xiàn)ERGUS R,PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding,2007,106(1):59-70.

      [16] ?GRIFFIN G,HOLUB A,PERONA P. Caltech-256 object category dataset[EB/OL]. http://www.vision.caltech.edu/Image_Datasets/Caltech101,April 5,2006.

      [17] SCHMITZER B,SCHNORR C. Globally optimal joint image segmentation and shape matching based on Wasserstein modes[J]. Journal of Mathematical Imaging & Vision,2015,52(3):436—458.

      [18] ?KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097—1105.

      [19] ?SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2015:1—9.

      [20] IM D J,TAO M,BRANSON K. An empirical analysis of the optimization of deep network loss surfaces[J]. ArXiv Preprint ArXiv:1612.04010,2016.

      [21] DAUPHIN Y N,PASCANU R,GULCEHRE C,et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[C]// International Conference on Neural Information Processing Systems. MIT Press,2014:2933-2941.

      猜你喜歡
      遷移學習深度學習
      遷移學習研究綜述
      從認知角度探討大學英語網(wǎng)絡教學模式
      奇異值分解與移移學習在電機故障診斷中的應用
      有體驗的學習才是有意義的學習
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉課堂融合的深度學習場域建構
      大數(shù)據(jù)技術在反恐怖主義中的應用展望
      深度學習算法應用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      一種基于遷移極速學習機的人體行為識別模型
      五家渠市| 遂溪县| 威海市| 浑源县| 祁门县| 陇南市| 保靖县| 赞皇县| 宁国市| 安多县| 浦城县| 镇坪县| 奈曼旗| 霞浦县| 德阳市| 安西县| 古交市| 溧阳市| 文登市| 开鲁县| 府谷县| 基隆市| 巢湖市| 古丈县| 鄂伦春自治旗| 辽阳县| 高邑县| 阳春市| 湘阴县| 黑河市| 瑞昌市| 吉安县| 阿城市| 育儿| 修文县| 江门市| 仙居县| 新乐市| 陆河县| 睢宁县| 鄱阳县|