• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于自適應(yīng)動(dòng)量更新策略的Adams算法

      2023-05-30 10:48:04李滿園羅飛顧春華羅勇軍丁煒超
      關(guān)鍵詞:優(yōu)化算法

      李滿園 羅飛 顧春華 羅勇軍 丁煒超

      摘要:Adam算法是目前最常用的優(yōu)化算法之一,但其面臨學(xué)習(xí)率震蕩導(dǎo)致模型不收斂問題,其改進(jìn)算法AMSGrad也存在梯度遞減導(dǎo)致的二階動(dòng)量失效問題。針對(duì)上述問題,提出了基于自適應(yīng)動(dòng)量更新策略的Adams算法。首先,通過為一階動(dòng)量和二階動(dòng)量引入自適應(yīng)更新參數(shù),并在最后的參數(shù)更新期間采用較小的一階動(dòng)量更新參數(shù),構(gòu)建了一種自適應(yīng)的動(dòng)量更新策略。其次,基于該更新策略,提出了一種能夠快速收斂的Adams算法。最后,通過理論分析證明了Adams算法的收斂性?;谖谋痉诸惡蛨D像分類的對(duì)比實(shí)驗(yàn)表明,相比于Adam和AMSGrad算法,Adams收斂速度更快、訓(xùn)練結(jié)果更好,且具有優(yōu)秀的泛化能力;消融實(shí)驗(yàn)證明了Adams算法自適應(yīng)動(dòng)量更新策略的有效性。

      關(guān)鍵詞:優(yōu)化算法;自適應(yīng)動(dòng)量更新策略;一階動(dòng)量;二階動(dòng)量

      中圖分類號(hào):TP 301.6

      文獻(xiàn)標(biāo)志碼:A

      近年來,人工神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,已經(jīng)被廣泛應(yīng)用于人臉識(shí)別[1]、目標(biāo)檢測(cè)[2]、文本翻譯[3]、數(shù)據(jù)預(yù)測(cè)[4]及醫(yī)療[5]等領(lǐng)域。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,神經(jīng)網(wǎng)絡(luò)能夠更好地利用海量的數(shù)據(jù)[6]。為了達(dá)到更好的效果,神經(jīng)網(wǎng)絡(luò)需要進(jìn)行大量的訓(xùn)練,并通過優(yōu)化算法來不斷地減少損失、優(yōu)化模型。Adam算法[7]是一種簡(jiǎn)單且高效的自適應(yīng)學(xué)習(xí)率優(yōu)化算法,可以在訓(xùn)練過程中根據(jù)歷史梯度自適應(yīng)調(diào)整學(xué)習(xí)率來獲取更好的訓(xùn)練結(jié)果[8]。Adam算法易于使用,Yi等[9]的實(shí)驗(yàn)證明,其僅使用默認(rèn)參數(shù)就可以獲得較好的訓(xùn)練結(jié)果,而且,它的計(jì)算效率高、占用內(nèi)存小,適合解決大規(guī)模數(shù)據(jù)和多參數(shù)優(yōu)化問題[10]。因?yàn)樯鲜鰞?yōu)點(diǎn),Adam算法目前已經(jīng)成為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用最多的優(yōu)化算法之一。但是,在Adam算法中,為了避免學(xué)習(xí)率過度衰減導(dǎo)致訓(xùn)練提前結(jié)束[11],采用固定時(shí)間窗口內(nèi)歷史梯度的累積作為二階動(dòng)量。在多次迭代過程中,若訓(xùn)練樣本間梯度差過大,會(huì)出現(xiàn)二階動(dòng)量波動(dòng)引起的學(xué)習(xí)率震蕩,最終導(dǎo)致模型不收斂[12]。此外,Adam算法還存在泛化能力差、可能因過擬合而錯(cuò)過全局最優(yōu)解[13]等問題。

      為了解決上述問題,并進(jìn)一步提升Adam算法的性能,不少研究者提出了自己的改進(jìn)方法。Dozat[14]利用NAG( nesterov accelerated gradient)對(duì)Adam算法的一階動(dòng)量進(jìn)行更新,從而提升收斂速度。文獻(xiàn)[15-16]指出幾乎所有深度學(xué)習(xí)庫(kù)中,對(duì)于包括Adam算法的權(quán)重衰減方法的實(shí)現(xiàn)都存在錯(cuò)誤,并在Adamw算法中進(jìn)行修正。Reddi等[12]提出AMSGrad算法,通過改進(jìn)二階動(dòng)量的迭代方式來避免學(xué)習(xí)率的震蕩,從而解決模型不收斂問題。Lazy Adam算法[17]是Adam算法的一種常用的變體,通過引入懶惰梯度更新機(jī)制實(shí)現(xiàn)對(duì)稀疏梯度問題的高效處理,更適用于自然語言處理等梯度稀疏任務(wù)。Keskar掣[8]提出在訓(xùn)練的后期,從Adam算法切換到SGD( stochastic gradient descent)算法[19]可以使模型獲得更好的泛化性能。

      在上述對(duì)于Adam算法的改進(jìn)中,AMSGrad算法解決了Adam算法中存在的模型不收斂問題。但是,當(dāng)訓(xùn)練中多次迭代的梯度保持不變或整體呈遞減趨勢(shì),AMSGrad算法的二階動(dòng)量會(huì)無法正常更新而導(dǎo)致自適應(yīng)學(xué)習(xí)率失效。針對(duì)這一問題,本文分析了自適應(yīng)學(xué)習(xí)率失效的原因,并提出基于自適應(yīng)動(dòng)量更新策略的Adams算法。本文的主要研究工作為:a.實(shí)現(xiàn)二階動(dòng)量自適應(yīng)更新,在解決模型不收斂的同時(shí),避免自適應(yīng)學(xué)習(xí)率失效問題;b.實(shí)現(xiàn)一階動(dòng)量參數(shù)在訓(xùn)練過程中的自適應(yīng)增加,獲取更快的收斂速度;c.在最后的參數(shù)更新階段中,采用較小的一階動(dòng)量更新參數(shù),使模型完成更加精細(xì)的收斂。

      1 Adams算法設(shè)計(jì)

      1.1 自適應(yīng)學(xué)習(xí)率失效問題

      為了避免Adam算法中因?yàn)槎A動(dòng)量波動(dòng)導(dǎo)致的模型不收斂問題,AMSGrad算法優(yōu)化了二階動(dòng)量的更新公式,優(yōu)化后的公式為

      vt ← max(β2vtt1 +(1 ∞β2)g2t , vtt 1) (1)式中:9t為梯度;vt為梯度的二階原點(diǎn)矩的有偏估計(jì),即二階動(dòng)量;β2為二階動(dòng)量的指數(shù)移動(dòng)加權(quán)衰減率,即二階動(dòng)量更新系數(shù)。

      由式(1)可知,AMSGrad算法取迭代前后二階動(dòng)量的最大值作為新的二階動(dòng)量的值。這一策略可以防止二階動(dòng)量在整個(gè)訓(xùn)練的過程中出現(xiàn)波動(dòng),通過避免學(xué)習(xí)率震蕩來解決模型不收斂問題。但是,若訓(xùn)練過程中梯度整體呈下降趨勢(shì),二階動(dòng)量則會(huì)始終保持不變,無法正常更新,導(dǎo)致算法的自適應(yīng)學(xué)習(xí)率失效。

      1.2 自適應(yīng)動(dòng)量更新策略

      一方面為了在解決Adam算法不收斂問題時(shí)避免出現(xiàn)自適應(yīng)學(xué)習(xí)率失效問題,另一方面為了加速模型的收斂,針對(duì)一階動(dòng)量和二階動(dòng)量,提出了自適應(yīng)動(dòng)量更新策略。自適應(yīng)動(dòng)量更新策略的設(shè)計(jì)主要考慮以下幾個(gè)方面的問題:a.通過為二階動(dòng)量引入恒大于1的更新參數(shù),令其在整個(gè)訓(xùn)練過程中嚴(yán)格單調(diào)遞增,避免了學(xué)習(xí)率的震蕩導(dǎo)致的模型不收斂問題。同時(shí),參數(shù)不能過大,否則會(huì)因二階動(dòng)量過度累積導(dǎo)致訓(xùn)練提前結(jié)束。b.令一階動(dòng)量更新參數(shù)隨著訓(xùn)練進(jìn)行逐漸變大,并在最后的參數(shù)更新階段將其設(shè)置為較小的值。自適應(yīng)動(dòng)量更新策略分為二階動(dòng)量改進(jìn)和一階動(dòng)量改進(jìn)這兩部分。

      首先,綜合考慮Adam算法中的模型不收斂問題與AMSGrad算法中的自適應(yīng)學(xué)習(xí)率失效問題,為二階動(dòng)量引入自適應(yīng)更新參數(shù)μ,其定義為

      μ ← 1 + α/vtt 1 (2)式中,a[為算法的預(yù)設(shè)學(xué)習(xí)率。

      因?yàn)?,學(xué)習(xí)率a[恒為正,且二階動(dòng)量v。恒為正,所以,μ恒大于1。μ可以使二階動(dòng)量在訓(xùn)練中嚴(yán)格單調(diào)遞增,同時(shí)避免學(xué)習(xí)率震蕩和自適應(yīng)學(xué)習(xí)率失效兩個(gè)問題。此外,μ與算法的實(shí)際學(xué)習(xí)率線性正相關(guān),會(huì)在訓(xùn)練中自適應(yīng)減小,因此,不會(huì)出現(xiàn)梯度過度累積導(dǎo)致訓(xùn)練提前結(jié)束的問題?;谧赃m應(yīng)更新參數(shù),μ構(gòu)建的自適應(yīng)二階動(dòng)量更新方法,如式(3)所示。

      vt ← max(β2vtt 1 +(1 ∞β2)g2t, μvtt 1) (3)

      其次,Sutskever等[20]的研究表明:一方面,令一階動(dòng)量的更新參數(shù)β1在訓(xùn)練過程中緩慢地增大,可以使模型收斂更快,從而達(dá)到Hessian-Free優(yōu)化[21]的效果;另一方面,在最后的參數(shù)更新階段采用較小的一階動(dòng)量更新參數(shù)可以獲得更加精細(xì)的收斂結(jié)果。因此,令β1在每次迭代完成后乘以μ來緩慢增大,以獲取更快的收斂速度。同時(shí),采用文獻(xiàn)[20]的策略,即在最后1000次參數(shù)更新期間將β1設(shè)置為0.9,以獲取更好的收斂結(jié)果,并設(shè)置2個(gè)消融實(shí)驗(yàn)分別證明這兩點(diǎn)改進(jìn)的有效性。應(yīng)用這一改動(dòng)后,一階動(dòng)量更新公式為

      mt ← μtt 1β1mtt 1 +(1 ∞μtt 1β1)gt (4)式中:m t為梯度的一階原點(diǎn)矩的有偏估計(jì),即一階動(dòng)量;β1為一階動(dòng)量的指數(shù)移動(dòng)加權(quán)衰減率,即一階動(dòng)量更新參數(shù)。

      1.3 Adams算法

      算法1簡(jiǎn)要描述基于自適應(yīng)動(dòng)量更新策略的Adams優(yōu)化算法的執(zhí)行流程。

      在算法1中,第2行計(jì)算出當(dāng)前梯度9t后,第3,4行分別計(jì)算9t的一階原點(diǎn)矩估計(jì)mt和二階原點(diǎn)矩估計(jì)vt,即一階動(dòng)量和二階動(dòng)量。在迭代初期,計(jì)算出的mt和vt都是有偏的,因此,分別在第5,6行對(duì)其進(jìn)行偏差修正。迭代后期,對(duì)梯度的矩估計(jì)逐漸變?yōu)闊o偏估計(jì),修正強(qiáng)度也逐漸降為1。算法1中第7行得到自適應(yīng)更新參數(shù)μ,用于mt和vt的自適應(yīng)更新。最后,在第8行完成模型參數(shù)的更新。此外,在最后1000次參數(shù)更新中將β1設(shè)置為0.9并未在算法1中詳細(xì)寫出。

      2 Adams算法收斂性證明

      為了證明Adams算法的收斂性,需要使用算法收斂性評(píng)判的標(biāo)準(zhǔn)定義,以及一些收斂性分析的常用假設(shè),在此基礎(chǔ)上,對(duì)Adams算法的收斂性進(jìn)行理論分析。

      定義1對(duì)于任意給定的未知凸代價(jià)函數(shù)系列f1(θ),f2(θ),…,f7(θ),算法在迭代中給出預(yù)測(cè)參數(shù)模型θt。用任意給定凸代價(jià)函數(shù)f1對(duì)其進(jìn)行評(píng)估,并使用收斂指標(biāo)R(T)來對(duì)算法進(jìn)行整體性的評(píng)估。當(dāng)T趨于無窮大時(shí),lim (R(T)/T)=0,則認(rèn)為此算法收斂。R(T)定義為

      至此,證得R(T)存在上界。根據(jù)定義1可得結(jié)論:Adams算法收斂。

      3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      3.1 實(shí)驗(yàn)環(huán)境

      基于深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)了基于白適應(yīng)動(dòng)量更新策略的Adams算法,實(shí)驗(yàn)環(huán)境中的多個(gè)主要工具包的具體版本如表1所示。

      在reuters, MNIST. fashion MNIST, CIFARIO,CIFARIOO共5個(gè)公共數(shù)據(jù)集上,通過文本分類與圖像分類實(shí)驗(yàn),測(cè)試Adams算法的性能。其中,reuters是來自路透社的短新聞文本數(shù)據(jù)集;MNIST是手寫數(shù)字的灰度圖像數(shù)據(jù)集;fashionMNIST是包含不同種類商品的灰度圖像數(shù)據(jù)集;CIFARIO,CIFARIOO是包含不同種類物品的彩色圖像數(shù)據(jù)集。5個(gè)數(shù)據(jù)集的數(shù)據(jù)量、訓(xùn)練集與測(cè)試集劃分、數(shù)據(jù)特征如表2所示。

      3.2 算法對(duì)比實(shí)驗(yàn)與分析

      Adams算法通過自適應(yīng)動(dòng)量更新策略解決Adam算法不收斂問題的同時(shí),避免了AMSGrad算法中的白適應(yīng)學(xué)習(xí)率失效問題。因此,選取Adam算法和AMSGrad算法進(jìn)行對(duì)比實(shí)驗(yàn)。上述提及的算法均為白適應(yīng)學(xué)習(xí)率算法,而Wilson等[16]的研究表明,白適應(yīng)學(xué)習(xí)率算法得到模型的泛化能力通常不如帶動(dòng)量的SGD算法(SGD with momentum.簡(jiǎn)稱SGD),因此,將SGD算法也作為對(duì)比對(duì)象??紤]到不同算法在不同學(xué)習(xí)率、不同數(shù)據(jù)集的表現(xiàn)可能不同,算法均訓(xùn)練20輪,步長(zhǎng)均設(shè)置為64,學(xué)習(xí)率分別設(shè)置為0.0001,0.001,0.002,0.003,0.004,0.005,0.01,0.05,0.1,進(jìn)行多次實(shí)驗(yàn),并選取最佳結(jié)果作為實(shí)驗(yàn)結(jié)果。

      Adams算法的目的是幫助神經(jīng)網(wǎng)絡(luò)更快地訓(xùn)練出更好的模型。為了比較Adams算法在不同類型的神經(jīng)網(wǎng)絡(luò)中的表現(xiàn),也為了凸顯對(duì)比實(shí)驗(yàn)的對(duì)比性,在不同的數(shù)據(jù)集上,將使用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在reuters,MNIST,fashion MNIST這3個(gè)相對(duì)較為簡(jiǎn)單的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),使用僅包含一個(gè)線性層的全連接神經(jīng)網(wǎng)絡(luò)( fullyconnected neural network, FCNN)進(jìn)行訓(xùn)練,避免因?yàn)橛?xùn)練過快而導(dǎo)致實(shí)驗(yàn)結(jié)果失去對(duì)比性;在CIFARIO和CIFARIOO這2個(gè)相對(duì)復(fù)雜的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),采用包含3個(gè)卷積模塊的卷積神經(jīng)網(wǎng)絡(luò)( convolutional neural networks,CNN),網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。本實(shí)驗(yàn)中所有的神經(jīng)網(wǎng)絡(luò)的輸出都通過softmax函數(shù)進(jìn)行歸一化處理,并使用交叉熵計(jì)算損失來進(jìn)行參數(shù)更新,具體訓(xùn)練結(jié)果如表3所示。Relu,softmax為激活函數(shù)。

      為了更為直觀地對(duì)比4種算法,圖2 以MNIST數(shù)據(jù)集為例,給出了4種算法的收斂過程,各算法學(xué)習(xí)率的設(shè)置與表3中相同。從圖2(a)可以看出,在MNIST數(shù)據(jù)集上,SGD的收斂速度最慢,另外3種算法的收斂速度相差不大,其中,Adams收斂速度略快。由圖2(b)可知,Adams算法在采用自適應(yīng)動(dòng)量更新策略后,得到了更為精細(xì)的收斂結(jié)果,明顯優(yōu)于SGD,Adam,AMSGrad這3種算法。

      在所有數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。從表3可以看出,Adams算法在5個(gè)不同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)中均獲得了最高的分類準(zhǔn)確率。并且在訓(xùn)練了20輪之后,Adams均得到了最低的損失,這也說明其收斂速度更快。此外,Adams算法在FCNN.CNN兩類神經(jīng)網(wǎng)絡(luò)上都表現(xiàn)出了更好的性能;在文本分類任務(wù)(reuters)和圖片分類任務(wù)(MNIST, fashionMNIST. CIFAR10, CIFAR100)上也都表現(xiàn)出較好的性能,證明了Adams算法具有優(yōu)秀的泛化能力。

      3.3 消融實(shí)驗(yàn)與分析

      相比于Adam算法,Adams算法在自適應(yīng)動(dòng)量更新策略中進(jìn)行了3點(diǎn)改進(jìn),分別為:a.實(shí)現(xiàn)二階動(dòng)量自適應(yīng)更新;b.實(shí)現(xiàn)一階動(dòng)量參數(shù)在訓(xùn)練過程中的自適應(yīng)增加;c.在最后的參數(shù)更新階段采用較小的一階動(dòng)量更新參數(shù)。為了進(jìn)一步探究前2點(diǎn)改進(jìn)各自的作用,本文在Adam算法的基礎(chǔ)上分別單獨(dú)實(shí)現(xiàn)這2點(diǎn)改動(dòng),并分別記作Adams-a算法、Adams b算法,與Adams算法一起,在MNIST數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。MNIST數(shù)據(jù)集內(nèi)數(shù)據(jù)特征簡(jiǎn)單,如果采用比較復(fù)雜的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在數(shù)次迭代后4種優(yōu)化算法都會(huì)達(dá)到較高的準(zhǔn)確率。為了使實(shí)驗(yàn)結(jié)果更加具有可比性,在消融實(shí)驗(yàn)中仍然使用僅包含1個(gè)線性層的全連接神經(jīng)網(wǎng)絡(luò),訓(xùn)練輪次為10次。消融實(shí)驗(yàn)的具體實(shí)驗(yàn)結(jié)果如圖3所示。

      由圖3(a)可知,在Adams a算法中實(shí)現(xiàn)二階動(dòng)量自適應(yīng)更新后,獲得了與Adams算法相近的損失與準(zhǔn)確率,但損失下降速度慢;由圖3(b)可知,在Adams b算法中實(shí)現(xiàn)一階動(dòng)量參數(shù)的自適應(yīng)增加后,得到了更快的損失下降速度,但最終模型損失較高,且準(zhǔn)確率較低。這些現(xiàn)象的出現(xiàn),也進(jìn)一步證明了:a.二階動(dòng)量的自適應(yīng)更新可以使Adams算法獲得更好的收斂結(jié)果;b.一階動(dòng)量更新參數(shù)在訓(xùn)練中自適應(yīng)增加,并在最后1 000次參數(shù)更新中設(shè)置為0.9,可以使Adams算法獲得更快的收斂速度。

      為了驗(yàn)證Adams算法中第3點(diǎn)改進(jìn)的有效性,將僅應(yīng)用前2點(diǎn)改進(jìn)的算法記作Adams c算法,并與Adams算法一起在MNIST上進(jìn)行消融實(shí)驗(yàn)。此實(shí)驗(yàn)是為了驗(yàn)證最終的收斂結(jié)果是否更加精細(xì),因此,采用早停法,當(dāng)Adams c算法出現(xiàn)訓(xùn)練次數(shù)增多而模型表現(xiàn)變差的情況時(shí)停止訓(xùn)練。Adams算法訓(xùn)練相同次數(shù)。除此之外,實(shí)驗(yàn)采用與算法對(duì)比實(shí)驗(yàn)相同的參數(shù)設(shè)置,實(shí)驗(yàn)結(jié)果如表4所示。從表4中數(shù)據(jù)可知,這一改動(dòng)可以略微提升模型的性能。

      4 結(jié)束語

      針對(duì)Adam算法中因?yàn)閷W(xué)習(xí)率震蕩導(dǎo)致的模型不收斂問題,以及AMSGrad算法中自適應(yīng)學(xué)習(xí)率失效的問題,提出了基于自適應(yīng)動(dòng)量更新策略的Adams算法。在Adams算法中,一方面通過為二階動(dòng)量引入自適應(yīng)更新參數(shù)來避免不收斂問題和自適應(yīng)學(xué)習(xí)率失效問題;另一方面使一階動(dòng)量在訓(xùn)練中自適應(yīng)增大來獲取更快的收斂速度,并在最后1000次參數(shù)更新期間采用較小的一階動(dòng)量更新參數(shù)來完成更加精細(xì)的收斂。

      為了對(duì)Adams算法進(jìn)行性能評(píng)估,在reuters,MNIST, fashion MNIST. CIFARIO. CIFARIOO共5個(gè)數(shù)據(jù)集上,與SGD,Adam,AMSGrad算法進(jìn)行對(duì)比。對(duì)比實(shí)驗(yàn)證明,Adams算法相比其他3種優(yōu)化算法,收斂速度更快、收斂結(jié)果更好。為了進(jìn)一步驗(yàn)證了Adams算法中2點(diǎn)改動(dòng)的有效性,在MNIST數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。消融實(shí)驗(yàn)證明,二階動(dòng)量的自適應(yīng)更新可以使算法獲得更好的收斂結(jié)果;一階動(dòng)量更新參數(shù)的自適應(yīng)增大可以使算法獲得更快的收斂速度;在最后的參數(shù)更新階段中,采用較小的一階動(dòng)量更新參數(shù)可以使模型獲得更加精細(xì)的收斂結(jié)果。

      參考文獻(xiàn):

      [1] WANG M, DENG W H Deep face recognition:asurvey[J]. Neurocomputing, 2021, 429: 215-244.

      [2] ZHAO Z Q,ZHENG P,XU S T,et al.Object detectionwith deep leaming:a review[J]. IEEE Transactions onNeural Networks and Learning Systems, 2019, 30(11):3212-3232

      [3] SHEN X P,QIN R J.Searching and leaming Englishtranslation long text information based on heterogeneousmultiprocessors and data mining[J]. Microprocessors andMicrosYstems. 2021. 82: 103895.

      [4]張兆旭,劉成忠,基于IFOA-GRNN的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)[J]能源研究LJ信息,2020, 36(3): 162-166.

      [5]秦曉飛,鄭超陽,陳浩勝,等基于U型卷積網(wǎng)絡(luò)的視網(wǎng)膜血管分割方法[J]光學(xué)儀器,2021, 43(2): 24-30.

      [6] SEWAK M. SAHAY S K,RATHORE H.Comparison ofdeep leaming and the classical machine leamingalgorithm for the malware detection[C]//19th lEEE/ACISIntemational Conference on Software Engineering,Artificial Intelligence, Networking and Parallel/DistributedComputing. Busan: IEEE. 2018: 293-296

      [7] KINGMA D P,BA J.Adam:A method for stochasticoptimization[C]//3rd Intemational Conference on LeamingRepresentations. San Diego: ICLR, 2015: 1-15.

      [8] AITCHISON L Bayesian filtering unifies adaptive andnon-adaptive neural network optinuzation methods[C]//Proceedings of the 34th Intemational Conference on NeuralInformation Processing Systems. Vancouver: CurranAssociates Inc.2020: 18173-18182.

      [9] YI D,AHN J,JIS.An effective optimization method formachine leaming based on ADAM[J]. Applied Sciences,2020, 10(3): 1073-1093

      [10]周揚(yáng)帆.面向深度學(xué)習(xí)的隨機(jī)梯度優(yōu)化算法研究[D].洛陽:河南科技大學(xué),2020

      [11] SINGH B,DE S,ZHANG Y M Z,et al.Layer-specificadaptive learmng rates for deep networks[C]//IEEE 14thIntemational Conference on Machine Leaming andApplications. Miami: IEEE. 2015: 364-368.

      [12] REDDI S J,KALE S,KUMAR S.On the convergence ofAdam and beyond[C]//The 6th International Conference onLearning Representations. Vancouver: ICLR, 201 8: 1-23

      [13] WILSON A C,ROELOFS R,STERN M, et al.Themarginal value of adaptive gradient methods iIlmachine learning[C]//Proceedings of the 3 1 st InternationalConference on Neural Information Processing Systems.Long Beach: Curran Associates Inc. . 2017: 4151-4161.

      [14] DOZAT T. Incorporating nesterov momentum intoAdam[C]//The 4th Intemational Conference on LearningRepresentations. San Juan: Open Review. 2016: 1-4.

      [15] ILYA L. FRANK H. Fixing weight decay regularization inAdam[C]//The 6th International Conference on LearningRepresentations. Vancouver: Open Review. 2018: 1-14.

      [16] LOSHCHILOV I. HUTTER F. Decoupled weight decayregularization[C]//The 7th Intemational Conference onLearning Representation. New Orleans: ICLR. 2019: 1-4.

      [17] QURESHI M N. UMAR M S. SHAHAB S. A transfer-learning-based novel convolution neural network formelanoma classification[J] . Computers, 2022. 1 1(5): 64.

      [18] KESKAR N S. SOCHER R. Improving generalizationperfonnance by switching from Adam to SGD[DB/OL].[2017-12-20]. https://arXivpreprintarXiv:1712.07628.

      [19] ROBBINS H. MONRO S. A stochastic approximationmethod[J]. The Annals of Mathematical Statistics, 1951.22(3): 400-407.

      [20] SUTSKEVER I. MARTENS J. DAHL G. et al. On theimportance of initialization and momentum in deeplearning[C]//Proceedings of the 30th InternationalConference on International Conference on MachineLearning. Atlanta: JMLR. org, 2013: 1139-1147.

      [21] MARTENS J. Deep learning via hessian-free optimization[C]//Proceedings of the 27th Intemational Conference onMachine Leaming. Haifa: ICML. 2010: 735-742.

      猜你喜歡
      優(yōu)化算法
      淺議小學(xué)數(shù)學(xué)口算教學(xué)的有效策略
      云計(jì)算平臺(tái)聯(lián)合資源調(diào)度優(yōu)化算法研究
      PLC故障檢測(cè)優(yōu)化算法
      原子干涉磁力儀信號(hào)鑒頻優(yōu)化算法設(shè)計(jì)
      故障樹計(jì)算機(jī)輔助分析優(yōu)化算法研究與應(yīng)用
      混沌優(yōu)化算法在TSP問題的應(yīng)用
      基于混沌初始化和高斯擾動(dòng)的煙花算法
      再制造閉環(huán)供應(yīng)鏈研究現(xiàn)狀分析
      二進(jìn)制數(shù)轉(zhuǎn)十進(jìn)制優(yōu)化算法探討
      故障樹計(jì)算機(jī)輔助分析優(yōu)化算法的實(shí)踐應(yīng)用
      科技傳播(2016年3期)2016-03-25 00:23:31
      包头市| 永胜县| 山阴县| 庄河市| 泸溪县| 阿拉善左旗| 南涧| 江川县| 四平市| 都江堰市| 紫阳县| 二连浩特市| 龙里县| 安国市| 年辖:市辖区| 扎兰屯市| 淮北市| 伊川县| 茶陵县| 汉寿县| 浪卡子县| 彭水| 剑川县| 江油市| 洪雅县| 扶绥县| 城市| 呼和浩特市| 阿荣旗| 万源市| 凯里市| 江永县| 垦利县| 望奎县| 探索| 六枝特区| 珠海市| 微博| 韶关市| 子洲县| 潜山县|