• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種自適應步長的復合梯度加速優(yōu)化算法

      2020-09-16 04:32:50印明昂王鈺爍孫志禮于云飛
      東北大學學報(自然科學版) 2020年9期
      關鍵詞:收斂性動量步長

      印明昂, 王鈺爍, 孫志禮, 于云飛

      (1. 東北大學 機械工程與自動化學院, 遼寧 沈陽 110819;2. 中車長春軌道客車股份有限公司, 吉林 長春 130062; 3. 中國航發(fā)沈陽發(fā)動機研究所, 遼寧 沈陽 110015)

      以分類算法為基礎的“人工智能”正深刻影響著科研領域的每一方面.在此背景下,各項實驗中樣本數據的數量和維度呈現出“爆炸”增長的態(tài)勢.為適應這種趨勢,近年,數值計算理論與優(yōu)化方法得到了長足發(fā)展.其中,一階優(yōu)化算法以其出眾的計算效率在數值優(yōu)化領域得到了廣泛的研究和應用[1].Sashank等[2]指出自適應步長加速算法Adam在收斂性上存在缺陷,并通過賦予歷史梯度的“長期記憶”提出AMSGrad算法,從理論上解決了收斂問題.Jun等[3]同樣從Adam的收斂問題出發(fā),通過一種基于歷史與當前梯度的平方衰減構建了一種有針對性的自適應優(yōu)化算法.Ma等[4]在動量加速隨機梯度下降法的基礎上提出準雙曲權重衰減的加速算法QHM,并找到一種通過改變超參數將該算法轉變?yōu)槠渌惴ǖ姆椒?Luo等[5]對比了隨機梯度下降法(SGD)與自適應方法的泛化與收斂能力,通過使用動態(tài)的學習率變化界限提供了Adam和AMSGrad的一種新變種,分別稱為AdamBound和AMSBound,實現了從自適應方法到SGD的漸進平穩(wěn)過渡.

      本文基于一種當前梯度、預測梯度及歷史動量梯度三者結合的復合梯度,提出一種新型自適應步長加速優(yōu)化算法,稱為復合梯度下降法(C-Adam),并通過尋找在文獻[6]中定義的遺憾(regret)上界,證明C-Adam算法的收斂性.最后對MNIST,Cifar-10常用測試數據集及45鋼靜拉伸破壞實驗的實驗數據通過多種算法建立Logistic回歸模型,對比驗證本文算法的性能表現.

      1 復合梯度下降法

      1.1 算法描述及更新規(guī)則

      算法 1 復合梯度法C-Adam

      輸入:超參數:b1,b2;迭代步長η

      初始化θ=0;(待求參數)

      初始化gt=0;(當前梯度)

      ut=0;(預測梯度)

      mt=0;(動量一階矩)

      vt=0;(動量二階矩)

      初始化t=0;(迭代次數)

      當θ不收斂或未達到最大迭代次數時,循環(huán):

      t=t+1;

      gt=▽θJ(θt-1);(取得參數當前梯度)

      θt=θt-1-η·gt;(梯度下降法更新參數)

      t=t+1;

      ut=▽θJ(θt-1);(取得參數預測梯度)

      mt=b1·mt-1+ (1-b1)·(gt+ut);(梯度復合)

      vt=b2·vt-1+ (1-b2)·(gt+ut)2;

      θt=θt-1-η·mt/(vt)1/2;(更新參數)

      循環(huán)結束

      輸出:參數θt

      算法1為復合梯度下降法的偽代碼描述.其中,θ表示所求問題的解;gt表示數據在當前位置的梯度;ut表示利用梯度下降法更新θ后下一位置的梯度(如采用mini-batch策略在此次更新中不改變所選數據),稱為預測梯度;mt表示動量梯度,由歷史動量、當前梯度及預測梯度三者復合而成;vt表示三種梯度二階矩的復合,用以自適應控制迭代的步長;mt,vt的慣性衰減通過超參數b1,b2控制,通常b1=0.99,b2=0.999;t表示迭代次數.

      算法1與以往加速算法的區(qū)別在于將預測梯度與歷史動量區(qū)別開,通過一次真實的梯度更新找到下一步動量更精準的下降方向.這一過程雖進行了兩次迭代,但與其他算法的兩次迭代相比下降速度更快,結果更為精確.這一結論將在第二節(jié)數據測試部分得到驗證.

      1.2 收斂性證明

      運用文獻[6]中的收斂性分析方法對復合梯度法進行收斂性證明.

      首先觀察下式:

      (1)

      由算法1可知式(1)成立,將其進一步展開,有

      (2)

      其中,〈,〉表示向量之間的內積.根據算法1中mt的更新規(guī)則,有

      (3)

      (4)

      根據柯西-許瓦茲不等式:2ab≤a2+b2,有

      (5)

      根據文獻[6]定義遺憾(regret)為

      (6)

      又由凸函數性質:

      (7)

      因此為尋找復合梯度法的遺憾上界,將式(5)和式(7)代入式(6),有

      (8)

      下面首先整理含有mt的項,

      (9)

      式(9)表示將求和的最后一項單獨處理,并寫成向量的分量形式.其中,d表示向量維度.由η=η/t1/2及mt,vt的更新形式,通過數學歸納法,式(9)可變形為

      (10)

      根據閔可夫斯基不等式

      ∑(ak·bk)2≤∑ak2·∑bk2

      (11)

      由于0

      (12)

      (13)

      由于每次迭代均可以放大為式(13)的最后一項,因此式(13)不等式的右側可繼續(xù)放大為

      (14)

      式(14)的最后一個等式由數學歸納法得出.通過觀察可知,式(14)中j的取值從t開始,因此j≥t.由此可繼續(xù)整理得

      (15)

      由等比數列求和公式及柯西-許瓦茲不等式,式(15)可放大為

      (16)

      式(16)可繼續(xù)放大為

      (17)

      將式(17)的結論代回式(8),整理得

      (18)

      根據vt的更新規(guī)則,有

      另由假設θ的凸可行域F的半徑存在上界D∞,式(18)可變?yōu)?/p>

      (19)

      最終可得復合梯度法的遺憾上界為

      (20)

      綜上,復合梯度下降法存在遺憾上界,因此該算法具有收斂性.

      2 案例分析

      2.1 MNIST數據集

      由美國郵政系統(tǒng)開發(fā)的MNIST數據集[7]是圖像識別的經典數據集,共包含7萬張出自不同人的手寫0~9數字圖片.每張圖片均為28×28像素的黑白圖片,因此每組樣本由784維的數據和一個樣本標簽組成.

      利用MNIST數據集建立Logistic回歸模型.C-Adam算法超參數b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認設置;NAG算法的慣性系數選擇0.99;AdaDelta算法的權重衰減系數選擇0.01.所有算法的迭代步長均為0.001,mini-batch隨機數量選擇256,最大迭代次數設置為500.5種算法的訓練損失及測試損失見圖1,圖2.

      2.2 Cifar-10數據集

      Cifar-10數據集[8]共包含10個種類、6萬張像素為32×32的彩色圖像,每個像素點包括R,G,B三個數值,因此該數據集維度為32×32×3=3 072.

      對Cifar-10數據集建立Logistic回歸模型.C-Adam算法超參數b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認設置;NAG算法的慣性系數選擇0.99;AdaDelta算法的權重衰減系數選擇0.01.所有算法的迭代步長均為0.001,mini-batch隨機數量選擇256,最大迭代次數設置為1 000.5種算法的訓練損失及測試損失見圖3,圖4.

      2.3 基于聲發(fā)射信號的靜拉伸破壞實驗

      對45鋼試件進行兩次靜拉伸破壞實驗,分別采集實驗過程中產生的聲發(fā)射信號數據,并根據拉伸機信息劃分實驗階段,最終將兩組數據合并,建立Logistic回歸模型.

      試件的樣式尺寸根據國標GB/T6398—2000的有關內容確定,具體尺寸見圖5.試件中部狹長型缺口為預制缺陷,通過兩圓孔與拉伸機連接.控制拉伸機加載速度恒定為0.033 mm/s,兩次實驗分別進行511,673 s,分別測得聲發(fā)射信號27 081組和18 463組.

      得到原始信號后首先根據文獻[9]所述方法進行特征提取,獲得每組信號的30個特征參量;然后利用文獻[10]的降噪方法對所有特征進行降噪處理,并將所得數據歸一化;最后繪制拉伸機的時間-力曲線,找到試件經歷的不同狀態(tài),以此對數據進行類別劃分.兩組實驗的階段劃分如圖6,圖7所示.

      將兩次實驗數據合并,并建立Logistic回歸模型.其中,5種算法的超參數選擇與Cifar-10數據集實驗相同.訓練損失與測試損失見圖8,圖9,模型的擬合正確率及驗證正確率見表1.

      表1 模型擬合及驗證正確率Table 1 Model fitting and verification accuracy

      3 結 論

      1) 由三組訓練損失圖可以看出,C-Adam在訓練過程中的收斂速度明顯高于其他算法,且隨著迭代次數的增加損失值下降明顯,證明該算法具有快速收斂的特性.

      2) 對于三組測試損失,C-Adam的收斂速度同樣優(yōu)于其他算法,且收斂于更小的損失水平,說明該算法具有良好的穩(wěn)定性.

      3) 通過45鋼拉伸實驗數據的模型擬合結果可知,C-Adam的擬合正確率達到98.17%,驗證正確率達到97.86%,明顯高于其他算法,說明該算法可以提供更優(yōu)的解.

      猜你喜歡
      收斂性動量步長
      動量守恒定律在三個物體系中的應用
      高中數理化(2024年8期)2024-04-24 05:21:33
      基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
      應用動量守恒定律解題之秘訣
      Lp-混合陣列的Lr收斂性
      動量相關知識的理解和應用
      END隨機變量序列Sung型加權和的矩完全收斂性
      行為ND隨機變量陣列加權和的完全收斂性
      松弛型二級多分裂法的上松弛收斂性
      基于逐維改進的自適應步長布谷鳥搜索算法
      一種新型光伏系統(tǒng)MPPT變步長滯環(huán)比較P&O法
      電測與儀表(2014年2期)2014-04-04 09:04:00
      巴中市| 抚松县| 拉萨市| 淮安市| 黑水县| 卢湾区| 龙井市| 黔东| 东莞市| 邻水| 神农架林区| 五台县| 梁山县| 西充县| 旅游| 荥阳市| 德清县| 买车| 九台市| 松江区| 嘉峪关市| 汾西县| 正阳县| 大理市| 衢州市| 元阳县| 阜阳市| 江油市| 江川县| 石首市| 红原县| 嘉义市| 贵溪市| 临汾市| 新田县| 肇东市| 双柏县| 綦江县| 丹棱县| 扶沟县| 安福县|