• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ArcReLU激活函數(shù)的優(yōu)化研究

      2021-11-05 02:48:04徐菲菲許赟杰
      上海電力大學學報 2021年5期
      關鍵詞:半軸導數(shù)梯度

      徐菲菲, 許赟杰

      (上海電力大學 計算機科學與技術學院, 上海 200090)

      隨著人工神經(jīng)網(wǎng)絡[1]的研究和發(fā)展,具有多層隱含層的深度學習逐漸成為人工智能領域中較為熱門的研究方向,而伴隨著神經(jīng)網(wǎng)絡的逐步發(fā)展,激活函數(shù)依舊是其結構中不可或缺的部分。若在神經(jīng)元中不使用非線性的函數(shù)作為激活函數(shù),那么無論神經(jīng)網(wǎng)絡具有多少隱含層,最終都只會得到輸入數(shù)據(jù)的線性組合。這樣的結果將會偏離現(xiàn)實情況,無法做到真正的擬合。因此,為了使神經(jīng)網(wǎng)絡可以應用于各種現(xiàn)實問題,需要引入非線性的因素。這是激活函數(shù)所具備的重要作用。本文將對各類不同系的激活函數(shù)進行研究和比對,綜合其優(yōu)點和不足之處,并加以改進,以達到提高收斂速度和計算精度的目標。

      目前常用的激活函數(shù)大致分為Sigmoid系函數(shù)和線性整流函數(shù)(Rectified Linear Unit,ReLU)系函數(shù)兩類。Sigmoid系中最具代表性的分別是Sigmoid[2]函數(shù)和Tanh[3]函數(shù)。這兩個函數(shù)都具備可導性,但若輸入值趨近于定義域邊界時,其導數(shù)都將會趨于平緩,從而導致向下傳播的梯度因子趨近零,最終會使神經(jīng)網(wǎng)絡參數(shù)難以得到有效的訓練。上述情況就是Sigmoid系函數(shù)的軟飽和性[4]所導致的梯度消失[5]現(xiàn)象。

      為緩解梯度消失現(xiàn)象,研究者在Sigmoid系函數(shù)后提出了ReLU函數(shù)[6]。ReLU函數(shù)具有分段函數(shù)的結構特征,當輸入值落入正半軸時,其導數(shù)部分恒為1,可以保持梯度在向下傳播時不衰減,因此能夠有效地緩解梯度消失現(xiàn)象。但是由于其負軸部分恒為零,因此負軸的導數(shù)部分將難以傳遞梯度變化,會產(chǎn)生神經(jīng)元死亡現(xiàn)象。

      指數(shù)化線性單元(Exponential Linear Unit,ELU)函數(shù)[3]作為ReLU函數(shù)的一種變體,可以較好地緩解神經(jīng)元死亡現(xiàn)象。其負軸部分具備一定的軟飽和性,整體而言更是解決了ReLU函數(shù)的均值偏移問題,是一個相對理想的激活函數(shù)。但由于其需要針對不同的模型修改參數(shù),因此在實際應用中需要花費大量的成本進行訓練和參數(shù)設置。

      針對上述常見問題,本文對ArcReLU函數(shù)[7]進行了改進。實驗結果表明:改進的ArcReLU函數(shù)具有更快的收斂速度,能夠有效降低模型的訓練誤差,同時還能緩解梯度消失現(xiàn)象的發(fā)生;在解決ReLU函數(shù)神經(jīng)元死亡問題的同時,由于其負軸部分的導數(shù)趨于零的速度更慢,相較于Sigmoid系函數(shù)更為緩和,學習效率也會得到進一步的提高;在為其添加了數(shù)超參數(shù)的改進后,使其增加了對數(shù)據(jù)集噪聲的魯棒性,緩解了均值偏移的問題。

      1 線性整流函數(shù)和指數(shù)化線性單元函數(shù)

      1.1 線性整流函數(shù)

      ReLU函數(shù)可以有效地解決Sigmoid系函數(shù)引起的梯度消失現(xiàn)象。其定義為

      f(x)=max(0,x)

      (1)

      其圖像如圖1所示。從圖1不難看出,該函數(shù)負軸部分會出現(xiàn)神經(jīng)元死亡的現(xiàn)象。

      圖1 ReLU 函數(shù)

      從圖1和式(1)可以看出:在正半軸其導數(shù)值恒為1,因此當輸入值位于正軸時,能夠保持向下的梯度不衰減,從而緩解梯度消失的問題;當輸入值落入負半軸時,該函數(shù)具有硬飽和性[2]。若輸入值位于負軸部分,神經(jīng)元的梯度將難以保持傳遞,其權重值也將無法更新,進而導致計算結果無法收斂。整體而言,ReLU函數(shù)雖為分段函數(shù),但其輸出均值恒大于等于零,即存在均值偏移問題[8]。這將會使神經(jīng)網(wǎng)絡具備稀疏特性。

      1.2 指數(shù)化線性單元函數(shù)

      ELU函數(shù)是對ReLU函數(shù)的一個改進,其定義為

      (2)

      其圖像如圖2所示。

      圖2 ELU函數(shù)

      從式(2)和圖2可以看出,ELU函數(shù)在正半軸可以有效地緩解梯度消失現(xiàn)象,而負半軸部分能夠讓ELU函數(shù)對輸入值的變化具有更好的魯棒性。整體而言,ELU函數(shù)的輸出均值趨近于零,因此具有更快的收斂速度。

      2 ArcReLU函數(shù)的優(yōu)化

      2.1 ArcReLU函數(shù)

      (3)

      其函數(shù)圖像如圖3所示。

      圖3 ArcReLU 函數(shù)

      依據(jù)圖3提出初步假設,該函數(shù)在其定義域范圍內(nèi)連續(xù)且單調(diào)遞增。為證明上述理論,需要先驗證該函數(shù)在原點處的可導性。將正軸部分定義為f1(x),負軸部分定義為f2(x),證明如下。

      f(x)=f(x-)=f(x+)=0,x=0

      (4)

      (5)

      (6)

      依據(jù)式(4)可得ArcReLU函數(shù)在原點處有定義且連續(xù)。因為式(5)與式(6)存在結果且相等,依據(jù)導數(shù)定義,該函數(shù)在原點處連續(xù)且可導,因此該函數(shù)可用于反向傳播幫助算法沿負梯度方向調(diào)整參數(shù),并可得出ArcReLU的導數(shù)為

      (7)

      從式(7)可得,ArcReLU函數(shù)的導函數(shù)值恒大于零。依據(jù)導數(shù)定義,可證明其為單調(diào)遞增函數(shù)。當激活函數(shù)具備單調(diào)性時,單層網(wǎng)絡能夠保證為凸函數(shù)[9],從而可推斷出該函數(shù)在訓練過程中將具有更好的收斂性。

      2.2 RArcReLU函數(shù)

      為提高ArcReLU函數(shù)的收斂速度,并使其具備更好的魯棒性,本文對其作進一步的改進。將改進的ArcReLU函數(shù)稱為RArc-ReLU函數(shù),其定義為

      (8)

      其中,λ為一個從均勻分布的G(i,j)中隨機抽取的數(shù)值,λ∈G(i,j),i

      式(8)中,為ArcReLU的負軸部分添加了一個非線性因子1/λ。從式(8)不難看出,當λ取值為1時,新的函數(shù)將會退化為ArcReLU函數(shù);當λ取值為零時,新的函數(shù)將會退化為ReLU函數(shù)。

      因此,為避免上述退化情況的出現(xiàn),λ的取值范圍將定義為[0,1),實際訓練過程中會采用所有λ的均值構建非線性因子,使函數(shù)整體具有更好的自歸一化作用和更好的擬合能力。另外,優(yōu)化函數(shù)后,將使函數(shù)的負半軸更為緩和,能夠更有效地緩解梯度消失的問題。

      3 實驗與結果分析

      3.1 實驗數(shù)據(jù)

      本文在BP神經(jīng)網(wǎng)絡中使用UCI上的公開數(shù)據(jù)集,分別對ELU函數(shù)、ArcReLU函數(shù)和RArc-ReLU函數(shù)進行4次對比實驗。實驗在Windows 10操作系統(tǒng)下,通過Python3.7.2編寫程序進行。4組數(shù)據(jù)集分別為:關于皮馬印第安人糖尿病情況的數(shù)據(jù)統(tǒng)計,數(shù)據(jù)集共768個對象;汽車評估數(shù)據(jù)集,共1 728個對象;美國人口普查收入情況統(tǒng)計,數(shù)據(jù)集共9 502個對象;阿維拉數(shù)據(jù)集,共12 647個對象。4組數(shù)據(jù)集中所包含的屬性分別如表1~表4所示。實驗中,將各表中最后一個屬性作為決策屬性,取值均做量化處理。

      表1 關于皮馬印第安人糖尿病情況的數(shù)據(jù)統(tǒng)計

      表2 汽車評估數(shù)據(jù)集

      表3 美國人口普查收入情況統(tǒng)計

      表4 阿維拉數(shù)據(jù)集

      本次實驗將在2層BP神經(jīng)網(wǎng)絡[8]中,使用10次十折交叉驗證法進行測試。通過在4組不同的數(shù)據(jù)集上對3種激活函數(shù)進行對比實驗,能夠直觀地得出各激活函數(shù)的優(yōu)點與不足。實驗中,學習率η經(jīng)過多次實驗取值為0.001,迭代次數(shù)設置為5 000次,λ取值范圍為[0,1)。

      鑒于數(shù)據(jù)集中各屬性具有不同的量綱方式,會影響對最終數(shù)據(jù)結果的分析,因此為減少指標間的量綱影響,本文在實驗前采用Z-score標準化的方式對數(shù)據(jù)集進行了預處理,以確保在不消除指標特征性的同時使其維持在相同的范圍內(nèi)。

      3.2 各數(shù)據(jù)集實驗結果對比

      4組數(shù)據(jù)集的實驗結果對比如表5~表8所示。

      表5 皮馬印第安人糖尿病數(shù)據(jù)集實驗結果對比

      表6 汽車評估數(shù)據(jù)集實驗結果對比

      表7 美國人口普查收入實驗結果對比

      表8 阿維拉數(shù)據(jù)集實驗結果對比

      由上述4組實驗結果可知,RArc-ReLU的計算時間均少于ArcReLU和ELU兩個函數(shù),其收斂速度和分類精度在實驗中均高于另外兩種激活函數(shù)。

      4 結 語

      本文通過分析和研究常用的經(jīng)典激活函數(shù),對新構造的ArcReLU函數(shù)進行了進一步的改進,提出了RArc-ReLU函數(shù),從而在保持原有優(yōu)點的情況下,提高了其收斂速度和分類精度。通過4組不同的數(shù)據(jù)集,對ELU函數(shù)、ArcReLU函數(shù)和RArc-ReLU函數(shù)進行了對比實驗。結果表明,RArc-ReLU函數(shù)初始的累積誤差小,因此達到收斂值所需的時間會較少。伴隨神經(jīng)網(wǎng)絡不斷的迭代,RArc-ReLU函數(shù)將更快趨于平穩(wěn),說明其相較于另外兩種函數(shù)具有更好的收斂性。在分類精度上,該函數(shù)能夠有效地降低訓練誤差,同時能夠有效緩解梯度消失和神經(jīng)元死亡的問題。實驗中RArc-ReLU的AUC值相較于另外兩種激活函數(shù)都大,由此可見,RArc-ReLU具有更佳的泛化性能。

      此外,由于在RArc-ReLU函數(shù)中添加了非線性因子,使其能夠幫助模型更好地擬合不同的數(shù)據(jù)集。RArc-ReLU在計算速度上也有所提高,相較于改進前的ArcReLU函數(shù)在計算消耗上更快且更為平穩(wěn)。下一步的研究工作將針對RArc-ReLU是否能夠提高深度學習模型的計算速度和精準度進行探索。另外,還將嘗試使用更多種類的數(shù)據(jù)集對RArc-ReLU函數(shù)的魯棒性進行研究。

      猜你喜歡
      半軸導數(shù)梯度
      一個改進的WYL型三項共軛梯度法
      法蘭盤半軸鉆鉸錐孔專用夾具設計
      解導數(shù)題的幾種構造妙招
      一種自適應Dai-Liao共軛梯度法
      一類扭積形式的梯度近Ricci孤立子
      汽車半軸用鋼電沉積Ni-SiC復合鍍層的耐磨性
      關于導數(shù)解法
      導數(shù)在圓錐曲線中的應用
      某重型車橋半軸斷裂失效分析
      函數(shù)與導數(shù)
      吉安县| 景德镇市| 始兴县| 遵化市| 舟山市| 清苑县| 自治县| 贺兰县| 来安县| 西昌市| 西乌| 岚皋县| 绥中县| 锡林浩特市| 镇原县| 永泰县| 张掖市| 利辛县| 柞水县| 德清县| 田阳县| 阿拉善盟| 富民县| 东安县| 稻城县| 东方市| 临清市| 涞源县| 新乐市| 汨罗市| 康保县| 行唐县| 新干县| 林甸县| 高雄市| 韶关市| 酉阳| 巴青县| 刚察县| 慈溪市| 永寿县|