基于高斯函數(shù)的池化算法

2022-09-25 08:42:44王宇航周永霞吳良武

計(jì)算機(jī)應(yīng)用 2022年9期

王宇航，周永霞，吳良武

（中國計(jì)量大學(xué)信息工程學(xué)院，杭州 310018）

0 引言

深度學(xué)習(xí)是Hinton 等［1］在2006 年提出的概念，指出深層網(wǎng)絡(luò)訓(xùn)練采用無監(jiān)督預(yù)訓(xùn)練初始化并用有監(jiān)督訓(xùn)練微調(diào)網(wǎng)絡(luò)權(quán)值的方法來解決梯度消失問題，在學(xué)術(shù)圈里引起了巨大的反響。自此深度學(xué)習(xí)進(jìn)入高速發(fā)展階段，并被應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域來處理圖像分類、姿態(tài)估計(jì)、目標(biāo)定位等問題。深度學(xué)習(xí)作為一類模式分析方法的統(tǒng)稱，主要包括卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neutral Network，RNN）和自動(dòng)編碼器（Auto Encoder，AE）三種方法，其中CNN 成為解決計(jì)算機(jī)視覺問題的主要方法。卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層、輸出層等結(jié)構(gòu)組成，由于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的不同，不同的卷積神經(jīng)網(wǎng)絡(luò)的性能也有很大的差別。2012 年，Hinton和他的學(xué) 生Alex 設(shè)計(jì)出了AlexNet［2］，一舉拿下了當(dāng)年ImageNet 競賽的冠軍。自此之后，諸如VGG（Visual Geometry Group）［3］、ResNet（Residual Network）［4］、GoogLeNet［5］、DenseNet（Densely Connected Networks）［6］等更多更深的卷積神經(jīng)網(wǎng)絡(luò)模型被提出，極大推進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)的研究。

池化層在卷積神經(jīng)網(wǎng)絡(luò)中起到了至關(guān)重要的作用，它可以在一定程度上增加平移旋轉(zhuǎn)的不變性。通過池化操作，卷積神經(jīng)網(wǎng)絡(luò)的感受野變大，這就有效降低了網(wǎng)絡(luò)模型的優(yōu)化難度［7］。常規(guī)的池化算法包括最大池化和平均池化，被廣泛地運(yùn)用到各種卷積神經(jīng)網(wǎng)絡(luò)之中，雖然發(fā)揮著很大的作用，但也有不足。為此，近年來科研人員提出了諸如隨機(jī)池化、混合池化、光譜池化、模糊池化等池化算法。隨機(jī)池化［8］根據(jù)池化域內(nèi)每個(gè)元素的取值計(jì)算該點(diǎn)權(quán)重概率，并由此概率選取一個(gè)元素作為池化后的結(jié)果；混合池化［9］在最大池化和平均池化兩種池化算法中隨機(jī)選擇一種作為當(dāng)前池化層的池化算法，使得網(wǎng)絡(luò)模型的泛化能力明顯增強(qiáng)；光譜池化［10］運(yùn)用離散傅里葉變換計(jì)算截?cái)囝l域，進(jìn)而實(shí)現(xiàn)降維操作，這種方法為每個(gè)參數(shù)保留了比其他池化算法更多的信息，因此效果顯著；模糊池化［11］把模糊邏輯引入池化算法中，目的是解決傳統(tǒng)池化算法中的選擇不確定性，運(yùn)用模糊邏輯中隸屬度的計(jì)算方法，計(jì)算池化域的閾值，并由此確定池化結(jié)果；融合隨機(jī)池化［12］在隨機(jī)池化的基礎(chǔ)上進(jìn)行了改進(jìn)，對(duì)池化域指定的范圍使用隨機(jī)池化算法，既考慮到了池化域內(nèi)元素的平均值，又考慮到了池化域內(nèi)元素的最大值。文獻(xiàn)［13］中提出了一種基于信息熵的池化算法，首先介紹了熵池化的概念，然后根據(jù)熵池化提出分支熵加權(quán)算法，最后通過實(shí)驗(yàn)驗(yàn)證了該算法的有效性。soft 池化［14］以指數(shù)為基礎(chǔ)，在池化算法中使用區(qū)域的激活函數(shù)softmax 的算子對(duì)池化域內(nèi)每個(gè)元素進(jìn)行權(quán)值運(yùn)算，并加權(quán)求和作為算法計(jì)算結(jié)果，有效保留了特征圖的細(xì)粒度信息，因此效果良好。

最大池化算法和平均池化算法由于計(jì)算方式簡單，如果遇到池化域內(nèi)元素值相差較大且不同元素點(diǎn)代表不同特征的情況時(shí)，很容易丟失部分特征信息。隨機(jī)池化算法雖然引入概率計(jì)算的概念，但是最終仍然取池化域中一個(gè)元素為結(jié)果，這樣可能會(huì)造成其他元素代表的特征被忽略?；旌铣鼗惴S機(jī)選擇最大池化或平均池化作為池化方法，雖然增加了算法的泛化能力，但還是沒有避免兩種池化算法的弊端。光譜池化算法運(yùn)用離散傅里葉變換把池化域里的元素從時(shí)域轉(zhuǎn)換為頻域進(jìn)行處理，然后通過傅里葉反變換把結(jié)果轉(zhuǎn)換到時(shí)域，雖然可以保留更多特征信息，但是運(yùn)算過程繁瑣復(fù)雜，大幅增加了算法的時(shí)間復(fù)雜度和空間復(fù)雜度。模糊池化算法依靠模糊邏輯解決池化域元素不確定性的問題，雖然有些效果，但是模糊邏輯過于依賴隸屬度函數(shù)的選擇，針對(duì)不同類型的卷積神經(jīng)網(wǎng)絡(luò)以及不同數(shù)據(jù)集可能需要使用不同的隸屬度函數(shù)才能取得較好的效果，這就導(dǎo)致了該算法的泛化能力較差。融合隨機(jī)池化算法對(duì)隨機(jī)池化算法做了改進(jìn)，對(duì)池化域內(nèi)指定區(qū)域隨機(jī)池化運(yùn)算，但是本質(zhì)上還是隨機(jī)池化運(yùn)算，倘若區(qū)域選擇不當(dāng)，位于兩個(gè)區(qū)域邊界的元素包含的特征信息依舊有可能被忽略，所以該方法只是一定程度上解決了特征信息丟失的問題，并沒辦法完全避免該問題?；谛畔㈧氐某鼗惴ㄟx擇信息熵作為度量方法，在池化域較大、元素信息較多時(shí)確實(shí)可以取得理想的結(jié)果，但是當(dāng)池化域較小、元素信息較少時(shí)，該算法較其他算法在運(yùn)算結(jié)果方面并無明顯差別，運(yùn)算效率卻低下許多。soft 池化雖然可以保留特征圖中大部分信息，但是由于該算法本身是可微的，反向傳播時(shí)要進(jìn)行梯度運(yùn)算，所以較其他算法在性能方面會(huì)稍遜一籌。

1 基于高斯函數(shù)的池化算法

眾所周知，池化操作本質(zhì)其實(shí)是下采樣，卷積神經(jīng)網(wǎng)絡(luò)中引入池化層是為了壓縮輸入的特征圖，降低神經(jīng)網(wǎng)絡(luò)計(jì)算時(shí)的算法復(fù)雜度。但是在這個(gè)過程中，如果池化算法選擇不當(dāng)，有可能會(huì)造成原有輸入的特征圖里的部分特征信息丟失，進(jìn)而影響整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的效果。

由于池化域內(nèi)所有元素的值本質(zhì)上可以被看作是一組一維的數(shù)據(jù)，本文受機(jī)器學(xué)習(xí)中最近鄰（K-Nearest Neighbors，KNN）算法中近鄰（相似）程度概念的啟發(fā)，提出池化域內(nèi)各元素點(diǎn)與該池化域所含主要特征之間關(guān)聯(lián)性的概念。所謂各元素點(diǎn)與該池化域所含特征之間的關(guān)聯(lián)性，即同一池化域內(nèi)不同元素點(diǎn)與該池化域內(nèi)所包含的最突出的特征（一般認(rèn)為是池化域內(nèi)所有元素點(diǎn)的最大值）的相關(guān)密切程度。KNN 算法中以待決策樣本與已知樣本的距離作為依據(jù)來判斷近鄰程度，本文提出的各元素點(diǎn)與該池化域所含主要特征之間的密切程度的判斷方法與其類似：首先找到該池化域內(nèi)所有元素點(diǎn)的最大值作為已知樣本；然后計(jì)算該池化域內(nèi)所有元素點(diǎn)的值到該樣本的距離；最后根據(jù)得到的距離衡量該元素點(diǎn)與該池化域所含主要特征之間的關(guān)聯(lián)性。由此可知，同一池化域內(nèi)，某個(gè)元素點(diǎn)的值與該池化域內(nèi)所有元素點(diǎn)中的最大值距離越接近，則認(rèn)為該元素點(diǎn)與該池化域內(nèi)所包含的最突出的特征相關(guān)程度越密切，關(guān)聯(lián)性越強(qiáng)，那么這個(gè)元素點(diǎn)越重要；反之，該元素點(diǎn)與該池化域內(nèi)所包含的最突出的特征相關(guān)程度越疏遠(yuǎn)，關(guān)聯(lián)性越弱，那么這個(gè)元素點(diǎn)越不重要。

在進(jìn)行池化計(jì)算時(shí)，如果可以考慮到池化域內(nèi)各元素點(diǎn)與該池化域所含主要特征之間的關(guān)聯(lián)性，根據(jù)池化域內(nèi)每個(gè)元素關(guān)聯(lián)性的強(qiáng)弱來計(jì)算池化后的結(jié)果，便可以盡可能地保留輸入特征圖的特征信息，提高卷積神經(jīng)網(wǎng)絡(luò)的性能。諸如最大池化、平均池化、隨機(jī)池化等大多數(shù)傳統(tǒng)的池化算法雖然能起到一定的效果，但是由于算法本身較為簡單，計(jì)算過程中并未很好地考慮到池化域內(nèi)各元素點(diǎn)與該池化域所含特征之間的關(guān)聯(lián)性，所以難免會(huì)在一定程度上丟失特征信息。鑒于這種情況，本文受概率學(xué)中高斯分布的相關(guān)知識(shí)啟發(fā)，提出一種基于高斯函數(shù)的池化算法：通過借用高斯函數(shù)來計(jì)算和衡量池化域內(nèi)各元素與其所含主要特征之間的關(guān)聯(lián)性，并由此作為依據(jù)計(jì)算池化算法的結(jié)果。

1.1 高斯函數(shù)

高斯函數(shù)是德國數(shù)學(xué)家Johann Carl Friedrich Gauss 在1795 年提出的一種初等函數(shù)。高斯函數(shù)在自然科學(xué)中有著極大的影響力，被廣泛地應(yīng)用于數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)學(xué)等多門學(xué)科之中。本文以高斯函數(shù)為基礎(chǔ)，提出了一種新的池化算法。高斯函數(shù)的解析式如式（1）所示：

其中：參數(shù)a、b、c均為常數(shù)。

從式（1）可以看出參數(shù)a影響了高斯函數(shù)的峰值大小；參數(shù)b決定了高斯函數(shù)曲線對(duì)稱軸的位置；參數(shù)c決定了高斯函數(shù)曲線的曲率，即c越大、曲線越平緩，c越小、曲線越陡峭。

1.2 算法原理

1.2.1 前向傳播

本文算法通過引入高斯函數(shù)來表示池化域內(nèi)各元素與該池化域所含特征之間的關(guān)聯(lián)性。具體做法為：計(jì)算池化域內(nèi)每一個(gè)元素的高斯函數(shù)值，并定義該函數(shù)值為該元素的高斯權(quán)重。由前文敘述可知，計(jì)算得出的高斯權(quán)重可以在一定程度上衡量池化域內(nèi)各元素的關(guān)聯(lián)性。

對(duì)于高斯函數(shù)的參數(shù)，本文定義參數(shù)a恒等于1；由前文敘述可知，本文使用高斯函數(shù)的目的是衡量池化域內(nèi)各元素與其最突出特征的關(guān)聯(lián)程度，高斯函數(shù)的計(jì)算結(jié)果正比于輸入值到參數(shù)b的距離，所以定義參數(shù)b為池化域內(nèi)特征最突出點(diǎn)的值，即所有元素的最大值；參數(shù)c為根據(jù)參數(shù)b計(jì)算得到的標(biāo)準(zhǔn)差。參數(shù)b和參數(shù)c具體計(jì)算公式如式（2）和式（3）所示：

其中：N為池化域內(nèi)元素個(gè)數(shù)，xi為池化域內(nèi)第i個(gè)元素。

如果池化域內(nèi)所有元素都相同，即xi=b，雖然根據(jù)式（3）計(jì)算的參數(shù)c為0 使得式（1）毫無意義，但是此時(shí)池化域內(nèi)所有元素相等，所有元素的高斯權(quán)重自然也相等，所以定義此時(shí)f(x；a，b，c)=1。因此，本文使用的高斯函數(shù)計(jì)算公式如式（4）所示：

根據(jù)高斯權(quán)重，對(duì)于池化域內(nèi)各元素進(jìn)行加權(quán)平均計(jì)算，并將最終計(jì)算結(jié)果作為本文算法的輸出值，加權(quán)平均計(jì)算的公式如式（5）所示：

其中：N為池化域內(nèi)元素的個(gè)數(shù)，fi為池化域內(nèi)第i個(gè)元素的高斯權(quán)重，xi為池化域內(nèi)第i個(gè)元素，y為加權(quán)平均計(jì)算的結(jié)果。

綜上所述，基于高斯函數(shù)的池化算法的運(yùn)算步驟如下：

1）取池化域內(nèi)所有元素的最大值為參數(shù)b。

2）將池化域內(nèi)元素代入式（3）計(jì)算，求得參數(shù)c。

3）將參數(shù)a、b和c代入式（4）求取每個(gè)元素的高斯權(quán)重。

4）根據(jù)各元素的高斯權(quán)重，由式（5）對(duì)各元素進(jìn)行加權(quán)平均計(jì)算。

具體算法流程示例如圖1 所示（圖中池化域尺寸為2×2，步長為2，計(jì)算結(jié)果保留兩位小數(shù)）。

圖1 算法流程示例圖Fig.1 Example of algorithm flow

1.2.2 反向傳播

反向傳播是訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)最為常用的一種方法，其原理是根據(jù)由損失函數(shù)計(jì)算出的誤差信息，運(yùn)用某種優(yōu)化算法對(duì)各神經(jīng)元的權(quán)重進(jìn)行優(yōu)化。一般來說，反向傳播分成計(jì)算各權(quán)重的偏導(dǎo)數(shù)和更新權(quán)重兩步。由于池化層只是減少了輸入矩陣的元素個(gè)數(shù)，并沒有需要更新的權(quán)重，所以對(duì)于池化層來說，反向傳播只需要將后一層計(jì)算得到的梯度數(shù)量擴(kuò)大到前一層需要的梯度數(shù)量，然后將這些梯度傳遞給前一層網(wǎng)絡(luò)即可。

本文提出的池化算法在常規(guī)算法的基礎(chǔ)上通過在各元素里引入高斯權(quán)重，并且最后使用加權(quán)平均法減少池化域內(nèi)元素的個(gè)數(shù)，所以反向傳播時(shí)只需要根據(jù)高斯權(quán)重逆推導(dǎo)這個(gè)過程即可，計(jì)算公式如式（6）所示：

其中：fi為池化域內(nèi)第i個(gè)元素的高斯權(quán)重，N為池化域內(nèi)元素的個(gè)數(shù)，x為后一層網(wǎng)絡(luò)計(jì)算得出的梯度值，yi為池化域內(nèi)需要傳遞給前一層網(wǎng)絡(luò)的第i個(gè)元素的值。該算法的流程如圖2 所示。

圖2 反向傳播算法流程Fig.2 Flowchart of back propagation algorithm

1.2.3 時(shí)間復(fù)雜度

由前文敘述可知，本文算法計(jì)算步驟分為計(jì)算參數(shù)b、計(jì)算參數(shù)c、計(jì)算池化域內(nèi)各元素高斯權(quán)重和計(jì)算加權(quán)平均值4 步。由式（2）可知，計(jì)算參數(shù)b實(shí)質(zhì)上是求取池化域內(nèi)元素的最大值，其時(shí)間復(fù)雜度為O(n)；由式（3）可知，計(jì)算參數(shù)c實(shí)質(zhì)上是求取池化域內(nèi)各元素與參數(shù)b的標(biāo)準(zhǔn)差，其時(shí)間復(fù)雜度為O(n)；由式（4）可知，計(jì)算池化域內(nèi)各元素高斯權(quán)重的時(shí)間復(fù)雜度為O(n)；由式（5）可知，加權(quán)平均運(yùn)算的時(shí)間復(fù)雜度為O(n)。由于本文算法的4 個(gè)計(jì)算步驟時(shí)間復(fù)雜度均為O(n)，且計(jì)算方式為串行計(jì)算，故算法的時(shí)間復(fù)雜度為O(n)。

2 實(shí)驗(yàn)及其結(jié)果與分析

2.1 實(shí)驗(yàn)?zāi)Ｐ?/h3>
LeNet5 是Lecun 等［15］在1998 年提出的用于手寫體字符識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)模型。它共由8 層組成，分別為輸入層、C1 卷積層、S2 池化層、C3 卷積層、S4 池化層、C5 卷積層、F6 全連接層和輸出層。LeNet5 的模型結(jié)構(gòu)如圖3 所示。
圖3 LeNet5模型結(jié)構(gòu)Fig.3 Structure of LeNet5 model
VGG16 是牛津大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室2014 年提出的網(wǎng)絡(luò)結(jié)構(gòu)。它由13 層卷積層、5 層池化層以及3 層全連接層組成。VGG16 的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4 所示。
圖4 VGG16模型結(jié)構(gòu)Fig.4 Structure of VGG16 model
ResNet［4］是由He 等在2015年提出的卷積神經(jīng)網(wǎng)絡(luò)模型。ResNet18 由1 層卷積層、1 層池化層、4 個(gè)殘差塊和1 層全連接層組成，其中每個(gè)殘差塊包含兩層卷積和一條直連通道。殘差塊結(jié)構(gòu)如圖5 所示。
圖5 殘差塊結(jié)構(gòu)Fig.5 Structure of residual block
2019 年，谷歌通過繼承前兩代輕量級(jí)神經(jīng)網(wǎng)絡(luò)使用的深度可分離卷積技術(shù)和倒殘差結(jié)構(gòu)，并且結(jié)合資源受限的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)和NetAdapt 算法提出第三代輕量級(jí)神經(jīng)網(wǎng)絡(luò)——MobileNet v3。MobileNet v3 分為Large 和Small 兩個(gè)版本，兩個(gè)版本的基本結(jié)構(gòu)相似，區(qū)別僅在于網(wǎng)絡(luò)大小不同。本文選取MobileNet v3 Small 為實(shí)驗(yàn)?zāi)Ｐ?，該版本的網(wǎng)絡(luò)結(jié)構(gòu)如表1 所示。
表1 MobileNet v3 Small模型結(jié)構(gòu)Tab.1 Structure of MobileNet v3 Small model
為驗(yàn)證基于高斯函數(shù)的池化算法的效果，本文將LeNet5、VGG16、ResNet18 和MobileNet v3 Small 中原有的池化算法分別替換為最大池化、平均池化、隨機(jī)池化、混合池化、模糊池化、融合隨機(jī)池化、soft 池化和基于高斯函數(shù)的池化，將替換得到的32 個(gè)模型作為實(shí)驗(yàn)?zāi)Ｐ汀?/p>

2.2 實(shí)驗(yàn)數(shù)據(jù)集

本文選用CIFAR-10、Fer2013 和GTSRB（German Traffic Sign Recognition Benchmark）三個(gè)公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

CIFAR-10 數(shù)據(jù)集［16］是一個(gè)經(jīng)典的圖像分類數(shù)據(jù)集，包括60 000 幅像素為32×32 的彩色圖像，其中50 000 幅圖像用于訓(xùn)練，10 000 幅圖像用于驗(yàn)證，無測試集。該數(shù)據(jù)集中的圖像共分為airplane、automobile、bird 等10 個(gè)類別，每個(gè)類別6 000 幅圖像，所有類別均是完全互斥的，且不同類別間特征大不相同，所以常常被用于驗(yàn)證圖像分類算法的性能。

Fer2013 數(shù)據(jù)集由Carrier 和Courville 創(chuàng)建［17］，是國際機(jī)器學(xué)習(xí)會(huì)議2013 面部表情挑戰(zhàn)賽所使用的數(shù)據(jù)集。它由35 887 幅48×48 像素的人臉表情灰度圖構(gòu)成，其中訓(xùn)練集、驗(yàn)證集和測試集的圖像數(shù)量分別為28 709、3 589 和3 589。該數(shù)據(jù)集將表情分為憤怒、厭惡、害怕、高興、悲傷、驚訝、中性7 類，每類表情對(duì)應(yīng)圖像數(shù)量并不均衡，并且每張圖像的拍攝角度、背景、人物年齡等都不相同，這些因素極大增加了分類難度，要求圖像分類算法具有很好的泛化性和魯棒性才能取得較好的效果。

GTSRB 數(shù)據(jù)集是國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會(huì)議舉辦的多級(jí)圖像分類挑戰(zhàn)賽所使用的數(shù)據(jù)集之一［18］。該數(shù)據(jù)集中共有51 839 幅圖像（其中訓(xùn)練集39 209 幅、驗(yàn)證集12 630 幅、無測試集），涵蓋43 種不同的交通標(biāo)識(shí)，每種標(biāo)識(shí)為一種類別，不同類別包含圖像數(shù)量不一，且圖片質(zhì)量參差不齊，識(shí)別難度要大于其他交通標(biāo)識(shí)分類數(shù)據(jù)集。

2.3 實(shí)驗(yàn)結(jié)果與分析

2.3.1 CIFAR-10數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本節(jié)實(shí)驗(yàn)使用CIFAR-10 數(shù)據(jù)集，設(shè)置訓(xùn)練batch size 為256、學(xué)習(xí)率為0.001、優(yōu)化器為Adam、損失函數(shù)為交叉熵?fù)p失函數(shù)、Epoch 為60，分別取第20、40 和60 個(gè)epoch 時(shí)的top-1（精確到小數(shù)點(diǎn)后三位）為模型性能評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果如表2 所示。

表2 各模型在CIFAR-10數(shù)據(jù)集上的top-1指標(biāo) 單位：%Tab.2 Top-1 index of each model on CIFAR-10 dataset unit：%

從表2 中可以看出，在CIFAR-10 數(shù)據(jù)集上，本文提出的池化算法適用于各個(gè)模型上的top-1 較其他7 種池化算法的top-1 提高了0.5～6 個(gè)百分點(diǎn)。

2.3.2 Fer2013數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本節(jié)實(shí)驗(yàn)使用Fer2013 數(shù)據(jù)集，設(shè)置訓(xùn)練batch size 為256、學(xué)習(xí)率為0.001、優(yōu)化器為Adam、損失函數(shù)為交叉熵?fù)p失函數(shù)、Epoch 為30，分別取第10、20 和30 個(gè)epoch 時(shí)的top-1（精確到小數(shù)點(diǎn)后三位）為模型性能評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果如表3 所示。

表3 各模型在Fer2013數(shù)據(jù)集上的top-1指標(biāo) 單位：%Tab.3 Top-1 index of each model on Fer2013 dataset unit：%

從表3 中可以看出，在Fer2013 數(shù)據(jù)集上，本文提出的池化算法適用于各個(gè)模型上的top-1 較其他7 種池化算法的top-1 提高了1～5 個(gè)百分點(diǎn)。

2.3.3 GTSRB數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本節(jié)實(shí)驗(yàn)使用GTSRB 數(shù)據(jù)集，設(shè)置訓(xùn)練batch size 為256、學(xué)習(xí)率為0.001、優(yōu)化器為Adam、損失函數(shù)為交叉熵?fù)p失函數(shù)、Epoch 為15，分別取第5、10 和15 個(gè)epoch 時(shí)的top-1（精確到小數(shù)點(diǎn)后三位）為模型性能評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果如表4 所示。

從表4 中可以看出，在GTSRB 數(shù)據(jù)集上，本文提出的池化算法適用于各個(gè)模型上的top-1 較其他7 種池化算法的top-1 提高了0.5～3 個(gè)百分點(diǎn)。

表4 各模型在GTSRB數(shù)據(jù)集上的top-1指標(biāo)Tab.4 Top-1 index of each model on GTSRB dataset

2.3.4 運(yùn)算時(shí)間對(duì)比實(shí)驗(yàn)結(jié)果

本節(jié)實(shí)驗(yàn)選取分辨率分別為100×100、1 000×1 000 和10 000×10 000，像素點(diǎn)為0～255 隨機(jī)數(shù)的圖片各10 幅，將這些圖片作為最大池化、平均池化、隨機(jī)池化、混合池化、模糊池化、融合隨機(jī)池化、soft 池化和基于高斯函數(shù)的池化八種池化算法的輸入，統(tǒng)計(jì)各池化算法的運(yùn)行時(shí)間作為實(shí)驗(yàn)結(jié)果。

上述各池化算法的均池化域?yàn)?×2，步長為2。為避免實(shí)驗(yàn)結(jié)果具有偶然性，本節(jié)實(shí)驗(yàn)以各組圖片10 次實(shí)驗(yàn)結(jié)果的平均值（單位為ms，保留3 位小數(shù)）作為最終實(shí)驗(yàn)結(jié)果，如表5 所示。

從表5 中可以看出，相比最大池化、平均池化和混合池化等傳統(tǒng)池化算法，本文提出的池化算法由于計(jì)算量大一些，所以運(yùn)算時(shí)間較長；本文算法雖然有一定的計(jì)算量，但是相比其他較為新穎的池化算法，本文算法的計(jì)算過程并沒有特別復(fù)雜，所以運(yùn)算效率方面優(yōu)于這些算法。

表5 各算法在不同圖片分辨率下的運(yùn)行時(shí)間單位：msTab.5 Running time of each algorithm under different image resolution unit：ms

2.3.5 實(shí)驗(yàn)結(jié)果分析

由表2～4 中的實(shí)驗(yàn)結(jié)果可知，無論是在LeNet5 模型、VGG16 模型、ResNet18 模型還是MobileNet v3 模型上，本文提出的基于高斯函數(shù)的池化算法對(duì)比最大池化、平均池化、隨機(jī)池化、混合池化、模糊池化、融合隨機(jī)池化和soft 池化七種池化算法在CIFAR-10、Fer2013 和GTSRB 三個(gè)數(shù)據(jù)集上精度方面都有不同程度的提升，這說明該算法在不同的模型和數(shù)據(jù)集上都具有一定的適用性。

由表5 中的實(shí)驗(yàn)結(jié)果可知，本文提出的基于高斯函數(shù)的池化算法相比最大池化在運(yùn)算效率方面雖然不及一些傳統(tǒng)算法，但相較于其余新穎算法也有所提升，這說明本文算法適用于可以適當(dāng)降低對(duì)性能的要求，但對(duì)精度要求較高的場景。

3 結(jié)語

本文根據(jù)卷積神經(jīng)網(wǎng)絡(luò)池化算法研究現(xiàn)狀，發(fā)現(xiàn)現(xiàn)有的池化算法大都沒能很好地考慮池化域內(nèi)各元素與該池化域所含特征之間的關(guān)聯(lián)性，于是提出了一種基于高斯函數(shù)的池化算法，并且詳細(xì)介紹了該算法的原理、前向傳播和反向傳播的流程。

本文選擇LeNet5 模型、VGG16 模型、ResNet18 模型和MobileNet v3 模型作為實(shí)驗(yàn)?zāi)Ｐ停謩e在CIFAR-10、Fer2013和GTSRB 三個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，并且記錄不同訓(xùn)練次數(shù)時(shí)模型的top-1 作為實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明：對(duì)比其他池化算法，本文提出的池化算法在不同的模型和數(shù)據(jù)集上均取得了不錯(cuò)的效果；本文還選擇不同分辨率的圖片對(duì)算法運(yùn)行時(shí)間進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明：本文提出的池化算法在運(yùn)算效率方面表現(xiàn)尚可。

綜上所述，得出結(jié)論：文中提出的基于高斯函數(shù)的池化算法具有可行性和泛化能力，可以用于不同情況的理論研究和應(yīng)用場景中。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看