袁培森 宋 進(jìn) 徐煥良
(南京農(nóng)業(yè)大學(xué)人工智能學(xué)院, 南京 210095)
魚在全球各水域分布廣泛,對(duì)人類的生產(chǎn)、生活影響極為重要。對(duì)魚類圖像數(shù)據(jù)的識(shí)別研究可對(duì)魚種群的觀測(cè)及其棲息地生態(tài)環(huán)境的治理起到重要作用,在環(huán)境保護(hù)、學(xué)術(shù)研究以及經(jīng)濟(jì)生產(chǎn)方面,均有著重大意義[1]。
近年來(lái),得益于海量數(shù)據(jù)標(biāo)注和計(jì)算能力的提升,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別,在各領(lǐng)域的研究取得了重大的進(jìn)展和突破[2]。然而,基于魚圖像的魚種類識(shí)別進(jìn)展緩慢。由于水底環(huán)境光線較弱,魚圖像采集難度大,獲得的魚圖像標(biāo)注數(shù)據(jù)集數(shù)量較少[3],無(wú)法滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的大數(shù)據(jù)集要求。因此,基于小樣本學(xué)習(xí)(Few-shot learning)的方法[4]僅通過少量樣本學(xué)習(xí),可以用于魚圖像標(biāo)注少情況下的識(shí)別研究。
最早的小樣本學(xué)習(xí)基于貝葉斯框架[5]對(duì)視覺對(duì)象進(jìn)行學(xué)習(xí)。由于此方法采用傳統(tǒng)學(xué)習(xí)技術(shù),自動(dòng)學(xué)習(xí)能力較弱。研究者提出了語(yǔ)義遷移的方式解決小樣本識(shí)別問題,MENSINK等[6]通過各類別的語(yǔ)義,使用度量學(xué)習(xí)方法來(lái)讓模型能夠在類別變換時(shí)保持穩(wěn)定。ROHRBACH等[7]采用直推式學(xué)習(xí),通過構(gòu)建已知類別空間分布的方式,對(duì)未知類別的表示進(jìn)行預(yù)測(cè)。這些方法能夠讓網(wǎng)絡(luò)模型自動(dòng)進(jìn)行學(xué)習(xí),但由于需要人為添加語(yǔ)義描述,使用的便捷性仍然有限。SANTORO等[8]首次提出了采用外部存儲(chǔ)的記憶增強(qiáng)方法,其通過存儲(chǔ)部分輸入數(shù)據(jù)的方式,讓網(wǎng)絡(luò)模型將不同時(shí)刻的輸入建立聯(lián)系,以學(xué)習(xí)識(shí)別的共性過程。SNELL等[9]提出的原型網(wǎng)絡(luò)方法,通過學(xué)習(xí)將輸入數(shù)據(jù)映射到嵌入空間,建立類別的均值中心,以便在面對(duì)新的數(shù)據(jù)時(shí)通過距離度量判斷其所屬類別。SUNG等[10]所提出的關(guān)系網(wǎng)絡(luò)在原型網(wǎng)絡(luò)的基礎(chǔ)上,將距離度量方式也作為網(wǎng)絡(luò)學(xué)習(xí)的內(nèi)容,以便通過最佳的距離度量方式進(jìn)行類別判斷。CHOI等[11]通過讓網(wǎng)絡(luò)學(xué)習(xí)不同的調(diào)節(jié)器,使其能夠?qū)W會(huì)不同領(lǐng)域內(nèi)、差距較大類的小樣本識(shí)別能力。TSENG等[12]在訓(xùn)練階段利用仿射變換增強(qiáng)圖像的特征,模擬不同領(lǐng)域下的特征分布,從而讓模型的跨域能力進(jìn)一步增強(qiáng)。ZHANG等[13]提出了一種自適應(yīng)的網(wǎng)絡(luò)模型AdarGCN,以便在樣本量不足的情況下,在網(wǎng)絡(luò)上爬取數(shù)據(jù)后進(jìn)行有效地降噪處理,完成樣本量更為稀少的小樣本圖像識(shí)別任務(wù)。
目前,小樣本學(xué)習(xí)已經(jīng)被廣泛地應(yīng)用于標(biāo)注數(shù)據(jù)稀少的圖像識(shí)別、目標(biāo)檢測(cè)和自然語(yǔ)言處理等領(lǐng)域[14-15],陳英義等[16]構(gòu)建了FTVGG16卷積神經(jīng)網(wǎng)絡(luò)提高復(fù)雜應(yīng)用場(chǎng)景魚類目標(biāo)的識(shí)別精度,本文主要針對(duì)魚圖像標(biāo)注稀少情況下的識(shí)別質(zhì)量問題。
為提升小樣本情況下的魚圖像準(zhǔn)確識(shí)別率,本文基于度量學(xué)習(xí)的小樣本學(xué)習(xí)方法,采用殘差塊結(jié)構(gòu)作為魚圖像樣本深層特征提取器,并將其映射至嵌入空間,形成各類別的均值中心,計(jì)算樣本與均值中心的距離,實(shí)現(xiàn)魚圖像識(shí)別。利用小樣本學(xué)習(xí)和殘差網(wǎng)絡(luò)在mini-ImageNet數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到識(shí)別魚的初步模型。為準(zhǔn)確識(shí)別細(xì)粒度魚圖像,將前一階段得到的網(wǎng)絡(luò)模型利用遷移學(xué)習(xí)技術(shù)[17],在Fish100數(shù)據(jù)集上進(jìn)行重新訓(xùn)練,最終得到小樣本魚圖像識(shí)別模型。為驗(yàn)證本文方法的可行性,運(yùn)用5類常用的小樣本學(xué)習(xí)方法在Fish100數(shù)據(jù)集和ImageNet數(shù)據(jù)集上進(jìn)行對(duì)比分析。
選用mini-ImageNet、Fish100作為試驗(yàn)數(shù)據(jù)集, 數(shù)據(jù)集ImageNet用于測(cè)試。
mini-ImageNet[18]作為小樣本圖像識(shí)別中常用數(shù)據(jù)集,選用ImageNet數(shù)據(jù)集中的100個(gè)類別,包含魚、鳥等類。文中利用mini-ImageNet數(shù)據(jù)集對(duì)小樣本學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練,數(shù)據(jù)集劃分如表1所示。
表1 mini-ImageNet數(shù)據(jù)集劃分Tab.1 Partition of mini-ImageNet dataset
mini-ImageNet數(shù)據(jù)集中的示例如圖1所示。
圖1 mini-ImageNet部分圖像示例Fig.1 Samples of mini-ImageNet’s images
Fish100[19-20]數(shù)據(jù)集是深度學(xué)習(xí)圖像標(biāo)注數(shù)據(jù)集Image CLEF中Marine animal species的一個(gè)子集,包含100種魚,共計(jì)6 358幅圖像。本文所采用的Fish100數(shù)據(jù)集劃分詳情如表2所示。圖2為Fish100數(shù)據(jù)集中部分圖像示例。
ImageNet[21]是一個(gè)面向機(jī)器視覺的大型可視化數(shù)據(jù)集,擁有共計(jì)超過1 400萬(wàn)幅圖像,是深度學(xué)習(xí)領(lǐng)域最為常用的數(shù)據(jù)集之一,其中包含多種魚圖像數(shù)據(jù)。
表2 Fish100數(shù)據(jù)集劃分Tab.2 Division of Fish100 dataset
圖2 Fish100圖像示例Fig.2 Sample of Fish100’s images
ImageNet數(shù)據(jù)集除存在與Fish100相同的特點(diǎn),即類內(nèi)差異性大、類間相似性高之外,還存在一些背景干擾因素等情況,增加了識(shí)別難度。為了檢驗(yàn)本文方法的識(shí)別能力,本文選用ImageNet數(shù)據(jù)集中的20種魚進(jìn)行測(cè)試,具體如表3所示。
表3 ImageNet數(shù)據(jù)集Tab.3 ImageNet dataset
圖3為ImageNet數(shù)據(jù)集中部分圖像示例。
圖3 ImageNet圖像示例Fig.3 Sample of ImageNet’s images
預(yù)處理操作分為裁剪、格式轉(zhuǎn)換、圖像增強(qiáng)等,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)而言,輸入圖像必須被調(diào)整為統(tǒng)一尺寸。本文圖像預(yù)處理步驟為:①將所有圖像轉(zhuǎn)換為3通道的RGB圖像。②將所有圖像的尺寸統(tǒng)一調(diào)整為224像素×224像素。③將調(diào)整后的圖像以中心為原點(diǎn),進(jìn)行隨機(jī)裁剪。④對(duì)所有圖像進(jìn)行正則化,降低網(wǎng)絡(luò)模型過擬合的可能性。
本文的小樣本學(xué)習(xí)采用基于度量的小樣本學(xué)習(xí)模型,其在面對(duì)輸入樣本時(shí),首先會(huì)通過網(wǎng)絡(luò)模型將其映射至嵌入空間,在此過程中,會(huì)通過殘差塊結(jié)構(gòu)進(jìn)行特征提取,得到特征向量;隨后,通過求平均值的方式,得出類別的均值中心。最后通過度量來(lái)進(jìn)行類別判斷。
本文模型共包含4個(gè)基本單元,即塊(Block),每個(gè)塊內(nèi)均包含1個(gè)殘差塊(內(nèi)含4個(gè)卷積層)、1個(gè)Batchnorm層、激活層和1個(gè)最大池化層,其整體結(jié)構(gòu)如圖4所示。
圖4 本文網(wǎng)絡(luò)模型整體結(jié)構(gòu)Fig.4 Overall structure of network model
傳統(tǒng)的CNN網(wǎng)絡(luò)直接通過訓(xùn)練,學(xué)習(xí)輸入x與輸出H(x)之間的關(guān)系,即x→H(x),其中x為輸入數(shù)據(jù),H(x)為經(jīng)過網(wǎng)絡(luò)層的輸出。而殘差塊則致力于使用圖4所示的有參網(wǎng)絡(luò)層,來(lái)學(xué)習(xí)輸入、輸出之間的殘差,其中殘差塊結(jié)構(gòu)[22-23]如圖5所示。其計(jì)算公式為
F(x,Wi)=W2σ(W1x)
(1)
式中W1、W2——有參卷積層的權(quán)重
σ——ReLU函數(shù)
F——?dú)埐钣成浜瘮?shù)
Wi——第i層卷積層的權(quán)重矩陣
圖5 殘差塊結(jié)構(gòu)圖Fig.5 Structure of residual block
則輸入x與輸出H(x)之間的關(guān)系就變?yōu)閤→F(x,Wi)+x。
由于輸入與殘差之間的關(guān)系較其與輸出之間的關(guān)系更易表示,因此具有該結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有更強(qiáng)的圖像特征提取能力。
模型中各殘差塊中卷積層的卷積核數(shù)目(Num output)如表4所示。
表4 網(wǎng)絡(luò)模型各卷積層的卷積核數(shù)目Tab.4 Number output of each convolution layers of network model
模型的其它參數(shù)如表5所示。
在每次元任務(wù)中,采集N(K+Q)個(gè)數(shù)據(jù),其中N為類別數(shù)量,K為支撐集樣本數(shù)量,Q為驗(yàn)證集樣本數(shù)量。采集完成并進(jìn)行預(yù)處理之后,將支撐集中的樣本作為輸入圖像輸入網(wǎng)絡(luò)模型,在每一個(gè)塊內(nèi)通過殘差塊進(jìn)行特征提取。當(dāng)輸入圖像通過每個(gè)卷積層時(shí),其通道數(shù)c、寬度w和高度h都會(huì)根據(jù)網(wǎng)絡(luò)參數(shù)而變化。
表5 網(wǎng)絡(luò)模型參數(shù)Tab.5 Parameters of network model
c=o
(2)
w=(w0+2p-k)/s+1
(3)
h=(h0+2p-k)/s+1
(4)
式中o——卷積核數(shù)量
p——邊緣填充尺寸
k——卷積核尺寸
s——步長(zhǎng)
w0——輸入圖像寬度
h0——輸入圖像高度
隨后,通過BatchNorm層對(duì)數(shù)據(jù)進(jìn)行歸一化處理,公式為
(5)
式中E(·)——均值函數(shù)
Var(·)——方差函數(shù)
y——?dú)w一化值
之后通過激活層,使用ReLU函數(shù),通過引入非線性因素的方式,增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)模型的表達(dá)能力。
ReLU(x)=max(0,x)
(6)
隨后通過最大池化層,對(duì)鄰域特征點(diǎn)取最大值的方式,對(duì)提取到的特征向量進(jìn)行過濾,降低特征提取的誤差。圖6為最大池化的示意圖,特征矩陣中4個(gè)鄰域內(nèi)分別有4個(gè)特征點(diǎn),每個(gè)鄰域中的最大特征點(diǎn)分別為7、9、9、8,即通過最大池化層后,每個(gè)鄰域內(nèi)只有最大的這4個(gè)特征點(diǎn)被保留。
圖6 最大池化示意圖Fig.6 Illustration of max pooling
池化層的運(yùn)算方法和卷積層基本相同,只是不再改變圖像的通道數(shù)。再依次通過網(wǎng)絡(luò)模型的4個(gè)塊后,輸入數(shù)據(jù)將從原來(lái)的D維變?yōu)镹維,即被映射至N維的嵌入空間。映射完成后,通過將映射完成的各類別所有樣本數(shù)據(jù)取均值,形成各類別的均值中心。
(7)
式中Sk——類別k在支撐集中樣本的特征向量
fφ——嵌入函數(shù)
ck——類別k的均值中心
xi、yi——支撐集中第i個(gè)樣本及該樣本所屬類別
在確定每個(gè)類的均值中心后,將驗(yàn)證集數(shù)據(jù)樣本通過嵌入函數(shù)映射到嵌入空間,由于訓(xùn)練當(dāng)中驗(yàn)證集的數(shù)據(jù)已經(jīng)標(biāo)記了類別,將通過其與各類別均值中心的歐氏距離得出其屬于其自身類別的概率Pφ為
(8)
式中d——?dú)W氏距離函數(shù)
ck′——類別k′的均值中心
通過在訓(xùn)練過程中重復(fù)上述類別判斷過程,網(wǎng)絡(luò)模型將不斷地進(jìn)行優(yōu)化,這使得同類別樣本在映射到嵌入空間后,處于更為相近的位置,由此所得出的均值中心,也將更能代表類別的真實(shí)位置。
測(cè)試過程如圖7所示。驗(yàn)證集的樣本未標(biāo)記類別,嵌入函數(shù)在通過支撐集中的樣本構(gòu)建類別均值中心后,將驗(yàn)證集中的樣本映射到嵌入空間,通過將其與各均值中心進(jìn)行距離度量,給出其屬于各類別的概率,概率最高者即為該樣本的預(yù)測(cè)類別[24]。
圖7 類別判斷過程示意圖Fig.7 Category recognition process of samples
遷移學(xué)習(xí)技術(shù)已廣泛應(yīng)用于深層網(wǎng)絡(luò)模型設(shè)計(jì)和參數(shù)訓(xùn)練,本文的遷移學(xué)習(xí)過程如圖8所示。
圖8 遷移學(xué)習(xí)過程Fig.8 Transfer learning process
采用小樣本學(xué)習(xí)中常用的數(shù)據(jù)集mini-ImageNet對(duì)模型進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練過程與訓(xùn)練和測(cè)試過程保持一致,同樣被分解為多個(gè)元任務(wù),每個(gè)元任務(wù)中抽取包含N個(gè)類別的共計(jì)N(K+Q)個(gè)樣本,讓網(wǎng)絡(luò)模型學(xué)習(xí)如何將這些樣本通過距離度量的方式判斷類別。在預(yù)訓(xùn)練過程中,使用特定的優(yōu)化器,對(duì)網(wǎng)絡(luò)各層參數(shù),即卷積層的權(quán)重W以及Batchnorm層的γ和β進(jìn)行調(diào)整。
將預(yù)訓(xùn)練后的模型使用魚圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,并微調(diào)網(wǎng)絡(luò)最后一個(gè)塊中的各層。由于本文所設(shè)計(jì)的模型不通過全連接層輸出類別,因此無(wú)需進(jìn)行全連接層的調(diào)整。
試驗(yàn)平臺(tái)為Windows 10,64位操作系統(tǒng),CPU為i5-8300H,2.30 GHz,GPU為NVIDA Geforce GTX 1080ti,5 GB,內(nèi)存為16.0 GB。
本文中的預(yù)訓(xùn)練及訓(xùn)練階段的試驗(yàn)參數(shù)設(shè)置如表6所示。優(yōu)化器選用Adam[25]。
表6 試驗(yàn)參數(shù)設(shè)置Tab.6 Parameters setting of experiment
每次采樣抽取5個(gè)類別,即way為5;每個(gè)類別中15個(gè)樣本作為支撐集,即shot為15;15個(gè)樣本作為測(cè)試集,即query為15,每次采樣共抽取5×(15+15)幅圖像。每次元任務(wù)共進(jìn)行20次采樣,最大迭代次數(shù)為1 000次。
本文采用精度、召回率以及F1值來(lái)衡量模型識(shí)別效果,其中精度衡量模型識(shí)別的準(zhǔn)確性,召回率衡量模型的查全能力,F(xiàn)1值衡量模型的綜合性能。
將本文模型與MAML[26]、Meta-baseline[27]、Meta-learning LSTM[28]、Prototypical network[9]以及Relation network[10]等5種常用小樣本學(xué)習(xí)模型在訓(xùn)練階段的損失值進(jìn)行對(duì)比,結(jié)果如圖9所示。
圖9 不同模型訓(xùn)練損失值Fig.9 Training loss of different models
從圖9可以看出,本文模型不僅初始損失值較低,且波動(dòng)較小,損失值始終低于其它各模型,最終收斂值也最小,為0.06左右。Relation network以及Prototypical network兩種基于度量的小樣本學(xué)習(xí)方法的表現(xiàn)雖不如本文模型,但總體也較好,整體均呈明顯的下降趨勢(shì),雖然波動(dòng)較本文方法更大,但最終收斂到的損失值較為理想,分別為0.10和0.12左右。Meta-learning LSTM的表現(xiàn)較前述3種模型差,在收斂速度以及損失值方面,都不如前者,最終損失值約為0.34。Meta-baseline和MAML這兩種方法的損失值較高,且處在波動(dòng)狀態(tài),最終的損失值也較其它模型高,分別為0.71和0.97左右。
測(cè)試各模型在way、shot改變情況下的識(shí)別能力。分別設(shè)置way為5、shot為5,way為3、shot為5,way為5、shot為3,way為3、shot為3,各模型在3組參數(shù)設(shè)置下,在兩數(shù)據(jù)集上的測(cè)試精度、召回率和F1值分別如圖10~12所示。
圖10為不同參數(shù)設(shè)置下各模型精度結(jié)果。由圖10可知,各模型在兩數(shù)據(jù)集上的識(shí)別精度在不同參數(shù)設(shè)置下均有明顯的區(qū)別,其中way為3、shot為5時(shí)精度最高;way為5、shot為5時(shí)次之;隨后是way為3、shot為3;最后是way為5、shot為3。但在不同參數(shù)設(shè)置下,各模型的識(shí)別精度仍保持了相對(duì)的差異,且在Fish100上的識(shí)別精度普遍高于ImageNet。
圖10 不同參數(shù)設(shè)置下各模型精度結(jié)果Fig.10 Model accuracy results under different parameter settings
圖11為不同參數(shù)設(shè)置下各模型召回率結(jié)果。由圖11可知,各模型在兩數(shù)據(jù)集上的召回率在不同參數(shù)設(shè)置下均有明顯的區(qū)別,其中way為3、shot為5時(shí)的召回率最高;way為5、shot為5次之;隨后依次為way為3、shot為3和way為5、shot為3。在不同參數(shù)設(shè)置下,各模型的召回率之間也保持了相對(duì)差異,且在Fish100上的召回率高于ImageNet。
圖12為不同參數(shù)設(shè)置下各模型F1值測(cè)試結(jié)果。由圖12可知,各模型在兩數(shù)據(jù)集上的F1值遵循與精度和召回率一樣的規(guī)律,F(xiàn)1值由高到低的參數(shù)設(shè)置依次為way為3、shot為5,way為5、shot為5,way為3、shot為3以及way為5、shot為3。模型、數(shù)據(jù)集之間的差異也同精度和召回率。
為進(jìn)一步確認(rèn)不同參數(shù)設(shè)置對(duì)模型識(shí)別效果的影響,使用本文模型保持way為5,分別設(shè)置shot為1~6,在2個(gè)數(shù)據(jù)集上分別進(jìn)行測(cè)試,測(cè)試結(jié)果如圖13所示。
圖11 不同參數(shù)設(shè)置下各模型召回率結(jié)果Fig.11 Recall rate results of various models under different parameter settings
圖12 不同參數(shù)設(shè)置下各模型F1值測(cè)試結(jié)果Fig.12 F1 results of each model under different parameter settings
圖13 不同shot值下本文模型測(cè)試結(jié)果Fig.13 Test results of proposed model under different shot values
圖14 不同way值下本文模型測(cè)試結(jié)果Fig.14 Test results of proposed model under different way values
由圖13可知,在way相同的情況下,模型識(shí)別的精度、召回率和F1值隨著shot的上升而上升,且在shot值越小時(shí)上升幅度越大。可見在way相同的情況下,shot值與識(shí)別效果之間成正比關(guān)系。
保持shot為5,分別設(shè)置way為2~6,使用本文模型在兩個(gè)數(shù)據(jù)集上分別進(jìn)行識(shí)別測(cè)試,結(jié)果如圖14所示。
由圖14可知,在shot相同的情況下,模型的識(shí)別精度、召回率和F1值隨著way值的上升而平緩下降??梢娫趕hot相同的情況下,way值與識(shí)別效果之間成反比關(guān)系。
將本文模型與MAML、Meta-baseline、Meta-learning LSTM、Prototypical network以及Relation network等5種小樣本學(xué)習(xí)模型的試驗(yàn)結(jié)果進(jìn)行對(duì)比。選擇最優(yōu)參數(shù)way為3、shot為5對(duì)模型效果進(jìn)行比較。表7為各模型在Fish100數(shù)據(jù)集上的測(cè)試結(jié)果。
表7 Fish100數(shù)據(jù)集上 way為3、shot為5測(cè)試結(jié)果Tab.7 Result on Fish100 dataset while way was 3 and shot was 5 %
由表7可以看出,在Fish100數(shù)據(jù)集上本文模型在精度、召回率以及F1值上,均顯著優(yōu)于其它模型,其中精度較其它模型中識(shí)別效果最佳的Relation network高7.31個(gè)百分點(diǎn),較Prototypical network高9.34個(gè)百分點(diǎn),較Meta-learning LSTM高14.53個(gè)百分點(diǎn),較MAML高32.04個(gè)百分點(diǎn)。本文提出利用殘差塊結(jié)構(gòu)改進(jìn)小樣本學(xué)習(xí)網(wǎng)絡(luò),有效提取魚圖像深層特征,提高了魚圖像識(shí)別精度,使得其表現(xiàn)優(yōu)于其他模型。
各模型在ImageNet數(shù)據(jù)集的識(shí)別結(jié)果如表8所示。由表8可以看出,各模型在ImageNet魚圖像識(shí)別任務(wù)中的結(jié)果,較Fish100數(shù)據(jù)集均有一定的降低,本文模型的識(shí)別精度下降了3.74個(gè)百分點(diǎn),Relation network、Prototypical network、Meta-learning LSTM、Meta-baseline以及MAML則分別下降了3.14、3.00、4.78、2.28、6.43個(gè)百分點(diǎn)。其原因是受ImageNet數(shù)據(jù)集中復(fù)雜背景環(huán)境因素影響,模型識(shí)別效果均有所降低。即使如此,相比于其它5種小樣本學(xué)習(xí)模型,本文模型識(shí)別效果仍然最佳,識(shí)別精度為91.03%,召回率為90.78%,F(xiàn)1值為90.90%。綜上,本文模型對(duì)魚圖像識(shí)別具有較好的效果,可為后期小樣本魚圖像識(shí)別在實(shí)際環(huán)境中的應(yīng)用提供技術(shù)支撐和參考。
表8 ImageNet數(shù)據(jù)集上way為3、shot為5測(cè)試結(jié)果Tab.8 Result on ImageNet dataset while way was 3 and shot was 5 %
(1)本文模型在Fish100、ImageNet數(shù)據(jù)集上均優(yōu)于其他小樣本學(xué)習(xí)方法,特別在Fish100數(shù)據(jù)集上,試驗(yàn)效果最佳,其中精度、召回率以及F1值分別為94.77%、94.35%和94.56%。
(2)在不同參數(shù)下,各模型在Fish100數(shù)據(jù)集上的識(shí)別效果均優(yōu)于ImageNet,表明ImageNet數(shù)據(jù)集識(shí)別難度高于Fish100數(shù)據(jù)集。
(3)在小樣本學(xué)習(xí)中,way、shot的取值會(huì)影響模型識(shí)別結(jié)果,其中way的取值與識(shí)別結(jié)果成反比,而shot則與識(shí)別結(jié)果成正比,且shot的影響權(quán)重大于way。