周俊炎,王竟成,楊小奎,舒暢,王津梅,張宸
基于GAN的小樣本腐蝕失厚率數(shù)據(jù)增強(qiáng)方法
周俊炎,王竟成,楊小奎,舒暢,王津梅,張宸
(西南技術(shù)工程研究所,重慶 40003)
對(duì)小樣本腐蝕失厚率數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充,以提升后續(xù)分析模型的預(yù)測(cè)精度,減輕過擬合程度,并提升模型的泛化能力。利用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)擴(kuò)充腐蝕失厚率數(shù)據(jù),使數(shù)據(jù)分布更加全面。對(duì)生成數(shù)據(jù)進(jìn)行降維可視化分析,探究生成數(shù)據(jù)與原始數(shù)據(jù)樣本的分布規(guī)律,分析數(shù)據(jù)增強(qiáng)合理性,并從多個(gè)算法模型、多個(gè)評(píng)價(jià)指標(biāo)角度對(duì)分析預(yù)測(cè)能力、泛化能力進(jìn)行評(píng)估。生成數(shù)據(jù)填補(bǔ)了原始數(shù)據(jù)在樣本空間分布的薄弱環(huán)節(jié),加入生成數(shù)據(jù)后,各機(jī)器學(xué)習(xí)算法模型得出的MSE均值為未加入生成數(shù)據(jù)的61.72%~91.74%,皮爾遜均值為99.01%~113.64%,預(yù)測(cè)準(zhǔn)確度提升,結(jié)果關(guān)聯(lián)性更強(qiáng),模型泛化能力增強(qiáng)。GAN能有效對(duì)小樣本腐蝕失厚率數(shù)據(jù)進(jìn)行增強(qiáng),數(shù)據(jù)擴(kuò)充對(duì)分析預(yù)測(cè)提供正向支持,生成數(shù)據(jù)不宜多于原始數(shù)據(jù),防止擾亂訓(xùn)練樣本分布,同時(shí)存在生成數(shù)據(jù)多樣性受限的問題。
腐蝕失厚率;小樣本;生成對(duì)抗網(wǎng)絡(luò);數(shù)據(jù)增強(qiáng);降維分析;樣本分布
腐蝕失厚率作為重要的環(huán)境效應(yīng)數(shù)據(jù),是金屬板材最基本的腐蝕評(píng)價(jià)指標(biāo)。如El-Mahdy[1]以鋅合金為出發(fā)點(diǎn),研究腐蝕行為反映的環(huán)境污染程度,這些腐蝕數(shù)據(jù)具有重要的評(píng)估、經(jīng)濟(jì)價(jià)值。但由于金屬服役環(huán)境復(fù)雜,導(dǎo)致環(huán)境影響因子不同;試驗(yàn)過程具有隨機(jī)性、多變性、突變性及非線性等特點(diǎn),導(dǎo)致存在各種不確定性因素;數(shù)據(jù)采集易受儀器、人員操作等噪聲干擾,導(dǎo)致數(shù)據(jù)易出現(xiàn)奇異值;跨度時(shí)間漫長,導(dǎo)致數(shù)據(jù)易丟失、屬性值不完整等問題。因此,最終可用于分析的完整可靠的腐蝕失厚率數(shù)據(jù)為小樣本數(shù)據(jù),迫切需要攫取數(shù)據(jù)潛在價(jià)值,實(shí)現(xiàn)腐蝕失厚率小樣本數(shù)據(jù)集擴(kuò)充,一定程度上代替?zhèn)鹘y(tǒng)的長時(shí)間跨度下環(huán)境試驗(yàn)收集數(shù)據(jù)方法,為后續(xù)腐蝕失厚率分析預(yù)測(cè)夯實(shí)數(shù)據(jù)基礎(chǔ)。
目前,腐蝕失厚率分析預(yù)測(cè)主要的手段是根據(jù)樣本分布與統(tǒng)計(jì)規(guī)律,直接套用各種數(shù)學(xué)函數(shù)定義腐蝕失厚率機(jī)理模型,實(shí)現(xiàn)小樣本腐蝕失厚率數(shù)據(jù)分析預(yù)測(cè),雖能達(dá)到一定精度,但泛化能力較弱,推廣價(jià)值較低。如Feliu等[2]研究了大氣中氯化物及二氧化硫?qū)︿\腐蝕的影響規(guī)律。王振堯等[3]及王光雍等[4]研究得出鋅的大氣腐蝕與試驗(yàn)時(shí)間為近似線性規(guī)律。從數(shù)據(jù)層面分析,其機(jī)理為假定了樣本分布,但實(shí)際樣本分布規(guī)律隨機(jī)多變,尤其在小樣本數(shù)據(jù)上,樣本分布更加不穩(wěn)定。
本文提出一種生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的模型用于小樣本腐蝕失厚率數(shù)據(jù)擴(kuò)充,提升數(shù)據(jù)價(jià)值密度[5],以輔助后續(xù)分析預(yù)測(cè)。GAN模型不要求樣本分布,通過無監(jiān)督學(xué)習(xí)的方式,使生成數(shù)據(jù)逼近真實(shí)樣本分布[6]。本文通過調(diào)試GAN網(wǎng)絡(luò)模型參數(shù)得到性能較好的腐蝕失厚率數(shù)據(jù)結(jié)果,通過PCA降維探究數(shù)據(jù)分布,并在多種機(jī)器學(xué)習(xí)算法上驗(yàn)證生成數(shù)據(jù)的可靠性及其對(duì)預(yù)測(cè)效果的提升。
腐蝕失厚率原始數(shù)據(jù)囊括不同材料牌號(hào)、不同環(huán)境試驗(yàn)場(chǎng)景因素?cái)?shù)據(jù),其中不同環(huán)境試驗(yàn)場(chǎng)景通常以平均溫度、相對(duì)濕度、降水量、日照時(shí)數(shù)等環(huán)境因素?cái)?shù)據(jù)體現(xiàn)。本文腐蝕失厚率預(yù)測(cè)主要針對(duì)同材料牌號(hào)純鋅,在不同環(huán)境因素條件下腐蝕失厚率的數(shù)據(jù)預(yù)測(cè)。
鋅在電位序中處于相對(duì)活性的位置,其腐蝕電位低于鋼鐵[7-8],鋅的大氣腐蝕本質(zhì)是薄液膜下鋅金屬的電化學(xué)腐蝕,其腐蝕行為具有較高的研究價(jià)值[9]。鋅材料的腐蝕破壞產(chǎn)生嚴(yán)重的經(jīng)濟(jì)損失[10],本文以腐蝕失厚率為依據(jù)之一。純鋅腐蝕失厚率數(shù)據(jù)示例見表1,總數(shù)據(jù)量為20條,包含12個(gè)試驗(yàn)地點(diǎn),記錄其典型環(huán)境因素條目,并在大氣環(huán)境暴露環(huán)境下測(cè)量1 a的腐蝕失厚率數(shù)據(jù)。
表1 純鋅腐蝕失厚率數(shù)據(jù)示例
Tab.1 Example of pure zinc corrosion loss rate data
通過純鋅腐蝕失厚率數(shù)據(jù)訓(xùn)練得到預(yù)測(cè)模型,預(yù)測(cè)純鋅在其他各個(gè)試驗(yàn)地點(diǎn)的腐蝕失厚率,可通過全國乃至全球的環(huán)境因素?cái)?shù)據(jù)直接預(yù)測(cè)得到純鋅的腐蝕失厚率,因此需要有效、合理利用這20條原始數(shù)據(jù)。由于某些站點(diǎn)進(jìn)行了多樣本測(cè)量,需要將數(shù)據(jù)順序進(jìn)行打亂,以8︰2的比例建立訓(xùn)練集與測(cè)試集。通常預(yù)測(cè)分析時(shí)采用交叉驗(yàn)證的方法,即多次重新取訓(xùn)練集與預(yù)測(cè)集進(jìn)行結(jié)果分析,這樣得出的結(jié)果更加可靠穩(wěn)定,能減輕過擬合程度。但此方法中需要先訓(xùn)練GAN模型,再以GAN模型去生成數(shù)據(jù),混合生成的增強(qiáng)數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行模型訓(xùn)練??紤]到交叉驗(yàn)證需要多個(gè)GAN模型,引入額外隨機(jī)量,進(jìn)行驗(yàn)證時(shí)變量過多,不具備理論說服力。因此,將訓(xùn)練集和測(cè)試集的數(shù)據(jù)固定,再采用降維可視化直接分析數(shù)據(jù)分布規(guī)律。
在后續(xù)腐蝕失厚率數(shù)據(jù)分析預(yù)測(cè)中,由于其主要數(shù)據(jù)表現(xiàn)形式為數(shù)值型,采用回歸擬合的方式,擬采用典型回歸評(píng)價(jià)指標(biāo)[11]。如賽曉勇等[12]用平均絕對(duì)誤差、平均相對(duì)誤差、誤差平方和作為評(píng)價(jià)方法好壞的指標(biāo),以分析陽性檢查效率。王雪等[13]用決定系數(shù)2、均方根誤差、驗(yàn)證誤差、預(yù)測(cè)均方誤差等作為紅外光譜預(yù)測(cè)數(shù)據(jù)驗(yàn)證。參考董永權(quán)等[14]對(duì)相關(guān)系數(shù)的解釋,誤差絕對(duì)值也體現(xiàn)了統(tǒng)計(jì)特征[15]。本文使用均方差(MSE)、絕對(duì)值誤差(MAE)、皮爾遜相關(guān)系數(shù)、相關(guān)指數(shù)2共4個(gè)指標(biāo)作為回歸結(jié)果評(píng)價(jià)、顯著性檢驗(yàn)手段。
生成對(duì)抗網(wǎng)絡(luò)源于博弈論,以納什均衡作為數(shù)學(xué)基礎(chǔ),是一種新的無監(jiān)督學(xué)習(xí)算法框架[16]。二者博弈,使得二者不斷以螺旋式動(dòng)態(tài)提升,最終二者能力都得到顯著增強(qiáng)。這種對(duì)抗的博弈方式,能夠訓(xùn)練得出高質(zhì)量的假數(shù)據(jù),相比傳統(tǒng)機(jī)器學(xué)習(xí)算法,泛化性能更好,生成模型能夠?qū)W習(xí)到隱性的特征,具有更好的特征表達(dá)能力[17]。GAN得到越來越多學(xué)者青睞,廣泛運(yùn)用在各個(gè)領(lǐng)域中,在計(jì)算機(jī)視覺領(lǐng)域最廣泛、最成熟。一是由于圖片由多個(gè)像素點(diǎn)組成,蘊(yùn)含了大量隱藏特征屬性;二是生成的圖片具有直觀屬性,能夠進(jìn)行人工有效判斷[18]。陳星宇等[19]將生成模型運(yùn)用到圖像視頻顯著性檢測(cè)上。貝悅[20]等結(jié)合條件生成了對(duì)抗網(wǎng)絡(luò)重構(gòu)HDR圖像,在計(jì)算機(jī)視覺方向成果顯著。李凱偉等[21]利用GAN生成了情感對(duì)話內(nèi)容。曹爽[22]基于生成對(duì)抗網(wǎng)絡(luò)合成了表格數(shù)據(jù)。生成對(duì)抗網(wǎng)絡(luò)逐漸普及到各個(gè)領(lǐng)域。
GAN結(jié)構(gòu)如圖1所示,核心為2個(gè)網(wǎng)絡(luò)結(jié)構(gòu),分別為生成器(Generator)和判別器(Discriminator),生成器的決策方向是盡可能生成逼近真實(shí)分布的假數(shù)據(jù),讓判別器無法識(shí)別生成的增強(qiáng)數(shù)據(jù),而判別器決策方向是鑒別數(shù)據(jù)是否為真,盡可能區(qū)分真假數(shù)據(jù)。生成器和判別器形成對(duì)抗,從而不斷迭代提升自身的判別或生成能力。當(dāng)最終生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的損失函數(shù)收斂時(shí),一般情況下,此時(shí)判別網(wǎng)絡(luò)能夠一定程度上鑒真,但某些生成數(shù)據(jù)也會(huì)被判別為真數(shù)據(jù),這就說明生成模型已經(jīng)學(xué)習(xí)到真實(shí)樣本的分布,并能夠生成合理的假數(shù)據(jù)。
圖1 GAN結(jié)構(gòu)
在固定生成器的情況下,需要最優(yōu)化判別器,判別器迭代過程就是最小化交叉熵的過程,損失函數(shù)為:
式(1)中,真實(shí)數(shù)據(jù)滿足真實(shí)采樣分布real(),生成數(shù)據(jù)滿足先驗(yàn)分布fake(),代表數(shù)據(jù)期望值。為達(dá)到需要,最小化式(1),在連續(xù)空間上有:
GAN訓(xùn)練過程即訓(xùn)練判別器不斷最大化判別能力,同時(shí)不斷訓(xùn)練生成器最小化判別能力。一般而言,采用交替訓(xùn)練的方式,固定生成器,迭代優(yōu)化判別器,然后固定判別器,迭代優(yōu)化生成器,當(dāng)生成器生成數(shù)據(jù)樣本分布與原始數(shù)據(jù)樣本分布對(duì)抗平衡時(shí),達(dá)到全局最優(yōu)解。
GAN普遍存在樣本多樣性較弱的問題[23],但對(duì)于小樣本腐蝕失厚率數(shù)據(jù)而言,若生成數(shù)據(jù)過于廣泛,將導(dǎo)致實(shí)際物理意義不存在的問題。比如原始數(shù)據(jù)中有萬寧、北京、武漢等地環(huán)境因素?cái)?shù)據(jù),如果生成差異性過大的數(shù)據(jù),實(shí)際上不存在對(duì)應(yīng)的真實(shí)地點(diǎn),這樣從機(jī)理層面無法解釋,所以GAN生成偏向于真實(shí)數(shù)據(jù)的增強(qiáng)數(shù)據(jù),使生成數(shù)據(jù)具有物理意義。因此,GAN模型適用于腐蝕失厚率數(shù)據(jù)增強(qiáng)。
提出基于GAN的腐蝕失厚率生成式模型,并進(jìn)行校驗(yàn)驗(yàn)證,流程如圖2所示。首先是生成對(duì)抗網(wǎng)絡(luò)主要組成部分的判別模型和生成模型,經(jīng)參數(shù)調(diào)試,最適用于純鋅腐蝕失厚率數(shù)據(jù)分析的GAN模型網(wǎng)絡(luò)結(jié)構(gòu)為4層分類神經(jīng)網(wǎng)絡(luò),判別器輸入8個(gè)特征,中間層分別構(gòu)建16、256、64個(gè)節(jié)點(diǎn)。二分類輸出判別真假,使用ReLU作為激活函數(shù),而生成器與判別器鏡像對(duì)抗,輸入為1個(gè)特征,中間層構(gòu)建64、256、16個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),最后輸出8個(gè)特征,即假數(shù)據(jù)。利用小樣本的腐蝕失厚率數(shù)據(jù)進(jìn)行GAN訓(xùn)練,并保存生成網(wǎng)絡(luò)模型。生成網(wǎng)絡(luò)模型生成假數(shù)據(jù),與真數(shù)據(jù)進(jìn)行PCA降維可視化分析,校驗(yàn)數(shù)據(jù)是否分布合理。同時(shí)對(duì)比真數(shù)據(jù)、混合真數(shù)據(jù)和假數(shù)據(jù)在不同算法的預(yù)測(cè)結(jié)果,輸出得到各類評(píng)價(jià)指標(biāo),以此驗(yàn)證基于GAN進(jìn)行數(shù)據(jù)增強(qiáng)后是否對(duì)預(yù)測(cè)精度提升提供支持。
圖2 腐蝕失厚率生成式模型流程
保存收斂的生成網(wǎng)絡(luò)模型,要求腐蝕失厚率GAN模型達(dá)到收斂。輸出判別器與生成器的損失函數(shù)值,得到如圖3所示損失函數(shù)曲線。圖3中,迭代次數(shù)指損失輸出次數(shù),采取措施是前200代每10次輸出1次損失函數(shù),之后每50代輸出1次損失函數(shù),所以600多次迭代次數(shù)對(duì)應(yīng)實(shí)際30 000次循環(huán)。判別器與生成器損失在初期100次(即實(shí)際4 200代)以內(nèi)波動(dòng)非常大,150次迭代次數(shù)(即實(shí)際6 700代)后緩慢收斂,最終取30 000次循環(huán)結(jié)果作為收斂結(jié)果。最終判別器損失收斂于0.7左右,生成器損失收斂于2.3左右,所以判別器基本穩(wěn)定收斂,生成器由于數(shù)據(jù)量較少,只能達(dá)到基本收斂。另外,GAN的收斂不能只取決于判別器與生成器的收斂,同時(shí)輸出真假數(shù)據(jù)在判別器的概率,當(dāng)真假數(shù)據(jù)概率基本持平時(shí),模型達(dá)到收斂。當(dāng)GAN模型達(dá)到收斂時(shí),將生成模型參數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)保存,以備后續(xù)生成假數(shù)據(jù)、分析使用。
圖3 腐蝕失厚率GAN模型損失函數(shù)
純鋅腐蝕失厚率數(shù)據(jù)為7個(gè)特征列與1個(gè)標(biāo)簽列,共8維數(shù)據(jù),無法直觀分析其分布規(guī)律,需要將其降維到三維及其以下可視化數(shù)據(jù)特征。這里采用主成分分析技術(shù)(Principal Components Analysis,PCA),利用方差信息進(jìn)行線性變換投影降維,壓縮數(shù)據(jù)空間,將高維度的純鋅腐蝕失厚率數(shù)據(jù)在三維空間中直觀展示出來[24]。
如圖4a所示的不帶label列的PCA三維降維結(jié)果,指只使用生成數(shù)據(jù)的特征列進(jìn)行降維。從三維降維可視化結(jié)果可得,原始的20條小樣本數(shù)據(jù)散亂地分布在樣本空間中,并且在、、值都較大或都較小的情況時(shí),數(shù)據(jù)不存在,生成模型主要填補(bǔ)了此種情況下的樣本分布,使樣本分布更加完整。帶label列的PCA三維降維結(jié)果與不帶label列的降維結(jié)果基本一致,主要補(bǔ)齊樣本在某些情況下的分布,如圖4b所示。GAN生成的數(shù)據(jù)特征主要集中在非label列,即特征列上。因此,GAN生成的腐蝕失厚率假數(shù)據(jù)的樣本分布合理,可支撐后續(xù)分析研究,但生成數(shù)據(jù)多樣性不夠豐富。由可視化結(jié)果可知,主要補(bǔ)齊的數(shù)據(jù)沿2條直線分布(低維線性分布,在原始高維分布一般不為線性分布),存在GAN典型的模式坍縮問題。
圖4 PCA三維降維結(jié)果
為了驗(yàn)證生成數(shù)據(jù)是否可以提升預(yù)測(cè)的精度,增加模型的泛化能力,采用極端隨機(jī)樹回歸算法(ETR)、梯度提升樹算法(GBM)、bagging回歸算法、支持向量機(jī)回歸算法(SVM)、隨機(jī)森林回歸算法(RF)共5種機(jī)器學(xué)習(xí)算法,分別使用原始數(shù)據(jù)、混合原始數(shù)據(jù)加部分生成數(shù)據(jù)2種方式進(jìn)行模型訓(xùn)練。原始數(shù)據(jù)通過8︰2的比例劃分訓(xùn)練集與測(cè)試集,即使用16條數(shù)據(jù)進(jìn)行訓(xùn)練,而加入生成數(shù)據(jù)的策略為使用16條原始數(shù)據(jù),并加上4條生成數(shù)據(jù),保證原始數(shù)據(jù)權(quán)重,防止訓(xùn)練數(shù)據(jù)樣本分布過于偏向生成數(shù)據(jù)樣本分布。最后以4條測(cè)試集數(shù)據(jù)實(shí)際值與預(yù)測(cè)值進(jìn)行均方差(MSE)、絕對(duì)值誤差(MAE)、相關(guān)指數(shù)2、皮爾遜相關(guān)系數(shù)4個(gè)評(píng)價(jià)指標(biāo)來驗(yàn)證結(jié)果。
由于多數(shù)回歸模型都具有一定隨機(jī)性,比如梯度提升樹,該模型不斷隨機(jī)抓取數(shù)據(jù)進(jìn)行梯度提升以達(dá)最優(yōu)解,因此每次訓(xùn)練模型得到的結(jié)果存在一定波動(dòng)性。鑒于此,采用多次訓(xùn)練模型,并取統(tǒng)計(jì)直方圖的方法進(jìn)行效果校驗(yàn),取10 000次循環(huán)輸出統(tǒng)計(jì)直方圖。以隨機(jī)森林為例,各評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)直方圖見圖5。對(duì)于均方差和絕對(duì)值誤差而言,加入生成數(shù)據(jù)訓(xùn)練的模型結(jié)果均值更小,模型準(zhǔn)確度更高,同時(shí)方差更大,說明通過加入樣本擴(kuò)充分布后隨機(jī)性得到一定提升,過擬合程度相對(duì)降低。對(duì)于皮爾遜相關(guān)系數(shù)和相關(guān)指數(shù)2而言,加入生成數(shù)據(jù)訓(xùn)練的模型結(jié)果均值更大,說明預(yù)測(cè)值與實(shí)際值關(guān)聯(lián)性更強(qiáng),方差更大,增添隨機(jī)性,過擬合程度相對(duì)降低。
圖5 數(shù)據(jù)增強(qiáng)前后隨機(jī)森林評(píng)價(jià)指標(biāo)
參考袁培等[25]從多維、多源數(shù)據(jù)進(jìn)行多尺度分析,本文通過5種回歸算法分別對(duì)使用原始數(shù)據(jù)、原始數(shù)據(jù)加部分生成數(shù)據(jù)2種方式的訓(xùn)練結(jié)果進(jìn)行評(píng)價(jià)指標(biāo)分析。由于每種算法多次測(cè)算,以多次測(cè)算的均值方差來代替直方圖表達(dá),最終統(tǒng)計(jì)得到數(shù)據(jù)增強(qiáng)前后各模型評(píng)價(jià)指標(biāo)數(shù)值,見表2。特別地,對(duì)于SVM回歸而言,由于SVM是一種數(shù)值解法,若輸入一樣,每次結(jié)果一致,不存在隨機(jī)過程,所以未加入隨機(jī)生成數(shù)據(jù)時(shí),使用同樣的16個(gè)訓(xùn)練數(shù)據(jù)得到的結(jié)果完全相同,體現(xiàn)為方差等于0。
表2 數(shù)據(jù)增強(qiáng)前后各模型評(píng)價(jià)指標(biāo)
Tab.2 Evaluation indicators of each model before and after data enhancement
通過統(tǒng)計(jì)計(jì)算,加入生成數(shù)據(jù)后的MSE均值是未加入生成數(shù)據(jù)MSE均值的61.72%~91.74%,皮爾遜均值為99.01%~113.64%。MSE綜合衡量偏差與方差,模型精確度提升,皮爾遜均值衡量預(yù)測(cè)值和實(shí)際值之間相關(guān)性,結(jié)果關(guān)聯(lián)度更高。
根據(jù)表2得到綜合圖示,如圖6所示,直觀展示各算法模型對(duì)各評(píng)價(jià)指標(biāo)的數(shù)值結(jié)果,ETR、gbm、bagging、SVM、RF分別指極端回歸樹、梯度提升樹、bagging回歸、支持向量機(jī)回歸、隨機(jī)森林回歸算法模型,“是”與“否”代表是否加入生成數(shù)據(jù),如“ETR-是”指加入生成數(shù)據(jù)的極端回歸樹算法結(jié)果。圖6中負(fù)指標(biāo)縮小為10%處理,且未展示方差。首先因?yàn)榉讲顢?shù)值量級(jí)差異較大,難以直觀展示,其次方差體現(xiàn)隨機(jī)性,而隨機(jī)性可通過PCA降維分析推導(dǎo)或者方差計(jì)算得出。由圖6可直觀得出,加入生成數(shù)據(jù)后,MSE、MAE均值降低,2、皮爾遜均值增大。
為了探究生成數(shù)據(jù)數(shù)量對(duì)分析預(yù)測(cè)結(jié)果的影響,這里使用梯度提升樹算法(GBM)為基礎(chǔ),測(cè)試取不同量生成數(shù)據(jù)gbm算法結(jié)果,見表3。可見,隨著生成數(shù)據(jù)取用數(shù)量的增多,MSE逐漸趨小,但同時(shí)存在隨機(jī)性減小、過擬合程度增大的問題。從MSE方差角度看,加入生成數(shù)據(jù)后,方差增加幾十倍,生成數(shù)據(jù)取用數(shù)為4左右時(shí)達(dá)到峰值,說明此時(shí)隨機(jī)性更好,樣本分布更加全面。因此,對(duì)于腐蝕失厚率數(shù)據(jù)而言,納入訓(xùn)練的原始數(shù)據(jù)16條,再加入4條生成數(shù)據(jù)時(shí),分析預(yù)測(cè)精度高,隨機(jī)性更好,樣本分布更全面。將實(shí)驗(yàn)結(jié)果繪制成折線圖,如圖7所示。生成數(shù)據(jù)只要不超過原始數(shù)據(jù)數(shù)量的100%,分析預(yù)測(cè)結(jié)果較為可觀。
圖6 數(shù)據(jù)增強(qiáng)前后各算法評(píng)價(jià)指標(biāo)
表3 取不同量生成數(shù)據(jù)gbm算法結(jié)果
Tab.3 Results of the gbm algorithm for different amounts of generated data
圖7 不同量生成數(shù)據(jù)gbm算法結(jié)果展示
1)綜合考慮腐蝕失厚率小樣本數(shù)據(jù)特點(diǎn),提出適用的GAN算法模型,調(diào)整4層網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)。
2)使用多算法模型、多個(gè)評(píng)價(jià)指標(biāo)對(duì)GAN數(shù)據(jù)增強(qiáng)結(jié)果進(jìn)行驗(yàn)證,結(jié)果表明,GAN數(shù)據(jù)擴(kuò)充能有效對(duì)小樣本腐蝕失厚率分析預(yù)測(cè)提供可靠支持。
3)對(duì)比取不同數(shù)量的增強(qiáng)數(shù)據(jù)分析預(yù)測(cè)結(jié)果,采用適中數(shù)量的生成數(shù)據(jù)才能得到最佳的分析預(yù)測(cè)結(jié)果。試驗(yàn)證明,生成數(shù)據(jù)小于原始數(shù)據(jù)數(shù)量時(shí),腐蝕失厚率分析效果較好,不會(huì)擾亂樣本分布。
4)生成數(shù)據(jù)存在多樣性不夠充分問題,GAN存在模式坍縮問題,后續(xù)可探究WGAN等更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),或者通過數(shù)據(jù)清洗等方法優(yōu)化樣本分布,以解決存在的問題。
[1] EL-MAHDY G A. Advanced Laboratory Study on the Atmospheric Corrosion of Zinc under Thin Electrolyte Layers[J]. Corrosion, 2003, 59(6): 505-510.
[2] FELIU S, MORCILLO M, FELIU S Jr. The Prediction of Atmospheric Corrosion from Meteorological and Pollution Parameters—I. Annual Corrosion[J]. Corrosion Science, 1993, 34(3): 403-414.
[3] 王振堯, 于國才, 韓薇. 我國若干典型大氣環(huán)境中的鋅腐蝕[J]. 腐蝕科學(xué)與防護(hù)技術(shù), 2003, 15(4): 191-195.
WANG Zhen-yao, YU Guo-cai, HAN Wei. Atmospheric Corrosion Performance of Zinc at Several Selected Test Sits in China[J]. Corrosion Science and Technology Protection, 2003, 15(4): 191-195.
[4] 王光雍, 王海江, 李興濂, 等. 自然環(huán)境的腐蝕與防護(hù)[M]. 北京: 化學(xué)工業(yè)出版社, 1996.
WANG Guang-yong, ANG hai-jiang, LI Xing-lian, et al. Corrosion and Protection of the Natural Environment[M]. Beijing: Chemical Industry Publishing House, 1996.
[5] 尚宇煒, 馬釗, 彭晨陽, 等. 內(nèi)嵌專業(yè)知識(shí)和經(jīng)驗(yàn)的機(jī)器學(xué)習(xí)方法探索(一): 引導(dǎo)學(xué)習(xí)的提出與理論基礎(chǔ)[J]. 中國電機(jī)工程學(xué)報(bào), 2017, 37(19): 5560-5571.
SHANG Yu-wei, MA Zhao, PENG Chen-yang, et al. Study of a Novel Machine Learning Method Embedding Expertise Part Ⅰ: Proposals and Fundamentals of Guiding Learning[J]. Proceedings of the CSEE, 2017, 37(19): 5560-5571.
[6] 楊懿男, 齊林海, 王紅, 等. 基于生成對(duì)抗網(wǎng)絡(luò)的小樣本數(shù)據(jù)生成技術(shù)研究[J]. 電力建設(shè), 2019, 40(5): 71-77.
YANG Yi-nan, QI Lin-hai, WANG Hong, et al. Research on Generation Technology of Small Sample Data Based on Generative Adversarial Network[J]. Electric Power Construction, 2019, 40(5): 71-77.
[7] 郝顯赫, 王振堯, 汪川. 鋅在遼寧紅沿河核電站的大氣腐蝕研究[J]. 裝備環(huán)境工程, 2012, 9(3): 108-110.
HAO Xian-he, WANG Zhen-yao, WANG Chuan. Atmospheric Corrosion of Zinc at Hongyanhe Nuclear Power Station[J]. Equipment Environmental Engineering, 2012, 9(3): 108-110.
[8] 周學(xué)杰, 張三平, 鄭鵬華, 等. 純鋅在水環(huán)境中腐蝕行為[J]. 裝備環(huán)境工程, 2008, 5(5): 9-12.
ZHOU Xue-jie, ZHANG San-ping, ZHENG Peng-hua, et al. Corrosion Behavior of Pure Zn in Water Environment[J]. Equipment Environmental Engineering, 2008, 5(5): 9-12.
[9] 葉堤. 重慶市大氣污染對(duì)鋅材料腐蝕的經(jīng)濟(jì)損失分析[J]. 裝備環(huán)境工程, 2007, 4(1): 21-24.
YE Di. Economic Loss Estimates of Zinc Corrosion by Acid Deposition in Chongqing[J]. Equipment Environmental Engineering, 2007, 4(1): 21-24.
[10] 朱志平, 左羨第, 銀朝暉. 鋅在模擬工業(yè)大氣環(huán)境下的腐蝕行為研究[J]. 裝備環(huán)境工程, 2015, 12(4): 1-5.
ZHU Zhi-ping, ZUO Xian-di, YIN Zhao-hui. Zinc Corrosion Behavior in Simulated Industrial Atmospheric Environment[J]. Equipment Environmental Engineering, 2015, 12(4): 1-5.
[11] 王振杰, 姚吉利. 廣義測(cè)量平差分類[J]. 淄博學(xué)院學(xué)報(bào)(自然科學(xué)與工程版), 2001(1): 62-64.
WANG Zhen-jie, YAO Ji-li. The Classification of General Surveying Adjustment[J]. Journal of Zibo University, 2001(1): 62-64.
[12] 賽曉勇, 邢秦菊, 孟定茹, 等. 五種預(yù)測(cè)方法在退田還湖區(qū)血吸蟲病發(fā)病的擬合效果評(píng)價(jià)[J]. 第四軍醫(yī)大學(xué)學(xué)報(bào), 2006(17): 1603-1605.
SAI Xiao-yong, XING Qin-ju, MENG Ding-ru, et al. Comparison of Predicting Effect of Schistosomiasis Prevalence by 5 Statistical Models in the Areas of “Breaking Dikes or Opening Sluice for Water Store” in Dongting Lake[J]. Journal of the Fourth Military Medical University, 2006(17): 1603-1605.
[13] 王雪, 馬鐵民, 楊濤, 等. 基于近紅外光譜的灌漿期玉米籽粒水分小樣本定量分析[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2018, 34(13): 203-210.
WANG Xue, MA Tie-min, YANG Tao, et al. Moisture Quantitative Analysis with Small Sample Set of Maize Grain in Filling Stage Based on near Infrared Spectroscopy[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(13): 203-210.
[14] 董永權(quán), 王占民. 關(guān)于相關(guān)系數(shù)的幾點(diǎn)注釋[J]. 大學(xué)數(shù)學(xué), 2008, 24(2): 182-186.
DONG Yong-quan, WANG Zhan-min. Some Notes about Correiation Coefficient[J]. College Mathematics, 2008, 24(2): 182-186.
[15] 丁勇. 誤差絕對(duì)值的統(tǒng)計(jì)特征和應(yīng)用[J]. 數(shù)理統(tǒng)計(jì)與管理, 2016, 35(1): 39-46.
DING Yong. The Statistical Characteristic and Application of the Error Absolute Value[J]. Journal of Applied Statistics and Management, 2016, 35(1): 39-46.
[16] 王坤峰, 茍超, 段艷杰, 等. 生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(3): 321-332.
WANG Kun-feng, GOU Chao, DUAN Yan-jie, et al. Generative Adversarial Networks: The State of the Art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.
[17] 梁俊杰, 韋艦晶, 蔣正鋒. 生成對(duì)抗網(wǎng)絡(luò)GAN綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2020, 14(1): 1-17.
LIANG Jun-jie, WEI Jian-jing, JIANG Zheng-feng. Generative Adversarial Networks GAN Overview[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(1): 1-17.
[18] 陳亮, 吳攀, 劉韻婷, 等. 生成對(duì)抗網(wǎng)絡(luò)GAN的發(fā)展與最新應(yīng)用[J]. 電子測(cè)量與儀器學(xué)報(bào), 2020, 34(6): 70-78.
CHEN Liang, WU Pan, LIU Yun-ting, et al. Development and Application of the Latest Generation Against the Network of GAN[J]. Journal of Electronic Measurement and Instrumentation, 2020, 34(6): 70-78.
[19] 陳星宇, 葉鋒, 黃添強(qiáng), 等. 融合小型深度生成模型的顯著性檢測(cè)[J]. 電子學(xué)報(bào), 2021, 49(4): 768-774.
CHEN Xing-yu, YE Feng, HUANG Tian-qiang, et al. Saliency Detection Combined with Small-Scale Deep Generation Model[J]. Acta Electronica Sinica, 2021, 49(4): 768-774.
[20] 貝悅, 王琦, 程志鵬, 等. 基于條件生成對(duì)抗網(wǎng)絡(luò)的HDR圖像生成方法[J]. 北京航空航天大學(xué)學(xué)報(bào), 2022, 48(1): 45-52.
BEI Yue, WANG Qi, CHENG Zhi-peng, et al. HDR Image Generation Method Based on Conditional Generative Adversarial Network[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(1): 45-52.
[21] 李凱偉, 馬力. 基于生成對(duì)抗網(wǎng)絡(luò)的情感對(duì)話回復(fù)生成[J/OL]. 計(jì)算機(jī)工程與應(yīng)用, 2021: 1-8. (2021-04-22). https://kns.cnki.net/kcms/detail/11.2127.TP.20210422.1328.011.html.
LI Kai-wei, MA Li. Emotional Dialogue Response Generation Based on Generative Adversarial Network[J/OL]. Computer Engineering and Applications, 2021: 1-8. (2021-04-22). https://kns.cnki.net/kcms/detail/11.2127.TP.20210422.1328.011.html.
[22] 曹爽. SCGAN: 合成單類別表格數(shù)據(jù)的生成對(duì)抗網(wǎng)絡(luò)[J]. 計(jì)算機(jī)時(shí)代, 2021(4): 25-27.
CAO Shuang. SCGAN: A Generative Adversarial Network for Single Category Tabular Data Synthesis[J]. Computer Era, 2021(4): 25-27.
[23] RADFORD A, METZ L, CHINTALA S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]. Computer Science, 2015, 1511: 06434.
[24] 陳佩. 主成分分析法研究及其在特征提取中的應(yīng)用[D]. 西安: 陜西師范大學(xué), 2014: 8-15.
CHEN Pei. Research on Principal Component Analysis and Its Application in Feature Extraction[D]. Xi'an: Shaanxi Normal University, 2014: 8-15.
[25] 袁培, 王舶仲, 毛文奇, 等. 基于多重生成對(duì)抗網(wǎng)絡(luò)的智能開關(guān)設(shè)備狀態(tài)感知與診斷研究[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(6): 67-75.
YUAN Pei, WANG Bo-zhong, MAO Wen-qi, et al. Research on State Perception and Diagnosis of Intelligent Switches Based on Triple Generative Adversarial Networks[J]. Power System Protection and Control, 2021, 49(6): 67-75.
Corrosion Thickness Loss Rate Data Enhancement Based on a Small Sample of GAN
ZHOU Jun-yan, WANG Jing-cheng, YANG Xiao-kui, SHU Chang, WANG Jin-mei, ZHANG Chen
(Southwest Institute of Technology and Engineering, Chongqing 400039, China)
The work aims to conduct data enhancement on the corrosion thickness loss rate of small samples to achieve data expansion, improve the prediction accuracy of the subsequent analysis model, reduce the degree of overfitting and improve the generalization ability of the model. The Generative Adversarial Network (GAN) was used to expand the corrosion thickness loss rate data and make the data distribution more comprehensive. Dimensionality reduction visual analysis on the generated data was conducted. The distribution of generated data and original data samples was explored. The rationality of data enhancement was analyzed. In addition, the analysis and prediction ability and generalization ability were evaluated from the perspectives of multiple algorithm models and multiple evaluation indicators.The generated data filled in the weak link of the original data in the sample space distribution. After adding the generated data, the average MSE obtained by each machine learning algorithm model was 61.72% to 91.74% of the result without the generated data, and the Pearson average was 99.01% to 113.64 %. The prediction accuracy was improved. The results were more relevant. And the model generalization ability was enhanced.GAN can effectively enhance the corrosion thickness loss rate data of small samples. Data expansion provides positive support for analysis and prediction. The generated data should not be more than the original data to prevent disturbing the distribution of training samples. At the same time, there are problems with limited diversity of generated data.
corrosion thickness loss rate; small sample; generative adversarial networks; data enhancement; dimensionality reduction analysis; sample distribution
TP399
A
1672-9242(2023)01-0142-09
10.7643/ issn.1672-9242.2023.01.020
2021–11–17;
2021-11-17;
2021–12–28
2021-12-28
周俊炎(1995—),男,碩士,工程師,主要研究方向?yàn)榄h(huán)境試驗(yàn)與觀測(cè)。
ZHOU Jun-yan (1995-), Male, Master, Engineer, Research focus: environment test and observation research.
周俊炎, 王竟成, 楊小奎, 等. 基于GAN的小樣本腐蝕失厚率數(shù)據(jù)增強(qiáng)方法[J]. 裝備環(huán)境工程, 2023, 20(1): 142-150.
ZHOU Jun-yan, WANG Jing-cheng, YANG Xiao-kui, et al. Corrosion Thickness Loss Rate Data Enhancement Based on a Small Sample of GAN[J]. Equipment Environmental Engineering, 2023, 20(1): 142-150.
責(zé)任編輯:劉世忠