高昂 肖萌 唐世浩 姜靈峰 咸迪 鄭偉
(國家衛(wèi)星氣象中心, 北京 100081)
風(fēng)云二號(FY-2)氣象衛(wèi)星是我國第一代地球同步軌道氣象衛(wèi)星,自1997年發(fā)射FY-2A以來到2018年FY-2H發(fā)射成功,當(dāng)前該系列衛(wèi)星所有批次已全部發(fā)射共計(jì)8顆[1],現(xiàn)余3顆業(yè)務(wù)運(yùn)行并計(jì)劃由新一代靜止氣象衛(wèi)星風(fēng)云四號逐步取代。而依托FY-2衛(wèi)星地面應(yīng)用系統(tǒng)工程建設(shè),我國于2004年建成了功能完善的天地一體化衛(wèi)星遙感數(shù)據(jù)共享系統(tǒng)[2],已積累了十余年靜止氣象衛(wèi)星數(shù)據(jù)并向國內(nèi)外用戶提供數(shù)據(jù)服務(wù)。FY-2衛(wèi)星數(shù)據(jù)觀測頻次高、覆蓋范圍廣,為我國的氣候變化、生態(tài)環(huán)境變化等科學(xué)研究提供了寶貴的歷史資料[3]。
FY-2資料可有效彌補(bǔ)地面云覆蓋觀測時(shí)空分辨率的不足,定性及定量云基礎(chǔ)參量的觀測(檢測)結(jié)果對提供未來天氣變化趨勢的依據(jù)有著十分重要的意義[4]。FY-2云檢測結(jié)果是形成各類定量遙感產(chǎn)品的基礎(chǔ),無論是以云圖為基礎(chǔ)的天氣、氣候分析還是以去云為前提的各類大氣和地表參數(shù)反演,都需要對遙感影像中的云進(jìn)行準(zhǔn)確識別。一些研究表明FY-2的云檢測誤差較大,裔傳祥等[5]發(fā)現(xiàn)相同空間內(nèi)高分衛(wèi)星云覆蓋率為100%時(shí),F(xiàn)Y-2E和FY-2G的云檢測結(jié)果判識為有云的比例分別為44.98%和40.46%,且無法將碎云表現(xiàn)出來;李婭等[6]發(fā)現(xiàn)FY-2G衛(wèi)星觀測云產(chǎn)品較地面觀測偏低,基于云檢測結(jié)果的云覆蓋率產(chǎn)品與地面人工觀測一致率平均為37.93%,認(rèn)為衛(wèi)星觀測不能完全替代地面云量觀測。劉煉燁等[7]發(fā)現(xiàn),受云檢測精度限制,云覆蓋率產(chǎn)品在實(shí)況多云時(shí)一致性較低。云在時(shí)間和空間尺度上的不確定性,導(dǎo)致了衛(wèi)星云圖特征千變?nèi)f化[8],因此云檢測始終是氣象衛(wèi)星遙感研究和定量應(yīng)用的重點(diǎn)和難點(diǎn),對提高云的自動化觀測水平和精度,實(shí)現(xiàn)海量衛(wèi)星歷史資料的再處理具有重要意義。
云檢測的方法多樣,國內(nèi)外的研究眾多,現(xiàn)有的遙感影像云檢測方法主要分為利用云與地物多光譜特性差異的物理方法、空間紋理檢測方法、基于特征提取的模式識別檢測方法以及運(yùn)用多種方法對云檢測效果進(jìn)行優(yōu)化的綜合優(yōu)化方法[9]。而云像元的自動提取技術(shù)絕大多數(shù)都采用多特征(單通道或通道組合)閾值的思路[10-11],即將目標(biāo)像元不同通道(組合)的亮度溫度(簡稱亮溫)、亮度溫度差(簡稱亮溫差)以及反射率與設(shè)定的閾值比較,來判識該像元是否被云污染。Alan提出的自動動態(tài)閾值法[12]是一種易于實(shí)現(xiàn),相對成熟的方法,眾多研究都在此基礎(chǔ)上針對不同衛(wèi)星進(jìn)行適應(yīng)性改進(jìn)或優(yōu)化閾值提取方法[13-15],F(xiàn)Y-2云檢測采用了滑動窗和嵌套窗方法改進(jìn)云檢測動態(tài)閾值提取方法[16-18]。這類云檢測算法需要大量的先驗(yàn)知識,依賴大量的人工判讀和閾值參數(shù)調(diào)整,算法的精度往往受制于儀器的通道和空間分辨率,即便有更為精準(zhǔn)的驗(yàn)證數(shù)據(jù),對算法精度的提升也十分有限。
隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的開疆拓土,圖像分類、物體識別和語義分割任務(wù)等都獲得了重大突破。與傳統(tǒng)機(jī)器學(xué)習(xí)需要依賴人工提取特征不同,深度學(xué)習(xí)可自動提取影像特征,并具有可遷移性的特點(diǎn),為FY-2歷史資料再處理提供了新的思路。近年來深度學(xué)習(xí)技術(shù)已開始用于分辨率較高、光譜通道較多的衛(wèi)星遙感數(shù)據(jù)的云檢測。瞿建華等[19]提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,徐啟恒等[20]結(jié)合超像素和卷積神經(jīng)網(wǎng)絡(luò)對高分辨率遙感影像進(jìn)行云檢測,陳洋等[21]利用卷積神經(jīng)網(wǎng)絡(luò)提取影響特征,然后將影像特征輸入支持向量機(jī)分類器進(jìn)行分類,獲得云檢測結(jié)果。研究中發(fā)現(xiàn)了冰雪誤識別、太陽耀斑處云邊界輪廓不連續(xù)、霧霾以及沙塵誤識別等問題。
本文根據(jù)FY-2E云檢測的特點(diǎn),針對性地設(shè)計(jì)了深度語義分割模型:為了能夠聚合不同區(qū)域的云的上下文信息,增加了高層特征向低層的跳躍連接,并增加了編碼過程中下采樣次數(shù),保證提取到足夠多的特征信息;針對網(wǎng)絡(luò)訓(xùn)練中正負(fù)樣本嚴(yán)重失衡的問題,改進(jìn)了損失函數(shù),可以有效提取云的邊界。最后,通過試驗(yàn)驗(yàn)證了本文方法的性能,并與其他算法進(jìn)行了比較分析。
用深度學(xué)習(xí)訓(xùn)練模型及其優(yōu)劣評估需要精度較高的云檢測結(jié)果進(jìn)行對比分析,根據(jù)參照來源分為3種方法:①通過專家目視分析;②與地面實(shí)況資料對比分析;③用公認(rèn)比較準(zhǔn)確的衛(wèi)星云檢測資料進(jìn)行對比分析。第1種方法需要人工干預(yù),效率較低,較難實(shí)現(xiàn)大規(guī)模數(shù)據(jù)評估,限制了自動化檢測水平。第2種方法是將云分割結(jié)果與地面實(shí)況結(jié)果進(jìn)行比較,由于地面觀測結(jié)果多為單點(diǎn)離散分布,無論是目視觀測、還是雷達(dá)或全天空成像儀的觀測視角均與衛(wèi)星遙感觀測視角有較大差異,存在空間尺度轉(zhuǎn)換不確定性[22-23],難以保障數(shù)據(jù)匹配精度。本文采用第3種方法,利用Aqua/MODIS的MYD35云檢測產(chǎn)品進(jìn)行對比分析。MYD35產(chǎn)品的空間分辨率高于FY-2E,且精度較高[24-26],適合作為深度學(xué)習(xí)的期望輸出結(jié)果。
本文采用2010年1—12月的FY-2E/VISSR L1數(shù)據(jù)作為訓(xùn)練樣本,標(biāo)簽樣本采用同時(shí)次的Aqua/MODIS MYD35數(shù)據(jù)。輔助數(shù)據(jù)包括3類:①上述兩類數(shù)據(jù)進(jìn)行時(shí)空匹配所需的地理信息數(shù)據(jù),即FY-2的標(biāo)稱投影經(jīng)緯度查照表,以及Aqua/MODIS MYD03數(shù)據(jù);②為便于結(jié)果比對和誤差分析,收集并匹配了FY-2業(yè)務(wù)應(yīng)用的多通道閾值云檢測算法的對應(yīng)產(chǎn)品;③部分典型樣本選取相應(yīng)的Aqua MODIS的L1B數(shù)據(jù),用于生成真彩色合成遙感影像作為人工判識的輔助參考。
首先,將FY-2E L1中國區(qū)數(shù)據(jù)(空間分辨率為5 km)與MYD35云檢測產(chǎn)品進(jìn)行等經(jīng)緯度投影轉(zhuǎn)換,將得到的投影數(shù)據(jù)采用最鄰近法進(jìn)行匹配,得到空間誤差小于5 km(1個(gè)像元),時(shí)間誤差小于15 min 的配準(zhǔn)數(shù)據(jù)。然后,參考MYD35數(shù)據(jù)的質(zhì)量控制碼剔除質(zhì)量較差的樣本。再次將配準(zhǔn)數(shù)據(jù)切割為256×256大小的瓦片數(shù)據(jù)以提高訓(xùn)練效率。最后,采用留出法從瓦片數(shù)據(jù)中隨機(jī)抽取60%樣本作為訓(xùn)練數(shù)據(jù)集,20%樣本作為驗(yàn)證數(shù)據(jù)集,剩余20%樣本作為測試數(shù)據(jù)集,且數(shù)據(jù)集之間在地理位置上無任何重疊。
考慮FY-2E L1各通道有效值范圍不同,采用離差標(biāo)準(zhǔn)化將不在通道有效值范圍內(nèi)的像素值映射到[0,1]范圍內(nèi),并將其轉(zhuǎn)換成圖像像素值(值域?yàn)?~255)以符合模型輸入圖像數(shù)據(jù)的要求。數(shù)據(jù)預(yù)處理的結(jié)果見表1。
表1 數(shù)據(jù)預(yù)處理結(jié)果
經(jīng)典深度學(xué)習(xí)以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[27,28]為代表的模型在圖像分類中取得了巨大的成就。但是基于CNN的分類算法在進(jìn)行卷積和池化過程中丟失了圖像信息(比如分辨率和位置),所以無法提取出物體的具體輪廓,也無法指出每個(gè)像素具體屬于哪個(gè)類別。而大氣環(huán)境遙感監(jiān)測要求精確識別出氣象要素的輪廓,并給出像元級的分類,這就使得CNN分類算法無法直接應(yīng)用于遙感影像的信息提取。語義分割網(wǎng)絡(luò)是CNN的一個(gè)分支,主要由6種結(jié)構(gòu)組成。
式中,H,W,C分別表示卷積核的長,寬,數(shù)量。
(2)激活函數(shù)。卷積層和濾波層一般通過激活函數(shù)連接[29], 而修正線性單元(rectified linear unit,ReLU)激活在深度卷積神經(jīng)網(wǎng)絡(luò)中被廣泛采用。文獻(xiàn)[30]提出了擴(kuò)展型指數(shù)線性單元激活函數(shù)(Scaled Exponential Linear Unit,SELU),可以網(wǎng)絡(luò)進(jìn)行自歸一化,有效克服梯度消失等問題。其公式為:
(3)池化。池化操作可以匯合低層特征信息,縮減計(jì)算數(shù)據(jù)量,擴(kuò)大高層濾波器的感受野。給定大小為H×W×C的特征矩陣x, 采用大小為F×F的池化核(不填充池化,unpadded pooling),且池化步長S,則最大池化操作的輸出為:
Fi,j=max(Gi,j)
(4)特征融合。將低層特征向量與相應(yīng)高層特征向量拼接為新的張量,就能夠融合高層的語義信息和低層的局部特征信息,從而實(shí)現(xiàn)準(zhǔn)確而又精細(xì)的云特征提取。在本文提出的網(wǎng)絡(luò)中,將每次上采樣輸出的特征圖,與下采樣部分輸出的相同尺度的特征圖進(jìn)行通道串聯(lián)。
(5)轉(zhuǎn)置卷積。轉(zhuǎn)置卷積相當(dāng)于正常卷積的反向傳播,具體步驟如下:①給定步長s,沿著步長的方向,在輸入特征圖中每個(gè)元素后面補(bǔ)s-1個(gè)0,得到擴(kuò)充后的特征圖x。②按照卷積padding規(guī)則[31],計(jì)算填充0的位置L及個(gè)數(shù),將L上下和左右各自顛倒一下,再對x整體補(bǔ)0,得到x′。③將卷積核反轉(zhuǎn),即上下左右方向進(jìn)行遞序操作。④以x′作為輸入,進(jìn)行步長為s的卷積操作。
(6)Softmax。Softmax將多個(gè)神經(jīng)元的輸出值映射到0與1之間,可作為多分類預(yù)測的概率描述。給定輸出層第i個(gè)神經(jīng)元的輸出值Zi,則Zi的概率值Si為:
式中,N為輸出層的神經(jīng)元個(gè)數(shù),亦即分類數(shù)。
與經(jīng)典CNN對整幅圖像進(jìn)行分類標(biāo)記不同,語義分割網(wǎng)絡(luò)是將輸入圖像中的每個(gè)像素分配一個(gè)語義類別,以得到像素化的密集分類。隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的開疆拓土,圖像分類、物體識別和語義分割任務(wù)等都獲得了重大突破[32-34]。但是云目標(biāo)是流體,呈纖維狀分布的不規(guī)則結(jié)構(gòu),其細(xì)節(jié)信息豐富,且語義信息較為簡單。這樣的特點(diǎn)對分割網(wǎng)絡(luò)的細(xì)節(jié)特征提取能力提出了較高要求。本文針對云像元提取問題的特殊性,設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)相對較深的語義分割(Deep Semantic Segmentation,DSS)網(wǎng)絡(luò),其結(jié)構(gòu)如圖 1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
DSS網(wǎng)絡(luò)由編碼結(jié)構(gòu)和解碼結(jié)構(gòu)組成。其中,編碼結(jié)構(gòu)遵循典型的卷積網(wǎng)絡(luò)結(jié)構(gòu),其由兩個(gè)重復(fù)的3×3卷積核(填充卷積,padded convolution)組成,且均使用修正線性單元(rectified linear unit,ReLU)激活函數(shù)和一個(gè)用于下采樣(downsample)的步長為2的2×2最大池化操作,以及在每一個(gè)下采樣的步驟中,特征通道數(shù)量都加倍。在解碼結(jié)構(gòu)中,每一步都包含對特征圖進(jìn)行上采樣(upsample);然后用2×2的卷積核進(jìn)行轉(zhuǎn)置卷積運(yùn)算(transpose convolution),用于恢復(fù)一半的特征空間分辨率,并減少一半的特征通道數(shù)量;接著級聯(lián)編碼結(jié)構(gòu)中相應(yīng)層輸出的特征圖;再用兩個(gè)3×3的卷積核進(jìn)行卷積運(yùn)算,且均使用ReLU激活函數(shù),將特征圖映射到256×256×4大小的特征圖,即每個(gè)云像元對應(yīng)4個(gè)分類的特征值。由于在每次卷積操作中,邊界像素存在缺失問題,因此有必要對特征圖進(jìn)行裁剪。在最后一層,利用1×1的卷積核進(jìn)行卷積運(yùn)算,將特征向量映射成為每個(gè)像素的概率向量,其大小為256×256×4,通過選取每個(gè)像素所對應(yīng)的概率向量中最大值所在的位置,得到像素級的分類結(jié)果。
云檢測是一個(gè)四分類問題:有云,晴空,疑似有云,疑似晴空,樣本中會存在大量的簡單樣本,且都是負(fù)樣本(有云和晴空樣本)。如果用交叉熵?fù)p失函數(shù)計(jì)算損失值,簡單負(fù)樣本會對損失值起主要貢獻(xiàn)作用,會主導(dǎo)梯度的更新方向。 在云圖中,疑似有云和疑似晴空的特征一般位于有云和晴空的過渡地帶。由于網(wǎng)絡(luò)學(xué)習(xí)不到復(fù)雜正樣本(疑似有云和疑似晴空樣本)的信息,導(dǎo)致云的邊緣很難區(qū)分。在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)的基礎(chǔ)上,文獻(xiàn)[35]提出的focal loss算法可以解決正負(fù)樣本不均衡,以及區(qū)分簡單與復(fù)雜樣本的問題。本文針對云檢測的復(fù)雜性,給定預(yù)測值y′∈[10-5, 1-10-5]及其真實(shí)標(biāo)簽y,提出的改進(jìn)算法為:
式中,wa=α(1-y′)γy,wb=(1-α)(y′)γ(1-y),其中,γ用來減少易分樣本的損失,使得模型更關(guān)注于困難樣本,α用來平衡正負(fù)樣本的數(shù)量比例不均。
超參數(shù)是在模型訓(xùn)練之前設(shè)置的參數(shù),而不是通過訓(xùn)練得到的參數(shù)。通常情況下,需要人工對超參數(shù)進(jìn)行優(yōu)化,選擇一組最優(yōu)超參數(shù)可以提高模型訓(xùn)練的性能和效果。本文提出的DSS網(wǎng)絡(luò)模型同樣需要設(shè)置訓(xùn)練樣本大小、批次大小、迭代次數(shù)、學(xué)習(xí)率、優(yōu)化器以及損失函數(shù)等超參數(shù),具體設(shè)置見表2。
表2 超參數(shù)設(shè)置
神經(jīng)網(wǎng)絡(luò)中的參數(shù)(權(quán)重和偏置)是實(shí)現(xiàn)分類問題的重要部分,設(shè)置參數(shù)的過程就是訓(xùn)練模型的過程,只有經(jīng)過有效訓(xùn)練的模型才可以真正檢測云像元。在CNN優(yōu)化算法中,最常用的方法是反向傳播算法(BP,backpropagation)[36],BP算法基于梯度下降(gradient descent)策略,以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整。
本文基于BP算法訓(xùn)練DSS網(wǎng)絡(luò)模型。如圖 2所示,在每次迭代訓(xùn)練的開始,首先選取一個(gè)批次的訓(xùn)練樣本。然后,將訓(xùn)練樣本輸入到語義分割模型(前向傳播算法)中得到一個(gè)批次的預(yù)測結(jié)果。再次,基于改進(jìn)的focal_loss方法計(jì)算預(yù)測值和真實(shí)值之間的損失值loss。最后,使用BP算法的擴(kuò)展——Adam算法[37]對loss進(jìn)行優(yōu)化,并根據(jù)loss梯度的反方向更新模型參數(shù)。該訓(xùn)練過程迭代進(jìn)行,直到達(dá)到某些停止條件為止,例如loss已經(jīng)達(dá)到很小的值,或訓(xùn)練輪數(shù)已達(dá)到上限。
圖2 訓(xùn)練流程
經(jīng)過多輪訓(xùn)練,DSS模型在評估數(shù)據(jù)集上得到的結(jié)果趨向穩(wěn)定,利用該評估精度的模型,對預(yù)測訓(xùn)練集的樣本進(jìn)行預(yù)測,得到預(yù)測結(jié)果。從表 3可以看出,該模型在評估集和檢測集上沒有顯著差異,說明模型的穩(wěn)定性較好,未出現(xiàn)明顯過擬合現(xiàn)象。其中,模型對晴空和有云的分類能力較好,但疑似晴空和疑似有云的分類能力較差。分析其原因是4類樣本所占比例不均衡,疑似晴空和疑似有云的樣本數(shù)量顯著少于晴空和有云的樣本數(shù)量(4類分布占總體比例分別為29%,7%,6%,58%);另外FY2E的VISSR儀器通道與Aqua MODIS云檢測所用的通道有顯著不同,VISSR僅有的5個(gè)通道無法完全反映MODIS云檢測的分類機(jī)理。
表3 定量評估結(jié)果
為進(jìn)一步分析和評估DSS云檢測模型的效果,將測試數(shù)據(jù)集的預(yù)測結(jié)果和FY-2E業(yè)務(wù)云檢測結(jié)果分別與Aqua MODIS的云檢測結(jié)果進(jìn)行比對,使用機(jī)器學(xué)習(xí)領(lǐng)域通用的評估方法計(jì)算準(zhǔn)確率,即檢測正確的樣本數(shù)除以所有的樣本數(shù)。由于FY-2E缺乏獨(dú)立的云檢測數(shù)據(jù)集,因此通過FY-2E CLC云分類產(chǎn)品進(jìn)行轉(zhuǎn)換,將晴空海面和晴空陸地作為“晴空”分類,其余作為有云分類(表 4)。FY-2E缺乏疑似晴空和疑似有云的分類,為便于比較,利用兩種方法計(jì)算準(zhǔn)確率:
表4 FY-2E CLC云分類產(chǎn)品與云檢測類別關(guān)系
式中,Ai表示混合矩陣中(表 5)的行序號,Xi表示混合矩陣中的列序號(X分為M和C類),例如A0M0表示Aqua MODIS為晴空且DSS模型也為晴空的像素?cái)?shù)量,A0C3表示Aqua MODIS為晴空且FY2E CLC為有云的情況。Yacc1為忽略MODIS疑似晴空和疑似有云的像素計(jì)算的準(zhǔn)確率,對DSS模型更有利;Yacc2將疑似晴空和疑似有云合并僅晴空和有云類,轉(zhuǎn)化為二分類計(jì)算的準(zhǔn)確率,對現(xiàn)有閾值方法分類更有利;Yacc0為表 3中四分類的像素準(zhǔn)確率。
表5 像素匹配混淆矩陣與準(zhǔn)確率計(jì)算
根據(jù)統(tǒng)計(jì)結(jié)果,DSS模型的云檢測的準(zhǔn)確率比現(xiàn)有FY-2E的云檢測結(jié)果總體提升6%以上。對每個(gè)樣本計(jì)算準(zhǔn)確率,并比較DSS模型與FY-2E CLC云檢測像素準(zhǔn)確率的偏差(圖3),可以看出DSS模型的云檢測準(zhǔn)確率在大部分樣本中高于FY2E CLC的云檢測準(zhǔn)確率(ΔYacc1和ΔYacc2大于0占比分別為91%和81%)。準(zhǔn)確率一般用來評估模型的全局準(zhǔn)確程度,特別當(dāng)正負(fù)樣本不均衡的情況下,無法全面評價(jià)一個(gè)模型性能。所以本文還計(jì)算了Kappa系數(shù)[38]用以衡量模型分類的精度(表3)。
圖3 DSS模型與FY2E CLC云檢測準(zhǔn)確率偏差
選取部分典型樣本(圖4)進(jìn)行誤差分析,將DSS模型的準(zhǔn)確率與FY-2E CLC算法的準(zhǔn)確率進(jìn)行比較(表6)。樣本1和2的結(jié)果表明DSS模型對于目視可見的云判斷較為準(zhǔn)確,對于碎積云等細(xì)節(jié)識別能力提升較為顯著,由于這些區(qū)域占比較少對像素準(zhǔn)確率貢獻(xiàn)?。籉Y-2E CLC算法多判或漏判區(qū)域較多,部分邊緣明顯的云區(qū)也無法準(zhǔn)確識別。此外,在對比中發(fā)現(xiàn)FY-2E CLC算法的混合像元分類(見FY-2E CLC黃色區(qū)域)在實(shí)際的云與晴空交界處較多,可為后續(xù)改進(jìn)多通道閾值算法提供借鑒。
圖4 云檢測樣本分析(云檢測標(biāo)簽中0~3顏色分別代表晴空、疑似晴空、疑似有云、有云)
表6 樣本云檢測準(zhǔn)確率比較
從樣本3~6可以看出,一些樣本的準(zhǔn)確率相對偏低,特別是MODIS將薄云、霧霾、沙塵等對晴空地物遙感有影響的像元均判識為有云,對積雪區(qū)域有云判識偏多,而DSS模型則傾向于將該類像元判定為其他類別,F(xiàn)Y-2E CLC在這些復(fù)雜情況下判識表現(xiàn)較差??赡艽嬖趦煞矫嬖颍阂皇荲ISSR儀器缺少對高層卷云敏感的1.375 μ,對積雪、氣溶膠敏感的1.64 μ等光譜通道,光譜通道數(shù)量和響應(yīng)敏感性都遠(yuǎn)遠(yuǎn)低于MODIS,對需要更多光譜信息才能做出準(zhǔn)確判識的情況識別能力較差;二是由于此類樣本量遠(yuǎn)遠(yuǎn)少于常規(guī)的云類別,導(dǎo)致模型訓(xùn)練不充分,因此對這些少數(shù)情況還未找到更有效的特征進(jìn)行識別。
此外,由于MODIS在云檢測中存對薄云判別標(biāo)準(zhǔn)不同(如樣本4與樣本6海上云區(qū)對比),以及對積雪(樣本5 圓圈所示)甚至入??谀嗌?樣本6中箭頭所示)誤判為有云的可能性,說明標(biāo)簽數(shù)據(jù)集自身存在一定比例的不良數(shù)據(jù),這對于模型的訓(xùn)練和評估會產(chǎn)生一定影響。在訓(xùn)練模型時(shí)也應(yīng)考慮其影響,不能一味追求準(zhǔn)確率等指標(biāo)的提升,以防止模型訓(xùn)練過擬合。從另一方面也體現(xiàn)出大數(shù)據(jù)的優(yōu)勢所在,DSS模型對錯(cuò)誤標(biāo)記的樣本存在一定的容錯(cuò)機(jī)制,在大部分樣本標(biāo)簽正確的前提下,少量錯(cuò)誤標(biāo)簽對模型訓(xùn)練的影響較小,有利于降低數(shù)據(jù)預(yù)處理的成本。
本文針對FY-2歷史資料再處理的特點(diǎn),設(shè)計(jì)了基于深度學(xué)習(xí)語義分割(DSS)的云檢測模型,并進(jìn)行了云檢測算法的評估和誤差分析。
(1)DSS模型充分利用現(xiàn)有精度更好的云檢測產(chǎn)品,無需人工設(shè)計(jì)分類特征,可實(shí)現(xiàn)快速自動云檢測分類,由于利用了MODIS作為標(biāo)簽,實(shí)現(xiàn)了云檢測的四分類,更易與風(fēng)云三號和風(fēng)云四號及其他國外衛(wèi)星的云檢測分類保持一致。
(2)針對模型訓(xùn)練中正(疑似晴空和疑似有云)負(fù)(晴空和有云)樣本嚴(yán)重失衡的問題,改進(jìn)了損失函數(shù),實(shí)現(xiàn)少量正樣本有效賦權(quán),可以更好地提取云的邊界。
(3)DSS模型僅通過FY-2E VISSR的5個(gè)5 km通道信息,就能夠達(dá)到MODIS四分類精度的75%左右,Kappa系數(shù)達(dá)到0.53左右; 判識準(zhǔn)確率總體較多通道閾值法提升6%~10%,部分樣本可顯著提升20%以上,特別是對于破碎云、云與晴空邊界的識別較多通道閾值法有顯著優(yōu)勢。
(4)現(xiàn)有模型可通過提升訓(xùn)練樣本精度和增加訓(xùn)練樣本種類和數(shù)量,進(jìn)一步提升精度和適應(yīng)性:①對于疑似有云和疑似晴空的過渡類別的準(zhǔn)確率還有待提升。由于在過渡類別主要處在云邊界區(qū)域,從1~5 km的尺度變換會導(dǎo)致混合像元被判為同一類。
使用最臨近法在5 km像元的中心區(qū)域判定比較準(zhǔn)確。使用眾數(shù)法采樣,可能會導(dǎo)致過渡類別的進(jìn)一步減少,經(jīng)測試二者在過渡類別的差異約為1%。未來需要細(xì)化重采樣策略,以提升云邊界、破碎云的檢測精度。②FY-2E為靜止衛(wèi)星,每小時(shí)有一幅全圓盤數(shù)據(jù),其時(shí)間分辨率遠(yuǎn)高于Aqua衛(wèi)星的每日兩次,采用現(xiàn)有訓(xùn)練樣本無法覆蓋所有靜止衛(wèi)星觀測時(shí)次,未來考慮進(jìn)擴(kuò)充精度較高的其他云檢測產(chǎn)品,擴(kuò)展模型的時(shí)間適應(yīng)性。