• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      兩種面向數(shù)值同化的風(fēng)廓線(xiàn)雷達(dá)資料質(zhì)量控制方法比較分析

      2022-10-18 10:17:38汪學(xué)淵林銀杰劉德強(qiáng)林立崢
      氣象科學(xué) 2022年4期
      關(guān)鍵詞:風(fēng)廓峰度離群

      汪學(xué)淵 林銀杰 劉德強(qiáng) 林立崢

      (1 廈門(mén)市氣象局 海峽氣象開(kāi)放實(shí)驗(yàn)室,福建 廈門(mén) 361012;2 福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福州 350001;3 福建省大氣探測(cè)技術(shù)保障中心,福州 350001;4 福建省南平市氣象局,福建 南平 353000;5 福建省氣象臺(tái),福州 350001)

      引 言

      風(fēng)廓線(xiàn)雷達(dá)是利用大氣湍流對(duì)電磁波的散射作用進(jìn)行探測(cè)的遙感設(shè)備,可以提供探測(cè)高度范圍內(nèi)的大氣水平風(fēng)速、風(fēng)向、垂直氣流、大氣折射率結(jié)構(gòu)常數(shù)等氣象要素的觀(guān)測(cè),具有較高的時(shí)空分辨率,彌補(bǔ)了常規(guī)探空觀(guān)測(cè)時(shí)空密度不足的缺陷。目前,風(fēng)廓線(xiàn)雷達(dá)數(shù)據(jù)在監(jiān)測(cè)預(yù)警、預(yù)報(bào)和數(shù)值同化中應(yīng)用較為廣泛,且取得了豐碩的成果。美國(guó)和日本的業(yè)務(wù)應(yīng)用表明:風(fēng)廓線(xiàn)雷達(dá)資料的同化對(duì)于數(shù)值模式0~12 h,尤其是3~6 h的預(yù)報(bào)具有正效果[1-2];北京、廣東等地都初步開(kāi)展了一些同化應(yīng)用的個(gè)例試驗(yàn),結(jié)果表明:在同化了經(jīng)過(guò)質(zhì)量控制處理的風(fēng)廓線(xiàn)資料后,區(qū)域模式的預(yù)報(bào)效果取得了顯著的改善,其中完善的質(zhì)量控制流程則是資料得到有效同化應(yīng)用的關(guān)鍵[3-5]。

      近年來(lái),中國(guó)氣象局氣象探測(cè)中心建立了完善的風(fēng)廓線(xiàn)雷達(dá)資料質(zhì)量控制和評(píng)估業(yè)務(wù),分為臺(tái)站級(jí)和國(guó)家級(jí)質(zhì)控體系,臺(tái)站級(jí)主要對(duì)功率譜資料進(jìn)行質(zhì)控,國(guó)家級(jí)主要對(duì)徑向數(shù)據(jù)質(zhì)控,為風(fēng)廓線(xiàn)雷達(dá)資料的同化應(yīng)用奠定了基礎(chǔ)。采用變分方法進(jìn)行資料同化時(shí),觀(guān)測(cè)誤差和模式背景誤差都必須要滿(mǎn)足高斯分布的假設(shè)[4]。因此,在同化應(yīng)用之前,必須識(shí)別和消除觀(guān)測(cè)數(shù)據(jù)中不可靠或包含不能滿(mǎn)足數(shù)據(jù)同化要求的離群值,確保觀(guān)測(cè)場(chǎng)與背景場(chǎng)的差值(觀(guān)測(cè)增量)近似與高斯分布相一致。

      大氣中的各氣象要素基本上都是一維觀(guān)測(cè)向量,目前針對(duì)單一要素(如溫度、濕度等)的質(zhì)量控制普遍采用了雙權(quán)重標(biāo)準(zhǔn)差(Biweight Standard Deviation, BSD)方法,它通過(guò)給定的閾值來(lái)剔除離群值,質(zhì)控效果較好[6-8]。然而,對(duì)于水平風(fēng)場(chǎng)(u/v)而言,BSD方法無(wú)法實(shí)現(xiàn)對(duì)二維觀(guān)測(cè)向量的同時(shí)質(zhì)控。迭代加權(quán)最小協(xié)方差行列式(the Iterated Reweighted Minimum Covariance Determinant,IRMCD)[9]是在最小協(xié)方差行列式(MCD)[10-11]基礎(chǔ)上發(fā)展起來(lái)的方法。MCD是應(yīng)用穩(wěn)健統(tǒng)計(jì)中最早的仿射同變和高魯棒性多元離群點(diǎn)檢測(cè)規(guī)則之一。自從引入計(jì)算效率較快的fast-MCD算法以來(lái)[12],MCD已被應(yīng)用于醫(yī)學(xué),金融,圖像分析和化學(xué)等領(lǐng)域。然而,由于傳統(tǒng)MCD方法在檢測(cè)離群值時(shí)存在一定量的誤判,Cerioli[9]在其基礎(chǔ)上引入了防“假陽(yáng)性”機(jī)制以減少誤判,應(yīng)用于多元變量離群點(diǎn)檢測(cè)。IRMCD可以對(duì)多維向量同時(shí)進(jìn)行處理,ZHANG, et al[13]將IRMCD方法用于風(fēng)廓線(xiàn)雷達(dá)水平風(fēng)離群值檢測(cè)發(fā)現(xiàn):IRMCD對(duì)于二維風(fēng)廓線(xiàn)雷達(dá)水平風(fēng)觀(guān)測(cè)資料的質(zhì)控效果要好于BSD方法。研究從實(shí)際應(yīng)用角度加深了對(duì)這兩種質(zhì)控方法的認(rèn)識(shí)。然而,由于IRMCD依賴(lài)于形狀分布參數(shù),這些參數(shù)隨數(shù)據(jù)集的大小而變化,ZHANG, et al[13]沒(méi)有就這些參數(shù)對(duì)于質(zhì)控效果的影響進(jìn)行深入討論。此外也沒(méi)有給出晴雨條件下兩種方法質(zhì)控效果的對(duì)比研究。

      為了進(jìn)一步全面深入考察兩種方法的差異性,本文將從統(tǒng)計(jì)指標(biāo)、波形指標(biāo)、概率密度分布、離群值分布多方面對(duì)IRMCD和BSD方法處理風(fēng)廓線(xiàn)雷達(dá)資料離群值的能力和效果進(jìn)行更深入的對(duì)比分析,揭示兩種方法的差異性和優(yōu)異性。

      1 資料和方法

      1.1 資料

      風(fēng)廓線(xiàn)資料挑選了福建省運(yùn)行比較可靠的9部CFL-06型號(hào)的雷達(dá)資料,分別是:建甌(58737)、建寧(58822)、羅源(58845)、連城(58912)、武平(58917)、德化(58935)、秀嶼(58938)、平和(59125)和翔安(59140)。由于本文的重點(diǎn)在于考察IRMCD方法與BSD方法在混合雷達(dá)站點(diǎn)資料處理離群值過(guò)程中的性能和效果,所以將生成的風(fēng)場(chǎng)小時(shí)數(shù)據(jù)作為原始觀(guān)測(cè)數(shù)據(jù)。前期關(guān)于臺(tái)站級(jí)和國(guó)家級(jí)質(zhì)量控制有關(guān)部門(mén)和學(xué)者已做了大量研究,并取得了積極的研究成果,不再贅述。

      利用9部風(fēng)廓線(xiàn)雷達(dá)2018年2月2—11日10 d的小時(shí)風(fēng)場(chǎng)數(shù)據(jù)作為原始觀(guān)測(cè)數(shù)據(jù),將觀(guān)測(cè)數(shù)據(jù)分為降水和非降水天氣,在這里降水和非降水的判定準(zhǔn)則按照風(fēng)廓線(xiàn)雷達(dá)垂直速度w≥2 m·s-1判定為降水,獲得了65 000個(gè)非降水觀(guān)測(cè)數(shù)據(jù)并在其中隨機(jī)抽取5 000、10 000、30 000、60 000個(gè)觀(guān)測(cè)數(shù)據(jù);同時(shí)也獲得了12 750個(gè)降水觀(guān)測(cè)數(shù)據(jù)并在其中抽取5 000、12 750個(gè)觀(guān)測(cè)數(shù)據(jù),以考察IRMCD方法和BSD方法處理不同天氣情況下不同觀(guān)測(cè)樣本量在統(tǒng)計(jì)指標(biāo)和波形指標(biāo)上是否有較大差異。

      模式背景場(chǎng)數(shù)據(jù)選取了歐洲數(shù)值預(yù)報(bào)中心(ECWMF)哥白尼CS35數(shù)據(jù)庫(kù)中高空u/v分量的小時(shí)再分析數(shù)據(jù),并對(duì)模式背景數(shù)據(jù)在垂直和水平方向進(jìn)行了插值處理,以獲得與觀(guān)測(cè)數(shù)據(jù)相同高度的背景場(chǎng)u/v分量,因此,u/v分量觀(guān)測(cè)增量可以定義為:

      ombu(i)=obsu(i)-mu(i),

      (1)

      ombv(i)=obsv(i)-mv(i),

      (2)

      其中:i=1,2,....n,n表示風(fēng)觀(guān)測(cè)數(shù)據(jù)總量;u,v分別表示風(fēng)在水平方向兩個(gè)分量。ombu(i)表示u分量的觀(guān)測(cè)增量;ombv(i)表示v分量的觀(guān)測(cè)增量;obsu(i)表示u分量的觀(guān)測(cè)值,由OOBS產(chǎn)品文件中的風(fēng)速V和風(fēng)向θ根據(jù)-V×sinθ計(jì)算公式獲得;obsv(i)表示v分量的觀(guān)測(cè)值,由OOBS產(chǎn)品文件中的風(fēng)速V和風(fēng)向θ根據(jù)-V×cosθ計(jì)算公式獲得;mu(i)表示u分量的模式背景值,mv(i)表示v分量的模式背景值。以下所有指標(biāo)和參數(shù)的計(jì)算都是基于u/v分量的觀(guān)測(cè)增量進(jìn)行運(yùn)算,如果觀(guān)測(cè)增量判定為離群值,那么對(duì)應(yīng)的原始觀(guān)測(cè)數(shù)據(jù)定義為離群值。

      1.2 迭代權(quán)重的最小協(xié)方差矩陣方法(IRMCD)

      假設(shè)n個(gè)樣本p個(gè)維度的數(shù)據(jù)集可以表示為:

      Y=[y(1)......y(n)]T,

      (3)

      那么y(i)=(yi1......yip)T為第i個(gè)樣本點(diǎn),矩陣Y的平均值μ和協(xié)方差矩陣∑,如果Y中存在離群值,那么μ和∑已經(jīng)被離群值污染。本文應(yīng)用穩(wěn)健統(tǒng)計(jì)分析方法,通過(guò)檢測(cè)每個(gè)觀(guān)測(cè)值魯棒距離的平方與χp,1-α分布相差較大的距離定義為Y中的離群值,可以得到μ和∑的穩(wěn)健估計(jì)值。其中1-α為χ分布的分位數(shù),α一般取0.025。IRMCD是一種基于重加權(quán)MCD估計(jì)值而發(fā)展起來(lái)的穩(wěn)健估計(jì)方法[14-15]。對(duì)于有限樣本離群值檢測(cè)的IRMCD方法的步驟如下:

      (1)在樣本Y中,如果h(n/2≤h

      (4)

      協(xié)方差估計(jì)為:

      ,(5)

      其中:C0為比例常數(shù)[9]。

      (2)在Y中,y(i)的魯棒距離的平方可以定義為:

      ,(6)

      它測(cè)量了觀(guān)測(cè)值到假定非離群值的中心位置的距離。樣本Y中所有觀(guān)測(cè)值的權(quán)重系數(shù)可以通過(guò)DIS的值確定:

      (7)

      (3)為了增強(qiáng)效率,對(duì)y(i)進(jìn)行加權(quán)步驟:

      (8)

      [y(i)-μRMCD]T,

      (9)

      那么重新加權(quán)后魯棒距離的平方為:

      (10)

      (4)參考文獻(xiàn)[9]中,

      (12)

      那么數(shù)據(jù)集Y中沒(méi)有離群值。

      按照上述步驟,使用預(yù)設(shè)的γ值,可以檢測(cè)多變量數(shù)據(jù)集Y中的離群值。

      1.3 雙權(quán)重標(biāo)準(zhǔn)差方法(BSD)

      雙權(quán)重離群值判別計(jì)算方法(簡(jiǎn)稱(chēng)雙權(quán)重標(biāo)準(zhǔn)法,又稱(chēng) Z-Score 法)如下:設(shè)有n個(gè)樣本(xi,i=1,2,...n)

      (1)計(jì)算每個(gè)樣本量xi(i=1,2,..,n)的權(quán)重函數(shù):

      (13)

      其中:C為“敏感參數(shù)”,取C=7.5,當(dāng)|wi|>1.0時(shí),設(shè)定wi為1,M為樣本量的中位數(shù),MAD為絕對(duì)偏差中位數(shù),即|xi-M|的中位數(shù)。

      (14)

      計(jì)算雙權(quán)重標(biāo)準(zhǔn)差(BSD):

      (15)

      對(duì)每一個(gè)xi計(jì)算Z-Score值:

      (16)

      如果Zi>Zthresh,那么xi被認(rèn)定為離群值[16],Zthresh為設(shè)定好的閾值,一般取2~4。

      2 結(jié)果分析

      2.1 基于正態(tài)波形指標(biāo)的最優(yōu)參數(shù)判定準(zhǔn)則和指標(biāo)分析

      這里引入了峰度和偏度兩個(gè)統(tǒng)計(jì)指標(biāo)來(lái)形容觀(guān)測(cè)增量數(shù)據(jù)的波形是否符合正態(tài)分布情況,峰度(Kurtosis)是描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量,峰度為0表示該總體數(shù)據(jù)分布與正態(tài)分布的陡緩程度相同;偏度(Skewness)是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,當(dāng)偏度接近0則可認(rèn)為分布對(duì)稱(chēng)。兩個(gè)指標(biāo)都是以接近0值為最優(yōu)值,因此可以組合峰偏值KS指標(biāo),表示如下:

      KS=|Ku|+|Kv|+|Su|+|Sv|,

      (17)

      其中:Ku,Kv表示u,v分量的峰度;Su,Sv表示u,v分量的偏度。

      那么當(dāng)IRMCD和BSD方法分別取不同的參數(shù)γ和Zthresh時(shí),質(zhì)控后的觀(guān)測(cè)增量的KS值應(yīng)該具有最小值,KS取最小值所對(duì)應(yīng)的參數(shù)γ和Zthresh值就是兩種方法的最優(yōu)解,就是本文所需要的最優(yōu)觀(guān)測(cè)增量數(shù)據(jù)。在以往的研究中,γ參數(shù)的典型取值為0.025[17-18],表示在樣本集中期望2.5%比例的離群值,本文設(shè)定γ范圍為0.080~0.001[13],每0.001的間隔考察KS值是否達(dá)到最小值,KS最小值所對(duì)應(yīng)的γ值就是IRMCD處理此次觀(guān)測(cè)樣本增量的最優(yōu)解;以同樣的方式對(duì)Zthresh的取值范圍設(shè)定在4.0~1.0,每0.01的間隔考察KS值是否達(dá)到最小值,KS最小值所對(duì)應(yīng)的Zthresh值就是BSD處理此次觀(guān)測(cè)樣本增量的最優(yōu)解。從總樣本中隨機(jī)抽取了無(wú)降水樣本60 000個(gè)和降水樣本12 000個(gè),分別繪制了KS值隨γ參數(shù)和Z閾值變化曲線(xiàn)(圖1、2),無(wú)降水樣本用藍(lán)色表示,降水用紅色表示,γ參數(shù)以0.001的間隔在0.080~0.001取值對(duì)應(yīng)一個(gè)KS值,從圖1中可以看出,KS值的變化曲線(xiàn)呈現(xiàn)不規(guī)則拋物線(xiàn)形狀,有且僅有一個(gè)最低點(diǎn),所對(duì)應(yīng)γ參數(shù)就是IRMCD方法所需的最優(yōu)解,當(dāng)然對(duì)于不同的數(shù)據(jù)集KS最小值以及γ參數(shù)都會(huì)有所不同;同樣,Zthresh以0.1的間隔在4.0~1.0取值對(duì)應(yīng)一個(gè)KS值,從圖2中可以看出,KS值的變化曲線(xiàn)同樣呈現(xiàn)不規(guī)則拋物線(xiàn)形狀,總能找到KS最小值,所對(duì)應(yīng)Zthresh就是BSD方法所需的最優(yōu)解。這說(shuō)明所制定的通過(guò)峰偏值KS指標(biāo)判定數(shù)據(jù)達(dá)到最優(yōu)正態(tài)分布的合理性。

      圖1 KS值隨γ參數(shù)變化曲線(xiàn)

      圖2 KS值隨Z閾值變化曲線(xiàn)

      從樣本數(shù)據(jù)中隨機(jī)抽取5 000、10 000、30 000、60 000個(gè)非降水觀(guān)測(cè)數(shù)據(jù)和5 000和12 750個(gè)降水觀(guān)測(cè)數(shù)據(jù),分別利用IRMCD和BSD兩種方法通過(guò)調(diào)整γ和Zthresh使KS值達(dá)到最小值,各個(gè)參數(shù)值如表1所示,其中Ku表示原始觀(guān)測(cè)u分量增量數(shù)據(jù)峰度指標(biāo),Ku′表示經(jīng)過(guò)IRMCD或BSD方法質(zhì)控后的u分量增量數(shù)據(jù)峰度指標(biāo),以此類(lèi)推。從峰度和偏度指標(biāo)來(lái)看,在非降水樣本中u分量的峰度Ku值保持在7.2左右,經(jīng)過(guò)質(zhì)控后Ku′下降到0.01左右,v分量的峰度Kv值保持在25左右,經(jīng)過(guò)質(zhì)控后Kv′下降到0.15左右;u分量的偏度Su值保持在-1.6左右,經(jīng)過(guò)質(zhì)控后Su′下降到0.1左右,v分量的偏度Sv值保持在-4.3左右,經(jīng)過(guò)質(zhì)控后Sv′下降到0.2左右。從波形指標(biāo)上看,兩種方法都起到很好的質(zhì)控效果,在降水天氣下峰度和偏度指標(biāo)有著類(lèi)似的趨勢(shì)。但是從KS指標(biāo)和離群值的數(shù)量來(lái)看,IRMCD始終比BSD方法的質(zhì)控效果更好。圖3展示了KS指標(biāo)在不同樣本下的變化曲線(xiàn),IRMCD方法始終在0.4左右,而B(niǎo)SD方法始終在0.5左右,兩者之間相差0.1,說(shuō)明IRMCD方法質(zhì)控后的數(shù)據(jù)更符合高斯或正態(tài)分布;從離群值的數(shù)量上來(lái)看,IRMCD方法始終比BSD方法判斷的離群值要多,由表2可見(jiàn),兩種方法能夠判別離群值占總樣本的比例在11%~13%之間,但前者比后者要多0.6%,Avgu和Sdu分別代表u分量的絕對(duì)平均值和標(biāo)準(zhǔn)差,以此類(lèi)推,經(jīng)過(guò)兩種方法的處理后,相對(duì)于原始數(shù)據(jù)都有極大的改進(jìn),質(zhì)控后的Sdu基本保持在2.1~2.3,總體上IRMCD在絕對(duì)平均值和標(biāo)準(zhǔn)差指標(biāo)都優(yōu)于BSD方法。說(shuō)明IRMCD方法無(wú)論在波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都優(yōu)異于BSD方法,而且兩種方法在樣本的數(shù)量多少以及是否降水天氣都不影響各自離群值判斷能力。

      表2 IRMCD和BSD不同采樣統(tǒng)計(jì)指標(biāo)表

      圖3 兩種方法的KS指標(biāo)對(duì)比曲線(xiàn)

      2.2 兩種方法的概率密度和散點(diǎn)分布差異

      一般來(lái)說(shuō),IRMCD和BSD方法在判定離群值的本質(zhì)上是等價(jià)的:給定一個(gè)穩(wěn)健的均值和標(biāo)準(zhǔn)差,數(shù)據(jù)集向量Y中的離群值通過(guò)它們與穩(wěn)健擬合存在較大距離來(lái)識(shí)別。以非降水天氣下60 000樣本為例,圖4、5分別為u/v分量的觀(guān)測(cè)增量在不同方法處理后的概率密度和分位數(shù)—分位數(shù)(Q-Q)圖,其中U-質(zhì)控前表示u分量原始觀(guān)測(cè)增量;U-IRMCD表示u分量觀(guān)測(cè)增量經(jīng)過(guò)IRMCD質(zhì)控后的觀(guān)測(cè)增量;U-BSD表示u分量觀(guān)測(cè)增量經(jīng)過(guò)BSD質(zhì)控后的觀(guān)測(cè)增量,以此類(lèi)推。這能反映觀(guān)測(cè)增量數(shù)據(jù)的分布情況,U-質(zhì)控前和V-質(zhì)控前的概率密度分布類(lèi)似于高斯分布,但不是嚴(yán)格的高斯分布,可以看出陡峭的峰值和左右兩側(cè)分布的不對(duì)稱(chēng)存在異常值。更準(zhǔn)確地說(shuō),在相對(duì)應(yīng)Q-Q散射的兩端存在較大差異,與其相對(duì)應(yīng)的u/v觀(guān)測(cè)增量的峰度值分別為7.35/25.09以及偏度值分別為-1.62/-4.29都說(shuō)明原始觀(guān)測(cè)增量數(shù)據(jù)分布嚴(yán)重偏離正態(tài)分布。從U-IRMCD和V-IRMCD的概率密度分布和Q-Q散點(diǎn)可以看出質(zhì)控后的概率密度分布更接近于標(biāo)準(zhǔn)正態(tài)分布,Q-Q散點(diǎn)幾乎以直線(xiàn)收斂,表明幾乎所有離群點(diǎn)已被剔除,從相對(duì)應(yīng)u/v觀(guān)測(cè)增量的峰度值分別為0.0/-0.13以及偏度值分別為-0.07/-0.17,從數(shù)值上也說(shuō)明質(zhì)控后的數(shù)據(jù)逼近標(biāo)準(zhǔn)正態(tài)分布。同樣的U-BSD和V-BSD的概率密度分布和Q-Q散點(diǎn)以及相對(duì)應(yīng)的峰度值分別為-0.01/-0.21以及偏度值分別為-0.09/-0.20能得到相同的結(jié)論,說(shuō)明兩種方法在剔除離群值后都具有較好的正態(tài)分布,但是從峰度值、偏度值、峰偏值和標(biāo)準(zhǔn)差的指標(biāo)對(duì)比來(lái)看,明顯IRMCD方法的指標(biāo)優(yōu)于BSD方法,從概率密度直方圖的底部?jī)蓚?cè)還是能看出IRMCD比BSD來(lái)得更加平緩;Q-Q散點(diǎn)兩側(cè)IRMCD比BSD更加靠近中線(xiàn)位置。值得注意的是,表1的兩種方法的v分量偏度值始終保持在0.2左右,仍然需要最后的偏倚校正[13]。

      表1 IRMCD和BSD不同采樣數(shù)量波形指標(biāo)表

      圖4 u增量概率密度直方圖和相對(duì)應(yīng)的Q-Q分布

      圖5 v增量概率密度直方和相對(duì)應(yīng)的Q-Q分布

      圖6、7為u/v分量離群和非離群值散點(diǎn)分布,將進(jìn)一步理清兩種方法的差異之處。其中“+”表示非離群值,“.”表示離群值,并以不同的顏色代表觀(guān)測(cè)值所在的高度,為了更加清晰地表示離群值和非離群值,在4~7 km的非離群值用藍(lán)色表示,4~7 km的離群值青藍(lán)色表示,可以看出0~2 km的離群值以綠色實(shí)心圓分布,表明v分量的觀(guān)測(cè)值大于模式值,4~7 km的離群值以青藍(lán)色實(shí)心圓分布,表明v分量的觀(guān)測(cè)值小于模式值為主,在所有的離群值中4~7 km占據(jù)了一半以上,這是因?yàn)?月的溫度與濕度低造成風(fēng)廓線(xiàn)雷達(dá)的有效探測(cè)高度在6 km以下,在有效探測(cè)高度以上信噪比越來(lái)越弱,生成的風(fēng)場(chǎng)可靠性降低,造成大量的離群值,同時(shí)也可以看到7 km以上存在很少的離群值,因?yàn)?月探測(cè)高度很少能達(dá)到7 km以上。從整體上來(lái)看,很明顯,IRMCD和BSD兩者最大的不同在非離群值聚集的形狀上,BSD的非離群值更趨向于“方形”,而IRMCD的非離群值更趨向于“橢圓形”,這是由各自的算法所決定,BSD方法只能處理單向量,根據(jù)觀(guān)測(cè)點(diǎn)偏離標(biāo)準(zhǔn)差的倍數(shù)來(lái)決定是否為離群值,而IRMCD方法能同時(shí)處理二維向量,通過(guò)二維向量距離最小協(xié)方差矩陣中心的距離是否滿(mǎn)足特定分布來(lái)判定是否為離群值,這也是IRMCD方法的優(yōu)勢(shì)所在。

      圖6 u/v增量BSD離群和非離群值散點(diǎn)

      圖7 u/v增量IRMCD離群和非離群值散點(diǎn)

      為了更進(jìn)一步地理清兩種方法在判定離群值的不同之處,將兩種方法進(jìn)行對(duì)比(圖8),在非降水情況下兩種方法都判定為離群值用紅色表示,都判定為非離群值用藍(lán)色表示,僅僅IRMCD方法為離群值但BSD方法為非離群值用綠色表示,僅僅BSD方法為離群值但I(xiàn)RMCD方法為非離群值用黑色表示,可以看出,紅色點(diǎn)離群值所占比例為11.55%,IRMCD方法判定的離群值所占比例為12.41%,BSD方法判定的離群值所占比例為12.24%,因此大部分離群值兩種方法都能識(shí)別,不同的是僅IRMCD方法的非離群值分布更趨向于0值軸附近,在圖8中用綠色部分表示,僅BSD方法判定非離群值分布更趨向于“方形”對(duì)角線(xiàn)附近,在圖8中用黑色部分表示,明顯看出黑色點(diǎn)在4個(gè)角處且必然存在著離群值,但是BSD方法并沒(méi)有識(shí)別出來(lái),造成對(duì)非離群值的污染,而IRMCD方法識(shí)別的非離群值顯得更加的平滑,雖然IRMCD方法也有存在錯(cuò)誤識(shí)別離群值的可能性,但是相對(duì)于離群值來(lái)說(shuō)小得多,幾乎可以忽略不計(jì)。在降水情況下,如圖9所示,展示了如上所述相近的分布,僅僅BSD識(shí)別出的離群值聚集在“方形”的對(duì)角線(xiàn)附近,而僅僅IRMCD識(shí)別的離群值聚集在0值軸附近。

      圖8 u/v增量無(wú)降水BSD和IRMCD散點(diǎn)

      圖9 u/v增量降水BSD和IRMCD散點(diǎn)

      2.3 IRMCD方法質(zhì)控前后風(fēng)場(chǎng)變化

      為了更好地展示原始觀(guān)測(cè)風(fēng)場(chǎng)和質(zhì)控后數(shù)據(jù)的變化,圖10、11分別用風(fēng)羽圖展示了雷達(dá)站點(diǎn)(58944)的風(fēng)廓線(xiàn),2018年2月8日08時(shí)(北京時(shí),下同)至9日14時(shí)共計(jì)30 h的原始風(fēng)場(chǎng)和IRMCD質(zhì)控后的小時(shí)水平風(fēng)廓線(xiàn),對(duì)比發(fā)現(xiàn),原始數(shù)據(jù)最大探測(cè)高度在7 200 m,質(zhì)控后探測(cè)高度在5 000 m,圖11風(fēng)場(chǎng)廓線(xiàn)顯示明顯比圖10干凈、整潔、有規(guī)律,可見(jiàn)離群值主要分布在高空(4.5~7.5 km)和低空(0~0.5 km),原因是風(fēng)廓線(xiàn)雷達(dá)在4.5 km以上接收到的回波信號(hào)很弱,幾乎淹沒(méi)在噪聲信號(hào)中,造成功率譜信號(hào)識(shí)別錯(cuò)誤,就會(huì)生成錯(cuò)誤的水平風(fēng);同時(shí)由于風(fēng)廓線(xiàn)雷達(dá)低空接收到的回波信號(hào)容易受地物雜波的干擾,這些在零頻位置很強(qiáng)地物信號(hào)完全將大氣湍流回波信號(hào)淹沒(méi),因此生成的水平風(fēng)風(fēng)速很小,方向雜亂沒(méi)有規(guī)律。從圖11中可以看出,IRMCD方法剔除離群值的能力優(yōu)異,這里不再展示BSD方法處理后的廓線(xiàn),因?yàn)樘幚砗髱缀跖c圖11一樣,在這么小的樣本情況下幾乎只有2~3個(gè)點(diǎn)的區(qū)別,這也能從前面表1的指標(biāo)也能看出。

      圖10 2018年2月8—9日風(fēng)廓線(xiàn)原始小時(shí)水平風(fēng)廓線(xiàn)

      圖11 2018年2月8—9日IRMCD質(zhì)控后小時(shí)水平風(fēng)廓線(xiàn)

      因此,這兩種方法在3個(gè)方面有所不同:

      (1)在雙權(quán)重標(biāo)準(zhǔn)差檢查中,Y必須是單變量數(shù)據(jù)集。當(dāng)應(yīng)用于多變量觀(guān)測(cè)(如風(fēng)數(shù)據(jù))時(shí),需要分別對(duì)u/v分量進(jìn)行異常值檢查,當(dāng)其中一個(gè)向量被認(rèn)定為離群值,則該樣本二維向量被處理為離群值;另一方面,IRMCD作為一種多變量離群點(diǎn)檢測(cè)方法,可以直接應(yīng)用于多變量數(shù)據(jù)集Y,即可以同時(shí)檢測(cè)u/v分量的離群點(diǎn),在用于風(fēng)廓線(xiàn)雷達(dá)小時(shí)觀(guān)測(cè)增量數(shù)據(jù)后,從波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都表明IRMCD更有效。

      (2)它們的穩(wěn)健均值和標(biāo)準(zhǔn)差是以不同的方式計(jì)算的,它們的識(shí)別規(guī)則也是如此。在IRMCD中,通過(guò)比較穩(wěn)健距離的平方與具有形狀參數(shù)分布的參考值進(jìn)行比較,這些參數(shù)隨著應(yīng)用IRMCD的不同數(shù)據(jù)集而變化,獲得的非離群值的分布近似“橢圓形”。在雙權(quán)重檢查中,設(shè)定距離雙權(quán)重標(biāo)準(zhǔn)差的預(yù)定倍數(shù)作為識(shí)別離群值的閾值,獲得的非離群值分布近似“方形”,這其中必然存在一定量的誤判,也表明IRMCD比BSD方法有優(yōu)勢(shì)。

      (3)IRMCD具有防止假陽(yáng)性的機(jī)制。在IRMCD中,測(cè)試的第四步(公式12)是專(zhuān)門(mén)設(shè)計(jì)來(lái)防止在任何好的數(shù)據(jù)集中出現(xiàn)錯(cuò)誤判定離群值情況[9],因?yàn)檎`報(bào)是傳統(tǒng)MCD規(guī)則的明顯缺點(diǎn)。在沒(méi)有步驟4的情況下,IRMCD相當(dāng)于正常的有限樣本重加權(quán)MCD,直接執(zhí)行第五步會(huì)導(dǎo)致錯(cuò)誤地識(shí)別正確的數(shù)據(jù)集,因此,傳統(tǒng)MCD和雙權(quán)重標(biāo)準(zhǔn)差都存在著同樣的缺陷。即使對(duì)于一個(gè)完美的數(shù)據(jù)集,離群值也或多或少被錯(cuò)誤地檢測(cè)到。這一點(diǎn)在ZHANG,et al[13]中已經(jīng)有所驗(yàn)證,但是在本次樣本執(zhí)行同樣的過(guò)程發(fā)現(xiàn),利用兩種方法都能識(shí)別出的非離群值進(jìn)行試驗(yàn)發(fā)現(xiàn)兩種方法都不能再識(shí)別出額外的離群值,因此,并不能完全通過(guò)這種方式來(lái)說(shuō)明IRMCD方法比BSD方法更有效果,對(duì)于不同的數(shù)據(jù)集可能會(huì)呈現(xiàn)不同效果。

      3 結(jié)論

      本文選取了2018年2月2—11日福建9部風(fēng)廓線(xiàn)雷達(dá)的小時(shí)水平風(fēng)觀(guān)測(cè)數(shù)據(jù)與相應(yīng)的模式數(shù)據(jù)之差,即觀(guān)測(cè)增量,利用IRMCD和BSD兩種方法分別進(jìn)行質(zhì)量控制,并對(duì)質(zhì)量控制結(jié)果以不同的形式進(jìn)行比較分析。主要總結(jié)如下:

      (1)制定了IRMCD和BSD質(zhì)控方法獲得最優(yōu)解的判定指標(biāo)峰偏值KS,同時(shí)通過(guò)KS指標(biāo)的大小判斷兩種方法的優(yōu)劣性,IRMCD的KS指標(biāo)明顯小于BSD方法的KS指標(biāo),說(shuō)明IRMCD比BSD方法更接近正態(tài)分布。

      (2)IRMCD方法可以同時(shí)應(yīng)用在多維變量的離群值檢測(cè),而B(niǎo)SD方法只能應(yīng)用在一維變量的離群值檢測(cè)中,BSD應(yīng)用在二維變量離群值檢測(cè)的時(shí)候必須分別進(jìn)行離群值檢測(cè),對(duì)于具有相關(guān)性的兩個(gè)變量是不利的。從波形指標(biāo)、統(tǒng)計(jì)指標(biāo)和離群值數(shù)量上都說(shuō)明IRMCD比BSD更有優(yōu)越。

      (3)IRMCD和BSD的穩(wěn)健均值和標(biāo)準(zhǔn)差是以不同的方式計(jì)算的,它們的識(shí)別規(guī)則也是如此。在IRMCD中,通過(guò)比較穩(wěn)健距離的平方與具有形狀參數(shù)分布的參考值進(jìn)行比較,這些參數(shù)隨著應(yīng)用IRMCD的不同數(shù)據(jù)集而變化,獲得的非離群值的分布近似“橢圓形”。在雙權(quán)重檢查中,設(shè)定距離雙權(quán)重標(biāo)準(zhǔn)差的預(yù)定倍數(shù)作為識(shí)別離群值的閾值,獲得的非離群值分布近似“方形”,這其中必然存在一定量的誤判,同時(shí)IRMCD具有防止假陽(yáng)性的機(jī)制,這也減少了離群值的誤判,也表明IRMCD比BSD方法有優(yōu)勢(shì)。

      從多個(gè)方面都表明了IRMCD的在風(fēng)廓線(xiàn)數(shù)據(jù)質(zhì)量控制的優(yōu)勢(shì),特別是對(duì)于二維向量離群值檢測(cè)具有普遍意義,也可以應(yīng)用在激光測(cè)風(fēng)雷達(dá)、探空雷達(dá)、天氣雷達(dá)等設(shè)備的風(fēng)場(chǎng)離群值檢測(cè)。也將為下一步在同化業(yè)務(wù)應(yīng)用中提供了依據(jù),同時(shí)今后也將該方法質(zhì)控后同化應(yīng)用于福建區(qū)域數(shù)值預(yù)報(bào)模式中,是否能改進(jìn)數(shù)值預(yù)報(bào)效果,也是下一步的工作目標(biāo)。

      猜你喜歡
      風(fēng)廓峰度離群
      高郵邊界層風(fēng)廓線(xiàn)雷達(dá)數(shù)據(jù)獲取率分析
      一種綜合的風(fēng)廓線(xiàn)雷達(dá)數(shù)據(jù)質(zhì)量控制方法
      用L波段探空測(cè)風(fēng)雷達(dá)評(píng)估風(fēng)廓線(xiàn)雷達(dá)測(cè)風(fēng)準(zhǔn)確性
      擴(kuò)散峰度成像技術(shù)檢測(cè)急性期癲癇大鼠模型的成像改變
      磁共振擴(kuò)散峰度成像在肝臟病變中的研究進(jìn)展
      四川盆地風(fēng)廓線(xiàn)雷達(dá)大氣折射率結(jié)構(gòu)常數(shù)特征分析
      基于自動(dòng)反相校正和峰度值比較的探地雷達(dá)回波信號(hào)去噪方法
      磁共振擴(kuò)散峰度成像MK值、FA值在鑒別高級(jí)別膠質(zhì)瘤與轉(zhuǎn)移瘤的價(jià)值分析
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷(xiāo)售潛在客戶(hù)中的應(yīng)用
      離群的小雞
      盐源县| 宁陕县| 洛阳市| 明星| 尚志市| 平南县| 东海县| 汤原县| 启东市| 新干县| 南通市| 沅江市| 新民市| 南投县| 武功县| 龙口市| 康定县| 通江县| 聊城市| 桦川县| 高安市| 华容县| 南安市| 皋兰县| 观塘区| 河源市| 博罗县| 昌邑市| 曲松县| 普洱| 甘泉县| 北海市| 页游| 建湖县| 陆丰市| 阳新县| 湄潭县| 扶风县| 旺苍县| 海安县| 潮州市|