林洪樺
特約論文
測(cè)量誤差分析及數(shù)據(jù)處理若干要點(diǎn)系列論文(五)——移動(dòng)平均式數(shù)據(jù)處理
林洪樺
(北京理工大學(xué),北京 100081)
移動(dòng)平均式數(shù)據(jù)處理具有廣泛的應(yīng)用領(lǐng)域,不僅可作為緩變型三非性數(shù)據(jù)處理的一般方法,還可作為常量測(cè)量的數(shù)據(jù)處理方法。闡述移動(dòng)平均式算法基本思想,介紹動(dòng)態(tài)測(cè)試和常量測(cè)量的移動(dòng)平均式算法處理方法。
數(shù)據(jù)處理;誤差分析;移動(dòng)平均式算法
在前系列論文已論述,現(xiàn)實(shí)的測(cè)量數(shù)據(jù)多屬小樣本,本質(zhì)上均具有三非性(非線性、非高斯、非平 穩(wěn))[1-4]。移動(dòng)平均式自適應(yīng)數(shù)據(jù)處理有其廣泛的應(yīng)用領(lǐng)域,不僅可作為緩變型(緩時(shí)變性或無(wú)急劇變化,如,脈沖型、階躍型等)三非性數(shù)據(jù)處理的一般方法,還可作為常量測(cè)量(實(shí)質(zhì)上長(zhǎng)過(guò)程常量測(cè)量數(shù)據(jù)也屬于緩變型)數(shù)據(jù)處理方法。總之,當(dāng)樣本容量較大時(shí),任何基本算法均可運(yùn)用移動(dòng)平均式數(shù)據(jù)處理。
在高準(zhǔn)確度的動(dòng)態(tài)測(cè)量中,尤其是納米級(jí)測(cè)量、長(zhǎng)過(guò)程測(cè)量(無(wú)論變量或常量)、在線測(cè)量等都存在不易確切掌握時(shí)變統(tǒng)計(jì)特性的測(cè)量數(shù)據(jù),急需具有自動(dòng)顯示及判別統(tǒng)計(jì)特性的自適應(yīng)數(shù)據(jù)處理方法。以往多用各種遞推算法,卻存在初始滯后、擬合誤差累積、數(shù)值欠穩(wěn)定等問(wèn)題,難以滿(mǎn)足高準(zhǔn)確性要求。筆者自1987年開(kāi)始采用一系列移動(dòng)式成批算法、移動(dòng)式遞推平均算法及兩者結(jié)合的算法,在算法參數(shù)選擇合適情況下,可克服單純遞推算法的不足。對(duì)于非急劇變化的緩變型動(dòng)態(tài)測(cè)試數(shù)據(jù)處理,可取得高準(zhǔn)確度跟蹤數(shù)據(jù)時(shí)變特性的效果[5-8]。即便是應(yīng)用現(xiàn)代智能算法,由于多基于隨機(jī)性全局搜索方法,計(jì)算結(jié)果具有隨機(jī)性,予以平均精確化更佳。
移動(dòng)平均式算法既具有跟蹤緩時(shí)變的能力,又可充分利用樣本信息,并能發(fā)揮成批算法數(shù)值穩(wěn)定性及移動(dòng)平均精確化效應(yīng)等高準(zhǔn)確度效果,但在計(jì)算速度上略遜于遞推算法或原基本算法。上世紀(jì)九十年代初,已將移動(dòng)算法歸納為自適應(yīng)濾波的又一類(lèi)算法。因此,探討高準(zhǔn)確度自適應(yīng)數(shù)據(jù)處理方法已成為當(dāng)前測(cè)試技術(shù)關(guān)注的問(wèn)題。樣本容量較大或長(zhǎng)過(guò)程的常量測(cè)量存在緩變影響因素,易被忽視,本文著重說(shuō)明在常量測(cè)量中的應(yīng)用。
經(jīng)典移動(dòng)平均(moving average, MA)算法具有跟蹤緩時(shí)變特性的能力,將其擴(kuò)展應(yīng)用于基本算法(basic algorithm, BA)(也稱(chēng)基礎(chǔ)算法,含成批算法、遞推算法及兩者結(jié)合的算法)的移動(dòng)平均算法,總稱(chēng)為移動(dòng)平均式算法(BAMA),基本設(shè)想如圖1所示。
圖1 BAMA基本設(shè)想
由圖1可見(jiàn):直接對(duì)樣本數(shù)據(jù)作MA算法,對(duì)樣本數(shù)據(jù)先作分段BA,再對(duì)其進(jìn)行BAMA。BAMA有分段數(shù)據(jù)量和重疊數(shù)據(jù)量?jī)蓚€(gè)主要參數(shù)。
的選擇取決于BA的數(shù)據(jù)處理目的,若要表述數(shù)據(jù)所含確定性變化規(guī)律,則該個(gè)數(shù)據(jù)中應(yīng)含有其確定性變化成分的主要信息;若要表述其隨機(jī)性成分,則該個(gè)數(shù)據(jù)應(yīng)體現(xiàn)出統(tǒng)計(jì)特性且近似具有平穩(wěn)性。通常樣本數(shù)據(jù)時(shí)變特性較復(fù)雜、較劇烈時(shí),相應(yīng)地取大些,但應(yīng)受限于保持接近平穩(wěn)性。由于BAMA能體現(xiàn)過(guò)程的緩時(shí)變特性,因而在滿(mǎn)足上述BA的數(shù)據(jù)處理目的下,宜盡量偏小選擇。至于的具體值取決于BA的需求及總數(shù)據(jù)量。通常要求移動(dòng)5次以上,方能體現(xiàn)BAMA的效果,即<5。一般要求50~100。
的選擇決定了BAMA的平均效果或準(zhǔn)確性,還需兼顧時(shí)變的連續(xù)性與移動(dòng)算法的最佳速度。通常宜選得偏大些,如,10~20。
至于BA有關(guān)參數(shù)的選擇,則視樣本數(shù)據(jù)模型化及所選定的具體算法而異,不在此贅述。筆者將其歸納為動(dòng)態(tài)測(cè)試算法和常量測(cè)量算法2種類(lèi)型。動(dòng)態(tài)測(cè)試算法又可分為以回歸或自回歸為主構(gòu)成的移動(dòng)平均式成批算法;以各種遞推算法為主且作移動(dòng)平均精確化者為移動(dòng)平均式遞推算法。無(wú)論何種具體算法均涉及選擇或自動(dòng)識(shí)別階數(shù)(或次數(shù)、項(xiàng)數(shù)等)這一重要參數(shù),且因有移動(dòng)平均形式體現(xiàn)緩時(shí)變性而可選得盡量偏小些。常量測(cè)量主要對(duì)多數(shù)據(jù)量或長(zhǎng)測(cè)量過(guò)程而言。常量測(cè)量樣本及測(cè)量誤差均有緩變因素影響,采用BAMA處理更佳。其參數(shù)選擇主要取決于測(cè)量誤差的類(lèi)型是隨機(jī)變量還是平穩(wěn)過(guò)程。若屬后者,則無(wú)異于移動(dòng)平均式成批算法,需建自回歸模型,其階數(shù)同前選。
在BAMA具體應(yīng)用中,數(shù)學(xué)模型擬定是至關(guān)重要環(huán)節(jié),且影響B(tài)AMA參數(shù)選定。BAMA處理方法的邏輯框圖如圖2所示。
圖2 BAMA處理方法的邏輯框圖
BAMA處理方法主要應(yīng)用于動(dòng)態(tài)測(cè)試數(shù)據(jù)處理,可分為移動(dòng)平均式成批算法和移動(dòng)平均式遞推算法。文獻(xiàn)[5]~文獻(xiàn)[10]對(duì)這些算法已有闡述,故在此僅簡(jiǎn)要略述及補(bǔ)充其與BAMA處理方法的有關(guān)要點(diǎn)。
分解方法可采用MA中心平滑方法,即
大多數(shù)現(xiàn)實(shí)問(wèn)題應(yīng)用這種線性化處理方法可滿(mǎn)足準(zhǔn)確度要求。僅當(dāng)某些強(qiáng)非線性度問(wèn)題不得已需采用非線性模型??傊?,模型化遵從線性化優(yōu)先原則。
同理,隨機(jī)性模型遵從線性化-平穩(wěn)化優(yōu)先原則。
動(dòng)態(tài)測(cè)試的BAMA決定于對(duì)現(xiàn)實(shí)問(wèn)題的樣本數(shù)據(jù)進(jìn)行模型化及最佳性原則的需求。詳見(jiàn)文獻(xiàn)[5]及此系列論文的論述,具體處理方法的示例可參考文獻(xiàn)[6]~文獻(xiàn)[10]。本文僅涉及現(xiàn)代數(shù)據(jù)處理方法的要點(diǎn)。
SVD:=ΣT,Σ= diag(1,2,…,σ,σ+1,…,σ),=+1
式中,和分別為左和右奇異矩陣;和分別為的行數(shù)和列數(shù);1≥2≥…≥σ為的奇異值。其中大于σ者對(duì)應(yīng)于顯著性變量,且σ+1/1≤ 0.05或0.1即可判定階數(shù)為;而σ+1,…,σ均對(duì)應(yīng)著噪聲或隨機(jī)誤差。如此判定階數(shù)較為穩(wěn)定、可靠。
2)時(shí)變分布統(tǒng)示法的應(yīng)用:十多年前筆者對(duì)云南滇池某種水質(zhì)指標(biāo)兩年的四季樣本數(shù)據(jù)剔除異常數(shù)據(jù)后,做分布分段擬合(靜態(tài)),估計(jì)結(jié)果分布參數(shù)有多處較劇烈變動(dòng)。后改進(jìn)采用BAMA處理方法(動(dòng)態(tài)),估計(jì)分布參數(shù)呈平穩(wěn)的緩變性。此即時(shí)變分布統(tǒng)示法的實(shí)際應(yīng)用示例。另,由于其樣本數(shù)據(jù)雖剔除異常數(shù)據(jù)后仍不時(shí)有所起伏,再改進(jìn)為運(yùn)用中位值濾波式BAMA處理方法將更佳。
時(shí)變分布統(tǒng)示法的具體BAMA處理方法,即將樣本總數(shù)據(jù)量按<5分段,在數(shù)據(jù)量為分段內(nèi)以本系列論文(三)中述及的分布矩估計(jì)方法為BA[3],再予以移動(dòng)進(jìn)行MA處理的方法。要點(diǎn)在于:
①簡(jiǎn)捷識(shí)別緩時(shí)變性:盡管有擬合優(yōu)度檢驗(yàn)、熵差異識(shí)別等較復(fù)雜的方法常用于概率分布檢驗(yàn)。然而這里所需的是識(shí)別各分段分布參數(shù)(,,,)差異性的簡(jiǎn)捷方法。既然各分段的偏態(tài)-峰態(tài)系數(shù)均需估計(jì),建議運(yùn)用偏態(tài)-峰態(tài)系數(shù)差異性的識(shí)別概率分布不同的近似方法。這樣兼有識(shí)別對(duì)稱(chēng)性而運(yùn)用對(duì)稱(chēng)性?xún)?yōu)先原則與識(shí)別隨機(jī)性分布差異性之優(yōu)越性和簡(jiǎn)捷性。具體處理方法如下:
利用文獻(xiàn)[5]中式(5.512)所得偏態(tài)-峰態(tài)系數(shù)估計(jì)的置信界限識(shí)別對(duì)稱(chēng)性與隨機(jī)性分布差異性,即2個(gè)以上相鄰分段的偏態(tài)-峰態(tài)系數(shù)估計(jì)超出此范圍就視為有差異。對(duì)分布參數(shù)(,,,)需做緩時(shí)變性處理。
②若分布無(wú)時(shí)變性,在分段中按樣本前四階矩估計(jì)分布參數(shù)(,,,)時(shí),其中(,) = (min-N,max-N)應(yīng)恒按樣本整體數(shù)據(jù)中的最小值和最大值估計(jì)。這樣準(zhǔn)確性、可靠性更高。同時(shí),可用各分段分布參數(shù)(,,,)估計(jì)的均值作為其估計(jì)結(jié)果進(jìn)行后續(xù)處理。顯然這樣可彌補(bǔ)按全樣本數(shù)據(jù)一次估計(jì)分布參數(shù)(,,,)的不足。
③BA求解分布參數(shù)(,,,)算法探討
求解分布參數(shù)(,,,)算法:現(xiàn)代BA多強(qiáng)調(diào)用基于全局優(yōu)化隨機(jī)搜索的智能化算法,求解分布參數(shù)(,,,),其結(jié)果具有隨機(jī)性。樣本數(shù)據(jù)量較大時(shí),建議運(yùn)用②所述具有平均效果的處理方法,以提高準(zhǔn)確性和可靠性。若樣本數(shù)據(jù)量不大,(,)不宜按數(shù)據(jù)中的最小值和最大值估計(jì)。建議按(μ,σ,3,4)與(,,,)關(guān)系的聯(lián)立方程求解分布參數(shù)。
3)時(shí)變粒子濾波(PF)的應(yīng)用:文獻(xiàn)[10]中已闡述卡爾曼濾波(KF)作移動(dòng)平均式處理的方法,并得出具有抑制隨機(jī)誤差即噪聲的較顯著效果;可適應(yīng)緩時(shí)變性;具有平均效果等優(yōu)點(diǎn)。然而,除計(jì)算速度略低外,還受制于高斯性。在現(xiàn)代數(shù)據(jù)處理中要求不能受制于線性和高斯性,顯然可應(yīng)用對(duì)粒子濾波(PF)作移動(dòng)平均式處理的方法,即緩時(shí)變PF方法,取得上述優(yōu)點(diǎn)。
多數(shù)據(jù)、長(zhǎng)過(guò)程的常量測(cè)量有緩變,宜用BAMA處理,即使無(wú)緩變也具有平均效果。
示例:采用正偏態(tài)分布仿真數(shù)據(jù)作為長(zhǎng)過(guò)程常量測(cè)量數(shù)據(jù),如圖3所示。整體數(shù)據(jù)200,取分段數(shù)據(jù)= 100,重疊數(shù)= 50(可有更佳選擇),進(jìn)行BAMA處理,處理結(jié)果如表1所示。對(duì)長(zhǎng)過(guò)程常量測(cè)量數(shù)據(jù)的BAMA處理結(jié)果表明:經(jīng)驗(yàn)證分段的相鄰均值之間并無(wú)差異,即無(wú)時(shí)變性;BAMA處理方法優(yōu)于一般的整體數(shù)據(jù)處理。對(duì)BAMA參數(shù)選擇合適可取得更佳平均效果。還需指出,該例對(duì)重疊部分尚未作處理,顯然還會(huì)有其平均效應(yīng)。
圖3 正偏態(tài)分布仿真數(shù)據(jù)作為長(zhǎng)過(guò)程常量測(cè)量數(shù)據(jù)
表1 長(zhǎng)過(guò)程常量測(cè)量數(shù)據(jù)BAMA處理方法分析
不論何種基本算法均可運(yùn)用移動(dòng)平均式處理方法,可體現(xiàn)緩時(shí)變特性,得到平均效應(yīng),其重點(diǎn)在于合理設(shè)置參數(shù)()。
[1] 林洪樺.測(cè)量誤差分析及數(shù)據(jù)處理若干要點(diǎn)系列論文(一)——現(xiàn)代數(shù)據(jù)處理基本觀念與四字要訣[J].自動(dòng)化與信息工程,2020,41(1):1-4,9.
[2] 林洪樺.測(cè)量誤差分析及數(shù)據(jù)處理若干要點(diǎn)系列論文(二)——隨機(jī)性分布統(tǒng)示法綜論[J].自動(dòng)化與信息工程,2020, 41(2):1-7.
[3] 林洪樺.測(cè)量誤差分析及數(shù)據(jù)處理若干要點(diǎn)系列論文(三)——隨機(jī)性分布統(tǒng)示法推薦應(yīng)用[J].自動(dòng)化與信息工程,2020,41(3):1-6,16.
[4] 林洪樺.測(cè)量誤差分析及數(shù)據(jù)處理若干要點(diǎn)系列論文(四)——統(tǒng)計(jì)學(xué)習(xí)理論及支持向量機(jī)方法統(tǒng)用于形位誤差評(píng)定[J].自動(dòng)化與信息工程,2020,41(4):1-5.
[5] 林洪樺.動(dòng)態(tài)測(cè)試數(shù)據(jù)處理[M].北京:北京理工大學(xué)出版社,1995.
[6] 林洪樺,王曉巖.應(yīng)用自適應(yīng)濾波抑制動(dòng)態(tài)測(cè)試隨機(jī)誤差[J].計(jì)量學(xué)報(bào),1992,13(3):176-183.
[7] 林洪樺,趙曉光.應(yīng)用移動(dòng)Marple法擬合動(dòng)態(tài)測(cè)試數(shù)據(jù)的時(shí)變AR模型[J].計(jì)量學(xué)報(bào),1994,15(2):92-98.
[8] 林洪樺,仲琇.動(dòng)態(tài)測(cè)試數(shù)據(jù)自動(dòng)處理方法[J].北京理工大學(xué)學(xué)報(bào),1995,15(1): 67-74.
[9] 林洪樺.巧用移動(dòng)式自適應(yīng)數(shù)據(jù)處理[D].香港: Nano-metrology in Precision Engineering 精密工程中的納米測(cè)量技術(shù),135-138 .
[10] 林洪樺,荀燁.抑制動(dòng)態(tài)測(cè)試隨機(jī)誤差的移動(dòng)自適應(yīng)濾波平均方法[C].全國(guó)現(xiàn)代誤差理論及應(yīng)用學(xué)術(shù)交流研討會(huì)論文集,1997.
[11] 張賢達(dá).現(xiàn)代信號(hào)處理[M].北京:清華大學(xué)出版社,1995.
Some Key Points of Measurement Error Analysis and Data Processing Series Papers (5)——Moving Average Data Processing
Lin Honghua
(Beijing Institute of Technology, Beijing 100081, China)
Moving average data processing has a wide range of applications. It can be used not only as a general method of data processing of slowly varying three non properties, but also as a data processing method of constant measurement. This paper expounds the basic idea of moving average algorithm and introduces the processing method of moving average algorithm for dynamic test and constant measurement.
data processing; error analysis; moving average algorithm
林洪樺,男,1932年生,教授,主要研究方向:測(cè)試誤差分析及數(shù)據(jù)處理。
TP274
A
1674-2605(2020)05-0001-06
10.3969/j.issn.1674-2605.2020.05.001