• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林的衛(wèi)星快變遙測(cè)數(shù)據(jù)建模

      2022-12-01 01:06:36張雪歡孫劍偉趙黛巖
      計(jì)算機(jī)測(cè)量與控制 2022年11期
      關(guān)鍵詞:誤差率遙測(cè)衛(wèi)星

      張雪歡,孫劍偉,趙黛巖

      (中國(guó)電子科技集團(tuán)公司第十五研究所,北京 100083)

      0 引言

      現(xiàn)代衛(wèi)星功能多、價(jià)值大,需要其具備提供高連續(xù)性服務(wù)的能力[1]。衛(wèi)星長(zhǎng)期運(yùn)行在距地面數(shù)百至數(shù)萬(wàn)公里的真空、極溫、強(qiáng)輻射太空環(huán)境中。為了解其在軌工作狀態(tài),及時(shí)發(fā)現(xiàn)問(wèn)題,地面技術(shù)人員需要對(duì)采集的遙測(cè)數(shù)據(jù)進(jìn)行分析[2]。

      衛(wèi)星快變遙測(cè)數(shù)據(jù)包由該領(lǐng)域?qū)<腋鶕?jù)衛(wèi)星有效載荷提取核心參數(shù)組成,數(shù)據(jù)包參數(shù)達(dá)到上百個(gè),包含主備鐘狀態(tài)、各頻點(diǎn)功率測(cè)量值等,是判斷衛(wèi)星工作狀態(tài)的重要數(shù)據(jù)。因快變遙測(cè)數(shù)據(jù)復(fù)雜、數(shù)據(jù)量大,現(xiàn)有使用人工分析對(duì)快變遙測(cè)數(shù)據(jù)建模的方法存在效率較低的問(wèn)題,而將機(jī)器學(xué)習(xí)算法引入快變遙測(cè)數(shù)據(jù)建模中,可以提高建模效率,為衛(wèi)星遙測(cè)數(shù)據(jù)分析和智能運(yùn)維提供了參考。

      目前,許多學(xué)者在衛(wèi)星遙測(cè)數(shù)據(jù)建模方面開(kāi)展了大量研究。Xu[3]針對(duì)遙測(cè)數(shù)據(jù)值不平穩(wěn)和周期變化的特性,使用小波分析方法建立衛(wèi)星電壓、功率遙測(cè)值模型,并利用周期延拓的方法對(duì)模型進(jìn)行完善,結(jié)果表明模型預(yù)測(cè)值和實(shí)際值吻合良好。Sazonov[4]使用國(guó)際空間站“曙光”功能艙近似遙測(cè)數(shù)據(jù)建立太陽(yáng)能電池?cái)?shù)學(xué)模型,可以在3~4%的誤差范圍預(yù)測(cè)發(fā)電量。張弓[5]建立基于改進(jìn)SumSin的導(dǎo)航衛(wèi)星服務(wù)艙光學(xué)太陽(yáng)反射鏡溫度模型,并對(duì)溫度趨勢(shì)進(jìn)行預(yù)測(cè),平均誤差在0.01 ℃左右。梅玉航[6]采用動(dòng)態(tài)加權(quán)集成學(xué)習(xí)方法建立遙測(cè)數(shù)據(jù)模型,結(jié)合集成學(xué)習(xí)和多層感知機(jī)的算法提高了預(yù)測(cè)實(shí)時(shí)性。王旭[7]使用多種機(jī)器學(xué)習(xí)方法,建立星載銣鐘遙測(cè)參數(shù)模型,并使用模型對(duì)鎖定信號(hào)值進(jìn)行預(yù)測(cè),效果較好的模型均方差為5左右。但上述研究均只提取了少量遙測(cè)數(shù)據(jù)參數(shù)進(jìn)行模型建立,對(duì)于包含大量參數(shù)(上百個(gè))的高維遙測(cè)數(shù)據(jù)研究較少。同時(shí),目前尚未有研究將機(jī)器學(xué)習(xí)算法應(yīng)用到衛(wèi)星快變遙測(cè)數(shù)據(jù)建模中。本文擬將隨機(jī)森林算法應(yīng)用于衛(wèi)星快變遙測(cè)數(shù)據(jù)回歸模型的建立,使用模型對(duì)某頻點(diǎn)功率測(cè)量值進(jìn)行預(yù)測(cè),采用R2值、預(yù)測(cè)誤差率等作為評(píng)估標(biāo)準(zhǔn),結(jié)果顯示該模型擁有較好的預(yù)測(cè)效果,為衛(wèi)星快變遙測(cè)數(shù)據(jù)建模提供了一種可行方法,為人工智能在衛(wèi)星運(yùn)維方面的應(yīng)用提供思路。

      1 隨機(jī)森林算法

      隨機(jī)森林(random forest, RF)算法由Leo[8]在2001年提出,它是一種基于決策樹(shù)的集成學(xué)習(xí)方法。

      決策樹(shù)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,作為一種樹(shù)模型,其樹(shù)狀結(jié)構(gòu)直觀、可解釋性強(qiáng),被廣泛應(yīng)用于數(shù)據(jù)分析領(lǐng)域[9]。常見(jiàn)的決策樹(shù)算法包括ID3(iterative dichotomiser 3)算法、C4.5算法和CART(classification and regression tree)算法,三種算法的主要區(qū)別在于節(jié)點(diǎn)分裂標(biāo)準(zhǔn)。ID3算法使用信息增益作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn),這種建樹(shù)方法較為簡(jiǎn)單,但信息增益標(biāo)準(zhǔn)會(huì)偏袒取值較多的屬性。C4.5算法使用信息增益率作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn),這種方法避免了信息增益標(biāo)準(zhǔn)對(duì)取值較多屬性的偏好,但因其需要對(duì)數(shù)據(jù)集進(jìn)行多次計(jì)算,導(dǎo)致算法效率較低。CART算法使用基尼系數(shù)作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn),這種方法通過(guò)建立二叉樹(shù)的方式簡(jiǎn)化計(jì)算,效率較高。

      雖然決策樹(shù)具有簡(jiǎn)單直觀、可解釋性強(qiáng)等優(yōu)點(diǎn),但其極易過(guò)擬合,為了解決這一問(wèn)題,隨機(jī)森林算法應(yīng)運(yùn)而生。隨機(jī)森林算法可以使用多個(gè)決策樹(shù)共同完成學(xué)習(xí)任務(wù),解決單一學(xué)習(xí)器訓(xùn)練結(jié)果不準(zhǔn)確、容易過(guò)擬合等問(wèn)題,提高算法對(duì)噪聲的容忍度,擁有更好的泛化性能[10-11]。隨機(jī)森林可以用于解決分類和回歸兩種問(wèn)題[12-13]。在解決分類問(wèn)題時(shí),隨機(jī)森林方法根據(jù)每棵樹(shù)的分類結(jié)果選擇多數(shù)作為最終結(jié)果;在解決回歸問(wèn)題時(shí),隨機(jī)森林方法則通過(guò)計(jì)算每棵樹(shù)預(yù)測(cè)值的平均值作為結(jié)果[14]。

      本文主要使用隨機(jī)森林處理回歸問(wèn)題,隨機(jī)森林回歸算法的基本原理為:首先,通過(guò)bootstrap抽樣在原始數(shù)據(jù)集中有放回地隨機(jī)抽取數(shù)據(jù)組成訓(xùn)練樣本集,其中,需要保證訓(xùn)練樣本容量與原始樣本容量一致,并且重復(fù)多次創(chuàng)建不同的訓(xùn)練樣本集[15-16]。然后,根據(jù)抽取的訓(xùn)練樣本集分別構(gòu)建決策樹(shù),得到各決策樹(shù)的回歸結(jié)果。最后,對(duì)各決策樹(shù)的回歸結(jié)果計(jì)算均值得到最終結(jié)果。隨機(jī)森林回歸算法原理示意圖如圖1所示。

      圖1 隨機(jī)森林回歸算法原理示意圖

      隨機(jī)森林回歸算法的數(shù)學(xué)推導(dǎo)為:對(duì)原始數(shù)據(jù)集中自變量(輸入數(shù)據(jù))X和因變量(需預(yù)測(cè)輸出數(shù)據(jù))Y,假設(shè)(X,Y)的分布獨(dú)立,隨機(jī)在(X,Y)中抽取訓(xùn)練樣本集K,預(yù)測(cè)結(jié)果設(shè)為g(X),則其均方泛化誤差為:

      EX,Y[Y-g(X)]2

      (1)

      假定有k顆決策樹(shù),對(duì)k顆決策樹(shù)計(jì)算其預(yù)測(cè)值{g(K,Xk)}的均值得到隨機(jī)森林回歸的預(yù)測(cè)結(jié)果。當(dāng)k→∞時(shí),有下式:

      (2)

      式中,EX,Y[Y-EK(X,Kk)]2表示泛化誤差,記為PE**,當(dāng)k趨近于無(wú)窮大時(shí),每顆決策樹(shù)的泛化誤差記為PE*,PE*滿足:

      PE*=EKEX,Y[Y-g(X,K)]2

      (3)

      其中:K滿足:

      (4)

      Y=Ekg(X,K)

      (5)

      2 數(shù)據(jù)處理及模型建立

      2.1 數(shù)據(jù)描述

      本實(shí)驗(yàn)采用某衛(wèi)星于2022年2月21日18時(shí)至2022年2月21日22時(shí),4小時(shí)內(nèi)產(chǎn)生的快變遙測(cè)數(shù)據(jù)。其中,數(shù)據(jù)采樣率為1條/秒,4小時(shí)內(nèi)共收集14 400條數(shù)據(jù),每條數(shù)據(jù)包含103個(gè)特征,數(shù)據(jù)維度和數(shù)據(jù)量較大。

      快變遙測(cè)數(shù)據(jù)以.csv的格式存儲(chǔ),為了將數(shù)據(jù)讀入算法中,本文使用pandas包中pandas.read_csv()函數(shù)。該函數(shù)用法簡(jiǎn)便,只需將原始數(shù)據(jù)的.csv格式文件的絕對(duì)路徑作為函數(shù)參數(shù),便可將快變遙測(cè)數(shù)據(jù)存至pandas包中定義的DataFrame數(shù)據(jù)結(jié)構(gòu)中。DataFrame是一種二維數(shù)組,由索引和內(nèi)容組成,存入DataFrame后可以方便的使用Python中函數(shù)對(duì)數(shù)據(jù)進(jìn)行分析處理。

      需要注意的是,采樣得到的快變遙測(cè)數(shù)據(jù)值取自星上發(fā)送的原始數(shù)據(jù)值,部分?jǐn)?shù)據(jù)值含有字符,直接進(jìn)行數(shù)據(jù)處理會(huì)因字符型值無(wú)法轉(zhuǎn)換為數(shù)值型而出現(xiàn)錯(cuò)誤,需要對(duì)快變遙測(cè)數(shù)據(jù)進(jìn)行修正。含有字符的數(shù)據(jù)值存在三類情況:(1)原始數(shù)據(jù)值由十六進(jìn)制數(shù)表示導(dǎo)致采樣數(shù)據(jù)值中含有字符,這類情況需要將十六進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)。(2)原始數(shù)據(jù)值包含字符用于分隔數(shù)據(jù),在這類情況中,字符并無(wú)表示數(shù)據(jù)的實(shí)際意義,直接刪除即可。(3)快變遙測(cè)數(shù)據(jù)中部分參數(shù)為狀態(tài)參數(shù),使用不同字符代表不同狀態(tài),這類情況需要將不同字符轉(zhuǎn)化為離散數(shù)值,使用離散數(shù)值代表原始數(shù)據(jù)代表的不同狀態(tài)。

      完成修正后將數(shù)據(jù)按照10 000條和4 400條劃分為訓(xùn)練集和測(cè)試集,準(zhǔn)備進(jìn)行特征預(yù)處理。

      2.2 特征預(yù)處理

      2.2.1 野值剔除

      在地面接收來(lái)自衛(wèi)星的遙測(cè)數(shù)據(jù)過(guò)程中,受天氣、磁場(chǎng)等多種環(huán)境因素作用,接收到的遙測(cè)數(shù)據(jù)可能與衛(wèi)星發(fā)送的數(shù)據(jù)產(chǎn)生較大偏差,這種數(shù)據(jù)被稱為野值。對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)進(jìn)行處理時(shí),其數(shù)據(jù)準(zhǔn)確性會(huì)直接影響遙測(cè)數(shù)據(jù)分析建模效果,如果數(shù)據(jù)中存在野值,容易造成誤判,為地面技術(shù)人員分析衛(wèi)星服務(wù)狀態(tài)增加干擾。

      常見(jiàn)的野值剔除方法包括3σ準(zhǔn)則、奈爾準(zhǔn)則、53H準(zhǔn)則等。本文使用53H準(zhǔn)則進(jìn)行野值剔除,其剔除方法為首先對(duì)數(shù)據(jù)值序列求兩次中值得到新的數(shù)據(jù)值序列。然后將新序列通過(guò)下式組合成參考值。

      y(i)=0.25·xnew(i-1)+0.5·xnew(i)+

      0.25·xnew(i+1)

      (6)

      最后,若有下式成立則當(dāng)前值為野值,并用參考值替換。

      |y(i)-x(i)|>t

      (7)

      在代碼實(shí)現(xiàn)上,本文利用Python的數(shù)據(jù)處理功能,循環(huán)遍歷所有數(shù)據(jù)值對(duì)所需的各類數(shù)據(jù)進(jìn)行計(jì)算,得到參考序列,以此為標(biāo)準(zhǔn)進(jìn)行野值剔除。

      2.2.2 特征歸一化

      衛(wèi)星快變遙測(cè)數(shù)據(jù)維度較高,其中包含多種有效載荷產(chǎn)生的不同類別特征,各個(gè)特征量綱不同、物理含義也不同,需要對(duì)數(shù)據(jù)進(jìn)行歸一化,防止部分特征數(shù)量級(jí)較大導(dǎo)致特征對(duì)模型的影響大于其他特征,造成模型偏差變大,影響最終的模型效果。同時(shí),歸一化操作還可以使模型收斂速度加快,提高模型構(gòu)建效率[17]。

      歸一化方法有Min-Max歸一化、Sigmod歸一化等。本文使用Min-Max歸一化方法對(duì)快變遙測(cè)數(shù)據(jù)進(jìn)行處理,其變換函數(shù)如式(8):

      (8)

      由上述公式可知,Min-Max歸一化將數(shù)據(jù)中最大值和最小值作為映射標(biāo)準(zhǔn),對(duì)原始數(shù)據(jù)進(jìn)行線性變換。由于原始數(shù)據(jù)均不會(huì)超過(guò)最大值,因此可以將各個(gè)數(shù)據(jù)值等比例的映射至[0,1]的范圍,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比縮放。

      在代碼實(shí)現(xiàn)上,本文選擇sklearn.preprocessing包中MinMaxScaler方法。需要注意的是,在對(duì)訓(xùn)練集進(jìn)行歸一化后,還需對(duì)測(cè)試集進(jìn)行歸一化,否則將會(huì)因?yàn)橛?xùn)練集、測(cè)試集特征數(shù)量級(jí)不一致導(dǎo)致使用測(cè)試集得到的預(yù)測(cè)值大幅度偏離真實(shí)值。同時(shí),sklearn的MinMaxScaler方法使用fit_transform函數(shù)對(duì)訓(xùn)練集進(jìn)行歸一化,使用transform函數(shù)對(duì)測(cè)試集進(jìn)行歸一化,保證訓(xùn)練集、測(cè)試集的歸一化參數(shù)一致。如果對(duì)測(cè)試集也使用fit_transform函數(shù)會(huì)導(dǎo)致兩者歸一化參數(shù)不同、處理方式不同,從而對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。

      2.2.3 PCA降維

      主成分分析(principal component analysis, PCA)是一種常用特征工程方法,PCA使用正交變換方法將原始變量轉(zhuǎn)換為不相關(guān)的變量,得到的一組新變量為主成分[18]。

      維度較高的快變遙測(cè)數(shù)據(jù)直接建立模型可能會(huì)造成“維度災(zāi)難”,而PCA可以將高維向量轉(zhuǎn)換為低維向量來(lái)解決問(wèn)題。

      在代碼實(shí)現(xiàn)上,本文選擇sklearn.decomposition包中PCA方法。參數(shù)選擇n_components=0.99、svd_solver=“full”。其中n_components影響降維后的特征維度,當(dāng)n_components為正整數(shù)n時(shí),PCA方法返回的特征維度為n;當(dāng)n_components為[0-1]的浮點(diǎn)數(shù)時(shí),PCA方法返回滿足保留n_components指定百分比的信息量的特征維度,并且此時(shí)svd_solver需要選擇“full”。本文使用PCA(n_components=0.99, svd_solver=”full”)函數(shù)對(duì)歸一化后的數(shù)據(jù)進(jìn)行降維,處理后特征維度為18維,顯著降低了數(shù)據(jù)復(fù)雜度。

      2.3 模型建立

      建立基于隨機(jī)森林的衛(wèi)星快變遙測(cè)數(shù)據(jù)回歸模型,使用2.1節(jié)選取的快變遙測(cè)數(shù)據(jù)中某頻點(diǎn)功率測(cè)量值作為回歸模型預(yù)測(cè)值,快變遙測(cè)數(shù)據(jù)剩余參數(shù)作為輸入值,實(shí)現(xiàn)基于隨機(jī)森林的衛(wèi)星快變遙測(cè)數(shù)據(jù)某頻點(diǎn)功率測(cè)量值回歸預(yù)測(cè)模型,其主要步驟為:

      1)衛(wèi)星快變遙測(cè)數(shù)據(jù)獲取。采用某衛(wèi)星產(chǎn)生的4小時(shí)快變遙測(cè)數(shù)據(jù)作為原始數(shù)據(jù),并根據(jù)2.1節(jié)介紹的原始數(shù)據(jù)修正方法對(duì)數(shù)據(jù)進(jìn)行修正。

      2)訓(xùn)練集與測(cè)試集劃分。將步驟1)中獲取的修正后原始數(shù)據(jù)按照10 000條和4 400條的比例劃分為訓(xùn)練集和測(cè)試集。

      3)數(shù)據(jù)預(yù)處理。首先將衛(wèi)星快變遙測(cè)數(shù)據(jù)集進(jìn)行野值剔除,根據(jù)2.2.1節(jié)介紹的方法對(duì)野值進(jìn)行處理。然后進(jìn)行特征Min-Max歸一化處理,根據(jù)2.2.2節(jié)介紹的歸一化方法將原始數(shù)據(jù)等比映射至[0,1]范圍內(nèi)。最后進(jìn)行PCA降維處理,根據(jù)2.2.3節(jié)介紹的PCA降維方法降低數(shù)據(jù)復(fù)雜度。

      4)模型參數(shù)選取。針對(duì)隨機(jī)森林算法,對(duì)4.2節(jié)確定的重要參數(shù)n_estimators和max_depth通過(guò)改進(jìn)的二次網(wǎng)格搜索方法循環(huán)遍歷所有候選參數(shù),并通過(guò)3.1節(jié)介紹的評(píng)價(jià)指標(biāo)優(yōu)選參數(shù)。

      5)隨機(jī)森林回歸模型構(gòu)建。根據(jù)步驟4)選取的最優(yōu)參數(shù),使用訓(xùn)練集數(shù)據(jù)構(gòu)建隨機(jī)森林回歸模型。構(gòu)建模型時(shí)采用sklearn.ensemble包的RandomForestRegressor函數(shù)。

      6)模型預(yù)測(cè)結(jié)果分析。將測(cè)試集數(shù)據(jù)輸入步驟5)構(gòu)建的隨機(jī)森林回歸模型,對(duì)某頻點(diǎn)功率測(cè)量值進(jìn)行預(yù)測(cè),使用3.1節(jié)的評(píng)價(jià)指標(biāo)進(jìn)行模型預(yù)測(cè)結(jié)果分析評(píng)價(jià)。

      根據(jù)以上步驟,得到基于隨機(jī)森林的衛(wèi)星快變遙測(cè)數(shù)據(jù)回歸模型流程圖如圖2所示。

      圖2 模型建立流程

      3 實(shí)驗(yàn)分析

      為驗(yàn)證基于隨機(jī)森林的衛(wèi)星快變遙測(cè)數(shù)據(jù)模型效果,使用Python語(yǔ)言和Jupyter Notebook開(kāi)發(fā)工具進(jìn)行實(shí)驗(yàn),參照2.3節(jié)所述流程建立對(duì)快變遙測(cè)數(shù)據(jù)中重要參數(shù)——某頻點(diǎn)功率測(cè)量值進(jìn)行預(yù)測(cè)的回歸模型,再利用運(yùn)行時(shí)間、誤差率等指標(biāo)對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià),從而實(shí)現(xiàn)模型效果分析。實(shí)驗(yàn)的主要步驟為:

      1)數(shù)據(jù)處理。根據(jù)2.1節(jié)和2.2節(jié)方法使用Python庫(kù)獲取實(shí)驗(yàn)所需數(shù)據(jù),并依據(jù)建模和效果分析需求將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。

      2)回歸模型建立。使用1)中劃分的訓(xùn)練集數(shù)據(jù),運(yùn)行Python中sklearn庫(kù)RandomForestRegressor函數(shù),依據(jù)2.3節(jié)中構(gòu)建模型子流程建立訓(xùn)練集數(shù)據(jù)回歸模型。

      3)模型預(yù)測(cè)。使用2)中建立的回歸模型對(duì)1)中劃分的測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。保存預(yù)測(cè)值準(zhǔn)備進(jìn)行模型評(píng)估。

      4)模型評(píng)估。按照3.1節(jié)選取的評(píng)價(jià)指標(biāo),使用Python庫(kù)中time函數(shù)計(jì)算運(yùn)行時(shí)間,可以代表當(dāng)前模型在數(shù)據(jù)集上的效率;使用sklearn中score函數(shù)計(jì)算R2值,可以表示模型擬合時(shí)產(chǎn)生的偏差;使用sklearn中mean_absolute_error函數(shù)計(jì)算MAE值,表示不考慮方向的預(yù)測(cè)值平均誤差程度;使用Python庫(kù)計(jì)算誤差率及誤差率分布,可以直觀展示各預(yù)測(cè)值與其對(duì)應(yīng)的真實(shí)值的偏差;繪制模型預(yù)測(cè)曲線。計(jì)算得到各評(píng)價(jià)指標(biāo)結(jié)果后,根據(jù)結(jié)果對(duì)模型運(yùn)行效率、模型預(yù)測(cè)誤差進(jìn)行分析,評(píng)估回歸模型效果。

      5)對(duì)比實(shí)驗(yàn)及分析。通過(guò)對(duì)比實(shí)驗(yàn)展示隨機(jī)森林回歸模型效果。采用默認(rèn)參數(shù)隨機(jī)森林、邏輯回歸、K近鄰和多層感知機(jī)建立回歸模型,使用模型進(jìn)行預(yù)測(cè)和效果評(píng)估,流程參照步驟2)~4)。模型單獨(dú)評(píng)估后,再根據(jù)評(píng)價(jià)指標(biāo)對(duì)比各個(gè)模型預(yù)測(cè)情況,分析模型效果。

      根據(jù)以上步驟,得到實(shí)驗(yàn)流程圖如圖3所示。

      圖3 實(shí)驗(yàn)流程圖

      3.1 評(píng)價(jià)指標(biāo)

      使用某頻點(diǎn)功率測(cè)量值作為回歸模型預(yù)測(cè)值,快變遙測(cè)數(shù)據(jù)剩余參數(shù)作為輸入值,利用3.2節(jié)選取的使用最優(yōu)參數(shù)的回歸模型對(duì)某頻點(diǎn)功率測(cè)量值進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)效果評(píng)價(jià)模型效果,預(yù)測(cè)效果指標(biāo)如下。

      3.1.1 運(yùn)行時(shí)間

      運(yùn)行時(shí)間為各個(gè)模型使用訓(xùn)練集進(jìn)行擬合和模型使用測(cè)試集進(jìn)行預(yù)測(cè)的時(shí)間??梢源懋?dāng)前模型在數(shù)據(jù)集上的效率。針對(duì)在軌衛(wèi)星數(shù)據(jù)分析這一場(chǎng)景,地面技術(shù)人員需要實(shí)時(shí)了解在軌衛(wèi)星服務(wù)狀態(tài),以便對(duì)衛(wèi)星運(yùn)行時(shí)的各類問(wèn)題做出快速反應(yīng)。同時(shí),在數(shù)據(jù)處理方面,衛(wèi)星快變遙測(cè)數(shù)據(jù)采集間隔短,龐大的數(shù)據(jù)采集量要求研究人員盡可能提高數(shù)據(jù)分析處理效率,因此需要選擇能夠快速生成預(yù)測(cè)結(jié)果的模型。

      基于以上要求,本文選取運(yùn)行時(shí)間作為評(píng)價(jià)指標(biāo),通過(guò)計(jì)算模型在數(shù)據(jù)集上的運(yùn)行時(shí)間,對(duì)模型效率進(jìn)行表征,運(yùn)行時(shí)間越短,表示模型在數(shù)據(jù)集上的效率越高。

      在代碼實(shí)現(xiàn)上,選用Python中time函數(shù),在模型開(kāi)始擬合前運(yùn)行time函數(shù),并將其記錄在start變量中,當(dāng)模型完成預(yù)測(cè)時(shí)再次運(yùn)行time函數(shù),并將其記錄在end變量中,二者做差便可得到運(yùn)行時(shí)間。

      3.1.2R2

      R2,亦被稱為決定系數(shù)、可決系數(shù),表示目標(biāo)變量在回歸中被其他變量(解釋變量)擬合時(shí)產(chǎn)生的偏差。如果R2小于零,表示模型的預(yù)測(cè)效果非常差,如果R2大于零,則R2值越大,模型的預(yù)測(cè)效果越好[19-20]。

      計(jì)算R2需要樣本的殘差平方和RSS(residual sum of squares)以及總平方和TSS(total sum of squares),其公式如式(9)和(10):

      (9)

      (10)

      (11)

      在sklearn中,預(yù)測(cè)模型的R2值可以通過(guò)模型的score函數(shù)得到,例如,針對(duì)隨機(jī)森林模型可以使用RandomForestRegressor.score(testx1, testy1)。其中,testx1為測(cè)試集輸入值,testy1為測(cè)試集真實(shí)值。

      3.1.3 平均絕對(duì)誤差

      平均絕對(duì)誤差(mean absolute error, MAE)源于平均誤差的度量,是真實(shí)值與預(yù)測(cè)值之差絕對(duì)值的和,可以表示不考慮方向的預(yù)測(cè)值平均誤差程度,通常用于評(píng)估回歸模型。

      平均誤差的另一種形式是均方根誤差(root mean squard error, RMSE),但在大多數(shù)情況下,MAE在測(cè)量平均模型精度方面優(yōu)于RMSE[21-22],因此選擇MAE作為一種評(píng)價(jià)指標(biāo),其公式如(12)所示:

      (12)

      在sklearn中,預(yù)測(cè)模型的MAE可以通過(guò)metrics包mean_absolute_error函數(shù)得到。

      3.1.4 誤差率

      為更加直觀展示各預(yù)測(cè)值與其對(duì)應(yīng)的真實(shí)值的偏差,除了3.1.3節(jié)所述平均絕對(duì)誤差外,本文還引入誤差率這一評(píng)估指標(biāo)。通過(guò)計(jì)算預(yù)測(cè)值、真實(shí)值之差對(duì)真實(shí)值的比例,可以得到每個(gè)預(yù)測(cè)值的偏差程度,誤差率公式如(13):

      (13)

      3.2 模型參數(shù)選擇

      機(jī)器學(xué)習(xí)算法參數(shù)是在開(kāi)始學(xué)習(xí)過(guò)程之前設(shè)置的參數(shù),其對(duì)模型效果有較大影響。機(jī)器學(xué)習(xí)算法參數(shù)定義了關(guān)于模型的更高層次的概念,如復(fù)雜性或?qū)W習(xí)能力。針對(duì)隨機(jī)森林算法,重要的參數(shù)包括n_estimators和max_depth,分別代表隨機(jī)森林中基學(xué)習(xí)器的數(shù)量和基學(xué)習(xí)器的最大深度[23]。

      為了建立效果較好的衛(wèi)星快變遙測(cè)數(shù)據(jù)隨機(jī)森林回歸模型,本文采用改進(jìn)的二次網(wǎng)格搜索方法對(duì)上述兩個(gè)參數(shù)進(jìn)行調(diào)優(yōu)。二次網(wǎng)格搜索方法設(shè)置兩次搜索循環(huán),第一次循環(huán)時(shí)設(shè)置較大的參數(shù)搜索范圍,并設(shè)置較大的循環(huán)步長(zhǎng),可以在擴(kuò)大搜索范圍的同時(shí)防止時(shí)間開(kāi)銷過(guò)大。第二次循環(huán)時(shí),通過(guò)第一次搜索得到的較優(yōu)參數(shù)縮小搜索范圍,并設(shè)置步長(zhǎng)為1,從而得到最優(yōu)參數(shù)組合。二次網(wǎng)格搜索方法相比普通的網(wǎng)格搜索方法,通過(guò)一次大范圍大步長(zhǎng)搜索和一次小范圍小步長(zhǎng)搜索,顯著降低了網(wǎng)格搜索的時(shí)間開(kāi)銷。

      具體到本文模型,應(yīng)用二次網(wǎng)格搜索,首先將n_estimators設(shè)置為范圍30~300、步長(zhǎng)10,max_depth設(shè)置為范圍5~100、步長(zhǎng)5,通過(guò)嵌套循環(huán)搜索每一種參數(shù)組合。分析結(jié)果,n_estimators為40和180、max_depth為5時(shí)均取得score=0.984、MAE=12.27,但n_estimators為180時(shí)運(yùn)行時(shí)間為7.87 s,遠(yuǎn)大于40時(shí)的1.9 s,因此將新范圍確定為n_estimators:30~50、max_depth:1~10,步長(zhǎng)均為1,并再次進(jìn)行嵌套循環(huán)。對(duì)第二次搜索結(jié)果進(jìn)行分析,得到n_estimators為39、max_depth為3時(shí)有最優(yōu)結(jié)果score=0.984、MAE=12.25、運(yùn)行時(shí)間1.09 s。因此最終確定基于隨機(jī)森林的快變遙測(cè)模型參數(shù)為n_estimators=39、max_depth=3。

      3.3 模型預(yù)測(cè)結(jié)果分析

      使用測(cè)試集數(shù)據(jù)分析模型效果,隨機(jī)選擇30對(duì)預(yù)測(cè)值和真實(shí)值畫(huà)出隨機(jī)森林模型的預(yù)測(cè)曲線,如圖4所示。

      圖4 隨機(jī)森林模型預(yù)測(cè)曲線

      同時(shí),分析模型的預(yù)測(cè)誤差率,計(jì)算得到測(cè)試集4 400個(gè)數(shù)據(jù)中共有3 912個(gè)數(shù)據(jù)誤差率小于2%,并且最大誤差率不超過(guò)±5%。誤差率分布如表1所示。

      結(jié)合score=0.984、MAE=12.25、運(yùn)行時(shí)間1.09 s共四個(gè)評(píng)價(jià)指標(biāo)可知,模型可以較好地預(yù)測(cè)某頻點(diǎn)功率測(cè)量值,且模型運(yùn)行效率高。

      表1 隨機(jī)森林模型預(yù)測(cè)誤差率及分布

      上述模型使用改進(jìn)二次網(wǎng)格搜索算法對(duì)模型進(jìn)行了參數(shù)調(diào)優(yōu),可以得到模型的最優(yōu)參數(shù),提高模型預(yù)測(cè)效果。若不進(jìn)行參數(shù)調(diào)優(yōu),使用默認(rèn)參數(shù)直接建模其誤差率如表2所示。

      表2 默認(rèn)參數(shù)隨機(jī)森林模型預(yù)測(cè)誤差率及分布

      此外,使用默認(rèn)參數(shù)的隨機(jī)森林模型score=0.97、MAE=12.33、運(yùn)行時(shí)間39.46 s。由此可知,雖然其在預(yù)測(cè)誤差方面與經(jīng)過(guò)參數(shù)調(diào)優(yōu)的隨機(jī)森林模型差距較小,但默認(rèn)參數(shù)隨機(jī)森林模型運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)大于參數(shù)調(diào)優(yōu)后的模型。通過(guò)改進(jìn)的二次網(wǎng)格搜索得到的最優(yōu)參數(shù)對(duì)模型運(yùn)行效率有顯著提升,這對(duì)于提高衛(wèi)星快變遙測(cè)數(shù)據(jù)建模實(shí)時(shí)性具有一定意義。

      除了隨機(jī)森林算法代表的裝袋算法,本文還選擇了機(jī)器學(xué)習(xí)中線性算法、非線性算法以及神經(jīng)網(wǎng)絡(luò)算法作為對(duì)比,具體方法為邏輯回歸、K近鄰、多層感知機(jī)。三種算法的誤差率如表3~5所示。

      表3 邏輯回歸模型預(yù)測(cè)誤差率及分布

      表4 K近鄰模型預(yù)測(cè)誤差率及分布

      表5 多層感知機(jī)模型預(yù)測(cè)誤差率及分布

      四種算法的score、MAE、運(yùn)行時(shí)間對(duì)比如表6所示。

      表6 四種算法的評(píng)價(jià)指標(biāo)對(duì)比

      對(duì)比發(fā)現(xiàn),隨機(jī)森林算法在±2%以內(nèi)誤差率樣本數(shù)量、score和MAE三個(gè)指標(biāo)上明顯好于邏輯回歸和K近鄰算法。同時(shí),雖然多層感知機(jī)在誤差率、score和MAE方面較為接近隨機(jī)森林算法,但多層感知機(jī)的訓(xùn)練時(shí)間長(zhǎng)、效率不高,類似未經(jīng)參數(shù)調(diào)優(yōu)的隨機(jī)森林模型,多層感知機(jī)在遙測(cè)數(shù)據(jù)建模方面實(shí)時(shí)性較差,具有一定劣勢(shì)。因此隨機(jī)森林算法在衛(wèi)星快變遙測(cè)數(shù)據(jù)建模方面優(yōu)于其他幾種方法。

      4 結(jié)束語(yǔ)

      實(shí)現(xiàn)衛(wèi)星快變遙測(cè)數(shù)據(jù)建模有助于了解衛(wèi)星服務(wù)狀態(tài),推動(dòng)人工智能在衛(wèi)星運(yùn)維中的應(yīng)用。本文使用隨機(jī)森林算法建立衛(wèi)星快變遙測(cè)數(shù)據(jù)模型,對(duì)某頻點(diǎn)功率測(cè)量值進(jìn)行預(yù)測(cè),結(jié)果顯示模型預(yù)測(cè)效果較好、運(yùn)行效率高。對(duì)比邏輯回歸、K近鄰和多層感知機(jī)算法,隨機(jī)森林算法在評(píng)價(jià)指標(biāo)上具有明顯優(yōu)勢(shì)。然而,在實(shí)驗(yàn)過(guò)程中多層感知機(jī)算法也表現(xiàn)出了極大的潛力。作為神經(jīng)網(wǎng)絡(luò)的一種基礎(chǔ)算法,多層感知機(jī)已有較好的效果,在未來(lái)的研究中應(yīng)該重點(diǎn)關(guān)注神經(jīng)網(wǎng)絡(luò)算法在快變遙測(cè)數(shù)據(jù)建模上的應(yīng)用,以期獲得更好的預(yù)測(cè)效果。

      猜你喜歡
      誤差率遙測(cè)衛(wèi)星
      miniSAR遙感衛(wèi)星
      生化檢驗(yàn)全程中質(zhì)量控制管理方式及應(yīng)用意義
      健康大視野(2020年1期)2020-03-02 11:33:53
      降低評(píng)吸人員單料煙感官評(píng)分誤差率探討
      靜止衛(wèi)星派
      科學(xué)家(2019年3期)2019-08-18 09:47:43
      自適應(yīng)模糊PID控制的遙測(cè)方艙溫度調(diào)節(jié)方法
      電子制作(2019年11期)2019-07-04 00:34:40
      某小型無(wú)人機(jī)遙測(cè)軟件設(shè)計(jì)
      無(wú)線傳感器網(wǎng)絡(luò)定位算法在環(huán)境監(jiān)測(cè)中的應(yīng)用研究
      Puma" suede shoes with a focus on the Product variables
      電工儀表測(cè)量中容易忽略的幾個(gè)問(wèn)題
      淺談如何提高遙測(cè)狀態(tài)估計(jì)合格率
      弋阳县| 和林格尔县| 黔东| 罗定市| 沂水县| 华安县| 敖汉旗| 娱乐| 南乐县| 临西县| 临城县| 彭州市| 天台县| 手游| 阿合奇县| 长顺县| 泰安市| 楚雄市| 惠州市| 江北区| 乡城县| 廉江市| 永德县| 五指山市| 安龙县| 平湖市| 上林县| 南京市| 武川县| 高雄市| 恭城| 和林格尔县| 永修县| 武宁县| 延边| 阳东县| 蒙阴县| 通道| 清新县| 甘南县| 即墨市|