• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      采用數(shù)據(jù)降維的固態(tài)硬盤故障檢測方法

      2022-11-29 02:43:24王宇菲董小社王龍翔陳維多陳衡
      西安交通大學(xué)學(xué)報 2022年11期
      關(guān)鍵詞:降維固態(tài)編碼器

      王宇菲,董小社,王龍翔,陳維多,陳衡

      (西安交通大學(xué)電子與信息學(xué)部,710049,西安)

      近年來,固態(tài)硬盤在諸如阿里巴巴、谷歌、微軟等大型公司里的普及程度越來越高[1],但是固態(tài)硬盤往往只有有限的使用壽命,隨著磨損老化最終失效是在所難免的[2-6]。故障檢測技術(shù)往往能夠提前發(fā)現(xiàn)問題,保證大規(guī)模存儲系統(tǒng)的可靠性和可用性,降低數(shù)據(jù)丟失的風(fēng)險。不少已有工作針對機械硬盤的故障檢測技術(shù)進行了研究[4,7-10]。文獻(xiàn)[4]開發(fā)了一種基于成本敏感排序的機器學(xué)習(xí)模型,根據(jù)硬盤在將來的錯誤傾向?qū)τ脖P故障進行排序分類。Zhang等根據(jù)硬盤局部扇區(qū)的錯誤構(gòu)建了故障檢測模型[8]。Xiao等基于在線隨機森林提出了硬盤故障預(yù)測模型[9]。Wang等基于長短時記憶網(wǎng)絡(luò)改進了生成對抗網(wǎng)絡(luò)的結(jié)構(gòu),通過生成虛擬硬盤故障數(shù)據(jù)以擴充樣本集規(guī)模,提高了小樣本情況下硬盤故障檢測準(zhǔn)確率[10]。

      然而,由于固態(tài)硬盤復(fù)雜的特性,只有少數(shù)工作基于非公開的數(shù)據(jù)研究了固態(tài)硬盤的故障檢測。文獻(xiàn)[3]基于隨機森林方法研究了不同自我監(jiān)測分析與報告技術(shù)(SMART)特征對固態(tài)硬盤故障檢測的重要程度。谷歌針對其內(nèi)部固態(tài)硬盤分析了數(shù)據(jù)特點并構(gòu)建了故障檢測模型[11-12]。Sarkar等基于設(shè)備固件功能提供的特征研究了固態(tài)硬盤的故障檢測技術(shù)[13]。

      新型固態(tài)硬盤通常包含大量的高維SMART數(shù)據(jù),這會給眾多人工智能算法的效果帶來負(fù)面影響[14]。降維能夠減少原始數(shù)據(jù)中噪聲特征的影響,并突出與數(shù)據(jù)特點更加相關(guān)的特征,提升算法效果[15]。國內(nèi)外關(guān)于傳統(tǒng)降維方法的研究主要有主成分分析(PCA)[16]、線性判別分析[17]、奇異值分解(SVD)[18]、遺傳算法[19]和因子分析(FA)[20]等。文獻(xiàn)[21]利用堆疊自動編碼器(AE)對旋轉(zhuǎn)電機的振動譜信號進行降維,提高了旋轉(zhuǎn)電機故障檢測準(zhǔn)確率。文獻(xiàn)[22]基于堆疊自動編碼器對農(nóng)作物監(jiān)控數(shù)據(jù)降維,提升了分類精度。文獻(xiàn)[23]結(jié)合了自動編碼器和基于集成思想的分類器提出了一種新的數(shù)據(jù)降維方法。文獻(xiàn)[24]利用自動編碼器的降維特性解決了高維地震反演問題。不過這些降維方法多用于處理線性數(shù)據(jù),降維后的低維數(shù)據(jù)通常為原始高維數(shù)據(jù)的線性組合,在處理高維非線性數(shù)據(jù)時存在不小的局限性。并且已有工作普遍基于固態(tài)硬盤的原始高維SMART數(shù)據(jù)直接進行分析并結(jié)合人工智能算法構(gòu)建故障檢測模型,在模型構(gòu)建的數(shù)據(jù)預(yù)處理階段有不小的局限性,存在可優(yōu)化的空間。

      為解決上述問題,本文結(jié)合固態(tài)硬盤SMART數(shù)據(jù)的時序特點,基于門控循環(huán)單元(GRU)對自動編碼器的結(jié)構(gòu)做了改進,提出了一種采用GRU稀疏自動編碼器(GRUAE)降維的固態(tài)硬盤故障檢測方法(GAL)。AE能夠在無監(jiān)督方式下學(xué)習(xí)數(shù)據(jù)編碼,可以非線性地提取數(shù)據(jù)中最重要的特征,對于大量高維非線性數(shù)據(jù)降維效果較好[25]。GAL首先利用固態(tài)硬盤數(shù)據(jù)訓(xùn)練GRUAE模型,在GRUAE模型訓(xùn)練完成后利用其中的編碼器作為降維的工具,對固態(tài)硬盤的原始高維SMART數(shù)據(jù)進行降維,減少固態(tài)硬盤原始SMART數(shù)據(jù)中噪聲特征的影響并突出與數(shù)據(jù)特點更加相關(guān)的特征,隨后基于降維過的低維SMART數(shù)據(jù)利用長短時記憶網(wǎng)絡(luò)(LSTM)進行故障檢測。實驗結(jié)果表明,相比于沒有采用任何降維手段,GAL使兩種閃存類型的固態(tài)硬盤故障檢測準(zhǔn)確率、召回率和F0.5分別提高了4%、5%、4%和4%、8%、5%,分別達(dá)到97%、95%、97%和97%、96%、97%。GAL的故障檢測準(zhǔn)確率、召回率和F0.5分別超出對比方法53%、25%、43%。

      1 背景知識

      1.1 門控循環(huán)單元

      GRU通過調(diào)節(jié)單元內(nèi)信息流的門控結(jié)構(gòu)可以捕獲不同時間尺度的依賴關(guān)系,且不需要單獨的記憶單元[26]。

      (1)

      更新門決定了一個單元在t時刻更新多少內(nèi)容,計算公式如下

      (2)

      (3)

      式中:⊙是基于元素的乘法;rt是一組重置門。重置門計算公式如下

      (4)

      1.2 自動編碼器

      AE是一種學(xué)習(xí)模型,旨在通過無監(jiān)督學(xué)習(xí)從數(shù)據(jù)中提取表示特征。AE的結(jié)構(gòu)包括編碼器和解碼器兩部分,如圖1所示。編碼器試圖從輸入數(shù)據(jù)中提取潛在代碼,將輸入數(shù)據(jù)映射到低維特征空間;解碼器試圖從潛在代碼中重構(gòu)出盡可能接近原始輸入數(shù)據(jù)的數(shù)據(jù)片段。

      編碼器和解碼器的計算公式如下

      h=σ1(WEX+b)

      (5)

      Y=σ2(WDh+d)

      (6)

      式中X=[x1,…,xn]表示輸入數(shù)據(jù);n為該輸入數(shù)據(jù)的維度;σ1和σ2為激活函數(shù);h為隱含層特征向量;WE和WD分別為編碼器與解碼器的權(quán)重參數(shù)矩陣,其序列長度與網(wǎng)絡(luò)層數(shù)相關(guān)。Y為重構(gòu)后的向量。AE的目標(biāo)是使重構(gòu)誤差最小化,計算式如下

      (7)

      2 GAL方法

      在真實環(huán)境中,固態(tài)硬盤的故障是隨著使用時間的推移而逐漸出現(xiàn)的。因此,固態(tài)硬盤可靠性特性具有較強的時間相關(guān)性。相較于傳統(tǒng)線性網(wǎng)絡(luò),GRU更善于捕捉樣本的時序特點,提取與時間相關(guān)的特征。采用GRU作為AE模型的編碼器來擬合固態(tài)硬盤樣本的概率分布函數(shù),使編碼器可以更好地學(xué)習(xí)到固態(tài)硬盤SMART數(shù)據(jù)的時序特性,提取其中的潛在代碼,將原始輸入數(shù)據(jù)映射到低維特征空間。同時解碼器也采用GRU以便更好地捕捉數(shù)據(jù)的時序特性,將數(shù)據(jù)從低維空間重構(gòu)出原始狀態(tài)。對于整個AE網(wǎng)絡(luò),其輸入樣本維度與輸出結(jié)果維度相同,訓(xùn)練網(wǎng)絡(luò)時的標(biāo)簽就是輸入樣本自身,即整個網(wǎng)絡(luò)輸入等于輸出。當(dāng)訓(xùn)練結(jié)束后,得到的最終結(jié)果就是編碼器與解碼器各自的權(quán)重參數(shù)矩陣序列,此時再將原始樣本依次與編碼器的權(quán)重參數(shù)矩陣序列相乘可得到該數(shù)據(jù)的低維表示,從而實現(xiàn)高維數(shù)據(jù)的壓縮降維,然后該數(shù)據(jù)的低維表示即能作為其他處理的輸入。GAL方法如圖2所示,主要包含GRUAE的訓(xùn)練、降維和故障檢測3個部分,分為3個主要步驟。

      (1)GRUAE的訓(xùn)練。對于輸入的原始數(shù)據(jù),訓(xùn)練用于降維的GRUAE模型,通過GRU-編碼器對原始輸入數(shù)據(jù)進行編碼,在隱含層將輸入映射到低維特征空間,如此在保留了原始輸入數(shù)據(jù)特點的基礎(chǔ)上實現(xiàn)了數(shù)據(jù)維度的削減;為確保低維特征空間里的數(shù)據(jù)編碼包含了原始輸入數(shù)據(jù)的特點以及各數(shù)據(jù)特征之間的聯(lián)系,隨后通過GRU-解碼器對隱含層輸出解碼,將數(shù)據(jù)從低維狀態(tài)重構(gòu)成原始高維狀態(tài)。在每一輪的訓(xùn)練過程中,采用MSE均方誤差+KL散度作為度量方式,通過稀疏懲罰項抑制隱含層神經(jīng)元的輸出,計算該重構(gòu)輸出與原始輸入之間的誤差,使網(wǎng)絡(luò)具有稀疏的特性。這樣即使隱含層神經(jīng)元數(shù)很多,GRUAE模型仍然可以學(xué)習(xí)到輸入數(shù)據(jù)的重要特征。

      (2)降維。在GRUAE模型訓(xùn)練完成后,取出其中的GRU-編碼器作為降維的工具,對固態(tài)硬盤數(shù)據(jù)集中的原始SMART數(shù)據(jù)進行正則化、歸一化等預(yù)處理,隨后利用GRU-編碼器對數(shù)據(jù)進行降維,將固態(tài)硬盤SMART數(shù)據(jù)映射到一個低維特征空間,以減少原始SMART數(shù)據(jù)中噪聲特征的影響并突出與數(shù)據(jù)特點更加相關(guān)的特征,形成一個新的低維數(shù)據(jù)集。

      (3)故障檢測。由于固態(tài)硬盤SMART數(shù)據(jù)時序特性較強,而LSTM善于捕獲樣本的時序特性和提取時間相關(guān)特征。鑒于此,基于降維過的低維數(shù)據(jù)集,采用LSTM進行故障檢測,輸出診斷結(jié)果。

      2.1 GRUAE模型

      對于模型的結(jié)構(gòu),如果隱含層包含的節(jié)點多于輸入層,則會影響AE學(xué)習(xí)特征的能力。因此,在隱含層節(jié)點中加入了稀疏懲罰項作為約束,通過抑制隱含層神經(jīng)元的輸出,使網(wǎng)絡(luò)達(dá)到了稀疏的效果。這樣即使隱含層神經(jīng)元數(shù)多,AE仍然可以學(xué)習(xí)到輸入數(shù)據(jù)的重要特征。

      編碼器過程表達(dá)式如下

      h=fθ(x)=AE(Wx+b)

      (8)

      編碼器的參數(shù)集表示為:θ={W,b};W為權(quán)重矩陣;b為偏移向量;AE是編碼器的激活函數(shù)。相似地,重構(gòu)輸出表示為

      z=gθ′(h)=AD(W′h+b′)

      (9)

      解碼器的參數(shù)集表示為:θ′={W′,b′};W′為權(quán)重矩陣;b′為偏移向量;AD是解碼器的激活函數(shù)。因此,損失函數(shù)定義為

      (10)

      假設(shè)aj(x)表示隱含層中第j單元的激活量,則第j單元的平均激活量為

      (11)

      (12)

      (13)

      添加了稀疏懲罰項的GRUAE模型的優(yōu)化目標(biāo)函數(shù)定義如下

      (14)

      式中:λ為權(quán)重衰減系數(shù);nl為神經(jīng)網(wǎng)絡(luò)層數(shù);Sf為第f層的神經(jīng)元數(shù);Sf+1為第f+1層的神經(jīng)元數(shù);Wij(f)表示第p層神經(jīng)元i和第f+1層神經(jīng)元j之間連接關(guān)系所關(guān)聯(lián)的參數(shù)。在模型訓(xùn)練的反向傳播階段,需要計算當(dāng)前輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的誤差,以及除輸出層之外的每一層網(wǎng)絡(luò)里神經(jīng)元的誤差以更新網(wǎng)絡(luò)參數(shù)(W,b)。因此,包含了稀疏懲罰表達(dá)式的損失函數(shù)表示為

      Jsparse(W,b)=J(W,b)+βR

      (15)

      式中:β為稀疏懲罰系數(shù),本文實驗設(shè)置為3。

      對于輸入的原始高維固態(tài)硬盤SMART數(shù)據(jù),初始化網(wǎng)絡(luò)的參數(shù),在每一次迭代中,前向傳播過程首先計算出隱含層輸出結(jié)果,然后根據(jù)隱含層結(jié)果計算出輸出層結(jié)果;反向傳播過程通過Adam方法更新網(wǎng)絡(luò)參數(shù),以最小化添加了稀疏懲罰項的損失函數(shù),反復(fù)循環(huán)直至收斂。GRUAE模型訓(xùn)練過程的偽代碼如下。

      輸入 數(shù)據(jù)樣本;Epoch;Batch

      輸出 GRUAE模型

      1 初始化網(wǎng)絡(luò)權(quán)重W

      2 初始化網(wǎng)絡(luò)偏置b

      3 fore=1 to Epoch do

      4 for batch_number=1 to Batch do

      5 計算重構(gòu)約束矩陣

      6 計算局部約束矩陣

      7 fork=1 toKdo

      8 前向傳播過程

      9 計算目標(biāo)約束矩陣

      10 反向傳播過程,優(yōu)化目標(biāo)

      11 更新網(wǎng)絡(luò)參數(shù)

      12 if loss不再下降 then

      13 停止訓(xùn)練,返回結(jié)果

      14 end if

      2.2 降維

      2.3 LSTM模型

      LSTM通過定義和維護單元狀態(tài)來調(diào)節(jié)信息流以獲取長期的時間依賴性。存儲單元狀態(tài)Ct-1與中間輸出ht-1和隨后的輸入xt相互作用,以確定內(nèi)部狀態(tài)向量的哪些元素應(yīng)該根據(jù)前一時間步的輸出和當(dāng)前時間步的輸入進行更新、維護或消失。LSTM的計算公式如下

      it=σ(xtUi+ht-1Wi)

      (16)

      ft=σ(xtUf+ht-1Wf)

      (17)

      ot=σ(xtUo+ht-1Wo)

      (18)

      (19)

      (20)

      ht=tanh(Ct)*ot

      (21)

      3 數(shù)據(jù)集概覽與預(yù)處理

      3.1 數(shù)據(jù)集概覽

      本文實驗選用了來自阿里巴巴的固態(tài)硬盤數(shù)據(jù)集[27]。該固態(tài)硬盤數(shù)據(jù)集包含了固態(tài)硬盤的SMART數(shù)據(jù)和諸如時間戳、設(shè)備序列號等基本信息。需要注意的是不同廠家提供的SMART參數(shù)可能會不一樣,并且某些參數(shù)會因為設(shè)備類型不同而代表不同的含義。因此,提取了數(shù)據(jù)集中數(shù)據(jù)記錄較完整并且Flash類型為MLC和3D TLC的兩個型號的固態(tài)硬盤在2019年全年內(nèi)的數(shù)據(jù)進行實驗測試。兩種固態(tài)硬盤的型號分別為MA2和MC1,數(shù)據(jù)的基本信息見表1,其采樣間隔均為1天。

      表1 MA2、MC1數(shù)據(jù)集的基礎(chǔ)參數(shù)

      3.2 參數(shù)信息和預(yù)處理

      數(shù)據(jù)集中的SMART數(shù)據(jù)包含Raw值(Raw)和Normalized值(Norm)兩種賦值種類,其中的Norm是根據(jù)廠家非公開的自定義公式由Raw計算而來。因為有些Norm可能會損失一些數(shù)據(jù)精度,而其對應(yīng)的Raw對于固態(tài)硬盤的健康變化可能更為敏感,所以同時采用了Raw(R)和Norm(N)作為實驗參數(shù),MA2和MC1兩種型號的固態(tài)硬盤包含的SMART參數(shù)信息及其賦值類型見表2。

      不同SMART參數(shù)的單位不一樣,參數(shù)值所跨的范圍差別也很大,為了保證不同參數(shù)權(quán)重的公平性,采用參數(shù)尺度縮放對數(shù)據(jù)進行歸一化,公式如下

      (22)

      式中:x是參數(shù)的原始值;xmax和xmin分別為該參數(shù)的最大值和最小值。

      4 實驗結(jié)果

      實驗使用了準(zhǔn)確率、召回率和F0.53個指標(biāo)來衡量不同機器學(xué)習(xí)算法檢測故障的效果。從實踐經(jīng)驗來看,一旦一個固態(tài)硬盤被判定為故障,不管判定正確或錯誤,管理員將停止使用該固態(tài)硬盤以進行進一步檢查。鑒于將一個健康的固態(tài)硬盤判定為故障所造成的代價遠(yuǎn)遠(yuǎn)大于將一個可能故障的固態(tài)硬盤錯誤地判定為健康。因此,本文實驗采用F0.5代替F1,使準(zhǔn)確率的重要程度為召回率的兩倍。相關(guān)定義如下

      (23)

      表2 MA2、MC1數(shù)據(jù)集包含的SMART參數(shù)名稱及其賦值類型

      (24)

      (25)

      式中:TP為真陽性;FP為假陽性;FN為假陰性。

      實驗將數(shù)據(jù)集中的數(shù)據(jù)分別按照7∶3的比例隨機劃分為訓(xùn)練集與測試集進行測試。GRUAE模型的編碼器為具有1個隱含層的GRU,輸入層的單元數(shù)與對應(yīng)型號固態(tài)硬盤SMART數(shù)據(jù)的維度相等,隱含層有10個單元,時序長度為3,輸出層單元數(shù)為10,dropout設(shè)置為0.2;解碼器為具有1個隱含層的GRU,輸入層單元數(shù)為10,隱含層單元數(shù)為10,輸出層有線性映射并采用tanh作為激活函數(shù),輸出層的單元數(shù)與對應(yīng)型號固態(tài)硬盤SMART數(shù)據(jù)的維度相等,dropout設(shè)置為0.2,學(xué)習(xí)率為0.001。

      LSTM的結(jié)構(gòu)包含輸入層、兩層LSTM隱含層以及輸出層,輸出層有線性映射,采用Sigmoid作為激活函數(shù)。輸入層的單元數(shù)為降維后的固態(tài)硬盤SMART數(shù)據(jù)維度,隱含層單元數(shù)為100,輸出層單元數(shù)為1,dropout設(shè)置為0.2,學(xué)習(xí)率為0.001。

      GRUAE模型中編碼器的輸出層單元數(shù)為10,即為降維后的數(shù)據(jù)維度大小,在確定該數(shù)據(jù)維度大小時,利用PCA方法,設(shè)定主成分占投影特征的方差比例為99%,即包含的主成分對原變量能夠解釋99%,自動計算得出該數(shù)據(jù)維度大小。

      訓(xùn)練過程中的優(yōu)化器為Adam。圖4給出了訓(xùn)練過程中GRUAE模型在MA2和MC1兩個固態(tài)硬盤數(shù)據(jù)集上損失的變化過程??梢杂^察到,經(jīng)過一段時間的訓(xùn)練,模型的損失已經(jīng)下降至接近0并穩(wěn)定下來,表明模型的訓(xùn)練已經(jīng)收斂。

      實驗針對MA2和MC1兩個型號的固態(tài)硬盤數(shù)據(jù),分別訓(xùn)練了各自的GRUAE模型,隨后基于GRUAE模型對固態(tài)硬盤SMART數(shù)據(jù)進行降維操作。基于降維后的數(shù)據(jù),對比了多層感知器(MLP)、隨機森林(RF)、邏輯回歸(LR)、決策樹(DT)、支持向量機(SVM)、GRU和本文方法7種人工智能算法的故障檢測的效果,并且與文獻(xiàn)[23]的方法進行了比較。

      實驗所用平臺為一臺高性能服務(wù)器,具體配置如下:兩個Intel Xeon E5-2620 v4 @ 2.10 GHz處理器、94G DDR4內(nèi)存、4TB存儲空間。在軟件方面,服務(wù)器安裝了Ubuntu 18.04.5 LTS操作系統(tǒng),其內(nèi)核版本為Linux version 4.15.0-171-generic,編譯器版本為gcc version 9.3.0。方法實現(xiàn)基于PyTorch 1.7.1和scikit-learn 0.24.1。

      4.1 MA2數(shù)據(jù)集結(jié)果

      MA2的準(zhǔn)確率如圖5所示,在沒有采用任何降維手段的情況下,GRU和LSTM兩個在處理時序數(shù)據(jù)方面具有優(yōu)勢的深度學(xué)習(xí)算法要明顯好于其他5種傳統(tǒng)機器學(xué)習(xí)算法。在進行降維后,對于所有算法來說,準(zhǔn)確率基本都有或多或少的提升。其中MLP和DT的提升幅度較大,平均接近20%,其他方法的提升相對MLP和DT來說稍低一些,RF和SVM的提升幅度分別為6%和13%。對于LR,降維帶來的提升效果不太明顯,平均提升效果不到3%。雖然GRU與LSTM的基礎(chǔ)效果已經(jīng)比較出色了,但是降維依舊可以帶來3%~4%的提升。并且由于LSTM本身的網(wǎng)絡(luò)結(jié)構(gòu)比GRU復(fù)雜,因此效果也稍微好一點。本文所提方法GAL即GRUAE+LSTM的準(zhǔn)確率超過了97%,是所有方法里最好的一個。

      MA2的召回率如圖6所示,與準(zhǔn)確率類似,在沒有采用任何降維手段的情況下,GRU和LSTM兩個在處理時序數(shù)據(jù)方面具有優(yōu)勢的深度學(xué)習(xí)算法要明顯好于其他5種傳統(tǒng)機器學(xué)習(xí)算法。在進行降維后,有些算法的召回率有很大的提升,例如DT,平均提高幅度將近40%;也有一些算法的提升效果比較微小,例如LR和SVM,平均提升幅度大約為3%。MLP、RF、GRU以及LSTM的提升效果比較接近,平均增幅為5%左右。同樣地,盡管GRU和LSTM的基礎(chǔ)效果已經(jīng)比較出色了,但是本文的GRUAE降維依舊可以提升其召回率,并且本文所提方法GAL的表現(xiàn)依然是所有方法里最好的一個。

      MA2的F0.5如圖7所示,整體趨勢與準(zhǔn)確率相似,在進行降維后,多種算法的效果基本都有提升,整體來說,MLP、DT和SVM的相對提升幅度較多,平均在15%左右。GRU和LSTM的效果非常接近,均好于其他算法。由于本文所提方法GAL的準(zhǔn)確率和召回率在所有方法中均為最好,因此其F0.5也是最好的一個。

      4.2 MC1數(shù)據(jù)集結(jié)果

      MC1的準(zhǔn)確率如圖8所示,與MA2的準(zhǔn)確率類似,GRU和LSTM在處理時序數(shù)據(jù)方面具有優(yōu)勢的深度學(xué)習(xí)算法要明顯好于其他5種傳統(tǒng)機器學(xué)習(xí)算法。相比于沒有降維的時候,降維后基本所有算法都有提升,其中RF的提升效果尤為明顯,平均提高了約35%。MLP、DT和SVM的提升幅度也比較可觀。對于MLP、DT、SVM、GRU和LSTM來說,準(zhǔn)確率分別提升了6.5%、8.5%、12.5%、4%和4%。雖然GRU和LSTM作為基礎(chǔ)效果最好的兩個方法,準(zhǔn)確率分別為92%和94%,但是經(jīng)過GRUAE的降維其準(zhǔn)確率依舊能夠得到提升,其中LSTM的效果稍好于GRU。本文所提方法GAL作為整體效果最好的方法,準(zhǔn)確率幾乎達(dá)到了98%。

      MC1的召回率如圖9所示,在不采用任何降維手段的情況下,GRU和LSTM依然是基礎(chǔ)效果最好的方法,原始召回率分別達(dá)到了90%和91%;DT在5種傳統(tǒng)機器學(xué)習(xí)算法中效果最好,原始召回率為56%。在進行降維后,DT依然是提升幅度最大的算法,平均提高幅度將近20%;也有一些算法的提升效果比較微小,例如LR和SVM,幅度不到3%。經(jīng)過GRUAE降維后GRU和LSTM的召回率均提高了5%左右,達(dá)到了95%和96%,因此本文所提方法GAL的效果依舊最好。

      MC1的F0.5如圖10所示,整體趨勢與準(zhǔn)確率相似,在進行降維后,多種算法的效果基本都有提升,經(jīng)過GRUAE降維后,MLP、DT和SVM的相對提升幅度最多,平均在9%左右。由于本文所提方法GAL的準(zhǔn)確率和召回率在所有方法中均為最好,因而其F0.5也是最好的一個。

      4.3 與WEFR的對比結(jié)果

      為進一步評估本文所提方法GAL效果,對比了文獻(xiàn)[27]所提的WEFR方法。因為GAL方法基于GRU改進了傳統(tǒng)AE的結(jié)構(gòu),使GRUAE模型的編碼器可以更好地學(xué)習(xí)到固態(tài)硬盤SMART數(shù)據(jù)的時序特性,提取其中的潛在代碼,減少固態(tài)硬盤原始高維SMART數(shù)據(jù)中噪聲特征的影響并突出與數(shù)據(jù)特點更加相關(guān)的特征,將原始輸入數(shù)據(jù)映射到低維特征空間。因此,經(jīng)過GRUAE模型降維處理,多種人工智能算法的故障檢測效果得到了較好地提升。

      如圖11和圖12所示,在MA2數(shù)據(jù)集上WEFR的準(zhǔn)確率、召回率和F0.5分別為57%、32%和49%。除了RF和LR,其他方法基于GRUAE降維后都達(dá)到了更好的效果,效果最好的LSTM的準(zhǔn)確率、召回率和F0.5分別為97.8%、95%和97%,分別超過WEFR 40.8%、63%和48%。在MC1數(shù)據(jù)集上WEFR的準(zhǔn)確率、召回率和F0.5分別為49%、18%和36%。基于GRUAE降維后的所有算法的效果均好于WEFR,效果最好的LSTM的準(zhǔn)確率、召回率和F0.5分別為97%、96%和96.8%,分別超過WEFR48%、78%和60.8%。因為固態(tài)硬盤的SMART數(shù)據(jù)時序特點較強,而WEFR基于隨機森林方法,在處理時序數(shù)據(jù)時存在一定的局限性,所以整體準(zhǔn)確率和召回率有不少可提升的空間。

      實驗結(jié)果表明,GRUAE模型可以學(xué)習(xí)固態(tài)硬盤SMART數(shù)據(jù)的時序特點,對固態(tài)硬盤原始高維SMART數(shù)據(jù)進行降維,在保證降維后的數(shù)據(jù)包含了原始數(shù)據(jù)特點的情況下,提高了多種人工智能算法的故障檢測準(zhǔn)確率。在兩個型號的固態(tài)硬盤數(shù)據(jù)集上,相比于無降維情況下的固態(tài)硬盤故障檢測,GAL使檢測的準(zhǔn)確率、召回率和F0.5分別提高了4%、5%、4%和4%、8%、5%。相較于其他方法,GAL的檢測準(zhǔn)確率、召回率和F0.5超出了53%、25%、43%。并且,GAL在多種評價指標(biāo)方面均給出了最好的效果,充分說明了方法的有效性。

      5 結(jié) 論

      為解決固態(tài)硬盤SMART數(shù)據(jù)的高維性對傳統(tǒng)機器學(xué)習(xí)算法故障檢測效果帶來的負(fù)面影響,本文結(jié)合GRU與AE提出了一種基于GRU稀疏自動編碼器降維的固態(tài)硬盤故障檢測方法GAL。首先通過學(xué)習(xí)固態(tài)硬盤SMART數(shù)據(jù)的特點訓(xùn)練GRUAE模型,隨后利用GRUAE模型中的編碼器對高維固態(tài)硬盤SMART數(shù)據(jù)進行降維,提取其中的潛在代碼,減少固態(tài)硬盤原始SMART數(shù)據(jù)中噪聲特征的影響并突出與數(shù)據(jù)特點更加相關(guān)的特征,隨后基于降維后的低維SMART數(shù)據(jù)利用LSTM進行固態(tài)硬盤故障檢測。實驗結(jié)果表明,相比于沒有采用任何降維手段,GAL使兩種閃存類型的固態(tài)硬盤故障檢測準(zhǔn)確率、召回率和F0.5分別提高了4%、5%、4%和4%、8%、5%,分別達(dá)到97%、95%、97%和97%、96%、97%。GAL的故障檢測準(zhǔn)確率、召回率和F0.5分別超出WEFR對比方法53%、25%、43%。在未來的工作中將優(yōu)化LSTM模型架構(gòu),進一步改進所提方法,提高檢測性能。

      猜你喜歡
      降維固態(tài)編碼器
      Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
      固態(tài)Marx發(fā)生器均流技術(shù)研究
      Sn摻雜石榴石型Li7La3Zr2O12固態(tài)電解質(zhì)的制備
      透明陶瓷在固態(tài)照明中的應(yīng)用進展
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      基于FPGA的同步機軸角編碼器
      基于PRBS檢測的8B/IOB編碼器設(shè)計
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
      電子器件(2015年5期)2015-12-29 08:42:24
      寬禁帶固態(tài)功放在導(dǎo)航衛(wèi)星中的應(yīng)用
      多總線式光電編碼器的設(shè)計與應(yīng)用
      赞皇县| 阜新市| 奇台县| 德清县| 灌南县| 石棉县| 兴仁县| 噶尔县| 荆州市| 醴陵市| 九江县| 津南区| 商丘市| 昔阳县| 东海县| 茂名市| 黄龙县| 蓝山县| 五常市| 甘南县| 嘉黎县| 荃湾区| 河东区| 天津市| 容城县| 瑞安市| 莱州市| 黄平县| 宜川县| 陇西县| 横山县| 株洲县| 罗平县| 灌阳县| 平乐县| 丹寨县| 微山县| 金湖县| 策勒县| 呼和浩特市| 进贤县|