摘 要:作為多個領(lǐng)域重要的生產(chǎn)工具,計算機(jī)若出現(xiàn)硬件故障,則會直接影響其工作狀態(tài),因此需要對這方面開展詳細(xì)研究。文章首先將大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測作為研究對象,枸建硬件故障檢測模型,再探究硬件故障分析原理與特征選擇過程,提出幾種常見的基于機(jī)器學(xué)習(xí)的故障檢測算法,最后對不同故障檢測算法的實驗結(jié)果進(jìn)行詳細(xì)分析,旨在提升大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測效率,助力相關(guān)領(lǐng)域的發(fā)展。
關(guān)鍵詞:機(jī)器學(xué)習(xí);并行計算機(jī)系統(tǒng):硬件故障:故障檢測
中圖法分類號:TP181文獻(xiàn)標(biāo)識碼:A
1 引言
大規(guī)模并行計算機(jī)系統(tǒng)( Massively ParallelComputer,MPC)是一種以數(shù)百、萬個處理單位構(gòu)成的并行處理系統(tǒng),可以有效提高計算機(jī)運行速度,處理大規(guī)模數(shù)據(jù)信息,以及縮短數(shù)據(jù)處理的響應(yīng)時間,對于提高各個領(lǐng)域生產(chǎn)效率與質(zhì)量有較大幫助。但是,大規(guī)模并行計算機(jī)長時間保持高速運轉(zhuǎn)狀態(tài),容易發(fā)生硬件故障,造成系統(tǒng)癱瘓,因此有必要對大規(guī)模并行計算機(jī)系統(tǒng)的硬件故障檢測進(jìn)行深入研究。
2 大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測模型
大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測是提升其主動容錯水平的重要方法,可以使其更穩(wěn)定地運行,提升其功能的擴(kuò)展性?,F(xiàn)階段采用的大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測方式基于機(jī)器學(xué)習(xí)以及學(xué)習(xí)采集后的運行狀態(tài)數(shù)據(jù),再對未來可能出現(xiàn)的硬件故障進(jìn)行檢測,可以理解為學(xué)習(xí)預(yù)處理結(jié)點狀態(tài)數(shù)據(jù),再利用學(xué)習(xí)成果反向檢測。但大規(guī)模并行計算機(jī)系統(tǒng)在運行過程中會不斷生成結(jié)點運行狀態(tài)數(shù)據(jù),可能會產(chǎn)生新的故障信息,導(dǎo)致采用機(jī)器學(xué)習(xí)的方式可能無法有效檢測新硬件故障,因此需要對這方面進(jìn)行深入研究。在整理大量相關(guān)文獻(xiàn)后,設(shè)計大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測模型,首先將原始狀態(tài)數(shù)據(jù)輸入功能模型中,再對數(shù)據(jù)進(jìn)行預(yù)處理,即有效去除數(shù)據(jù)中的噪聲以及沒有實際意義的無效值,然后使用狀態(tài)向量對不同時刻的狀態(tài)信息進(jìn)行可靠描述,通過特征選擇技術(shù)完成精簡化處理,獲得精簡化的數(shù)據(jù)集,并將其作為機(jī)器學(xué)習(xí)模塊并對其進(jìn)行輸入。此外,通過機(jī)器學(xué)習(xí)方法對數(shù)據(jù)集做故障挖掘處理,將分類器整理為分類器庫,并將其作為實時檢測的工具,對當(dāng)前大規(guī)模并行計算機(jī)系統(tǒng)是否發(fā)生硬件故障進(jìn)行有效檢測。若狀態(tài)數(shù)據(jù)未被選擇,則不會在故障檢測階段進(jìn)行二次采集[1] 。結(jié)合實際故障信息反饋,對分類器庫相關(guān)內(nèi)容進(jìn)行評估,不斷對相關(guān)數(shù)據(jù)進(jìn)行優(yōu)化,以提升機(jī)器學(xué)習(xí)效率,提高故障檢測質(zhì)量。需要注意的是,在對大規(guī)模并行計算機(jī)系統(tǒng)硬件故障進(jìn)行檢測時,各個結(jié)點獲得的原始狀態(tài)數(shù)據(jù)即為精簡處理后的數(shù)據(jù)集,通過檢測模塊調(diào)取分類器庫中的分類器,完成故障檢測任務(wù)。若檢測到大規(guī)模并行計算機(jī)系統(tǒng)硬件故障,則會立即啟動報警程序,大規(guī)模并行計算機(jī)系統(tǒng)會同步啟用主動容錯方式,以避免發(fā)生更大規(guī)模的硬件故障。
3 大規(guī)模并行計算機(jī)系統(tǒng)硬件故障分析原理
機(jī)器學(xué)習(xí)的重要內(nèi)容即為分類與檢測,其可以對大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測模型的后續(xù)數(shù)據(jù)進(jìn)行詳細(xì)描述。分類即根據(jù)數(shù)據(jù)類別設(shè)計相應(yīng)的分類模型,代表分類器設(shè)計過程,需要對已經(jīng)具有類別標(biāo)簽的樣本進(jìn)行機(jī)器學(xué)習(xí)獲得;檢測即利用分類學(xué)習(xí)生成的分類器對不清楚的類別數(shù)據(jù)進(jìn)行判定的過程。分類與檢測可以細(xì)分為2 個環(huán)節(jié),分別為學(xué)習(xí)、檢測。學(xué)習(xí)是利用已擁有類別標(biāo)簽的數(shù)據(jù)集建立與之匹配分類器的一個過程,其將攜帶類別標(biāo)簽的樣本集劃分為訓(xùn)練集、測試集2 個部分,利用合適的分類算法,通過訓(xùn)練集完成機(jī)器學(xué)習(xí),獲得相應(yīng)的分類器,再利用測試集對分類器的性能進(jìn)行合理評估[2] 。若分類器錯分樣本數(shù)量低于預(yù)設(shè)值,則證明分類器可以進(jìn)一步使用。檢測則是利用學(xué)習(xí)階段獲得的可用分類器對沒有設(shè)置標(biāo)簽的數(shù)據(jù)集做分類處理,進(jìn)而檢測數(shù)據(jù)集真實類別。常用的分類算法如下。
(1)決策樹。其利用樹形結(jié)構(gòu)完成對象的決策處理,非葉結(jié)點代表樣本屬性特征,葉結(jié)點代表樣本類別,分支代表特征取值,根結(jié)點到葉結(jié)點路徑代表分類應(yīng)用的決策。決策樹算法的核心是選擇根屬性,需要利用特征屬性完成決策樹分裂處理。
(2)支持向量機(jī)。在統(tǒng)計理論基礎(chǔ)上設(shè)計的分類器結(jié)構(gòu)是將線性無法有效區(qū)分的兩種類別數(shù)據(jù)從平面映射到多維空間,以構(gòu)建分類超平面,并完成數(shù)據(jù)的分類任務(wù)。支持向量機(jī)的操作重點就是找到2 種類別數(shù)據(jù)最易被區(qū)分的最優(yōu)超平面。
4 特征選擇過程
特征選擇是從原始特征屬性集合中選擇擁有最佳分類效果的屬性子集。雖然可以通過窮舉法完成特征子集的驗證工作,但若增加特征維數(shù),則窮舉法所需的時間復(fù)雜度會快速上升,從而無法開展實際應(yīng)用。作為一類貪心算法,雖然啟發(fā)式搜索法在復(fù)雜度方面低于窮舉法,但是仍然會產(chǎn)生局部僵局的特殊情況,造成特征集無法獲得最優(yōu)解。本文將特征選擇框架應(yīng)用到特征選擇中,基于特征選擇框架的特征選擇過程如下。
(1)子集產(chǎn)生。在已有的特征空間尋找最優(yōu)子集,可以在窮舉法基礎(chǔ)上增設(shè)分支界限,若某個分支無法搜索更優(yōu)解,則對該分支做剪枝處理,以提升搜索效率,或是對特征進(jìn)行增添、刪減,以獲取最優(yōu)特征集合。
( 2)子集評價。利用評價函數(shù)對子集產(chǎn)生的各種特征組合進(jìn)行評價,進(jìn)而分析哪些特征組合可以為現(xiàn)有數(shù)據(jù)分類提供更大收益[3] 。比如,采用一致性度量評價函數(shù),判斷樣本的特征屬性、所屬類別,從而快速識別特征子集。
(3)停止準(zhǔn)則。子集搜索行為可以得到有效管控,避免出現(xiàn)特征子集組合持續(xù)生成的情況,可以限定特征子集規(guī)模,以達(dá)到子集規(guī)模閾值,從而停止子集搜索行為。
(4)子集驗證。通過評價獲取特征組合性能,再將評價結(jié)果和通過初始特征集評估結(jié)果進(jìn)行比較,分析特征子集在性能方面是否超過原始數(shù)據(jù)集。一般會從評估時間、子集規(guī)模等方面評價特征子集的性能情況。需要注意的是,若評估準(zhǔn)則評價子集獲得更優(yōu)的結(jié)果,則將當(dāng)前獲得的子集取代之前獲得的最佳子集,通過這種方式完成最佳特征子集的尋找任務(wù)。
5 基于機(jī)器學(xué)習(xí)故障檢測算法對比
通過訓(xùn)練集對若干分類器模型進(jìn)行訓(xùn)練,再將其和若干擁有良好性能的分類器進(jìn)行結(jié)合,完成樣本分類檢測,這便是集成學(xué)習(xí)模式。相較于單個分類器,將分類器整合為一個整體,可以獲得更好的檢測效果?;谠摾砟钛苌鋈缦拢?種算法。
(1)流集成算法(Streaming Ensemble Algorithm,SEA)。該算法通過預(yù)設(shè)固定容量的分類器庫,將數(shù)據(jù)流劃分為若干擁有相同規(guī)格的數(shù)據(jù)塊。在學(xué)習(xí)分類器后,將按順序生成的分類器歸納到分類器庫內(nèi),在抵達(dá)分類器庫容量后停止。在生成新分類器后,會通過預(yù)先設(shè)定的分類器性能替換啟發(fā)模式,對分類器庫已有的分類器做可靠評價,然后剔除一部分使用性能偏差的分類器,以實現(xiàn)分類器庫數(shù)量穩(wěn)定。該算法對一些具有周期性概念漂移特點的數(shù)據(jù)流有良好效果。若數(shù)據(jù)流出現(xiàn)突然性的概念漂移,則會導(dǎo)致在較長一段時間內(nèi)無法有效更新概念,進(jìn)而輸出錯誤內(nèi)容。
( 2) 精度加權(quán)系綜算法( Accuracy WeightedEnsembles,AWE)。在SEA 算法基礎(chǔ)上設(shè)計AWE 算__法。該算法利用賦權(quán)方式取代基分類器的輸出模式,即所有基分類器都會獲得一個比重,讓分類誤差偏小的分類器獲得更大的投票比重。在抵達(dá)分類器庫容量時,會提升投票比重小的分類器的性能。
(3)自適應(yīng)分類器集成算法(Adaptive ClassifiersEnsemble,ACE)。若要在AWE 算法中有效解決突變概念漂移導(dǎo)致的分類效果偏差問題,則需要設(shè)置足夠小的數(shù)據(jù)塊。但是,小數(shù)據(jù)塊會讓基分類器性能降低,從而產(chǎn)生ACE。ACE 利用概念漂移監(jiān)測器有效應(yīng)對概念波動。在沒有監(jiān)測概念波動時, 會啟用與AWE 算法相同的方法檢測新樣本類別[4] 。若監(jiān)測概念波動,則會在即將抵達(dá)分類器庫容量時,將學(xué)習(xí)新分類器作為樣本類別檢測工具,采用追蹤分類器分類誤差的方式有效降低突發(fā)的概念漂移對系統(tǒng)造成的影響。
( 4)用于數(shù)據(jù)流挖掘的具有回憶和遺忘機(jī)制的集成模型與算法(Ensemble Model and Algorithm withRecalling and Forgetting Mechanisms for Data StreamMining,MAE)。該算法是將回憶遺忘機(jī)制應(yīng)用在基分類器學(xué)習(xí)領(lǐng)域中,在記憶分類器MS 庫中設(shè)置子集,即ES 回憶分類器庫,再將基分類器作為算法機(jī)器學(xué)習(xí)的知識,先將其存放在記憶庫中,再將與當(dāng)前處理的數(shù)據(jù)塊擁有最強(qiáng)相關(guān)度的N 個基分類器復(fù)制到回憶庫中,其中N 為回憶庫最大容量。在完成回憶操作后,再對記憶庫保存的基分類器進(jìn)行評價,完成各個基分類器的記憶權(quán)重更新任務(wù)。在基分類器被回憶時,其記憶強(qiáng)度會隨之增強(qiáng),反之則會減弱。若數(shù)據(jù)流生成新樣本分類,則通過回憶庫存儲的基分類器完成分類預(yù)測。通過MAE 算法可以在短時間內(nèi)有效地消除概念漂移現(xiàn)象。
(5)用于數(shù)據(jù)流挖掘的具有回憶和遺忘機(jī)制的改進(jìn)集成模型與算法( Revised Ensemble Model andAlgorithm with Recalling and Forgetting Mechanisms forData Stream Mining,ReMAE)。應(yīng)用MAE 算法可能出現(xiàn)當(dāng)前正在執(zhí)行機(jī)器學(xué)習(xí)命令的數(shù)據(jù)塊僅有保持正常狀態(tài)的數(shù)據(jù),但沒有表示硬件故障狀態(tài)的數(shù)據(jù),這導(dǎo)致該數(shù)據(jù)塊通過機(jī)器學(xué)習(xí)獲得的基分類器無法有效檢測后續(xù)發(fā)生的硬件故障。因此,本文在MAE 的基礎(chǔ)上提出改進(jìn)算法,即ReMAE 算法。該算法通過改進(jìn)數(shù)據(jù)集獲取模式,對基分類器進(jìn)行優(yōu)化訓(xùn)練;通過設(shè)置和數(shù)據(jù)塊規(guī)格相同的樣本庫存儲數(shù)據(jù)塊樣本信息。在一個類別滑動窗口保持充滿狀態(tài)后,若仍有新的同類型樣本信息,則會剔除最先進(jìn)入滑動窗口的樣本信息,進(jìn)而實現(xiàn)更新樣本庫的效果。最后,使用樣本庫數(shù)據(jù)并通過機(jī)器學(xué)習(xí)方式獲得新的基分類器,這可以將不均衡數(shù)據(jù)分類順利轉(zhuǎn)化成均衡數(shù)據(jù)分類,讓ReMAE 算法獲得更強(qiáng)的機(jī)器學(xué)習(xí)能力,從而有效提高分類器對硬件故障的檢測效果[5] 。
6 故障檢測算法實驗結(jié)果分析
大規(guī)模并行計算機(jī)系統(tǒng)在多數(shù)時間可以保持正常的工作狀態(tài),即采集的大多數(shù)結(jié)點狀態(tài)數(shù)據(jù)處于正常范圍內(nèi),僅在硬件即將發(fā)生故障時才會獲得故障數(shù)據(jù),這導(dǎo)致使用準(zhǔn)確率無法有效體現(xiàn)出故障數(shù)據(jù)不均衡的特點。本文從精確度、召回率、F 值對不同故障檢測算法的檢測效果進(jìn)行分析[6] 。采集大規(guī)模并行計算機(jī)系統(tǒng)近3 個月的工作狀態(tài)數(shù)據(jù),其中非故障數(shù)據(jù)占比89.22%、故障數(shù)據(jù)占比10.78%。在使用SEA,AWE,ACE,MAE 等算法外,加入本文提出的ReMAE算法。首先利用不同算法檢測數(shù)據(jù)塊獲取預(yù)測指標(biāo),再通過在線學(xué)習(xí)方式驗證數(shù)據(jù)塊是否發(fā)生故障。不同算法故障檢測性能如圖1 所示。
由圖1 可知,ReMAE 算法在檢測準(zhǔn)確率方面和AWE 算法、MAE 算法相仿,并高于SEA 算法、ACE 算法的檢測準(zhǔn)確率。同時,ReMAE 算法在召回率、F 值要遠(yuǎn)高于其他算法,如ReMAE 算法的召回率比其他算法的召回率高37%~50%。作為大規(guī)模并行計算機(jī)系統(tǒng)容錯性能的重要表現(xiàn),其召回率越高,代表算法檢測的故障就越多,在后續(xù)應(yīng)用中也可以開展相應(yīng)的故障處理作業(yè),可以有效降低大規(guī)模并行計算機(jī)系統(tǒng)被動容錯概率,進(jìn)而提升其運行可靠性。F 數(shù)值越高,代表算法擁有更好的檢測效果。ReMAE 算法在召回率、F 值方面表現(xiàn)良好,代表在開展大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測時,可以檢測到其他算法無法有效檢測的潛在故障,也不會將正常數(shù)據(jù)誤判斷成故障數(shù)據(jù),因此可認(rèn)為在實用性方面ReMAE 算法要超過其他算法[7] 。而在大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測的機(jī)器學(xué)習(xí)訓(xùn)練時間中,ReMAE 算法需要22.92×10-3 s,是用時最長的算法;在硬件故障檢測時間中,ReMAE 算法需要19.96×10-6 s,僅低于ACE 算法的29.35×10-6 s,高于其他算法,可以認(rèn)為在大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測中,ReMAE 算法在機(jī)器學(xué)習(xí)訓(xùn)練時間、檢測時間方面并不是最優(yōu)選擇。可是,現(xiàn)階段使用的數(shù)據(jù)采集體系是以1 條/10 s 的頻率收集的,意味著將數(shù)據(jù)整合成一個基本數(shù)據(jù)塊需花費5000 s 的時間。但是,ReMAE 算法利用數(shù)據(jù)塊基分類對應(yīng)方式所需時間僅為22.92×10-3 s,即在下一個數(shù)據(jù)塊還未形成時,已經(jīng)準(zhǔn)備好用于該數(shù)據(jù)塊檢測活動的基分類器,并完成機(jī)械學(xué)習(xí)的訓(xùn)練任務(wù),可以有更充裕的時間檢測下個數(shù)據(jù)塊。ReMAE 算法檢測數(shù)據(jù)塊用時19.96×10-6 s,即檢測現(xiàn)有數(shù)據(jù)塊時,若出現(xiàn)硬件故障影響因素,則結(jié)點也可以正常采集數(shù)據(jù)。而在下個數(shù)據(jù)塊完成準(zhǔn)備工作時,ReMAE 算法已經(jīng)獲得下個數(shù)據(jù)塊的檢測結(jié)果[8] 。若下個數(shù)據(jù)塊存在故障,則大規(guī)模并行計算機(jī)系統(tǒng)可以通過主動容錯模式對該結(jié)點做相應(yīng)的進(jìn)程遷移處理,以避免產(chǎn)生更大規(guī)模的次生型硬件安全風(fēng)險??梢哉J(rèn)為,ReMAE 算法在機(jī)器學(xué)習(xí)訓(xùn)練時間、硬件檢測時間方面需要花費比其他算法更長的時間,但是在故障機(jī)器學(xué)習(xí)、硬件檢測的實時性需求中,仍然可以完成大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測任務(wù)。
7 結(jié)束語
基于機(jī)器學(xué)習(xí)的大規(guī)模并行計算機(jī)系統(tǒng)硬件故障檢測涉及多個專業(yè)領(lǐng)域,在實際應(yīng)用中需要以大規(guī)模并行計算機(jī)系統(tǒng)硬件運行情況為準(zhǔn),設(shè)計一套結(jié)構(gòu)更完善、內(nèi)容更詳細(xì)的基于機(jī)器學(xué)習(xí)故障的檢測方案,以確保故障檢測資源得到最大化的應(yīng)用,以提升大規(guī)模并行計算機(jī)系統(tǒng)硬件運行的可靠性,從而推動相關(guān)行業(yè)的可持續(xù)發(fā)展。
參考文獻(xiàn):
[1] 王明芬,鄭驊.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)故障檢測[J].電信快報,2022(12):24?28.
[2] 陳天熙,費葉琦,王吉平,等.基于機(jī)器學(xué)習(xí)的齒輪故障診斷研究現(xiàn)狀和發(fā)展前景[J].林業(yè)機(jī)械與木工設(shè)備,2022,50(8):4?7.
[3] 彭輝.基于機(jī)器學(xué)習(xí)的列車故障診斷應(yīng)用研究[J].現(xiàn)代計算機(jī),2022,28(12):81?85.
[4] 趙亞琴,蔡曉騮.計算機(jī)硬件故障檢測與維修維護(hù)策略探討[J].常州工學(xué)院學(xué)報,2021,34(6):41?46.
[5] 王子鑒,秦瑜瑞,李景麗.采用機(jī)器學(xué)習(xí)的變壓器分層故障診斷[J].電力系統(tǒng)及其自動化學(xué)報,2022,34(7):20?25.
[6] 鄭重虎,張彬,董高云.TSP 軌旁安全平臺硬件功能故障檢測平臺的研究與實現(xiàn)[J].電子世界,2021(10):95?97.
[7] 申狄秋,盧雯興,王榮超,等.支持向量機(jī)下基于機(jī)器學(xué)習(xí)優(yōu)化的繼電保護(hù)故障診斷技術(shù)研究[J].電子設(shè)計工程,2021,29(8):53?57.
[8] 翟嘉琪,楊希祥,程玉強(qiáng),等.機(jī)器學(xué)習(xí)在故障檢測與診斷領(lǐng)域應(yīng)用綜述[J].計算機(jī)測量與控制,2021,29(3):1?9.
作者簡介:
劉照霞(1972—),大專,工程師,研究方向:辦公自動化應(yīng)用。