• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種分布式軟件系統(tǒng)可靠性加強(qiáng)模塊設(shè)計

      2019-09-19 11:34孫曉冬
      電腦知識與技術(shù) 2019年20期
      關(guān)鍵詞:軟件可靠性

      孫曉冬

      摘要:針對分布式的軟件系統(tǒng),設(shè)計了一種可靠性加強(qiáng)模塊。該模塊監(jiān)控分布式軟件各個處理單元的運行狀態(tài),并記錄關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù),當(dāng)處理單元失效時重啟該處理單元,載入關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)以恢復(fù)重啟前的狀態(tài),達(dá)到提高分布式軟件系統(tǒng)的可靠性的目的。

      關(guān)鍵詞:分布式軟件系統(tǒng);軟件可靠性;故障恢復(fù)

      中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2019)20-0067-03

      開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      1 背景

      分布式軟件系統(tǒng)(Distributed Software Systems)分布式系統(tǒng)就是由多個相互連接的處理資源組成的軟件系統(tǒng),合作執(zhí)行一個共同的任務(wù)[1-2]。依靠分布式軟件系統(tǒng),我們可以把數(shù)據(jù)放到最合理的地方去處理[3]。而分布式軟件系統(tǒng)常見的一個問題就是如果一部分處理單元因各種原因崩潰,將導(dǎo)致整體性能下降甚至失效。軟件在運行中一旦失效有可能導(dǎo)致嚴(yán)重的后果,有時甚至是致命的[4]。為提升分布式軟件系統(tǒng)的可靠性,需要有模塊專門監(jiān)控各處理單元的運行狀態(tài),記錄關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù),當(dāng)發(fā)生處理單元意外崩潰時,及時重啟處理單元,并將記錄的關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)輸入到重啟后的處理單元中[5],達(dá)到提高軟件可靠性的目的。

      2 軟件架構(gòu)

      可靠性加強(qiáng)模塊REM(Reliability Enhanced Module/Middleware)是增加分布式軟件系統(tǒng)可靠性的一個軟件模塊,以達(dá)到降低軟件失效率,保障分布式軟件系統(tǒng)整體正常運行,提高軟件開發(fā)、維護(hù)效率等目的。REM運行于操作系統(tǒng)OS與軟件配置項CSCI(Computer Software Configuration Item)之間,與通信中間件處于同一層級,參見圖1。本文中的通信中間件使用的是數(shù)據(jù)分發(fā)服務(wù)DDS(Data Distribution Service),也可替換成其他支持分布式軟件系統(tǒng)的通信中間件。REM軟件模塊的功能主要包括主守護(hù)模塊、狀態(tài)監(jiān)控/看門狗、關(guān)鍵內(nèi)存區(qū)域監(jiān)控、I/O數(shù)據(jù)監(jiān)控、日志記錄和統(tǒng)計等。

      REM的部署方案如圖 2所示,REM在部署上分為主守護(hù)模塊(以下稱為主REM)與分布式模塊(以下稱為分布式REM)。主REM單獨占據(jù)一個運算節(jié)點,在每個CSCI的運行實例中,均有一個分布式REM,運行于CSCI與操作系統(tǒng)之間。

      3 軟件模塊設(shè)計

      3.1 主守護(hù)模塊

      負(fù)責(zé)啟動守護(hù)進(jìn)程,讀取全局配置文件信息并廣播到其他分布式REM上,接收CSCI啟動、停止、重啟、編譯等命令并廣播到分布式REM,接收分布式REM發(fā)送的配置項運行狀態(tài)信息。主守護(hù)模塊只駐留在主節(jié)點上,包括為主守護(hù)進(jìn)程和配置項狀態(tài)控制兩個子模塊。

      1)主守護(hù)進(jìn)程

      在操作系統(tǒng)啟動后自動運行,加載全局配置文件,等待其他分布式REM的守護(hù)進(jìn)程啟動后向后者廣播配置信息,至此初始化完成,進(jìn)入命令輪詢狀態(tài),等待全局控制命令的輸入。全局控制命令由用戶通過命令發(fā)送的程序以網(wǎng)絡(luò)報文方式將其發(fā)送至主守護(hù)進(jìn)程。

      全局配置文件包括:

      2)配置項狀態(tài)控制子模塊

      負(fù)責(zé)和分布式REM進(jìn)行交互,廣播/分發(fā)全局控制命令,收集分布式REM的運行狀態(tài)報告等。

      3.2 狀態(tài)監(jiān)控/看門狗模塊

      負(fù)責(zé)監(jiān)控配置項程序的狀態(tài),及時捕獲異常并通知守護(hù)模塊恢復(fù)配置項程序至異常前的運行狀態(tài),接收并響應(yīng)全局控制命令等。該模塊屬于分布式REM。

      1)守護(hù)線程

      系統(tǒng)開機(jī)時啟動的守護(hù)線程,負(fù)責(zé)接收全局控制命令并產(chǎn)生相應(yīng)的動作,同時從配置項狀態(tài)監(jiān)視和看門狗子模塊接收其所管轄的配置項的運行狀態(tài),并上報給主守護(hù)模塊和日志記錄模塊,同時守護(hù)線程還需要根據(jù)配置信息決定對出現(xiàn)異常的配置項如何處置(重新啟動,重置或不動作等)。

      2)配置項狀態(tài)監(jiān)視

      配置項狀態(tài)監(jiān)視子模塊設(shè)計為由REM創(chuàng)建的一個進(jìn)程,該進(jìn)程負(fù)責(zé)創(chuàng)建一個子進(jìn)程并在子進(jìn)程中啟動各CSCI,并通過waitpid等待子進(jìn)程的運行結(jié)束或異常,捕獲子進(jìn)程的返回碼,將異常的狀態(tài)報告上報給守護(hù)線程和數(shù)據(jù)統(tǒng)計模塊。

      3)看門狗

      看門狗子模塊的設(shè)計原理為:啟動一個進(jìn)程和一個定時器,進(jìn)程初始化時睡眠(可采用獲取信號量的方式睡眠),定時器一旦到期即喚醒該進(jìn)程(釋放信號量),此時認(rèn)為看門狗餓死,即軟件異常;另有一進(jìn)程負(fù)責(zé)接收配置項發(fā)來的狀態(tài)報告,接收到報告后重置定時器,即執(zhí)行喂狗動作,定時器重新計數(shù)。

      3.3 關(guān)鍵內(nèi)存區(qū)域監(jiān)控模塊

      該模塊負(fù)責(zé)維護(hù)配置項程序的關(guān)鍵內(nèi)存區(qū)域,響應(yīng)配置項的關(guān)鍵內(nèi)存申請請求,并在重新啟動配置項程序后將保存的關(guān)鍵數(shù)據(jù)加載至其內(nèi)存地址空間等。需要注意的是,該模塊除了流程圖所示的業(yè)務(wù)邏輯外,還應(yīng)當(dāng)提供給配置項若干接口,包括:

      l 注冊關(guān)鍵內(nèi)存區(qū)域

      配置項通過此接口來注冊所有需要用到的空間,該接口需要配置項程序員嚴(yán)格考慮好數(shù)據(jù)的相關(guān)性,如果需要恢復(fù)一個完整的數(shù)據(jù)結(jié)構(gòu),需要該數(shù)據(jù)結(jié)構(gòu)實例化的結(jié)構(gòu)池和其相關(guān)的所有數(shù)據(jù)結(jié)構(gòu)。

      l 申請關(guān)鍵內(nèi)存區(qū)域

      本接口輸入?yún)?shù)為內(nèi)存ID號和內(nèi)存大小,則根據(jù)內(nèi)存大小參數(shù)開辟出共享內(nèi)存空間,將空間首地址返回給調(diào)用者,記錄該ID下已分配了內(nèi)存。

      l 釋放關(guān)鍵內(nèi)存區(qū)域

      釋放制定ID的內(nèi)存空間,記錄該ID下的內(nèi)存已被釋放。

      3.4 I/O數(shù)據(jù)監(jiān)控模塊

      按時間序記錄近一段時間內(nèi)系統(tǒng)定制的I/O數(shù)據(jù),如狀態(tài)修改命令、操作等,在配置項重啟后將這些命令的恢復(fù)給配置項。

      該模塊分為I/O數(shù)據(jù)注冊、I/O數(shù)據(jù)監(jiān)控和I/O數(shù)據(jù)恢復(fù)三個子模塊。

      1)I/O數(shù)據(jù)注冊

      配置項在啟動時向本模塊發(fā)送的注冊請求,注冊成功后,本模塊則會對已注冊的I/O數(shù)據(jù)進(jìn)行統(tǒng)計和記錄,而對未注冊的數(shù)據(jù)不進(jìn)行該處理。

      注冊的數(shù)據(jù)類型包括兩種:序列型和唯一型。序列型數(shù)據(jù)表示該數(shù)據(jù)的所有歷史均需要按照時間序保存下來,在執(zhí)行配置項的I/O數(shù)據(jù)恢復(fù)時按照時間序?qū)⑦@些數(shù)據(jù)序貫到配置項;唯一型數(shù)據(jù)則表示該數(shù)據(jù)只需要保存最新一次的記錄即可,在執(zhí)行配置項的I/O數(shù)據(jù)恢復(fù)時將這個最新記錄恢復(fù)給配置項。

      2)I/O數(shù)據(jù)監(jiān)控

      該子模塊位于配置項的DDS中間層,監(jiān)控I/O數(shù)據(jù)的流入流出,包括:

      l DDS數(shù)據(jù)接收

      從DDS接收到報文,如果該報文為已注冊報文,則錄入統(tǒng)計信息,將統(tǒng)計信息發(fā)送給統(tǒng)計模塊,按照報文的注冊類型(序列型、唯一型)保存下來,最后把該數(shù)據(jù)返回給配置項。

      l DDS數(shù)據(jù)發(fā)送

      配置項需要發(fā)送的網(wǎng)絡(luò)報文,先通過本子模塊處理,如果該報文為已注冊報文,則錄入統(tǒng)計信息,將統(tǒng)計信息發(fā)送給統(tǒng)計模塊,按照報文的注冊類型(序列型、唯一型)保存下來,最終通過DDS的數(shù)據(jù)發(fā)送接口將數(shù)據(jù)發(fā)送給目的地。

      需要注意的是,所有已注冊的I/O數(shù)據(jù)直接都需要保存時間序列的關(guān)系,在I/O數(shù)據(jù)恢復(fù)時,不同的I/O數(shù)據(jù)的恢復(fù)順序是按照時間序的。

      3)I/O數(shù)據(jù)恢復(fù)

      在接收到配置項的I/O數(shù)據(jù)恢復(fù)請求后,按照時間序?qū)⑺杏涗浀腎/O數(shù)據(jù)通過DDS報文方式發(fā)送至配置項重置命令。

      本模塊也需要向配置項提供接口,包括:

      l I/O數(shù)據(jù)注冊接口

      配置項在啟動時對需要關(guān)注的I/O數(shù)據(jù)進(jìn)行注冊;

      l I/O數(shù)據(jù)發(fā)送和接收

      配置項通過這些接口發(fā)送和接收網(wǎng)絡(luò)I/O數(shù)據(jù),I/O數(shù)據(jù)監(jiān)控子模塊根據(jù)注冊信息處理I/O數(shù)據(jù),并最終通過DDS的接口將數(shù)據(jù)接收或發(fā)送。

      l I/O數(shù)據(jù)恢復(fù)請求

      配置項在執(zhí)行路徑上需要顯式的調(diào)用一次I/O數(shù)據(jù)恢復(fù)請求接口來觸發(fā)恢復(fù)動作。配置項設(shè)計人員在設(shè)計時應(yīng)當(dāng)考慮調(diào)用此接口的時機(jī),即要保證在此處的I/O數(shù)據(jù)恢復(fù)是有效且安全的。

      3.5 日志記錄模塊

      該模塊負(fù)責(zé)記錄各配置項程序的運行情況,以及各配置項注冊的I/O數(shù)據(jù)或軟件內(nèi)部數(shù)據(jù)等。分為記錄信息注冊和數(shù)據(jù)記錄兩個子模塊。

      1)記錄信息注冊

      接收從主守護(hù)線程發(fā)送來的全局配置信息的記錄信息等級,本子模塊根據(jù)記錄信息等級決定數(shù)據(jù)記錄子模塊在接收到某數(shù)據(jù)時是否記錄。

      2)數(shù)據(jù)記錄

      接收各分布式REM守護(hù)線程的運行狀態(tài)報告,各配置項的I/O數(shù)據(jù)、軟件內(nèi)部數(shù)據(jù)等予以記錄。

      3.6 統(tǒng)計模塊

      該模塊用來統(tǒng)計出各配置項I/O、負(fù)載等情況,供操作或維護(hù)人員參考分析用。模塊接收分布式REM的狀態(tài)監(jiān)控模塊和I/O數(shù)據(jù)監(jiān)控模塊發(fā)來的統(tǒng)計信息并按照時間順序保存到本地文件中。

      通過全局配置文件指定統(tǒng)計周期,在每個周期內(nèi)統(tǒng)計:

      1)CPU使用率,內(nèi)存使用率;

      2)I/O吞吐率,包括網(wǎng)絡(luò)發(fā)送多少次,共多少字節(jié),接收多少次,共多少字節(jié);文件讀取多少次,共多少字節(jié),寫入多少次,共多少字節(jié);

      3)故障周期,故障次數(shù),故障間隔時間。

      4 結(jié)束語

      本文論述了一種針對分布式軟件系統(tǒng)設(shè)計的可靠性加強(qiáng)模塊,該模塊分為主守護(hù)模塊與分布式模塊兩個部分。主守護(hù)模塊單獨運行于一個運算節(jié)點上,分布式模塊運行于分布式軟件系統(tǒng)的各個軟件配置項之中??煽啃约訌?qiáng)模塊監(jiān)視各軟件配置項的運行狀態(tài),同時記錄各配置項的關(guān)鍵內(nèi)存數(shù)據(jù)和I/O數(shù)據(jù)。在配置項因故退出時自動重啟配置項并恢復(fù)成退出前的狀態(tài),為提高分布式軟件系統(tǒng)的可靠性提供了一種可行的方法。

      參考文獻(xiàn):

      [1] Gheith A Abandah, Edward S Davidson. Characterizing Distributed Shared Memory Performance:A Case Study of the Convex SPP1000[J]. IEEE Trans on Parallel and Distributed Systems, 1998, 9(2): 206-216.

      [2] 朱海濱, 蔡開裕, 樊愛華, 等. 分布式系統(tǒng)原理與設(shè)計[M].長沙: 國防科技大學(xué)出版社, 1997.

      [3] Fred Barell, Richard Blair, et al. VB.NET高級編程[M]. 北京: 清華大學(xué)出版社, 2002.

      [4] 李勇, 黃志球, 王勇, 等. 數(shù)據(jù)驅(qū)動的軟件缺陷預(yù)測研究綜述[J].電子學(xué)報, 2017, 45(4).

      [5] 戈應(yīng)安, 劉松強(qiáng), 王硯方. 采用分布式實時操作系統(tǒng)的容錯系統(tǒng)的設(shè)計與實現(xiàn)[J].核電子學(xué)與探測技術(shù), 1999, 19(5).

      [6] 徐光俠, 陳蜀宇, 常光輝, 等. 分布式實時系統(tǒng)的軟件故障注入[J].重慶大學(xué)學(xué)報, 2010, 33(2).

      【通聯(lián)編輯:謝媛媛】

      猜你喜歡
      軟件可靠性
      軟件可靠性耦合度量的測試用例約簡優(yōu)化
      嵌入式應(yīng)用軟件可靠性自動測試方法研究
      軟件可靠性工程綜合應(yīng)用建模技術(shù)研究
      軟件可靠性設(shè)計技術(shù)應(yīng)用研究
      數(shù)控系統(tǒng)軟件可靠性設(shè)計與故障分析技術(shù)
      基于GQM的裝備軟件可靠性參數(shù)選取方法
      簡談使用BoundsChecker進(jìn)行計算機(jī)聯(lián)鎖系統(tǒng)人機(jī)界面軟件可靠性測試
      基于多準(zhǔn)則決策的軟件可靠性模型選擇方法
      IEEE軟件可靠性系列標(biāo)準(zhǔn)分析*
      軟件可靠性數(shù)據(jù)預(yù)處理研究
      工布江达县| 广饶县| 宿州市| 佛冈县| 新闻| 文安县| 万全县| 顺平县| 公主岭市| 玉屏| 宾川县| 武安市| 小金县| 清丰县| 枣强县| 新泰市| 南投县| 洛隆县| 米林县| 咸宁市| 永春县| 博兴县| 类乌齐县| 垣曲县| 林周县| 雷州市| 铁岭市| 乌兰浩特市| 乐亭县| 乌拉特后旗| 鄂温| 汉中市| 兴安盟| 读书| 台山市| 瑞金市| 循化| 成武县| 平顶山市| 华池县| 庆云县|