周益帆 吳詠
摘要:檢查點機制是高性能計算平臺的一項重要特性。它能夠在程序運行的某一時刻保存程序的運行狀態(tài),并在系統(tǒng)故障后恢復(fù)程序狀態(tài)繼續(xù)執(zhí)行。由于文件操作在應(yīng)用程序中的普遍性,支持文件回卷對于檢查點技術(shù)來說是十分必要的。文件數(shù)據(jù)備份可以使文件在回卷后恢復(fù)到正常狀態(tài),但是開銷太大。本文提出了一種基于行為特征的文件檢查點優(yōu)化策略(BBFC),能夠提供文件數(shù)據(jù)的正確恢復(fù),有效保證了程序回卷恢復(fù)到上一個檢查點時文件狀態(tài)與進程其它狀態(tài)保持一致。BBFC對文件行為特征進行分類,并根據(jù)這些行為特征采取相應(yīng)的保存恢復(fù)策略,從而在很大概率上減少了檢查點間隔需要保存的文件內(nèi)容,降低了文件檢查點的時間、空間開銷。它對用戶透明,簡單易用。
關(guān)鍵詞:計算機軟件;文件檢查點;行為特征;回卷恢復(fù);一致性;檢查點間隔
0引言
隨著信息技術(shù)的發(fā)展,人們對計算機的依賴性日益增強??茖W(xué)計算、數(shù)據(jù)分析、信息處理等各種問題的解決都離不開計算機,計算機系統(tǒng)的可靠性也越來越受到廣泛關(guān)注。檢查點機制作為系統(tǒng)容錯的一項重要手段,能夠在進程運行的某一時刻保存當(dāng)時進程的運行狀態(tài)到磁盤文件,并在需要的時候從保存的磁盤文件中恢復(fù)進程狀態(tài)繼續(xù)執(zhí)行下去。檢查點機制能夠避免在系統(tǒng)故障后程序從頭開始執(zhí)行帶來的計算損失,也給無法滿足長時間占用計算資源的應(yīng)用場景提供了便利的解決方案。
文件讀寫是應(yīng)用程序的一個普遍行為。很多程序在正常運行時離不開對數(shù)據(jù)的處理和對文件的訪問,因此在檢查點中實現(xiàn)文件的可恢復(fù)性是至關(guān)重要的。文件檢查點能夠提供文件數(shù)據(jù)內(nèi)容的正確恢復(fù),使得程序回卷到上一個檢查點時,文件內(nèi)容與進程的其它狀態(tài)保持一致。在檢查點中包含文件數(shù)據(jù)內(nèi)容能夠解決這一問題,但是由于實際應(yīng)用中大文件越來越多,保存文件內(nèi)容所帶來的開銷不容忽視。
本文提出了一種基于行為特征的文件檢查點優(yōu)化策略,可以在很大概率上減少檢查點間隔需要保存的文件內(nèi)容,從而大大減小了因文件檢查點給系統(tǒng)正常運行帶來的額外開銷,讓檢查點技術(shù)更為實用。endprint