本刊記者 付 強(qiáng)
彭銳:系統(tǒng)鍛造師
本刊記者 付 強(qiáng)
彭銳在死海
大數(shù)據(jù)運(yùn)行時(shí)代,需要的是敏銳的思維變革、精準(zhǔn)的數(shù)據(jù),更需要穩(wěn)定的軟硬件系統(tǒng)。而在層出不窮、絡(luò)繹不絕地向著新時(shí)代應(yīng)運(yùn)而生的系統(tǒng)背后,往往隱藏著的是難以發(fā)現(xiàn)的漏洞。以往的軟件,其可靠性模型大多數(shù)只考慮了軟件錯(cuò)誤的發(fā)現(xiàn)過程,并沒有考慮其改正過程,導(dǎo)致軟件錯(cuò)誤的改正要比發(fā)現(xiàn)滯后很多。殊不知,發(fā)現(xiàn)問題僅僅是個(gè)開始,如何解決問題才是需要直面的目標(biāo)。除此之外,各種硬件系統(tǒng)也可能受到各種內(nèi)部因素影響或者外部攻擊而失效, 從而需要研究各種復(fù)雜軟硬件系統(tǒng)的可靠性和保護(hù)策略。這也是北京科技大學(xué)經(jīng)濟(jì)管理學(xué)院管理科學(xué)與工程系副教授彭銳一直潛心研究的領(lǐng)域。
隨著信息時(shí)代的到來,計(jì)算機(jī)技術(shù)得到了前所未有的跨越式發(fā)展,人們對軟件質(zhì)量的要求也變得越來越高。試想一下,當(dāng)你使用筆記本電腦、手機(jī)等電子產(chǎn)品時(shí),一定希望它們運(yùn)行流暢,不要出現(xiàn)死機(jī)等故障。這種流暢的體驗(yàn)就是憑借系統(tǒng)的可靠性來支撐的。
作為衡量軟件質(zhì)量的重要特性,可靠性在軟件系統(tǒng)中發(fā)揮著不可估量的作用。近30年來,軟件系統(tǒng)定量評估和預(yù)測已成為眾多學(xué)者關(guān)注和研究的焦點(diǎn)。國內(nèi)外學(xué)者建立了很多軟件可靠性模型,用來刻畫軟件錯(cuò)誤在軟件測試過程中的變化過程,從而用于決定何時(shí)投放軟件等相關(guān)重要決策。“我在博士期間研究的方向主要包括軟件可靠性建模、系統(tǒng)的攻防博弈以及網(wǎng)絡(luò)結(jié)構(gòu)系統(tǒng)的可靠性建模等?!迸礓J介紹道。
在不斷地深入學(xué)習(xí)與研究中,彭銳發(fā)現(xiàn),當(dāng)時(shí)的現(xiàn)行模型往往很快就能夠發(fā)現(xiàn)系統(tǒng)中存在某方面的問題,但解決力度反而遲遲不能到位。怎么才能提高可靠性模型解決問題的敏銳度呢?還在讀博的彭銳感到心有余而力不足。但萬事都有“柳暗花明”的一刻,就在彭銳一頭霧水的時(shí)候,他看到博士導(dǎo)師謝旻教授在一篇論文中寫到關(guān)于建立軟件錯(cuò)誤的發(fā)現(xiàn)和改正過程,令他茅塞頓開。抓住這一靈感,彭銳又考慮了軟件測試過程中的資源分配的不均以及軟件測試中新的錯(cuò)誤的引入等問題,其研究論文受到國內(nèi)外廣泛關(guān)注,已經(jīng)發(fā)表在可靠性領(lǐng)域的頂尖期刊Reliability Engineering & System Safety上。
軟件和硬件是密不可分的, 而且硬件系統(tǒng)可能由于內(nèi)部的一些隱患或者外部的攻擊而失效。正是因?yàn)橛辛顺醪絿L試,在研究軟件可靠性建模的基礎(chǔ)上,彭銳也認(rèn)識到系統(tǒng)的攻防博弈等技術(shù)的重要性和巨大的社會(huì)需求, 從而將全身心都投入到了各種復(fù)雜軟硬件系統(tǒng)的可靠性研究之中,并取得了不俗的成績,也開辟了一條新的科研之途。
美國“911”事件之后,在全球范圍內(nèi)引起了巨大反響,也讓系統(tǒng)的攻防博弈方面的研究進(jìn)入了更多人的視線。眾所周知,對系統(tǒng)的刻意攻擊不同于自然災(zāi)害,因?yàn)楣粽邥?huì)專門針對,尋找系統(tǒng)的薄弱環(huán)節(jié)進(jìn)行攻擊,并且攻擊策略可以隨時(shí)隨著防守者的保護(hù)策略而改變。彭銳考慮到攻防戰(zhàn)爭中有時(shí)會(huì)使用到假目標(biāo)來欺騙攻擊者,故在研究時(shí)采取了與以往不同的策略,著重考慮到假目標(biāo)有一定被識破的概率這一點(diǎn),從而進(jìn)行深入而系統(tǒng)的研究,具有很大的實(shí)際意義,并先后在Reliability Engineering & System Safety等領(lǐng)域內(nèi)頂尖期刊上發(fā)表了數(shù)篇論文。
科學(xué)的樂趣,很多時(shí)候就在于敢于接受挑戰(zhàn)。在系統(tǒng)可靠性方面,彭銳不懈攀登,他不滿足于目前的一些方法和技術(shù),一直在提煉關(guān)鍵的科學(xué)問題,也一直在探索更好的解決方法。就在今年,年僅28歲的彭銳憑借“含有溫儲備元件的復(fù)雜多態(tài)多階段系統(tǒng)的可靠性研究”項(xiàng)目獲得了2017年度國家自然科學(xué)基金面上項(xiàng)目的資助。彭銳每每到需要學(xué)習(xí)新的理論和方法時(shí),總能收拾行囊,再度啟程。
彭銳向記者介紹到,為了增加系統(tǒng)的可靠性,經(jīng)常會(huì)使用到儲備件。儲備件可以分為冷儲備,溫儲備和熱儲備三種。相對于熱備份元件,溫備份元件消耗的能源更少,因此也更加綠色環(huán)保。但是,由于溫備份元件在溫備份狀態(tài)和在工作狀態(tài)下的故障率不同,這樣一來就給溫備份系統(tǒng)的可靠性建模帶來很大的挑戰(zhàn),很難用單一的可靠性評估方法對系統(tǒng)可靠性進(jìn)行評估。彭銳就想到要結(jié)合多種可靠性評估方法建立起含有溫儲備元件的各種復(fù)雜多態(tài)多階段系統(tǒng)的可靠性模型。
為此,彭銳和團(tuán)隊(duì)成員不眠不休,大量閱讀文獻(xiàn),分析溫儲備元件的特性,研究各種復(fù)雜結(jié)構(gòu)系統(tǒng)可靠性的建模方法、多態(tài)系統(tǒng)的研究方法以及多階段系統(tǒng)的研究方法,并且將這些方法進(jìn)行有機(jī)地結(jié)合?!耙龅竭@一步,我們需要發(fā)揮很大的創(chuàng)造力,并且還要與國內(nèi)外的專家學(xué)者積極討論?!迸礓J說道。
對于含有溫儲備元件的各種結(jié)構(gòu)的二態(tài)單階段系統(tǒng)的可靠性模型的建立,彭銳認(rèn)為要解決這個(gè)問題,需要結(jié)合到含有溫儲備的并聯(lián)系統(tǒng)的可靠性研究方法和不含有溫儲備元件的各種結(jié)構(gòu)的系統(tǒng)的可靠性研究方法中去。“但要說到具體方法,則需要依系統(tǒng)的結(jié)構(gòu)及溫儲備元件的配置情況而定。例如,對于一個(gè)連續(xù)連接系統(tǒng),如果在系統(tǒng)每個(gè)節(jié)點(diǎn)上配置了一些溫儲備元件,我們可以先利用改進(jìn)的有序二叉決策圖方法建立起每個(gè)節(jié)點(diǎn)的可靠性模型,并算得各個(gè)節(jié)點(diǎn)的可靠性,然后再利用通用生成函數(shù)得到整個(gè)系統(tǒng)的可靠性?!迸礓J解釋道。
而對于含有溫儲備元件的并聯(lián)的多態(tài)單階段系統(tǒng)的可靠性模型來說,則可以先用多值決策圖來表示每一次系統(tǒng)的退化,通過將系統(tǒng)每一次退化的多值決策圖相結(jié)合可以得到表示系統(tǒng)所有失效情況的多值決策圖。彭銳介紹,值得注意的是,在這個(gè)過程中,需要考慮用一些技巧來減少算法的時(shí)間復(fù)雜度,比如在建立多值決策圖的過程中,對于一些明顯會(huì)導(dǎo)致系統(tǒng)失效的情況,可以提前判定系統(tǒng)失效,而不用再繼續(xù)對該情況進(jìn)行分解。
“要解決含有溫儲備元件的并聯(lián)的雙態(tài)多階段系統(tǒng)的可靠性模型這一問題,需要先根據(jù)元件各個(gè)階段的退化特性,進(jìn)行系統(tǒng)分析繼而再進(jìn)一步得到元件的每個(gè)階段的失效概率?!迸礓J說道。此外,可以用多值決策圖表示系統(tǒng)元件的失效情況,即元件可能在任一階段失效或者一直都不失效,而且元件失效時(shí)可能是處在溫儲備狀態(tài),也可能是處在工作狀態(tài)。“通過綜合各個(gè)元件的多值決策圖,我們就可以得到表示系統(tǒng)失效情況的多值決策圖?!迸礓J補(bǔ)充道。
“如果成功,這將會(huì)有很大的實(shí)際意義。雖然困難重重,但我們有信心!”彭銳說,熱儲備元件需要始終保持在熱的狀態(tài)下工作,并且可以隨時(shí)代替失效的工作元件接入系統(tǒng)進(jìn)行工作,從而需要消耗額外的能源,這就意味著這類儲備元件通常用于對系統(tǒng)恢復(fù)時(shí)間要求很高的系統(tǒng),像計(jì)算機(jī)系統(tǒng)、打印機(jī)、飛機(jī)發(fā)動(dòng)機(jī)等。而冷儲備元件在作為儲備元件時(shí)處于不工作狀態(tài),只有在工作元件失效時(shí)才進(jìn)行加熱并接入系統(tǒng)進(jìn)行工作,通常用在能源消耗較大的系統(tǒng)中用以節(jié)約能源。相對來說,溫儲備技術(shù)就是一種平衡能源消耗和系統(tǒng)恢復(fù)時(shí)間的冗余技術(shù)。在作為儲備元件時(shí)處于部分工作狀態(tài),并且可以在工作元件失效時(shí)快速轉(zhuǎn)換到完全工作狀態(tài)接入系統(tǒng)進(jìn)行工作。值得一提的是,溫儲備技術(shù)的一個(gè)典型應(yīng)用是數(shù)據(jù)管理系統(tǒng)。對于數(shù)據(jù)管理系統(tǒng),溫儲備技術(shù)的使用則是最為合適的??梢允箖涞臄?shù)據(jù)管理器中的個(gè)別公用部件處于工作狀態(tài),定期地保存主數(shù)據(jù)管理器運(yùn)行中的關(guān)鍵數(shù)據(jù)和狀態(tài),當(dāng)主數(shù)據(jù)管理器發(fā)生故障并切換至儲備的數(shù)據(jù)管理器后,儲備的數(shù)據(jù)管理器即可迅速自主地完成恢復(fù)直至運(yùn)行。
系統(tǒng)可靠性之路漫長而又艱難,但彭銳走的每一步都令人期待。他說:“在未來幾年里,我將繼續(xù)在軟件可靠性、系統(tǒng)攻防博弈、系統(tǒng)維修和溫備份系統(tǒng)等方向進(jìn)行研究,也將會(huì)更加深入,并隨時(shí)關(guān)注其他可靠性領(lǐng)域的熱點(diǎn)?!?/p>