近十年來,OpenStack已經(jīng)發(fā)布了21個(gè)版本,從A版本到U版本經(jīng)歷了不斷成長、日漸成熟的過程。從2010年到現(xiàn)在,OpenStack從兩個(gè)項(xiàng)目發(fā)展到42個(gè)項(xiàng)目,社區(qū)貢獻(xiàn)者達(dá)到10.5萬人,參與公司及組織達(dá)到692個(gè),每天有近900個(gè)代碼提交、1.8萬次大的測試,這些持續(xù)構(gòu)建使得OpenStack越來越強(qiáng)大,可以說,OpenStack已經(jīng)成為目前非常受歡迎的開源項(xiàng)目。
目前,浪潮通過敏捷開發(fā)模式,在開源版本基礎(chǔ)上融入大量企業(yè)級的增強(qiáng)和優(yōu)化,在生態(tài)安全體系完善方面完成了持續(xù)創(chuàng)新。針對目前應(yīng)用最廣泛的核心業(yè)務(wù)—上云的場景,我們也進(jìn)行了虛擬化增強(qiáng)和優(yōu)化,利用我們在虛擬化技術(shù)領(lǐng)域的積累,在OpenStack中融入了大量虛擬化的功能,比如在線修改密碼、整機(jī)備份等。另外我們持續(xù)完善社會虛擬化類型和異構(gòu)設(shè)備的加速能力,比如說增強(qiáng)了裸磁盤、GPU等原來社區(qū)版本中沒有的功能。
在云平臺的發(fā)展過程中,上線后的監(jiān)控也是關(guān)鍵一環(huán),我們基于開源組件自研了針對大規(guī)模集群的監(jiān)控系統(tǒng),對分布式采集、實(shí)時(shí)數(shù)據(jù)存儲進(jìn)行了全流程的規(guī)劃;同時(shí),我們自研了集群化方案,針對海量歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)分片、緩存、負(fù)載均衡等數(shù)據(jù)服務(wù),提高監(jiān)控性能和可靠性,達(dá)到秒級監(jiān)控。
針對大規(guī)模集群穩(wěn)態(tài)和非穩(wěn)態(tài)產(chǎn)品我們進(jìn)行建模全站優(yōu)化,優(yōu)化了各個(gè)模塊的數(shù)據(jù)庫檢索,并且針對高并發(fā)場景下出現(xiàn)的大量IT分配失敗的情況,優(yōu)化了分布式機(jī)制,從而大大避免了分配碰撞,減少時(shí)間、保證了成功率,對比原生方案,創(chuàng)建虛擬機(jī)平均時(shí)長縮短了18.5秒,同時(shí)優(yōu)化了操作系統(tǒng)參數(shù)以及數(shù)據(jù)庫、負(fù)載均衡的系統(tǒng)參數(shù),提升性能基礎(chǔ)能力。
為了保證整個(gè)平臺的穩(wěn)定性,我們針對高可用場景進(jìn)行了反復(fù)測試調(diào)優(yōu),避免各個(gè)平面的單點(diǎn)故障,提高業(yè)務(wù)持續(xù)服務(wù)能力。第一,基于集群管理,在管理、業(yè)務(wù)、存儲三個(gè)平面監(jiān)控,做出不同的處理方式,實(shí)現(xiàn)精細(xì)的故障檢測。第二,針對HA疏散過程,進(jìn)一步優(yōu)化疏散算法,在時(shí)間窗口內(nèi),如果達(dá)到閾值可以停止疏散,當(dāng)故障個(gè)數(shù)大于熔斷之后,集群可以熔斷并且感知冷熱遷移。這種方法兼顧速度和成功率,可以減少業(yè)務(wù)中斷。
在技術(shù)創(chuàng)新和產(chǎn)品完善基礎(chǔ)上,我們還通過生態(tài)協(xié)作方式加強(qiáng)行業(yè)方案場景化設(shè)計(jì),支持標(biāo)準(zhǔn)的OpenStack接口,可以對各種集中式、分布式存儲的各種網(wǎng)絡(luò)和資源進(jìn)行統(tǒng)一管理。支持對接第三方管理平臺,把平臺技術(shù)能力和行業(yè)方案進(jìn)行深度整合,形成各行業(yè)大規(guī)??蓮?fù)制的落地能力。
同時(shí),我們通過自研與第三方廠商合作,持續(xù)完善安全體系,通過多項(xiàng)安全測評,在實(shí)際項(xiàng)目中滿足了三級要求,并且研發(fā)了完整的持續(xù)交付工具集,在行業(yè)云、私有云場景下,提供專家級的服務(wù)。
2019年,浪潮完成了單一集群500節(jié)點(diǎn)、模擬500節(jié)點(diǎn)的測試,這是目前基于OpenStack進(jìn)行的最大規(guī)模的單一集群測試認(rèn)證,突破了高密度管理,實(shí)現(xiàn)了十萬級設(shè)備秒級監(jiān)控、分鐘級高可用遷移。
2020年上半年,在幫助國內(nèi)多所高校打造科研教學(xué)平臺、完善產(chǎn)品的同時(shí),浪潮的OpenStack團(tuán)隊(duì)也一直積極投入貢獻(xiàn),在2019年社區(qū)組織的上海峰會等活動中我們分享了在大規(guī)模運(yùn)維開發(fā)、云數(shù)結(jié)合、安全、邊緣計(jì)算等方面的進(jìn)展。圍繞核心模塊,浪潮先后有80多個(gè)人參與到社區(qū)貢獻(xiàn)當(dāng)中來,將我們在應(yīng)用性、安全增強(qiáng)、智能運(yùn)維等方面的優(yōu)化增強(qiáng),通過BP的方式分享到社區(qū)中。BP代表一個(gè)版本周期內(nèi)實(shí)現(xiàn)的重大規(guī)模藍(lán)圖,將經(jīng)歷代碼審核、單元測試、功能測試、集成測試等程序,并接受全球頂尖工程師的層層審核,往往需要提交數(shù)10個(gè)patch、多個(gè)版本周期才能完成一個(gè)BP。在最新發(fā)布的U版本中,浪潮在完成藍(lán)圖數(shù)等多項(xiàng)核心指標(biāo)中進(jìn)入全球主要貢獻(xiàn)企業(yè)。
云海OS整體路線就是把開源開放的技術(shù)通過敏捷的產(chǎn)品化過程,與關(guān)系國計(jì)民生的各行各業(yè)進(jìn)行融合并規(guī)?;瘧?yīng)用,從而構(gòu)建開放、融合、創(chuàng)新的系統(tǒng)。浪潮這些年的發(fā)展實(shí)際上就是把握住了計(jì)算發(fā)展的需求。智慧計(jì)算代表計(jì)算發(fā)展的方向,是產(chǎn)業(yè)智慧化轉(zhuǎn)型的需要,計(jì)算中心作為新基建,體現(xiàn)了開放標(biāo)準(zhǔn)、節(jié)約高效和樸實(shí)普惠三個(gè)基本特征。
作為計(jì)算中心中樞神經(jīng)系統(tǒng),智算中心操作系統(tǒng)要能充分滿足2個(gè)方面的需求,第一,開放,開放是云海OS具備的屬性,各個(gè)方向都開放是我們一貫堅(jiān)持的原則。開放可以實(shí)現(xiàn)跨集群管理操作和業(yè)務(wù)互聯(lián),從而保證智算中心互聯(lián)、互通、互操作。第二,云的本質(zhì)就是追求高效率,私有云領(lǐng)域的規(guī)?;ぷ?,要把握融合架構(gòu)發(fā)展趨勢進(jìn)行持續(xù)創(chuàng)新,包括計(jì)算加速、持久化內(nèi)存、智能網(wǎng)卡等。
以大數(shù)據(jù)為計(jì)算方法,浪潮實(shí)踐表明,以云海OS為代表的OpenStack,成熟度可以作為上云的首選,在新基建的大規(guī)模落地實(shí)踐期,從傳統(tǒng)核心應(yīng)用到大數(shù)據(jù)、深度學(xué)習(xí)、邊緣計(jì)算等創(chuàng)新應(yīng)用都可以“跑”在基礎(chǔ)設(shè)施上。未來,浪潮將持續(xù)推動中國開源產(chǎn)業(yè)發(fā)展,構(gòu)建開源生態(tài),打造技術(shù)創(chuàng)新引擎。