楊小渝,馬新杰,許立芳,郝德博,孛志堯,昌志成
(1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.北京邁高材云科技有限公司,北京 100190)
新材料數(shù)字化研發(fā)能有效降低研發(fā)成本、縮短研發(fā)周期。借助于如今不斷強(qiáng)大且成本不斷降低的高性能計(jì)算算力、數(shù)據(jù)傳輸能力、數(shù)據(jù)存儲(chǔ)能力等,通過大數(shù)據(jù)、云計(jì)算、人工智能技術(shù)以及日益增多的針對(duì)材料設(shè)計(jì)和性能預(yù)測(cè)的各種智能算法和模型,開展計(jì)算、數(shù)據(jù)、AI、實(shí)驗(yàn)四位一體的“理論設(shè)計(jì)在前,實(shí)驗(yàn)驗(yàn)證在后”的材料數(shù)字化研究,從而對(duì)僅基于“試錯(cuò)法”實(shí)驗(yàn)的傳統(tǒng)單一研發(fā)手段進(jìn)行變革,進(jìn)而有效降低成本、提高研發(fā)效率。例如,美國(guó)知名的新材料數(shù)字化研發(fā)公司QuesTek Innovations(簡(jiǎn)稱QuesTek)提出“材料理性設(shè)計(jì)”(Materials By Design)理念,將材料快速設(shè)計(jì)、測(cè)試、表征、定性及服役使用融為一體。其通過計(jì)算、數(shù)據(jù)、AI 驅(qū)動(dòng)的方法還為美國(guó)海軍設(shè)計(jì)了兩種用于飛機(jī)的材料:M54 鋼和S53 鋼。其中,M54 鋼從成分設(shè)計(jì)到取得應(yīng)用資格,時(shí)間僅為6 年,S53 從成分設(shè)計(jì)到取得應(yīng)用資格為8年,相比傳統(tǒng)方法的15 年,研發(fā)周期分別縮短了53%和47%[1]。
然而,我國(guó)在新材料設(shè)計(jì)工業(yè)軟件領(lǐng)域與國(guó)外差距很大,無論是單一尺度的計(jì)算模擬程序(如量子力學(xué)第一性原理計(jì)算程序VASP、分子動(dòng)力學(xué)程序LAMMPS)、微尺度材料集成計(jì)算軟件(如Materials Studio、MAPS)、宏觀尺度的材料和器件有限元模擬仿真軟件(如ANSYS、ABAQUS)等,均被國(guó)外壟斷。例如,微尺度材料集成計(jì)算工業(yè)軟件基本被某國(guó)外軟件所壟斷,而且目前已對(duì)我國(guó)涉及軍工的單位禁用,對(duì)我國(guó)新材料研發(fā)關(guān)鍵領(lǐng)域構(gòu)成威脅。
為此,經(jīng)過近10 年的努力,在國(guó)家自然科學(xué)基金和國(guó)家重點(diǎn)研發(fā)計(jì)劃的資助下,本文研發(fā)了高通量多尺度材料集成計(jì)算和數(shù)據(jù)管理云平臺(tái)MatCloud,并最早于2015 年上線運(yùn)行。MatCloud 也是我國(guó)“十三五”材料基因工程專項(xiàng)“材料基因工程關(guān)鍵技術(shù)和支撐平臺(tái)”的代表性成果之一[2],取得的一系列研究及應(yīng)用成果相繼在Scientific Data(Nature 子刊)、Computational Material Science(IF3.3,JCR Q1)、Nanoscale(IF 7.79,JCR Q2)、Electrochim Acta(IF 6.901,JCR Q2)、Carbon(IF 9.593,JCR Q1)、Chinese Physics B(1.494/Q3)等多個(gè)國(guó)際國(guó)內(nèi)知名期刊發(fā)表。
MatCloud 提出云端高通量、多尺度、自動(dòng)化流程的材料計(jì)算模擬體系架構(gòu),將MatCloud 直接連接千核/萬核高性能計(jì)算集群,實(shí)現(xiàn)了云端高通量多尺度材料計(jì)算模擬、自動(dòng)調(diào)整和糾錯(cuò);通過軟件定義材料計(jì)算模擬,將模型搭建、高通量建模、各任務(wù)間數(shù)據(jù)流動(dòng)(如幾何優(yōu)化、靜態(tài)計(jì)算)、參數(shù)設(shè)置、贗勢(shì)處理/勢(shì)函數(shù)匹配、計(jì)算數(shù)據(jù)后處理、計(jì)算數(shù)據(jù)持久化及機(jī)器學(xué)習(xí)等關(guān)鍵環(huán)節(jié)圖形化、組件化,便于用戶通過鼠標(biāo)拖拽方式,實(shí)現(xiàn)高通量篩選邏輯的“自組裝”;通過“建?!?jì)算→數(shù)據(jù)→AI”的云端自動(dòng)化全流程,解決了材料計(jì)算參數(shù)設(shè)置復(fù)雜、贗勢(shì)處理繁瑣、數(shù)據(jù)后處理易出錯(cuò)、計(jì)算數(shù)據(jù)易丟失等問題,幫助實(shí)現(xiàn)材料自動(dòng)化發(fā)現(xiàn)。計(jì)算模擬一旦結(jié)束,自動(dòng)形成材料計(jì)算數(shù)據(jù)庫(kù)。
尤其是該成果將應(yīng)用基礎(chǔ)研究與產(chǎn)業(yè)化應(yīng)用很好地結(jié)合,于2018 年成功實(shí)現(xiàn)了成果轉(zhuǎn)化(MatCloud+材料云)。經(jīng)過邁高科技4~5 年的全面重構(gòu)和持續(xù)迭代研發(fā),Mat-Cloud+材料云基本具備國(guó)外同類微尺度材料集成設(shè)計(jì)軟件90%的核心功能,且100%落地。與國(guó)外軟件相比,Mat-Cloud+材料云的最大特點(diǎn)在于“軟件定義材料計(jì)算”及“AI+材料計(jì)算SaaS 化”,將材料“建模→計(jì)算→數(shù)據(jù)→AI”的全流程操作置于云端,用戶無需下載安裝任何軟件,通過網(wǎng)頁(yè)瀏覽器登錄/注冊(cè)即可使用,并向社會(huì)廣大用戶開放(www.matcloudplus.com)。截止撰文時(shí)注冊(cè)用戶接近5 000,涵蓋300 多家高校、科研院所和企業(yè),覆蓋10 多個(gè)國(guó)家和地區(qū),已舉辦線上線下培訓(xùn)近100 場(chǎng),培訓(xùn)用戶數(shù)累計(jì)近3 500 人次,取得了較好的社會(huì)與經(jīng)濟(jì)效益,并同時(shí)得到北京科委的高度重視。
本文重點(diǎn)介紹MatCloud+底層架構(gòu)、數(shù)據(jù)庫(kù)架構(gòu),以及自主研發(fā)、自主可控、面向“云原生”的第一性原理計(jì)算程序包,并以4個(gè)案例介紹了MatCloud+如何支持高通量多尺度材料計(jì)算,以及帶給用戶計(jì)算效率的提升。
對(duì)新材料數(shù)字化研發(fā)的理解可分為廣義和狹義。廣義上的新材料數(shù)字化研發(fā)是指材料整個(gè)生命周期各階段的數(shù)字化,主要包括材料設(shè)計(jì)、工程分析(如強(qiáng)度、剛度等)、加工制造、服役使用及回收利用等。狹義上的新材料數(shù)字化研發(fā)主要包括材料設(shè)計(jì)、工程分析、加工制造等從材料設(shè)計(jì)到制造3 個(gè)核心階段的數(shù)字化。因此,新材料數(shù)字化研發(fā)軟件又可分為新材料設(shè)計(jì)和新材料制造工業(yè)軟件,涵蓋材料設(shè)計(jì)、工程分析、加工制造3 個(gè)階段,主要涉及計(jì)算機(jī)輔助設(shè)計(jì)(CAD)、計(jì)算機(jī)輔助工程(CAE)以及計(jì)算機(jī)輔助制造(CAM)。
目前業(yè)界對(duì)多尺度計(jì)算模擬有著不同的時(shí)空尺度劃分和定義,一般分為3 類或4 類,但其核心理念基本相同。TMS 將多尺度計(jì)算模擬主要分為3 類:①量子和原子空間尺度;②微觀尺度的材料結(jié)構(gòu)演化;③宏觀尺度的計(jì)算模擬[3]。
本文認(rèn)為,Gooneie 等[4]對(duì)不同時(shí)空尺度給出了一個(gè)較好定義,將多尺度模擬清晰地分為4 個(gè)尺度,分別為:①量子尺度;②原子尺度;③介觀尺度;④宏觀尺度。量子尺度和原子尺度一般被稱為微觀尺度。
(1)量子尺度(Quantum Scale,~10-10m,~10-12s)。在量子尺度下,原子核和電子是被關(guān)注的兩種粒子,主要通過量子力學(xué)方法研究其狀態(tài)。其用于研究化學(xué)鍵形成和斷裂相關(guān)現(xiàn)象的可能性、電子構(gòu)型的變化及其它類似現(xiàn)象等,這是量子尺度計(jì)算模擬最具優(yōu)勢(shì)的地方。
(2)原子尺度(Atomistic Scale,~10-9m,~10-9-10-6s)。在原子尺度下,所有原子或多組原子都由單個(gè)位點(diǎn)表示和處理。系統(tǒng)的勢(shì)能使用許多不同的相互作用來估計(jì),這些相互作用被統(tǒng)稱為力場(chǎng)。典型的相互作用包括鍵合和非鍵合相互作用。
(3)介觀尺度(Mesoscopic Scale,~10-6m,~10-6-10-3s)。在介觀尺度下,分子通常用場(chǎng)或被稱為珠子的微觀顆粒來描述。通過該方式,分子細(xì)節(jié)被隱含地引入,提供了在更長(zhǎng)時(shí)間上模擬現(xiàn)象的機(jī)會(huì),而原子尺度的計(jì)算模擬很難達(dá)到這樣空間和時(shí)間尺度。一個(gè)基于場(chǎng)的(field-based)聚合物體系描述的典型例子就是混合自由能的Flory-Huggins模型,其中體系的細(xì)節(jié)在模型參數(shù)中進(jìn)行匯總。在基于粒子的模型(particle-based)中,顆粒集合通過粗?;绦蚍e聚珠子間的相互作用用于表征該體系。目前已開發(fā)了各種方法研究聚合物系統(tǒng)中的介觀結(jié)構(gòu),包括耗散顆粒動(dòng)力學(xué)(Dissipative Particle Dynamics,DPD)、布朗動(dòng)力學(xué)(Brownian Dynamics,BD)、格玻爾茲曼(Lattice Boltzmann,LB)、動(dòng)態(tài)密度泛函理論(Dynamic Density Functional Theory,DDFT)以及依賴于時(shí)間的金茨堡—朗道(Time-Dependent Ginzburg-Landau,TDGL)理論等。
(4)宏觀尺度(Macroscale,~10-3m,~1s)。在宏觀尺度下,系統(tǒng)被視為連續(xù)介質(zhì),原子和分子的離散特性則被忽略。這種系統(tǒng)的行為受到本構(gòu)定律的約束,本構(gòu)定律通常與守恒定律相結(jié)合以模擬各種現(xiàn)象。除用于分隔連續(xù)性區(qū)域的有限位置數(shù)外,所有函數(shù)(如速度和應(yīng)力分量)都是連續(xù)的。宏觀尺度計(jì)算模擬的基本假設(shè)是用等效的均質(zhì)模型代替材料中的異構(gòu)性。最重要的用于模擬該尺度體系的方法是有限差分法(Finite Difference Method,F(xiàn)DM)、有限元法(Finite Element Method,F(xiàn)EM)和有限體積法(Finite Volume Method,F(xiàn)VM)。
新材料設(shè)計(jì)軟件可按以下方式進(jìn)行分類:
(1)按不同空間尺度劃分,可分為量子尺度、原子尺度、介觀尺度和宏觀尺度。
(2)按集成度劃分,可分為單一尺度的計(jì)算模擬程序和材料集成設(shè)計(jì)軟件。
(3)按軟件呈現(xiàn)方式劃分,可分為傳統(tǒng)軟件和SaaS 化軟件(即云端計(jì)算軟件)。
(4)按通用性劃分,可分為通用材料軟件/程序包和專業(yè)材料軟件/程序包。專業(yè)材料軟件/程序包主要針對(duì)不同的材料體系,如:輔助半導(dǎo)體軟件設(shè)計(jì)的NextNano 軟件、用于熱電材料的BoltzTrap 軟件等。
按照上述分類方式,本文對(duì)國(guó)內(nèi)外主要的材料計(jì)算設(shè)計(jì)工業(yè)軟件進(jìn)行比較,如圖1 所示。軟件選擇的準(zhǔn)則包括:①具有世界知名度以及國(guó)際用戶;②注冊(cè)或使用用戶數(shù)不少于1 000;③軟件已商業(yè)化。
比較維度主要包括:①單一尺度的程序包/軟件包;②安裝或部署在本地的微介觀多尺度軟件;③支持建?!咄俊喑叨取鷶?shù)據(jù)庫(kù)→AI 的全流程一體化云端材料計(jì)算基礎(chǔ)設(shè)施。
Fig.1 Comparison of main material softwares form domestic and abroad圖1 國(guó)內(nèi)外主要材料軟件比較
從圖1 可以看到,在單一尺度的材料軟件或程序包方面,盡管我國(guó)有一些國(guó)產(chǎn)的量子尺度、原子尺度和宏觀尺度的計(jì)算模擬軟件,但相比于VASP、ANSYS、ABAQUS 等軟件,從世界范圍的使用人數(shù)及普及程度來看,我國(guó)的形勢(shì)還是比較嚴(yán)峻的;在需要部署或安裝到本地才能運(yùn)行的微介觀多尺度軟件方面,目前國(guó)內(nèi)使用較多的是Materials Studio[5]等,Materials Studio 本身不支持建?!咄俊喑叨取鷶?shù)據(jù)庫(kù)→AI 的全流程自動(dòng)化,而MatCloud+已可全部支持,盡管在功能模塊上較為欠缺,但是總體上呈現(xiàn)良好的追趕態(tài)勢(shì);在建模→高通量→多尺度→數(shù)據(jù)庫(kù)→AI全流程一體化的云端材料集成計(jì)算基礎(chǔ)設(shè)施方面,目前國(guó)際上主要有美國(guó)的Mat3ra[6]和韓國(guó)的Materials Square[7],而中國(guó)主要為MatCloud+材料云,且MatCloud+材料云在一些功能上已超過了Mat3ra和Materials Square。
材料集成設(shè)計(jì)工業(yè)軟件主要相對(duì)于單一尺度的計(jì)算模擬代碼或程序,是指利用系統(tǒng)化、工程化方法,將不同時(shí)空尺度的計(jì)算模擬軟件、材料數(shù)據(jù)庫(kù)等通過先進(jìn)的信息技術(shù)(如無代碼理念、云計(jì)算架構(gòu)、大數(shù)據(jù)驅(qū)動(dòng)、AI賦能)集成于輔助材料設(shè)計(jì)的軟件或云平臺(tái)。
目前的微介觀多尺度材料集成設(shè)計(jì)工業(yè)軟件大多有10 年以上的研發(fā)歷史,都是基于傳統(tǒng)的Client-Server 架構(gòu),需要安裝到本地才能使用。在云計(jì)算、大數(shù)據(jù)、新一代人工智能、高速網(wǎng)絡(luò)及高性能計(jì)算等新一代計(jì)算機(jī)技術(shù)不斷進(jìn)步的情況下,出現(xiàn)了材料基因組倡導(dǎo)的“理論、模擬、數(shù)據(jù)、實(shí)驗(yàn)”緊密融合、協(xié)同創(chuàng)新的新需求,而上述傳統(tǒng)軟件的架構(gòu)以及新材料設(shè)計(jì)理念都不能很好地滿足新材料數(shù)字化研發(fā)的新需求。例如,SaaS 化趨勢(shì)(如ANSYS 已推出ANSYS 云)、高度集成化、高通量計(jì)算篩選、與材料數(shù)據(jù)庫(kù)緊密融合、自動(dòng)化流程的跨尺度以及與AI 技術(shù)(如機(jī)器學(xué)習(xí)、圖像處理、自然語言處理、深度學(xué)習(xí)等)緊密融合等特點(diǎn),都未能很好地體現(xiàn)在上述傳統(tǒng)微尺度材料集成設(shè)計(jì)工業(yè)軟件中,需要提出新的材料智能化設(shè)計(jì)新理念、新模式與新方法。
基于此考慮,本文提出云端高通量、多尺度、自動(dòng)化流程的材料計(jì)算模擬體系架構(gòu),直接連接千核/萬核高性能計(jì)算集群,實(shí)現(xiàn)了云端高通量多尺度材料計(jì)算模擬、數(shù)據(jù)庫(kù)構(gòu)建和AI等功能。
圖2 揭示了MatCloud+的主要技術(shù)模塊及其之間的有機(jī)協(xié)同工作關(guān)系。主要的核心技術(shù)模塊包括:①高通量作業(yè)生成器;②工作流系統(tǒng);③作業(yè)調(diào)度器;④核心引擎;⑤自動(dòng)調(diào)整與糾錯(cuò)引擎;⑥可動(dòng)態(tài)修改的計(jì)算任務(wù)列表和任務(wù)引擎;⑦計(jì)算材料信息庫(kù);⑧機(jī)器學(xué)習(xí);⑨報(bào)告生成器;⑩可視化引擎等。此外,MatCloud+在求解程序端還包括自主可控的MatCloud-QE 量子力學(xué)程序包和MatCloud-MD 分子動(dòng)力學(xué)程序包。
MatCloud+各模塊之間的關(guān)系包含控制流、數(shù)據(jù)流和交互流,各模塊主要功能如下:
Fig.2 Core modules and their interaction of MatCloud+圖2 MatCloud+核心模塊與交互
(1)結(jié)構(gòu)建模。該模塊負(fù)責(zé)在線生成高通量模擬仿真所需的一系列輸入文件,主要包括兩部分:動(dòng)態(tài)圖形界面生成器和結(jié)構(gòu)構(gòu)造器。以晶體建模為例,動(dòng)態(tài)圖形界面生成器負(fù)責(zé)動(dòng)態(tài)地生成計(jì)算不同物性數(shù)據(jù)所要求的參數(shù)輸入圖形界面。用戶通過Web 頁(yè)面加載基質(zhì)晶體或化合物的CIF 文件(CIF 文件為晶體結(jié)構(gòu)的標(biāo)準(zhǔn)化表示文件),以及通過該動(dòng)態(tài)產(chǎn)生的圖形界面輸入各種參數(shù)。一旦獲得這些數(shù)據(jù),工作流將調(diào)用結(jié)構(gòu)構(gòu)造器生成該材料計(jì)算軟件(如MatCloud-QE、VASP)所需的一個(gè)或多個(gè)模擬仿真輸入文件。但是高通量結(jié)構(gòu)建模面臨的主要問題是:如何針對(duì)不同的計(jì)算類型(如本征、摻雜、表面)進(jìn)行材料計(jì)算的建模以統(tǒng)一地生成作業(yè),這是需要解決的一個(gè)關(guān)鍵性技術(shù)問題。
(2)材料計(jì)算信息庫(kù)。材料計(jì)算信息庫(kù)由材料數(shù)據(jù)庫(kù)和材料文件庫(kù)組成。不同于其它的一些材料計(jì)算框架,該項(xiàng)目除建立材料計(jì)算的數(shù)據(jù)庫(kù)外,還將建立材料計(jì)算的文件庫(kù)。該文件庫(kù)用于存儲(chǔ)計(jì)算過程中產(chǎn)生的仿真輸入數(shù)據(jù)、中間過程數(shù)據(jù)、仿真輸出數(shù)據(jù)及出錯(cuò)信息數(shù)據(jù)。尤其是出錯(cuò)信息數(shù)據(jù),其往往能提供一些有用信息。這些材料計(jì)算數(shù)據(jù)、晶體結(jié)構(gòu)性能數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)及經(jīng)驗(yàn)數(shù)據(jù)便構(gòu)成了材料大數(shù)據(jù)。通過對(duì)材料大數(shù)據(jù)的挖掘,可幫助尋找材料結(jié)構(gòu)、組份與性能的關(guān)系,以及計(jì)算處理本身(如不同CPU 核數(shù))對(duì)材料計(jì)算數(shù)據(jù)不確定性的影響規(guī)律等。
(3)跨平臺(tái)/集群調(diào)度/元調(diào)度。元調(diào)度(Metaschedule)是指在一個(gè)計(jì)算集群容器中根據(jù)一定的算法選擇合適的計(jì)算節(jié)點(diǎn)進(jìn)行作業(yè)提交。當(dāng)合適的計(jì)算節(jié)點(diǎn)選擇好后,作業(yè)調(diào)度則負(fù)責(zé)作業(yè)的排隊(duì)、提交和監(jiān)控等(但通常元調(diào)度與作業(yè)調(diào)度被集成在一起)。因此,將對(duì)元調(diào)度器/作業(yè)調(diào)度器進(jìn)行微服務(wù)封裝,并集成于工作流中用于計(jì)算作業(yè)的自動(dòng)提交與監(jiān)控。
(4)高通量平行計(jì)算作業(yè)自動(dòng)糾錯(cuò)引擎。自動(dòng)糾錯(cuò)引擎主要負(fù)責(zé)高通量并行計(jì)算作業(yè)的糾錯(cuò)。由于交換關(guān)聯(lián)泛函、贗勢(shì)、初始自選態(tài)、能量截?cái)唷 點(diǎn)網(wǎng)格等參數(shù)的選擇或設(shè)置不同往往會(huì)引起計(jì)算不收斂或中斷的情況,使高通量平行計(jì)算作業(yè)不能正常完成。自動(dòng)糾錯(cuò)引擎必須能根據(jù)故障原因自動(dòng)地進(jìn)行參數(shù)設(shè)置或修改,并在斷點(diǎn)附近重新啟動(dòng)作業(yè)。為此,該項(xiàng)目將建立圍繞MatCloud-QE 材料計(jì)算軟件有關(guān)錯(cuò)誤故障原因與交換關(guān)聯(lián)泛函、贗勢(shì)、初始自選態(tài)、能量截?cái)?、k 點(diǎn)網(wǎng)格等參數(shù)關(guān)聯(lián)的一個(gè)知識(shí)庫(kù),并建立規(guī)則庫(kù)以幫助自動(dòng)提出修正參數(shù)。
工作流系統(tǒng)負(fù)責(zé)高通量材料計(jì)算的“端到端”集成,即材料計(jì)算生命周期過程中涉及的主要子任務(wù),如從生成仿真輸入文件、元調(diào)度、作業(yè)自動(dòng)提交和監(jiān)控、各類計(jì)算數(shù)據(jù)自動(dòng)歸檔、材料物性數(shù)據(jù)計(jì)算,到材料數(shù)據(jù)的自動(dòng)入庫(kù)、用戶通知等,都由工作流自動(dòng)協(xié)同完成,開發(fā)的材料計(jì)算軟件本體將提供語義解釋,整個(gè)流程無需人工干預(yù)。
一個(gè)工作流系統(tǒng)由工作流引擎、工作流設(shè)計(jì)客戶端和工作流3 部分組成。工作流在運(yùn)行過程中能夠自動(dòng)調(diào)用并識(shí)別語義,自動(dòng)協(xié)同各模塊的工作。材料計(jì)算軟件本體是工作流系統(tǒng)的一個(gè)核心組成,該本體提供生成仿真輸入文件過程中及解析仿真輸出所需的圍繞材料計(jì)算軟件(如MatCloud-QE)的語義解釋。如在線計(jì)算材料的不同性能時(shí),要求用戶提供的參數(shù)類別可能不同,因此系統(tǒng)需要?jiǎng)討B(tài)提供的參數(shù)圖形輸入界面類別也會(huì)不同,此時(shí)需要該本體提供這些不同性能參數(shù)的語義解釋。在解析計(jì)算輸出的文件時(shí),需要本體提供該材料計(jì)算軟件所定義的名詞、術(shù)語或元數(shù)據(jù)的語義解釋,以便機(jī)器能準(zhǔn)確地解析它們。材料計(jì)算軟件本體是支持自動(dòng)完成高通量材料計(jì)算的核心要素,也往往是材料信息學(xué)研究的重點(diǎn)內(nèi)容。
材料數(shù)據(jù)稀缺且分布零散,材料數(shù)據(jù)庫(kù)對(duì)加快新材料研發(fā)起著重要的支撐作用。通過高通量計(jì)算驅(qū)動(dòng)引擎,一次性計(jì)算即可產(chǎn)生大量的計(jì)算結(jié)果文件(如OUTCAR)。如何從這些文件中提取關(guān)鍵的材料物化性質(zhì)數(shù)據(jù),還需要進(jìn)行較為繁瑣的處理。為此,美國(guó)杜克大學(xué)開發(fā)了基于VASP(一種第一性原理材料計(jì)算軟件)的高通量密度泛函材料計(jì)算框架AFLOW(Automatic Flow),并建立了基于AFLOW 的材料數(shù)據(jù)庫(kù)(aflowlib.org),用于存儲(chǔ)通過AFLOW 計(jì)算產(chǎn)生的材料物性數(shù)據(jù)。可存儲(chǔ)的物性數(shù)據(jù)包括相圖、電子結(jié)構(gòu)和磁性數(shù)據(jù)等。該數(shù)據(jù)庫(kù)是在對(duì)大量不同組份和結(jié)構(gòu)的物質(zhì)進(jìn)行篩選與計(jì)算后得到的,包括3 000 多萬種化合物以及5 億多條計(jì)算的物化性質(zhì)數(shù)據(jù)。在該數(shù)據(jù)庫(kù)的基礎(chǔ)上,杜克大學(xué)和法國(guó)CEA 研究機(jī)構(gòu)合作,利用高通量材料計(jì)算方法,基于ICSD 晶體結(jié)構(gòu)數(shù)據(jù)庫(kù),從AFLOW 材料物性數(shù)據(jù)庫(kù)中抽取了2 500 多種燒結(jié)化合物,并進(jìn)一步計(jì)算了其熱電性能,發(fā)現(xiàn)有大功率因數(shù)期望值的燒結(jié)化合物傾向于呈現(xiàn)出大的帶隙、重的載流子質(zhì)量以及每個(gè)晶胞含有很多原子等特征。MatCloud+第一原理計(jì)算數(shù)據(jù)庫(kù)構(gòu)建方法與技術(shù)路線如圖3所示。
Fig.3 The first principle Computing database Construction method and technical route of MatCloud+圖3 MatCloud+第一原理計(jì)算數(shù)據(jù)庫(kù)構(gòu)建方法與技術(shù)路線
通過將計(jì)算數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)進(jìn)行比對(duì),以方便檢驗(yàn)理論模型,提供新的實(shí)驗(yàn)思路。其中涉及到面向材料基礎(chǔ)數(shù)據(jù)的知識(shí)挖掘技術(shù)(如研究化合物的熱力學(xué)及化學(xué)穩(wěn)定性問題等),以及非結(jié)構(gòu)化文本(如文本、圖表信息)挖掘技術(shù)等。最終面向基礎(chǔ)研究人員、材料學(xué)家、材料設(shè)計(jì)開發(fā)企業(yè)等提供多樣化的材料查找方法,從數(shù)萬種材料中智能地推薦同類材料,以拓寬材料開發(fā)人員的視野。因此,通過第一性原理計(jì)算構(gòu)建第一性原理計(jì)算數(shù)據(jù)庫(kù)有著重要意義。
以第一原理計(jì)算為例,基于高通量計(jì)算驅(qū)動(dòng)引擎,MatCloud+提出第一原理計(jì)算數(shù)據(jù)庫(kù)構(gòu)建方法和技術(shù),如圖4所示。
Fig.4 A workflow template of phono calculation圖4 一個(gè)聲子計(jì)算的工作流模板
為保證數(shù)據(jù)質(zhì)量和精度,數(shù)據(jù)庫(kù)包括初始第一性原理計(jì)算數(shù)據(jù)庫(kù)和校驗(yàn)后的第一性原理計(jì)算數(shù)據(jù)庫(kù)。其中,計(jì)算精度設(shè)置、泛函選擇、截?cái)嗄苓x取、計(jì)算過程是否收斂等都會(huì)影響計(jì)算精度和誤差。第一性原理計(jì)算所得材料的各種物理化學(xué)性質(zhì)應(yīng)該得到存儲(chǔ),標(biāo)準(zhǔn)化、規(guī)范化的信息存儲(chǔ)有利于實(shí)現(xiàn)自動(dòng)查詢、自動(dòng)分析與數(shù)據(jù)挖掘。Mat-Cloud+提供了一種構(gòu)建第一性原理計(jì)算數(shù)據(jù)庫(kù)的方法,通過高通量計(jì)算驅(qū)動(dòng)引擎,允許用戶大批量地開展計(jì)算或高通量篩選,自動(dòng)對(duì)計(jì)算結(jié)果進(jìn)行數(shù)據(jù)提取和規(guī)范化加工,衍生出更多物理化學(xué)性質(zhì)。目前MatCloud+主要支持結(jié)構(gòu)弛豫、態(tài)密度、能帶、彈性常數(shù)、介電常數(shù)、磁矩等基本性質(zhì)計(jì)算,也支持聲子譜計(jì)算、團(tuán)簇展開的復(fù)雜計(jì)算等。此外,MatCloud+還針對(duì)不同材料,如鋰電材料、催化材料、半導(dǎo)體材料、熱電材料等開發(fā)了各種工作流模板。無論是基本性質(zhì)計(jì)算、復(fù)雜性質(zhì)計(jì)算都是以一種工作流的方式實(shí)現(xiàn)所有步驟的自動(dòng)流程化。復(fù)雜性質(zhì)的計(jì)算也是通過工作流模板進(jìn)行的,如圖4所示的聲子譜計(jì)算工作流模板。
MatCloud+材料數(shù)據(jù)庫(kù)包括晶體結(jié)構(gòu)庫(kù)、分子結(jié)構(gòu)庫(kù)與計(jì)算物性庫(kù)。本文以晶體結(jié)構(gòu)庫(kù)和計(jì)算物性庫(kù)為例進(jìn)行說明,分子結(jié)構(gòu)庫(kù)的建設(shè)理念與晶體結(jié)構(gòu)庫(kù)相同。
(1)晶體結(jié)構(gòu)庫(kù)。MatCloud+的晶體結(jié)構(gòu)庫(kù)包含晶體空間群、原子種類、原子位置等信息,可能的數(shù)據(jù)來源包括:①文獻(xiàn)錄入和爬蟲抓取。文獻(xiàn)中的信息分散不集中,類似于搜索引擎,從網(wǎng)絡(luò)抓取可參考springer materials 等,需要標(biāo)記數(shù)據(jù)源;②理論計(jì)算優(yōu)化。通過高通量第一性原理計(jì)算產(chǎn)生大量計(jì)算數(shù)據(jù),高通量第一性原理計(jì)算理論優(yōu)化后的數(shù)值同樣需要標(biāo)記數(shù)據(jù)源,給出計(jì)算中使用的關(guān)鍵參數(shù),如交換關(guān)聯(lián)勢(shì)、k 點(diǎn)取樣密度、贗勢(shì)(全勢(shì))等;③從其它數(shù)據(jù)庫(kù)獲取??蓞⒖糏CSD、Pauling File 等,這些數(shù)據(jù)庫(kù)均為商業(yè)數(shù)據(jù)庫(kù),此外也有一些開源的晶體結(jié)構(gòu)數(shù)據(jù)庫(kù),如COD 等;④用戶愿意公開的晶體結(jié)構(gòu)數(shù)據(jù)。對(duì)于用戶不愿公開的晶體結(jié)構(gòu)數(shù)據(jù)(包括性質(zhì)數(shù)據(jù)),用戶可選擇暫不公開,或一段時(shí)間(如2 年、3 年)后再公開。對(duì)于用戶愿意公開的數(shù)據(jù),MatCloud+將在機(jī)時(shí)上給予優(yōu)惠,甚至減免。
這里以Bi2Se3 為例,說明晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)所存儲(chǔ)的信息。部分晶體結(jié)構(gòu)庫(kù)數(shù)據(jù)信息如表1 所示。目前,Mat-Cloud+所記錄的晶體結(jié)構(gòu)信息遠(yuǎn)多于以下列舉的,這里僅進(jìn)行概要說明。
Table 1 Partial data information of crystal structure library表1 部分晶體結(jié)構(gòu)庫(kù)數(shù)據(jù)信息
(2)計(jì)算物性庫(kù)。計(jì)算成功后得到的只是結(jié)果文件,尚需作進(jìn)一步處理,才能到用戶所關(guān)注的物化性質(zhì)數(shù)據(jù)。MatCloud+能自動(dòng)從計(jì)算結(jié)果文件中抽取關(guān)鍵的物化性質(zhì)數(shù)據(jù),這也是MatCloud+高通量計(jì)算平臺(tái)的最大特點(diǎn)之一。這些存取的數(shù)據(jù)還可鏈接到存儲(chǔ)計(jì)算數(shù)據(jù)的空間以供進(jìn)一步分析,部分能量數(shù)據(jù)、電子數(shù)據(jù)及相關(guān)元數(shù)據(jù)列舉如下:①總能量、原胞體積等(文本):通過SCF 計(jì)算即能直接獲得;②能隙、布居數(shù)、磁矩(文本):通過常規(guī)的計(jì)算分析得到;③能帶、態(tài)密度(圖形);④贗勢(shì)方法或全勢(shì)方法,如果是贗勢(shì)則給出贗勢(shì)版本;⑤交換關(guān)聯(lián)勢(shì)(LDA、GGA、HSE等);⑥+U(實(shí)現(xiàn)版本及U、J 的數(shù)值);⑦基矢選?。ㄆ矫娌ǖ腃utoff)。
MatCloud+不僅提供了高通量多尺度材料計(jì)算并融合數(shù)據(jù)庫(kù)和AI 的集成框架,支持以低代碼開發(fā)方式快速進(jìn)行各類不同材料體系數(shù)字化、智能化研發(fā)平臺(tái)的定制化開發(fā),而且有自己獨(dú)自研發(fā)、自主可控的量子力學(xué)程序包MatCloud-QE 和分子動(dòng)力學(xué)程序包MatCloud-MD。這里重點(diǎn)介紹MatCloud-QE 量子力學(xué)程序包,MatCloud-MD 分子動(dòng)力學(xué)程序包的研發(fā)理念與MatCloud-QE 類似。
MatCloud-QE 量子力學(xué)程序包主要基于Quantum ESPRESSO[8]內(nèi)核(簡(jiǎn)稱QE),是國(guó)內(nèi)首個(gè)以云原生為特點(diǎn)的量子力學(xué)程序包,用戶使用瀏覽器通過MatCloud+材料云即可在線開展第一性原理計(jì)算,以及數(shù)據(jù)的自動(dòng)化采集與管理,可極大地方便用戶開展第一性原理計(jì)算以及高通量計(jì)算篩選。云原生(Cloud Native)理念最早由Matt[9]提出,微軟將其定義為“:云原生體系結(jié)構(gòu)和技術(shù)是一種設(shè)計(jì)、構(gòu)造與操作在云中構(gòu)建,且充分利用了云計(jì)算模型的工作負(fù)載方法”[10]。除云原生的特點(diǎn)外,MatCloud-QE在QE 內(nèi)核基礎(chǔ)上,動(dòng)態(tài)拓展了基礎(chǔ)QE程序所不具備的計(jì)算功能(如發(fā)射率、斷裂強(qiáng)度等)。通過MatCloud-QE 第一原理計(jì)算程序包與MatCloud+高通量多尺度材料集成計(jì)算材料云接口,實(shí)現(xiàn)了高通量第一性原理計(jì)算加速、參數(shù)智能推薦、自動(dòng)前處理和后處理、功能組件化與使用圖形化、云端拖拽式流程設(shè)計(jì)等功能,用戶使用瀏覽器通過MatCloud+材料云即可在線進(jìn)行計(jì)算以及數(shù)據(jù)的自動(dòng)化采集和管理,極大地方便了用戶開展第一性原理計(jì)算以及高通量計(jì)算篩選。
Quantum ESPRESSO 是一款開源的量子力學(xué)程序包,除具備常規(guī)的第一性原理計(jì)算功能外,還支持超導(dǎo)計(jì)算、電子能量損失譜、彈道輸運(yùn)等功能[8]。然而,當(dāng)用戶使用QE 計(jì)算時(shí)會(huì)遇到諸多困難。例如,計(jì)算模擬前用戶需要熟悉QE 的輸入文件格式與參數(shù),以及Linux 的使用方式與提交命令;計(jì)算模擬結(jié)束后,用戶需要明確如何從大量輸出文件中找到自己想要的數(shù)據(jù)。另外,QE 本身雖然支持并行計(jì)算,但是無法很好地支持高通量計(jì)算。
MatCloud-QE 量子力學(xué)程序包在QE 內(nèi)核基礎(chǔ)上,開發(fā)了高通量第一原理計(jì)算加速算法、參數(shù)智能推薦算法、輸入結(jié)構(gòu)統(tǒng)一算法、自動(dòng)前處理后處理引擎、組件化引擎、圖形化引擎以及工作流接口算法程序等,從而增加了QE基礎(chǔ)程序所不支持的高通量第一原理計(jì)算加速、輸入結(jié)構(gòu)統(tǒng)一、全程圖形化展示、智能參數(shù)推薦、數(shù)據(jù)自動(dòng)提取并實(shí)時(shí)入庫(kù)等功能,進(jìn)一步降低了第一性原理計(jì)算門檻,提升了其使用效率。
MatCloud-QE 在QE 內(nèi)核上的主要?jiǎng)?chuàng)新在于:通過AI實(shí)現(xiàn)了對(duì)大批量高通量第一原理計(jì)算作業(yè)處理的加速;通過軟件定義材料計(jì)算模擬,將模型搭建、高通量建模、各任務(wù)間數(shù)據(jù)流動(dòng)(如幾何優(yōu)化、靜態(tài)計(jì)算)、參數(shù)設(shè)置、贗勢(shì)處理、計(jì)算數(shù)據(jù)后處理、計(jì)算數(shù)據(jù)持久化以及機(jī)器學(xué)習(xí)等關(guān)鍵環(huán)節(jié)圖形化與組件化,便于用戶通過鼠標(biāo)拖拽方式實(shí)現(xiàn)高通量篩選邏輯的“自組裝”;通過“建?!?jì)算→數(shù)據(jù)→AI”的云端自動(dòng)化流程,解決了材料計(jì)算參數(shù)設(shè)置復(fù)雜、贗勢(shì)處理繁瑣、數(shù)據(jù)后處理易出錯(cuò)、計(jì)算數(shù)據(jù)易丟失等問題,計(jì)算模擬一旦結(jié)束,自動(dòng)形成材料計(jì)算數(shù)據(jù)庫(kù)。
隨著超級(jí)計(jì)算的普及和機(jī)時(shí)成本的下降,開展第一性原理計(jì)算的模式也不再停留在以往單一的第一性原理計(jì)算上,高通量計(jì)算篩選已成為一種新的模式和手段。高通量材料計(jì)算篩選是指對(duì)大量晶體或分子通過理論計(jì)算進(jìn)行篩選,得到滿足預(yù)定義篩選描述符的目標(biāo)結(jié)構(gòu),也稱高通量虛擬篩選。如何從大量候選結(jié)構(gòu)空間中通過“篩選漏斗”快速篩選出目標(biāo)結(jié)構(gòu),時(shí)效性和準(zhǔn)確性這對(duì)矛盾體一直是高通量材料計(jì)算篩選一個(gè)最核心的問題?;诘谝恍栽碛?jì)算篩選的時(shí)間短,但準(zhǔn)確性會(huì)受到影響。若要提升準(zhǔn)確性,篩選時(shí)間和計(jì)算成本也會(huì)增加。
為解決該問題,本文基于QE 內(nèi)核開發(fā)了基于AI 的高通量第一性原理計(jì)算加速算法,采用與通過第一性原理計(jì)算獲取物性具有等效作用的代理模型機(jī)制,以加快高通量計(jì)算篩選。也即是說,“篩選漏斗”中的篩選描述符值可由代理模型幫助獲取。由于通過代理模型獲取相關(guān)描述符值的速度相比直接通過QE 計(jì)算獲取描述符值的速度有著量級(jí)的提升,因而可提高篩選效率。
不同元素種類、計(jì)算精度、K 點(diǎn)的選取,往往有著不同的第一性原理計(jì)算參數(shù)設(shè)置,或?qū)τ?jì)算核數(shù)、內(nèi)存有不同要求。若選擇不正確,往往會(huì)導(dǎo)致計(jì)算作業(yè)失敗。對(duì)于初次開展第一性原理計(jì)算的用戶,如何選取參數(shù)給其帶來了很大困擾。因此,本文參照大量文獻(xiàn)開發(fā)了QE參數(shù)智能推薦算法,能夠針對(duì)常見的元素種類、計(jì)算精度、K點(diǎn)選取等,自動(dòng)推薦一些最優(yōu)參數(shù),從而避免用戶選擇參數(shù)時(shí)的困擾。
QE 輸入文件中結(jié)構(gòu)數(shù)據(jù)的獲取需要涉及到模型搭建、結(jié)構(gòu)文件轉(zhuǎn)換和文件拆分3 個(gè)步驟,模型的搭建和結(jié)構(gòu)轉(zhuǎn)換通常需要借助第三方軟件來實(shí)現(xiàn),用戶使用時(shí)非常不便。因此,基于QE 基礎(chǔ)程序,本文開發(fā)了統(tǒng)一的結(jié)構(gòu)導(dǎo)入算法,對(duì)結(jié)構(gòu)進(jìn)行了邏輯上的統(tǒng)一,令用戶不再需要考慮文件格式,同時(shí)支持批量結(jié)構(gòu)導(dǎo)入,并支持導(dǎo)入多種晶體結(jié)構(gòu)文件作為QE 的輸入結(jié)構(gòu)。同時(shí),該結(jié)構(gòu)模型統(tǒng)一算法還提供了與MatCloud+材料云的接口,使之與Mat-Cloud+材料云的建模組件協(xié)同,實(shí)現(xiàn)了大部分結(jié)構(gòu)調(diào)控功能。此外,MatCloud+材料云結(jié)構(gòu)建模組件可讓用戶不再使用第三方建模軟件,僅通過瀏覽器即可實(shí)現(xiàn)“模型搭建—計(jì)算—數(shù)據(jù)—AI”的端到端一體化。
標(biāo)準(zhǔn)的QE 計(jì)算任務(wù)正常結(jié)束后,在傳統(tǒng)情況下,用戶需要利用后處理軟件或腳本自行處理數(shù)據(jù)(如采用第三方的Origin 軟件),處理得到的結(jié)果大多保存在本地電腦或各大云盤中,數(shù)據(jù)相互之間無關(guān)聯(lián),也不能直接進(jìn)行計(jì)算結(jié)果的可視化(如能帶、態(tài)密度、聲子譜等)。一個(gè)課題組團(tuán)隊(duì)中,人員的流進(jìn)流出往往導(dǎo)致數(shù)據(jù)丟失,后期想要復(fù)用數(shù)據(jù)難度極大。因此,在QE 標(biāo)準(zhǔn)程序的基礎(chǔ)上,本文開發(fā)了后處理引擎,使得在標(biāo)準(zhǔn)QE 計(jì)算程序完成后,不僅可以自動(dòng)提取輸出文件中的關(guān)鍵數(shù)據(jù),而且可以將得到的關(guān)鍵數(shù)據(jù)自動(dòng)實(shí)時(shí)保存在云端數(shù)據(jù)庫(kù)中。在保證數(shù)據(jù)安全的基礎(chǔ)上,還可利用數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行二次篩選和復(fù)用。
QE 內(nèi)核擁有十幾個(gè)功能模塊,而僅PWscf一個(gè)包就含有200 多個(gè)參數(shù),對(duì)于初學(xué)者來說大部分都晦澀難懂。因此,在QE 內(nèi)核基礎(chǔ)上,本文開發(fā)了組件化引擎,其中包括組件庫(kù)、組件參數(shù)設(shè)置與調(diào)用算法。根據(jù)QE 功能的不同,從QE 各個(gè)模塊中抽取獨(dú)立的功能形成QE 基礎(chǔ)內(nèi)核所不具備的組件庫(kù)。同時(shí)開發(fā)了與MatCloud+材料云的量子力學(xué)服務(wù)接口,使其能呈現(xiàn)為一個(gè)個(gè)圖形化組件。同時(shí)結(jié)合上述3.2 節(jié)中的參數(shù)智能推薦算法,可為每個(gè)組件推薦關(guān)鍵參數(shù),用戶使用時(shí)僅通過點(diǎn)選方式即可選擇組件、設(shè)置參數(shù)。另外,為方便中文用戶,組件化引擎還開發(fā)了中文參數(shù)庫(kù),給每個(gè)參數(shù)都提供了中文使用幫助,幫助用戶了解參數(shù)的意義,從而方便地選擇參數(shù)。
針對(duì)贗勢(shì)及其內(nèi)部參數(shù)獲取繁瑣的問題,組件化引擎將全種類贗勢(shì)整合到每個(gè)組件中,用戶僅需點(diǎn)選想要選擇的贗勢(shì)種類,即可為每個(gè)元素自動(dòng)分配此類型的贗勢(shì),并結(jié)合元素和贗勢(shì)種類自動(dòng)給出推薦的截?cái)嗄堋ibXC是目前最全面、最強(qiáng)大的交換關(guān)聯(lián)—泛函庫(kù),一直得到業(yè)界開源社區(qū)的維護(hù)。LibXC 泛函庫(kù)包括各種泛函,如LDA、GGA、雜化泛函以及metaGGA等。為了讓用戶更加便捷地選擇交換關(guān)聯(lián)泛函,本文給組件庫(kù)開發(fā)了專門接口,使其對(duì)LibXC提供全面的支持。
在QE基礎(chǔ)內(nèi)核的基礎(chǔ)上,本文開發(fā)了圖形化引擎算法,其核心理念在于:基于軟件定義的理念重新定義了第一性原理計(jì)算的操作,將模型搭建、高通量建模、各任務(wù)間數(shù)據(jù)流動(dòng)(如幾何優(yōu)化、靜態(tài)計(jì)算)、參數(shù)設(shè)置、贗勢(shì)處理、計(jì)算數(shù)據(jù)后處理、計(jì)算數(shù)據(jù)持久化等關(guān)鍵環(huán)節(jié)進(jìn)行圖形化處理。此外,開發(fā)了圖形化引擎與MatCloud+材料云的專門接口,可讓用戶通過靈活的拖拽方式實(shí)現(xiàn)計(jì)算任務(wù)的自組裝。同時(shí)實(shí)現(xiàn)了QE高通量材料計(jì)算“建?!?jì)算—數(shù)據(jù)—AI”的云端一體自動(dòng)化流程,直接連接千核/萬核集群,解決了材料計(jì)算參數(shù)設(shè)置復(fù)雜、贗勢(shì)處理繁瑣、數(shù)據(jù)后處理易出錯(cuò)、計(jì)算數(shù)據(jù)易丟失等問題。
MatCloud-QE 除可進(jìn)行基礎(chǔ)QE 內(nèi)核第一性原理計(jì)算所支持的物理化學(xué)性質(zhì)計(jì)算外,還增加了基礎(chǔ)QE 內(nèi)核所不支持的一些物理化學(xué)性質(zhì)計(jì)算(如發(fā)射率、斷裂強(qiáng)度等),且所支持的計(jì)算類型還在不斷增加。
僅使用QE基礎(chǔ)內(nèi)核,用戶不僅需要購(gòu)買計(jì)算集群,而且需要編譯安裝QE、準(zhǔn)備提交腳本等,這就需要用戶具備一定的Linux語言基礎(chǔ)。為更好地利用MatCloud+材料云框架所提供的功能,MatCloud-QE第一性原理計(jì)算程序包專門提供了與MatCloud+材料云的接口,使得通過MatCloud+材料云可便捷地使用MatCloud-QE 第一性原理計(jì)算程序包。由于MatCloud+材料云本身直接對(duì)接國(guó)家超算中心,用戶不需要考慮集群和軟件配置環(huán)境的問題,而是直接通過瀏覽器進(jìn)行結(jié)構(gòu)建模、設(shè)計(jì)工作流程并選擇超算,點(diǎn)擊提交按鈕即可開展第一性原理計(jì)算。計(jì)算一旦結(jié)束,數(shù)據(jù)直接進(jìn)行可視化和入庫(kù),無需使用任何第三方軟件。另外,基于該接口程序,用戶可通過MatCloud+材料云拖拽式流程實(shí)現(xiàn)批量QE任務(wù)的提交,一次性可計(jì)算多個(gè)結(jié)構(gòu)的多個(gè)性質(zhì),整個(gè)工作流程無需人工操作任何文件,各計(jì)算任務(wù)有效協(xié)同,不僅最大化利用了碎片化時(shí)間,而且杜絕了因誤操作導(dǎo)致的各種問題。
基于MatCloud+材料云,以過渡態(tài)搜索和截?cái)嗄苁諗啃杂?jì)算為例,說明MatCloud+材料云的自動(dòng)化、流程化與圖形化特點(diǎn)。
4.1.1 過渡態(tài)搜索
化學(xué)反應(yīng)通常伴隨著熱量的吸收與釋放,而反應(yīng)速率通常與反應(yīng)需要克服的能量勢(shì)壘直接相關(guān)。通過過渡態(tài)計(jì)算可得到從反應(yīng)物到產(chǎn)物需要的最大能量、過渡態(tài)結(jié)構(gòu)及整個(gè)反應(yīng)的吸/放熱量,從而解釋粒子的擴(kuò)散遷移及分解的難易程度。
過渡態(tài)搜索常用到的方法包括NEB方法和CI-NEB 方法。NEB(Nudged Elastic Band)方法是一種在已知反應(yīng)物與產(chǎn)物之間尋找勢(shì)能面上鞍點(diǎn)和最小能量路徑的方法,該方法的工作原理是優(yōu)化反應(yīng)路徑上的許多中間圖像。每個(gè)圖像都能找到盡可能低的點(diǎn)(能量),同時(shí)保持與相鄰圖像相等的間距。這種受約束的優(yōu)化是通過在圖像之間沿路徑添加彈簧力,以及根據(jù)垂直于路徑的潛在作用而投影出力的分量來完成的。不同于NEB 方法,CI-NEB 方法(Climbing Image Nudged Elastic Band,CI-NEB)是對(duì)前者的一個(gè)小修改,由于能量最高的圖像被移動(dòng)到鞍座點(diǎn),并且其感覺不到彈簧力,相反,沿切線的此圖像的真實(shí)力是反轉(zhuǎn)的。通過該方式,圖像試圖最大化其沿路徑的能量,并最小化所有其它方向上的能量。當(dāng)此圖像收斂時(shí),其將位于確切的鞍點(diǎn)。
過渡態(tài)搜索的一個(gè)難點(diǎn)在于:基于上述算法的整個(gè)搜索過程如何自動(dòng)化、流程化地完成。MatCloud+通過工作流技術(shù)解決了該難點(diǎn)問題。MatCloud+提供的一個(gè)過渡態(tài)自動(dòng)化搜索工作流如圖5所示。
Fig.5 Workflow of transition state auto search圖5 過渡態(tài)自動(dòng)化搜索工作流
初末態(tài)匹配組件用于上傳初態(tài)結(jié)構(gòu)和末態(tài)結(jié)構(gòu),并作相應(yīng)的匹配處理。一旦參數(shù)設(shè)置完畢,啟動(dòng)該工作流,工作流就會(huì)在云端自動(dòng)協(xié)調(diào)融合了CI-NEB 方法的第一性原理計(jì)算與基于Dimer 的過渡態(tài)優(yōu)化。過渡態(tài)搜索結(jié)束后,點(diǎn)擊“View Task”可直接查看過渡態(tài)能壘圖(見圖6),結(jié)果均自動(dòng)保存在材料數(shù)據(jù)庫(kù)中。
Fig.6 Transition state energy barrier plot by MatCloud+圖6 MatCloud+計(jì)算過渡態(tài)能壘圖
4.1.2 收斂性測(cè)試
截?cái)嗄軈?shù)ENCUT 決定了包含平面波函數(shù)動(dòng)能的極限,平面波相關(guān)設(shè)置直接關(guān)系到計(jì)算精度。因此,計(jì)算一個(gè)體系時(shí)有必要找到一個(gè)最優(yōu)的ENCUT 值,以擬合所需精度,同時(shí)保證在計(jì)算成本上合理。收斂性測(cè)試的難點(diǎn)在于如何生成大量數(shù)據(jù)點(diǎn),以及從中自動(dòng)地找出最優(yōu)點(diǎn)。
MatCloud+提供了收斂性測(cè)試功能,用于生成大量數(shù)據(jù)點(diǎn),以及確定最優(yōu)的截?cái)嗄苤怠 點(diǎn)值等。其理念在于不斷增大對(duì)應(yīng)參數(shù)的值,當(dāng)連續(xù)兩次計(jì)算的能量相差小于一定數(shù)值時(shí)即可認(rèn)為收斂,此時(shí)的值即為一個(gè)較為合適的值。MatCloud+提供了自動(dòng)進(jìn)行參數(shù)收斂性測(cè)試計(jì)算的模板(如截?cái)嗄?、K 點(diǎn))。一個(gè)確定截?cái)嗄軈?shù)的收斂性工作流模板如圖7所示。
Fig.7 Workflow templet that determines the cut-off energy values for convergence圖7 確定截?cái)嗄軈?shù)的收斂性工作流模板
生成截?cái)嗄軘?shù)據(jù)的核心參數(shù)設(shè)置如圖8 所示,其中最小能量值為200eV,最大能量值為500eV,能量值間隔為100eV。
Fig.8 Core parameter setting圖8 核心參數(shù)設(shè)置
參數(shù)設(shè)置完畢后啟動(dòng)工作流,工作流負(fù)責(zé)大量第一性原理計(jì)算作業(yè)的生成、提交和監(jiān)控。計(jì)算完畢,截?cái)嗄苤档氖諗啃詼y(cè)試結(jié)果如圖9 所示。從圖中可以看到,選擇截?cái)嗄苤禐?50應(yīng)該會(huì)獲得較好結(jié)果。
以石墨為代表的層狀電極材料在離子電池中得到了廣泛研究與應(yīng)用。對(duì)于二維層狀電極材料,其層間距與電池性能表現(xiàn)有著直接關(guān)系。之前的實(shí)驗(yàn)和理論研究都關(guān)注于層狀材料層間距擴(kuò)大前后的性能對(duì)比上,而沒有考慮層間距如何取值才能達(dá)到最佳效果,對(duì)于層狀材料電極中層間距對(duì)性能的影響也缺乏深入的理論探索。
北京大學(xué)物理學(xué)院采用高通量計(jì)算篩選,系統(tǒng)研究了堿金屬離子(Li+、Na+、K+)電池中層狀材料電極性能對(duì)其層間距的依賴性。通過采用MatCloud+,人工干預(yù)減少了90%。通過綜合考慮石墨/石墨烯電極隨層間距連續(xù)變化過程中的結(jié)構(gòu)、能量、電子學(xué)、離子學(xué)的性能表現(xiàn),找到了石墨/石墨烯電極在不同堿金屬離子電池中的最佳層間距,得到的研究結(jié)果也可擴(kuò)展應(yīng)用于其他類似的層狀電極材料中,并指導(dǎo)實(shí)驗(yàn)選擇合適的層間工程技術(shù)。
該研究利用不同堿金屬離子(Li+、Na+、K+)電池中層狀材料層間距對(duì)電極的影響,涉及“多結(jié)構(gòu)、多性質(zhì)”的計(jì)算,是一種典型的高通量計(jì)算篩選。MatCloud+在本研究中體現(xiàn)出的4 個(gè)明顯優(yōu)點(diǎn)在于:①自動(dòng)化調(diào)控層間距,生成候選空間,減少人為重復(fù)勞動(dòng);②人工干預(yù)次數(shù)明顯變少,大量工作通過工作流引擎自動(dòng)流程完成,能夠按流程與預(yù)定計(jì)劃按部就班地自動(dòng)進(jìn)行計(jì)算;③計(jì)算出錯(cuò)后,部分錯(cuò)誤能自動(dòng)糾錯(cuò),避免了重復(fù)計(jì)算,進(jìn)一步提高了效率;④自動(dòng)搜索所有高對(duì)稱吸附位點(diǎn),減少人工勞動(dòng)力,同時(shí)避免遺漏。
Fig.9 Convergence test result of cut-off energy(ENCUT)圖9 截?cái)嗄蹺NCUT收斂測(cè)試結(jié)果
在研究中,遷移勢(shì)壘計(jì)算涉及Li/Na/K 共9 個(gè)結(jié)構(gòu),吸附容量計(jì)算涉及Li/K 共6 個(gè)結(jié)構(gòu)。在傳統(tǒng)方法中,每個(gè)結(jié)構(gòu)不僅需要分別進(jìn)行計(jì)算,結(jié)構(gòu)優(yōu)化/靜態(tài)計(jì)算/插點(diǎn)/勢(shì)壘計(jì)算都需要分別提交計(jì)算作業(yè),而且計(jì)算完畢后需要人工將計(jì)算結(jié)果下載下來進(jìn)行手動(dòng)處理,因此共計(jì)約有60 次人工作業(yè)提交以及60 次人工數(shù)據(jù)處理,共計(jì)120 次人工操作。而采用MatCloud+,針對(duì)遷移勢(shì)壘的計(jì)算,通過工作流引擎,人工僅需對(duì)3 個(gè)堿金屬計(jì)算操作2 次(共計(jì)6 次);針對(duì)吸附容量的計(jì)算,通過工作流引擎,人工僅需對(duì)2 個(gè)堿金屬操作2 次(共計(jì)4 次),總計(jì)人工操作10 次,剩下的110次人工處理全部由MatCloud+幫助完成,人工干預(yù)減少了90%左右,極大地提高了效率(見圖10)。對(duì)于高通量計(jì)算篩選而言,供篩選的結(jié)構(gòu)越多,即候選空間越大,Mat-Cloud+效率提升越明顯。而且篩選過程越復(fù)雜,MatCloud+效率提升越明顯。
Fig.10 Comparison of manual intervention times between Mat-Cloud+and traditional methods圖10 MatCloud+與傳統(tǒng)方式人工干預(yù)次數(shù)比較
本文以石墨烯吸附COOH 分子計(jì)算為例,比較傳統(tǒng)方式與采用MatCloud+方式開展材料計(jì)算的優(yōu)劣。
4.3.1 材料計(jì)算傳統(tǒng)方式及步驟
假設(shè)一個(gè)對(duì)材料計(jì)算比較熟悉的用戶知道如何開展計(jì)算,以及要采用哪些軟件,概括起來為“4 個(gè)步驟,6 個(gè)軟件”。4 個(gè)步驟分別為:①建模;②準(zhǔn)備輸入文件;③計(jì)算;④后處理。6 個(gè)軟件分別為:VESTA、XShell、Xftp、P4vasp、vaspkit、Origin。
計(jì)算步驟如下:
(1)采用軟件VESTA 進(jìn)行建模(見圖11),耗時(shí)4min。其中左圖為利用VESTA 對(duì)石墨烯單胞進(jìn)行括胞操作,右邊為添加COOH 分子。具體步驟為:①首先對(duì)石墨烯單胞進(jìn)行擴(kuò)胞;②在石墨烯表面手動(dòng)添加COOH 分子,移動(dòng)COOH分子到不同的吸附位點(diǎn);③將結(jié)構(gòu)導(dǎo)出(POSCAR格式)。
Fig.11 Software VESTA modeling圖11 軟件VESTA建模
(2)準(zhǔn)備輸入文件。首先利用Xshell 軟件登錄到超算中心,然后輸入文件準(zhǔn)備(靜態(tài)計(jì)算)(耗時(shí)4min),需要的軟件為:XShell、Xftp、VESTA。文件包括:①POSCAR:將VESTA 軟件導(dǎo)出的.vasp 文件通過Xftp 上傳,并更改名字為POSCAR;②INCAR:設(shè)置控制計(jì)算的各個(gè)參數(shù);③POTCAR:查看POSCAR 文件中包含的原子種類,在相應(yīng)的贗勢(shì)庫(kù)中找到原子的贗勢(shì),新建為此結(jié)構(gòu)的POTCAR 文件;④KPOINTS:手動(dòng)寫入;⑤作業(yè)提交腳本:手動(dòng)編寫作業(yè)提交腳本。
(3)提交任務(wù)進(jìn)行計(jì)算(耗時(shí)3min)。首先輸入文件準(zhǔn)備(DOS 和能帶計(jì)算,耗時(shí)1min),利用Linux 指令新建文件夾,命名為dos,并將CONTCAR、POTCAR、INCAR、KPOINTS、CHGCAR、腳本復(fù)制到文件夾中,修改INCAR 中的參數(shù)。然后提交任務(wù)進(jìn)行靜態(tài)計(jì)算、能帶計(jì)算和態(tài)密度計(jì)算(耗時(shí)12min)。
(4)后處理(耗時(shí)5min)。采用P4vasp、vaspkit、Origin軟件進(jìn)行DOS 圖、PDOS 圖、能帶圖繪制。DOS 圖繪制具體操作如下:①在Xftp 中將vasprun.xml 文件下載到本地;②打開P4vasp,點(diǎn)擊繪制DOS 圖;③在P4vasp 中輸出dos.dat文件;④打開Origin,導(dǎo)入dos.dat,點(diǎn)擊繪制線圖;⑤調(diào)整各種顯示以更好地表達(dá)圖片。
上述過程總計(jì)耗時(shí)約30min。由于使用軟件較多,人工干預(yù)也較多,步驟較為繁瑣。
4.3.2 采用MatCloud+的方式與步驟
使用MatCloud+作上述同樣的計(jì)算,計(jì)算步驟如下:①瀏覽器登錄到MatCloud+,利用拖拽方式設(shè)計(jì)一個(gè)工作流(見圖12);②導(dǎo)入結(jié)構(gòu);③利用吸附模塊開展吸附操作;④設(shè)置能帶計(jì)算和態(tài)密度計(jì)算參數(shù);⑤提交作業(yè),下載結(jié)果(計(jì)算完畢后,能帶數(shù)據(jù)和態(tài)密度數(shù)據(jù)已在數(shù)據(jù)庫(kù)中)。只需通過瀏覽器登錄,不需要下載任何軟件。其中建模、準(zhǔn)備輸入文件、計(jì)算、后處理4 個(gè)步驟分別耗時(shí)2min、2min、15min、0min,總共耗時(shí)19min。
Fig.12 Calculation work of molecule adsorption modelling-static calculation-energy band-density of states圖12 吸附建?!o態(tài)計(jì)算—能帶—態(tài)密度計(jì)算工作
4.3.3 分析比較
開展同樣的材料計(jì)算,傳統(tǒng)方式與采用MatCloud+的耗時(shí)對(duì)比如表2 所示??梢园l(fā)現(xiàn),相比于傳統(tǒng)計(jì)算方法的30min,采用MatCloud+將時(shí)間縮短到19min,減少耗時(shí)11min,效率提高了36.6%(見圖13)。
Table 2 Time consumption comparison of two approaches表2 兩種方式耗時(shí)對(duì)比 min
Fig.13 Time consumption comparison of two approaches圖13 耗時(shí)對(duì)比
4.4.1 背景
丙烯腈—丁二烯橡膠(NBR)、偏氟乙烯系氟橡膠(FKM)、聚醚醚酮橡膠(PEEK)是目前密封圈的常用材料。這種類型的合成聚合物通常對(duì)油、燃料和其他化學(xué)品具有耐受性,因此廣泛用于汽車、航空工業(yè)中的燃油處理軟管、儲(chǔ)氫罐密封件、索環(huán)等的制造。然而,聚合物材料在熱、氧、光等條件下容易發(fā)生老化現(xiàn)象,導(dǎo)致其形狀、顏色和拉伸強(qiáng)度發(fā)生不可逆的變化,嚴(yán)重了影響其長(zhǎng)期使用性能。因此,有必要研究材料的老化機(jī)理,更合理地預(yù)測(cè)其使用壽命。
4.4.2 MatCloud+模擬3類材料抗老化性能
本文基于反應(yīng)力場(chǎng)(ReaxFF)的分子反應(yīng)動(dòng)力學(xué)(Molecular Reaction Dynamics,MRD)模擬開展3類材料的抗老化研究。在ReaxFF中,原子是動(dòng)態(tài)連接的,由原子鍵序的實(shí)時(shí)計(jì)算決定,因此可很好地描述鍵的形成和解離過程。ReaxFF已成功應(yīng)用于各種反應(yīng)系統(tǒng),如聚合物、化石燃料、含能材料以及小分子燃燒和過渡金屬催化過程。利用MatCloud+設(shè)計(jì)的基于LAMMPS的高通量計(jì)算工作流如圖14所示。
Fig.14 A high-throughput LAMMPS simulation workflow圖14 基于LAMMPS的高通量計(jì)算工作流
在該項(xiàng)研究中,MatCloud+與北京低碳研究院合作,利用MatCloud+設(shè)計(jì)了分子動(dòng)力學(xué)工作流模板。通過高通量計(jì)算,模擬在無H2和有H2環(huán)境下,3 類材料在達(dá)到平衡狀態(tài)后,以100K/ps 的加熱速率從300K 加熱到3 800K,持續(xù)時(shí)間為35ps。在3 類材料分別升溫到3 800K 狀態(tài)后,研究以下問題:①通過模擬產(chǎn)物隨時(shí)間的變化,可得到分解過程中每種產(chǎn)物最開始產(chǎn)生、開始分解的溫度以及最終產(chǎn)物是什么;②H2的加入對(duì)每種材料分解溫度、分解過程、最終產(chǎn)物的影響;③對(duì)3 種材料耐高溫性能以及對(duì)H2分子的敏感性作對(duì)比。通過“高通量+分子動(dòng)力學(xué)”方式,開展3 類材料的分子動(dòng)力學(xué)模擬,結(jié)果表明,該方式相比傳統(tǒng)方式減少人工干預(yù)達(dá)到90%。
“高通量+分子動(dòng)力學(xué)”模擬在有H(2上圖)和無H(2下圖)環(huán)境下,PEEK熱解過程中產(chǎn)物隨時(shí)間變化關(guān)系如圖15所示。
Fig.15 Product change over time during PEEK pyrolysis with and without H2圖15 在有H2與無H2環(huán)境下PEEK熱解過程中產(chǎn)物隨時(shí)間變化關(guān)系
MatCloud+材料云目前已實(shí)現(xiàn)了國(guó)產(chǎn)高通量多尺度全流程材料集成設(shè)計(jì)工業(yè)軟件和云基礎(chǔ)設(shè)施從0 到1 的突破,目前注冊(cè)用戶數(shù)已接近5 000,涵蓋300 多家高校、科研院所和企業(yè),覆蓋10多個(gè)國(guó)家和地區(qū),已進(jìn)入了“用戶使用—反饋—提高—再使用—再反饋—再提高”的良性循環(huán)。今后,MatCloud+材料云產(chǎn)品的拓展主要包括以下幾個(gè)方面:①研發(fā)更多用于材料智能設(shè)計(jì)的人工智能算法和策略;②研發(fā)更多材料結(jié)構(gòu)建模算法;③進(jìn)一步研發(fā)自主的MatCloud-QE 和MatCloud-MD 量子力學(xué)與分子動(dòng)力學(xué)程序包;④不斷沉淀和積累材料計(jì)算數(shù)據(jù);⑤朝著從理論計(jì)算到實(shí)驗(yàn)驗(yàn)證的新材料全流程、全尺度數(shù)字化研發(fā)拓展。
目前,微尺度材料集成設(shè)計(jì)工業(yè)軟件不僅被國(guó)外軟件所壟斷,而且這些傳統(tǒng)軟件也不能很好地融入“云計(jì)算、高通量計(jì)算篩選、跨尺度自動(dòng)化、材料數(shù)據(jù)庫(kù)、AI 賦能”等新出現(xiàn)的材料研發(fā)理念和模式,影響了我國(guó)新材料數(shù)字化研發(fā)的普及與應(yīng)用,也制約了國(guó)產(chǎn)材料設(shè)計(jì)制造工業(yè)軟件開發(fā)。MatCloud+材料云可面向高校、科研院所提供基于公有云的材料計(jì)算、數(shù)據(jù)、AI 服務(wù),用戶通過瀏覽器即能使用。在面向企業(yè)級(jí)的新材料研發(fā)方面,我國(guó)新材料研發(fā)大多仍基于實(shí)驗(yàn)試錯(cuò)法,而缺乏將人工智能、計(jì)算仿真模擬、實(shí)驗(yàn)數(shù)據(jù)有機(jī)融合的材料協(xié)同創(chuàng)新新型研發(fā)范式,無法加速新材料的研發(fā)與工程化應(yīng)用。MatCloud+材料云針對(duì)企業(yè)級(jí)新材料研發(fā),不僅可提供私有化部署,還可以與邁高科技的MatFusion 技術(shù)融合,提供連接計(jì)算數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)的新材料智能設(shè)計(jì)范式,在新能源(包含鋰電相關(guān)、儲(chǔ)氫相關(guān)、光伏相關(guān)等)、化學(xué)化工(包含催化劑、石油化工、塑料&橡膠等)、航空航天(包含零部件制造、推進(jìn)劑、復(fù)合材料、高溫/耐火材料)、電子信息(包含半導(dǎo)體、顯示材料、磁性材料)等新材料研發(fā)領(lǐng)域有著廣泛應(yīng)用。
本文介紹了我國(guó)國(guó)產(chǎn)的集成量子力學(xué)與分子動(dòng)力學(xué)微觀多尺度材料集成計(jì)算工業(yè)軟件MatCloud+材料云,將材料模型搭建、材料計(jì)算、計(jì)算流、材料數(shù)據(jù)庫(kù)、計(jì)算集群、AI算法以及模型和工具一體化置于云端,用戶僅需瀏覽器即可操作,無需進(jìn)行任何下載和安裝,打破了微觀多尺度自動(dòng)化流程材料計(jì)算工業(yè)軟件被國(guó)外壟斷的局面。其主要特點(diǎn)可概括為“高通量、多尺度、SaaS 化、流程化、智能化、自動(dòng)化、圖形化”。計(jì)算一旦結(jié)束,計(jì)算數(shù)據(jù)會(huì)被立即提取并存儲(chǔ)于材料數(shù)據(jù)庫(kù)中。在求解程序方面,基于QE第一原理計(jì)算內(nèi)核進(jìn)一步開發(fā)了高通量第一原理計(jì)算加速算法、參數(shù)智能推薦算法、輸入結(jié)構(gòu)統(tǒng)一算法、自動(dòng)后處理引擎、組件化引擎、圖形化引擎,以及更多的物性計(jì)算功能、MatCloud+接口等算法程序等,形成了具有“云原生”特點(diǎn)的第一原理計(jì)算程序包:MatCloud-QE。最后以4 個(gè)案例介紹了MatCloud+如何支持高通量多尺度材料計(jì)算,以及帶給用戶計(jì)算效率的提升,表明MatCloud+材料云在面向高??蒲性核推髽I(yè)級(jí)新材料研發(fā)方面有著廣闊的應(yīng)用前景。