• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機(jī)器學(xué)習(xí)的多元化合物帶隙預(yù)測(cè)

      2022-05-26 13:11:14董延華佘安琪梁久欣孫宏宇
      關(guān)鍵詞:帶隙機(jī)器化合物

      董延華,佘安琪,王 銘,梁久欣,孫宏宇

      (吉林師范大學(xué) 計(jì)算機(jī)學(xué)院,吉林 四平 136000)

      0 引言

      近年來,對(duì)化學(xué)空間的高通量探索極大地幫助了合理的材料設(shè)計(jì)和發(fā)現(xiàn).目前已有大量材料性能(包括電子結(jié)構(gòu)、熱力學(xué)和結(jié)構(gòu)性能)的開放數(shù)據(jù)庫(kù).機(jī)器學(xué)習(xí)統(tǒng)計(jì)技術(shù)正逐漸進(jìn)入材料科學(xué)領(lǐng)域[1],基于機(jī)器學(xué)習(xí)的方法對(duì)材料在明確定義的化學(xué)空間內(nèi)進(jìn)行預(yù)測(cè)的有效途徑是對(duì)目標(biāo)化學(xué)空間內(nèi)的新化合物進(jìn)行預(yù)測(cè)[2].通過機(jī)器學(xué)習(xí)來預(yù)測(cè)材料性質(zhì)的例子包括預(yù)測(cè)分子和周期系統(tǒng)的性質(zhì)、過渡態(tài)、電勢(shì)、結(jié)構(gòu)分類、介電性質(zhì)和能帶隙的預(yù)測(cè)[3].二維材料是由一個(gè)或多個(gè)不垂直排列和周期性的原子層組成的晶體材料,具有許多獨(dú)特的物理和化學(xué)特性.與三維材料的結(jié)構(gòu)相比,二維材料的化學(xué)和結(jié)構(gòu)修飾的可能性使其成為材料科學(xué)的主要研究對(duì)象[4].二維材料主要由石墨烯,單元素的硅烯、鍺烯、錫烯、硼烯、黑磷,過渡金屬硫族化合物(MoS2、WSe2等),主族金屬硫族化合物(SnS、SnS2等)以及h-BN、Bi2O2Se等組成[5-7].多元化合物在催化、電池等方面都有廣泛的應(yīng)用,相較于石墨烯而言,多元化合物組分和結(jié)構(gòu)的多樣性,使其具有許多物理和化學(xué)特性[7-8].

      帶隙是絕緣體和半導(dǎo)體中價(jià)帶頂部和導(dǎo)帶底部之間的電子伏特能量差,是電子脫離束縛態(tài)所需的最小能量[9].計(jì)算帶隙的實(shí)驗(yàn)需要大型且昂貴的設(shè)備,十分煩瑣,有些材料需要特殊的環(huán)境處理,因此,精確計(jì)算帶隙仍然是固體物理中尚未解決的問題之一[10].隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,第一性原理計(jì)算帶隙成為研究人員取得帶隙值的主要方式.大部分電子結(jié)構(gòu)都是基于密度泛函理論(Density Functional Theory,DFT)計(jì)算得到的Kohn-Sham帶隙,由于計(jì)算理論局限性,DFT計(jì)算得到的帶隙往往小于真實(shí)值.常常使用基于多體擾動(dòng)理論的GW方法來獲得更真實(shí)的帶隙,但計(jì)算高精度的G0W0耗時(shí)長(zhǎng),所需計(jì)算資源多,同時(shí)計(jì)算的體系原子數(shù)較少,因此,需要探索一種計(jì)算成本低并且較為準(zhǔn)確估計(jì)帶隙的方法[11].預(yù)測(cè)一種新材料的帶隙介于DFT計(jì)算結(jié)果和真實(shí)值之間,將使研究人員在尋求更復(fù)雜的帶隙計(jì)算方法之前,對(duì)實(shí)驗(yàn)的預(yù)期有一個(gè)很好的了解.

      本工作采用2D Materials Encyclopedia數(shù)據(jù)庫(kù)[12]中基于第一性原理和密度泛函理論計(jì)算的多元化合物數(shù)據(jù)集,提取多元化合物的總能量、帶隙,并加入原子電負(fù)性、第一電離能和原子的有效原子半徑等性質(zhì),來預(yù)測(cè)更為精確的帶隙[13].將原始數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集,分別選用嶺回歸和Lasso回歸、支持向量回歸(SVR)、隨機(jī)森林機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練[14-16],采用交叉驗(yàn)證的方法建立帶隙的預(yù)測(cè)模型.最后,利用所得模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估.這種方法在第一性原理計(jì)算已經(jīng)能夠減少實(shí)驗(yàn)時(shí)間的基礎(chǔ)上,進(jìn)一步提高研究效率并降低研究成本.

      2 實(shí)驗(yàn)

      2.1 機(jī)器學(xué)習(xí)原理與方法

      本研究采用的方法有嶺回歸和Lasso回歸、隨機(jī)森林、支持向量回歸(SVR).圖1簡(jiǎn)要總結(jié)了幾種算法并顯示了算法之間的聯(lián)系.

      圖1 總體工作流程

      2.1.1 嶺回歸和Lasso回歸

      線性回歸是預(yù)測(cè)建模中最常用的統(tǒng)計(jì)方法.嶺回歸和Lasso回歸是兩種帶有正則化項(xiàng)的線性回歸[17],用于防止過度擬合和降低模型復(fù)雜性.在嶺回歸中,通過L2范數(shù)作為懲罰來修改代價(jià)函數(shù),如果系數(shù)大,代價(jià)函數(shù)就會(huì)受到懲罰.這意味著嶺回歸縮小系數(shù),有助于克服多重共線性.具體為

      (1)

      類似地,Lasso回歸將系數(shù)的大小(L1范數(shù))作為一種懲罰,而不是取系數(shù)的平方.這種類型的正則化可能會(huì)導(dǎo)致一些系數(shù)恰好為零,也就是說,一些特征在評(píng)估輸出時(shí)完全被忽略了.因此,Lasso回歸不僅有助于減少過擬合,而且有助于特征選擇.具體為

      (2)

      在公式(1)和(2)中:X表示輸入特征的矩陣;y是實(shí)際帶隙值;λ1和λ2是調(diào)諧參數(shù).

      2.1.2 支持向量回歸

      支持向量回歸(SVR)與支持向量機(jī)(SVM,一種分類算法)不同,可用于預(yù)測(cè)連續(xù)變量[18].與其他旨在減少真實(shí)值和預(yù)測(cè)值之間差異的線性回歸模型不同,SVR試圖在預(yù)定義的閾值ε內(nèi)匹配最佳超平面,在不違反邊界的情況下,擬合盡可能多的數(shù)據(jù)點(diǎn),如圖2所示.錯(cuò)誤閾值控制邊界的寬度.目標(biāo)函數(shù)和約束可表示為

      (3)

      2.1.3 隨機(jī)森林

      決策樹通過不斷地將訓(xùn)練樣本劃分為分支進(jìn)行分層學(xué)習(xí),從而使每次分割的信息增益最大化.這種分支結(jié)構(gòu)允許決策樹學(xué)習(xí)非線性關(guān)系.隨機(jī)森林是一種集成方法[18],它將分類決策樹擬合到數(shù)據(jù)集的子集上,并對(duì)樹進(jìn)行平均,以提高預(yù)測(cè)精度和減少過擬合.在模型訓(xùn)練過程中,每棵樹的樣本都是用替換來繪制的,這意味著一些樣本可能會(huì)在一棵樹中被多次使用.替換抽樣降低了模型的方差,但不以增加偏差為代價(jià).當(dāng)拆分樹中的節(jié)點(diǎn)時(shí),使用特征的隨機(jī)子集來創(chuàng)建最佳拆分.由多棵決策樹組合形成的模型中:{h(x,θt),t=1,2,…,T}是服從獨(dú)立分布的隨機(jī)變量,x為自變量,T為決策子樹的個(gè)數(shù).

      圖2 支持向量回歸

      分類模型預(yù)測(cè)結(jié)果為

      2.2 數(shù)據(jù)處理與模型建立

      使用機(jī)器學(xué)習(xí)方法進(jìn)行帶隙預(yù)測(cè)的過程中,研究對(duì)象及其數(shù)據(jù)的選取尤為重要.為了建立可靠的二維材料數(shù)據(jù)集,本文選取了主族金屬元素、過渡金屬元素、氧族與鹵族元素組成的多元化合物二維材料為研究對(duì)象,這樣共得到5 000多種化合物,選擇其中具有一定帶隙的3 244種化合物進(jìn)行研究.模型的輸入被稱為特征或描述符,通過實(shí)驗(yàn)和簡(jiǎn)單的計(jì)算獲得,圖3顯示了原子占比,電負(fù)性差異以及原子量和帶隙的關(guān)系.應(yīng)用的機(jī)器學(xué)習(xí)模型僅根據(jù)組成元素的元素屬性使用特征集來預(yù)測(cè)能帶隙.由于目前還沒有一種簡(jiǎn)單有效的方法來描述晶體結(jié)構(gòu),因此在機(jī)器學(xué)習(xí)模型中,特征集僅限于組成特征.同時(shí)發(fā)現(xiàn)精確的原子結(jié)構(gòu)可能并不需要達(dá)到一定的預(yù)測(cè)精度.

      圖3 帶隙與三種特征的關(guān)系

      機(jī)器學(xué)習(xí)預(yù)測(cè)帶隙的過程:

      (1)數(shù)據(jù)準(zhǔn)備 將3 244組數(shù)據(jù)的數(shù)據(jù)集隨機(jī)分成2 900組數(shù)據(jù)組成的訓(xùn)練集和344條數(shù)據(jù)構(gòu)成的測(cè)試集.

      (2)模型訓(xùn)練 設(shè)置10折交叉驗(yàn)證,分別建立Lasso、SVR和隨機(jī)森林算法模型,利用3種模型對(duì)訓(xùn)練集的G0W0帶隙進(jìn)行訓(xùn)練.

      (3)模型性能評(píng)估 使用MAE評(píng)價(jià)指標(biāo)對(duì)模型效果進(jìn)行評(píng)估.

      (4)模型應(yīng)用 利用訓(xùn)練后的多個(gè)算法模型對(duì)測(cè)試集的帶隙進(jìn)行獨(dú)立預(yù)測(cè),并簡(jiǎn)單評(píng)估.

      3 結(jié)果與討論

      數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集,比例為9∶1.對(duì)于每種方法,在訓(xùn)練集上執(zhí)行10次交叉驗(yàn)證,以優(yōu)化模型的超參數(shù),然后報(bào)告測(cè)試集上的平均絕對(duì)誤差(MAE)和均方誤差(MSE).公式為:

      圖4 預(yù)測(cè)結(jié)果比較Fig.4 Comparison of prediction results

      表1給出了使用相同特征的不同機(jī)器學(xué)習(xí)方法的帶隙預(yù)測(cè)的MAE、MSE分?jǐn)?shù).從表1可以得出,隨機(jī)森林算法的平均絕對(duì)誤差為1.096eV且均方誤差值為2.087 eV,Lasso為典型的廣義線性回歸模型,而其余模型均為非線性的復(fù)雜模型.由此也可以看出,該多元化合物數(shù)據(jù)集中的屬性特征與目標(biāo)變量帶隙之間有著復(fù)雜的非線性關(guān)系的特點(diǎn).其中,對(duì)于Lasso模型,參數(shù)alpha與max_iter分別代表模型的懲罰項(xiàng)大小和模型訓(xùn)練的迭代次數(shù).對(duì)于SVR模型,參數(shù)kernel、C、gamma與epsilon分別代表核函數(shù)類型、懲罰項(xiàng)大小、核函數(shù)參數(shù)和距離誤差.對(duì)于隨機(jī)森林模型,參數(shù)estimators代表了使用到的基本樹模型的數(shù)量.

      表1 不同機(jī)器學(xué)習(xí)方法的帶隙預(yù)測(cè)的MAE、MSE分?jǐn)?shù)

      表2是測(cè)試集通過不同的機(jī)器學(xué)習(xí)方法預(yù)測(cè)帶隙與真實(shí)值的比較.從表2數(shù)據(jù)可以看出,在多元化合物帶隙極小(≤-8.0 eV)或極大(≥-3.0 eV)的情況下進(jìn)行4種模型的預(yù)測(cè),得到的預(yù)測(cè)帶隙誤差較大,但在帶隙數(shù)值合理的范圍(-7.0 eV≤G0W0≤-4.0 eV)內(nèi),預(yù)測(cè)值與真實(shí)值非常接近,誤差在0.5 eV范圍內(nèi).在選取模型時(shí),基于線性嶺回歸模型和Lasso模型預(yù)測(cè)得到的帶隙數(shù)值相較其他而言比較接近,而且由于采用了線性回歸的方法,算法的復(fù)雜度并不高,更能提高今后更大數(shù)據(jù)量研究的計(jì)算效率.而由圖4可以看出,結(jié)合測(cè)試集預(yù)測(cè)結(jié)果的對(duì)比與誤差分析,雖然在少數(shù)情況下SVR的預(yù)測(cè)精度較高,但在大多數(shù)情況下隨機(jī)森林的預(yù)測(cè)精度更好,而造成這種結(jié)果的原因是隨機(jī)森林有許多調(diào)整參數(shù),構(gòu)建獨(dú)立的決策樹,并對(duì)每個(gè)決策樹的帶隙預(yù)測(cè)進(jìn)行平均.

      表2 測(cè)試集預(yù)測(cè)帶隙的比較

      4 結(jié)語(yǔ)

      隨著數(shù)據(jù)科學(xué)和高效的機(jī)器學(xué)習(xí)工具的不斷發(fā)展,機(jī)器學(xué)習(xí)已經(jīng)在不同領(lǐng)域用于解決某些特定的問題,為材料科學(xué)中許多尚未解決的問題提供了一個(gè)獨(dú)特的思路.本文提出了幾個(gè)機(jī)器學(xué)習(xí)方案訓(xùn)練并預(yù)測(cè)帶隙,所選取的多元化合物帶隙值約為-11~0 eV,基于機(jī)器學(xué)習(xí)方法,訓(xùn)練可以預(yù)測(cè)帶隙值的模型.結(jié)果表明,使用僅基于成分信息的特征集,能夠進(jìn)行帶隙預(yù)測(cè)并且具有合理的準(zhǔn)確性.本工作討論的模型中,運(yùn)用隨機(jī)森林算法建立的模型具有最佳性能,MAE和MSE分別是1.096 eV和2.087 eV,而SVR算法在多元化合物帶隙的預(yù)測(cè)中也表現(xiàn)出較好的效果.與第一性原理方法相比,這些機(jī)器學(xué)習(xí)方法可以在顯著降低計(jì)算成本的情況下可靠地預(yù)測(cè)帶隙.由此可見,基于機(jī)器學(xué)習(xí)預(yù)測(cè)多元化合物帶隙的方法是可行的.進(jìn)一步改進(jìn)模型的兩個(gè)主要方向是增加更多的訓(xùn)練數(shù)據(jù)和使用特征工程,將材料晶體結(jié)構(gòu)加入到特征集中,具有進(jìn)一步提高預(yù)測(cè)精度的潛力.

      猜你喜歡
      帶隙機(jī)器化合物
      機(jī)器狗
      機(jī)器狗
      碳及其化合物題型點(diǎn)擊
      碳及其化合物題型點(diǎn)擊
      密度泛函理論計(jì)算半導(dǎo)體材料的帶隙誤差研究
      一種基于BJT工藝的無運(yùn)放低溫度系數(shù)的帶隙基準(zhǔn)源
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      間距比對(duì)雙振子局域共振軸縱振帶隙的影響
      一款高PSRR低溫度系數(shù)的帶隙基準(zhǔn)電壓源的設(shè)計(jì)
      電子制作(2018年1期)2018-04-04 01:48:38
      例析高考中的鐵及其化合物
      静乐县| 乌兰察布市| 连州市| 澜沧| 读书| 祁门县| 清苑县| 连江县| 望城县| 盱眙县| 手游| 建德市| 鹤庆县| 湘阴县| 天长市| 安乡县| 宜章县| 江华| 吴江市| 黎平县| 临汾市| 长宁县| 丰台区| 黄大仙区| 惠来县| 休宁县| 上思县| 肃北| 黄浦区| 浙江省| 天水市| 崇礼县| 酒泉市| 老河口市| 前郭尔| 浦东新区| 潍坊市| 页游| 沾益县| 揭阳市| 垦利县|