• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具的集成與優(yōu)化

      2020-12-02 06:06:56董家源楊小渝
      關(guān)鍵詞:目標(biāo)值原子案例

      董家源,楊小渝*

      1. 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

      2. 中國(guó)科學(xué)院大學(xué),北京 100049

      引 言

      對(duì)于材料科學(xué)研究人員而言,由于材料數(shù)據(jù)的稀缺和不易獲取、特征向量的構(gòu)建過(guò)程較為困難,以及最終構(gòu)建的模型往往難以在較短的時(shí)間內(nèi)取得一個(gè)比較好的擬合精度,想要開(kāi)展材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的相關(guān)工作,有較高的門檻。為了解決這些問(wèn)題,我們提出并研發(fā)了一種能自動(dòng)尋找供材料數(shù)據(jù)挖掘所需的特征變量的算法,能自動(dòng)進(jìn)行超參數(shù)調(diào)節(jié)使模型達(dá)到一個(gè)較好擬合精度的算法,以及能獲取不同來(lái)源的材料計(jì)算數(shù)據(jù)方法和技術(shù)。通過(guò)對(duì)這些算法的研發(fā)和一些數(shù)據(jù)獲取方法的集成,系統(tǒng)降低材料數(shù)據(jù)挖掘的門檻,使得研發(fā)人員可以更快地構(gòu)建一個(gè)擬合精度較高的高可用模型。同時(shí)系統(tǒng)還可提供一些用于結(jié)果展示的可視化模塊,方便研發(fā)人員使用。

      在工具集成方面,我們基于高通量材料計(jì)算與數(shù)據(jù)管理云平臺(tái)MatCloud[28-29],通過(guò)集成一些主流的材料計(jì)算數(shù)據(jù)庫(kù)的API[20,26],實(shí)現(xiàn)了對(duì)于一些材料計(jì)算數(shù)據(jù)庫(kù)的訪問(wèn),如Materials Project[1],The Materials Data Facility[2]等,使得用戶可以一鍵獲取到這些數(shù)據(jù)庫(kù)中的數(shù)據(jù),同時(shí)還可以進(jìn)行拼接等操作,使得同時(shí)使用這些數(shù)據(jù)成為了可能;其次是對(duì)于特征向量的獲取方法,用戶想要獲取存在于繁雜的文獻(xiàn)當(dāng)中的描述材料結(jié)構(gòu)的特征因子非常困難,我們也是通過(guò)集成的方法,整合了一些文獻(xiàn)中的特征向量構(gòu)建方法供用戶使用;最后是關(guān)于特征的選擇、模型的選擇、以及模型超參數(shù)的優(yōu)化方面,我們提出和集成了幾種算法并做了一些對(duì)比試驗(yàn),簡(jiǎn)化了材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的流程。

      綜上所述,隨著人們對(duì)豬常見(jiàn)疾病的關(guān)注程度逐漸提升,如何保證豬常見(jiàn)疾病控制質(zhì)量,成為有關(guān)人員關(guān)注的重點(diǎn)問(wèn)題。本文通過(guò)研究豬常見(jiàn)疾病的防控措施發(fā)現(xiàn),對(duì)其進(jìn)行研究,能夠大大提升豬常見(jiàn)疾病的控制效果,同時(shí)還能夠促進(jìn)我國(guó)豬養(yǎng)殖行業(yè)的發(fā)展。由此可以看出,研究豬常見(jiàn)疾病的控制措施,能夠?yàn)榻窈筘i常見(jiàn)疾病控制的發(fā)展奠定基礎(chǔ)。

      組織和開(kāi)展的實(shí)驗(yàn)教學(xué)競(jìng)賽活動(dòng)可分為校內(nèi)競(jìng)賽、地區(qū)性競(jìng)賽和全國(guó)性競(jìng)賽等不同規(guī)模的賽事。舉辦競(jìng)賽可有效激發(fā)實(shí)驗(yàn)教師的競(jìng)爭(zhēng)意識(shí)、上進(jìn)意識(shí),對(duì)實(shí)驗(yàn)教師專業(yè)能力和實(shí)驗(yàn)教學(xué)能力的促進(jìn)和提高,意義匪淺。

      在最后的部分,本文引入了兩個(gè)案例,講述了用戶如何通過(guò)使用我們的模塊,加速他們的工作流程,尤其是數(shù)據(jù)的獲取和特征向量的構(gòu)建,以及模型的選擇和參數(shù)設(shè)置這幾個(gè)方面。

      綜上所述,本文基于MatCloud 平臺(tái),著眼于研發(fā)一個(gè)操作簡(jiǎn)便的材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)模塊Auto-Mat,使得用戶在基于MatCloud 的交互式界面僅通過(guò)鼠標(biāo)點(diǎn)擊的方式,即可完成數(shù)據(jù)獲取、特征提取、模型訓(xùn)練等一系列流程,并且不要求用戶具有機(jī)器學(xué)習(xí)和材料學(xué)等領(lǐng)域的背景知識(shí)。

      《甄嬛傳》和《紅樓夢(mèng)》中的女人們都是生活在“鐘鳴鼎食之家、翰墨詩(shī)書(shū)之族”,物質(zhì)生活上是錦衣玉食無(wú)一所缺的,但是在行動(dòng)自由度和精神生活的豐富性方面卻有很大不同。

      1 架構(gòu)設(shè)計(jì)

      圖1 給出了本文的數(shù)據(jù)挖掘模塊Auto-Mat 的架構(gòu)設(shè)計(jì)圖。該模塊在架構(gòu)設(shè)計(jì)上共分為三個(gè)部分:(1)前端用戶交互界面,負(fù)責(zé)在數(shù)據(jù)導(dǎo)入界面和模型訓(xùn)練界面提供一個(gè)圖形化的接口,接受用戶的輸入?yún)?shù)。同時(shí)也負(fù)責(zé)為用戶在前端提供一個(gè)可視化的模型下載接口。由HTML5 和AngularJS 編寫(xiě);(2)后臺(tái)處理模塊,負(fù)責(zé)對(duì)用戶輸入的參數(shù)進(jìn)行預(yù)處理,以及調(diào)用數(shù)據(jù)讀取、特征提取、模型訓(xùn)練等相應(yīng)腳本,并完成將訓(xùn)練結(jié)果等數(shù)據(jù)對(duì)前端頁(yè)面的回傳;(3)腳本模塊,用來(lái)執(zhí)行實(shí)際的數(shù)據(jù)挖掘功能,包括通過(guò)調(diào)用MatMiner API 獲取數(shù)據(jù)、提取特征,通過(guò)調(diào)用scikit-learn 工具包進(jìn)行模型的訓(xùn)練,以及相關(guān)自動(dòng)化特征篩選和自動(dòng)化超參數(shù)優(yōu)化算法的實(shí)現(xiàn)。

      圖1 整體架構(gòu)Fig.1 Overall architecture

      圖2 給出了用戶通過(guò)該模塊構(gòu)建的機(jī)器學(xué)習(xí)任務(wù)的主要工作流程。主要步驟為:(1)用戶通過(guò)數(shù)據(jù)導(dǎo)入模塊,選擇數(shù)據(jù)的來(lái)源與待預(yù)測(cè)的目標(biāo)值,該階段獲取的數(shù)據(jù)只包括原始的結(jié)構(gòu)信息;(2)系統(tǒng)自動(dòng)以原始的結(jié)構(gòu)信息作為輸入,盡可能多地提取特征;(3)如果特征數(shù)量較多,啟用我們的特征篩選方法,只留下對(duì)目標(biāo)值地預(yù)測(cè)貢獻(xiàn)度較高的特征; (4)根據(jù)用戶的選擇,決定是否啟用特征重組算法,來(lái)增強(qiáng)模型的性能;(5)模型訓(xùn)練階段,根據(jù)用戶的選擇,使用用戶輸入的超參數(shù)或者是啟用我們的算法自動(dòng)選擇超參數(shù);(6)開(kāi)始模型訓(xùn)練。

      圖2 機(jī)器學(xué)習(xí)任務(wù)流水線Fig.2 Machine learning task pipeline

      2 材料數(shù)據(jù)挖掘工具詳細(xì)介紹

      2.1 數(shù)據(jù)導(dǎo)入模塊

      2.1.1 用戶交互界面

      圖3 是數(shù)據(jù)導(dǎo)入模塊的前端交互界面展示圖。用戶可以通過(guò)選擇數(shù)據(jù)庫(kù)、化合物體系、目標(biāo)值來(lái)決定數(shù)據(jù)的選取。我們?cè)诮缑嬖O(shè)計(jì)上借鑒了Citrination[6]的search data 界面,主要在于通過(guò)用戶的輸入來(lái)篩選數(shù)據(jù)集的邏輯。Citrination 中用戶可以輸入的信息包括:化學(xué)式、數(shù)據(jù)庫(kù)篩選、目標(biāo)性質(zhì)選擇。而我們的篩選方式和Citrination 最大的不同在于,我們支持選擇一類化合物體系,而Citrination 只支持一個(gè)特定的化學(xué)式。

      與此同時(shí),我們目前集成了幾個(gè)材料信息學(xué)領(lǐng)域很經(jīng)典的特征,包括庫(kù)倫矩陣[8]、MBTR[9]等,可以供熟悉材料領(lǐng)域的研究者們選擇。

      圖3 數(shù)據(jù)導(dǎo)入模塊的人機(jī)交互界面Fig.3 The interactive interface of the data import module

      2.1.2 數(shù)據(jù)處理

      依托于后端集成的Materials Project、Aflow、The Materials Data Facility、ASE 等豐富的材料數(shù)據(jù),我們的用戶可以在這個(gè)界面內(nèi)實(shí)現(xiàn)“一站式”的數(shù)據(jù)讀取。我們?cè)诤蠖藢?duì)數(shù)據(jù)進(jìn)行了統(tǒng)一化的處理,使得我們可以把不同來(lái)源的數(shù)據(jù)“拼接”到一起來(lái)使用。這一點(diǎn)對(duì)于材料科學(xué)的研究者而言將會(huì)非常有幫助。

      材料科學(xué)中面臨的一個(gè)比較大的問(wèn)題就是,因?yàn)橛?jì)量單位、命名規(guī)范、數(shù)據(jù)格式等因素的不統(tǒng)一,使得數(shù)據(jù)在匯總的過(guò)程中存在著很大的困難。為此我們?cè)O(shè)計(jì)了一個(gè)統(tǒng)一的規(guī)范,并通過(guò)定義一個(gè)JSON格式的語(yǔ)義文本,將所有的規(guī)范以“key-value”鍵值對(duì)的形式存儲(chǔ)在這個(gè)語(yǔ)義文本當(dāng)中。

      舉例說(shuō)明,在Materials Project和The Materials Data Facility 兩個(gè)數(shù)據(jù)庫(kù)中,對(duì)于帶隙band_gap 這一性質(zhì)的命名和單位都不同,因此在我們的語(yǔ)義文本中定義了如表1 所示的片段。對(duì)于band_gap 的命名,在Materials Project 和MDF 數(shù)據(jù)庫(kù)中分別命名為’band_gap’和’Band Gap’,我們統(tǒng)一命名為’BandGap’;對(duì)于band_gap 的單位,在MaterialsProject 和MDF 數(shù)據(jù)庫(kù)中分別采取了以eV 為單位和以mV 為單位,我們統(tǒng)一規(guī)定使用eV 作為單位,即需要對(duì)一些數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行單位進(jìn)制上的轉(zhuǎn)化。

      表1 語(yǔ)義文本片段Table 1 Semantic text fragments

      2.1.3 特征提取

      為了讓沒(méi)有領(lǐng)域知識(shí)的人,僅給定化合物的晶體 描述[4](一般為CIF 文件,Crystallographic Information File)就能自動(dòng)獲取到關(guān)鍵材料特征,我們分為2 步:(1)用戶給出化合物的CIF 文件,我們盡可能多的獲取該化合物的特征,形成基礎(chǔ)特征庫(kù);(2)系統(tǒng)自動(dòng)篩選出與目標(biāo)值相關(guān)度最高,而自身相關(guān)性最低的特征變量。本章節(jié)先介紹特征提取的基本方法。

      目前主流的特征提取方法主要分為以下幾種[10]:

      2.1.5 特征重組算法

      (1)結(jié)構(gòu)(Structure)特征,利用晶胞的形狀和晶胞的總體結(jié)構(gòu),提取描述晶體結(jié)構(gòu)的特征,比如鍵長(zhǎng)的最大值、空間群編號(hào)等;

      (2)組分(Composition)特征,根據(jù)化學(xué)式構(gòu)成,提取元素相關(guān)的特征;

      (3)原子位置(Sites)特征,基于原子位置和坐標(biāo)的分布,提取的特征,該類特征向量的長(zhǎng)度可能會(huì)與原子個(gè)數(shù)有關(guān)。

      接下來(lái),對(duì)輸入的40 個(gè)特征按照其在特征權(quán)重向量 中對(duì)應(yīng)權(quán)重的絕對(duì)值從大到小排序,留下權(quán)重絕對(duì)值最大的10 個(gè)特征。

      2.1.3.1 結(jié)構(gòu)特征

      晶胞的結(jié)構(gòu)特征,一般包括全局的鍵長(zhǎng)、鍵角、電荷作用等;以及描述間接結(jié)構(gòu)信息的編碼方式,一般有庫(kù)倫矩陣、徑向分布函數(shù)[12]、Ewald 能量、結(jié)構(gòu)異質(zhì)性[13]、多體張量表示等。

      下面主要介紹關(guān)于庫(kù)倫矩陣的詳細(xì)內(nèi)容:庫(kù)倫矩陣是一個(gè)比較經(jīng)典的結(jié)構(gòu)特征,在Goh[15]等人的工作中提到,很多使用傳統(tǒng)或是深度學(xué)習(xí)方法構(gòu)建“結(jié)構(gòu)-性能”模型的文章中都會(huì)嘗試使用庫(kù)倫矩陣作為輸入特征。

      晶胞的結(jié)構(gòu)特征需要具有平移、旋轉(zhuǎn)、翻轉(zhuǎn)不變的特性[16],而庫(kù)倫矩陣就具備這一特性。庫(kù)倫矩陣是一個(gè)n×n 的矩陣,其中n 為晶胞內(nèi)的原子個(gè)數(shù),而矩陣中的每一項(xiàng)為:

      員工團(tuán)隊(duì)工作效率的提升,對(duì)企業(yè)創(chuàng)新戰(zhàn)略,促進(jìn)企業(yè)核心競(jìng)爭(zhēng)力的提升都具有十分重要的影響。而基于學(xué)習(xí)型組織的員工團(tuán)隊(duì)創(chuàng)新管理,對(duì)員工團(tuán)隊(duì)精神的培養(yǎng)和員工團(tuán)隊(duì)意識(shí)的培養(yǎng)以及員工團(tuán)隊(duì)價(jià)值的實(shí)現(xiàn)都具有重要的促進(jìn)作用。

      然而庫(kù)倫矩陣在實(shí)際使用中依然會(huì)遇到兩個(gè)問(wèn)題:(1)當(dāng)輸入的數(shù)據(jù)集中各個(gè)化合物之間原子個(gè)數(shù)不一致時(shí),構(gòu)建的庫(kù)倫矩陣的大小也不一致;(2)庫(kù)倫矩陣中的原子順序是不確定的,因此當(dāng)交換庫(kù)倫矩陣的行和列后,該矩陣依然對(duì)應(yīng)于同一個(gè)晶胞的表征。

      解決第一個(gè)問(wèn)題的方法是,可以通過(guò)向晶胞中增加“虛無(wú)原子”(invisible atoms)[8],將所有的晶胞擴(kuò)充為d 個(gè)原子(d 為數(shù)據(jù)集中原子數(shù)最多的晶胞的原子個(gè)數(shù))。第二個(gè)問(wèn)題屬于物理學(xué)領(lǐng)域內(nèi)的一大難題,即相似結(jié)構(gòu)的檢驗(yàn)。但是在這里我們可以將該問(wèn)題簡(jiǎn)化,我們不需要檢驗(yàn)相似結(jié)構(gòu),只需要保證庫(kù)倫矩陣中的原子順序固定不變即可。我們?cè)跇?gòu)建庫(kù)倫矩陣之前先對(duì)原子做一個(gè)排序,不同元素的原子按照其在元素周期表的順序排序,相同元素的原子按照其距離晶胞質(zhì)心的距離排序。這樣就保證了庫(kù)倫矩陣中原子順序的唯一性。

      2.1.3.2 組分特征

      例如:在進(jìn)行小學(xué)語(yǔ)文的教學(xué)過(guò)程中,語(yǔ)文教師要積極與其他班級(jí)的教師進(jìn)行交流與溝通,通過(guò)其他教師對(duì)自己班級(jí)學(xué)生學(xué)習(xí)情況的反應(yīng),找出學(xué)生學(xué)習(xí)問(wèn)題的共通點(diǎn),并商量解決對(duì)策,有利于促進(jìn)學(xué)生語(yǔ)文水平的提高。又或者語(yǔ)文教師可以積極與其他學(xué)校的教師進(jìn)行交流,學(xué)習(xí)其他學(xué)校的教學(xué)方法,增加自己的教學(xué)經(jīng)驗(yàn),不僅有利于自己職業(yè)素養(yǎng)的提升,還可以促進(jìn)學(xué)生的學(xué)習(xí)熱情。所以說(shuō)在小學(xué)語(yǔ)文教學(xué)中加強(qiáng)師德建設(shè),教師之間要相互交流。

      組分特征,顧名思義,根據(jù)化合物的原子組成成分,使用化學(xué)式提取得到的特征。在這里可以分為兩種: (1)從化學(xué)式中的每一種元素分別提取的性質(zhì),如,化學(xué)式中該原子的個(gè)數(shù)、電負(fù)性(electronegativity)、原子(在元素周期表中的)序號(hào)、原子質(zhì)量、原子半徑、平均離子半徑、最大氧化態(tài)、最小氧化態(tài)、在元素周期表中的行號(hào)和主族號(hào)等;(2)除此之外,還有一些基于整個(gè)化學(xué)式提取的特征,包括原子軌道、能帶中心、內(nèi)聚能、電子親和力、電負(fù)性差、每一種原子的比例、Miedema 模型、化學(xué)計(jì)量學(xué)統(tǒng)計(jì)信息、磁性過(guò)渡金屬比例、化學(xué)價(jià)軌道等。

      2.1.3.3 原子位置特征

      該類特征著眼于提取局部相鄰的兩個(gè)或是多個(gè)原子之間的特征,比如鍵長(zhǎng)、鍵角、角傅里葉級(jí)數(shù)[14]、 局部化學(xué)環(huán)境、局部原子性質(zhì)的差異度、局部泰森多邊形參數(shù)等。

      由于該類特征向量的長(zhǎng)度一般和原子個(gè)數(shù)有關(guān)系,也無(wú)法使用類似于我們?cè)?.1.3.1 章節(jié)提到的解決庫(kù)倫矩陣原子個(gè)數(shù)不確定的方法,因?yàn)橐腩愃频摹疤摕o(wú)原子”會(huì)影響一些特征對(duì)于晶胞的描述。因此需要保證輸入的數(shù)據(jù)集中的化合物之間原子個(gè)數(shù)相同。

      2.1.3.4 特征提取總結(jié)

      通過(guò)上述我們系統(tǒng)開(kāi)發(fā)的特征提取模塊,我們共獲取到了767 個(gè)特征,其中包括170 個(gè)物質(zhì)組分特征,273 個(gè)原子位置特征,324 個(gè)結(jié)構(gòu)特征,這些特征構(gòu)成了我們的“特征庫(kù)”。接下來(lái),給予我們的特征庫(kù),我們開(kāi)發(fā)了一系列的特征自動(dòng)篩選方法。

      (1)提高招投標(biāo)人員業(yè)務(wù)能力是前提條件,加強(qiáng)法制教育是主要手段。對(duì)各方參與招投標(biāo)工作人員加強(qiáng)法制教育;同時(shí)不斷加強(qiáng)對(duì)招投標(biāo)工作人員業(yè)務(wù)能力的培訓(xùn),使他們熟悉招投標(biāo)業(yè)務(wù)和程序,不斷提高業(yè)務(wù)素質(zhì)和技術(shù)水平,達(dá)到招標(biāo)工作的要求。

      特征篩選的過(guò)程共分為3 個(gè)階段:(1)去除“無(wú)效”特征;(2)去除“相似”特征;(3)保留與目標(biāo)值關(guān)聯(lián)度高的特征。

      首先,是要將自身數(shù)值變化過(guò)小的特征去除掉。由于這一步是預(yù)處理的過(guò)程,因此盡量避免誤刪掉有用的特征。一種比較常規(guī)的做法是,如果某個(gè)特征內(nèi)有95%的數(shù)據(jù)分布在5%的值域內(nèi),說(shuō)明數(shù)據(jù)的分布集中在一個(gè)很小的范圍內(nèi),又或者說(shuō)該特征的相對(duì)方差很小,這樣對(duì)于模型學(xué)習(xí)所能提供的價(jià)值就比較有限。我們可以認(rèn)為這個(gè)特征的意義不大,可以刪除[23]。

      從式(6)、式(7)、式(8)以及圖3、圖4 可知:根據(jù)最大主應(yīng)力準(zhǔn)則,當(dāng)采掘工作距離包裹體一定距離時(shí),不同采動(dòng)影響下的含應(yīng)力包裹體煤體會(huì)在上覆巖層、包裹體、瓦斯的耦合作用下沿著最大主應(yīng)力的方向發(fā)生破壞,且最大主應(yīng)力所在角度θmax隨半徑的變化趨勢(shì)都相同,都是隨距離的增大逐漸減小,最終形成口大腔小的楔形或唇形結(jié)構(gòu)斷面。當(dāng)采掘靠近應(yīng)力包裹體時(shí),楔形或唇形斷面間的破碎煤體會(huì)失去有效束縛,拋向采掘空間,從而產(chǎn)生煤與瓦斯壓出或噴出現(xiàn)象。破碎煤體拋出后,孔洞斷面皆呈楔形或唇形,這與現(xiàn)場(chǎng)煤與瓦斯壓出后經(jīng)常出現(xiàn)的口大腔小的楔形或唇形孔洞相吻合。

      比如,一種極端情況為,該特征上的數(shù)據(jù)全部都為同一個(gè)值,方差為0,這樣的特征顯然是沒(méi)有任何意義的。下圖展示的是特征抗扭截面系數(shù)wt_CN4在本案例的數(shù)據(jù)上的頻率分布直方圖,可以看到絕大部分?jǐn)?shù)據(jù)都集中在最左側(cè)一個(gè)很小的區(qū)域內(nèi),這樣的數(shù)據(jù)可以認(rèn)為是沒(méi)有價(jià)值的。

      圖4 特征變量wt_CN4 的頻率分布直方圖Fig.4 Histogram of frequency distribution of feature variable wt_CN4

      需要注意的是,變化小的特征變量未必意味著在物理學(xué)意義上一定就不是有價(jià)值的特征。由于我們主要還是基于數(shù)理統(tǒng)計(jì)方法對(duì)特征進(jìn)行篩選,沒(méi)有考慮特征的物理意義,變化大特征對(duì)模型訓(xùn)練的影響大于變化小的特征,因此我們還是對(duì)變化小的特征予以篩除,以保持整個(gè)方法的一致性。

      按設(shè)定的閾值我們保留一部分剩余特征(如為300 到350 個(gè)之間)。而在這一階段被丟棄的特征主要為原子位置信息和化學(xué)鍵的信息等原始單一特征。這進(jìn)一步說(shuō)明了原始的晶胞結(jié)構(gòu)信息是無(wú)法直接作為模型輸入的。

      接下來(lái),我們需要將變化趨勢(shì)“相似”的特征剔除掉。因?yàn)樽兓厔?shì)相似的特征往往意味著不能為模型帶來(lái)新的信息,或者說(shuō)該特征可以由其他特征推斷出來(lái)。

      以往的研究者比如Pabitra[23]等人使用了K-NN或者K-Means 聚類[24]的方式來(lái)判斷特征之間的相似性,然而這種評(píng)價(jià)方式受特征值域的影響很大,并不客觀。

      因此,我們使用spearman 相關(guān)系數(shù)來(lái)刻畫(huà)兩個(gè)特征之間的相似度。為此,我們計(jì)算了每?jī)蓚€(gè)特征之間的spearman 相關(guān)系數(shù),并以此構(gòu)建了一個(gè)相關(guān)系數(shù)矩陣,來(lái)描述每?jī)蓚€(gè)特征之間的關(guān)系。

      假設(shè)該矩陣為M,則

      或者說(shuō),矩陣中每一個(gè)元素表示了對(duì)應(yīng)兩個(gè)特征之間的spearman 相關(guān)系數(shù),相關(guān)系數(shù)越高,說(shuō)明兩個(gè)特征越“相似”。因此,我們希望我們篩選出來(lái)的特征集合的總體相似度盡量小。假設(shè)篩選出來(lái)的最優(yōu)特征集合為,則:

      我們沒(méi)有找到多項(xiàng)式時(shí)間的方法來(lái)解決該問(wèn)題(或許不存在這樣的方法)。我們?cè)谶@里使用 “蒙特-卡羅”方法[25]來(lái)找到一個(gè)近似的最優(yōu)解。我們隨機(jī)地生成10000 個(gè)特征集合(特征集合即上面提到的),并在這些特征集合中,找到總體相關(guān)系數(shù)最小的一個(gè)特征集合,作為此階段輸出的特征集。經(jīng)過(guò)反復(fù)的嘗試,我們認(rèn)為設(shè)置此階段剩余的特征數(shù)大致在30-50 之間,可以在模型準(zhǔn)確性和運(yùn)行效率之間取得一個(gè)比較不錯(cuò)的平衡,具體數(shù)字由算法自動(dòng)確定。此階段剩余的特征基本保留著組分特征、位置特征、結(jié)構(gòu)特征這三類特征中比較常見(jiàn)的特征,比如空間群序號(hào)、熔點(diǎn)、以及一些化學(xué)鍵的性質(zhì)等。

      如何彌補(bǔ)這個(gè)缺陷呢?西方文明發(fā)展演進(jìn)邏輯借鑒或模仿頗具神學(xué)色彩或“形而上學(xué)”特征的各種形式,將“天賦人權(quán)”簡(jiǎn)稱為“人權(quán)”,視為一種“天然道義”,始終占據(jù)“人類道義”和“文明發(fā)展”的制高點(diǎn),任何人都不敢也不能質(zhì)疑可能存在的問(wèn)題。這就是西方文明發(fā)展演進(jìn)邏輯將“天賦人權(quán)”視為普世價(jià)值,并將自身視為人權(quán)、國(guó)際法等方面的代表者和維護(hù)者的原因。而實(shí)際上,卻從未真正實(shí)現(xiàn)自由平等。

      最后一個(gè)階段,我們希望保留對(duì)于目標(biāo)值的預(yù)測(cè)貢獻(xiàn)度最高的特征。在Ouyang[22]等人的文章里提到過(guò)使用LASSO 的方法篩選特征,我們?cè)谶@個(gè)階段也采用了這樣的方法。將本案例中的40 個(gè)特征作為L(zhǎng)ASSO 回歸的輸入,來(lái)預(yù)測(cè)目標(biāo)值,然后對(duì)每一個(gè)特征值的LASSO 權(quán)重進(jìn)行排序,留下LASSO 權(quán)重最大的10 個(gè)特征。之所以在這個(gè)階段留下10 個(gè)特征,一方面是因?yàn)楹Y選出的10 個(gè)特征已經(jīng)足夠描述該化合物,因?yàn)槲覀兊膶?shí)驗(yàn)表明前10 個(gè)特征的LASSO權(quán)重在95%以上,也就是說(shuō)在構(gòu)建模型時(shí)候,如果使用比較“稀疏化”的模型,那么后30 個(gè)特征對(duì)模型的貢獻(xiàn)度很??;另一方面是因?yàn)榻酉聛?lái)的特征重組算法比較耗時(shí),為了減小時(shí)間的開(kāi)銷,因此盡量降低此階段輸出特征的數(shù)量。

      LASSO 特征篩選算法大致介紹如下:

      首先,使用L1-正則化的線性回歸算法,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行擬合,得到如下所示的特征權(quán)重向量。

      其中X為訓(xùn)練樣本,y為目標(biāo)值, 為預(yù)先設(shè)置的超參數(shù),我們這里按照scikit-learn[3]中的默認(rèn)值取0.1。

      黑龍江省龍江電器集團(tuán)有限公司成立于1996年,為中小型企業(yè),現(xiàn)有職工370人。龍江電器集團(tuán)有限公司自2002年起開(kāi)始推行企務(wù)公開(kāi)工作。近年來(lái),該公司以落實(shí)“三個(gè)代表”重要思想,貫徹黨的依靠方針為指導(dǎo),著力在規(guī)范、鞏固、深化、創(chuàng)新、實(shí)效上下功夫。隨著企務(wù)公開(kāi)的不斷開(kāi)展,企業(yè)民主管理渠道不斷拓寬,廣大職工建功立業(yè)、奉獻(xiàn)企業(yè)的熱情不斷高漲,該公司保持長(zhǎng)周期安全穩(wěn)定可持續(xù)發(fā)展。該公司先后榮獲國(guó)家“五一勞動(dòng)獎(jiǎng)?wù)隆?、省“廠務(wù)公開(kāi)民主管理先進(jìn)單位”、省、市“文明單位”等多項(xiàng)榮譽(yù)。

      關(guān)于可靠性性評(píng)估更詳細(xì)的說(shuō)明參見(jiàn)第3 章應(yīng)用案例。

      最后,基于上述篩選的特征,我們進(jìn)行部分特征的重組。

      方法語(yǔ)步常用詞匯:scope,field,domain,contain,cover,include,outline,test study,investigate,examine,experiment,discuss,consider,analyze,analysis,use,apply,application等

      為了能自動(dòng)地從最基本的化學(xué)式和結(jié)構(gòu)特征中提取出和目標(biāo)值更為相關(guān)的特征,我們提出一個(gè)自動(dòng)化的特征重組算法[22],算法的輸入是帶有基本特征的數(shù)據(jù),如元素相對(duì)原子質(zhì)量、原子半徑、晶胞結(jié)構(gòu)等,經(jīng)過(guò)一些算術(shù)操作后,輸出一系列的特征組合。

      最后,地區(qū)政府需要及時(shí)依照中央頒布的餐飲法律文件標(biāo)準(zhǔn)[9],根據(jù)本地區(qū)餐飲經(jīng)濟(jì)的融資趨勢(shì),將中央有關(guān)文件精神落實(shí)到餐飲企業(yè)融資行為管控工作中,有效維護(hù)餐飲企業(yè)自身的經(jīng)營(yíng)權(quán)益。

      特征重組的方法是,對(duì)原始特征的一些數(shù)學(xué)運(yùn)算的疊加。比如,(1)中的IE 表示第一電離能,

      2.1.4 特征自動(dòng)篩選

      表示原子共價(jià)半徑,d表示原子之間的間距, 表示泡利電負(fù)性,這些都是算法輸入的原始特征;輸出的則是對(duì)這些原始特征進(jìn)行數(shù)學(xué)運(yùn)算得到的。而這些相應(yīng)的數(shù)學(xué)變換都是通過(guò)算法自動(dòng)得出的,我們的算法會(huì)根據(jù)和目標(biāo)值之間的相關(guān)性,判斷出哪些數(shù)學(xué)變換才是合適的。

      換句話講,特征重組算法并不能創(chuàng)造新的“物理學(xué)意義”上的特征,而是增強(qiáng)了原始輸入特征的泛化性能。

      我們參照了一些比較經(jīng)典的方法[10,22],在特征重組算法中,使用了一些基礎(chǔ)而簡(jiǎn)單一元和二元運(yùn)算符,一元運(yùn)算符包括:1/xx2,x3,1/x2,1/x3,log(x),exp(x),log(x),exp(x),1/log(x),1/exp(x)這幾種;二元運(yùn)算符使用了加減乘除四種運(yùn)算符。

      通過(guò)我們的算法提取出的特征,相比于輸入的原始特征而言,會(huì)顯著地增加和目標(biāo)值之間的相關(guān)性。我們進(jìn)行了如下的對(duì)比試驗(yàn):在Materials Project 的鈣鈦礦ABX3 數(shù)據(jù)集上,在使用簡(jiǎn)單結(jié)構(gòu)特征和組分特征作為原始輸入特征的情況下,使用線性回歸算法得到的結(jié)果,與不使用特征重組算法,直接將原始特征作為模型輸入時(shí)的結(jié)果,進(jìn)行對(duì)比,如表2 所示??梢钥吹教卣髦亟M算法對(duì)于模型性能提升有很大幫助。

      表2 特征重組算法的性能比較Table 2 Performance comparison of feature reconstruction algorithms

      2.2 模型訓(xùn)練模塊

      我們將主流的分類和回歸算法都集成到一個(gè)名為“ModelTraining”的模塊內(nèi)。當(dāng)用戶使用時(shí),首先選擇“Classification or Regression”,接下來(lái)選擇具體的學(xué)習(xí)器。比如,如果用戶選擇了Regression,那么接下來(lái)可以繼續(xù)選擇“Random Forest Regression”[18]。

      接下來(lái)是算法參數(shù)的設(shè)置,以回歸森林算法舉例,圖5 表示的是用戶參數(shù)設(shè)置的交互式界面。在這個(gè)界面里,用戶可以設(shè)置模型學(xué)習(xí)的相關(guān)參數(shù),比如隨機(jī)森林算法的Max Depth 參數(shù)等。參數(shù)命名方式和scikit-learn 保持一致。

      圖5 用戶設(shè)置模型參數(shù)界面Fig.5 User setting model parameter interface

      并且,用戶也可以通過(guò)勾選的方式選擇啟用我們的自動(dòng)超參數(shù)調(diào)節(jié)算法。這樣就省去了手動(dòng)調(diào)節(jié)超參數(shù)的麻煩。

      2.2.1 自動(dòng)化超參數(shù)調(diào)節(jié)

      一些復(fù)雜的學(xué)習(xí)器,如隨機(jī)森林,往往需要用戶輸入很多的超參數(shù)。超參數(shù)的選取對(duì)于模型的性能非常重要,而很多情況下默認(rèn)參數(shù)的模型表現(xiàn)往往不盡如人意。因此就需要用戶對(duì)機(jī)器學(xué)習(xí)模型的調(diào)參具有一定的經(jīng)驗(yàn)。

      而本文正是致力于幫助計(jì)算機(jī)和機(jī)器學(xué)習(xí)相關(guān)經(jīng)驗(yàn)不足的材料研究者們,因此本文實(shí)現(xiàn)了自動(dòng)化的超參數(shù)優(yōu)化算法,并在前端交互界面為用戶提供了接口(如圖5),用戶可以通過(guò)選擇自動(dòng)化超參數(shù)優(yōu)化的方式,來(lái)跳過(guò)超參數(shù)選擇的過(guò)程,從而簡(jiǎn)化了用戶訓(xùn)練模型的難度。

      使用我們的自動(dòng)化超參數(shù)優(yōu)化算法后,一般情況下模型可以獲得比默認(rèn)參數(shù)下更好的效果。我們進(jìn)行了如下的對(duì)比試驗(yàn):在Materials Project 的鈣鈦礦ABX3 數(shù)據(jù)集上,在使用章節(jié)2.1.3 中獲取到的特征作為原始輸入特征的情況下,分別使用默認(rèn)參數(shù)下的隨機(jī)森林模型和附加了我們的超參數(shù)優(yōu)化算法后的隨機(jī)森林模型進(jìn)行對(duì)比,結(jié)果如表3 所示。

      表3 超參數(shù)優(yōu)化算法的性能比較Table 2 Performance comparison of hyperparameter optimization algorithms

      2.3 可靠性評(píng)估模塊

      我們?cè)O(shè)計(jì)并集成了相關(guān)的模型評(píng)估的工具箱,使用RMSE、MAE、pearson 相關(guān)系數(shù)、spearman 相關(guān)系數(shù)和R2-Score 決定系數(shù)共五種評(píng)價(jià)指標(biāo)。

      其中,Zi表示第i 個(gè)原子的核電荷數(shù),Ri表示第i 個(gè)原子的位置。因此,非對(duì)角線位置的值是對(duì)自由原子勢(shì)能的近似,描述了兩個(gè)原子之間的相互作用;而對(duì)角線上的值則是對(duì)原子對(duì)之間的庫(kù)倫排斥的近似,描述了了其自身的原子能量。

      并且,對(duì)于隨機(jī)森林算法,我們引入并實(shí)現(xiàn)了了Julia Ling[17]等人提出的關(guān)于隨機(jī)森林的不確定性這一評(píng)價(jià)指標(biāo)。不確定性指標(biāo)通過(guò)分析訓(xùn)練集和測(cè)試集的差異性,以及訓(xùn)練集自身的分布和噪聲的影響,對(duì)隨機(jī)森林中每一個(gè)簡(jiǎn)單學(xué)習(xí)器(即決策樹(shù))的影響,計(jì)算其造成的variance 和bias 的均方根平均數(shù)。具體地,不確定性的計(jì)算公式為:

      其中,S為訓(xùn)練集的大小,(x)為樣本x在單一決策樹(shù)上的bias,使用簡(jiǎn)單決策樹(shù)是為了避免過(guò)擬合。σ(x)則描述了每一個(gè)簡(jiǎn)單決策樹(shù)在訓(xùn)練集和測(cè)試集上的協(xié)方差(Covariance)。

      同時(shí),對(duì)于一些很經(jīng)典的結(jié)構(gòu)描述符,比如庫(kù)倫矩陣,我們提高它的優(yōu)先級(jí),使其可以不參與篩選而直接使用。當(dāng)然,出于計(jì)算量的考量,它不會(huì)參與后面的特征重組算法。這種方式也是為了提升我們算法的“下限”,當(dāng)算法失效,篩選出來(lái)的10個(gè)特征不足以描述晶胞時(shí),通過(guò)像庫(kù)倫矩陣這樣的結(jié)構(gòu)描述符至少還可以保留一定的晶胞信息。

      3 應(yīng)用案例

      下面使用2 個(gè)案例講述用戶是如何使用我們的材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具,其中一個(gè)是對(duì)于材料領(lǐng)域和機(jī)器學(xué)習(xí)相關(guān)知識(shí)都不是那么了解的用戶,我們?nèi)绾瓮ㄟ^(guò)一些設(shè)置和自動(dòng)化的方法讓其以最簡(jiǎn)單的步驟構(gòu)建起屬于自己的機(jī)器學(xué)習(xí)流程;另一個(gè)是對(duì)于相關(guān)知識(shí)和目的都比較明確,我們的工具是如何保證足夠的擴(kuò)展性,為其提供充足的支持的。

      3.1 鈣鈦礦的“結(jié)構(gòu)-帶隙”模型構(gòu)建

      案例:構(gòu)建一個(gè)“結(jié)構(gòu)-帶隙”構(gòu)效關(guān)系模型,預(yù)測(cè)ABO3 型鈣鈦礦結(jié)構(gòu)化合物的能隙。擬選取的數(shù)據(jù)來(lái)源Materials Project、Citrination、MDF、ASE幾個(gè)開(kāi)放的材料計(jì)算數(shù)據(jù)庫(kù)。

      這些民間故事雖然是傳說(shuō),但又和本地的地名吻合,是有較高的可信度的。通過(guò)這堂課學(xué)生對(duì)家鄉(xiāng)的文化有了進(jìn)一步了解,更增加了想去了解的欲望,課后學(xué)生自發(fā)的找了家鄉(xiāng)民間故事讀本來(lái)傳閱。更重要的是通過(guò)這一活動(dòng)增強(qiáng)了學(xué)生對(duì)家鄉(xiāng)的熱愛(ài)之情。

      3.1.1 用戶輸入

      首先打開(kāi)數(shù)據(jù)導(dǎo)入界面后,選擇使用所有候選數(shù)據(jù)庫(kù)中的數(shù)據(jù),即對(duì)界面中所有數(shù)據(jù)庫(kù)復(fù)選框打勾。

      然后,在目標(biāo)性質(zhì)文本框中輸入band_gap。同時(shí),由于我們的用戶對(duì)于特征的篩選并不了解,按照我們的默認(rèn)建議,使用庫(kù)倫矩陣這一比較經(jīng)典的結(jié)構(gòu)描述符作為“高優(yōu)先級(jí)特征”,即不參與篩選,必定被使用的特征。同時(shí),啟用我們的自動(dòng)化特征重組方法增強(qiáng)特征的表征能力。

      發(fā)展智慧農(nóng)業(yè)需要地方政府的支持和引導(dǎo)。地方政府要積極展開(kāi)各類農(nóng)業(yè)科學(xué)技術(shù)知識(shí)、生產(chǎn)管理和農(nóng)業(yè)科技咨詢服務(wù),提升農(nóng)業(yè)競(jìng)爭(zhēng)力,推動(dòng)農(nóng)業(yè)持續(xù)發(fā)展,提高資源利用率和保障產(chǎn)品安全[1]。

      用戶輸入完成后的界面如圖6 所示。

      圖6 用戶輸入界面-案例1Fig.6 User input interface-case 1

      通過(guò)根據(jù)用戶的輸入?yún)?shù)進(jìn)行數(shù)據(jù)的讀取和特征構(gòu)建,我們獲得了原始數(shù)據(jù)并完成了對(duì)數(shù)據(jù)的特征向量化。本案例中共得到數(shù)據(jù)923 條。

      3.1.2 特征篩選

      通過(guò)特征提取模塊,共獲取到了767 個(gè)特征。接下來(lái)是特征篩選環(huán)節(jié),在本案例中,我們?cè)诘谝粋€(gè)階段的篩選留下了350 個(gè)特征;第二個(gè)階段留下了40 個(gè)特征;第三個(gè)階段留下了10 個(gè)特征。

      在本案例中,第一階段篩選出來(lái)的特征數(shù)為328,作為第二階段的輸入特征。這些特征之間的平均spearman 相關(guān)系數(shù)為0.2630,平均相關(guān)系數(shù)是通過(guò)對(duì)輸入的328×328 的相關(guān)系數(shù)矩陣中所有兩兩特征之間的相關(guān)系數(shù)取平均得到的。而篩選出的40 個(gè)特征彼此之間的平均相關(guān)系數(shù)為0.1746。因此說(shuō)明已經(jīng)顯著降低了特征之間的“相似性”。

      通過(guò)熱度圖,圖7 展示了在本案例中,通過(guò)兩個(gè)階段的特征篩選后,輸出的40 個(gè)特征中,每?jī)蓚€(gè)特征之間的相關(guān)性。圖中的“溫度”越高表示兩個(gè)特征之間的相關(guān)性越高。(因此在對(duì)角線上的元素溫度是最高的,因?yàn)槊總€(gè)特征和它自身的相關(guān)性為1。)

      圖7 特征相關(guān)性熱力圖-案例1Fig.7 Feature correlation heatmap-case 1

      下表展示了經(jīng)過(guò)了3 個(gè)階段篩選出的特征,以及和目標(biāo)值之間的相關(guān)性,可以看到,相關(guān)系數(shù)最大的特征compound possible 和std_dev wt CN_1 兩個(gè)特征的spearman 相關(guān)系數(shù)分別達(dá)到了0.46 和0.38,這對(duì)于單個(gè)特征而言,與目標(biāo)值之間的相關(guān)性還是比較大的。

      表4 第3 階段篩選后特征與目標(biāo)值之間的相關(guān)系數(shù)-案例1Table 4 Correlation between the filtered features after the third stage and the target values-case 1

      獲得上述特征后,我們還可調(diào)用特征重組算法,算法的輸入是上述三個(gè)階段篩選得到的10 個(gè)特征(不包括作為備用特征的庫(kù)倫矩陣),輸出是獲取到的特征的算術(shù)組合。本案例中我們只保留2 個(gè)重組特征,因?yàn)樵谔卣髦亟M算法的迭代過(guò)程中,其內(nèi)部也使用到了前面提到過(guò)的LASSO 算法作為特征的篩選,而當(dāng)算法運(yùn)行到最后一個(gè)迭代輪次時(shí),特征之間的權(quán)重分布的差距已經(jīng)非常大。圖8 展示了本案例中在最后一個(gè)迭代輪次時(shí)特征的權(quán)重分布。(在本案例中特征重組算法每一迭代輪次會(huì)獲取20 個(gè)重組特征,但是后面的特征的權(quán)重過(guò)小,以至于柱狀圖中都無(wú)法展示其高度。)

      圖8 特征重組中的特征權(quán)重分布Fig.8 Feature weight distribution in feature recombination

      本案例中我們獲取到的兩個(gè)重組特征分別為:

      式中的CP為compound possible,Er為Electronegativity range,PE為packing efficiency,frac為fraction of valence electrons。

      重組特征與目標(biāo)值band_gap 之間的相關(guān)性如下表所示??梢钥吹轿覀兊闹亟M特征和目標(biāo)值之間相關(guān)性非常高,也就對(duì)目標(biāo)值的預(yù)測(cè)具有很大的貢獻(xiàn)。

      表5 重組特征與目標(biāo)值相關(guān)性Table 5 Correlation between recombination features and target values

      3.1.3 模型訓(xùn)練

      在我們的工具中,用戶可以選擇隨機(jī)森林,可以選擇支持向量機(jī),也可以選擇多元線性回歸,或是其他學(xué)習(xí)器。

      由于我們的用戶對(duì)于機(jī)器學(xué)習(xí)算法不熟悉,并不知道該選擇什么學(xué)習(xí)算法,也不知道該如何設(shè)置參數(shù)。由于我們的工具支持“one-in-multi-out”的計(jì)算流程,因此我們可以同時(shí)使用多個(gè)學(xué)習(xí)器來(lái)對(duì)同一份數(shù)據(jù)進(jìn)行學(xué)習(xí),并且多個(gè)學(xué)習(xí)器之間彼此是相互獨(dú)立的。在本案例中我們同時(shí)使用了較為復(fù)雜的隨機(jī)森林算法和最簡(jiǎn)單的線性回歸算法作為學(xué)習(xí)器,如圖9。

      圖9 同時(shí)使用兩個(gè)學(xué)習(xí)器Fig.9 Using two learners at the same time

      關(guān)于參數(shù)設(shè)置,用戶在此案例中由于對(duì)機(jī)器算法不了解,因此決定啟用我們的自動(dòng)化超參數(shù)優(yōu)化算法來(lái)自動(dòng)選取超參數(shù)。

      3.1.4 模型評(píng)估

      當(dāng)整個(gè)計(jì)算過(guò)程完成后,我們可以打開(kāi)學(xué)習(xí)算法工具箱查看模型的訓(xùn)練結(jié)果,即各種量化的評(píng)價(jià)指標(biāo),這些指標(biāo)是使用測(cè)試集進(jìn)行計(jì)算的。

      圖10 展示了該案例的模型評(píng)估結(jié)果,不僅給出了如前所述的一些評(píng)價(jià)指標(biāo),還繪制了一條“predicted-label”散點(diǎn)圖,每一個(gè)點(diǎn)對(duì)應(yīng)著一條數(shù)據(jù),橫軸為模型預(yù)測(cè)的目標(biāo)值值,縱軸為實(shí)際的目標(biāo)值,所以用戶可以根據(jù)散點(diǎn)群距y=x 這條直線的距離,直觀看出訓(xùn)練結(jié)果的好壞。

      圖10 可靠性評(píng)估界面-案例1Fig.10 Reliability evaluation interface-case 1

      同時(shí)由于我們使用的是隨機(jī)森林算法,我們也可以查看模型的不確定性,如圖11 所示。圖中灰線的部分即為對(duì)應(yīng)樣本的不確定性。

      不確定性是隨機(jī)森林算法特有的一種評(píng)價(jià)指標(biāo),它說(shuō)明了使用隨機(jī)森林算法,在指定數(shù)據(jù)集上,所能達(dá)到的準(zhǔn)確度的“上限”是多少。該項(xiàng)指標(biāo)計(jì)算了每一個(gè)數(shù)據(jù),所造成的不確定性(又或者說(shuō)對(duì)模型性能的影響),下圖中,每一個(gè)藍(lán)色的小圓點(diǎn)代表了本案例中鈣鈦礦數(shù)據(jù)集里的一個(gè)樣本,而其對(duì)應(yīng)的灰線則代表著該樣本造成的不確定性。

      圖11 隨機(jī)森林算法不確定性曲線圖Fig.11 Random forest algorithm uncertainty curve

      3.1.5 模型導(dǎo)出

      用戶可以在訓(xùn)練完成后的學(xué)習(xí)算法工具箱中,點(diǎn)擊Download Trained Model 按鈕,下載訓(xùn)練好的pickle 格式的模型。pickle 是基于python 的一個(gè)開(kāi)源代碼庫(kù)[5],模型文件下載到用戶本地后用戶可以使用庫(kù)函數(shù)很方便地讀入存儲(chǔ)于文件中的模型,并且與scikit-learn 完全兼容,都進(jìn)來(lái)的模型可以直接使用scikit-learn 的預(yù)測(cè)函數(shù)進(jìn)行預(yù)測(cè)。

      3.2 A2BCO6 的“結(jié)構(gòu)-體彈性模量”模型構(gòu)建

      案例:構(gòu)建一個(gè)“結(jié)構(gòu)-體彈模量”構(gòu)效關(guān)系模型,使用了Materials Project 和Ctrination 作為數(shù)據(jù)來(lái)源,并篩選出化學(xué)式滿足“A2BCO6”格式的化合物作為數(shù)據(jù)集,預(yù)測(cè)的目標(biāo)值為體彈性模量Bulk Modulus。講述一個(gè)對(duì)機(jī)器學(xué)習(xí)和物理學(xué)方面都比較了解的用戶將如何使用我們的工具。

      3.2.1 用戶輸入

      首先同樣地,該用戶需要添加一個(gè)數(shù)據(jù)導(dǎo)入模塊。

      由于該用戶希望構(gòu)建的是體彈性模量(Bulk Modulus)的模型,所以,為了區(qū)別其它彈性模量(比如剪切模量和楊氏彈性模量),該用戶決定只使用Materials Project 和Ctrination 數(shù)據(jù)庫(kù)。因?yàn)樵贛aterials Project 數(shù)據(jù)庫(kù)和Ctrination 數(shù)據(jù)庫(kù)有較豐富的體彈性模量數(shù)據(jù)。

      接下來(lái)在選擇化合物體系的界面,因?yàn)樵撚脩舻捏w系在候選當(dāng)中沒(méi)有,因此選擇Customize 并在輸入框中輸入“A2BC{O}6”,之所以氧原子要用中括號(hào)是因?yàn)?,在該化學(xué)式體系中,區(qū)別于可以使用任何原子替代的“A”、“B”、“C”原子,氧原子是不可以被替代的。比如說(shuō),在該用戶的化合物體系中可以包含Si2LiAlO6(標(biāo)準(zhǔn)化學(xué)式為L(zhǎng)iAl(SiO3)2)和C2NaMgO6 兩種化合物,但不可以包含Si2LiAlS6。

      我們這種劃分?jǐn)?shù)據(jù)集的方式一定程度上借鑒了ASE[7]數(shù)據(jù)庫(kù)中對(duì)于數(shù)據(jù)的劃分方式。ASE 數(shù)據(jù)庫(kù)中包括了ABX3、A2BCX4、ABX2 等數(shù)據(jù)集,并按照此種方式進(jìn)行了劃分。

      接下來(lái),該用戶在目標(biāo)性質(zhì)文本框中輸入elasticity.K_VRH。但是需要注意的的一點(diǎn)是,體彈性模量在Materilas Project 和Ctrination 當(dāng)中的命名方式是不同的(在Materilas Project 中命名為elasticity.K_VRH,在Ctrination 中命名為Bulk modulus),因此需要在我們定義的語(yǔ)義文本中加入以下內(nèi)容:

      表6 語(yǔ)義文本片段-案例2Table 6 Semantic text fragments-case2

      最后同樣地,用戶勾選庫(kù)倫矩陣作為結(jié)構(gòu)特征。

      用戶輸入完成后的界面如圖12 所示。本案例共獲取到201 條數(shù)據(jù)。

      圖12 用戶輸入界面-案例2Fig.12 User input interface-case 2

      3.2.2 特征獲取

      特征獲取階段和案例1 大致相同,共獲取到了767 個(gè)特征,其中包括170 個(gè)組分特征,273 個(gè)原子位置特征,324 個(gè)結(jié)構(gòu)特征,這些特征構(gòu)成了“特征庫(kù)”。

      接下來(lái)是特征篩選環(huán)節(jié),我們的算法在第一個(gè)階段的篩選留下了350 個(gè)特征;第二個(gè)階段留下了40 個(gè)特征;第三個(gè)階段留下了10 個(gè)特征。

      圖13 為第2 個(gè)階段的特征篩選后獲取到的特征之間的相關(guān)性熱度圖。本案例中,篩選之前特征之間的平均相關(guān)性為0.2744,而篩選后的平均相關(guān)性為0.1724。

      圖13 特征相關(guān)性熱力圖-案例2Fig.13 Feature correlation heatmap-case 2

      表7 展示了第3 個(gè)階段的特征篩選后,剩下的10 個(gè)特征和目標(biāo)之間的相關(guān)性??梢钥吹絩ange NUnfilled 和bond # 4 這兩個(gè)特征與目標(biāo)值得相關(guān)性也都分別達(dá)到了0.45 和0.32,作為單一特征具有和目標(biāo)值較強(qiáng)的相關(guān)性。

      表7 第3 階段篩選后特征與目標(biāo)值之間的相關(guān)系數(shù)-案例2Table 7 Correlation between the filtered features after the third stage and the target values-case 2

      (續(xù)表)

      3.2.3 模型訓(xùn)練

      當(dāng)用戶對(duì)機(jī)器學(xué)習(xí)模型較為熟悉時(shí),可以直接選擇合適的模型。比如該用戶認(rèn)為支持向量回歸(SVR)用來(lái)學(xué)習(xí)體彈性模量比較合適,可以使用SVR 模塊并手動(dòng)設(shè)置參數(shù),如圖14。在支持向量回歸中,用戶可以設(shè)置kernel 和epsilon 兩個(gè)參數(shù)。kernel 參數(shù)為SVR 的核函數(shù),為字符串格式,默認(rèn)值是“rbf”;epsilon 是經(jīng)驗(yàn)風(fēng)險(xiǎn)和正則項(xiàng)的平衡參數(shù),默認(rèn)值為0.1。

      圖14 支持向量回歸參數(shù)設(shè)置界面-案例2Fig.14 Support vector regression parameter setting interface-case 2

      4 結(jié)論與展望

      本文針對(duì)材料科學(xué)工作者開(kāi)展機(jī)器學(xué)習(xí)工作門檻較高這一現(xiàn)狀,在對(duì)前沿相關(guān)工作[30-32]充分調(diào)研的基礎(chǔ)上,介紹了基于MatCloud 框架開(kāi)發(fā)的一個(gè)材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)模塊。具體介紹了我們的數(shù)據(jù)導(dǎo)入模塊,是如何根據(jù)我們所制定的規(guī)范,完成數(shù)據(jù)的匯總,以及材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具用戶界面的設(shè)計(jì)與實(shí)現(xiàn)、特征提取和模型訓(xùn)練模塊的工作原理等細(xì)節(jié)。

      最后,通過(guò)兩個(gè)案例,詳細(xì)闡述了我們的模塊是如何簡(jiǎn)化材料科學(xué)研發(fā)者上手?jǐn)?shù)據(jù)挖掘門檻的。

      本文中提到的材料數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)工具有些功能還不夠完善,因此下一步將繼續(xù)完善該工具的其他模塊。另外,本文中只著眼于使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,在下一步中會(huì)嘗試使用深度學(xué)習(xí) 方法[11,19,21,27]。

      致 謝

      本文的想法和思路來(lái)自一些公司、高校和科研院所一線的建議和反饋,作者對(duì)他們表示感謝,同時(shí)也感謝匿名審稿人對(duì)文章提出的修改意見(jiàn)。

      利益沖突聲明

      所有作者聲明不存在利益沖突關(guān)系。

      猜你喜歡
      目標(biāo)值原子案例
      少兒科學(xué)周刊·兒童版(2021年22期)2021-12-11 21:27:59
      原子可以結(jié)合嗎?
      帶你認(rèn)識(shí)原子
      案例4 奔跑吧,少年!
      ML的迭代學(xué)習(xí)過(guò)程
      隨機(jī)變量分布及統(tǒng)計(jì)案例拔高卷
      發(fā)生在你我身邊的那些治超案例
      一個(gè)模擬案例引發(fā)的多重思考
      不同危險(xiǎn)程度患者的降脂目標(biāo)值——?dú)W洲《血脂異常防治指南》
      microRNAs and ceRNAs: RNA networks in pathogenesis of cancer
      昌邑市| 湖北省| 吉安县| 中江县| 福清市| 哈巴河县| 元氏县| 金山区| 龙川县| 南郑县| 关岭| 南靖县| 赤峰市| 元朗区| 宜州市| 奉新县| 元阳县| 内江市| 铜山县| 阳信县| 西安市| 和林格尔县| 射阳县| 响水县| 昌黎县| 汤原县| 玉屏| 舒兰市| 广饶县| 安多县| 固镇县| 合山市| 塘沽区| 龙州县| 宝坻区| 芒康县| 大庆市| 虎林市| 明星| 清水县| 甘德县|