郝佩瑤,鄭麗麗,張 輝,廖繼龍
(1.清華大學(xué)航天航空學(xué)院,北京 100084;2.清華大學(xué)工程物理系,北京 100084; 3.江蘇協(xié)鑫硅材料科技發(fā)展有限公司,徐州 221001)
目前我國(guó)鑄錠晶體硅的生產(chǎn)基本上使用G6/G7型鑄錠爐,裝料量最高達(dá)1 200 kg。為提高能源利用率和產(chǎn)率,G8型鑄錠爐也在開(kāi)發(fā)之中,鑄錠投料量將達(dá)1 400 kg左右(見(jiàn)圖1)。但采用更大尺寸的鑄錠爐后,由于硅錠的橫向尺寸變大而高度近似不變,導(dǎo)致晶體生長(zhǎng)過(guò)程中硅熔體橫向流動(dòng)受阻,生長(zhǎng)界面的穩(wěn)定性難以控制。同時(shí)側(cè)加熱器到硅熔體中心的距離增大,從調(diào)整加熱器功率到熱場(chǎng)達(dá)到穩(wěn)定所需的熱延遲時(shí)間變長(zhǎng),反饋控制更難實(shí)現(xiàn)。因此用于小尺寸晶體生長(zhǎng)的熱場(chǎng)設(shè)計(jì)將無(wú)法保證大尺寸晶體生長(zhǎng)中流動(dòng)及熱場(chǎng)的橫向均勻性,對(duì)于大尺寸鑄錠晶體硅,需要重新設(shè)計(jì)熱場(chǎng),并對(duì)橫向流動(dòng)加以控制。
此前晶體生長(zhǎng)熱場(chǎng)的設(shè)計(jì)優(yōu)化大多采用數(shù)值模擬,如Wei等[2]通過(guò)二維穩(wěn)態(tài)數(shù)值模擬研究了隔熱籠開(kāi)口大小、保溫棉熱導(dǎo)率、側(cè)隔熱籠分區(qū)塊對(duì)240 kg鑄錠多晶硅熱場(chǎng)溫度分布、晶體生長(zhǎng)界面形狀的影響,并做了能量平衡分析,結(jié)果表明在側(cè)加熱器下方增加分區(qū)塊可以將能耗減少30%。Ma等[3]通過(guò)二維穩(wěn)態(tài)數(shù)值模擬研究了側(cè)隔熱籠分區(qū)塊、加熱器數(shù)量及位置、氣流隔板對(duì)500 kg鑄錠多晶硅熱場(chǎng)溫度分布、氣流速度場(chǎng)及晶體生長(zhǎng)界面形狀的影響,研究表明:增加分區(qū)塊可以使晶體生長(zhǎng)界面由凹變凸,從而提升硅錠的品質(zhì);使用側(cè)加熱器或側(cè)、頂加熱器相結(jié)合可以有效調(diào)節(jié)溫度分布與晶體生長(zhǎng)界面形狀;在硅熔體上方增加隔板則可以防止熱場(chǎng)部件產(chǎn)生的雜質(zhì)進(jìn)入硅熔體。Ma等[4]通過(guò)二維瞬態(tài)數(shù)值模擬研究了側(cè)隔熱籠分區(qū)塊對(duì)430 kg鑄錠準(zhǔn)單晶硅生長(zhǎng)過(guò)程的影響,結(jié)果表明:增加分區(qū)塊可以將能耗減少8~14 kW并提高晶體生長(zhǎng)速率;晶體生長(zhǎng)過(guò)程中界面由凹變?yōu)槲⑼梗w沿軸向的溫度梯度和晶體內(nèi)熱應(yīng)力均有所增大;由改進(jìn)熱場(chǎng)生產(chǎn)出的準(zhǔn)單晶硅制成太陽(yáng)能電池,其平均光電轉(zhuǎn)換效率相比多晶硅提高了1.2%。Yu等[5]通過(guò)二維穩(wěn)態(tài)數(shù)值模擬研究了側(cè)隔熱籠分區(qū)塊位置、厚度、寬度對(duì)430 kg鑄錠準(zhǔn)單晶硅籽晶保護(hù)階段和生長(zhǎng)階段的影響,降低分區(qū)塊的位置、減小其寬度或厚度在籽晶保護(hù)階段有利于形成微凸的晶體生長(zhǎng)界面,為后續(xù)的生長(zhǎng)過(guò)程創(chuàng)造良好條件;在晶體生長(zhǎng)階段則有利于減小硅晶體內(nèi)部沿軸向的溫度梯度,從而減小熱應(yīng)力,也可以減弱氬氣在加熱器附近的回流,減少雜質(zhì)向硅熔體的輸運(yùn)。婁中士等[6]在側(cè)加熱器和散熱塊之間增加可移動(dòng)的隔熱環(huán),并在底部噴射氬氣以對(duì)晶體生長(zhǎng)過(guò)程進(jìn)行優(yōu)化控制。陸曉東等[7]通過(guò)數(shù)值模擬對(duì)坩堝形狀進(jìn)行優(yōu)化設(shè)計(jì),結(jié)果表明將坩堝底面由平底改為凸底可以有效提高晶體質(zhì)量。除了鑄錠晶體硅,在直拉單晶硅領(lǐng)域,滕冉等[8]和張向宇等[9]通過(guò)數(shù)值模擬研究了熱屏位置對(duì)直拉單晶硅V/G(晶體生長(zhǎng)速度與生長(zhǎng)界面處縱向溫度梯度之比)、熱應(yīng)力等的影響規(guī)律,這對(duì)于鑄錠晶體硅的熱場(chǎng)優(yōu)化也有一定的參考價(jià)值。
不同尺寸的鑄錠晶體硅生長(zhǎng)過(guò)程雖然有一定的差異,但仍存在相似性,小尺寸晶體生長(zhǎng)的規(guī)律和熱場(chǎng)設(shè)計(jì)經(jīng)驗(yàn)可以遷移到更大尺寸,以加快大尺寸熱場(chǎng)設(shè)計(jì)的進(jìn)程。機(jī)器學(xué)習(xí)可以從大量數(shù)據(jù)中獲取知識(shí)、總結(jié)規(guī)律,如Yu等[10]采用機(jī)器學(xué)習(xí)方法中的神經(jīng)網(wǎng)絡(luò)結(jié)合遺傳算法對(duì)SiC晶體的溶液生長(zhǎng)系統(tǒng)幾何形狀進(jìn)行了設(shè)計(jì)優(yōu)化。而遷移學(xué)習(xí)[11]作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,則可以將已經(jīng)學(xué)習(xí)過(guò)的知識(shí)遷移應(yīng)用到新的相似問(wèn)題中,在新問(wèn)題數(shù)據(jù)量不足的情況下也能得到較好的結(jié)果。遷移學(xué)習(xí)已在大量領(lǐng)域得到應(yīng)用,如圖像識(shí)別、自然語(yǔ)言處理等,在材料領(lǐng)域也有將遷移學(xué)習(xí)用于預(yù)測(cè)材料特性[12-13]、預(yù)測(cè)多晶硅片光致發(fā)光圖像中位錯(cuò)區(qū)域[14]的研究,而在晶體生長(zhǎng)的熱場(chǎng)設(shè)計(jì)方面則尚無(wú)遷移學(xué)習(xí)的相關(guān)應(yīng)用。
遷移學(xué)習(xí)的核心問(wèn)題是找到新問(wèn)題和原問(wèn)題之間的相似性[15],對(duì)于不同尺寸的鑄錠晶體硅來(lái)說(shuō),其相似性在于生長(zhǎng)過(guò)程的熱場(chǎng)結(jié)構(gòu)類(lèi)似、硅錠高度相近,因此可以應(yīng)用遷移學(xué)習(xí)進(jìn)行研究。本文首先基于已有的G7型鑄錠爐,通過(guò)神經(jīng)網(wǎng)絡(luò)建立熱場(chǎng)幾何參數(shù)與熱場(chǎng)評(píng)價(jià)參數(shù)之間的映射模型,然后采用遷移學(xué)習(xí)方法將該模型遷移至G8尺寸,研究不同模型結(jié)構(gòu)對(duì)遷移過(guò)程的影響,采用Dropout分析模型是否存在過(guò)擬合,再通過(guò)遺傳算法對(duì)G8熱場(chǎng)幾何參數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)大尺寸晶體硅鑄錠爐的熱場(chǎng)設(shè)計(jì),最后對(duì)優(yōu)化結(jié)果以及相同優(yōu)化方案下的G7和G8熱場(chǎng)采用數(shù)值模擬方法進(jìn)行對(duì)比分析。
圖2為晶體硅鑄錠爐的簡(jiǎn)化示意圖,G7和G8型鑄錠爐均采用側(cè)頂五面加熱結(jié)構(gòu),通過(guò)調(diào)節(jié)加熱器功率、底部隔熱籠開(kāi)口和氬氣流量等來(lái)控制晶體生長(zhǎng)過(guò)程。在熱場(chǎng)設(shè)計(jì)時(shí)首先需要重點(diǎn)關(guān)注的是側(cè)、頂加熱器的位置和體積,因其對(duì)晶體生長(zhǎng)界面、硅熔體流動(dòng)、硅晶體內(nèi)溫度梯度等均有重要影響;另外從前述文獻(xiàn)中可以看到,側(cè)隔熱籠分區(qū)塊也是熱場(chǎng)設(shè)計(jì)中的關(guān)鍵因素,在實(shí)際生產(chǎn)中通常通過(guò)在側(cè)隔熱籠臺(tái)階上放置不同高度的保溫棉來(lái)實(shí)現(xiàn)。因此本文選取與上述兩個(gè)方面相關(guān)的4個(gè)熱場(chǎng)幾何參數(shù)進(jìn)行研究,如圖2所示,分別為l1:側(cè)加熱器底部與硅區(qū)域底部的距離;l2:側(cè)加熱器頂部與硅熔體表面的距離;l3:側(cè)隔熱籠分區(qū)塊頂部與硅區(qū)域底部的距離;l4:頂加熱器與側(cè)加熱器間的橫向距離。通過(guò)調(diào)節(jié)l1與l2可以使側(cè)加熱器上下移動(dòng)并改變其體積,調(diào)節(jié)l3可以改變側(cè)隔熱籠分區(qū)塊的高度,調(diào)節(jié)l4可實(shí)現(xiàn)頂加熱器體積的改變,并且可以考慮到側(cè)、頂加熱器間的距離對(duì)熱場(chǎng)的影響。
在熱場(chǎng)設(shè)計(jì)的過(guò)程中需滿(mǎn)足以下幾個(gè)要求:減少晶體內(nèi)部的位錯(cuò)缺陷、抑制硅錠邊緣多晶、晶體生長(zhǎng)界面微凸等。晶體生長(zhǎng)速度V和生長(zhǎng)界面處熔體中的溫度梯度G是定向凝固技術(shù)的兩個(gè)重要工藝參數(shù),V/G是控制晶體長(zhǎng)大形態(tài)的重要判據(jù),為了避免組分過(guò)冷并提高晶體質(zhì)量,需盡量減小V/G,合理控制晶體生長(zhǎng)速度V,并使界面前沿熔體的溫度梯度G與其相匹配。由前期的研究工作[16]可知:減小V/G以及增大V/G在橫向的均勻度可以減少晶體內(nèi)的缺陷。
另外,生長(zhǎng)界面與坩堝壁接觸處經(jīng)常由于坩堝冷壁效應(yīng)而成核,導(dǎo)致生長(zhǎng)界面邊緣下凹,從而引起邊緣多晶特別是孿晶侵入,降低硅錠的質(zhì)量。為了提高硅錠品質(zhì),減小生長(zhǎng)界面邊緣橫向熱流密度的絕對(duì)值|q|可以使界面邊緣趨于平直,從而抑制硅錠邊緣隨機(jī)取向多晶向晶體內(nèi)部擴(kuò)展。生長(zhǎng)界面整體的形狀則可由界面中心與邊緣的高度差|Δh|來(lái)衡量,微凸的生長(zhǎng)界面需要Δh盡量小但為正值(界面中心高于界面邊緣),有利于保證晶粒垂直生長(zhǎng),減小水平方向的溫度梯度,從而減小晶體內(nèi)部的熱應(yīng)力,降低位錯(cuò)密度,并且能夠促使生長(zhǎng)界面前沿富集的雜質(zhì)排向硅錠邊緣,提高硅錠中間部分的品質(zhì)。
綜上所述,選取晶體生長(zhǎng)界面V/G的均值μ(衡量V/G的大小)和標(biāo)準(zhǔn)差σ(衡量V/G在橫向的均勻度)、界面邊緣橫向熱流密度|q|、界面中心與邊緣高度差|Δh|作為熱場(chǎng)的評(píng)價(jià)參數(shù)。
遷移學(xué)習(xí)是指利用數(shù)據(jù)、任務(wù)或模型之間的相似性,將在舊領(lǐng)域(源域)學(xué)習(xí)過(guò)的模型應(yīng)用于新領(lǐng)域(目標(biāo)域)的一種學(xué)習(xí)過(guò)程[15]。近十年來(lái)隨著深度學(xué)習(xí)的廣泛應(yīng)用,越來(lái)越多的研究人員使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),其中微調(diào)(finetune)則是最簡(jiǎn)單的深度網(wǎng)絡(luò)遷移方法。finetune就是利用已經(jīng)在源域訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,針對(duì)目標(biāo)域的問(wèn)題微調(diào)模型結(jié)構(gòu)、模型參數(shù)后重新進(jìn)行訓(xùn)練,從而得到適用于目標(biāo)域的新模型。這樣模型的訓(xùn)練速度會(huì)大大加快,并且可以提高模型精度,即使目標(biāo)域數(shù)據(jù)量較少也能得到泛化能力不錯(cuò)的模型。
前期工作[16]已介紹并應(yīng)用神經(jīng)網(wǎng)絡(luò)和遺傳算法研究了工藝對(duì)鑄錠晶體硅生長(zhǎng)過(guò)程的影響,神經(jīng)網(wǎng)絡(luò)和遺傳算法的原理此處不再贅述。
圖3顯示了使用finetune的遷移學(xué)習(xí)過(guò)程。首先基于G7型鑄錠爐的數(shù)據(jù)集通過(guò)神經(jīng)網(wǎng)絡(luò)建立前述的熱場(chǎng)幾何參數(shù)與熱場(chǎng)評(píng)價(jià)參數(shù)之間的映射模型,也就是預(yù)訓(xùn)練模型,該模型通過(guò)大量的神經(jīng)網(wǎng)絡(luò)參數(shù)存儲(chǔ)了G7尺寸鑄錠晶體硅生長(zhǎng)過(guò)程的一些規(guī)律。然后將該模型結(jié)構(gòu)導(dǎo)出并采用預(yù)訓(xùn)練模型的參數(shù)進(jìn)行初始化,隨后微調(diào)模型結(jié)構(gòu),采用基于G8型鑄錠爐的小批量數(shù)據(jù)集訓(xùn)練模型,實(shí)現(xiàn)晶體生長(zhǎng)規(guī)律從小尺寸到大尺寸的遷移。
本文采用基于實(shí)際鑄錠晶體硅生長(zhǎng)過(guò)程的數(shù)值模擬建立遷移學(xué)習(xí)所需的數(shù)據(jù)集。由于晶體生長(zhǎng)速度和流體運(yùn)動(dòng)速度都非常緩慢,假設(shè)系統(tǒng)為準(zhǔn)穩(wěn)態(tài)、不可壓。為簡(jiǎn)化計(jì)算,將鑄錠爐視為二維軸對(duì)稱(chēng),求解晶體生長(zhǎng)過(guò)程的整場(chǎng)輸運(yùn)方程[17],考慮熱傳導(dǎo)、熱場(chǎng)各部件表面間的熱輻射、結(jié)晶潛熱、氣體對(duì)流、熔體對(duì)流等,鑄錠爐外缸壁定溫300 K,氬氣流量30 L/min,爐內(nèi)壓力設(shè)置為60 000 Pa,前期的研究工作[16]已表明該數(shù)值模擬能夠較真實(shí)地反映實(shí)際生產(chǎn)過(guò)程。
根據(jù)已有的G7型鑄錠爐模型,將坩堝擴(kuò)大至G8尺寸并等比例延伸其余熱場(chǎng)部件,即可初步得到G8型鑄錠爐的模型。為綜合評(píng)價(jià)某一熱場(chǎng)的性能,選取晶體生長(zhǎng)前期和后期兩個(gè)工況,即底部隔熱籠開(kāi)口分別為80 mm和95 mm時(shí)數(shù)值模擬結(jié)果μ、σ、|q|、|Δh|的平均值作為該熱場(chǎng)的評(píng)價(jià)參數(shù),根據(jù)前面已經(jīng)完成的工藝優(yōu)化工作,在這兩個(gè)工況下設(shè)置側(cè)、頂加熱器功率比分別為2.38和1.7,調(diào)整總功率使晶體生長(zhǎng)高度分別達(dá)到132 mm和311 mm左右,假設(shè)在同一時(shí)刻生長(zhǎng)界面上各點(diǎn)的生長(zhǎng)速度V相等。
基于上述的G7和G8型鑄錠爐模型,進(jìn)行多次數(shù)值模擬以建立源域和目標(biāo)域的數(shù)據(jù)集,數(shù)據(jù)集來(lái)源及數(shù)據(jù)量大小如表1所示,表2為建立數(shù)據(jù)集時(shí)4個(gè)熱場(chǎng)幾何參數(shù)取值的變化范圍。
表1 源域和目標(biāo)域的數(shù)據(jù)集Table 1 Data sets of source domain and target domain
表2 熱場(chǎng)幾何參數(shù)變化范圍Table 2 Ranges of geometric parameters
將源域和目標(biāo)域數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)(l1、l2、l3、l4)做min-max歸一化處理,即對(duì)原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,使其映射到[0,1]之間;輸出數(shù)據(jù)(μ、σ、|q|、|Δh|)作z-score歸一化處理,使經(jīng)過(guò)處理的原始數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。采用十折交叉驗(yàn)證法進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的調(diào)參,即尋找能使神經(jīng)網(wǎng)絡(luò)泛化性能最優(yōu)的超參數(shù)值,其中超參數(shù)即為神經(jīng)網(wǎng)絡(luò)中需要人為給定的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),如隱藏層層數(shù)、各層神經(jīng)元個(gè)數(shù)、學(xué)習(xí)率(神經(jīng)網(wǎng)絡(luò)參數(shù)每次更新的步長(zhǎng))等。將經(jīng)過(guò)歸一化處理的120組源域訓(xùn)練數(shù)據(jù)隨機(jī)劃分為十等份,每次取其中一個(gè)子集為驗(yàn)證集,其余九份為訓(xùn)練集進(jìn)行訓(xùn)練,當(dāng)十個(gè)子集均作為驗(yàn)證集訓(xùn)練過(guò)一次后,為一次十折交叉驗(yàn)證。不同子集之間的驗(yàn)證結(jié)果可能會(huì)產(chǎn)生較大差異,根據(jù)劃分?jǐn)?shù)據(jù)集的方式不同,訓(xùn)練和驗(yàn)證結(jié)果也可能會(huì)產(chǎn)生變化,因此采用三種不同的劃分?jǐn)?shù)據(jù)集的方式,隨機(jī)數(shù)種子Random分別為0、5、10。經(jīng)過(guò)多次交叉驗(yàn)證,最終確定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示(偏置神經(jīng)元未畫(huà)出),隱藏層由兩層、各32個(gè)神經(jīng)元構(gòu)成,每次訓(xùn)練1 000個(gè)epoch(1個(gè)epoch表示遍歷一次訓(xùn)練數(shù)據(jù)集),初始學(xué)習(xí)率0.001,每經(jīng)過(guò)100個(gè)epoch學(xué)習(xí)率減半。
損失函數(shù)loss定義為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與實(shí)際值間的均方誤差,用于評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度,如式(1)所示:
(1)
計(jì)算所有10個(gè)子集分別作為驗(yàn)證集時(shí)預(yù)測(cè)值的絕對(duì)誤差(神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與實(shí)際值之差)均值與標(biāo)準(zhǔn)差,繪制成如圖6所示的誤差棒圖。將經(jīng)過(guò)z-score歸一化后的數(shù)據(jù)恢復(fù)至原始單位,計(jì)算相對(duì)誤差如表3所示,可以看到劃分?jǐn)?shù)據(jù)集的方式對(duì)整體的驗(yàn)證結(jié)果影響不大。
完成神經(jīng)網(wǎng)絡(luò)的調(diào)參后,重新使用源域的全部數(shù)據(jù)進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練模型Net-G7。
表3 交叉驗(yàn)證預(yù)測(cè)結(jié)果的相對(duì)誤差Table 3 Relative error of cross-validation predictions
遷移學(xué)習(xí)需要對(duì)已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),下面介紹三種不同的微調(diào)方法。如圖7所示,第一種是使用預(yù)訓(xùn)練模型的參數(shù)進(jìn)行初始化,并對(duì)所有層進(jìn)行訓(xùn)練,此為Net-TL1模型。為增加對(duì)照模型,令Net-SC模型為各層參數(shù)隨機(jī)初始化并對(duì)所有層進(jìn)行訓(xùn)練。第二種是前兩層使用預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化并固定,輸出層隨機(jī)初始化,且只訓(xùn)練輸出層,此為Net-TL2模型。第三種是在輸出層前增加了一層含有4個(gè)神經(jīng)元的隱藏層,前兩層使用預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化并固定,后兩層隨機(jī)初始化,并只訓(xùn)練后兩層,此為Net-TL3模型。
將前面得到的Net-G7模型結(jié)構(gòu)及參數(shù)遷移至目標(biāo)域,對(duì)目標(biāo)域的訓(xùn)練集通過(guò)十折交叉驗(yàn)證調(diào)參,然后使用目標(biāo)域的測(cè)試集進(jìn)行測(cè)試。測(cè)試結(jié)果的相對(duì)誤差如圖8所示,其中Net-G7表示直接使用預(yù)訓(xùn)練模型Net-G7對(duì)目標(biāo)域的測(cè)試集進(jìn)行預(yù)測(cè)。首先對(duì)Net-G7、Net-SC、Net-TL1訓(xùn)練300個(gè)epoch,初始學(xué)習(xí)率設(shè)置為0.000 3,每訓(xùn)練150個(gè)epoch學(xué)習(xí)率減半,圖8(a)顯示未經(jīng)過(guò)遷移的預(yù)訓(xùn)練模型Net-G7也可以在一定程度上對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測(cè),這也說(shuō)明了源域和目標(biāo)域的相似性。各層參數(shù)隨機(jī)初始化的Net-SC模型預(yù)測(cè)|q|和|Δh|時(shí)誤差較大,而經(jīng)過(guò)遷移的Net-TL1模型對(duì)4個(gè)參數(shù)的預(yù)測(cè)精度基本上高于其他兩個(gè)模型。然后對(duì)Net-G7、Net-SC、Net-TL2、Net-TL3訓(xùn)練600個(gè)epoch,初始學(xué)習(xí)率設(shè)置為0.003,每訓(xùn)練150個(gè)epoch學(xué)習(xí)率減半,從圖8(b)可以看出增加訓(xùn)練次數(shù)和增大初始學(xué)習(xí)率后Net-SC模型對(duì)于|q|和|Δh|的預(yù)測(cè)精度有了很大提升,然而仍小于Net-TL2模型。Net-TL3模型預(yù)測(cè)|q|和|Δh|時(shí)誤差較大,說(shuō)明Net-TL3模型(增加一層隱藏層)不適合用于此問(wèn)題的遷移。圖8(a)中的Net-TL1和圖8(b)中的Net-TL2預(yù)測(cè)精度相近,但Net-TL1所需的訓(xùn)練時(shí)間更短(Net-TL1訓(xùn)練300個(gè)epoch,而Net-TL2訓(xùn)練600個(gè)epoch),因此選擇Net-TL1作為遷移學(xué)習(xí)的模型。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的過(guò)程中,可能由于數(shù)據(jù)量過(guò)少或者神經(jīng)元數(shù)量過(guò)多而出現(xiàn)過(guò)擬合,即模型對(duì)于訓(xùn)練數(shù)據(jù)擬合得非常好,但對(duì)測(cè)試數(shù)據(jù)不能進(jìn)行較精確預(yù)測(cè),在這種情況下可以使用Dropout[18]方法來(lái)抑制過(guò)擬合。Dropout是在訓(xùn)練過(guò)程中按照一定比例隨機(jī)刪除各隱藏層的神經(jīng)元,如圖9所示,兩層隱藏層的刪除比例分別為p1、p2,被刪除的神經(jīng)元不再進(jìn)行信號(hào)傳遞,在訓(xùn)練時(shí)每傳遞一次數(shù)據(jù)就會(huì)隨機(jī)選擇要?jiǎng)h除的神經(jīng)元,從而可以減小模型對(duì)于某一個(gè)或幾個(gè)神經(jīng)元的依賴(lài)性,提高模型的泛化能力。
下面首先研究Dropout對(duì)源域模型的影響。將源域數(shù)據(jù)集按照9∶1隨機(jī)劃分為訓(xùn)練集和測(cè)試集,取4組不同的刪除比例,如表4所示,每組p1、p2訓(xùn)練3次并計(jì)算相應(yīng)測(cè)試結(jié)果相對(duì)誤差的平均值,如圖10所示。p1=p2=0.5時(shí)的測(cè)試誤差較大,說(shuō)明神經(jīng)元的刪除比例過(guò)大也會(huì)導(dǎo)致預(yù)測(cè)精度的下降,因?yàn)槊看螀⑴c訓(xùn)練的神經(jīng)元個(gè)數(shù)太少,難以精準(zhǔn)學(xué)習(xí)到數(shù)據(jù)中的規(guī)律。而其余三種情況的測(cè)試結(jié)果相近,說(shuō)明不采用Dropout處理的原始模型并未出現(xiàn)過(guò)擬合,也有較好的泛化能力。另外通過(guò)圖10可以看出μ和σ的相對(duì)誤差在刪除比例變化時(shí)也并未發(fā)生較大的改變,且二者的相對(duì)誤差均維持在一個(gè)較低的水平,說(shuō)明在G7型鑄錠爐的熱場(chǎng)結(jié)構(gòu)變化時(shí),生長(zhǎng)界面V/G的均值和標(biāo)準(zhǔn)差的變化規(guī)律易于被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到,而|q|、|Δh|的變化規(guī)律則較為復(fù)雜,可能需要更大的數(shù)據(jù)庫(kù)才能實(shí)現(xiàn)對(duì)這兩個(gè)參數(shù)更精準(zhǔn)的預(yù)測(cè)。
表4 兩層隱藏層刪除比例的不同組合Table 4 Different combinations of delete ratio for two hidden layers
然后研究Dropout對(duì)目標(biāo)域模型的影響。目標(biāo)域模型Net-TL1前兩層隱藏層的刪除比例在0~0.5間變化,使用目標(biāo)域訓(xùn)練集對(duì)每組p1、p2訓(xùn)練3次并計(jì)算相應(yīng)測(cè)試結(jié)果相對(duì)誤差的平均值,如圖11所示。不同目標(biāo)參數(shù)對(duì)兩個(gè)隱藏層的依賴(lài)程度不同,圖11(a)顯示第一層隱藏層的刪除比例p1在0~0.5變化時(shí)對(duì)μ的相對(duì)誤差影響不大,而在第二層隱藏層的刪除比例p2增大時(shí),μ的相對(duì)誤差逐漸增大,說(shuō)明μ的預(yù)測(cè)精度對(duì)于第二層隱藏層的依賴(lài)程度相對(duì)較大;圖11(b)顯示σ的預(yù)測(cè)精度在p2較大時(shí)對(duì)第二層隱藏層的依賴(lài)程度較大,而在p2較小時(shí)對(duì)第一層隱藏層的依賴(lài)程度較大;而從圖11(c)可以看出,|q|的相對(duì)誤差隨p1和p2的增大而同步增大,說(shuō)明兩個(gè)隱藏層對(duì)于|q|的預(yù)測(cè)精度均有較大影響;圖11(d)中|Δh|的相對(duì)誤差則主要隨p2的變化較大。
改變各隱藏層的刪除比例會(huì)影響目標(biāo)參數(shù)的預(yù)測(cè)誤差,但除了|q|之外對(duì)其余三個(gè)參數(shù)的影響程度較小,因此從減小|q|預(yù)測(cè)誤差的角度考慮,無(wú)需采用Dropout抑制過(guò)擬合,即p1=p2=0。
由1.1節(jié)可知本文的優(yōu)化目標(biāo)為減小μ、σ、|q|、|Δh|,采用遺傳算法NSGA-Ⅲ結(jié)合目標(biāo)域的Net-TL1神經(jīng)網(wǎng)絡(luò)模型對(duì)G8型鑄錠爐的4個(gè)熱場(chǎng)幾何參數(shù)進(jìn)行優(yōu)化。設(shè)定種群規(guī)模為1 500,進(jìn)化1 000代后得到1 330個(gè)Pareto最優(yōu)解[19](熱場(chǎng)幾何參數(shù))。由于Pareto最優(yōu)解集內(nèi)解的數(shù)量過(guò)多,首先采用K-means[20]聚類(lèi)算法按照其所對(duì)應(yīng)目標(biāo)參數(shù)的相近程度對(duì)該解集進(jìn)行分類(lèi),K-means算法就是將給定的數(shù)據(jù)集按照數(shù)據(jù)間的距離大小將其劃分k個(gè)類(lèi)別,使得同一類(lèi)中的數(shù)據(jù)相似度高,而不同類(lèi)之間的相似度低,聚類(lèi)效果的優(yōu)劣選用Calinski-Harabasz指數(shù)[21]s(k)來(lái)判斷,其數(shù)學(xué)計(jì)算公式如下:
(2)
式中:m為數(shù)據(jù)集的樣本數(shù);k為類(lèi)別數(shù);Bk為類(lèi)別間的協(xié)方差矩陣;Wk為類(lèi)別內(nèi)部數(shù)據(jù)的協(xié)方差矩陣。
Calinski-Harabasz指數(shù)s(k)越大則聚類(lèi)效果越好,對(duì)Pareto最優(yōu)解集分別取類(lèi)別數(shù)k=2~9計(jì)算Calinski-Harabasz指數(shù),如表5所示。k=2時(shí)s(k)值最大,因此將解集分為兩類(lèi),劃分后的數(shù)據(jù)集如圖12所示,由于每個(gè)Pareto最優(yōu)解對(duì)應(yīng)4個(gè)目標(biāo)參數(shù),可在每?jī)蓚€(gè)參數(shù)間均作出一個(gè)二維圖像。從圖12(a)~(e)可以看出類(lèi)1所對(duì)應(yīng)的μ、σ小于類(lèi)2,綜合圖12(b)、(d)、(f)可以看出類(lèi)1所對(duì)應(yīng)的|q|大于類(lèi)2,而從圖12(c)、(e)、(f)則可以看到兩類(lèi)對(duì)應(yīng)的|Δh|分布范圍相近。劃分后的兩類(lèi)幾何參數(shù)分別對(duì)應(yīng)了晶體生長(zhǎng)過(guò)程的不同熱場(chǎng)(針對(duì)本文的研究對(duì)象μ、σ、|q|、|Δh|而言),下面從這兩類(lèi)中各選擇一個(gè)代表解以具體研究其對(duì)晶體生長(zhǎng)的影響。
表5 類(lèi)別數(shù)k=2~9時(shí)的Calinski-Harabasz指數(shù)值Table 5 Calinski-Harabasz index values when the number of categories k=2~9
(3)
(4)
通過(guò)上述方法從已經(jīng)分好的兩類(lèi)中各選出一組代表解,得到兩個(gè)熱場(chǎng)設(shè)計(jì)方案,如表6所示。
方案1中的側(cè)加熱器體積較大,側(cè)隔熱籠分區(qū)塊距離硅區(qū)域也較近,說(shuō)明該方案在熱區(qū)的溫度較高,也會(huì)導(dǎo)致坩堝側(cè)壁溫度較高而使晶體生長(zhǎng)界面邊緣較凸,這從表6方案1的目標(biāo)參數(shù)值|q|、|Δh|也可以看出。由于分區(qū)塊距離對(duì)側(cè)加熱器輻射的阻擋,換熱臺(tái)溫度較低,晶體內(nèi)沿軸向的溫度梯度也因此會(huì)有所增大。方案2的側(cè)加熱器體積較小,位置相對(duì)方案1偏低,側(cè)隔熱籠分區(qū)塊距離硅區(qū)域較遠(yuǎn),頂加熱器體積也略小于方案1,說(shuō)明方案2的熱區(qū)溫度相對(duì)較低,坩堝側(cè)壁溫度較低,晶體生長(zhǎng)界面更平直。
表6 兩個(gè)優(yōu)化方案的熱場(chǎng)幾何參數(shù)與評(píng)價(jià)參數(shù)Table 6 Hot zone geometry parameters and evaluation parameters of two optimized schemes
將3.1節(jié)得到的兩個(gè)熱場(chǎng)設(shè)計(jì)方案分別在G8型鑄錠爐底部隔熱籠開(kāi)口為80 mm和95 mm時(shí)進(jìn)行數(shù)值模擬,其溫度分布如圖13所示,中心軸線(xiàn)左邊為方案1,右邊為方案2,標(biāo)有1 685 K的等溫線(xiàn)可視為該工況下的晶體生長(zhǎng)界面,硅晶體內(nèi)的等溫線(xiàn)間隔為5 K,硅熔體內(nèi)的等溫線(xiàn)間隔為2.5 K。從圖中可以看到方案2晶體生長(zhǎng)界面和晶體內(nèi)的等溫線(xiàn)比方案1更為平直,這有利于提高晶體質(zhì)量,并減小晶體內(nèi)的熱應(yīng)力,而方案1的等溫線(xiàn)則略凸。方案1側(cè)加熱器在硅熔體表面以上的體積較大,導(dǎo)致硅熔體內(nèi)溫度高于方案2,而熔體溫度過(guò)高會(huì)使化學(xué)反應(yīng)速率加劇,雜質(zhì)生成量增多。另外方案1硅晶體底部的溫度低于方案2,這是由于方案1較高的分區(qū)塊阻擋了側(cè)加熱器對(duì)換熱臺(tái)表面的輻射,使換熱臺(tái)溫度降低。
圖14顯示了兩個(gè)方案在硅區(qū)域中心軸線(xiàn)上的溫度分布,硅晶體底面坐標(biāo)z=0,方案1在硅晶體和硅熔體中的溫度梯度均略大于方案2,因此硅晶體內(nèi)的熱應(yīng)力會(huì)相應(yīng)增大,但這也導(dǎo)致了方案1中的V/G減小。
圖15為晶體生長(zhǎng)界面V/G的分布,在底部隔熱籠開(kāi)口80 mm時(shí)方案1的V/G明顯小于方案2,開(kāi)口95 mm時(shí)二者較為接近,說(shuō)明方案1相比于方案2更不容易發(fā)生組分過(guò)冷,而V/G沿徑向的波動(dòng)是由硅熔體對(duì)流形成的渦流導(dǎo)致的,兩個(gè)方案中V/G的波動(dòng)程度相近。綜合以上結(jié)果,選取方案2為最終優(yōu)化方案。
為說(shuō)明選定的方案2對(duì)G8熱場(chǎng)具有特定的優(yōu)化作用,并對(duì)比分析G7與G8熱場(chǎng)對(duì)硅區(qū)域影響的異同,將方案2應(yīng)用于G7型鑄錠爐,在底部隔熱籠開(kāi)口分別為80 mm、85 mm、90 mm、95 mm時(shí)進(jìn)行數(shù)值模擬,并與G8(方案2)進(jìn)行對(duì)比,如圖16所示,中心軸線(xiàn)左邊為G7,右邊為G8,標(biāo)有1 685 K的等溫線(xiàn)可視為該工況下的晶體生長(zhǎng)界面,硅晶體內(nèi)的等溫線(xiàn)間隔為5 K,硅熔體內(nèi)的等溫線(xiàn)間隔為2.5 K。在同一高度,G7在硅熔體中心的溫度高于G8,一方面由于G7的隔熱籠體積小于G8,加熱器溫度相對(duì)偏高,另一方面由于G8坩堝橫向尺寸增大,側(cè)加熱器與硅熔體中心的距離變遠(yuǎn)。而在硅晶體中,G7在同一高度的溫度低于G8,這也是由于G8橫向尺寸增大,換熱臺(tái)底部中心難以通過(guò)隔熱籠開(kāi)口輻射散熱,因此對(duì)于G8來(lái)說(shuō)應(yīng)適當(dāng)增大底部隔熱籠開(kāi)口,并可通過(guò)改變底部隔熱籠結(jié)構(gòu)來(lái)實(shí)現(xiàn)更穩(wěn)定、高質(zhì)量的長(zhǎng)晶。另外在晶體生長(zhǎng)前期(底部隔熱籠開(kāi)口80 mm),G7在生長(zhǎng)界面邊緣可以看到有輕微下凹,這會(huì)導(dǎo)致硅錠邊緣隨機(jī)取向多晶的產(chǎn)生,而G8無(wú)明顯下凹。圖17為G7和G8在硅區(qū)域中心(r=0)、1/2半徑處(r=1/2R)、邊緣(r=R)沿軸向的溫度分布,硅晶體底面坐標(biāo)z=0,從圖中可以看出G7在硅熔體和硅晶體中的溫度梯度始終略大于G8,這會(huì)導(dǎo)致晶體中較大的熱應(yīng)力。從硅區(qū)域中心到邊緣,G8的溫度分布曲線(xiàn)相比于G7逐漸向右側(cè)移動(dòng),也說(shuō)明了G8的晶體生長(zhǎng)界面更平直,沿徑向的溫度梯度較小,也使得晶體內(nèi)的熱應(yīng)力減小。
本文使用遷移學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)結(jié)合遺傳算法,基于已有的G7型鑄錠爐對(duì)更大尺寸的G8型鑄錠爐進(jìn)行了熱場(chǎng)設(shè)計(jì)。特別對(duì)得到的兩個(gè)優(yōu)化方案通過(guò)數(shù)值模擬研究其在底部隔熱籠開(kāi)口為85 mm、90 mm時(shí)的溫度分布、固液界面形狀、V/G等。方案1相對(duì)于方案2的側(cè)加熱器體積較大,位置偏高,頂加熱器體積略大,而側(cè)隔熱籠分區(qū)塊距離側(cè)加熱器更近,因此方案1在熱區(qū)的溫度高于方案2。結(jié)果表明:方案2的晶體生長(zhǎng)界面更為平直,且硅熔體溫度相對(duì)較低,有利于減少雜質(zhì)生成和降低能耗;在硅晶體中的軸向溫度梯度略小于方案1,可以減小晶體內(nèi)熱應(yīng)力;兩個(gè)方案中晶體生長(zhǎng)界面V/G沿徑向的波動(dòng)程度相近,但方案2的V/G略大于方案1,說(shuō)明方案1更不容易發(fā)生組分過(guò)冷。選取方案2為最終優(yōu)化方案,將方案2的熱場(chǎng)幾何參數(shù)應(yīng)用于G7型鑄錠爐,通過(guò)數(shù)值模擬對(duì)比相同方案下的G8型鑄錠爐在晶體生長(zhǎng)過(guò)程中的熱場(chǎng),G8在硅熔體和硅晶體中的軸向溫度梯度均小于G7,可以通過(guò)適當(dāng)增大底部隔熱籠開(kāi)口來(lái)保持一定的晶體生長(zhǎng)速度,但同時(shí)需要考慮晶體中的熱應(yīng)力問(wèn)題。在硅晶體中G8沿徑向的溫度梯度也小于G7,且晶體生長(zhǎng)界面更平直,一方面由于G7的隔熱籠體積小于G8,加熱器溫度相對(duì)偏高,另一方面是由于G8坩堝橫向尺寸增大,硅區(qū)域底部中心通過(guò)輻射散熱的相對(duì)減少所致。
本文發(fā)展的遷移模型除了用于大尺寸熱場(chǎng)設(shè)計(jì),在實(shí)驗(yàn)數(shù)據(jù)不充足的情況下還可用于數(shù)值仿真數(shù)據(jù)向?qū)嶒?yàn)數(shù)據(jù)的遷移、已有的工業(yè)數(shù)據(jù)庫(kù)向新領(lǐng)域的遷移等,這也是今后需要進(jìn)一步研究發(fā)展的方向。