包國強,顧維根,穆維國,周 南,崔 森,李志強,,李妍嬌,周恩會,,4,趙躍民,,4,董 良,,4
(1.國家能源集團 新疆能源有限責任公司,新疆 烏魯木齊 830002;2.中國礦業(yè)大學 人工智能研究院,江蘇 徐州 221116;3.中國礦業(yè)大學 化工學院, 江蘇 徐州 221116;4.煤炭加工與高效潔凈利用教育部重點實驗室(中國礦業(yè)大學),江蘇 徐州 221116)
氣固流化床由于其傳熱、傳質(zhì)效率高,床層穩(wěn)定性好等特點,已被廣泛應用于煤化工、煤燃燒和煤炭分選等工業(yè)領(lǐng)域[1-3]。其中最小流化速度是流化床運行最重要參數(shù)之一。作為固定床向流化床變化的轉(zhuǎn)折點,最小流化速度是流態(tài)化領(lǐng)域研究的熱點。其中ERGUN和ORNING[4]提出的床層壓降方程用于預測最小流化速度應用較為普遍。
由于機器學習[5-6]預測精度較高,在學術(shù)界和工業(yè)界影響逐漸增大,并在化工領(lǐng)域也得到了廣泛的應用。機器學習可大幅降低模型復雜性,提高預測精度,并得到更為完善且更適用的模型[7]。在機器學習中,決策樹是一種決策支持工具,是利用樹狀圖形或模型來輔助決策[8]。隨機森林是一種相對較新的數(shù)據(jù)挖掘方法,是在分類和決策樹的基礎上發(fā)展起來,用于處理變量之間的非線性關(guān)系[9]。隨機森林算法實現(xiàn)簡單、精度高、抗過擬合能力強,當面對非線性數(shù)據(jù)時,適于作為基準模型[10]。
針對最小流化速度,由于實際過程中很難獲得顆粒的球形度以及床層的最小空隙率,因此,各國學者對ERGUN的方法進行了簡化處理,建立了許多經(jīng)典模型[11-22]。經(jīng)典模型雖能在一定程度上對最小流化速度進行預測,但模型通常是根據(jù)幾個影響因素的幾個試驗點開發(fā),模型預測精度存在較大誤差。因此,有必要通過機器學習和數(shù)據(jù)挖掘方法,從顆粒性質(zhì)(密度、粒度)與設備條件等方面綜合考慮,研究氣固流化床的最小流化速度,以系統(tǒng)評估對最小流化速度的綜合影響。筆者采用隨機森林驗證了其預測最小流化速度的可行性,并考察了設備參數(shù)、顆粒密度和顆粒粒度共3個影響因素在預測最小流化速度時的相對重要性。隨機森林模型的準確預測和模型背后的新見解為最小流化速度提供了全面的理解,并為流態(tài)化理論計算以及工業(yè)放大提供了指導。
諸多學者在理論分析和試驗測定的基礎上,建立了許多經(jīng)驗或半經(jīng)驗的關(guān)聯(lián)式計算最小流態(tài)化速度,見表1。
表1 氣固流化床中最小流化速度模型
K1、K2為學者基于最小流化速度公式Remf=
(K2+K2Ar)1/2-K1(其中,Remf和Ar分別為最小流化氣速條件下的雷諾數(shù)和阿基米德數(shù),根據(jù)顆粒形狀和顆粒間堆積空隙率對其修正所得到的參數(shù))。但由于研究所采用的物料不同,得到的關(guān)聯(lián)式在預測的準確性和適用性方面也不盡相同。通過整理相關(guān)文獻,考察了顆粒性質(zhì)(密度、粒度)與設備條件(床體直徑)對最小流化速度的影響。最小流化速度的試驗數(shù)據(jù)見表2。由表2可得到26個輸入變量、最小流化速度的上下限,并通過箱線圖得到了特征數(shù)據(jù)的統(tǒng)計分布。任何2個變量之間的線性相關(guān)性由皮爾遜相關(guān)系數(shù)衡量。
表2 Geldart A類顆粒最小流化速度的試驗結(jié)果
皮爾遜相關(guān)系數(shù)r定義為
(1)
數(shù)據(jù)規(guī)范化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎工作。不同評價指標往往具有不同的量綱,數(shù)值間的差別可能很大,不處理可能會影響數(shù)據(jù)分析結(jié)果。為了消除指標之間的量綱和取值范圍差異的影響,需要進行標準化處理,將數(shù)據(jù)按照比例縮放,使之落入一個特定的區(qū)域,便于進行綜合分析。作為輸入的影響因素的數(shù)據(jù)首先通過公式(2)進行數(shù)據(jù)歸一化處理:
(2)
應用隨機森林對氣固流化床的預測模型進行訓練和優(yōu)化。隨機森林的實施分為以下3個子步驟[7]:① 隨機采樣,將數(shù)據(jù)集替換為多個子樣本;② 用不同的子樣本訓練決策樹,其中每棵樹根據(jù)訓練數(shù)據(jù)的自舉復制盡可能地生長,每個葉子節(jié)點輸出節(jié)點中所有標簽值的平均值;③ 最后通過對所有樹的性能進行平均,獲得最終估計值。將全部數(shù)據(jù)隨機分為訓練組和測試組,比例為70∶30。隨機森林模型的5個調(diào)諧參數(shù)包括決策樹的數(shù)量、尋找最佳分割時要考慮的特征數(shù)量、樹的最大深度、分割內(nèi)部節(jié)點所需的最小樣本數(shù)量以及位于葉節(jié)點所需的最小樣本數(shù)量。決定系數(shù)也稱為擬合優(yōu)度,用于評價擬合的好壞,決定系數(shù)越高,代表可以被解釋的程度越高,回歸模型的效果越好。使用決定系數(shù)[30-31]可在測試集上評估模型的性能。
決定系數(shù)定義為
(3)
超參數(shù)是用訓練組的數(shù)據(jù)通過網(wǎng)格搜索算法確定的。對決策樹的數(shù)量應用循環(huán)語句,通過10倍交叉驗證找到最佳超參數(shù),衡量指標是決定系數(shù),然后使用最佳參數(shù)重新訓練模型,并用剩余的30%數(shù)據(jù)進行測試。通過網(wǎng)格搜索算法,分割最小數(shù)量、樹的最大深度、節(jié)點內(nèi)最小樣本數(shù)量、最小子葉節(jié)點數(shù)分別為2、10、2、1。決策樹的數(shù)量取每10個數(shù)作為一個階段,來觀察決定系數(shù)的變化,通過運行網(wǎng)格搜索算法,結(jié)果如圖1所示,當決策樹的數(shù)量達到151時,決定系數(shù)最高。
圖1 決定系數(shù)與決策樹數(shù)量關(guān)系Fig.1 Relation diagram between decisioncoefficient and decision tree quantity
部分相關(guān)圖和相對重要性分數(shù)用于解釋影響變量的重要性。FRIEDMAN[32]為了理解預測對每個影響變量的依賴性質(zhì),引入了部分依賴圖。通過選擇影響變量的多個值,使用其他影響變量的所有情況下的每個值預測輸出,然后計算所有情況下的平均輸出,可以獲得部分相關(guān)圖。單個隨機森林中影響變量的相對重要性分數(shù)可以通過由該影響變量確定的所有分割平方改進總和來獲得[33]。
根據(jù)收集的數(shù)據(jù)集,獲得了特征數(shù)據(jù)的箱線圖統(tǒng)計分布,如圖2所示。設備條件(床體直徑)、顆粒性質(zhì)(密度、粒度)以及最小流化速度的數(shù)值分布變化范圍和離散幅度較大,且不同特征變量的數(shù)量級相差較大。其中,床體直徑變化在3.5~20.0 cm;顆粒密度變化在1 150~4 600 g/cm3;顆粒粒度變化在20~143 μm;最小流化速度變化在0.10~0.87 cm/s。綜上可知,各變量數(shù)據(jù)值極差較高,對預測模型的魯棒性具有一定的挑戰(zhàn)。為了進一步分析收集的數(shù)據(jù)集各個特征變量間的相互關(guān)系,對各個變量進行了皮爾遜相關(guān)系數(shù)分析,相關(guān)系數(shù)R的絕對值越大,特征之間的相關(guān)性越大。收集特征變量間相關(guān)性矩陣熱圖如圖3所示。由圖3可知,最小流化速度與顆粒粒徑、顆粒密度和床體直徑均呈正相關(guān),相關(guān)系數(shù)分別為0.79、0.31、0.14。顆粒粒徑對其影響最大,顆粒粒徑增大,最小流化速度也隨之增大。應用機器學習方法建立了一個高質(zhì)量的預測模型,并探討了各影響因素的相對重要性以及輸入變量之間的相互作用。
圖2 收集特征變量的箱線圖Fig.2 Box plot for collecting characteristic variables
圖3 收集特征變量間相關(guān)性矩陣熱圖Fig.3 Collect the heat map of correlation matrixbetween characteristic variables
隨機森林算法的超參數(shù)與最佳模型相對應,通過10倍交叉驗證,分別用于對不同輸入變量的最小流化速度預測模型的再訓練。開發(fā)模型的性能如圖4所示。圖4(a)顯示了最佳隨機森林模型在測試集上預測的最小流化速度預測值與試驗值的對比結(jié)果,圖4(b)顯示了最佳隨機森林模型在測試上獲得了最大決定系數(shù)0.875,實現(xiàn)了較低的損失和較高的決定系數(shù)。因此,最佳隨機森林模型可以很好地推廣到測試集上,最佳隨機森林模型在預測最小流化速度方面較為準確。
圖4 測試集上最佳隨機森林模型的性能Fig.4 Performance of the optimal random forest model on the test set
床層直徑、顆粒密度和顆粒粒度的數(shù)值作為因素特征用于最小流化速度預測,評估了各因素對最小流化速度的相對重要性。如圖5所示,所有重要性分數(shù)的總和被定標為1,各特征因素的重要性由大到小依次為:顆粒粒徑、顆粒密度和床體直徑。該排序與文中各個變量的皮爾遜相關(guān)系數(shù)分析的相關(guān)性結(jié)果一致。顆粒粒徑的重要性得分為0.783,成為最小流化速度最敏感的變量,超過了顆粒密度的權(quán)重,遠超過了床體直徑的權(quán)重。床體直徑的重要性得分為0.018 78,對最小流化速度的影響較小。顆粒粒度對最小流化速度的影響最大,而床體直徑影響最小,該結(jié)論與付芝杰[34]的研究結(jié)論相符。
圖5 影響變量的重要性得分Fig.5 Importance score of the influencing variables
在確定了每個輸入特征變量的相對重要性之后,需要更好地理解輸入變量和輸出變量之間的依賴關(guān)系。一般來說,當一個影響變量發(fā)生變化時,輸出響應越大,該影響變量就越顯著。此外,通過分析輸出隨該影響變量的變化,可以觀察到影響變量和輸出變量之間呈正相關(guān)或負相關(guān)。通過對所有特征的值進行平均,部分相關(guān)圖被用于可視化某1個或2個特征對最小流化速度的總體影響趨勢。單向部分依賴性的結(jié)果如圖6所示,其中x軸上的刻度表示目標特征值的分形,反映了數(shù)密度。由圖6可知,顆粒粒度對最小流化速度的影響呈近似線性上升,但斜率隨著粒徑的升高而逐漸減小,如圖6(a)所示。顆粒密度對最小流化速度的整體影響線性上升波動較低,顆粒密度在1 150~4 600 g/cm3時,斜率隨著密度的升高而幾乎保持不變,如圖6(b)所示。床體直徑對最小流化速度的影響最小,其依賴性為近似水平的直線,如圖6(c)所示。部分相關(guān)圖和影響變量的相對重要性分數(shù)揭示了重要的發(fā)現(xiàn),并指出最小流化速度預測的研究潛力。
圖6 預測最小流化速度的最佳隨機森林模型中特征變量的部分相關(guān)圖Fig.6 Partial correlation diagram of characteristic variables in an optimal random forest model for predicting the minimum fluidization rate
1)利用隨機森林的機器學習方法,從床層直徑、顆粒密度和顆粒粒度3個方面預測了氣固流化床的最小流化速度。最小流化速度與顆粒粒徑、顆粒密度和床體直徑均呈正相關(guān),皮爾遜相關(guān)系數(shù)分別為0.79、0.31、0.14,顆粒粒徑與最小流化速度相關(guān)性最強。
2)通過網(wǎng)格搜索算法,得到了最佳隨機森林模型,并在測試上獲得了最大決定系數(shù)0.875,實現(xiàn)了較低的損失和較高的決定系數(shù)。
3)通過部分相關(guān)圖和影響變量的相對重要性分數(shù)分析,得知顆粒粒徑對氣固流化床的最小流化速度的變化起主要作用。同時,得到了各特征因素對最小流化速度的影響方式,同時驗證了收集特征變量間的皮爾遜相關(guān)系數(shù)分析的正確性。