李旭鵬,鐘文義,喬守旭,*,譚思超,王庶光
(1.哈爾濱工程大學(xué) 黑龍江省核動(dòng)力裝置性能與設(shè)備重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001;2.哈爾濱工程大學(xué) 核安全與先進(jìn)核能技術(shù)工信部重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001)
氣液兩相流的流型是化工、石油以及火力、核能發(fā)電等行業(yè)生產(chǎn)過(guò)程中的一個(gè)重要參數(shù)[1-2],對(duì)流型的精準(zhǔn)預(yù)測(cè)對(duì)于生產(chǎn)應(yīng)用有著重要意義。當(dāng)今的流型識(shí)別,主要依靠可視化技術(shù)得到的圖像和電導(dǎo)探針、電阻式空隙儀所得到的水力特性來(lái)進(jìn)行研究[3-5]。這些實(shí)驗(yàn)研究對(duì)于兩相流特性有較好引導(dǎo)作用,但此類流型識(shí)別的方法主要以可視化方法為主,具有一定主觀性。實(shí)驗(yàn)中所得到的兩相流型圖為經(jīng)驗(yàn)流型圖[6],其水和空氣的表觀流速均處于低流速區(qū)(0~4 m/s),無(wú)法滿足實(shí)際生產(chǎn)應(yīng)用。
為解決上述流型識(shí)別研究中的問(wèn)題,隨著近年來(lái)機(jī)器學(xué)習(xí)的快速發(fā)展,諸多國(guó)內(nèi)外學(xué)者建立了基于人工神經(jīng)網(wǎng)絡(luò)的兩相流流型軟測(cè)量模型,并取得了較好效果[7-10]。但神經(jīng)網(wǎng)絡(luò)模型有以下幾個(gè)缺點(diǎn)[11]:1) 收斂速度慢,需要大量的時(shí)間成本與算力;2) 需要大量特征量來(lái)訓(xùn)練以防止過(guò)擬合,兩相流的特征較為難取;3) 需要較龐大的訓(xùn)練集進(jìn)行訓(xùn)練以保證預(yù)測(cè)精度,而大多數(shù)情況下仍以開(kāi)展小批量實(shí)驗(yàn)為主,獲得樣本數(shù)據(jù)較少,使得其工程應(yīng)用較為困難。對(duì)于少樣本、少特征條件下分類,適用的模型組要有支持向量機(jī)(support vector machine, SVM)、K近鄰算法(K-nearest neighbor, KNN)和決策樹(shù)(decision tree, DT)3種。這3種模型的識(shí)別效果均優(yōu)于人工神經(jīng)網(wǎng)絡(luò),其中屬SVM的預(yù)測(cè)精度最佳[12]。然而單一的簡(jiǎn)單分類器精度無(wú)法超越集成學(xué)習(xí)模型(ensemble learning, EM)[13],其中以決策樹(shù)為基分類器的隨機(jī)森林(random forest, RF)算法可以滿足精度要求。
RF是Bagging集成方法中最具有代表性的算法[14],通過(guò)集成每棵樹(shù)的分類結(jié)果進(jìn)行投票最終得出分類結(jié)果。近十幾年來(lái),RF算法在各領(lǐng)域均得到了飛速發(fā)展,在生物學(xué)、信息技術(shù)、地理地質(zhì)及經(jīng)濟(jì)管理等領(lǐng)域中均有廣泛應(yīng)用[15-19]。
人工魚(yú)群算法(artificial fish swarms algorithm, AFSA)[20]是一種新型的優(yōu)化算法,該算法利用了魚(yú)的聚群、覓食和追尾這3個(gè)基本行為,采用自上而下的尋優(yōu)模式從構(gòu)造個(gè)體的底層行為開(kāi)始,通過(guò)魚(yú)群中各個(gè)體的局部尋優(yōu),達(dá)到全局最優(yōu)值在群體中凸顯出來(lái)的目的。
本文提出一種利用基于AFSA優(yōu)化RF的優(yōu)化識(shí)別模型,用以開(kāi)展豎直下降兩相流流型的精準(zhǔn)預(yù)測(cè)。通過(guò)對(duì)流量計(jì)所獲得的氣液兩相流速、雷諾數(shù)、施密特?cái)?shù)以及處理后特征數(shù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)實(shí)驗(yàn)較難達(dá)到的高流速區(qū)進(jìn)行預(yù)測(cè)。
本實(shí)驗(yàn)使用空氣-水兩相流,在室溫20 ℃、標(biāo)準(zhǔn)大氣壓下展開(kāi)。如圖1[5]所示,實(shí)驗(yàn)系統(tǒng)主要由空氣壓縮機(jī)、氣相回路、離心泵、水箱、液相回路、兩相混合腔、氣水分離器、實(shí)驗(yàn)本體和測(cè)量系統(tǒng)所組成。其中,水箱容量為1 m3,兩相混合腔為雙環(huán)空腔結(jié)構(gòu)的兩相注入系統(tǒng),實(shí)驗(yàn)管道內(nèi)徑為50.8 mm,測(cè)試段長(zhǎng)徑比為66,氣流量由轉(zhuǎn)子流量計(jì)測(cè)量,精度為±3%,水流量通過(guò)電磁流量計(jì)測(cè)量,精度為±5%。實(shí)驗(yàn)中,氣相表觀速度(jg)為0.01~4 m/s,液相表觀速度(jf)為0.2~4 m/s。
圖1 實(shí)驗(yàn)系統(tǒng)示意圖Fig.1 Schematic diagram of test facility
實(shí)驗(yàn)過(guò)程中,空氣先通過(guò)氣體壓縮機(jī)壓縮至0.7 MPa,然后引至實(shí)驗(yàn)本體頂部的兩相混合腔與引自水箱的去離子水混合,最終進(jìn)入實(shí)驗(yàn)本體實(shí)現(xiàn)自上而下的流動(dòng)。在經(jīng)過(guò)試驗(yàn)段后,進(jìn)入氣水分離器,經(jīng)過(guò)分離后的氣體直接釋放到外部環(huán)境,去離子水則通過(guò)水管回路返回水箱。
圖2 豎直下降兩相流流型 Fig.2 Two-phase flow regime in vertical-downward tube
圖2為作者研究所獲得的豎直下降兩相流流型,主要分為泡狀流、彈狀流、攪混流和環(huán)狀流4種典型流型[5]。其中,泡狀流的氣泡大小均勻,呈橢球狀或球狀,分散于連續(xù)液相中。彈狀流中有細(xì)長(zhǎng)的氣彈跟隨在液彈的下游,這些氣彈通常有一個(gè)偏心的頭部,指向與流動(dòng)方向相反的方向,并且它們的弦長(zhǎng)大于管道直徑。在尾部附近,小氣泡從邊緣被剪切掉,形成尾流區(qū)。攪混流中,高度扭曲的氣段塞占據(jù)了整個(gè)管徑,而連續(xù)的氣段塞之間存在著高度混亂的液塞,在壁面附近形成了攜帶小氣泡的波狀液膜;此外,在尾流區(qū)還存在逆流現(xiàn)象。環(huán)狀流中,連續(xù)氣相夾帶液滴在管道中心流動(dòng),壁面附著有一層連續(xù)且呈波浪狀液膜。
對(duì)實(shí)驗(yàn)所選工況的流型繪制流型圖及流型轉(zhuǎn)換邊界,如圖3所示。從圖3可看出,不同流型之間有著高度的非線性可分特性。
圖3 流型與轉(zhuǎn)換邊界Fig.3 Flow pattern and conversion boundary
RF算法[14]在以決策樹(shù)(decision tree, DT)為基學(xué)習(xí)器構(gòu)建Bagging[21]集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)屬性的選擇。該分類模型的原理是利用與決策樹(shù)相同的樹(shù)狀結(jié)構(gòu),將數(shù)據(jù)記錄進(jìn)行分類,樹(shù)的1個(gè)葉結(jié)點(diǎn)即代表某個(gè)條件下的1個(gè)記錄集,根據(jù)記錄字段的不同取值建立樹(shù)的分支[22]。
對(duì)機(jī)器學(xué)習(xí)中的決策樹(shù)而言,如果帶分類的事物集合可劃分為多個(gè)類別中,則某個(gè)類(xi)的信息可定義如下:
I(X=xi)=-log2p(xi)
(1)
其中:I(X)為隨機(jī)變量的信息;p(xi)為xi發(fā)生時(shí)的概率。
為克服決策樹(shù)對(duì)樣本空間過(guò)度分割導(dǎo)致過(guò)擬合的問(wèn)題,RF使用Bagging方法集成決策樹(shù),通過(guò)對(duì)若干個(gè)單個(gè)的決策樹(shù)分類器經(jīng)過(guò)特定的結(jié)合策略形成了1個(gè)強(qiáng)分類器模型。RF在訓(xùn)練決策樹(shù)模型的過(guò)程中,增加了隨機(jī)屬性的選擇,經(jīng)過(guò)n個(gè)決策樹(shù)訓(xùn)練后,使每個(gè)分類結(jié)果進(jìn)行投票決出最終類別。其絕對(duì)多數(shù)投票法的投票過(guò)程可如式(2)所示:
H(x)=
(2)
過(guò)擬合的主要原因是模型學(xué)習(xí)了太多樣本中的隨機(jī)誤差。因?yàn)镽F隨機(jī)選擇了樣本和特征,并且將很多這樣的隨機(jī)樹(shù)進(jìn)行了平均,這些隨機(jī)誤差也隨之被平均,乃至相互抵消。因此,RF有效防止了過(guò)擬合的問(wèn)題,并能顯著提高分類精度。
實(shí)驗(yàn)中所得到的兩相流型圖為經(jīng)驗(yàn)流型圖,其兩相流流速均處于低流速(0~4 m/s)區(qū),無(wú)法滿足實(shí)際生產(chǎn)應(yīng)用。RF可通過(guò)已有的數(shù)據(jù)對(duì)樣本集外的區(qū)域進(jìn)行預(yù)測(cè),實(shí)現(xiàn)流型圖的擴(kuò)展。
對(duì)于這類樣本集外區(qū)域的特征,稱作超范圍特征,不同的超范圍特征所組成的情況稱為超范圍情況。對(duì)于流型圖這類的二維圖表主要有單一特征擴(kuò)展以及多特征擴(kuò)展,需對(duì)原本不需劃分訓(xùn)練集和測(cè)試集的數(shù)據(jù)進(jìn)行分類。
圖4 超范圍特征Fig.4 Classification of beyond condition case
如圖4所示,本文將特征值高區(qū)作為未知的空白區(qū)域測(cè)試集,然后進(jìn)行訓(xùn)練與預(yù)測(cè),這樣訓(xùn)練的模型才能有效對(duì)超范圍特征預(yù)測(cè),且可初步判斷流型圖擴(kuò)展之后是否可靠,提高擴(kuò)展后流型圖的準(zhǔn)確率與可信度。
由于需實(shí)現(xiàn)流型圖的擴(kuò)展,RF分類算法默認(rèn)的方式精度較低。除對(duì)其參數(shù)與訓(xùn)練集進(jìn)行一定的優(yōu)化選取外,還需對(duì)其參數(shù)進(jìn)行優(yōu)化。
RF分類算法有兩個(gè)重要的參數(shù):葉子數(shù)(MinLeaf)和樹(shù)數(shù)(nTree),分別代表著葉子節(jié)點(diǎn)的最小樣本數(shù)目和指定RF中分類器的個(gè)數(shù)。傳統(tǒng)RF算法優(yōu)化中大多使用窮舉法、網(wǎng)格搜索法和交叉驗(yàn)證法。窮舉法和網(wǎng)格搜索法效率低下,而交叉驗(yàn)證在小樣本情況下會(huì)過(guò)高估計(jì)參數(shù)值[23]。
利用AFSA尋找最佳MinLeaf、nTree以及訓(xùn)練集與測(cè)試集劃分的RF分類模型主要流程如圖5所示。
圖5 AFSA-RF模型流程Fig.5 Process of AFSA-RF model
主要涉及以下步驟。1) 劃分集合:按照所需流型特征域與已有特征域關(guān)系依照超范圍特征分類法,隨機(jī)劃分訓(xùn)練集和測(cè)試集。2) 種群初始化:隨機(jī)生成系列MinLeaf、nTree初始人工魚(yú)群。3) 人工魚(yú)覓食、群聚與追尾:人工魚(yú)隨機(jī)在范圍內(nèi)選擇新的點(diǎn)進(jìn)行覓食,如果滿足條件向其靠近1步,探索周圍鄰居魚(yú)的最優(yōu)位置,當(dāng)最優(yōu)位置的目標(biāo)函數(shù)值大于當(dāng)前位置的目標(biāo)函數(shù)值并且不是很擁擠,則當(dāng)前位置向最優(yōu)鄰居魚(yú)移動(dòng),否則繼續(xù)覓食。4) 選擇操作:若滿足人工魚(yú)群中止條件,輸出最佳MinLeaf、nTree參數(shù)組合,否則重新進(jìn)行覓食、群聚與追尾行為直至找到最佳MinLeaf、nTree。5) 精度檢測(cè):將最佳MinLeaf、nTree組合輸入RF模型進(jìn)行測(cè)試,判斷是否滿足精度要求。6) 建立AFSA-RF模型:若符合精度要求,記錄最優(yōu)MinLeaf、nTree參數(shù)和特征子集組合以完成模型建立并開(kāi)展預(yù)測(cè)集分類預(yù)測(cè)。
如圖6所示,采用2.2節(jié)所述超范圍情況選取法選取實(shí)驗(yàn)工況145組,其中設(shè)置訓(xùn)練集與測(cè)試集比例接近7∶3。訓(xùn)練集中流型占比:泡狀流,38.6%;彈狀流,22.8%;攪混流,15.9%;環(huán)狀流,21.8%。測(cè)試集中流型占比:泡狀流,36.4%;彈狀流,22.8%;攪混流,18.2%;環(huán)狀流,22.8%。將jg、jf、雷諾數(shù)(Re)、施密特?cái)?shù)(Sc)4個(gè)基本特征及其經(jīng)過(guò)簡(jiǎn)單計(jì)算處理所得的處理特征作為特征輸入,將流型標(biāo)簽作為網(wǎng)絡(luò)輸出,其中,流型標(biāo)簽為泡狀流、彈狀流、攪混流、環(huán)狀流。
圖6 工況數(shù)據(jù)選取Fig.6 Working condition data selection
網(wǎng)絡(luò)訓(xùn)練前,對(duì)數(shù)據(jù)初始化參數(shù)。設(shè)置MinLeaf、nTree的參數(shù)組合尋優(yōu)范圍為[1,20]與[1,300],生成魚(yú)群規(guī)模10,最多迭代次數(shù)300,最多試探次數(shù)10,感知距離1,擁擠度因子0.618,步長(zhǎng)0.1。參數(shù)尋優(yōu)過(guò)程中RF訓(xùn)練目標(biāo)準(zhǔn)則設(shè)置為PRF_for_AF≥170,PRF_for_AF的表達(dá)式為:
(3)
(4)
其中:Ptrain為模型訓(xùn)練的精度;Ptest為模型對(duì)超范圍特征區(qū)域預(yù)測(cè)精度;Pdifference為二者之差。該式既能要求兩個(gè)精度均達(dá)到較高水平,又可在保證不過(guò)擬合和欠擬合的情況下使對(duì)超范圍特征區(qū)域預(yù)測(cè)精度盡可能高,以達(dá)到對(duì)高流速區(qū)域精準(zhǔn)預(yù)測(cè)。在滿足上述條件下,基于AFSA優(yōu)化RF的袋外失誤率變化情況如圖7所示,隨著迭代次數(shù)的增加,袋外失誤率也逐漸減小并趨于范圍收斂,表明優(yōu)化模型參數(shù)設(shè)置得當(dāng),訓(xùn)練效果較好。此時(shí)最佳MinLeaf、nTree分別為9、83。此時(shí),AFSA-RF模型針對(duì)當(dāng)前特征子集的訓(xùn)練精度和測(cè)試精度分別為93.07%和90.91%。
圖7 袋外失誤率Fig.7 Out of bag error
RF模型中影響因子為袋外觀測(cè)置換變量增量錯(cuò)誤(OOBPermutedVarDeltaError),其定義為均方誤差與標(biāo)準(zhǔn)差之比,其定義式為:
OOBPermutedVarDeltaError=
(5)
利用最佳MinLeaf、nTree和特征子集組合構(gòu)建優(yōu)化模型并實(shí)現(xiàn)預(yù)測(cè)集中流型分類,經(jīng)過(guò)AFSA-RF模型訓(xùn)練之后,如圖8所示,得出影響因子最大的3組特征值依次是氣/液流速之比、氣相流速和液相流速。流型圖繪制通常以氣相流速、液相流速為坐標(biāo),故本文選用氣、液表觀流速及氣液兩相流速比這3個(gè)特征作為特征輸入。
圖8 特征影響力排序Fig.8 Ranking of influence characteristic
通過(guò)訓(xùn)練集數(shù)據(jù)構(gòu)造的預(yù)測(cè)模型對(duì)所有原始數(shù)據(jù)的預(yù)測(cè)結(jié)果列于表1,其中錯(cuò)誤流型全部位于流型轉(zhuǎn)換邊界線附近,本文認(rèn)為造成這一現(xiàn)象的原因是轉(zhuǎn)換邊界處流型特征向量間區(qū)別較小,交叉重疊的雜糅信息過(guò)多。其中彈狀流的精度最低的原因主要是由于它與其他3種流型均有轉(zhuǎn)換邊界,容易使模型誤判。
表1 原始數(shù)據(jù)預(yù)測(cè)結(jié)果Table 1 Forecast results of original data
通過(guò)按照2.2節(jié)與3.1節(jié)所述方法選擇的訓(xùn)練集數(shù)據(jù)構(gòu)造的低流速區(qū)域(jg≤2 m/s,jf≤4 m/s)預(yù)測(cè)模型所作的流型圖及其與實(shí)際流型對(duì)比如圖9所示。
通過(guò)全部數(shù)據(jù)構(gòu)造的預(yù)測(cè)模型所作的低流速區(qū)域(jg≤2 m/s,jf≤4 m/s)和高流速區(qū)域(jg≤4 m/s,jf≤8 m/s)的流型圖分別如圖10a、b所示,從圖10c可知,使用訓(xùn)練集數(shù)據(jù)得出的流型圖與使用所有數(shù)據(jù)得出的流型圖,僅因全部數(shù)據(jù)中多了一些轉(zhuǎn)換邊界附近的補(bǔ)充,使泡狀流-塞狀流轉(zhuǎn)換邊界有局部微調(diào),但針對(duì)流速較高的部分,轉(zhuǎn)換邊界幾乎完全相同。這說(shuō)明本文提出的流型圖擴(kuò)展方法有效,可使用該方法進(jìn)行高流速區(qū)域的流型預(yù)測(cè)并繪出流型圖。在此流速區(qū)域的兩相流體可通過(guò)直接讀圖或在已訓(xùn)練好的AFSA-RF模型中輸入特征進(jìn)行流型判斷。
圖9 訓(xùn)練集數(shù)據(jù)構(gòu)造流型圖Fig.9 Flow pattern graph by partial data
a——低流速區(qū)域流型圖;b——高流速區(qū)域流型圖;c——全部數(shù)據(jù)與訓(xùn)練集數(shù)據(jù)模型對(duì)比圖圖10 全部數(shù)據(jù)構(gòu)造流型圖Fig.10 Flow pattern graph by all data
重復(fù)計(jì)算10次后,經(jīng)過(guò)優(yōu)化后的RF模型的平均訓(xùn)練精度與測(cè)試精度分別為91.08%和89.55%,未優(yōu)化的RF模型的平均訓(xùn)練精度與測(cè)試精度分別為77.20%和83.18%。由此可知,經(jīng)過(guò)AFSA優(yōu)化的RF模型訓(xùn)練精度和測(cè)試精度均更高,且在實(shí)驗(yàn)觀察中發(fā)現(xiàn)未經(jīng)優(yōu)化的RF模型在第1、7、9組出現(xiàn)了較嚴(yán)重的欠擬合現(xiàn)象,在第8組出現(xiàn)了過(guò)擬合現(xiàn)象,穩(wěn)定性遠(yuǎn)不如經(jīng)過(guò)AFSA優(yōu)化過(guò)后的RF預(yù)測(cè)模型。
為評(píng)估具體模型的有效性,在相同實(shí)驗(yàn)工況的前提下,對(duì)比了窮舉法(enumeration method, EM)、交叉驗(yàn)證法(cross-validation, CV)、網(wǎng)格搜索法(grid search, GS)和AFSA 4類優(yōu)化方法對(duì)模型的預(yù)測(cè)效果的影響。如表2所列,4種模型的訓(xùn)練與預(yù)測(cè)精度均在75%以上,但除了CV和AFSA-RF以外兩種基本模型的預(yù)測(cè)效果較差。且GS和CV進(jìn)行流型判斷的模型,出現(xiàn)了較明顯的欠擬合現(xiàn)象,這是傳統(tǒng)參數(shù)優(yōu)化方法的缺陷所在。EM雖然精度有了明顯提升,但相比AFSA還有一定差距。
更高的精度預(yù)測(cè)使AFSA-RF更適合用于流型的預(yù)測(cè)與高流速區(qū)域超范圍特征預(yù)測(cè),獲得高流速區(qū)域的流型圖。但由于其設(shè)置了參數(shù)的目標(biāo)準(zhǔn)則來(lái)防止過(guò)擬合與欠擬合,而不是以完成次數(shù)或訓(xùn)練經(jīng)度為準(zhǔn)則,整個(gè)模型的計(jì)算時(shí)間遠(yuǎn)超過(guò)其他4種,高于最快的CV近55倍,故不適合直接作為在線預(yù)測(cè)模型,還需通過(guò)其他優(yōu)化方法進(jìn)行加速。
表2 不同優(yōu)化模型流型預(yù)測(cè)結(jié)果對(duì)比Table 2 Results of different models
本文通過(guò)豎直下降管內(nèi)氣-水兩相流可視化實(shí)驗(yàn),提出了AFSA-RF用于兩相流流型圖自動(dòng)生成,通過(guò)超范圍特征來(lái)劃分相應(yīng)訓(xùn)練集工況,將流型圖向外擴(kuò)展,實(shí)現(xiàn)兩相流流型圖自動(dòng)生成;通過(guò)設(shè)置參數(shù)目標(biāo)準(zhǔn)則防止過(guò)擬合和欠擬合行為的發(fā)生,保證了預(yù)測(cè)合理性和準(zhǔn)確性;通過(guò)人工魚(yú)群加速獲得合理的參數(shù)組合得到了較其他優(yōu)化模型更高的訓(xùn)練精度與測(cè)試精度。