周達(dá)左 陶洪峰
基金項(xiàng)目:常州紡織服裝職業(yè)技術(shù)學(xué)院(批準(zhǔn)號:51800222107)資助的課題。
作者簡介:周達(dá)左(1982-),實(shí)驗(yàn)師,從事自動(dòng)控制方面的研究,94186619@qq.com。
引用本文:周達(dá)左,陶洪峰.基于改進(jìn)FCM聚類算法的混合建模方法在苯酚濃度預(yù)測中的應(yīng)用[J].化工自動(dòng)化及儀表,2023,50(6):000-000.
DOI:10.20030/j.cnki.1000-3932.202306000
摘? 要? 為了解決單一模型無法滿足復(fù)雜化工生產(chǎn)過程預(yù)測精度要求的問題,引入混合建模方法。首先,考慮到模糊C均值聚類(FCM)算法在初始聚類中心選擇上存在的缺陷,采用SA算法和GA算法對其進(jìn)行優(yōu)化,以選擇最合適的初始聚類中心,提高聚類精度;然后,基于支持向量機(jī)建立各子類預(yù)測模型;最后,將測試樣本劃分到各子類中,采用各子類模型仿真得到預(yù)測值。采用混合建模方法和單模型方法預(yù)測苯酚濃度并與真實(shí)值對比,結(jié)果表明:筆者所提混合模型得到的平均相對誤差(MRE)和最大相對誤差(MXRE)均小于單模型的。
關(guān)鍵詞? 混合建模? 改進(jìn)FCM聚類算法? 支持向量機(jī)? 相對誤差? 苯酚濃度
中圖分類號? TP18? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼? B? ? ? ? ? ? ? ? 文章編號? 1000-3932(2023)06-0000-00
在復(fù)雜化工生產(chǎn)過程中,由于受到工藝和技術(shù)的限制,一些化學(xué)成分的質(zhì)量指標(biāo)很難直接在線檢測,因此,以經(jīng)驗(yàn)數(shù)據(jù)為基礎(chǔ)的軟測量建模方法[1]得到了廣泛應(yīng)用。此外,由于化工生產(chǎn)過程具有非線性、可控性低、工況范圍廣等特點(diǎn),單一模型根本無法滿足建模要求。而混合建模方法可從原理上解決這一問題,它先將復(fù)雜經(jīng)驗(yàn)數(shù)據(jù)劃分為若干個(gè)子區(qū)間,再分別對每個(gè)子區(qū)間建立模型,最后根據(jù)特定準(zhǔn)則獲取該化工生產(chǎn)過程的全局模型。
在混合建模領(lǐng)域中,模糊C均值(Fuzzy C-means,F(xiàn)CM)聚類方法一直是學(xué)者們研究的熱點(diǎn)[2]。雖然FCM聚類方法具有較高的搜索速度,但是其作為一種局部搜索算法,聚類中心的初值一旦選擇不當(dāng),將導(dǎo)致聚類結(jié)果很不理想。為此,筆者將模擬退火算法(Simulated Annealing,SA)與遺傳算法(Genetic Algorithm,GA)相結(jié)合用于改進(jìn)FCM聚類算法,通過改善其聚類效果,從而更好地應(yīng)用于復(fù)雜化工生產(chǎn)過程中關(guān)鍵變量的測量。
1? 改進(jìn)FCM聚類算法的基本原理
1.1? FCM聚類算法
FCM聚類算法是對K均值聚類算法的一種改進(jìn)[3,4],它采用柔性的模糊劃分法將數(shù)據(jù)樣本進(jìn)行分類,最終實(shí)現(xiàn)相同類樣本數(shù)據(jù)之間的相似度最大、不同類數(shù)據(jù)樣本之間的相似度最小的目標(biāo)[5]。
設(shè)數(shù)據(jù)樣本的容量為,將其劃分為個(gè)類別,每個(gè)類別各自的數(shù)據(jù)樣本為,是模糊劃分矩陣,每個(gè)類別相應(yīng)的聚類中心為,對于的隸屬度為,則FCM聚類算法的目標(biāo)函數(shù)可定義為:
(1)
其中,是加權(quán)參數(shù);dik表示第個(gè)樣本與第類中心之間的距離;表示數(shù)據(jù)樣本的特征數(shù)。
FCM聚類算法是為了尋找到一種最佳分類,使得式(1)的值最小。因此它要求隸屬度的總和為1,具體表示為:
(2)
個(gè)類別的聚類中心表示為:
(3)
則對于的隸屬度表示為:
(4)
通過式(3)、(4)反復(fù)修改聚類中心和隸屬度,最終在算法收斂時(shí),可得到該數(shù)據(jù)樣本的最佳分類。
通過上述對FCM聚類算法的推導(dǎo)可以看出,每個(gè)類別相應(yīng)的聚類中心的初始選擇值在整個(gè)推導(dǎo)過程中有很大影響,一旦選擇不當(dāng),將導(dǎo)致最終的聚類結(jié)果很不理想。
1.2? 算法的改進(jìn)
針對FCM聚類算法初始聚類中心難選擇的問題,采用SA算法和GA算法[6~8]優(yōu)化初始聚類中心,從而避免最終算法收斂到局部最小的問題,改進(jìn)后的聚類算法步驟如下:
a. 將SA算法、GA算法中用到的控制參數(shù)先進(jìn)行初始化操作,其中包括初始溫度、終止溫度、冷卻系數(shù)、最大進(jìn)化次數(shù)、變異概率和交叉概率。
b. 隨機(jī)生成c個(gè)初始聚類中心和初始種群,使用式(4)為每個(gè)聚類中心計(jì)算每個(gè)數(shù)據(jù)的隸屬度和每個(gè)個(gè)體的適應(yīng)度函數(shù)值。
c. 定義初始循環(huán)次數(shù)變量。
d. 采用GA算法對種群進(jìn)行選擇、交叉和變異操作產(chǎn)生新個(gè)體,對新個(gè)體采用式(4)計(jì)算隸屬度,采用式(3)計(jì)算聚類中心,并計(jì)算新個(gè)體的適應(yīng)度函數(shù)值。若,則用新個(gè)體代替舊個(gè)體;否則,以概率接受新個(gè)體,去除舊個(gè)體。
e. 若,則,轉(zhuǎn)步驟d;否則轉(zhuǎn)步驟f。
f. 若,則程序結(jié)束,返回全局最優(yōu)解;否則,轉(zhuǎn)至步驟c。
為驗(yàn)證算法的有效性,分別采用改進(jìn)前后的FCM聚類算法對二維平面上隨機(jī)生成的500個(gè)點(diǎn)(共分成4個(gè)類別)進(jìn)行聚類,結(jié)果如圖1所示。可以看出,算法改進(jìn)后,目標(biāo)函數(shù)值Jb從4.278 4變成了4.033 6,而且改進(jìn)后的算法每次計(jì)算所得的目標(biāo)函數(shù)值都是最優(yōu)的。
2? 混合模型建模方法
2.1? 支持向量機(jī)
作為統(tǒng)計(jì)理論在機(jī)器學(xué)習(xí)中的延伸,支持向量機(jī)(Support Vector Machine,SVM)可以在少量樣本的情況下,統(tǒng)計(jì)出樣本數(shù)據(jù)的特征,提高模型回歸分析的準(zhǔn)確性[9~11]。
給定數(shù)據(jù)樣本集,其中。在SVM模型中引入松弛因子和從輸入空間到Hilbert空間的變換,將,其中b為映射參數(shù),則原始的回歸問題轉(zhuǎn)化為優(yōu)化函數(shù):
(5)
其中,為權(quán)重向量;為懲罰因子,且;為兩個(gè)約束條件下的松弛變量。優(yōu)化函數(shù)的約束條件為:
(6)
其中,為損失函數(shù),且。
若對應(yīng)的變換為,則最終得到的優(yōu)化后的回歸函數(shù)為:
(7)
其中,為兩個(gè)約束條件下的拉格朗日乘子。
考慮到徑向基核函數(shù)(Radial Basis Function,RBF)[12,13]的非線性映射能力較強(qiáng),筆者采用RBF作為核函數(shù)。
2.2? 混合模型的構(gòu)成
混合模型[6]的構(gòu)成過程為:首先通過聚類算法,將樣本數(shù)據(jù)分成若干個(gè)子空間,然后對每個(gè)子空間建立模型(筆者采用SVM建立子模型),最后獲取全局模型。子模型的連接一般采用“開關(guān)切換”方式或者“加權(quán)組合”方式[14,15]:前者操作簡單,混合模型的輸出僅取決于測試數(shù)據(jù)對應(yīng)的子模型輸出,且獨(dú)立于其他子模型;后者操作復(fù)雜,混合模型的輸出是將每個(gè)子模型的輸出結(jié)果加權(quán)求和,而加權(quán)組合的前提是要默認(rèn)建立的子模型之間必須是線性關(guān)系,但是在實(shí)際應(yīng)用中很難滿足這一要求。因此,筆者采用開關(guān)切換方式(圖2)實(shí)現(xiàn)混合模型子模型之間的連接。
3? 應(yīng)用實(shí)例
3.1? 工況介紹與數(shù)據(jù)描述
將筆者提出的混合建模方法應(yīng)用于雙酚A生產(chǎn)裝置中對精餾塔C303塔底的苯酚濃度實(shí)現(xiàn)在線估計(jì)。通過對C303精餾塔的工藝流程和現(xiàn)場情況進(jìn)行分析,選擇塔中6個(gè)變量(塔內(nèi)溫度、塔底部的排放溫度、塔內(nèi)液位、來自前一單元V304估算出的3個(gè)變量(苯酚、BPA、BPA-24)的濃度)作為輸入變量,輸入變量的樣本數(shù)據(jù)通過現(xiàn)場DCS獲得;選擇C303精餾塔底部的苯酚濃度作為輸出變量,輸出變量的樣本數(shù)據(jù)通過每天人工分析獲得。
在現(xiàn)場采集的數(shù)據(jù)樣本集中隨機(jī)選擇200組數(shù)據(jù)作為訓(xùn)練樣本,100組數(shù)據(jù)作為測試樣本。采用平均相對誤差(MRE)和最大相對誤差(MXRE)兩個(gè)指標(biāo)用于評估混合建模方法的性能,具體定義如下:
(8)
(9)
其中,和分別為模型的預(yù)測值和真實(shí)值。
3.2? 模型參數(shù)設(shè)置
設(shè)置為120 ℃,為0.8,為10 ℃,為10,為100,為0.5,為0.01。
3.3? 結(jié)果分析
基于訓(xùn)練樣本建立混合模型后,采用測試樣本對該混合模型進(jìn)行測試,得到預(yù)測值和真實(shí)值的對比曲線如圖3所示??梢钥闯?,采用筆者所提混合模型得到的預(yù)測值與真實(shí)值接近,跟蹤效果較好。
表1給出了混合模型與支持向量機(jī)(單模型)預(yù)測結(jié)果的MRE與MXRE??梢钥闯觯P者所提混合模型的MRE和MXRE均小于支持向量機(jī)(單模型),證明了筆者所提模型的有效性,可以實(shí)現(xiàn)變量的準(zhǔn)確預(yù)測。
4? 結(jié)束語
針對高維度、多工況的復(fù)雜化工生產(chǎn)過程,從聚類方法優(yōu)化的角度,提出一種改進(jìn)FCM聚類方法的混合模型軟測量方法。利用SA算法和GA算法對傳統(tǒng)的模糊聚類算法進(jìn)行改進(jìn),有效解決了模糊聚類方法初始聚類中心難選擇的問題。實(shí)際應(yīng)用結(jié)果表明,筆者所提的混合模型建模方法在苯酚濃度預(yù)測中具有良好的預(yù)測效果,相對誤差較小,可以實(shí)現(xiàn)難測量變量的較準(zhǔn)確預(yù)測,具有一定的工程實(shí)際應(yīng)用價(jià)值。
參? 考? 文? 獻(xiàn)
[1]劉鴻斌,吳啟悅,宋留.變量選擇在廢水處理過程軟測量建模中的應(yīng)用[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2020,50(3):133-142.
[2]張和平,李俊武.基于模糊c均值聚類算法的控制圖模式識別[J].工業(yè)工程,2021,24(5):108-116.
[3]李江,楊潤冰,于文雙,等.基于模糊C均值聚類及學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)的負(fù)荷同時(shí)系數(shù)預(yù)測模型[J].南京理工大學(xué)學(xué)報(bào),2020,44(5):567-574.
[4]張林平,李風(fēng)軍.基于主成分分析和優(yōu)化聚類算法的行駛工況研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,53(2):121-128.
[5]肖連杰,郜夢蕊,蘇新寧.一種基于模糊C-均值聚類的欠采樣集成不平衡數(shù)據(jù)分類算法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(4):90-96.
[6]李元香,項(xiàng)正龍,張偉艷.模擬退火算法的弛豫模型與時(shí)間復(fù)雜性分析[J].計(jì)算機(jī)學(xué)報(bào),2020,43(5):796-811.
[7]李建國,賀云鵬,常立丹.基于改進(jìn)模擬退火算法的立體車庫車位分配優(yōu)化[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2020,34(4):183-191.
[8]趙明琳,吳嘉瑤,童榮景,等.基于模擬退火-蟻群變步長優(yōu)化算法的橢偏數(shù)據(jù)反演分析[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35(3):108-113.
[9]林浩,李雷孝,王慧.支持向量機(jī)在智能交通系統(tǒng)中的研究應(yīng)用綜述[J].計(jì)算機(jī)科學(xué)與探索,2020,14(6):901-917.
[10]邱維蓉,吳幫玉,潘學(xué)樹,等.幾種聚類優(yōu)化的機(jī)器學(xué)習(xí)方法在靈臺縣滑坡易發(fā)性評價(jià)中的應(yīng)用[J].西北地質(zhì),2020,53(1):222-233.
[11]周方明,潘華亮,周奉翔,等.基于支持向量回歸的焊接變形預(yù)測系統(tǒng)開發(fā)研究[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,31(3):282-287.
[12]鄒強(qiáng),田穎,李紅松,等.基于支持向量機(jī)的燃料電池發(fā)動(dòng)機(jī)氫氣泄漏檢測方法[J].北京交通大學(xué)學(xué)報(bào),2020,44(1):84-90.
[13]劉涵,王月嶺,王曉,等.基于支持向量機(jī)與概率輸出網(wǎng)的深度學(xué)習(xí)模型[J].系統(tǒng)工程理論與實(shí)踐,2018,38(8):2147-2154.
[14]張金環(huán),王超群,張彤,等.基于高斯混合分布模型的風(fēng)電功率預(yù)測誤差統(tǒng)計(jì)分析研究[J].智慧電力,2020,48(7):59-64;72.
[15]雙翼帆,顧幸生.基于改進(jìn)的快速搜索聚類算法和高斯過程回歸的催化重整脫氯前氫氣純度多模型建模方法[J].化工學(xué)報(bào),2016,67(3):765-772.
(收稿日期:2023-03-26,修回日期:2023-10-17)