郗榮榮,趙 飛,李吉廣,侯煥娣,申海平
(中石化石油化工科學研究院有限公司,北京 100083)
全球常規(guī)原油資源日益枯竭,原油黏度、硫含量、金屬含量日益增高,呈現重質化、劣質化趨勢[1]。重質油(特別是渣油)加工過程的清潔化和加工效率的高質化成為煉油企業(yè)關注的焦點[2],也是煉油企業(yè)提高自身競爭力的重要手段。漿態(tài)床渣油加氫工藝可以將重質、劣質渣油高效轉化為輕質清潔燃料和化工原料,具有原料適應性強、渣油轉化率高、輕油收率高等優(yōu)點,成為現代煉化企業(yè)重要的重油加工技術之一。目前,浙江石油化工有限公司、中國石化茂名分公司等陸續(xù)建立了渣油漿態(tài)床加氫裝置。
多年來,為了預測渣油加氫過程產物分布,研究人員開發(fā)了機理模型、數據驅動模型等反應模型。目前,渣油加氫的機理模型研究已經趨于成熟。曹彥鍇[3]基于對渣油加氫催化劑加氫性能和失活規(guī)律的分析,提出了渣油加氫催化劑失活動力學模型、加氫精制反應動力學模型和加氫裂化反應動力學模型。葛海龍等[4]利用兩集總一級反應動力學模型模擬了渣油加氫脫金屬的反應過程,發(fā)現加氫產物脫鎳率、脫釩率的計算值與實際值的平均相對誤差分別為2.65%和2.61%。劉傳文等[5]針對鐵系催化劑作用下的孤島渣油加氫裂化體系,建立了氣體、餾分油、減壓渣油四組分(飽和分、芳香分、膠質、瀝青質)和苯不溶物(焦)的七集總動力學模型,模型預測結果與試驗數據吻合性好。張萍萍等[6]針對克拉瑪依常壓渣油漿態(tài)床加氫裂化過程建立了六集總動力學模型,該模型預測產物收率的誤差在5% 以內。
渣油漿態(tài)床加氫是一個復雜的化學反應過程,涉及的變量多且耦合度高。渣油加氫是復雜的混合物反應體系,在復雜模型的構建過程中常常進行簡化并設定假設條件,導致模型出現構建難度大、計算量大、收斂速度小、預測精度低等問題。因此,采用機理模型難以實現過程的精確模擬,研究人員利用計算機深度智能學習技術,建立數據驅動模型對渣油漿態(tài)床加氫過程進行模擬研究。
神經網絡模型具有強大的自適應、自組織、自學習和非線性擬合能力,在復雜工業(yè)過程中得到了廣泛應用。田水苗等[7]利用反向傳播(BP)神經網絡建立了用于預測蠟油加氫產品的數據驅動模型,其對產物分布及硫、氮含量的預測具有較高精度。Ma等[8]針對中國石化茂名分公司的渣油加氫反應過程建立了BP神經網絡模型,其對產物中金屬、S、N、殘?zhí)康念A測平均相對誤差在6%以內。卷積神經網絡(CNN)模型主要應用在石油勘探開發(fā)[9-13]、故障識別[14-15]、產量預測[16]、污染物排放預測[17]等方面。孫國慶[18]以加氫裂化裝置新氫流量為目標變量,以LeNet為基準,建立了CNN模型,并對其進行深層重構訓練。相較于普通CNN模型,該深層CNN模型預測更準確,其均方誤差降低了9.11%。為了模擬工業(yè)加氫裂化過程,Song Wenjiang[19]基于自組織圖和卷積神經網絡開發(fā)了一種深度學習框架SOM,將輸入變量映射為二維數據以提取數據特征,進而進行CNN模型訓練。結果表明,SOM-CNN模型具有更好的擬合能力和外推能力。
為了進一步推動渣油漿態(tài)床加氫過程的數據化、智能化,本課題利用實驗室小試數據,基于不同神經網絡建立渣油漿態(tài)床加氫產物分布和氫耗預測模型;鑒于試驗數據量較少且數據不平衡,采用關聯式模型的方法進行數據擴充,以降低模型預測誤差;利用遺傳算法優(yōu)化神經網絡模型,進一步提高預測精度,以期為渣油漿態(tài)床加氫裝置操作優(yōu)化及原料拓展提供支持。
試驗數據來源于中石化石油化工科學研究院有限公司(簡稱石科院)渣油漿態(tài)床加氫課題組小試數據。根據渣油漿態(tài)床加氫工藝,采集數據包括輸入變量數據和輸出變量數據。輸入變量主要包括6種原料油(減渣VR-1、減渣VR-2、減渣VR-3、減渣VR-4、減渣VR-5、減渣VR-6)性質和操作變量(催化劑用量或濃度、工藝參數),輸出變量包括裂化氣、汽油、柴油、蠟油、殘渣、不溶物的收率和加氫過程氫耗。其中,加氫過程氫耗是指單位質量新鮮進料的氫氣消耗量。
數據樣本可能存在文本數據、空值、無關數據等,需要進行數據預處理:①刪除文本數據(如分析方法、原料名稱、添加劑名稱等);②刪除全部為空值和殘缺項目較多的數據樣本;③刪除無關變量(如模擬餾程與輸出目標無關);④對殘缺項目較少的數據樣本進行填充處理。
填充數據的方法主要有Linear插補、Quadratic插補、Spline插補、Akima插補、最鄰近插補、均值/中值/眾數填充、前向/后向填充等。分析渣油漿態(tài)床加氫小試數據可知,不同樣本數據之間的差距較大且數據之間不存在特別聯系。因此,綜合不同填充方法優(yōu)缺點和原始數據特點,確定采取“最鄰近插補”法進行數據填充。
結合實際生產工藝要求,采用Min-Max法剔除不符合要求的樣本數據,根據箱線圖法尋找樣本數據的異常值并利用最鄰近插值法對數據進行插補處理。預處理后的原料油性質、操作變量數據和輸出變量數據分別見表1~表3。
表1 預處理后的6種原料油性質
表2 預處理后的操作變量數據
續(xù)表
由于不同變量的量綱不同,無法直接進行分析比較,因而采用式(1)對不同變量數據進行歸一化處理,得到0~1無量綱數據。
(1)
式中:Xmax是樣本數據的最大值;Xmin為最小值。
輸入變量的線性相關性直接影響模型的訓練效果,需保證輸入變量間弱相關或不相關、而輸入變量與輸出變量(目標變量)顯著相關。因此,采用Pearson相關系數法對輸入變量進行特征選擇,不同輸入變量間的線性相關系數(r)由式(2)計算。
(2)
表4 變量相關關系與相關系數大小間的對應性
r取值區(qū)間為-1~1,r為-1,1,0分別表示完全負相關、完全正相關、不相關;|r|越接近于1,則表明變量間的相關性越強。已知原始樣本為22組數據,因此相關性分析結果來自于少量樣本,結果可能存在偶然性。為了確定分析結果的可靠性程度,需要對相關結果r進行顯著性檢驗。顯著性檢驗水平(p)一般為0.05,表示顯著性檢驗結論錯誤率必須低于5%。若p<0.05,則表示分析結果具有可靠性;若p>0.05,則表示結果沒有統(tǒng)計學意義,可能是偶然因素導致的。
輸入變量與目標變量的相關系數如表5所示。由表5可知,部分原料油性質變量(包括Fe含量、Ni含量、V含量、H含量、N含量、密度、殘?zhí)俊r青質含量、膠質含量、飽和分含量)和操作參數變量(包括反應時間、氫初壓、原料油質量、催化劑質量、助劑質量)與目標變量之間的相關系數均大于0.4,說明其與目標變量間存在顯著線性相關關系,顯著性檢驗p<0.05表示分析結果r能夠通過95%的顯著性檢驗,分析結果是可靠的。
進一步采用Pearson相關系數法分析原料油性質變量之間的相關關系,結果如圖1所示。由圖1可知,原料油殘?zhí)颗c元素Ca,Fe,Ni,V質量分數之間高度線性相關,因而需排除Ca,Fe,Ni,V質量分數4個變量,但根據工業(yè)生產實際情況,Ni質量分數、V質量分數對渣油加氫結果影響很大,需要保留并進行調控。因此,共保留密度、殘?zhí)亢虲、H、S、N、Ni、V、瀝青質、膠質、芳香分、飽和分的質量分數共12個原料油性質作為輸入變量。
表5 輸入變量與目標變量的Pearson相關系數和顯著性檢驗
圖1 原料性質變量間的相關關系
操作變量間的Pearson相關系數如圖2所示。由圖2可知,原料油質量與助劑質量間的|r|為0.73,因而去除原料油質量而保留助劑質量。因此,操作變量保留5個:反應溫度、反應時間、氫初壓、助劑質量、催化劑濃度。
綜上,基于變量間Pearson相關關系、漿態(tài)床技術特點、實際工業(yè)操作經驗,確定了漿態(tài)床渣油加氫過程模擬模型包括17個輸入變量(12個原料性質變量和5個操作變量)和7個目標變量(6種產物收率和氫耗)。
基于BP神經網絡,構建了渣油加氫模型的3層神經網絡模型,其結構如圖3所示。
模型的輸入層變量數為17,輸出層目標數為7,隱含層神經元數由式(3)確定[20]。
(3)
其中:H為隱含層神經元數;m、n分別為輸入層和輸出層變量數;L為1~10。
常見的模型性能評價指標主要包括:MSE、平均相對百分比誤差(MRPE)和R2。
MSE為真實值與預測值間誤差的平方和,評價預測數據變化幅度。其計算式見式(4)。
(4)
MRPE為真實值與預測值的絕對百分比誤差相對于樣本真實值的平均偏離程度,其值越小表示模型的預測性能越好。MRPE計算式見式(5)~式(6)。
(5)
(6)
R2表征模型對于數據的擬合程度,其值越接近于1,擬合效果越好。R2計算式見式(7)。
(7)
為了保障數據樣本的平衡性,在每種原料對應的數據樣本中各取一組作為測試集,其余數據為訓練集。因此測試集數據共6組,訓練集數據共16組,測試集數據完全不參與模型的構建和訓練。當原始數據樣本有限時,模型容易過擬合,即模型對訓練集數據的預測誤差很小,但在測試集上的預測誤差較大。為了避免上述問題,引入K折驗證法(一般取3~10折),即在訓練集中分出一部分作為驗證集數據,用于評估模型的訓練效果并確定模型相關參數。本實驗選取K=10,即將訓練集數據任意劃分為10份,其中以9組為訓練,剩余1組數據用于驗證,循環(huán)10次,以最終的平均評價指標作為最終結果。
由式(3)計算得知,模型隱含層神經元數在6~15之間?;诓煌[含層神經元數,進行模型構建和訓練,通過比較驗證集數據的均方誤差,找到最佳隱含層神經元數,結果如圖4所示。由圖4可知,當隱含層神經元個數為14時,模型均方誤差(MSE)最小。因此,隱含層神經元數優(yōu)選為14,所建BP神經網絡模型結構為17-14-7。
圖4 隱含層神經元個數與模型預測均方誤差間的關系
利用測試集樣本數據進行測試,結果表明:目標變量(裂化氣、汽油、柴油、蠟油、殘渣、不溶物的收率及氫耗)的預測值與試驗值間的MRPE分別為32%,30%,37%,15%,51%,66%,37%。模型預測誤差大的原因主要在于原始樣本數據不平衡,由模型構建的基礎數據(表1)可知,采用的試驗數據原料油包括減渣VR-1、減渣VR-2、減渣VR-3、減渣VR-4、減渣VR-5、減渣VR-6共6種原料,其中減渣VR-5對應12組數據樣本,其余原料只各自對應2組數據樣本。
針對數據樣本量少、數據不平衡的問題,利用關聯式模型實現數據擴增。其中關聯式模型法是指基于原始樣本數據和神經網絡構建關聯式模型,實現輸入端和輸出端數據非線性關系的構建,而后在原始輸入數據的基礎上添加一個隨機擾動并利用之前構建的模型進行預測得到對應輸出,至此便獲得多個新的數據樣本?;陉P聯式模型的數據擴充法,將原始樣本的22組數據擴增至242組。將其分為訓練集、測試集和驗證集,其中訓練集數據樣本為196組,測試集數據樣本為25組,驗證集數據樣本為21組。基于數據擴充后的訓練集和驗證集數據樣本,對包含不同隱含層神經元數的神經網絡模型進行訓練對比,結果如圖5所示。
圖5 數據擴充后隱含層神經元個數與模型預測均方誤差間的關系
由圖5可知,當節(jié)點數目為15,訓練集的訓練均方誤差MSE最小,為0.035%;此時,驗證集數據擬合優(yōu)度(R2)最高,為0.99。因此將BP神經網絡模型結構優(yōu)化為17-15-7。鑒于該模型在訓練集和驗證集數據樣本上表現良好,后續(xù)將利用測試集數據進行模型測試。
數據擴充后,改進BP神經網絡模型對測試集數據樣本的預測效果如表6所示。由表6可知,相較于17-14-7結構的原BP模型,改進后17-15-7結構的BP神經網絡模型預測裂化氣、汽油、柴油、蠟油、殘渣、不溶物的收率及氫耗的相對誤差分別降低了93.2%,78.1%,97.4%,88.9%,91.4%,93.8%,93.8%,MRPE均值從38.28%降至3.15%,模型預測值與試驗值間的最大MRPE降為6.57%。這意味著利用關聯式模型實現數據擴充具有可行性,數據擴充對提高模型精度具有較好作用,同時也說明擴充數據具有良好的代表性。
表6 數據擴充后改進BP神經網絡模型的預測結果
數據擴充后,改進BP神經網絡模型的預測誤差仍較大;而且隨著模型參數增多,模擬計算量大幅增加,模型易出現訓練效率低和過擬合現象。因此,為了進一步提高預測精度,需要嘗試和探索構建其他神經網絡模型。卷積神經網絡[21](CNN)能夠充分挖掘數據的空間相關性,通過局部感知區(qū)域提取相關特征,具有局部連接、權重共享等結構特性,可使模型參數減少、計算效率和預測精度提高。卷積神經網絡的結構如圖6所示,可見其由卷積層、匯聚層、全連接層交叉堆疊而成。
圖6 卷積神經網絡模型結構
xwyxw
y=w*x
(8)
圖7 一維卷積層示意
匯聚層旨在通過特征選擇來減少特征數量,從而減少參數量。最大匯聚是指以區(qū)域內所有神經元的最大活性值作為該區(qū)域的值,如圖8所示。
圖8 匯聚層中最大匯聚過程示意
卷積神經網絡中的卷積層可以提取輸入數據的相關特征,減少參數數目;匯聚層可以對特征向量進行壓縮,增強了抗畸變性能。因此,卷積神經網絡具有更高的計算效率。
構建CNN模型也采取3層結構設計,其中輸入和輸出變量確定不變,匯聚層為最大匯聚,因而待定參數僅有卷積單元濾波器個數和卷積核尺寸。其中,濾波器數量通常為2的冪次,其數目越多則神經網絡越強大,但參數數目過多易導致過擬合;卷積核尺寸是指卷積矩陣大小,通常一維卷積可用一個整數來表示。設定濾波器數量為4,8,16,32,64,卷積核尺寸為2,3,4,5,6,7?;跀U充后的數據集,對新建CNN模型進行訓練,考察模型模擬的MSE和R2。當驗證集MSE不再降低時,停止訓練。訓練結果見圖9和圖10。由圖9和圖10可知,所建CNN模型卷積單元的濾波器數為64,卷積核尺寸為6。
圖9 不同濾波器數量對應的CNN模型訓練誤差
圖10 不同卷積核尺寸對應的CNN模型訓練誤差
利用CNN模型對測試集數據樣本進行預測,結果如表7所示。結合表6與表7可知,CNN模型的預測性能較改進后的BP模型有了顯著提高,其預測相對誤差均值較BP模型降低了21.58%。
表7 CNN模型的預測效果
雖然CNN模型的預測性能較改進后的BP模型有了顯著提高,但其預測精度仍有待進一步提升。遺傳算法(GA)是受自然界“優(yōu)勝劣汰,適者生存”進化原理的啟發(fā)而開發(fā)的一種隨機搜索優(yōu)化方法,其可以擴大尋找最優(yōu)解的搜索范圍。神經網絡模型初始值的設定具有隨機性,若將遺傳算法與神經網絡模型相結合,利用遺傳算法的訓練結果作為神經網絡模型的初始權重和閾值,優(yōu)化神經網絡模型的初始參數,可以有效改善神經網絡模型的預測精準度和穩(wěn)定性。
設定GA迭代次數為500,種群數為100,交叉概率為0.8,變異概率為0.1。采用GA優(yōu)化BP神經網絡模型和CNN神經網絡模型的預測結果如表8所示。由表8可知:經GA優(yōu)化后,BP神經網絡模型預測值與試驗值的MRPE均小于5%,比優(yōu)化前降低40.32%;經GA優(yōu)化后,CNN模型預測值與試驗值的MRPE均小于2%,比優(yōu)化前降低47.77%。
表8 遺傳算法優(yōu)化模型的測試結果
(1)基于實驗室22組小試數據,開展?jié){態(tài)床渣油加氫工藝變量的相關性分析。參考實際生產經驗,采用Pearson相關系數法確定了工藝模型建立的17個輸入變量(包括12個原料性質變量和5個操作變量)和7個輸出變量。進而建立了17-14-7結構的漿態(tài)床渣油加氫BP神經網絡模型,并對其預測精度進行了評價,結果顯示該模型預測值與試驗值間的平均相對誤差均較大(>20%)。
(2)針對數據樣本少、數據不平衡導致模型預測偏差大的問題,采用關聯式模型方法進行數據擴充,將數據樣本由22組擴充至242組?;跀U充的數據樣本,建立了17-15-7結構的漿態(tài)床渣油加氫BP神經網絡模型,結果表明,數據擴充后所建BP神經網絡模型的預測準確性顯著提高,預測值與試驗值間的最大平均相對誤差降為6.57%。
(3)為了進一步提高預測精度,基于擴充后的數據建立了CNN模型,其預測值與試驗值間的最大平均相對誤差降為5.38%。
(4)為了進一步提高所建模型的預測精度,采用遺傳算法進一步優(yōu)化神經網絡模型,結果顯示,采用GA優(yōu)化后BP神經網絡模型預測值與試驗值平均相對誤差均小于5%,CNN模型預測值與試驗值平均相對誤差均小于2%。