邱予驍,楊莉軍,鄧茹薈,張垚霖
(北京印刷學(xué)院,北京 102600)
催化劑是一種改變反應(yīng)速率但不改變反應(yīng)總標(biāo)準(zhǔn)吉布斯自由能的物質(zhì),在用乙醇催化偶合制備C4烯烴的過程中,催化劑會(huì)以降低反應(yīng)所需活化能的方式改變乙醇的轉(zhuǎn)化率和C4烯烴的選擇性。因此催化劑的組成不同,用乙醇制備C4烯烴的工藝條件不同。為了研究出制備C4烯烴最佳的催化劑組合和溫度,首先要探究不同催化劑組合對(duì)乙醇轉(zhuǎn)化率及C4烯烴選擇性的影響。因此可以利用控制變量法分組研究,每組做出相應(yīng)的乙醇轉(zhuǎn)化率隨溫度變化曲線和C4烯烴選擇性隨溫度變化曲線并進(jìn)行對(duì)比,最終得出結(jié)論:在催化劑組合為200mg 1wt% Co/SiO2-200mg HAP-乙醇濃度0.9mL/min時(shí)效果較好。而實(shí)際生產(chǎn)生活中催化劑對(duì)溫度極為敏感,每種化學(xué)反應(yīng)的反應(yīng)溫度都被嚴(yán)格控制在一個(gè)固定區(qū)間。針對(duì)“溫度對(duì)C4烯烴轉(zhuǎn)化率的影響”這一問題,僅憑直覺確定溫度-轉(zhuǎn)化率函數(shù)的擬合階數(shù)顯然是不準(zhǔn)確的,在實(shí)際生產(chǎn)生活中也并不可取。[1]因此為了深入確定擬合曲線的具體參數(shù),就要確認(rèn)擬合時(shí)所用曲線的階數(shù),首先對(duì)原始數(shù)據(jù)(表1)進(jìn)行初步擬合分析。
表1 原始數(shù)據(jù)
通過分析可知:一階函數(shù)擬合(圖1)效果最差;四階函數(shù)(圖4)雖然擬合效果最好,但與三階函數(shù)擬合(圖3)效果相差甚微,且容易引起過擬合,增加了實(shí)際生產(chǎn)過程中的復(fù)雜度。
因此,經(jīng)過初步分析可以排除一階導(dǎo)數(shù)擬合和四階導(dǎo)數(shù)擬合。
為了確定最終是用二階擬合還是三階擬合,根據(jù)機(jī)器學(xué)習(xí)原理,[1-3]將np.polyfit(x,y,2),np.polyfit(x,y,3)視為兩個(gè)學(xué)習(xí)機(jī),用統(tǒng)計(jì)假設(shè)檢驗(yàn)的方法,分別計(jì)算出兩個(gè)學(xué)習(xí)機(jī)在對(duì)給定樣本模擬中的測(cè)試錯(cuò)誤率從而推出兩個(gè)學(xué)習(xí)機(jī)的泛化錯(cuò)誤率,通過比較其泛化錯(cuò)誤率來確定學(xué)習(xí)機(jī)的優(yōu)劣,從而確定溫度對(duì)C4烯烴轉(zhuǎn)化率的影響采用二階擬合還是三階擬合。[4-7]
設(shè)二階模擬對(duì)應(yīng)的測(cè)試錯(cuò)誤率為?2,三階模擬對(duì)應(yīng)的測(cè)試錯(cuò)誤率為?3。首先選取樣本點(diǎn)個(gè)數(shù)最多的A3組對(duì)兩個(gè)學(xué)習(xí)機(jī)進(jìn)行檢驗(yàn),結(jié)果如圖5、圖6所示。[8]
通過擬合,可以得到預(yù)測(cè)值與樣本點(diǎn)差值的集合。在實(shí)際生產(chǎn)生活中,人們往往難以接受誤差值較大的模擬,這會(huì)給生產(chǎn)帶來極大的不確定性。這里引入均方誤差MSE:
yi為真實(shí)樣本值,^yi為預(yù)測(cè)值,m為樣本點(diǎn)個(gè)數(shù)。最 終 求 得MSE2=26.178627,MSE3=9.873714。隨后,計(jì)算每種學(xué)習(xí)機(jī)的決定系數(shù)R2,其中R2的定義為
yi是實(shí)際值,fi是預(yù)測(cè)值,是實(shí)際值的平均值。FVU為fraction of variance unexplained,RSS為Residual sum of squares,TSS為Total sum of squares。
一般地,R2越接近1,表示回歸分析中自變量對(duì)因變量的解釋越好[5-6]。最終求得=0.9663,=0.9873。
結(jié)合MSE2與MSE3的對(duì)照,可見三階函數(shù)的擬合效果更加理想。對(duì)于二階擬合曲線,將誤差值明顯較大的第四次、第六次、第七次模擬稱為誤判。對(duì)于三階擬合曲線,將誤差值明顯較大的第五次模擬以及第六次模擬稱為誤判。由此可得學(xué)習(xí)機(jī)np.polyfit(x,y,2)的測(cè)試錯(cuò)誤率?2=3/7=42.86%,np.polyfit(x,y,3)的測(cè)試錯(cuò)誤率?3=2/7=28.57%。
泛化錯(cuò)誤率為?′的學(xué)習(xí)機(jī)在一個(gè)樣本上犯錯(cuò)的概率是?,測(cè)試錯(cuò)誤率E意味著在m個(gè)測(cè)試樣本中恰有E×m個(gè)被誤分類。假定測(cè)試樣本是從樣本總體分布中獨(dú)立采樣而得,那么泛化錯(cuò)誤率為?′的學(xué)習(xí)機(jī)將其中m′個(gè)樣本誤分類、其余樣本全都分類正確的概率為
由此可估算出其恰將^?×m個(gè)樣本誤分類的概率如式(4),這也表達(dá)了在包含m個(gè)樣本的測(cè)試集上,泛化錯(cuò)誤率為?′的學(xué)習(xí)器被測(cè)得測(cè)試錯(cuò)誤率為^?的概率為
已知學(xué)習(xí)機(jī)np.polyfit(x,y,2),np.polyfit(x,y,3)的測(cè)試錯(cuò)誤率,則解式(5)
可知,P(^?;?′)在?′=^?是最大,|?′-^?|增大時(shí)P(^?;?)減小。這符合二項(xiàng)(binomial)分布,對(duì)于學(xué)習(xí)機(jī)np.polyfit(x,y,2),其測(cè)試錯(cuò)誤率?=42.86%,則7個(gè)樣本中測(cè)得3個(gè)被誤分類的概率最大。對(duì)于學(xué)習(xí)機(jī)np.polyfit(x,y,3),其測(cè)試錯(cuò)誤率?=0.2857,則7個(gè)樣本中測(cè)得2個(gè)被誤分類的概率最大。
圖7是程序模擬學(xué)習(xí)機(jī)np.polyfit(x,y,2)二項(xiàng)分布的結(jié)果圖,圖8是程序模擬學(xué)習(xí)機(jī)np.polyfit(x,y,3)二項(xiàng)分布的結(jié)果圖:
綜上,最終確定以三階函數(shù)Y=ax3+bx2+cx+d作為樣本擬合的通用函數(shù)模型。
可用“二項(xiàng)檢驗(yàn)”(binomial test)來對(duì)“?≤0.3”(即“泛化錯(cuò)誤率是否不大于0.3”)這樣的假設(shè)進(jìn)行檢驗(yàn)。
更一般地,考慮假設(shè)“?≤?0”,則在1-α的概率內(nèi)所能觀測(cè)到的最大錯(cuò)誤率如式6計(jì)算。這里1-α反映了結(jié)論的“置信度”(confidence)。
此時(shí)若測(cè)試錯(cuò)誤率^?小于臨界值ˉ?,則根據(jù)二項(xiàng)檢驗(yàn)可得出結(jié)論:在α的顯著度下,假設(shè)“?≤?0”不能被拒絕,即能以1-α的置信度認(rèn)為,學(xué)習(xí)器的泛化錯(cuò)誤率不大于?0;否則該假設(shè)可被拒絕,即在α的顯著度下可認(rèn)為學(xué)習(xí)器的泛化錯(cuò)誤率大于?0。
我們也可以將所有的催化劑組合對(duì)應(yīng)的樣本數(shù)據(jù)對(duì)學(xué)習(xí)機(jī)進(jìn)行多次測(cè)試,這樣會(huì)得到多個(gè)測(cè)試錯(cuò)誤率,此時(shí)可使用“t檢驗(yàn)”(t-test)。針對(duì)本題,我們可以得到了k個(gè)測(cè)試錯(cuò)誤率,其中k=21,^?1,^?1,…^?k(k=0,1,2,3…,20,21),則平均測(cè)試錯(cuò)誤率μ和方差σ2為:
考慮到這21個(gè)測(cè)試錯(cuò)誤率可看作泛化錯(cuò)誤率?0的獨(dú)立采樣,則變量
服從自由度為k-1=20的t分布。對(duì)假設(shè)“μ=?0”和顯著度α,我們可計(jì)算出當(dāng)測(cè)試錯(cuò)誤率均值為?0時(shí),在1-α概率內(nèi)能觀測(cè)到的最大錯(cuò)誤率。
該模型能充分說明三階函數(shù)擬合的優(yōu)點(diǎn),且三階函數(shù)模型在題目給定的溫度區(qū)間內(nèi)有著極好的穩(wěn)定性,決定系數(shù)R2極接近1。同時(shí)學(xué)習(xí)機(jī)np.polyfit(x,y,3)二項(xiàng)分布的結(jié)果圖相比np.polyfit(x,y,2)二項(xiàng)分布的結(jié)果圖整體更靠近y軸,說明三階擬合函數(shù)對(duì)樣本趨勢(shì)的預(yù)測(cè)更加準(zhǔn)確。但該模型需要大量樣本進(jìn)行測(cè)試,對(duì)樣本數(shù)量較少的催化劑組合的預(yù)測(cè)不能充分發(fā)揮該模型的優(yōu)勢(shì)。