張夢婷,游慧玲,張和濤,全 然
(河南工業(yè)大學(xué)a.理學(xué)院; b.化學(xué)化工學(xué)院; c.管理學(xué)院,鄭州 450001)
在玻璃文物成分分析與鑒別研究中,大部分文獻(xiàn)資料是通過某些特定指標(biāo)的含量直接鑒別玻璃文物所屬類型[1-4]。但基于數(shù)學(xué)模型鑒別玻璃文物類型的研究較少,只有極少數(shù)學(xué)者進(jìn)行研究。如崔劍鋒等[5]采用多元統(tǒng)計(jì)分析方法進(jìn)行探索。本研究提出并建立多種有效的數(shù)學(xué)模型對玻璃文物的化學(xué)成分進(jìn)行分析及預(yù)測,鑒別未知玻璃文物類型,這對玻璃文物的鑒別及保護(hù)具有重要的現(xiàn)實(shí)意義[6]。
現(xiàn)有一批我國古代玻璃文物,考古工作者依據(jù)這些文物樣品的化學(xué)成分及其他檢測手段已將其分為高鉀玻璃和鉛鋇玻璃兩種類型?;谶@批文物樣品的相關(guān)數(shù)據(jù)構(gòu)建多種數(shù)學(xué)模型以解決以下4個(gè)問題。
問題一:分析玻璃文物的表面風(fēng)化與玻璃類型、紋飾及顏色的關(guān)系,探究玻璃文物表面風(fēng)化前后化學(xué)成分含量的統(tǒng)計(jì)規(guī)律,預(yù)測玻璃文物風(fēng)化前的化學(xué)成分含量。
問題二:分析高鉀玻璃和鉛鋇玻璃的分類規(guī)律,對玻璃文物進(jìn)行亞類劃分。
問題三:鑒別未知類別玻璃文物所屬類型,對分類結(jié)果的敏感性進(jìn)行分析。
問題四:分析不同類別玻璃文物化學(xué)成分之間的關(guān)聯(lián)關(guān)系,對不同類別玻璃文物關(guān)聯(lián)關(guān)系的差異性進(jìn)行判斷。
對于問題一,將玻璃文物的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理后,通過方差分析探究玻璃文物的表面風(fēng)化與玻璃類型、紋飾及顏色的關(guān)系。構(gòu)建化學(xué)成分模型,分類討論玻璃文物風(fēng)化前后的化學(xué)成分含量統(tǒng)計(jì)規(guī)律。構(gòu)建差分整合移動(dòng)平均自回歸模型[7](Autoregressive integrated moving average model,ARIMA),對玻璃文物風(fēng)化前的化學(xué)成分含量進(jìn)行預(yù)測。
對于問題二,在問題一數(shù)據(jù)處理結(jié)果的基礎(chǔ)上基于主成分分析探究玻璃文物的分類規(guī)律構(gòu)建線性分類規(guī)律模型,利用系統(tǒng)聚類模型對玻璃文物進(jìn)行亞類劃分,給出具體的劃分方法及結(jié)果。
對于問題三,將問題二中的聚類中心作為特征指標(biāo),使用歐式距離衡量待檢測成分與特征指標(biāo)的匹配度,鑒別未知類別玻璃文物所屬類型,分析結(jié)果的敏感性及穩(wěn)定性。
對于問題四,基于K-Means++聚類模型選出初始聚類中心,基于卡林斯基-哈拉巴斯指數(shù)(Calinski-Harabazindex,CHI)和輪廓系數(shù)確定最優(yōu)聚類個(gè)數(shù),通過CHI、戴維森堡丁指數(shù)(Davies-Bouldin index,DBI)和輪廓系數(shù)3種評估指標(biāo)橫向?qū)Ρ染垲愋Ч?通過分類標(biāo)簽的形式得到不同類別玻璃文物化學(xué)成分關(guān)聯(lián)關(guān)系的差異性。
2.1.1 數(shù)據(jù)分析與處理
針對附件表單1,刪掉顏色數(shù)據(jù)缺失部分所在的行。針對附件表單2,將化學(xué)成分占比數(shù)據(jù)缺失的位置填充數(shù)字0,表示未檢測到該成分。由于檢測結(jié)果中各化學(xué)成分比例之和介于85%~105%之外的數(shù)據(jù)視為無效數(shù)據(jù),故刪掉15號和17號數(shù)據(jù)。
為討論方便,對玻璃的紋飾x1、類型x2及顏色x3進(jìn)行賦值量化,具體如表1所示。
表1 文本數(shù)據(jù)賦值量化結(jié)果
2.1.2 基于單因素方差分析的關(guān)聯(lián)性分析
方差分析[8]是通過對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,檢驗(yàn)方差相等的多個(gè)正態(tài)總體均值是否相等,進(jìn)而判斷各因素對實(shí)驗(yàn)指標(biāo)的影響是否顯著的一種方法。
分別建立玻璃紋飾x1、類型x2及顏色x3對玻璃文物表面風(fēng)化的單因素方差分析表,計(jì)算玻璃紋飾x1、類型x2及顏色x3這3個(gè)因素的組內(nèi)平均值及總均值,計(jì)算離差平方和[9],用其表示檢測結(jié)果間的差異性,再進(jìn)行F檢驗(yàn)。結(jié)果如表2所示。其中,SS為離差平方和,df為自由度,MS為均方,F為組間均方與組內(nèi)均方之比,P-value為影響因素對玻璃文物表面風(fēng)化無顯著影響的概率,F-crit為顯著性水平為0.05時(shí)的F臨界值。
表2 單因素方差分析結(jié)果
當(dāng)F>F-crit時(shí),表示該因素對玻璃文物表面風(fēng)化有顯著影響。由表2可見,對于玻璃紋飾x1,由于F 2.1.3 風(fēng)化前后玻璃文物化學(xué)成分的總體統(tǒng)計(jì)規(guī)律及可視化分析 將不同類型的玻璃文物按照風(fēng)化前和風(fēng)化后分成高鉀風(fēng)化、高鉀未風(fēng)化、鉛鋇風(fēng)化、鉛鋇未風(fēng)化4類,篩選數(shù)據(jù)分別統(tǒng)計(jì)討論得出:高鉀玻璃文物風(fēng)化后,化學(xué)成分K2O、CaO、MgO、Al2O3、Fe2O3、CuO明顯減少;鉛鋇玻璃文物風(fēng)化后,化學(xué)成分PbO、BaO明顯減少。 為使結(jié)果更加精確,通過加權(quán)平均構(gòu)造玻璃文物風(fēng)化前后各個(gè)化學(xué)成分含量變化的數(shù)學(xué)模型,并進(jìn)行詳細(xì)討論。記aij為風(fēng)化前不同類型玻璃文物第i次檢驗(yàn)到第j種化學(xué)成分的含量,bij為風(fēng)化后不同類型玻璃文物第i次檢驗(yàn)到第j種化學(xué)成分的含量,m表示化學(xué)成分的個(gè)數(shù),Cj為第j種化學(xué)成分風(fēng)化前后變化的加權(quán)平均百分?jǐn)?shù)結(jié)果。建立如下風(fēng)化前后各個(gè)化學(xué)成分變化的數(shù)學(xué)模型: (i=1, 2,…,m;j=1, 2, …,m) (1) 由式(1)可計(jì)算出高鉀玻璃和鉛鋇玻璃在風(fēng)化前后各個(gè)化學(xué)成分的變化百分比,具體如圖1和圖2所示??梢?在高鉀玻璃文物中,化學(xué)成分含量變化率較大的是SO2、CuO、BaO(按變化率從高到低的次序排列,下同);在鉛鋇玻璃文物中,化學(xué)成分含量變化率較大的是P2O5、MgO、CaO、Al2O3、Na2O,這與前述通過篩選統(tǒng)計(jì)得到的結(jié)果一致。 圖1 高鉀玻璃文物風(fēng)化前后各化學(xué)成分含量的變化百分比 圖2 鉛鋇玻璃文物風(fēng)化前后化學(xué)成分含量的變化百分比 2.1.4 基于ARIMA模型預(yù)測風(fēng)化前玻璃文物的化學(xué)成分含量 為預(yù)測風(fēng)化前玻璃文物的化學(xué)成分含量,結(jié)合上述分析及圖1和圖2的數(shù)據(jù)變化趨勢,識別化學(xué)成分變化為非平穩(wěn)性,構(gòu)建ARIMA模型進(jìn)行分析。 通過做一階差分得到平穩(wěn)時(shí)間序列,通過計(jì)算并分析自相關(guān)函數(shù)ACF和偏自相關(guān)函數(shù)PACF[10],分別選取最佳的ARIMA模型階層和階數(shù),構(gòu)建模型為: Xt=c+α1Xt-1+α2Xt-2+…+αpXt-p+εt +β1εt-1+…+βqεt-q (2) 通過Matlab運(yùn)算[11],預(yù)測出風(fēng)化后的玻璃文物在風(fēng)化前的化學(xué)成分,部分化學(xué)成分預(yù)測值如表3所示。 表3 部分化學(xué)成分預(yù)測值 2.2.1 基于PCA的玻璃文物分類特征提取 由于玻璃文物的化學(xué)成分種類多,各化學(xué)成分對分類結(jié)果的影響不盡相同,為了排除非主要成分對分類結(jié)果的影響,采用主成分分析(Principalcomponent analysis,PCA)對數(shù)據(jù)進(jìn)行降維處理[12]。 針對附件表單2中14種化學(xué)成分的檢測數(shù)據(jù),令主成分信息保留率T=0.70,特征值大于1為提取標(biāo)準(zhǔn),共得到5個(gè)主成分指標(biāo)。取5個(gè)主成分指標(biāo)的貢獻(xiàn)率[13]為權(quán)重,構(gòu)建玻璃文物的主成分分類規(guī)律模型: F=0.30028z1+0.17211z2+0.11837z3+0.08031z4 +0.07607z5 (3) 其中,14種化學(xué)成分的主成分系數(shù)及5個(gè)主成分的貢獻(xiàn)率如表4所示?;瘜W(xué)成分的主成分系數(shù)越大表明該化學(xué)成分越能代表主成分的大小;主成分的貢獻(xiàn)率越大表明該主成分保留的數(shù)據(jù)信息越多。由表4可以看出,主成分z1的主要化學(xué)成分有BaO、Na2O、CaO等,貢獻(xiàn)率為30.0278%,其保留的數(shù)據(jù)信息最多;主成分z2的主要化學(xué)成分有SrO、MgO、Al2O3等,貢獻(xiàn)率為17.211%;主成分z3的主要化學(xué)成分有Al2O3等,貢獻(xiàn)率為11.837%;主成分z4的主要化學(xué)成分有K2O、Fe2O3等,貢獻(xiàn)率為8.0308%;主成分z5的主要化學(xué)成分有SiO2等,貢獻(xiàn)率為7.607%。 表4 14種化學(xué)成分的主成分系數(shù)及5個(gè)主成分的貢獻(xiàn)率 2.2.2 基于聚類算法的玻璃文物亞類劃分 由高鉀玻璃文物和鉛鋇玻璃文物相關(guān)數(shù)據(jù)的散點(diǎn)圖可以看出,該問題適合采用系統(tǒng)聚類算法[10]。沿用2.1節(jié)中的數(shù)據(jù)及均值公式,分別求出風(fēng)化前后高鉀玻璃文物和鉛鋇玻璃文物化學(xué)成分的均值;通過Matlab循環(huán)計(jì)算輪廓系數(shù)及聚類數(shù)[7],繪制風(fēng)化高鉀玻璃文物、未風(fēng)化高鉀玻璃文物、風(fēng)化鉛鋇玻璃文物及未風(fēng)化玻璃文物的樹狀圖,如圖3所示。 圖3 樹狀聚類圖 根據(jù)圖3得到聚類分析結(jié)果,對玻璃文物進(jìn)行亞類劃分,結(jié)果如表5所示。 表5 亞類劃分結(jié)果匯總 針對附件表單3中未知類別玻璃文物的化學(xué)成分,將表5中亞類聚類中心的結(jié)果作為特征指標(biāo),使用歐氏距離[9]衡量待檢測成分與特征指標(biāo)的匹配度,從而實(shí)現(xiàn)對未知玻璃文物的分類鑒定,結(jié)果如表6所示。 表6 未知文物的類別鑒定結(jié)果 對分類結(jié)果的敏感性進(jìn)行分析。由于數(shù)據(jù)量適中,采取描述性分析方法進(jìn)行檢驗(yàn),結(jié)果如表7所示??梢?數(shù)據(jù)波動(dòng)幅度較大,所建模型敏感性較強(qiáng)。 表7 敏感性分析 為測試模型結(jié)果的穩(wěn)定性,對原始未分類玻璃文物的各項(xiàng)化學(xué)成分進(jìn)行1%、2%、5%、10%、20%、25%的擾動(dòng),結(jié)果準(zhǔn)確,故穩(wěn)定性良好。 2.4.1 基于K-Means++的初始聚類中心選取 K-Means算法中的k個(gè)初始聚類中心的選擇對最終聚類結(jié)果及運(yùn)行時(shí)間有極大的影響。傳統(tǒng)K-Means算法的聚類效果依賴于聚類中心的初始化,而K-Means++聚類算法[14]以“使初始聚類中心間的相互距離盡可能的遠(yuǎn)”為基本原則,對初始聚類中心的選擇方法進(jìn)行優(yōu)化,從而提高聚類精度,加快收斂速度。 給出K-Means++聚類算法選取初始聚類中心的算法步驟: 步驟1:在數(shù)據(jù)集X中隨機(jī)令一個(gè)樣本點(diǎn)作為初始聚類中心C1。 步驟2:計(jì)算每個(gè)樣品點(diǎn)與初始聚類中心C1的距離D(xm)。 步驟3:從數(shù)據(jù)集X中隨機(jī)選擇下一個(gè)聚類中心Cj,每個(gè)樣品點(diǎn)被選擇的概率為: (4) 其中,M(xj)為Cj與距樣本點(diǎn)最近的選擇點(diǎn)之間的距離。令P(x)最大時(shí)對應(yīng)的樣本點(diǎn)為新的初始聚類中心。 步驟4:重復(fù)步驟2和步驟3,直至選出k個(gè)初始聚類中心。 2.4.2 最優(yōu)聚類數(shù)的確定 采用CHI和輪廓系數(shù)確定最優(yōu)聚類數(shù)。CHI的本質(zhì)為類間距離與類內(nèi)距離的比值。將容量為N的數(shù)據(jù)集X聚成K類,用各個(gè)類中心點(diǎn)與數(shù)據(jù)集X中心點(diǎn)的距離平方和來度量類間距離Bk,用類內(nèi)各點(diǎn)與類中心點(diǎn)的距離平方和來度量類內(nèi)距離Wk。CHI的計(jì)算公式為: (5) 其中,cq為類q的中心點(diǎn),ce為數(shù)據(jù)集X的中心點(diǎn),nq為某一類q中的數(shù)據(jù)量,Qq為類q的數(shù)據(jù)集。 輪廓系數(shù)可用于評價(jià)聚類效果,其范圍在[-1, 1]。同類樣本距離越近,不同類樣本距離越遠(yuǎn)輪廓系數(shù)越大,說明聚類效果越合理。令某個(gè)樣本的輪廓系數(shù)為S,聚類總的輪廓系數(shù)為SC,具體如下: (6) 其中,a表示一個(gè)樣本與其所在簇內(nèi)其他樣本的平均距離,b代表一個(gè)樣本與其他簇樣本的平均距離。 運(yùn)用Matlab計(jì)算并制成簇計(jì)算標(biāo)準(zhǔn)值,如圖4所示。圖中分類所代表的柱最高時(shí)聚類的個(gè)數(shù)最優(yōu)。得出:高鉀未風(fēng)化玻璃文物在k=3時(shí)最優(yōu),高鉀風(fēng)化玻璃文物在k=4時(shí)最優(yōu),鉛鋇未風(fēng)化玻璃文物在k=5時(shí)最優(yōu),鉛鋇風(fēng)化玻璃文物在k=4時(shí)最優(yōu)。 圖4 簇計(jì)算標(biāo)準(zhǔn)值 2.4.3 基于K-Means++聚類算法的玻璃文物化學(xué)成分關(guān)聯(lián)度分析模型 為對數(shù)據(jù)進(jìn)行可視化分析,構(gòu)建了玻璃文物化學(xué)成分的關(guān)聯(lián)度分析模型。運(yùn)用Matlab制圖,結(jié)果如圖5所示。圖5中每一行、每一列的聚類均較為分散,故聚類效果較好。 圖5 最優(yōu)聚類可視化分析 通過表8對比可得:高鉀玻璃文物風(fēng)化前后的分類只有K2O、CaO、CuO發(fā)生改變,而鉛鋇玻璃文物全部化學(xué)成分都發(fā)生了改變。 表8 分類標(biāo)簽 采用CHI、DBI、輪廓系數(shù)[15]3個(gè)評價(jià)指標(biāo)分析聚類效果,如表9所示。發(fā)現(xiàn)4個(gè)分類下的輪廓系數(shù)均接近1,說明簇內(nèi)距離小,簇間距離大,CHI同理。各項(xiàng)DBI都較小,說明其類內(nèi)距離較小,類間距離較大,即不同類別之間的相似度較小,說明聚類結(jié)果的質(zhì)量較好,各類別之間差異較明顯。 表9 聚類效果分析 2.4.4 不同類別之間化學(xué)成分關(guān)聯(lián)關(guān)系的差異性判斷 為了得到更加準(zhǔn)確的聚類結(jié)果,利用Matlab運(yùn)行算法4次后,將不同類別玻璃文物風(fēng)化前后化學(xué)成分的4種聚類結(jié)果以分類標(biāo)簽的形式匯總,結(jié)果如表10所示。 表10 聚類結(jié)果的分類標(biāo)簽形式匯總 通過表10可以看出,只有極少次數(shù)的聚類會使聚類結(jié)果發(fā)生明顯變化。其中,鉛鋇未風(fēng)化玻璃文物聚類數(shù)為5與高鉀風(fēng)化玻璃文物聚類數(shù)為4時(shí)對應(yīng)的聚類結(jié)果相較其他結(jié)果差異性較大,而其他大多數(shù)聚類結(jié)果都圍繞著眾數(shù)上下波動(dòng)或保持不變,但一般會高于正常值,說明不同距離造成的影響具有一定的同質(zhì)性,但弱于正常值。 針對玻璃文物表面風(fēng)化問題,通過單因素方差分析研究發(fā)現(xiàn):玻璃類型顯著影響玻璃文物的表面風(fēng)化程度,而玻璃紋飾和顏色影響不顯著。建化學(xué)成分模型分析得到:風(fēng)化前后,高鉀玻璃文物SO2、CuO、BaO等化學(xué)成分含量變化率較大,鉛鋇玻璃文物P2O5、MgO、CaO、Al2O3、Na2O等化學(xué)成分含量變化率較大。通過ARIMA模型預(yù)測得到風(fēng)化前多個(gè)玻璃文物的化學(xué)成分含量。 針對玻璃文物的分類問題,通過主成分分析確定化學(xué)成分的分類規(guī)律,通過系統(tǒng)聚類算法對4種類型的玻璃文物進(jìn)行了亞類劃分,具有良好的合理性及穩(wěn)定性。 針對未知類別玻璃文物的化學(xué)成分分析與類別鑒定問題,基于亞類劃分結(jié)果構(gòu)建化學(xué)成分識別模型,確定了8種未知類別文物的類別,對匹配度進(jìn)行描述統(tǒng)計(jì)并對化學(xué)成分?jǐn)?shù)據(jù)進(jìn)行5%~30%的擾動(dòng),結(jié)果表明,該模型具有較好的穩(wěn)定性及敏感性。 針對不同類別玻璃文物化學(xué)成分的關(guān)聯(lián)性及差異性問題,通過K-Means++聚類算法描述玻璃文物化學(xué)成分間的關(guān)聯(lián)性,通過多次聚類揭示4類玻璃文物間的差異。 通過以上分析可知,所建數(shù)學(xué)模型合理,能實(shí)現(xiàn)對玻璃文物成分的有效分析,可為其他玻璃文物成分研究提供參考。2.2 玻璃文物的亞類劃分
2.3 基于聚類分析的化學(xué)成分分析與鑒別
2.4 基于K-Means++聚類算法的玻璃文物化學(xué)成分關(guān)聯(lián)度分析
3 結(jié)論