黃 希,楊清越,何毓靈
(中國社會科學(xué)院 考古研究所,北京 100102)
安陽殷墟花園莊東地 M54(1)中國社會科學(xué)院考古研究所:《安陽殷墟花園莊東地商代墓葬》,科學(xué)出版社, 2007年,第227頁、第251-252頁。位于安陽殷墟宮殿宗廟區(qū)內(nèi),整體保存完好未經(jīng)盜擾,年代屬殷墟文化二期偏晚階段,其絕對年代相當(dāng)于祖庚、祖甲時期,隨葬品精美豐富,對研究殷墟時期的墓葬制度、軍隊體制、手工業(yè)發(fā)展等問題具有重要意義。
M54出土青銅器200余件,包括禮器、兵器和生產(chǎn)工具等,形制獨特,紋飾精美,制作工藝高超,被譽為中國青銅器制作技術(shù)的巔峰之作之一。殷墟青銅器的發(fā)現(xiàn)對于研究中國古代社會和文明、青銅器制作技術(shù)和思想文化等方面都有著重要的意義。劉煜等(2)劉煜、何毓靈、徐廣德:《M54及M60出土青銅器的成分分析》,《安陽殷墟花園莊東地商代墓葬》,科學(xué)出版社, 2007年,第289-296頁;劉煜、賈瑩、成小林、姚青芳:《M54出土青銅器的金相分析》,《安陽殷墟花園莊東地商代墓葬》,科學(xué)出版社, 2007年,第297-301頁。對M54出土青銅器化學(xué)成分及金相組織結(jié)構(gòu)等進行研究,主要采用高錫的銅錫二元合金,兵器錫含量低于禮器,大部分器物鉛含量低于2%,為原料中雜質(zhì)帶入,少部分紋飾精細、器型復(fù)雜的禮器(如牛尊、方尊等)鉛含量較高,體現(xiàn)出工匠對合金配比與性能之間的關(guān)系已經(jīng)有了充分的認識。
對于青銅器制作技術(shù)及腐蝕問題的研究涉及到大量成分數(shù)據(jù)信息,隨著檢測設(shè)備的普及與檢測精度的提升,成分分析檢測的操作門檻已經(jīng)大幅降低,越來越多的考古單位配備了以便攜式X射線熒光能譜儀(p-XRF)等為代表的便攜式分析檢測設(shè)備,在考古一線即可獲取大量的成分分析數(shù)據(jù)。以往單一目的、單一處理方式的數(shù)據(jù)研究模式已無法滿足精細化考古工作現(xiàn)場對于大規(guī)模數(shù)據(jù)深入分析的要求,目前在處理、識別并分析這些數(shù)據(jù)背后代表的文物信息、歷史信息方面還存在很大欠缺,存在成分分析數(shù)據(jù)存量急速增加但研究利用率低的問題。基于當(dāng)下在信息技術(shù)領(lǐng)域爆發(fā)式發(fā)展的機器學(xué)習(xí)技術(shù),通過機器學(xué)習(xí)的數(shù)據(jù)挖掘和模式識別功能,使用現(xiàn)存數(shù)據(jù)進行聚類、分類、關(guān)聯(lián)規(guī)則挖掘等識別出有用的模式和信息,或根據(jù)已知特征和模式來識別新的實例數(shù)據(jù),對于在考古一線根據(jù)大規(guī)模的分析監(jiān)測數(shù)據(jù)快速識別、量化、區(qū)分文物本體材料特征以及可能存在腐蝕病害具有重要的應(yīng)用價值。
1.1 機器學(xué)習(xí)概述
機器學(xué)習(xí)是一種人工智能技術(shù),通過使用算法和統(tǒng)計模型讓計算機模擬人類的學(xué)習(xí)行為,在不進行明確編程的情況下自動識別和理解已知數(shù)據(jù)的模式,從數(shù)據(jù)中自動學(xué)習(xí)并提高算法性能,找到規(guī)律并用于數(shù)據(jù)預(yù)測、分類、聚類等相關(guān)任務(wù)(3)劉霏凝、石競琛、王文杰、趙瑞:《材料科學(xué)中機器學(xué)習(xí)算法的應(yīng)用綜述》,《化工新型材料》2022年第9期。。這種學(xué)習(xí)過程不需要明確的程序指示,而是借助于大量的數(shù)據(jù)和統(tǒng)計學(xué)方法來確定關(guān)系和模式(4)Ceriotti M:《Atomistic machine learning between predictions and understanding》,《Journal of Chemical Physics》2019年第15期。。機器學(xué)習(xí)主要包括以下幾個個步驟(5)劉悅、鄒欣欣、楊正偉、施思齊:《材料領(lǐng)域知識嵌入的機器學(xué)習(xí)》,《硅酸鹽學(xué)報》 2022年第3期; Jing L、Tian Y:《Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey》,《IEEE》2021年第11期;G. Ruschioni、 D. Malchiodi,、A.M. Zanaboni、 L. Bonizzoni,Supervised:《Supervised learning algorithms as a tool for archaeology: Classification of ceramic samples described by chemical element concentrations》,《Journal of Archaeological Science: Reports》2023年第49期。:數(shù)據(jù)預(yù)處理、模型構(gòu)建與訓(xùn)練以及模型評估,根據(jù)不同的任務(wù)選擇適合的模型,并通過大量的數(shù)據(jù)對其進行訓(xùn)練,最終得到一個可以準(zhǔn)確預(yù)測未知數(shù)據(jù)的模型。
機器學(xué)習(xí)可以按照學(xué)習(xí)方式和使用的數(shù)據(jù)集分成三類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、和強化學(xué)習(xí)。本研究主要用到監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種形式。
監(jiān)督學(xué)習(xí)(supervised learning)是一種利用有標(biāo)記的訓(xùn)練數(shù)據(jù)來進行模型訓(xùn)練和預(yù)測的機器學(xué)習(xí)方法。在監(jiān)督學(xué)習(xí)中,需要將輸入數(shù)據(jù)和對應(yīng)的輸出標(biāo)記作為訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,建立輸入和輸出之間的映射關(guān)系,使得模型能夠根據(jù)輸入預(yù)測出正確的輸出。常見的監(jiān)督學(xué)習(xí)算法包括:回歸分析、決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯算法等。
無監(jiān)督學(xué)習(xí)(unsupervised learning)是一種不需要標(biāo)記或僅少量標(biāo)記的訓(xùn)練數(shù)據(jù),直接從數(shù)據(jù)中尋找數(shù)據(jù)集中的特征和模式的方法。在無監(jiān)督學(xué)習(xí)中,只需要將輸入數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來訓(xùn)練模型,模型會自動學(xué)習(xí)輸入數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律,并基于此對未知數(shù)據(jù)進行預(yù)測和分類。常見的無監(jiān)督學(xué)習(xí)算法包括:聚類分析、降維分析和關(guān)聯(lián)規(guī)則挖掘等。
監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)各有特點和優(yōu)勢(6)Meng T、 Huang R、 Lu Y:《Highly sensitive Terahertz non-destructive testing technology for stone relics deterioration prediction using SVM-based machine learning models》,《Heritage Science》2021年第9期;王祉皓、趙薌溦、智群、郭明:《基于機器學(xué)習(xí)的風(fēng)化硅酸鹽玻璃原成分預(yù)測及亞分類方法》,《硅酸鹽學(xué)報》2023年第2期。,在本研究中,主要使用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方法,具體包括監(jiān)督學(xué)習(xí)中的支持向量回歸算法SVR,以及無監(jiān)督學(xué)習(xí)的K均值聚類算法K-means和層次聚類算法。在研究過程中,還嘗試使用線性回歸(Linear Regression)算法、K 最近鄰回歸(K-Nearest Neighbor Regression,KNN回歸)算法、梯度提升決策樹(XGBoost)算法、隨機森林(Random Forest)(7)李欣海:《隨機森林模型在分類與回歸分析中的應(yīng)用》,《應(yīng)用昆蟲學(xué)報,》2013年第4期;Qianqian H、Wei L、Siran L、Jianli C:《Detecting? copper trihydroxychloride with reflectance spectroscopy and machine learning methods》,《Journal of Cultural Heritage》2023年總第59期;Jones C、 Daly N S、 Higgitt C: 《Neural network-based classification of X-ray fluorescence spectra of artists' pigments: an approach leveraging a synthetic dataset created using the fundamental parameters method》,《Heritage Science》2022年第10期。算法等方法。
1.2 SVR支持向量回歸算法
支持向量回歸算法(Support Vector Regression)(8)王定成、方廷健、唐毅等:《支持向量機回歸理論與控制的綜述》,《模式識別與人工智能》2003年第2期。是一種基于支持向量機的非線性回歸算法,用于解決連續(xù)型數(shù)據(jù)預(yù)測問題。SVR通過選擇核函數(shù)將原始的高維特征空間映射到低維空間中進行分類和回歸,找到一個能夠最大化邊界(函數(shù)間隔)和限制條件之間的平衡點的超平面模型,以建立輸入變量(特征)和輸出變量之間的映射關(guān)系,進而對新樣本進行分類和預(yù)測。
1.3 K-means K均值聚類算法
K均值聚類算法(K-means Clustering)(9)陶瑩、楊鋒、劉洋等:《K均值聚類算法的研究與優(yōu)化》,《計算機技術(shù)與發(fā)展》2018年第6期。是一種基于距離度量的無監(jiān)督學(xué)習(xí)方法,它將數(shù)據(jù)集中的樣本按照相似度進行分組,形成k個簇。該算法首先隨機指定k個中心點,然后計算每個樣本與中心點的距離,并將其分配給距離最近的中心點所在的簇。接著,重新計算每個簇的平均值或中心點,并將新的中心點作為該簇的代表。反復(fù)迭代上述過程,直到簇內(nèi)所有樣本都與其所在簇的中心點的距離最小。
1.4 HCA層次聚類算法
層次聚類算法(Hierarchical clustering)(10)賈瑞玉、李振:《基于最小生成樹的層次K-means聚類算法》,《微電子學(xué)與計算機》2016年第3期。是一種基于計算數(shù)據(jù)點之間的相似度量的無監(jiān)督學(xué)習(xí)方法,它將相似性(或距離)作為度量,計算每個樣本之間的距離,然后將相似度高的數(shù)據(jù)點依次進行合并,通過慢慢合并最接近的簇,依次形成一個層次化的劃分為不同群集(cluster)的聚類圖。相似性度量指衡量數(shù)據(jù)點間相似程度的方法,包括距離、相似性系數(shù)、相關(guān)系數(shù)等,可基于歐氏距離、曼哈頓距離、切比雪夫距離、皮爾遜相關(guān)系數(shù)等多種距離或相似性手段實現(xiàn)。
按照一定比例將樣本集隨機分為訓(xùn)練集和測試集。對屬于訓(xùn)練集的文物的相關(guān)數(shù)值化特征與p-XRF中的成分數(shù)據(jù)組合起來,構(gòu)成有標(biāo)簽的樣本集用于訓(xùn)練模型。使用傳統(tǒng)的文物保護研究工作方法,結(jié)合前人研究成果,有針對性地對器物腐蝕成分、器物表面土樣等進行工藝、成分的預(yù)研究。根據(jù)腐蝕產(chǎn)狀的預(yù)研究結(jié)果對M54出土銅器的器物類型、腐蝕狀態(tài)、腐蝕程度、文物本體穩(wěn)定性等相關(guān)特征進行定性定量的判斷,對每件文物的相關(guān)特征分別進行賦值和標(biāo)記形成樣本集,通過機器學(xué)習(xí)對成分數(shù)據(jù)集進行分析,尋找可能存在的數(shù)據(jù)規(guī)律模式,并通過成分數(shù)據(jù)預(yù)測對應(yīng)樣本所屬的類型。
2.1 腐蝕產(chǎn)狀的預(yù)研究
在病害宏觀認知的基礎(chǔ)上,使用常規(guī)的文物保護研究方法,包括光學(xué)顯微分析(Leica DVM6)、掃描電鏡分析(Phenom XLG2)、拉曼分析(Horiba XploRA、Thermo DXRxi)、X射線衍射分析(Bruker D8 Advance)、離子色譜分析(Thermo ICS-5000)、X射線成像分析(XXQ-2005 型)等,將文物腐蝕產(chǎn)狀和成分、腐蝕產(chǎn)物、保存穩(wěn)定性等特征相對應(yīng),建立對文物特征賦值的標(biāo)準(zhǔn),對樣本涉及的每件文物特征分別進行數(shù)值化,形成有標(biāo)簽的樣本集,用作訓(xùn)練機器學(xué)習(xí)模型。
2.2 機器學(xué)習(xí)數(shù)據(jù)獲取與預(yù)處理
本研究數(shù)據(jù)集主要為銅器的X射線便攜熒光能譜儀分析結(jié)果,使用Thermo Niton XL3T便攜能譜儀對花園莊M54出土的118件金屬器進行檢測分析,檢測時每個檢測點使用金屬模式檢測,部分采用金屬模式和和礦石銅鋅兩種模式采樣,每個檢測點采集3次,采集時間為30s,取3次讀數(shù)的平均值作為一組檢測結(jié)果數(shù)據(jù)進行分析,計量單位為質(zhì)量比%,對于部分未檢出的化學(xué)成分,使用0值進行補全,對于成分比例累加和低于80%的數(shù)據(jù)組予以剔除。最終得到有效數(shù)據(jù)280組,其中金屬模式205組,礦石銅鋅模式75組。
2.3 建立機器學(xué)習(xí)模型
首先明確本次機器學(xué)習(xí)的目標(biāo)是對成分數(shù)據(jù)集進行分類,尋找可能存在的數(shù)據(jù)規(guī)律模式,并通過成分數(shù)據(jù)預(yù)測對應(yīng)樣本所屬的類型,包括預(yù)測器型種類、腐蝕程度及有害性等。
基于以上目的,在前期腐蝕預(yù)研究發(fā)基礎(chǔ)上,對樣本集的p-XRF數(shù)據(jù)對應(yīng)檢測位置的各個特征與數(shù)據(jù)組分別進行標(biāo)記形成訓(xùn)練集,各特征賦值量化標(biāo)準(zhǔn)如下所示:
a.文物類別:容器、兵器、雜器;
b.檢測點腐蝕程度:1致密銹蝕、2疏松銹蝕、3點腐蝕、4有害銹;
c.檢測點腐蝕形態(tài):A鼓起的瘤狀物、B平整片狀銹蝕、C粉末狀銹蝕、D有害銹、E裝飾綠松石、F修復(fù)粘接處、G修復(fù)焊接處;
從金屬模式中一共有118件銅器,其中兵器35件,容器43件,雜器40件。隨機取42組數(shù)據(jù)為測試集,其余數(shù)據(jù)組為訓(xùn)練集,訓(xùn)練集包括兵器30件,容器30件,雜器35件,進行機器學(xué)習(xí)訓(xùn)練。由于礦石銅鋅模式數(shù)據(jù)組總數(shù)較少,全部用于作分類算法的訓(xùn)練集。
3.1 腐蝕產(chǎn)狀的預(yù)研究
在利用文物保護研究技術(shù)和手段,對花園莊M54青銅器表面的典型腐蝕產(chǎn)物及分布形態(tài)進行檢測分析,建立文物成分特征與腐蝕產(chǎn)狀的判斷標(biāo)準(zhǔn),為后續(xù)對訓(xùn)練集數(shù)據(jù)特征進行量化賦值步驟建立標(biāo)準(zhǔn)。
表1 M54銅器典型腐蝕產(chǎn)狀及成分分析
花園莊 M54 青銅器普遍存在殘缺、斷裂、裂隙、變形、層狀堆積、孔洞、表面硬結(jié)物、礦化、點腐蝕等多種病害。表面的銹蝕產(chǎn)物主要有孔雀石、赤銅礦、水膽礬、藍銅礦、氯銅礦(11)成小林、楊琴:《五種含氯銅合金腐蝕產(chǎn)物的拉曼光譜及掃描電鏡的分析研究》,《文物保護與考古科學(xué)》2018年第4期。、錫石等(12)劉薇、李玲、衛(wèi)揚波、陳建立:《湖北葉家山墓地出土青銅器的銹層結(jié)構(gòu)研究》,《江漢考古》2019年第4期。主要有孔雀石、藍銅礦、赤銅礦,部分赤銅礦結(jié)晶程度較好,呈現(xiàn)大顆粒紫色立方晶狀態(tài),錫石、部,其中分孔雀石與氯銅礦存在形式極為接近,都是淡綠色粉末狀銹蝕。瘤狀物外部及整體大部分為孔雀石,內(nèi)部靠近青銅基體的部分為赤銅礦。在腐蝕產(chǎn)狀調(diào)研過程中,發(fā)現(xiàn)部分器物出現(xiàn)特殊的腐蝕現(xiàn)象:1、銅鈴普遍出現(xiàn)嚴重的有害銹病害;2、部分銅容器前期焊接位置出現(xiàn)有害銹病害。
3.2 相關(guān)性分析
將器型和銹蝕類型這樣的分類屬性的變量轉(zhuǎn)化成可以量化的變量后,利用Spearman相關(guān)系數(shù)計算法得到數(shù)據(jù)集中元素與元素、元素與器型、元素與腐蝕之間的相關(guān)系數(shù),并導(dǎo)出為熱力圖,如圖2、圖3所示。
圖2 元素-元素,元素-器類相關(guān)性系數(shù)熱值圖
圖3 元素-腐蝕狀態(tài)相關(guān)性系數(shù)熱值圖
圖2為元素-元素,元素-器類相關(guān)性系數(shù)熱值圖,橙色代表正相關(guān),綠色代表負相關(guān),顏色越深代表相關(guān)性越強,顏色越淺,代表數(shù)值越小。
就元素與元素相關(guān)性而言,以Cu元素為例,Cu元素與Sn顯著負相關(guān)(-0.9),可能能夠反應(yīng)出Sn原料是人為單獨加入,類似的還有Cu與Pb的負相關(guān)關(guān)系。微量元素中,Cu元素與Au(0.1)為正相關(guān),Cu與As(-0.5)、Zn(-0.5)、Fe(-0.3)、Mn(-0.2)等均為負相關(guān);Sn與As(0.2)、Zn(0.4)、Fe(0.2)、Mn(0.1)等均為正相關(guān);Pb與As(0.2)、Zn(0.2)為正相關(guān),Pb與Fe、Mn相關(guān)性為0。相關(guān)性系數(shù)0.1上下的浮動可能并不絕對,但是相關(guān)性系數(shù)正負性的差別可以視為明顯的區(qū)分,銅錫鉛三個主量元素與微量元素相關(guān)性系數(shù)的正負性差別可能與這些微量元素的不同礦石來源有關(guān)。
就元素與器型關(guān)系而言。就元素與器型相關(guān)性而言,除了符合前期研究中已經(jīng)發(fā)現(xiàn)的Sn元素在容器(相關(guān)性0.2)、兵器(相關(guān)性-0.1)中的成分差異,Ni、Co、Fe、Cr元素也表現(xiàn)出分別與容器、兵器正負相關(guān)的特點,結(jié)合可能引入Ni、Co、Fe、Cr等微量元素的礦石來源考慮,古代工匠在不同功能器物冶煉過程中可能存在更多元的合金配比調(diào)整。
圖3為元素-腐蝕狀態(tài)相關(guān)性系數(shù)熱值圖,深藍色代表正相關(guān),黃色代表負相關(guān)。Level為腐蝕程度,賦值由1-4逐漸加重,腐蝕形態(tài)中E裝飾綠松石、F修復(fù)粘接處、G修復(fù)焊接處為特殊形態(tài),不放入考慮與元素關(guān)系。從相關(guān)性系數(shù)圖中可以看出,腐蝕嚴重程度(Level)與Cl、S元素相關(guān)性較大(0.3),C、D腐蝕類型中A鼓起的瘤狀物、B平整片狀銹蝕、C粉末狀銹蝕、D有害銹、E裝飾綠松石,B平整片狀銹蝕與Pb元素相關(guān)性較大(0.4),D有害銹與Cl(0.5)、S元素(0.4)相關(guān)性極大。
3.3 模型預(yù)測結(jié)果
在相關(guān)性分析的基礎(chǔ)上,分別使用SVR、Linear Regression、KNN回歸算法、XGBoost、Random Forest等算法訓(xùn)練模型,以金屬模式元素成分與器型關(guān)系為訓(xùn)練集,對測試集中42組元素數(shù)據(jù)的器型進行預(yù)測判斷,并研究模型的精確度。
使用混淆矩陣(13)于營、楊婷婷、楊博雄:《混淆矩陣分類性能評價及Python實現(xiàn)》,《現(xiàn)代計算機》2021年第20期。(Confusion Matrix)來評估模型的性能。比較預(yù)測值和真實值之間存在的差異程度?;煜仃囃ǔ0膫€條目,分別為真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)和假反例(False Negative,FN)。
在本研究中,混淆矩陣如表2所示:
表2 混淆矩陣
其中,TP和TN為預(yù)測情況與實際情況相符的正確預(yù)測。
預(yù)測結(jié)果評估圖如圖4所示,預(yù)測目標(biāo)為“判斷元素數(shù)據(jù)組是否為容器,是為1,否為0”,輸出結(jié)果中,橫軸顯示為數(shù)據(jù)組真實情況,縱軸為模型預(yù)測結(jié)果,深色塊表示模型預(yù)測與現(xiàn)實結(jié)果相符,視為準(zhǔn)確預(yù)測。
圖4 成分-器型預(yù)測結(jié)果
圖5 金屬模式成分HCA聚類分類結(jié)果
以SVR預(yù)測結(jié)果為例,在現(xiàn)實情況為非容器的對應(yīng)數(shù)據(jù)組中(橫坐標(biāo)為0),有17組預(yù)測準(zhǔn)確,7組預(yù)測錯誤;在現(xiàn)實情況為容器的對應(yīng)數(shù)據(jù)組中(橫坐標(biāo)為1),有13組預(yù)測準(zhǔn)確,5組預(yù)測錯誤。整體預(yù)測準(zhǔn)確度為71.43%。在僅有163組訓(xùn)練集數(shù)據(jù)的情況下可以達到70%以上的準(zhǔn)確度。
3.4 分類模型結(jié)果
使用205組金屬模式成分數(shù)據(jù)組進行分類模型計算,其中,僅使用元素成分結(jié)果,主觀賦值部分變量(包括器型、腐蝕程度、腐蝕種類賦值)不納入訓(xùn)練集中。
對訓(xùn)練集數(shù)據(jù)組進行分類,分別使用K-means 和HCA聚類算法進行分類。
3.4.1 HCA聚類
HCA算法以數(shù)據(jù)相似性為度量,計算每個樣本之間的距離,逐漸向上合并形成聚類。分類結(jié)果如圖所示,如果分成三類,可以按照圖中橙色、綠色、紅色來區(qū)分。其中橙色區(qū)域以銅兵器為主(幾乎全部銅矛、銅泡、銅刀、銅鈴、銅鉞),包含部分銅容器(如2000HDM54:155銅爵、2000HDM54:84銅爵等),紅色區(qū)域以銅容器為主(包括2000HDM54:392銅牛尊、2000HDM54:183方彝,及部分兵器和雜器如2000HDM54:151銅刀、2000HDM54:392銅手等。綠色區(qū)域器型特征明顯性較弱,容器、雜器和兵器均占有一定比例。
使用HCA算法進行聚類分類結(jié)果可以大致區(qū)分兵器和容器,但特征性較差。
3.4.2 K-means聚類
K-means通過將相似的數(shù)據(jù)點分組為簇來幫助解釋數(shù)據(jù),利用肘部原則來選擇最佳的K值,也即是要分成的簇的數(shù)量。隨著 K 值增加,每種聚類結(jié)果的誤差平方和(SSE)通常會減小,但是當(dāng)K值達到某個值時,SSE減少的程度會變得更加緩慢,形成一個“肘部”,選擇該肘部所對應(yīng)的K值作為最優(yōu)聚類數(shù),提高聚類模型的效率與準(zhǔn)確性(14)孫林、劉夢含、徐久成:《基于優(yōu)化初始聚類中心和輪廓系數(shù)的K-means聚類算法》,《模糊系統(tǒng)與數(shù)學(xué)》2022年第1期。。由于本次研究的數(shù)據(jù)組包含多種變量(化學(xué)元素種類),先使用主成分分析(PCA)來減少數(shù)據(jù)維度,并在此基礎(chǔ)上運行K-means聚類算法。運算結(jié)果如圖7所示。
圖6 肘部原則折線圖顯示,K=2和K=3處出現(xiàn)轉(zhuǎn)折,此后直線斜率明顯減小,K=3之前為陡降區(qū),K=3之后為緩降區(qū),故選擇K=3,即將數(shù)據(jù)組分為3個類別。如圖7所示,圖中橙色點為三類中理想的典型點,實際并不存在,三個區(qū)域可以大致地按照容器、雜器和兵器區(qū)分,但三者并不能界限分明的區(qū)別開,同時存在較多混雜情況,區(qū)分度并不是特別理想。
圖6 金屬模式訓(xùn)練集肘部原則折線圖
圖7 金屬模式訓(xùn)練集分類圖
3.5 討論
3.5.1 樣本本身代表性與特異性引入的模型誤差
本研究使用銅器表面的p-XRF數(shù)據(jù)進行機器學(xué)習(xí)的分析,樣本本身信息的代表性受到多重影響。首先,由于埋藏過程的長期腐蝕導(dǎo)致表面成分受到腐蝕產(chǎn)物不均勻分布的影響,且文物出土后經(jīng)過不同程度的清理與不同方式的保護修復(fù)處理(粘接/焊接等),以及在博物館展廳與庫房保存環(huán)境不同導(dǎo)致的出土后不同的繼續(xù)腐蝕反應(yīng);其次,本研究中將器物分為容器、兵器、雜器三類,分類方式較為粗放,導(dǎo)致同一類別內(nèi)本身存在較大差異;這些是樣本集中事實存在的不同代表性差別。就腐蝕而言,即便是同樣的埋藏環(huán)境、同樣的器型,根據(jù)葬儀產(chǎn)生的不同類型的內(nèi)部盛裝物比如肉、骨、酒、植物類等以及殉狗身上的銅鈴等,也會產(chǎn)生腐蝕產(chǎn)物的差別,導(dǎo)致成分區(qū)別,這是樣本本身特異性差異。
在研究過程中還進行了器型-腐蝕狀態(tài)的相關(guān)分析,但是目前結(jié)果可解釋性較差,根據(jù)出土信息可以大概認識到容器與兵器的擺放分別存在一定的集中性,容器集中在槨室南部,兵器集中在槨室的北部和東部,通過對樣本信息采集過程的改良與預(yù)處理,未來工作可能通過分析顯示出顯示區(qū)域性環(huán)境導(dǎo)致的腐蝕病害集中情況。
3.5.2 方法的有效性
在討論相關(guān)性時,考慮整體樣本量較少且變量較多,同時存在較多特殊點,使用Spearman相關(guān)系數(shù)而不是傳統(tǒng)常用的Pearson相關(guān)系數(shù)。在相關(guān)性較強且符合正態(tài)分布的情況下,Pearson相關(guān)系數(shù)通常是一種有效的計算方式,而Spearman相關(guān)系數(shù)適用于非正態(tài)分布和存在外部影響(如離群點)的情況,能夠排除一些異常值和極端數(shù)據(jù)的影響,檢測到更廣泛的關(guān)系類型且不要求數(shù)據(jù)集滿足線性假設(shè)。對于受埋藏腐蝕后成分情況更為復(fù)雜的出土文物樣本成分數(shù)據(jù)處理,使用Spearman相關(guān)系數(shù)更有助于得出有效結(jié)果。
在相關(guān)性分析基礎(chǔ)上,使用機器學(xué)習(xí)進行元素-器型預(yù)測和聚類分析的過程中,由于目前相對變量而言樣本量過少,在建立統(tǒng)計模型時出現(xiàn)了過擬合的問題,在元素-器型關(guān)系預(yù)測中線性回歸、隨機森林、KNN、XGBoost等方法R2均大于1的現(xiàn)象。這是由于文物樣本本身由于腐蝕的發(fā)展表面成分與金屬基體成分存在一定差異,且本研究采用p-XRF檢測方法,存在較多的信號噪聲可能被誤以為是有效信號而造成過度學(xué)習(xí)。使用SVR算法魯棒性較好,且相對更適用于處理文物成分數(shù)據(jù)這類高維度數(shù)據(jù)并減少過擬合現(xiàn)象。
3.5.3數(shù)據(jù)改良方式探討
對于銅器表面成分的影響受到以下幾個方面影響:金屬基體原始成分、埋藏環(huán)境影響、埋藏過程的腐蝕、出土后的腐蝕、修復(fù)處理等,在機器學(xué)習(xí)數(shù)據(jù)采集過程中需要更明確的問題指向,提高樣本采集數(shù)量,盡量保證訓(xùn)練集和測試集數(shù)據(jù)變量均在可討論范圍內(nèi)。同時在明確研究問題時空范圍的前提下,盡量擴大有效訓(xùn)練集本身,如考慮在同一器物上細化采集部位、增加數(shù)據(jù)采集點位來彌補腐蝕導(dǎo)致的同一器物成分差異,選擇腐蝕產(chǎn)狀一致的部位進行成分采集與比較;或全面采集同一單位內(nèi)所有銅器,同時加入層位、區(qū)域信息作為新增變量,對訓(xùn)練集中的特征信息賦值更明確;或使用標(biāo)準(zhǔn)統(tǒng)一的更為精確的p-XRF量化數(shù)據(jù)作為訓(xùn)練集,避免采集過程引入的人為誤差。
機器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于數(shù)據(jù)挖掘和分析、語音和圖像識別、自然語言處理、材料學(xué)研究等各個領(lǐng)域,應(yīng)用前景非常廣闊。本研究利用機器學(xué)習(xí)來研究M54出土銅器的p-XRF表面成分數(shù)據(jù),利用支持向量回歸算法SVR,K均值聚類算法K-means和層次聚類算法分別建立模型,摸索元素-元素、元素-器型之間的數(shù)據(jù)規(guī)律及關(guān)系,并使用直觀的圖形可視化形式進行展示;通過元素-器型預(yù)測模型較為準(zhǔn)確的預(yù)測測試樣本元素成分對應(yīng)的器型特征;使用分類模型對銅器表面成分進行分類,探討器物成型與腐蝕過程規(guī)律,提升了文物成分分析與研究的效率。
4.1相關(guān)性分析
通過計算Spearman相關(guān)系數(shù)討論銅器表面成分中元素與元素、元素與器型、元素與腐蝕之間的兩兩相關(guān)性。
通過對比Cu、Sn、Pb三個主量元素與各微量元素之前的相關(guān)性系數(shù),Cu元素與Sn元素的顯著負相關(guān)(-0.9)及Sn元素對容器和兵器的正負相關(guān)性差異,與前期研究中圍繞錫料的合金配比人為控制的結(jié)論相吻合。新發(fā)現(xiàn)除Sn元素外,Ni、Co、Fe、Cr等元素也表現(xiàn)出分別與容器、兵器正負相關(guān)的特點,可能暗示古代工匠在不同功能器物冶煉過程中存在更多元的合金配比調(diào)整模式。在更高維的數(shù)據(jù)層面體現(xiàn)出不同元素可能的礦料原料來源區(qū)別,對于探討是否存在年代-區(qū)域框架下模式化的冶金行為具有一定意義。
另一方面,也證明了使用p-XRF對腐蝕銅器進行的無損表面成分數(shù)據(jù),在經(jīng)過合理的數(shù)據(jù)處理后同樣可以體現(xiàn)出銅器的合金配比信息,一定程度上避免了銅器成分分析必須使用金屬基體部分而進行的有損取樣行為。
4.2元素-器型預(yù)測模型
在相關(guān)性分析的基礎(chǔ)上,以金屬模式元素成分與器型賦值數(shù)據(jù)為訓(xùn)練集,分別使用SVR、Linear Regression、KNN回歸算法、XGBoost、Random Forest等算法訓(xùn)練模型,并使用混淆矩陣來評估模型的準(zhǔn)確性。在僅使用163組數(shù)據(jù)作為訓(xùn)練集的情況下,使用SVR算法達到的元素-器型預(yù)測準(zhǔn)確度達到了71.43%。
本研究中相對變量較多而樣本總數(shù)較少,模型在訓(xùn)練集上表現(xiàn)良好,但在測試集上表現(xiàn)較差。研究過程中使用的SVR方法的R2為0.971,而線性回歸、隨機森林、KNN、XGBoost等方法R2均大于1,出現(xiàn)過擬合現(xiàn)象。由于出土文物的p-XRF數(shù)據(jù)普遍具有維度高、變量多、回歸性較差的特點,使用SVR算法可以有效地處理高維度數(shù)據(jù)并減少存在于傳統(tǒng)回歸方法中的過擬合(overfitting)現(xiàn)象,在遇到有噪聲的數(shù)據(jù)時也可取得良好的預(yù)測結(jié)果。由于支持向量是使用部分樣本構(gòu)造出的,所以在精度保證的同時具備一定的可解釋性。
建立元素-器型預(yù)測模型,可以為破碎嚴重、疊壓復(fù)雜的出土文物碎片信息識別和拼對修復(fù)提供指導(dǎo);同時有也有助于更深入了解不同器型的元素特征及背后代表的礦料來源信息。
4.3 分類學(xué)習(xí)模型
在對成分數(shù)據(jù)進行分類時,分別使用HCA聚類算法和K-means聚類算法對205組金屬模式成分數(shù)據(jù)組進行分類模型計算,HCA聚類算法得到多層聚類分布結(jié)果,可以大致區(qū)分兵器和容器,K-means聚類算法根據(jù)肘部原則確定三相區(qū)分結(jié)果,但三者之間并不能界限分明的區(qū)別開,區(qū)分度都不是較為理想。
機器學(xué)習(xí)在出土文物研究中具有廣泛的應(yīng)用前景,目前,本研究使用的數(shù)據(jù)量相對變量稍有不足,尚不足與得到理想的模型結(jié)果,但在未來工作中,在問題目標(biāo)明確的情況下更大范圍、更精細地獲取數(shù)據(jù)支撐算法的推進驗證,預(yù)期能夠得到更貼近顯示的統(tǒng)計規(guī)律與預(yù)測模型成果。