趙玉霞,張顯強
(貴州警察學院,貴陽 550005)
法庭科學研究的主要目的是為所有參與調(diào)查和刑事訴訟的人提供必要的科學證據(jù),以重建犯罪,并作出公正的判決。為了實現(xiàn)這些目標,使用了各種分析方法,即光譜學、色譜法、X 射線及顯微鏡等。隨著現(xiàn)代分析方法及相關(guān)檢測儀器的快速發(fā)展,產(chǎn)生了越來越多復雜和多維的數(shù)據(jù)[1-2]。有些分析方法甚至可以為單個樣本生成大量數(shù)據(jù)集。對于大量的樣本,輸出的數(shù)據(jù)量將大大增加,這使得法庭科學工作人員的任務繁瑣、耗時,而且手動檢查可能會出現(xiàn)假陽性結(jié)果。由于在處理大量數(shù)據(jù)方面具有自身的優(yōu)勢,化學計量學在法庭科學中發(fā)揮著越來越重要的作用,其應用范圍也不斷擴大。
化學計量學興起于20 世紀70 年代,用統(tǒng)計的方法分析和模擬化學信息[3]。近年來,化學計量學在法庭科學領(lǐng)域中的應用越來越廣。毒品(安非他明、甲基苯丙胺、MDMA、可卡因和海洛因)的檢驗是化學計量學在法庭科學領(lǐng)域的首次應用[4]。化學計量學可對物證分析的大量數(shù)據(jù)集進行不同處理,如通過選擇數(shù)據(jù)、數(shù)據(jù)預處理和計算樣本之間的相似度來區(qū)分樣本。在多數(shù)情況下,還能為識別目標化合物提供統(tǒng)計基礎(chǔ)和置信水平,從而幫助鑒定專家判斷物證分析結(jié)果的可靠性。目前,市面上有許多統(tǒng)計和分析軟件,如SPSS、R 語言、MATLAB 等。
模式識別可以識別數(shù)據(jù)集中的一致性,并能將未知樣本分類為不同的類別?;瘜W分析得到的光譜、色譜圖因樣品種類不同而不同,利用化學計量學方法提取不同的信息,對特定類別的樣品進行個性化和分類,稱其為“化學模式識別”。模式識別分為監(jiān)督模式識別和非監(jiān)督模式識別。
監(jiān)督模式識別(SPR)方法目前已廣泛應用于各種數(shù)據(jù)分析,如個性化、分類、鑒別、樣品指紋、雜質(zhì)檢測等。在這些方法中,模型是在已知類的樣本基礎(chǔ)上構(gòu)造的,且能進一步用于預測未知樣本的類別[5]。監(jiān)督模式識別的方法主要有兩種:一是基于類之間的區(qū)分,即偏最小二乘判別分析(PLS-DA)、線性判別分析(LDA)、k-最近鄰(kNN)和人工神經(jīng)網(wǎng)絡(luò)(ANN);二是基于對單個類的建模,即軟獨立建模類模擬(SIMCA)[6]。
無監(jiān)督模式識別(UPR)由于在構(gòu)建模型或進行解釋時不需要事先信息,因此在法化學中可用來分析未知來源物證。通常,使用無監(jiān)督技術(shù)的目的是探索可能的聚類,并對樣本進行初步分類。主成分分析(PCA)是應用最廣泛的無監(jiān)督技術(shù),尤其是基于數(shù)據(jù)方差在縮減空間中提取數(shù)據(jù)集的相關(guān)信息方面。需要強調(diào)的是,主成分分析是一種探索性技術(shù),而不是一種分類技術(shù)。但它可以幫助分類技術(shù)建立具有給定置信水平的未知樣本的類別[7]。除主成分分析外,聚類分析如k-均值和層次聚類分析(HCA)也被用作無監(jiān)督模式識別方法以達到分類的目的。
總結(jié)了目前在法庭科學領(lǐng)域應用的儀器分析結(jié)合化學計量學方法的最新發(fā)展和趨勢。主要從毒物毒品、微量物證、生物物證、文件檢驗及痕跡物證五種類型分析。
衰減全反射-傅里葉變換紅外光譜(ATRFTIR)[8]、拉曼光譜(RAMS)[9]等因其對樣品具有非破壞性而在毒物毒品分析中受到青睞。氣相色譜-質(zhì)譜法(GC-MS)、超高效液相色譜-質(zhì)譜聯(lián)用法(UHPLC-MS)和電感耦合等離子體質(zhì)譜法(ICP-MS)[10]也有一些應用,分析輸出的數(shù)據(jù)采用化學計量學方法進行統(tǒng)計分析,從而得到有效、可靠的結(jié)果。
HE Xinlong 等[8]利用ATR-IR 和多元分析對鹽酸海洛因和五種常見添加劑(咖啡因、非那西丁、淀粉、葡萄糖和蔗糖)進行分類。采用基線校正、多變量散射校正、標準正態(tài)變量和Savitzky-Golay 算法對光譜數(shù)據(jù)進行預處理。采用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)、多層感知器神經(jīng)網(wǎng)絡(luò)(MLPNN)和線性擬合分析(LFA)等有監(jiān)督模式識別方法作為分類器的構(gòu)建算法。結(jié)果表明,區(qū)分鹽酸海洛因與咖啡因、鹽酸海洛因與非那西丁、鹽酸海洛因與蔗糖、鹽酸海洛因與淀粉、鹽酸海洛因與葡萄糖的混合物,準確率分別為100%、100%、88.89%、77.78%和66.67%。當添加劑為非那西丁時,線性模型是最優(yōu)的;當添加劑為葡萄糖時,二次函數(shù)更優(yōu)越,二次多項式函數(shù)的擬合能力優(yōu)于線性模型。
BEEN 等[9]利用近紅外光譜(NIR)和RAMS分析27 種假冒藥和6 個不同批次正品藥獲取的光譜數(shù)據(jù),采用UPR(即PCA、HCA)來識別數(shù)據(jù)集中的類別。通過與NIR 和RAMS 所建立的分類進行比較,可以評估化學計量學方法的鑒別能力。利用SPR(即KNN、PLS-DA、PNN 和CANN)對獲得的NIR 和RAMS 數(shù)據(jù)分析,并與無監(jiān)督分類器的結(jié)果比較?;诮t外和拉曼光譜識別的類別,常規(guī)應用的保留策略使用基于距離測量和接收器工作特征曲線(ROC)的分類算法。該模型能夠?qū)⑿聵悠返墓庾V與之前分析過的產(chǎn)品光譜進行比較,并確定新樣品是否屬于現(xiàn)有類別之一,然后與數(shù)據(jù)庫中的其它仿冒品建立聯(lián)系,從而將27 種可疑藥品中成功的區(qū)分出6 個批次正品。
卓俊納等[10]為實現(xiàn)不同品牌醬香型白酒的快速分類和鑒別,以4 種不同品牌的醬香型白酒為研究對象,采用ICP-MS 測定了52 個白酒樣品中的16 種元素含量。結(jié)果表明,不同品牌的醬香型白酒間16 種無機元素的含量呈顯著正相關(guān);CA、PCA 和PLS-DA 能將4 種品牌的酒樣進行有效區(qū)分,其中偏最小二乘判別分析的區(qū)分度最好。利用PLS-DA 分析結(jié)合重要性因子(VIP 值)建立驗證模型,發(fā)現(xiàn)Na、Ca、Al、K 等是造成不同品牌醬香型白酒差異性的主要無機元素,所建立的模型能將驗證酒樣與實驗酒樣很好的按照品牌歸類。
對以上部分文獻涉及的儀器分析技術(shù)、化學計量學方法、樣品等相關(guān)研究總結(jié)于表1。
表1 毒物毒品分析化學計量學方法
以上研究與化學計量學結(jié)合的基本思路:(1)化學計量學方法在多指標實際問題的研究中發(fā)揮著重要作用,它可以優(yōu)化相關(guān)實驗的測量過程,有效地提取實驗數(shù)據(jù),建立合理的數(shù)學模型,獲得有價值的信息;(2)不同算法比較表明,它們都可以應用于相似類型數(shù)據(jù)集的建模;(3)以上化學計量學方法應遵循法庭科學實驗室的常規(guī)工作流程;(4)在多變量分析前必須進行數(shù)據(jù)的預處理,否則結(jié)果會出現(xiàn)假陽性。
微量物證案件涉及油漆、纖維、射擊殘留物、藥品包裝鋁塑片、口紅及土壤等,借助儀器分析技術(shù)結(jié)合化學計量學方法用于檢測痕量和未知樣品,為鑒定人員正確的判斷證物提供可靠的依據(jù)。
RISOLUTI 等[11]使用便攜式NIR 儀與PCA 和PLS-DA 模型檢測人手上的爆炸殘留物。通過三個實驗驗證該方法在實際案例中的應用。在來自25個志愿者的樣本中,10 個被納入訓練集,5 個用于模型驗證,另外10 個用于預測。采用5 種標準材料(TNT、PETN、RDX 以及復合材料DEMEX 和M75)建立PLS-DA 模型,評價基質(zhì)效應對爆炸物識別的影響。PLS-DA 驗證結(jié)果為M75 提供了80%的分類率,DEMEX 為91.7%,TNT 為96.7%,PETN 和RDX 為100%。預測結(jié)果顯示所有材料的分類正確率為100%。此外,使用該方法檢測殘留物的能力隨著處理時間的增加而降低,與參考方法GC-MS 的分析結(jié)果一致。因此,在研究的爆炸物中,DEMEX和M75 在洗手后的持久性最強,而TNT 在日常活動后的抵抗力最差。
MARICET 等[12-15]使用振動光譜(VS)與PCA和LDA 來區(qū)分澳大利亞和國際車輛的清漆和底漆,最終將19 種不同類別的車漆區(qū)分開,分析結(jié)果與汽車制造商、車型以及不同的出廠日期或制造廠家有關(guān)。進一步的研究表明,如果涂層長期在環(huán)境中暴露,僅分析清漆涂層,可能會導致分類錯誤,盡管這些樣品可能被認定為非典型樣品[16-17]。這一結(jié)果對于從已知車輛中提取汽車油漆的采樣,以及未知油漆與已知比較都有意義。
韓宏福等[18]采用RAMS 結(jié)合化學計量學對收集的51 個藥品鋁塑片樣本進行分析。對同一組藥品鋁塑片樣本可借助PCA 對光譜數(shù)據(jù)進行降維,將數(shù)據(jù)直接導入SPSS 軟件中,共提取了9 個有效光譜成分,累積占原始光譜數(shù)據(jù)99.54%的有效信息,之后采用組間聯(lián)接法可將第Ⅳ類樣本分為22 組,依據(jù)特征峰的相對峰高比進行區(qū)分,可將51 個樣本分為4 大類,通過相關(guān)性比較表明分類結(jié)果較好。
MARTA 等[19]采用ATR-IR 區(qū)分化學成分相似或相同顏色的口紅。在優(yōu)化的實驗條件下,對20家不同廠家生產(chǎn)的38 種紅色唇膏進行了測試。為便于鑒別和提供更合理的分析數(shù)據(jù),使用了PCA、CA 兩種技術(shù),最終將化學成分相近的口紅樣本區(qū)分為9 組。此外,還對6 種不同干涉表面的口紅涂片進行了分析,采用光譜減法識別單個樣本。該方法建立的ATR 譜庫成功地確定了樣品的索引號和制造商,對顏色相近的紅色唇膏的鑒別和鑒定具有很大的潛力。
CHAUHAN 等[20]探討了熱重分析結(jié)合化學計量學對土壤樣品的鑒定。通過熱技術(shù)實現(xiàn)了三個里程碑:(1)用化學解釋識別熱圖中的模式、說明有機質(zhì)穩(wěn)定性與其熱穩(wěn)定性關(guān)系的指標的發(fā)展、以及多元統(tǒng)計分析在土壤地理區(qū)域預測中的應用;(2)用ATR-FTIR 觀察了土壤樣品的熱降解過程,對獲得的數(shù)據(jù)集進行標準正態(tài)變量歸一化,它使不同數(shù)量的土壤樣品所引起的變化最小化;(3)采用HCA 和PCA 等多元算法對土壤樣品進行判別。建立LDA模型實現(xiàn)了對未知土壤樣品的地理分類。
對以上文獻涉及的儀器分析技術(shù)、化學計量學方法、樣品等相關(guān)研究內(nèi)容總結(jié)于表2。
表2 微量物證分析化學計量學方法
PCA 是目前應用最廣泛的一種無監(jiān)督技術(shù),已成為解決法庭科學研究中分析龐大的調(diào)查任務中不可或缺的分析工具,它能將一個高階數(shù)據(jù)矩陣變成幾個主成分的正交合成變量,其目的是反映現(xiàn)有數(shù)據(jù)中盡可能多的差異性[21]。另外,PCA 能夠在不需要數(shù)據(jù)先驗信息的情況下闡明數(shù)據(jù)的潛在結(jié)構(gòu)[22],因此有利于數(shù)據(jù)探索。同時,PCA 的新變體也不斷被提出[23-25],以滿足特定領(lǐng)域特有數(shù)據(jù)的需要。
關(guān)于PCA 技術(shù)方面的文獻非常多[25-30],但應用策略仍然非常有限[31-35],使用時要注意以下幾個方面[36]:(1)在進行數(shù)據(jù)分析時,應遵循所有的先決條件;(2)對獲得的數(shù)據(jù)進行交叉驗證分析;(3)在其它化學計量學方式使用之前先用PCA 來評估數(shù)據(jù)集之間的線性關(guān)系;(4)PCA 變體可滿足特定領(lǐng)域特有數(shù)據(jù)的需求。
法庭科學生物物證包括毛發(fā)、體液、骨骼、尿液等相關(guān)證據(jù)。區(qū)分血跡、毛發(fā)的來源和老化在法庭科學調(diào)查中起著重要的作用。最近的文獻表明,化學計量學結(jié)合儀器分析方法在血跡及毛發(fā)調(diào)查中得到了廣泛的應用。
WAEL 等[37]的研究表明RAMS 不能區(qū)分人類和動物的血跡,但2009 年他們在另一篇文章中克服了壁壘[38]。他們利用先進的統(tǒng)計技術(shù),如PCA 來區(qū)分三個物種,但在區(qū)分更多的物種上還有待提高。LEDNEV 和他的團隊[39-41]進一步利用RAMS 結(jié)合PLS-DA 分析,成功地將人類血液與其它11 種動物進行了準確區(qū)分。
MISTEK 等[42]利用RAMS 結(jié)合先進的統(tǒng)計分析,根據(jù)干燥的外周血痕跡區(qū)分白人和非裔美國人。光譜采集20 名不同性別和年齡的捐贈者,采用支持向量機判別分析(SVM-DA)對兩個種族進行區(qū)分。用外循環(huán)主體交叉驗證方法(CV)評估訓練數(shù)據(jù)集中每個個體捐贈者的SVM 分類器的性能。通過曲線下面積(AUC)度量來評估SVM-DA 的性能,對兩個種族的正確分類概率為83%,特異性和敏感性為80%。這項研究初步顯示了區(qū)分不同種族人類血液的前景。DOTY 等[43-44]研究了血跡的老化時間,研究人員使用PLS 算法建立了回歸模型,推斷出光譜強度與血跡沉積時間(分別為一周和兩年)相關(guān)。
以上部分文獻涉及的儀器分析技術(shù)、化學計量學方法、樣品等相關(guān)研究內(nèi)容總結(jié)于表3。
表3 生物物證分析化學計量學方法
在上述研究中使用了多個化學計量學方法進行樣本分類,這對于分析結(jié)果來說很有必要。PLSDA、LDA 和SVM-DA 是監(jiān)督分類中最常用的分類技術(shù),特別是SVM-DA,通常用于體液分析。
在各類刑事、民事和經(jīng)濟等案件中,鑒定可疑文件(協(xié)議、遺囑、法律文件、印刷材料)、錢幣真?zhèn)蔚裙ぷ鬏^為常見。隨著科技的發(fā)展,計算機偽造文件的現(xiàn)象越來越多,也越來越容易發(fā)生,開發(fā)確定相關(guān)文件來源、特性和年代的方法逐漸受到科技工作者的重視。
ASRI 等[45]將RAMS 結(jié) 合PCA 和PLS-DA,對387 個打印文檔樣品(激光打印文件90 個,噴墨打印文件163 個,復印機輸出文件134 個)進行了區(qū)分。初步通過RAMS 的視覺評估顯示,所有碳粉樣品中都存在C—C 鍵、芳香族鍵和二氧化鈦。通過RAMS 光譜庫對激光和噴墨打印樣品進行比對,發(fā)現(xiàn)色素炭黑(CI-77266)用于激光和噴墨打印樣品,而色素紫色19 (CI-73900)用于復印機打印樣品。PCA 將樣本正確劃分為3 個聚類,PLS-DA 將樣本正確劃分為3 類。通過訓練后的PLS-DA 模型,可以對15 個未知打印樣本進行溯源。
OLIVEIRA 等[46]使 用SIMCA 和LDA-SPA,使用便攜式NIR 對100 張真實巴西紙幣和227 張假鈔進行了分類。對鈔票上七個不同的區(qū)域,包括兩個熒光墨水區(qū)域,一個水印區(qū)域,三個凹版印刷區(qū)域和一個序列號區(qū)域進行分析,并制作了真鈔和假鈔的模型。PCA 顯示了真假樣品之間的差異,該方法尤其適用于凹版印刷紙鈔的分析。SIMCA 和LDA-SPA 均能正確分類真?zhèn)吴n票,而LDA-SPA 更加簡單,變量選擇步驟具有去除噪聲和非線性的優(yōu)點。這兩種分類技術(shù)在常規(guī)法庭科學應用方面均具有很大的潛力。
SILVA 等[47]利用ATR-FTIR 分析了來自15 個不同年份(1985 年至2012 年)且自然老化的紙質(zhì)文件,按不同紙質(zhì)平均分為每年5 份,建立兩個數(shù)據(jù)集,采用廣義最小二乘加權(quán)(GLSW)和正交最小二乘(OLS)濾波器建立PLS 模型,以減少同期樣本之間的變異性。結(jié)果表明,上述方法均能有效地縮減同期文獻間的變異。
以上部分文獻涉及的儀器分析技術(shù)、化學計量學方法、樣品等相關(guān)研究內(nèi)容總結(jié)于表4。
表4 文件檢驗化學計量學方法
通過上述文獻了解到,初步分析文件檢驗數(shù)據(jù)時首選PCA,識別問題鑒定時用不同的分類技術(shù)(SIMCA、PLS-DA、SVM-DA 或ICA),PLS 可用于老化研究。
痕跡物證的類型包括指紋、足跡、工具、槍彈和特殊痕跡。目前,痕跡物證的鑒定還依賴于從現(xiàn)場提取的(被質(zhì)疑的)和已知的參考樣本進行視覺比對。
PETRACO 等[48]利用化學計量學來評估鞋印的獨特性與偶然的印記或磨損模式有關(guān)。將一個人在30 天內(nèi)所穿的5 雙相同品牌和風格的鞋子所留下的部分印跡,根據(jù)任何偶然標記的數(shù)量和位置,將其轉(zhuǎn)換為特征向量。然后對116 個印模向量進行PCA 和DA 處理,將每個印模分配給對應的鞋子,交叉驗證的準確性達到77%至100%。
PETRACO 等[49]將同樣的方法應用到對工具痕跡的統(tǒng)計辨別上。利用圖像處理程序?qū)? 個不同螺絲刀留下的條紋標記轉(zhuǎn)換為二值特征向量,再結(jié)合PLS-DA 和PCA-SVM 方法,將每個螺絲刀與其對應的印模進行匹配。通過交叉、留置和bootstrap驗證來評估每個模型的分類性能,兩種分類器的分類準確率均在97%以上。
以上部分文獻涉及的儀器分析技術(shù)、化學計量學方法、樣品等相關(guān)研究內(nèi)容總結(jié)于表5。
表5 痕跡物證化學計量學方法
痕跡特征可通過計算機或痕跡專家識別出來,每一個特征都由其特征向量(特征類型、方向、相對于附近特征的位置/形狀)來表示。將化學計量學應用于痕跡物證鑒定,最具挑戰(zhàn)性的部分是自然發(fā)生的變化量(即失真)與描述非匹配源的相關(guān)人群中可能預期的變化量的正確比對。
近年來隨著法庭科學的迅速發(fā)展,多種分析技術(shù)與統(tǒng)計方法的相互融合顯著提高了物證價值,同時新的化學計量學方法的引入有助于物證人員建立新的物證評價體系。
綜述了監(jiān)督模式和非監(jiān)督模式識別方法在法庭科學領(lǐng)域中的應用,該分析技術(shù)具有快速、可靠、成本效益高、重現(xiàn)性好、多元素分析等優(yōu)點,是可疑文件、生物樣品、化學樣品及其它痕跡分析的前沿技術(shù)。但在應用于實際案例之前,必須充分了解目標數(shù)據(jù)和所用化學計量方法,滿足多元分析的所有前提條件,否則分析結(jié)果可能出現(xiàn)假陽性。