鄒慧琴,劉勇,陶歐,林輝,蘇玉貞,林相龍,閆永紅
[摘要] 電子鼻廣泛應(yīng)用于諸多領(lǐng)域,在不同領(lǐng)域中電子鼻傳感器陣列的構(gòu)成不同。由于中藥氣味的復(fù)雜性和特殊性,在中藥鑒別分析中,需建立陣列優(yōu)化法、篩選專屬最佳陣列。采用法國Alpha MOS 公司的αFOX3000電子鼻對姜科常用10味中藥進行氣味檢測,基于逐步判別分析法和聚類分析結(jié)合典型指標篩選法,建立了MOS傳感器陣列的優(yōu)化法。同時針對優(yōu)化前后的數(shù)據(jù),分別采用主成分分析、Fisher判別分析和隨機森林算法進行了對比研究。結(jié)果表明,優(yōu)化后的陣列不僅保留了原始陣列的有效信息,而且在一定程度上剔除了冗余信息、提高了識別效率。隨機森林分類器計算結(jié)果表明:最佳陣列為逐步判別分析篩選的S1,S2,S5,S6,S8,S12組合而成,此陣列優(yōu)化法有效、可行;為電子鼻在中藥鑒別中MOS傳感器陣列的優(yōu)化提供思路與方法參考。
[關(guān)鍵字] 電子鼻;中藥材;傳感器陣列;隨機森林
電子鼻(electronic nose,EN)也稱人工嗅覺系統(tǒng),是模仿人類對氣味的識別機制[1],設(shè)計研制的一種智能電子儀器,適用于許多系統(tǒng)中測量1種或多種氣味物質(zhì)。一個典型的電子鼻主要由3部分構(gòu)成:樣品處理器,傳感器陣列,信號處理系統(tǒng)[2]。而傳感器陣列作為電子鼻的檢測系統(tǒng),是最為核心的部分;它由不同氣敏元件組成,具有廣譜響應(yīng)性、交叉敏感性等特點。常見的傳感器類型有導(dǎo)電聚合物(CP)傳感器、石英晶體微平衡(QCM)傳感器和金屬氧化物(MOS)傳感器等。其中,MOS傳感器靈敏度高、重復(fù)性好、基線漂移可校正等,已成為電子鼻傳感器的主流。
從20世紀80年代電子鼻誕生后,學(xué)者在很多領(lǐng)域進行了應(yīng)用研究。也正是由于電子鼻響應(yīng)時間短、檢測速度快、樣品預(yù)處理簡便、測定評估范圍廣等優(yōu)點,現(xiàn)已在農(nóng)業(yè)[3]、食品[4]、環(huán)境監(jiān)控[5]和公共安全[6]等領(lǐng)域得到了廣泛的應(yīng)用。然而,不同領(lǐng)域檢測的物質(zhì)種類及分析目標不同,相應(yīng)最適宜傳感器陣列也不同。因此,傳感器陣列優(yōu)化是電子鼻應(yīng)用于不同領(lǐng)域中需解決的關(guān)鍵技術(shù)之一。而在給定區(qū)域內(nèi),如何選擇傳感器陣列,以剔除冗余信息,同時保證獲取信息的完整性、有效性和可靠性,是傳感器陣列優(yōu)化的首要問題。目前,在傳感器陣列優(yōu)化中常用的方法有方差分析[7]、相關(guān)系數(shù)分析[8]、變異系數(shù)因子載荷分析[9]等,每種方法的針對性和適應(yīng)性因不同分析目標而異。
本研究探討了電子鼻傳感器陣列的優(yōu)化方法及其在中藥快速鑒別中的應(yīng)用。采用MOS傳感器陣列對姜科常用10味中藥進行氣味特征的提取,基于逐步判別分析法和聚類分析結(jié)合典型指標篩選法,建立了中藥鑒別中電子鼻傳感器陣列的優(yōu)化方法。同時采用主成分分析(PCA)、Fisher判別分析(Fisher LDA)和隨機森林(RF)算法對優(yōu)化前后的數(shù)據(jù)進行了對比分析,確立了中藥鑒別中最佳傳感器陣列。結(jié)果表明優(yōu)化后的陣列所獲取信息不僅保留了原始信息的完整性、有效性和可靠性,還一定程度上剔除了冗余信息、提高了數(shù)據(jù)處理效率。此陣列優(yōu)化法有效、可行。
1 材料
αFOX3000氣味指紋分析儀,又稱電子鼻(法國Alpha MOS公司);10味常用中藥飲片干姜、姜黃、高良姜、莪術(shù)、郁金、白豆蔻、草豆蔻、草果、益智、砂仁(北京同仁堂股份有限公司市售產(chǎn)品)。經(jīng)北京中醫(yī)藥大學(xué)閆永紅教授鑒定,分別來源于姜科植物姜Zingiber officinale Rosc.的干燥根莖、姜黃Curcuma longa L.的干燥根莖、高良姜Alpinia officinarum Hance的干燥根莖、蓬莪術(shù)C. phaeocaulis Val.的干燥根莖、廣西莪術(shù)C. kwangsiensis S. G. Lee et C. F. Liang的干燥塊根、白豆蔻Amomm kravanh Pierre ex Gagnep.的干燥成熟果實、草豆蔻Alpinia katsumadai Hayata的干燥近成熟種子、草果Amomum tsaoko Crevost et Lemaire的干燥成熟果實、益智Alpinia oxyphylla Miq.的干燥成熟果實以及陽春砂Amomum villosum Lour.的干燥成熟果實。
αFox3000電子鼻中傳感器原始陣列(U)由12根MOS傳感器構(gòu)成,這12根傳感器的類型及對不同化學(xué)成分的響應(yīng)靈敏度不同,具體見表1。
2 方法
2.1 樣品預(yù)處理——氣味提取法 將樣品粉碎,過2號篩,精確稱取0.4 g樣品裝入10 mL頂空瓶中,壓蓋密封。每味中藥各取10個樣本,采用循環(huán)交叉排列的方式組成序列,以減小實驗的系統(tǒng)誤差[10],組成訓(xùn)練集。另每味中藥再各取2個樣本,組成外部測試集。
電子鼻對樣品氣味特征采集分為3個流程:孵化平衡、自動進樣和信號采集。實驗參數(shù)設(shè)置分別為孵化時間600 s、孵化溫度45 ℃;進樣量500 μL; 信號采集時間200 s、采集周期1 s。本研究視12根傳感器為12個變量、以傳感器最大響應(yīng)值為指標進行數(shù)據(jù)分析。
2.2 傳感器陣列優(yōu)化——S逐步判別分析法 采用Wilks′Lambda方法進行逐步判別分析,以F作為判別統(tǒng)計量。一個變量是否能進入模型主要取決與協(xié)方差分析中F檢驗的顯著性水平和設(shè)置的進入、離開模型的F[11]。具體參數(shù)設(shè)置為:當F≥30時,變量進入模型;當F≤5時,變量移除模型。判別結(jié)果見表2。
表2中統(tǒng)計量(F)是該變量的均方與誤差均方的比值。該值越大,P越小,因此該值最大的先進入判別函數(shù)。當P小于0.05或0.01時,拒絕零假設(shè)。顯著性檢驗結(jié)果P=0.000,即小于0.001,可以說這6個變量對判別的貢獻都很顯著??傊?,說明該變量在不同組中均值不同是由于組間差異,而不是由隨機誤差引起的;即該變量在各組中均值差異顯著??梢钥闯鯯12,S5,S8,S6,S2,S1的統(tǒng)計量(F)都在30以上,這是選擇進入判別函數(shù)的判據(jù)。經(jīng)過6個步驟后,模型內(nèi),外變量無進,無出,逐步判別分析的自變量選擇結(jié)束。因此,最終確定的傳感器優(yōu)化陣列(U1)的組成為S1,S2,S5,S6,S8,S12。
2.3 傳感器陣列優(yōu)化聚類分析結(jié)合典型指標篩選法 對100個分析樣本、12個屬性進行聚類分析。具體參數(shù)設(shè)置為聚類方法Further neighbor;變量間相似性測度方法為Pearson Correlation,分類結(jié)果見圖1。
從圖1可以看出初步聚為2類:S1,S7,S8,S9,S10,S11,S12和S2,S3,S4,S5,S6。另外,還可以進一步具體查看,如果聚為3類,各類組成為:S1;S7,S8,S9,S10,S11,S12;S2,S3,S4,S5,S6。4類,5類以此類推,冰柱圖的最終分類結(jié)果需結(jié)合實際情況而定。在本研究中,對12根傳感器進行了方差分析,結(jié)果顯示聚為4組較為合理。A組 S1;B組 S7,S8,S9,S10,S11,S12;C組 S4,S5;D組 S2,S3,S6。
采用Bivariate Correlation相關(guān)分析分別對B,C,D組進行典型指標的篩選。參數(shù)設(shè)置為Correlation Coefficients:Pearson。以B組變量為例,說明篩選過程,分析結(jié)果見表3。從表3中讀取相關(guān)系數(shù),計算各相關(guān)指數(shù)如下。
R72=(0.9972+0.9952+0.9982+0.9992+0.9962)/5=0.994
R82=(0.9972+0.9972+0.9982+0.9962+0.9962)/5=0.994表3 B組變量相關(guān)矩陣(n=100)
Table 3 Correlation matrix of group B variables (n=100)
R92=(0.9952 +0.9972 +0.9962 +0.9942 +0.9942) /5=0.990
R102=(0.9982 +0.9982 +0.9962 +0.9972 +0.9992) /5=0.995
R112=(0.9992 +0.9962 +0.9942 +0.9972 +0.9972) /5=0.993
R122= (0.9962 +0.9962 +0.9942 +0.9992 +0.9972) /5=0.993
比較5個相關(guān)指數(shù),S10的相關(guān)指數(shù)(R102)最大,因此B組代表變量選定為S10。同法計算C組、D組各變量的相關(guān)指數(shù)。其中,C組的S4和S5的相關(guān)系數(shù)一致,結(jié)合累計相關(guān)系數(shù)分析中S4與其他11根傳感器的累計相關(guān)系數(shù)最小,選S4代表變量。D組中S3的相關(guān)指數(shù)最大,選為代表變量。由此,確定的典型指標為S1,S3,S4,S10。
此外,方差分析及累計相關(guān)系數(shù)分析最優(yōu)解分別為S10,S12,S4;其中S10,S4都入選為典型指標,而S12未入選。因此,綜合分析最終確定的傳感器優(yōu)化陣列(U2)的組成為S1,S3,S4,S10,S12。
3 結(jié)果
3.1 主成分分析(PCA) 傳感器優(yōu)化前后的PCA對比見圖2,傳感器原始陣列對有些中藥材可以區(qū)分(砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜、郁金),對有些中藥材區(qū)分性較差(莪術(shù)、益智、姜黃)。圖2中b,c圖顯示優(yōu)化后的傳感器陣列PCA分析效果與優(yōu)化前基本一致。
3.2 Fisher線性判別分析(Fisher LDA) 電子鼻研究中可運用Fisher線性判別分析(Fisher linear discriminant analysis,F(xiàn)isher LDA)根據(jù)已知樣本識別未知樣本。傳感器優(yōu)化前后的Fisher LDA對比見圖3,判別能力稍優(yōu)于PCA,二者分類結(jié)果相近。傳感器原始陣列可以較好地區(qū)分開砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜以及郁金等7味中藥,而莪術(shù)、益智及姜黃三者的分布區(qū)域重疊較多、無法區(qū)分,仍為鑒別難點。圖3中顯示優(yōu)化后的傳感器陣列Fisher LDA分類效果與優(yōu)化前差異不大。
3.3 隨機森林(RF) 隨機森林(Random Forests,RF)是一個包含多個決策樹的分類器,其輸出類別是由個別樹輸出類別的眾數(shù)而定,其中每棵決策樹都會完整成長而不會剪枝。它具有準確度高、學(xué)習(xí)速度快、能容忍內(nèi)部噪聲且不容易出現(xiàn)過擬合等優(yōu)點,在醫(yī)學(xué)、生物信息、管理學(xué)等領(lǐng)域廣泛應(yīng)用[13]。分類系統(tǒng)性能評估采用常用十折交叉驗證和外部測試集驗證2種方法。本研究基于Weka軟件實現(xiàn)隨機森林分類器的建立(由Weka論壇免費提供http://www.cs.waikato.ac.nz/ml/weka/ )。
感器優(yōu)化前后的隨機森林分類結(jié)果的比較見表4。結(jié)果顯示優(yōu)化前的傳感器陣列對10味中藥材的正判率在80%以上,分類效果較好。而優(yōu)化后的傳感器陣列也可以對10味中藥材進行分類,正判率大于85%、最高為96%;判別能力有所改善。
4 討論
優(yōu)化前后傳感器陣列的PCA,F(xiàn)isher LDA分析結(jié)果表明,優(yōu)化后的傳感器陣列能夠代替原始陣列完成對10味中藥的鑒別任務(wù):首先保證所獲取信息的完整性和可靠性,即沒有丟失原始數(shù)據(jù)中的有效信息;再對比分析陣列優(yōu)化前后隨機森林分類器的正判率,不難發(fā)現(xiàn)優(yōu)化后分類效果有一定程度的提高,說明優(yōu)化后的陣列在一定程度上剔除了冗余信息、提高數(shù)據(jù)處理效率。進一步考察,發(fā)現(xiàn)逐步判別分析法優(yōu)化的傳感器陣列略勝一籌;綜合分析,中藥鑒別中最佳陣列由S1,S2,S5,S6,S8,S12傳感器組成。此種優(yōu)化方法有效、可行。
值得進一步探討的是,本研究中優(yōu)化前后的傳感器陣列對姜科10味藥材均無法完全區(qū)分開,尤其是莪術(shù)、益智和姜黃。雖然此3味藥材同其他7味藥材可區(qū)分性較好,但三者相互之間難以鑒別。究其原因,一可能是此三者難以與其他幾種藥材在同一判別模型中實現(xiàn)鑒別,建議在將來研究中針對篩 選數(shù)據(jù)處理方法、建立判別模型等方面作進一步完善;二可能是本研究中所采用的αFOX3000型號電 表4 傳感器優(yōu)化前后的隨機森林分類結(jié)果的比較子鼻只有12根傳感器組成檢測器,其傳感器針對中藥氣味的靈敏度、專屬性均尚未有相關(guān)研究報道,存在此種鑒別難點很有可能是此三者處于它的“嗅覺盲區(qū)”,建議在將來的研究中,在多型號電子鼻、多數(shù)量傳感器的基礎(chǔ)上進行傳感器的優(yōu)化與專屬性研究。
[參考文獻]
[1] Pradeep U K. An electronic nose for detecting hazardous chemicals and explosives [C]. Beijing:Plant growth modeling,simulation,visualization and applications (PMA),2006 International Symposium,2006.
[2] 鄒慧琴,劉勇,閆永紅,等. 電子鼻技術(shù)及應(yīng)用研究進展[J]. 傳感器世界,2011,17(11):6.
[3] Tang Xiaowei,He Hongju,Geng Lihua,et al. Evalution of maturity and flavour of melons using an electronic noses [J]. Agric Sci Tech,2011,12(3):447.
[4] Tudu B,A Jana,A Metla,et al. Electronic nose for black tea quality evaluation by an incremental RBF network [J]. Sensor Actuator BChem,2009 (138):90.
[5] Fang Xiangsheng,Shi Hanchang,He Miao,et al. Application and progress of electronic nose in evironmental monitoring [J]. Evrion Sci Technol,2011,34(10):112.
[6] Yinon J. Field detection and monitoring of explosives [J]. Trend Anal Chem,2002,21(4):292.
[7] 張雙巖,余雋,唐禎安,等. 二元混合氣體識別中傳感器陣列優(yōu)化方法研究[J]. 儀表技術(shù)與傳感器,2010(7):80.
[8] 周顯青,暴占彪,崔麗靜,等. 霉變玉米電子鼻識別及其傳感器陣列優(yōu)化[J]. 河南工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2011,32(4):16.
[9] 周海濤,殷勇,于慧春. 勁酒電子鼻鑒別分析中傳感器陣列優(yōu)化方法研究[J]. 傳感技術(shù)學(xué)報,2009,22(2):175.
[10] 趙鐳,史波林,汪厚銀,等. 電子鼻傳感器篩選的組合優(yōu)化法研究[J]. 食品科學(xué),2009,30(20):367.
[11] 盧紋岱. SPSS統(tǒng)計分析[M]. 4版.北京:電子工業(yè)出版社,2003.
[12] 方匡南,吳建彬,朱建平,等. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇,2011,26(3): 32.
Optimization method of MOS sensor array for identification of traditional
Chinese medicine based on electronic nose
ZOU Huiqin, LIU Yong, TAO Ou, LIN Hui, SU Yuzhen, LIN Xianglong, YAN Yonghong*
(Beijing University of Chinese Medicine, Beijing 100102, China)
[Abstract] Optimization of sensor array is a significant topic in the application of electronic nose (EN). Stepwise discriminant analysis and cluster analysis combining with screening of typical index were employed to optimize the original array in the classification of 100 samples from 10 kinds of traditional Chinese medicine based on αFOX3000 EN. And the identification ability was evaluated by three algorithm including principle component analysis, Fisher discriminant analysis and random forest. The results showed that the identification ability of EN was improved since not only the effective information was maintained but also the redundant one was eliminated by the optimized array. The optimized method was eventually established, it was accurate and efficient. And the optimized array was built up, that is, S1,S2,S5,S6,S8,S12.
[Key words] electronic nose; traditional Chinese medicine; sensor array; random forest
doi:10.4268/cjcmm20130204
[責任編輯 呂冬梅]