張曉麗
(運城師范高等??茖W(xué)校 數(shù)學(xué)與計算機系,山西 運城 044000)
中藥材來源廣泛并且品種繁多,但由于其鑒別技術(shù)研究基礎(chǔ)薄弱,技術(shù)尚未成熟,致使中藥材產(chǎn)地與種類的鑒別一直困擾著中藥產(chǎn)業(yè)的健康發(fā)展.郝丹丹等[1]通過采用定性與定量結(jié)合的數(shù)學(xué)分析方法,奠定了道地藥材的客觀標準評價體系基礎(chǔ);鄭司浩等[2]認為應(yīng)結(jié)合基因組學(xué)與分子生物學(xué)技術(shù)研究中藥材品種和產(chǎn)地的鑒別;劉杰等[3]則認為應(yīng)使用DNA遺傳標記并結(jié)合組織形態(tài)三維定量分析以及中藥化學(xué)指紋圖譜和生物效價檢測新技術(shù),綜合分析中藥材的道地性.隨后,陳曉麗等[4]指出應(yīng)以臨床療效為基準,針對道地藥材的形成及過程影響因素的動態(tài)變化,建立道地藥材溯源系統(tǒng)并進行標準化種植.
從上述研究來看,中藥材種類及產(chǎn)地的研究一直備受關(guān)注,且隨著中藥材產(chǎn)業(yè)的不斷發(fā)展,近年來一些新的技術(shù)和方法被廣泛綜合應(yīng)用于中藥材的種類及產(chǎn)地鑒別研究,雖然方法很多,但各有利弊,并沒有哪一種是最佳的.由于不同種類的中藥材會因其無機元素的化學(xué)成分和有機物等因素的差異性,導(dǎo)致藥材在光譜照射下表現(xiàn)出不同的光譜特征,通過對光譜進行區(qū)別比較,便可完成中藥材的種類鑒別.所以,近紅外和中紅外光譜技術(shù)對中藥質(zhì)量、種類及產(chǎn)地的分析有廣闊的應(yīng)用前景[5-6].因此,本文試圖從大數(shù)據(jù)分析的角度,利用K-Means聚類、人工神經(jīng)網(wǎng)絡(luò)(簡稱ANN)和K近鄰算法(簡稱KNN)分別完成對不同類別、不同數(shù)據(jù)量和不同光譜特征的中藥材產(chǎn)地及種類的鑒別.
本文數(shù)據(jù)源于2021年全國數(shù)學(xué)建模大賽E題中的部分數(shù)據(jù).由于中藥材種類及產(chǎn)地鑒別的類別標簽較多,為使數(shù)據(jù)分析結(jié)果更加精準全面,這里將樣本數(shù)據(jù)分成三類.其中一類、二類和三類數(shù)據(jù)對應(yīng)下文中模型1、模型2和模型3的構(gòu)建分析.具體分類如下.
一類數(shù)據(jù)(藥材種類):給出425種中藥材的中紅外光譜數(shù)據(jù),需通過藥材編號、光譜波數(shù)以及吸光度來鑒別不同中藥材的種類.通過描述統(tǒng)計分析,發(fā)現(xiàn)樣本數(shù)據(jù)中存在3個異常值(均為數(shù)值偏大),編號分別是64號(所有數(shù)值在0.8以上),136號(所有數(shù)值在0.7以上)和201號(所有數(shù)值在0.5以上),因異常值對模型效果會產(chǎn)生很大影響.因此,建模前需進行異常值處理,考慮樣本數(shù)據(jù)充足,這里選擇直接剔除;同時,因數(shù)據(jù)間相似度較高,在此還需對數(shù)據(jù)進行主成分降維,即將多個變量通過線性變換只選出較少的重要變量來替代原始變量.
二類數(shù)據(jù)(藥材產(chǎn)地):給出一組不同產(chǎn)地同一種中藥材的673個中紅外光譜數(shù)據(jù),數(shù)據(jù)量比較充足,但給定的數(shù)據(jù)中有一些中藥材的產(chǎn)地信息缺失,需對數(shù)據(jù)中藥材產(chǎn)地信息完整的藥材進行分類后,再來預(yù)測數(shù)據(jù)中缺失藥材的產(chǎn)地信息.因此,在預(yù)測前需從給定的樣本數(shù)據(jù)中先篩選出產(chǎn)地信息完整的658個數(shù)據(jù)作為訓(xùn)練集;而后將產(chǎn)地信息缺失的15個不同編號的樣本數(shù)據(jù)作為預(yù)測集.為使分類結(jié)果更加精準,在此還需對數(shù)據(jù)進行主成分降維處理.
三類數(shù)據(jù)(藥材產(chǎn)地):給出兩組不同產(chǎn)地同一種中藥材的255個中紅外和近紅外光譜數(shù)據(jù),數(shù)據(jù)量較少,但數(shù)據(jù)類別標簽較多,且給定的兩組數(shù)據(jù)中都存在10個不同編號的藥材產(chǎn)地信息缺失.因此,在分析之前,需在主成分降維基礎(chǔ)上,將樣本數(shù)據(jù)中缺失的這10個不同編號的樣本數(shù)據(jù)篩選出來作為預(yù)測數(shù)據(jù),其余數(shù)據(jù)作為訓(xùn)練數(shù)據(jù).
注意:雖然二類和三類數(shù)據(jù)均為藥材產(chǎn)地數(shù)據(jù),但二類數(shù)據(jù)只有一組中紅外光譜數(shù)據(jù);三類數(shù)據(jù)有中紅外和近紅外兩組光譜數(shù)據(jù),且兩類數(shù)據(jù)量均不相同.
結(jié)合上述一類、二類和三類數(shù)據(jù)特點,這里采用不同的機器算法對其進行分析,具體如下.
模型1常用的聚類算法包括系統(tǒng)聚類和K-Means聚類.通過對比發(fā)現(xiàn),系統(tǒng)聚類主要采用合并法或分解法,通過Ward法計算類間距,將距離最近的兩類合并為一個新類,層層合并,直到類別個數(shù)為1,結(jié)束聚類.該方法只適用于數(shù)據(jù)量較小的情況,當數(shù)據(jù)量較大時,系統(tǒng)聚類速度較慢.而K-Means聚類主要采用層層迭代和不斷修正聚類中心的方法,隨機選擇初始聚類中心,通過計算每個樣本點到各個聚類中心的距離,再將其分配到距離最近的類別中,使聚類結(jié)果合理穩(wěn)定為止.該方法適合數(shù)據(jù)量較大的模型構(gòu)建,速度快且準確率高.結(jié)合第一類數(shù)據(jù)特點,其數(shù)據(jù)海量,規(guī)模之大,無缺失信息,如果采用系統(tǒng)聚類,會因計算量大而導(dǎo)致系統(tǒng)運行特別緩慢,甚至很難給出最終結(jié)果.因此,選擇用K-Means聚類算法對本題進行建模求解.
模型2第二類數(shù)據(jù)總量較大,光譜特征明顯,但數(shù)據(jù)相似度高,且有少量數(shù)據(jù)產(chǎn)地信息缺失.人工神經(jīng)網(wǎng)絡(luò)作為監(jiān)督式學(xué)習(xí)中的一種,在模擬處理復(fù)雜問題方面具有得天獨厚的優(yōu)勢.由于中藥材產(chǎn)地類別多,數(shù)據(jù)量大且類別間相似度較高,這直接增加了中藥材鑒定的難度.而人工神經(jīng)網(wǎng)絡(luò)擁有大量神經(jīng)元節(jié)點,通過對內(nèi)部連接節(jié)點間的調(diào)整建立信息反饋機制,形成模式識別.因此,人工神經(jīng)網(wǎng)絡(luò)可通過模式識別對事物特征或現(xiàn)象的各種信息進行處理和分析,以便對事物和現(xiàn)象進行識別、預(yù)測和分類.目前,人工神經(jīng)網(wǎng)絡(luò)在臨床藥學(xué)、中藥鑒定學(xué)和中藥分類等醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛并取得了一些成果[7-8].因此,這里采用人工神經(jīng)網(wǎng)絡(luò)(ANN)對其進行分類預(yù)測.
模型3第三類數(shù)據(jù)由兩組不同類型的產(chǎn)地數(shù)據(jù)組成,數(shù)據(jù)總量較少,數(shù)據(jù)類別標簽較多,且少量數(shù)據(jù)產(chǎn)地信息缺失.此時,若單純使用其中某一組數(shù)據(jù)進行分類預(yù)測,其結(jié)果都不會太準確.經(jīng)分析,KNN算法更適用于稀有事件的分類預(yù)測問題,它主要是靠周圍有限的鄰近樣本,而不是靠判別類域的方法來確定所屬類別.因此,對于類域的交叉或重疊較多的待分類樣本數(shù)據(jù)來說,KNN算法較其他方法更為合適[9],且模型預(yù)測準確率較高.
(i)由于一類數(shù)據(jù)量大,且數(shù)據(jù)間相似度較高,在做K-means聚類之前需先進行主成分降維,選出具有代表性的新生變量替代原始變量進入下一步的分析.
表1 主成分降維后新生變量累積貢獻率
由表1可知,第1個新生變量的累計貢獻率達79.25%,加入第2個新生變量后的累計貢獻率達96.74%,其余新生變量對模型貢獻率不高.因此,這里只節(jié)選前兩個變量進行下一步的聚類分析.
(ii)對選取的前兩個新生變量進行K-Means 聚類分析.
表2 K-Means聚類分析結(jié)果
從表2來看,模型中藥材種類被分成3類,第一類有101個樣本,第二類有189個樣本,第三類有132個樣本.藥材種類不同其特征也不相同,第一類藥材的所有變量指標范圍在[0.12-0.25AU],對應(yīng)波段光譜照射下的吸光度在全部藥材中屬于比較居中的一類;第二類藥材的所有變量指標范圍在[0.02-0.12AU],對應(yīng)波段光譜照射下的吸光度是全部藥材指標中最小的一類;第三類藥材的所有變量指標范圍在[0.25-0.37AU],對應(yīng)波段光譜照射下的吸光度是全部藥材指標中最大的一類.說明第三類藥材的質(zhì)量最好,其次是第一類藥材,質(zhì)量最不好的是第二類.最終利用K-Means聚類完成藥材種類鑒定.
(i)模型2只給出一組中紅外光譜數(shù)據(jù)且數(shù)據(jù)間相似度較高,為提高模型預(yù)測準確率,在分析之前需對樣本數(shù)據(jù)進行主成分降維處理,選出新生變量替代原始變量進入下一步的分析.
表3 主成分降維后新生變量累積貢獻率
由表3可知,第一個新生變量的累計貢獻率達86.13%,加入第二個新生變量后的累計貢獻率達92.61%,加入第三個新生變量后的累計貢獻率達95.32%,其余新生變量對模型的累計貢獻率不是很高,因此,節(jié)選前三個新生變量替代原始變量進行下一步的分類預(yù)測.
(ii)從降維后的新生變量中選取產(chǎn)地信息完善的658個數(shù)據(jù)進行人工神經(jīng)網(wǎng)絡(luò)分析.
表4 人工神經(jīng)網(wǎng)絡(luò)建模結(jié)果
由表4可知,藥材產(chǎn)地被分為11類,模型預(yù)測準確率Accuracy為0.933712接近于1,說明建模效果較好.同時,各類別中模型精確率Precision和召回率Recall這兩個指標的數(shù)值均在0.9左右浮動,接近于1,這從不同角度描述了模型識別的精準度和廣度;綜合評分F1-score反映了精確率和召回率的綜合情況,且綜合評分越大說明模型分類效果越好.總之,不論是模型預(yù)測準確率還是各類別精確率、召回率和綜合評分都說明了模型分類預(yù)測效果較好,可以直接將需要預(yù)測的藥材編號數(shù)據(jù)導(dǎo)入模型中,直接給出產(chǎn)地預(yù)測結(jié)果即可.
(iii)為研究不同產(chǎn)地藥材的特征及差異性.結(jié)合上述分類結(jié)果,從中選出具有代表性且區(qū)分度比較明顯,來自11類不同產(chǎn)地的同一種藥材的中紅外光譜數(shù)據(jù)進行對比分析.
圖1 某種藥材11類不同產(chǎn)地的中紅外光譜圖
從圖1可以看出,11類不同產(chǎn)地的中藥材差異性整體比較明顯,由3個波段構(gòu)成,第一個波段在[373~621(cm-1)],第二個波段在[993~1223(cm-1)],第三個波段在[2357~3101(cm-1)].整體來看,產(chǎn)地5和產(chǎn)地8在對應(yīng)波段下的吸光度都是最高的屬于一等產(chǎn)地;產(chǎn)地10和產(chǎn)地11在對應(yīng)波段下的吸光度是所有產(chǎn)地中最低的一類,屬于三等產(chǎn)地;剩余產(chǎn)地比較容易區(qū)分,屬于二等產(chǎn)地.說明模型分類效果良好,不同產(chǎn)地同一種藥材區(qū)分明顯.
(1)模型3給出了中紅外和近紅外兩組光譜數(shù)據(jù),在建模前我們先對這兩組數(shù)據(jù)的特征及差異性進行圖示對比分析.
圖2 某種中藥材17類不同產(chǎn)地中紅外光譜圖
圖3 某種中藥材17類不同產(chǎn)地近紅外光譜圖
從圖2和圖3可知,中紅外和近紅外兩組光譜下不同產(chǎn)地同一種藥材的吸光度是不同的.近紅外光譜吸光度趨勢基本趨同,重復(fù)疊加現(xiàn)象明顯,數(shù)據(jù)間區(qū)分度較低,不適用于藥材產(chǎn)地類別鑒定;而中紅外光譜吸光度離散程度大,光譜距離遠,數(shù)據(jù)區(qū)分度較高,不同產(chǎn)地同一藥材差異性顯著.因此,直接選用中紅外光譜數(shù)據(jù)來完成接下來的建模分析.
(ii)因模型3數(shù)據(jù)量少,類別標簽多.因此建模前需進行主成分降維,選出新生變量.
表5 主成分降維后新生變量累積貢獻率
由表5可知,第一個新生變量的累計貢獻率達82.53%,加入第二個新生變量后的累計貢獻率達88.56%,加入第三個新生變量后的累計貢獻率達93.87%,其余新生變量對模型的累計貢獻率不是很高,因此,只節(jié)選前三個新生變量進行下一步的KNN分類.
(iii)從降維后的新生變量中選取產(chǎn)地信息完善的245個數(shù)據(jù)進行KNN分類.
表6 中紅外光譜數(shù)據(jù)KNN分類結(jié)果
由表6可知,中藥材產(chǎn)地被分為17類,類別間分類個數(shù)相差不大,說明來源于不同產(chǎn)地的同一藥材的樣本數(shù)據(jù)量均衡,結(jié)合上圖2分析結(jié)果,說明不同產(chǎn)地的同一種中藥材之間的差異性相對比較顯著,模型分類效果很好,類別清晰,可直接將需要預(yù)測的藥材編號數(shù)據(jù)導(dǎo)入模型中,直接給出產(chǎn)地預(yù)測結(jié)果.
雖然中藥材的近紅外和中紅外不同光譜特征可以用于鑒別中藥材種類及產(chǎn)地,但站在數(shù)據(jù)分析的角度,如果近紅外和中紅外光譜數(shù)據(jù)類別和數(shù)據(jù)量不同,則選取的模型分析算法也不同.因此,對藥材種類鑒定時,如果樣本數(shù)據(jù)量充足、無缺失值且類別標簽較少,可直接利用K-means聚類來完成藥材種類鑒定.對藥材產(chǎn)地鑒定時,如果樣本數(shù)據(jù)只有一組中紅外或近紅外光譜數(shù)據(jù),樣本數(shù)據(jù)量充足,但數(shù)據(jù)間相似度較高,數(shù)據(jù)信息存在缺失,可將其視為一個監(jiān)督式的模型分類預(yù)測問題,在主成分降維的基礎(chǔ)上通過人工神經(jīng)網(wǎng)絡(luò)分析,判別模型預(yù)測的準確率,實現(xiàn)藥材產(chǎn)地鑒定;如果樣本數(shù)據(jù)有中紅外和近紅外兩組光譜數(shù)據(jù),數(shù)據(jù)類別標簽較多但數(shù)據(jù)量較少,數(shù)據(jù)信息存在缺失時,應(yīng)先對藥材的中紅外和近紅外兩組光譜數(shù)據(jù)特征及差異性進行圖示對比分析,再通過主成分降維進行KNN數(shù)據(jù)分析,結(jié)合圖示分析和數(shù)據(jù)分析結(jié)果完成藥材產(chǎn)地鑒定.