劉瑤,李明,王潤濤
(嶺南師范學院信息工程學院,湛江 524048)
我國是海水養(yǎng)殖大國,其中貝類養(yǎng)殖量占海水養(yǎng)殖總量的70%以上,是海水養(yǎng)殖的主要產(chǎn)品[1]。菲律賓蛤仔(RuditapesPhilippinarum)是沿海主要養(yǎng)殖的貝類之一,其富含各類氨基酸、維生素及人體必需的多種微量元素,具有較高的營養(yǎng)價值且味道鮮美,因此備受青睞。
隨著工業(yè)的迅速發(fā)展,各種污染物直接被排放進海洋,造成海洋環(huán)境污染加劇。污染物中的重金屬屬于不可降解污染物,在威脅海洋生物的生長和繁殖的同時,通過食物鏈不斷富集和傳遞最終危害人類身體健康。鎘(Cadmium,Cd)是一種典型的易在生物體內(nèi)蓄積且難代謝的有害元素,廣泛存在于自然環(huán)境中。菲律賓蛤仔廣泛分布于沿海灘涂等重金屬污染相對嚴重的地區(qū),它們作為非選擇濾食性生物,在攝食過程中會將沉積物和水體中的重金屬污染物積累于體內(nèi)。若長期食用,對人類健康產(chǎn)生危害。因此,提高菲律賓蛤仔的重金屬污染檢測能力,保證菲律賓蛤仔的質(zhì)量和食用安全已成為食品安全科學中迫切需要解決的問題。
傳統(tǒng)的菲律賓蛤仔重金屬鎘污染檢測方法有電感耦合等離子體質(zhì)譜法、原子吸收光譜法[2]等,這些方法都能夠提供較高的檢測靈敏度和較準確的檢測結(jié)果,但是檢測時間長、操作復(fù)雜、需要對樣品進行相應(yīng)的處理。兼具圖像處理技術(shù)和光譜分析技術(shù)優(yōu)點的高光譜圖像技術(shù)[3]的迅速發(fā)展為實現(xiàn)蛤仔重金屬鎘污染快速無損檢測提供了技術(shù)可行性。與傳統(tǒng)的重金屬鎘檢測方法相比,高光譜圖像檢測技術(shù)的特點是無需對樣品做復(fù)雜的預(yù)處理,檢測是非破壞性的且操作簡便快速,適于大批量檢測,分析過程中不需要任何化學試劑輔助,對環(huán)境無污染。
高光譜圖像技術(shù)在海產(chǎn)品、蔬菜、肉類、水果等農(nóng)產(chǎn)品無損檢測方面都取得了很好的成果。Huang M等人采用高光譜成像技術(shù)對不同年份的玉米種子進行分類,提高作物產(chǎn)量[4];Wang W等人應(yīng)用高光譜檢測技術(shù)監(jiān)測新鮮紅肉(豬肉、牛肉和羊肉)的質(zhì)量和安全性[5];Luo W等人將高光譜成像與分水嶺分割算法結(jié)合檢測不同果皮顏色蘋果早期瘀傷[6]。查閱國內(nèi)外文獻尚未見應(yīng)用高光譜圖像技術(shù)進行貝類重金屬污染檢測的相關(guān)研究成果,聚焦于基于高光譜圖像技術(shù)的菲律賓蛤仔重金屬鎘污染檢測的相關(guān)研究成果亦未見報道。
菲律賓蛤仔由于具有堅硬的外殼,阻擋了一些波段的光子的入射與反射,故菲律賓蛤仔重金屬鎘污染檢測研究并不能盲目、直接、簡單地移植現(xiàn)有的高光譜圖像檢測方法。本文采集受重金屬鎘污染的完整和開殼的菲律賓蛤仔高光譜圖像,提取特征波段子集,應(yīng)用模式識別技術(shù)構(gòu)建檢測模型。本研究豐富了重金屬污染無損檢測理論和方法,為菲律賓蛤仔的品質(zhì)質(zhì)量評價和安全檢測提供一種新的方法和途徑。另外,本研究成果可為養(yǎng)殖水域中重金屬富集規(guī)律研究和海洋生態(tài)系統(tǒng)重金屬監(jiān)測研究提供技術(shù)支撐。
試驗用菲律賓蛤仔購于廣東省湛江市寸金海鮮市場。將細砂進行消毒除雜,鋪于尺寸為119 cm×108 cm×32 cm,容積為300L的塑料養(yǎng)殖箱中。將海水進行24小時的沉降,然后過濾,用于菲律賓蛤仔樣本的實驗室養(yǎng)殖。海水的pH值為8.0,水溫為28℃,溶解氧含量為6.5mg/L,鹽度為30‰。在養(yǎng)殖箱中加入高濃度CdC12·2.5H2O(0.8 mg L-1)溶液,模擬受重金屬鎘污染的海洋環(huán)境,在此養(yǎng)殖箱中飼養(yǎng)菲律賓蛤仔樣本。將對照組樣本飼養(yǎng)于不添加任何重金屬元素的海水中。實驗過程中,海水通過過濾泵連續(xù)曝氣過濾,并與裝滿過濾材料的PVC盒連接。過濾器每天會關(guān)閉4小時,期間投喂小球藻。每天分別向兩個養(yǎng)殖箱中加入含有CdC12·2.5H2O試劑的海水和單純的海水,用于補充養(yǎng)殖箱中海水的損耗。將菲律賓蛤仔樣本在養(yǎng)殖箱中培養(yǎng)10天,以便重金屬鎘累積。培養(yǎng)結(jié)束后,取重金屬鎘污染樣品60份,健康(未污染)菲律賓蛤仔樣品120份,進行高光譜圖像采集。
本研究中菲律賓蛤仔樣本的高光譜圖像數(shù)據(jù)采集使用的是美國Surface Optics公司生產(chǎn)的SOC710-VP高光譜成像儀。該系統(tǒng)由高光譜成像儀、光源單元(鹵素燈)和載物平臺單元[7]組成,如圖1所示。該高光譜成像儀采集范圍為367.7-1051.9 nm,共512個波段。整個光譜范圍的最前端和最末端的光譜中包含大量噪聲,故去掉這兩部分光譜,保留400.5 nm到1000.9 nm的450個光譜波段。高光譜圖像的采集過程在黑暗環(huán)境中進行以最大程度的減少外部光源的干擾。高光譜圖像的標準定標,包括光譜定標、輻射定標和反射率歸一化在SRAnal710軟件中進行。圖2為受到重金屬鎘污染的完整和開殼的菲律賓蛤仔高光譜圖像。
圖1 高光譜圖像采集系統(tǒng)
(a)完整樣本
(b)開殼樣本
2.3 鄰域粗糙集框架下的一致性特征波段選擇方法
高光譜圖像系統(tǒng)采集的高維度數(shù)據(jù)能夠更全面、詳細的描述研究對象,但高光譜圖像波段數(shù)多,數(shù)據(jù)量大,亦給光譜分析工作帶來一定的難度,故對高光譜圖像進行降維處理是十分必要的。降維方法的研究,主要集中在特征提取[8]與特征選擇[9]兩個方向。為了去除原始波段中不重要的或者不相關(guān)的特征,本研究聚焦于高光譜特征波段選擇方法,引入粗糙集理論,達到降維目的。
設(shè)菲律賓蛤仔光譜數(shù)據(jù)有m個波段,記為C={c1,c2,…,cm},有n個樣本,記為U={x1,x2,…,xn},則對應(yīng)的高光譜波段信息矩陣為W={wij|i=1,2,…,n;j=1,2,…,m},其中,wij為第xi個樣本在第cj個波段下的光譜值;其中xi∈U,cj∈C。
基于鄰域粗糙集理論[10],建立鄰域決策系統(tǒng),具體為:將受重金屬鎘污染樣本和健康樣本作為決策屬性集D,將波段信息作為條件屬性集C,條件屬性和決策屬性共同構(gòu)成鄰域決策系統(tǒng)NDT=〈U,C∪D,N〉。
(1)
有決策就會帶來損失,所選擇的決策方案和對應(yīng)的狀態(tài)會影響損失的大小,所以,風險損失是由決策方案和狀態(tài)構(gòu)成的函數(shù),可應(yīng)用損失函數(shù)來描述。
定義2:0-1錯誤分類損失函數(shù)定義為:
(2)
其中ω(xi)是xi的真實類別。
定義3:鄰域決策誤差率(Neighborhood Decision Error,NDER)定義如下:
(3)
其中,n表示樣本的總量。
鄰域決策誤差率[11]的理論基礎(chǔ)是多數(shù)決策原則,各樣本分配決策類的依據(jù)是樣本鄰域內(nèi)類的分布信息,然后計算重新分配的類別與實際類別之間的差異率。為了方便,稱1-NDER為鄰域識別率(Neighborhood Recognition Rate,NRR)。能夠使得總體的損失最小的決策,即最小風險貝葉斯決策,是期望的最優(yōu)決策。
定義4:給定鄰域決策系統(tǒng)NDT=〈U,C∪D,N〉,B?C,a?B,給定屬性子集B,屬性a相對于決策D的重要度為:
SIG(a,B,D)=NRRB∪a(D)-NRRB(D)
(4)
根據(jù)前向貪心搜索算法和鄰域決策誤差最小化準則選擇特征波段,將得到的波段子集作為極限學習機[12](Extreme Learning Machine,ELM)的輸入特征,完成重金屬鎘污染的菲律賓蛤仔識別任務(wù)。
在模式識別領(lǐng)域,作為一種新的學習框架,ELM得到了廣泛的應(yīng)用。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,ELM隨機選取輸入層與隱含層之間的連接權(quán)重,隨機選取隱含層神經(jīng)元的閾值。在分類任務(wù)中,ELM算法具有泛化能力佳、快速、高效的特點。
應(yīng)用ELM鑒別重金屬鎘污染的菲律賓蛤仔的步驟為:首先采集菲律賓蛤仔樣本的高光譜數(shù)據(jù)并進行預(yù)處理,通過基于一致性準則的波段選擇方法提取特征波段子集;最后利用極限學習機在光譜數(shù)據(jù)和樣本種類之間建立起一一映射關(guān)系,即識別模型,進而可以預(yù)測未知樣本的重金屬污染情況。圖3給出了利用ELM識別重金屬鎘污染的菲律賓蛤仔流程。
圖3 ELM識別重金屬鎘污染的菲律賓蛤仔流程圖
ELM模型訓(xùn)練的步驟如下:
(1)隨機產(chǎn)生輸入層與隱含層間連接權(quán)值ωi和隱含層神經(jīng)元閾值b;
(2)選擇隱藏層神經(jīng)元個數(shù)L和激活函數(shù)g(x);
(3)計算出隱含層與輸出層間的連接權(quán)值βi和隱含層輸出矩陣H;
(4)計算得到輸出層權(quán)重β=H-1Y。
在菲律賓蛤仔樣本的高光譜圖像的中心區(qū)域應(yīng)用ENVI 4.8軟件提取矩形區(qū)域作為感興趣區(qū)域,計算區(qū)域內(nèi)的所有像素反射值的平均值作為該樣本的光譜反射值。圖4給出了受鎘污染和健康的完整菲律賓蛤仔樣本的光譜曲線,以及兩大類的平均光譜曲線。從圖4(a)中可以看出,重金屬鎘污染樣本與健康樣本的光譜曲線相似,用肉眼幾乎看不出有什么明顯的差別,原因是它們屬于同一物種。為觀察鎘污染樣本與健康樣本的光譜差異,圖4(b)給出每類的平均光譜曲線。在平均光譜曲線上可以觀察到兩類樣本光譜具有相似的變化趨勢,但光譜反射率值在整體上存在一定的差異,尤其是在800-1000 nm范圍內(nèi)差異比較明顯。圖5給出了受鎘污染和健康的開殼菲律賓蛤仔樣本的光譜曲線,以及兩大類的平均光譜曲線。從圖5(b)每類的平均光譜曲線也是能夠看出兩類樣本光譜存在一定的差異,差異主要存在在600-900 nm之間。與完整樣本的光譜不同之處在于在開殼樣本的光譜曲線中健康樣本的光譜反射率值高于重金屬鎘污染樣本反射率值。
重金屬污染引起的光譜差異用肉眼直接識別基本是不可能的。因此,需要采用模式識別方法與化學計量學相結(jié)合進行識別。由于采集的高光譜數(shù)據(jù)不僅包含樣本信息,還包含噪聲,故需要對光譜進行預(yù)處理之后再應(yīng)用模式識別方法建立分類模型。已有的研究結(jié)果表明,光譜預(yù)處理能有效地提高分類模型性能[13]。本研究采用的預(yù)處理方法為多元散射校正[14](MultiplicativeScatterCorrection,MSC)。
圖4 完整的菲律賓蛤仔樣本的光譜曲線
圖5 開殼的菲律賓蛤仔樣本的光譜曲線
鄰域δ的大小是影響鄰域決策系統(tǒng)的一個重要參數(shù),其直接影響特征約簡的效果。因此,選擇適合的鄰域大小是至關(guān)重要的。本研究通過實驗來研究特征波段數(shù)量以及分類準確率受鄰域大小的影響情況。實驗中,鄰域δ的取值是0.01到0.5,步長為0.01。波段子集中的波段數(shù)量隨鄰域δ的變化而變化,圖6給出了變化情況??梢园l(fā)現(xiàn),無論是對于完整的菲律賓蛤仔樣本數(shù)據(jù)集,還是開殼的菲律賓蛤仔樣本數(shù)據(jù)集,波段的數(shù)量隨δ的增大都沒有特定的單調(diào)增加或者減小的變化趨勢,而是在數(shù)量2到11這個區(qū)間內(nèi)波動。而且,在一些情況下,鄰域δ的取值雖然不同,但是選擇出的波段子集大小卻是相同的。通過本研究中給出的波段選擇算法,使得高光譜數(shù)據(jù)的維數(shù)從原始的450個波段降到10個波段以下,降維效果明顯,達到了降維的目的。但是,若想確定最佳的鄰域δ取值,僅僅通過波段數(shù)量還是遠遠不夠的,還需要結(jié)合模式識別中的分類算法的分類效果。
圖6 特征波段選擇算法選出的波段數(shù)量鄰域變化情況
在本實驗中,共有健康菲律賓蛤仔樣本60個,重金屬鎘污染樣本60個。從兩種樣本構(gòu)成的數(shù)據(jù)集中隨機選取90個樣本作為訓(xùn)練集,30個樣本作為測試集。由于是隨機選擇,為了減少隨機誤差,每次建模都重復(fù)100次,用這100次實驗結(jié)果的分類準確率的最大值和平均值評價分類效果。圖7給出了對于完整的和開殼的菲律賓蛤仔樣本數(shù)據(jù)集,最大分類準確率和平均分類準確率隨鄰域δ的變化情況。由圖中可以看出,分類準確率都是隨著鄰域大小的變化而變化的,但并不隨鄰域的增大做線性變化。同時,結(jié)合圖6,我們也可以注意到,準確率并不是隨著波段數(shù)量的增加而增加的。例如,對于完整的菲律賓蛤仔,當鄰域δ=0.05時,波段數(shù)量是4個,平均分類準確率為87.44%,而當鄰域δ=0.11時,波段數(shù)量是7個,平均分類準確率僅為83.89%。對于開殼的菲律賓蛤仔樣本,也同樣存在這樣的現(xiàn)象。也就是說,當波段數(shù)量增加時,分類性能不一定會提升。這表明,若想得到滿意的分類效果,合理地選擇鄰域δ是關(guān)鍵。
圖7 分類準確率隨鄰域變化情況
為了能更直觀地看出分類準確率與波段數(shù)量之間的關(guān)系,我們選取波段數(shù)量為2到10這個范圍,提取每種波段數(shù)量取值下分類準確率最佳的情況,給出如圖8所示的分類準確率隨波段數(shù)量變化情況示意圖。從圖中可以看出,分類準確率在整體是隨著波段數(shù)量的增加而增加的,但是也存在一些特例,如對于完整的蛤仔樣本,在波段數(shù)量為7個時,平均分類準確率為92.89%,當波段數(shù)量持續(xù)增大時,平均準確率反而下降,當波段數(shù)量增加至10個時,平均準確率降為90.56%。進一步表明,波段數(shù)量的增大并不一定會帶來檢測效果的提升。比較圖8(a)和(b),可以看出,針對檢測重金屬鎘污染蛤仔這一問題,開殼樣本的檢測準確率高于完整樣本。對于開殼樣本來說,當波段數(shù)量為8個時,平均分類準確率能達到96.89%。對于完整樣本來說,最好的分類效果是平均準確率為92.89%,發(fā)生在波段數(shù)量為7個時,雖然分類效果不如開殼樣本的分類效果,但準確率也在90%以上,能夠達到檢測重金屬鎘污染蛤仔的目標。
圖8 分類準確率隨波段數(shù)量變化情況
重金屬污染已成為一個日益嚴重的問題,提高對重金屬污染貝類的檢測能力是保障消費者安全的必要措施。本研究以菲律賓蛤仔為研究對象,應(yīng)用高光譜圖像和模式識別技術(shù)實現(xiàn)健康樣本和重金屬鎘污染樣本的鑒別檢測。研究結(jié)果表明,重金屬鎘對菲律賓蛤仔軟體的影響可以反應(yīng)在光譜曲線上,在提取特征波段的基礎(chǔ)上,應(yīng)用ELM分類器可以較好地區(qū)分健康和受污染的樣本。