彭 杰 龔曉峰* 雒瑞森 李成鑫 李 劍
1(四川大學電氣工程學院 四川 成都 610065)2(浙江農(nóng)林大學信息工程學院 浙江 杭州 311300)
珍珠是一種廣受青睞的有機珠寶,極具觀賞價值和商業(yè)價值。然而,中國作為珍珠生產(chǎn)大國,卻并未獲得同產(chǎn)出相匹配的豐厚利潤[1]。究其原因,主要是品質(zhì)分選不足,使各級珍珠的實際價值不能充分體現(xiàn)。目前,關(guān)于珍珠品質(zhì)分選的研究,在形狀[2-3]、顏色[4-5]和光潔度[6-7]等方面都已取得不錯成效,但在光澤分選方面卻仍有較大不足。
現(xiàn)有針對珍珠光澤品質(zhì)分選的研究,主要有機理研究和應用研究兩個方向。其中機理研究旨在考查不同光澤珍珠在特定實驗表現(xiàn)中的差異及其成因。如Monarumit等[8-9]通過X-ray,Zhou等[10]通過OCT,考查發(fā)現(xiàn)不同光澤的珍珠存在晶體成分差異。進一步地,Satitkune等[11]、Fu等[12]、Sung等[13]運用SEM觀察發(fā)現(xiàn),晶體成分差異導致珍珠表面微形貌差異,進而影響珍珠光澤。它們雖然充實了光澤分選的理論基礎,對應用研究具有指導意義,但并未形成可推廣實施的具體方案。
應用研究則聚焦于光澤分選的具體實施方法,根據(jù)實施基礎,又可分為機器視覺法和光譜法等。其中典型的機器視覺法是從珍珠圖像的HSL模型中提取亮度信息(L),再以權(quán)值隸屬規(guī)則,建立光澤等級判別模型。如李革等[14]以珍珠圖像光亮區(qū)和反光區(qū)的亮度均值加權(quán)和表征珍珠光澤,建立柯西判別模型。文獻[5,15]以珍珠全景圖為基礎,根據(jù)各光亮區(qū)和反光區(qū)的亮度、面積、占兩類區(qū)域加權(quán)和的比重等,建立柯西遞屬模型。此外,學界嘗試研制基于此類方法的專用設備[5,16],但并未得到推廣應用。主要是由于該類方法的分選效果極大受制于光照質(zhì)量,且各信息區(qū)域的邊界選擇具有較強的主觀性和個體差異性,難以保證在規(guī)模化檢測中取得一致優(yōu)秀的分選效果。
基于光譜的光澤分選方法,主要采用模式識別技術(shù),依據(jù)統(tǒng)計學原理判定被測珍珠的光澤等級。典型地,Snezana等[6]訓練有珍珠品質(zhì)關(guān)于紫外光譜(UV)的人工神經(jīng)網(wǎng)絡(ANN)模型和關(guān)于紫外可見光光譜(UV-Vis)的概率神經(jīng)網(wǎng)絡(KNN)模型[7]。這類方法實現(xiàn)簡單,容錯性能、泛化檢測能力和規(guī)模化檢測能力均較強,這使該類方法的推廣前景廣闊;不足之處在于,文獻[6-7]所述模型忽略了珍珠表面光澤的不均勻性,沿用定性分選的一貫思路,以單組光譜表征被測珍珠,使準確性和穩(wěn)定性均表現(xiàn)欠佳。
有鑒于此,本文沿用光譜模式識別技術(shù),在充分考慮珍珠光澤成因和不均勻特性的基礎上,提出多區(qū)域聯(lián)合判決方法,并配合設計有復采樣光譜分類方法和異常光譜矯正方法。該方法既繼承前述光譜類方法的優(yōu)點,又克服其不足,能極大提升檢測模型的準確性和穩(wěn)定性。實驗以252顆浙江諸暨淡水珍珠為樣本,優(yōu)選訓練了KPCA+PSO-SVM光澤分選模型和多組對照模型,以期驗證本文方法的實際效果。
珍珠光澤是可見光在珍珠殼和珠層間反射、散射、被吸收等光學效應的綜合產(chǎn)物,強度取決于被觀測位置的物理結(jié)構(gòu)[10,12]。光澤強度通常與近殼珠層中文石晶體的占比正相關(guān),這是因為文石晶體的結(jié)晶程度高、形狀和尺寸均勻,文石板片堆積緊密、邊緣規(guī)則,容易形成較強、較規(guī)則的光學反射。珠層中的球文石晶體則不穩(wěn)定、不規(guī)則、結(jié)構(gòu)松散,會降低光學反射的強度和規(guī)則程度[8-13,17-18]。此外,殼層損傷、畸形等也會貶損相應區(qū)域的光澤表現(xiàn)。
珍珠殼不同區(qū)域的物理結(jié)構(gòu)差異使得珍珠表面不同位置的光澤強度也表現(xiàn)不一,珍珠整體的光澤表現(xiàn)正是這些區(qū)域性光澤表現(xiàn)的綜合。因此,度量珍珠的整體光澤時,應綜合衡量珍珠表面不同區(qū)域的多組光譜,即多區(qū)域聯(lián)合判決,并稱該多組光譜的測量過程為光譜復采樣。此外,測量單個區(qū)域的光譜時,應盡量避免該區(qū)域結(jié)構(gòu)因素之外的干擾,故本研究選用了只與表面物理特性相關(guān)的可見光光譜。
1.1節(jié)說明了不同珠殼區(qū)域的光澤有所不同。對光澤較均勻的珍珠而言,這些區(qū)域性光澤大多與綜合后的整體光澤相似,構(gòu)成整體光澤的主體;少數(shù)與整體光澤存在較大差異,構(gòu)成整體光澤的補充。在訓練分選模型時,它們所對應的光譜數(shù)據(jù)發(fā)揮著不同的作用。前者表征了該珍珠對應的光澤等級,能夠增加訓練數(shù)據(jù)的特征豐富度;后者具有其他光澤等級的數(shù)據(jù)特征,會降低分選模型的準確性。因此,有必要對兩者加以區(qū)分。
根據(jù)復采樣光譜的整體特征,本研究將其劃分為基準光譜和異常光譜兩種類型,具體如表1所示。
表1 復采樣光澤的分類
進一步地,還依據(jù)兩類光譜的特征,配合設計了復采樣光譜分類算法。該算法規(guī)定,每連續(xù)的c個數(shù)據(jù)點作為一個檢測窗區(qū)間,每滑動g個窗區(qū)間做一次抽查。在各窗區(qū)間,待分類光譜的偏移程度用窗內(nèi)各數(shù)據(jù)點殘差的累計和(窗殘差)衡量,待分類光譜集的整體分散程度用所含光譜的窗殘差的標準差衡量。具體過程如下。
假設每顆珍珠有h組復采樣光譜,每組光譜含n個數(shù)據(jù)點,則該珍珠的第k組光譜向量記作:
(1)
并記:
xs=[x(1),x(2),…,x(s),…,x(μ)]Ts=1,2,…,μ
(2)
式中:μ為xs含有的光譜向量組數(shù),初始μ=h;x(s)=x(k)。此時,xs的均值光譜為:
(3)
計算xs中第s組光譜相對均值光譜的窗殘差。
(4)
(5)
若第s組光譜的第t個窗殘差,滿足:
(6)
則稱該窗區(qū)間為異常窗區(qū)間。其中Δ>1為異常窗區(qū)間判別系數(shù)。
迭代執(zhí)行式(2)-式(6),逐次篩除含異常窗區(qū)間最多的光譜向量。當剩余光譜向量均不存在異常窗區(qū)間,則迭代收斂,稱剩余光譜為基準光譜,稱被篩除光譜為異常光譜。
針對前述復采樣光譜分類算法的特點,本研究配合提出一種異常光譜矯正方法。該方法以傳統(tǒng)均值矯正方法[19-20]為基礎,增加原始數(shù)據(jù)加權(quán)項,并設置可進行矯正的寬度條件。因此,該方法既具有削弱數(shù)據(jù)偏移程度,提高數(shù)據(jù)有效部分利用率的傳統(tǒng)性能,又保留了數(shù)據(jù)的原始特征,能在Δ取值過小,造成過度篩除時,起一定補救作用。其具體實現(xiàn)如下。
設異常光譜為x(b),收斂xs的均值光譜為x(a)。若,由式(4)-式(5)計算所得的?(b),根據(jù)式(6)判別x(b)的異常窗區(qū)間個數(shù)。
N(x(b))≤ωT
(7)
滿足式(7)則稱x(b)滿足異常光譜矯正的寬度條件。其中ω∈(0,1]為寬度系數(shù)。進一步地,設x(b)是x(b)異常窗區(qū)間內(nèi)的數(shù)據(jù)點,x(s)是x(s)中對應位置的數(shù)據(jù)點。定義x(b)的矯正公式為:
(8)
式中:φ≥0為權(quán)重系數(shù)。對矯正后的x(b),迭代執(zhí)行式(4)-式(8),直到x(b)不再含有異常窗區(qū)間。
實驗樣本為252顆產(chǎn)自浙江諸暨的淡水養(yǎng)殖珍珠。根據(jù)專業(yè)檢驗人員鑒定,該批珍珠分別包含黃色系和紫色系的高光澤等級、中光澤等級、低光澤等級珍珠各30顆,包括白色系高光澤等級、中光澤等級和低光澤等級珍珠各24顆。如表2所示,將每類珍珠按4 ∶1劃分為訓練集和測試集,并要求訓練集珍珠具有較好的光澤均勻性。
表2 珍珠樣本集劃分
為實現(xiàn)珍珠殼隨機位置的光譜復采樣,本研究設計了專用化光譜測量系統(tǒng),如圖1所示,其中:1為PC機;2為串口數(shù)據(jù)線;3為光譜儀;4為鎢燈光源;5為Y型光纖;6為光譜探頭;7為珍珠;8為氣流導管;9為氣泵;10為STM32控制板;11為串口數(shù)據(jù)線;12為串口數(shù)據(jù)線。該系統(tǒng)由PC機、串口數(shù)據(jù)線、Y型光纖、杭州賽曼科技S3000-VIS光纖光譜儀和H03可調(diào)鎢燈光源、專用反射式光譜探頭、可調(diào)壓氣泵、單向氣流導管、STM32控制板及必要電氣線路組成。當氣泵向?qū)Ч芘艢鈺r,氣流會推動珍珠隨機翻滾,改變光譜測量位置。
圖1 光譜測量系統(tǒng)
經(jīng)實驗,優(yōu)選氣壓強度為0.1 MPa,每次排氣時長為100 ms,光譜對標準白板的反射強度為8 000 counts,曝光時長為35 ms。每次測量的有效數(shù)據(jù),應在曝光期間連續(xù)穩(wěn)定,且與無珍珠狀態(tài)的標稱數(shù)據(jù)存在較大差異;否則為無效數(shù)據(jù),重新計算曝光時長,直到數(shù)據(jù)有效。同一珍珠的光譜復采樣期間,光譜測量和排氣吹珠交替進行,直至完成規(guī)定測量組數(shù)。
(1) 提取特征向量集。由全體訓練集珍珠樣本的x(s)和矯正后的x(b)組成訓練光譜集,并利用核主成分(Kernel Principal Component Analysis,KPCA)方法訓練特征壓縮模型,提取訓練特征向量集。大量應用表明,用低維特征向量集訓練的模型,能有效減輕原始數(shù)據(jù)集維度大、低效特征多、易過擬合等問題[21-23]。此外,KPCA具有非線性映射特性,相比常規(guī)PCA,更符合本研究非線性判別的特點[24]。實驗采用陳素云研究員開發(fā)的Kernel Statistics Toolbox工具包所含KPCA函數(shù)。
(2) 訓練PSO-SVM回歸預測模型。對訓練特征向量集,分別設置高/中/低光澤等級珍珠對應特征向量的標簽為-1、0、1,并訓練PSO-SVM回歸預測模型。PSO-SVM是以粒子群算法(PSO)優(yōu)化支持向量機(SVM)的混合模型,該模型能實現(xiàn)自動高效的大范圍參數(shù)尋優(yōu),被廣泛應用于智能檢測領域[25-26]。實驗中,采用王小川等[27]編寫的PSO程序和臺灣大學林智仁團隊開發(fā)的LIBSVM-3.32工具包實現(xiàn)。
(3) 光澤分選的決策方法。由待分選珍珠的h組復采樣光譜和前述KPCA模型,提取待分選特征向量集,并輸入前述PSO-SVM模型。得各組特征向量的回歸預測值yk,k=1,2,…,h,并計算均值:
(9)
若Y<-0.5,則判定該珍珠的光澤等級為低;Y>0.5,則判定該珍珠的光澤等級為高;否則,判定該珍珠的光澤等級為中。
為驗證不同建模方法和光譜復采樣組數(shù)對分選效果的影響,本實驗訓練了多個對比模型,統(tǒng)計各模型的分選準確率如表3所示。其中:訓練集相應準確率為訓練集樣本以對應建模方法做5折交叉驗證獲得的平均準確率;測試集相應準確率為測試集樣本在對應模型下的最佳準確率;所有SVM均以粒子群算法(PSO)優(yōu)化參數(shù),即本文所述PSO-SVM模型; ANN和PCA采用MATLAB庫函數(shù)。經(jīng)實驗,優(yōu)選各參數(shù)為(c=200;g=100;Δ=1.6;ω=1/3;φ=μ)。所有分選模型均采用相同的前述珍珠樣本集和光譜處理方法,僅特征向量提取方法和光譜復采樣組數(shù)存在差別。其中(KPCA+SVM,h=6)對應模型是按本文方法訓練的最佳模型,較之其余模型,該模型兼顧了分選準確率高和光譜復采樣組數(shù)低等特性,性能最好。
表3 不同光譜復采樣組數(shù)和建模方法下的分選準確率
以光譜復采樣組數(shù)(h)為橫軸,分選準確率為縱軸,繪制各模型的準確率變化曲線如圖2所示。隨光譜復采樣組數(shù)(h)增加,各模型的準確率均先逐漸增加,后穩(wěn)定保持在80%以上;測試集的最佳準確率漸趨于訓練集的平均準確率,兩者差值漸縮至5%以內(nèi)。這表明多區(qū)域聯(lián)合判決方法,能有效提高分選模型的準確率,削弱測試集珍珠光澤均勻性偏弱造成的準確率下降。并且,該性能不依賴于SVM、ANN等模型本身。
圖2 不同光譜復采樣組數(shù)和建模方法的分選準確率
圖2和表3還顯示,所訓SVM模型的準確率整體優(yōu)于所訓ANN模型;采用KPCA提取特征向量的模型整體比采用PCA提取特征向量或未提取特征向量的模型具有更高的準確率。原因在于,較之ANN模型,SVM模型更適用于本實驗的小樣本集非線性預測特性。同樣地,KPCA方法的非線性特征壓縮性能更有助于改善本實驗所訓模型的分選效果。
針對本文方法和異常光譜矯正方法,實驗以表3(KPCA+SVM,h=6)對應模型為基礎,訓練不同判別系數(shù)(Δ)和矯正參數(shù)(ω,φ)的多組對照模型,統(tǒng)計分選準確率如表4所示。其中(Δ=1.6,ω=1/3,φ=μ)對應模型即前述基礎模型,其余模型僅有參數(shù)(Δ,ω,φ)取值的差異,各準確率是以對應參數(shù)(h=6;c=200;g=100;Δ;ω;φ)做5次重復建模,獲得的測試樣本集平均準確率。
表4 不同判別系數(shù)(Δ)和矯正參數(shù)(ω,φ)下的分選準確率
根據(jù)表4,繪制不同判別系數(shù)(Δ)和矯正參數(shù)(ω,φ)下的準確率曲線如圖3所示。當1.4≤Δ≤1.6時,各曲線均處于高水平區(qū)間;Δ>1.6時,所有曲線一致下降;Δ<1.4時,除(ω=2/3,φ=μ)模型外,也均有不同程度的下降。這表明,恰當?shù)摩と≈凳谦@得較高準確率的關(guān)鍵,Δ取值過高或過低都會造成準確率下降。原因是,過大的Δ無法有效篩選基準光譜,過小的Δ又會造成過度篩除,使xs趨于單一,兩者皆不利于分選效果。
圖3 不同判別系數(shù)Δ和矯正參數(shù)(ω,φ)下的分選準確率
圖3還表明引入異常光譜矯正機制,能夠不同程度地改善分選模型的準確率。當ω=1/3時,改善模型的準確率在Δ=1.6處達到峰值;當ω=2/3時,該峰值則出現(xiàn)在更小Δ處。對同一ω,加權(quán)均值矯正法(φ=μ)對準確率的改善作用,隨Δ取值減小而增強。這是因為ω越大,異常光譜越容易加入訓練光譜集;Δ越小,異常光譜越可能是被過度篩除的光譜。因此,隨著Δ取值減小,只有ω取值增大,并在光譜矯正中盡可能保留原始特征,才能抵消過度篩除造成的訓練集單一化,使準確率維持在較高水平。
由本文實驗結(jié)果可得如下結(jié)論:(1) 對基于光譜模式識別技術(shù)的珍珠光澤分選方法,實行多區(qū)域聯(lián)合判決,即綜合考慮多個不同區(qū)域的光澤表現(xiàn),是取得較高準確率的關(guān)鍵。(2) 本文方法和配合實施的異常光譜矯正方法,在參數(shù)(Δ,ω,φ)設置得當時,能有效提升模型的分選性能。(3) 相比其他建模方法,優(yōu)選的KPCA+PSO-SVM建模方法最適應本文的小樣本集非線性分選特性,訓練集和測試集的最佳準確率均在90%以上。
另外,本文所述方法的立論基礎,可抽象概括為:目標分選物的待分選指標由多部分綜合形成,且具有預期均勻、實際非均勻的特點。因此,具有相似理論基礎的分選問題,均可參考本文方法。如何在其他領域推廣應用該方法,并實現(xiàn)所涉參數(shù)的自適應匹配是未來的工作方向之一。