范 維,高曉月,董雨馨,李賀楠,王 琳,郭文萍
(中國(guó)肉類食品綜合研究中心,北京食品科學(xué)研究院,北京 100068)
近年來(lái),隨著肉類消費(fèi)量的快速增長(zhǎng),肉類摻假事件屢見(jiàn)不鮮[1-3]。不法商販以價(jià)格低廉的雞肉、鴨肉、豬肉或其他動(dòng)物肉類冒充價(jià)格較高的牛肉、羊肉,賺取高額利潤(rùn)[4-5]。這種欺詐行為不僅損害消費(fèi)者利益、危害消費(fèi)者身體健康,還會(huì)破壞市場(chǎng)秩序[6-7]。而肉類制品通常經(jīng)過(guò)加工處理,以依靠感官與經(jīng)驗(yàn)的傳統(tǒng)肉類形態(tài)學(xué)為主的鑒別手段已無(wú)法準(zhǔn)確鑒別其源性。因此,國(guó)內(nèi)外已經(jīng)開(kāi)發(fā)出多種肉類摻假鑒別檢測(cè)技術(shù),例如免疫和質(zhì)譜技術(shù)[8]、聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction,PCR)技術(shù)[9]以及光譜、傳感器等無(wú)損檢測(cè)技術(shù)[10]。目前,我國(guó)主要采用實(shí)時(shí)聚合酶鏈?zhǔn)椒磻?yīng)(real-time PCR)法進(jìn)行源性成分檢測(cè),該方法不受加工處理及待鑒定基質(zhì)中復(fù)雜干擾成分的影響、鑒定結(jié)果準(zhǔn)確且靈敏度高[11-12]。檢測(cè)技術(shù)作為一種監(jiān)控手段,對(duì)于食品安全保障必不可少,但是如何實(shí)現(xiàn)食品安全的源頭防控和主動(dòng)預(yù)防,也是值得認(rèn)真思考的方向。
我國(guó)當(dāng)前對(duì)食品安全風(fēng)險(xiǎn)預(yù)測(cè)的手段限于數(shù)理統(tǒng)計(jì)、不合格樣品信息通報(bào)等,而對(duì)于大量檢測(cè)數(shù)據(jù)的深入分析與挖掘缺乏有效的手段[13]。通過(guò)對(duì)發(fā)達(dá)國(guó)家構(gòu)建的監(jiān)測(cè)與預(yù)警系統(tǒng)(如國(guó)際食品安全當(dāng)局網(wǎng)絡(luò)、歐盟食品與飼料快速預(yù)警系統(tǒng))研究可以發(fā)現(xiàn),基于數(shù)據(jù)挖掘分析的食品安全監(jiān)測(cè)與預(yù)警模型可以有效達(dá)到風(fēng)險(xiǎn)預(yù)測(cè)的目的,進(jìn)而促進(jìn)監(jiān)管前移[14]。數(shù)據(jù)挖掘技術(shù)是指將潛在的、隱含的信息從龐大的、不完整的、有干擾的數(shù)據(jù)中挖掘出來(lái),提取隱含在其中的有效信息的過(guò)程[15]。而人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型是一種重要的數(shù)據(jù)挖掘工具,通過(guò)模擬生物學(xué)中相互連接神經(jīng)元組成的復(fù)雜網(wǎng)絡(luò)進(jìn)行建模。目前,常見(jiàn)的ANN模型為反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò),由于其能夠通過(guò)訓(xùn)練,精準(zhǔn)地發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律,進(jìn)而有效識(shí)別、記憶食品危險(xiǎn)特征,已被成功應(yīng)用到食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域中[16-17]。
目前,國(guó)內(nèi)對(duì)食品安全風(fēng)險(xiǎn)調(diào)查及風(fēng)險(xiǎn)預(yù)測(cè)研究多集中在常規(guī)檢測(cè)項(xiàng)目,如食源性致病菌、農(nóng)獸藥殘留等,對(duì)肉類摻假調(diào)查分析較為少見(jiàn)。本實(shí)驗(yàn)對(duì)2019年北京市銷售的牛、羊肉串摻假情況進(jìn)行調(diào)查分析,旨在獲得不同銷售渠道的肉串制品具體摻假情況及相關(guān)數(shù)據(jù),并在此基礎(chǔ)上運(yùn)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱藏在檢測(cè)數(shù)據(jù)中有價(jià)值的信息,構(gòu)建牛、羊肉串摻假風(fēng)險(xiǎn)預(yù)測(cè)模型。以期為建立高效的食品安全風(fēng)險(xiǎn)預(yù)測(cè)機(jī)制和風(fēng)險(xiǎn)預(yù)警系統(tǒng)提供強(qiáng)有力的技術(shù)手段。
1.1.1 建模樣品采集
樣品于2019年7—8月份采集。用于對(duì)照/質(zhì)控的豬、牛、羊、雞、鴨肉取于屠宰場(chǎng),均為整塊純?nèi)?。采集?00 份樣品包括100 份牛肉串(編號(hào)1~100),100 份羊肉串(編號(hào)101~200);采樣渠道含蓋了包括網(wǎng)絡(luò)購(gòu)買(mǎi)、超市、農(nóng)貿(mào)市場(chǎng)、餐飲飯店等10 種不同渠道;本次樣品采集所涉及的銷售單位共計(jì)100 家,每種銷售渠道各10 家,參照大型∶中型∶小型=2∶3∶5的比例進(jìn)行選擇,每家采集羊肉串、牛肉串各1 份。各渠道采集的20 份樣品,按照生制品∶熟制品=1∶1的比例進(jìn)行選擇。具體采集信息見(jiàn)圖1。
圖1 樣品信息網(wǎng)Fig.1 Information network about the samples used in this study
1.1.2 試劑
組織基因組DNA提取試劑盒 廣州迪澳生物科技有限公司;2×PCR Premix ExTaqTM大連寶生物科技有限公司;引物、探針合成 上海英濰捷基科技有限公司。
FTC-3000P型實(shí)時(shí)熒光PCR儀 加拿大Funglyn公司;微量核酸蛋白測(cè)定儀 美國(guó)BioTek公司;3-30K臺(tái)式高速冷凍離心機(jī) 德國(guó)Sigma公司;DK-80恒溫金屬浴 上海一恒儀器有限公司;Thermostat plus振蕩器賽默飛世爾科技有限公司。
1.3.1 質(zhì)控樣品制備
將從屠宰場(chǎng)自取的整塊純的豬、牛、羊、雞、鴨肉分別進(jìn)行攪碎并均質(zhì),以羊肉或牛肉作為基底源性,分別向其中摻入1%豬肉、1%雞肉和1%鴨肉,制得質(zhì)控樣品1%牛/99%羊、1%羊/99%牛、1%豬/99%羊、1%豬/99%牛、1%雞/99%羊、1%雞/99%牛、1%鴨/99%羊、1%鴨/99%牛。為減少源性混合樣品比例的誤差,按比例將各源性樣品直接取至離心管中,充分混合后直接進(jìn)行DNA提取。每種質(zhì)控制作5 組平行樣。
1.3.2 樣品DNA提取及濃度測(cè)定
采用清洗干凈的剪刀、研缽等實(shí)驗(yàn)器具將樣品進(jìn)行剪碎或研磨成肉泥狀,樣品處理過(guò)程中將不同類型源性的樣品分開(kāi)處理,每種源性一把剪刀,防止不同動(dòng)物源性交叉污染。按照組織基因組試劑盒說(shuō)明書(shū)提取樣品DNA并測(cè)定DNA純度。選取OD260nm/OD280nm值在1.7~2.0之間的DNA,于-20 ℃保存?zhèn)溆谩?/p>
1.3.3 引物和探針合成
豬、牛、羊源性引物和探針參照SN/T 2051—2008《食品、化妝品和飼料中牛羊豬源性成分檢測(cè)方法 實(shí)時(shí)PCR法》[18];雞、鴨源性引物和探針參照SN/T 2727—2010《飼料中禽源性成分檢測(cè)方法 實(shí)時(shí)熒光PCR方法》[19]。
1.3.4 real-time PCR體系及程序
擴(kuò)增體系體積為25 μL:2×PCR Premix ExTaqTM12.5 μL;上、下游引物(10 μmol/L)各0.5 μL;探針(10 μmol/L)1 μL;DNA模板(OD260nm/OD280nm值為1.7~2.0)2 μL;其余體積用滅菌雙蒸水補(bǔ)足。
豬、牛、羊源性反應(yīng)程序:95 ℃預(yù)變性10 s;95 ℃變性5 s,60 ℃退火20 s,40 個(gè)循環(huán);60 ℃收集熒光信號(hào)。雞、鴨源性反應(yīng)程序:95 ℃預(yù)變性5 min; 95 ℃變性10 s,60 ℃退火32 s,40 個(gè)循環(huán);60 ℃收集熒光信號(hào)。
1.3.5 樣品檢測(cè)
將純?nèi)鈽悠?、質(zhì)控樣品與采集的樣品一同進(jìn)行DNA提取。提取出的每個(gè)樣品DNA均按照上述方法用real-time PCR進(jìn)行豬、牛、羊、雞、鴨5 種源性成分檢測(cè)。
1.3.6 BP預(yù)測(cè)模型建立
使用IBM SPSS Modeler 18.0軟件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型。IBM SPSS Modeler是一個(gè)提供多種算法和模型的預(yù)測(cè)性分析平臺(tái),可以實(shí)現(xiàn)數(shù)據(jù)自動(dòng)處理、智能建模等多項(xiàng)數(shù)據(jù)分析工作,在食品安全數(shù)據(jù)挖掘中發(fā)揮極大的作用。運(yùn)用IBM SPSS Modeler軟件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)的過(guò)程包括:樣品數(shù)據(jù)預(yù)處理、導(dǎo)入數(shù)據(jù)、設(shè)置類型節(jié)點(diǎn)、設(shè)置數(shù)據(jù)平衡節(jié)點(diǎn)、設(shè)置分區(qū)節(jié)點(diǎn)、設(shè)置神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)、生成模型、參數(shù)優(yōu)化、模型預(yù)測(cè)與分析[20-21]。
使用SPSS 23.0統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)整理和分析。采用ANOVA檢驗(yàn)進(jìn)行數(shù)據(jù)比較,P<0.05,差異顯著。
2.1.1 質(zhì)控樣品檢測(cè)結(jié)果
根據(jù)1.3.1節(jié)方法制備質(zhì)控樣品,將其與采集的樣品一同進(jìn)行DNA提取和源性成分檢測(cè)。質(zhì)控樣品real-time PCR圖譜見(jiàn)圖2,檢測(cè)結(jié)果見(jiàn)表1。根據(jù)SN/T 2051—2008中規(guī)定:real-time PCR法檢出限可達(dá)到0.1 g/100 g(即100 g基底源性中摻入0.1 g其他源性即可檢出),對(duì)應(yīng)樣品Ct值≤35.0時(shí),報(bào)告該源性成分檢出。而在實(shí)際檢測(cè)過(guò)程中發(fā)現(xiàn),正是因?yàn)閞eal-time PCR法的高靈敏度,使得較多樣品被檢出Ct值不大于35.0(圖3、4),但是無(wú)法判斷是蓄意摻假還是無(wú)意沾染,這與李楠等[22]的研究結(jié)果相似。由于含量小于1%的源性摻入在經(jīng)濟(jì)效益和口感改善方面都沒(méi)有摻假的意義[23],因此,本實(shí)驗(yàn)制備1%含量的質(zhì)控樣品并測(cè)定其Ct值,根據(jù)其Ct值制定源性成分報(bào)出限,用于本實(shí)驗(yàn)結(jié)果判定。
圖2 質(zhì)控樣品檢測(cè)示意圖Fig.2 PCR amplification curves of quality control samples
從表1可知,純?nèi)鈽悠稢t值在12.51~16.93之間,1%含量質(zhì)控樣品Ct值在24.51~27.83之間,兩者存在顯著性差異(P<0.05),與李楠[22]、Xu Rusu[24]等的研究結(jié)果相似。根據(jù)1%含量質(zhì)控樣品Ct值范圍,為確保Ct值大于報(bào)出限后,源性成分含量小于1%,故設(shè)定報(bào)出限為Ct值28.0。當(dāng)0<Ct≤28.0時(shí),報(bào)出樣品含有該源性成分;當(dāng)28.0<Ct≤35.0,樣品雖然檢出該源性成分,但其含量小于1%,不具有摻假意義,不報(bào)出含有該源性成分;當(dāng)Ct>35.0時(shí),樣品未檢出該源性成分。
表1 質(zhì)控樣品Ct值Table 1 Ct values of quality control samples
2.1.2 建模樣品檢測(cè)結(jié)果
圖3 牛肉串樣品各源性Ct值分布情況Fig.3 Distribution of Ct values of adulterated meat species in beef kebab samples
圖4 羊肉串樣品各源性Ct值分布情況Fig.4 Distribution of Ct values of adulterated meat species in lamb kebab samples
根據(jù)質(zhì)控樣品報(bào)出限Ct值28.0和標(biāo)準(zhǔn)規(guī)定檢出限Ct值35.0,將羊肉串和牛肉串樣品中各源性Ct值進(jìn)行分類,繪制樣品各源性檢測(cè)Ct值分布圖(圖3、4),并以報(bào)出限為結(jié)果判定依據(jù)將樣品具體檢測(cè)結(jié)果制成表2。通過(guò)統(tǒng)計(jì)結(jié)果可知,牛肉串樣品中有87 個(gè)(87%)樣品Ct值在0~28.0之間,可報(bào)出含有牛源性,其中86 個(gè)樣品只含有牛源性,1 個(gè)樣品含有牛源和豬源性,其余13 個(gè)(13%)Ct值大于28.0的樣品(不報(bào)出牛源性),經(jīng)檢測(cè)發(fā)現(xiàn)4 個(gè)為豬源性、9 個(gè)為鴨源性,綜上可知牛肉串的不合格率為14%;羊肉串樣品中83 個(gè)(83%)Ct值在0~28.0的樣品里有4 個(gè)樣品既含有羊源又含有豬源,剩余17 個(gè)(17%)Ct值大于28.0的樣品(不報(bào)出羊源性),其中12 個(gè)為豬源性、5 個(gè)為鴨源性,綜上可知羊肉串的不合格率為21%。此外,以羊肉串為例,從圖4可以看出羊肉串樣品中分別有32%、11%和24%的樣品其豬源、雞源和鴨源檢出的Ct值在28.0~35.0之間,但實(shí)際樣品中摻入量不足1%,若將這些樣品全部判定為不合格,對(duì)于商家而言是不公平的。因此,在實(shí)際檢測(cè)過(guò)程中帶入質(zhì)控樣品制定報(bào)出限,可以在一定程度上規(guī)避含量極少的樣品判定為不合格的風(fēng)險(xiǎn)。
表2 樣品檢測(cè)結(jié)果Table 2Non-acceptance rates of samples
2.2.1 不合格樣品分布情況分析
本次采樣涵蓋網(wǎng)購(gòu)、夜市攤位、農(nóng)貿(mào)市場(chǎng)、街邊攤販在內(nèi)的10 個(gè)銷售渠道,不合格樣品分布情況見(jiàn)圖5。除學(xué)校食堂外,其余渠道均有不合格樣品;其中夜市攤位共采樣20 份,不合格樣品8 份,不合格率達(dá)40%,高于其他渠道(P<0.05)。此外,街邊攤販和網(wǎng)購(gòu)的不合格率也較高,分別為30%(6/20)和25%(5/20)。因此,肉串銷售渠道這一屬性對(duì)源性成分摻假結(jié)果具有影響性。
圖5 不合格樣品分布情況Fig.5 Distribution of unaccepted samples
2.2.2 不合格樣品來(lái)源情況分析
本次采樣共涉及100 家銷售單位,其中包括大型單位20 家,中型單位30 家,小型單位50 家。由圖6可知,100 家銷售單位中有73 家(73%)樣品合格,27 家(27%)樣品不合格。不合格的27 家單位中,無(wú)大型單位,有小型單位22 家(81.4%),中型單位5 家(19.6%)。由此可知,小型銷售單位存在不合格樣品的風(fēng)險(xiǎn)較高。因此,企業(yè)規(guī)格也是影響源性成分摻假結(jié)果的重要屬性。性能和快速的訓(xùn)練速度。BP神經(jīng)網(wǎng)絡(luò)可以完成任意n維到m維的映射,具有高度的非線性映射能力[26],對(duì)于食品檢測(cè)結(jié)果的預(yù)測(cè)實(shí)際上是尋找這種映射關(guān)系,將具有多維屬性且取值不同的食品數(shù)據(jù)準(zhǔn)確分類到合格或不合格的類別中,這與BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式相吻合。同時(shí),BP神經(jīng)網(wǎng)絡(luò)既能處理連續(xù)型數(shù)據(jù)也能處理離散型數(shù)據(jù),對(duì)訓(xùn)練集中的空缺值或錯(cuò)誤值具有良好的健壯性,適用于分析類型繁雜且存在較多空缺值的數(shù)據(jù)集,這正好符合了食品安全抽檢數(shù)據(jù)的特點(diǎn)。此外,BP神經(jīng)網(wǎng)絡(luò)是模仿人腦的學(xué)習(xí)方式,具有自行識(shí)別、記憶并解決復(fù)雜問(wèn)題的能力,當(dāng)訓(xùn)練數(shù)據(jù)充足時(shí),BP神經(jīng)網(wǎng)絡(luò)能夠?qū)⒄`差降至最低,使預(yù)測(cè)結(jié)果足夠準(zhǔn)確,滿足預(yù)測(cè)食品安全風(fēng)險(xiǎn)的要求[27-28]。綜上考慮,選取BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行肉串樣品的風(fēng)險(xiǎn)調(diào)查數(shù)據(jù)挖掘。
2.3.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)本身的結(jié)構(gòu)、數(shù)量和特點(diǎn)直接影響到BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果,這就需要在建模時(shí)充分考慮模型結(jié)構(gòu)和挖掘目的,選擇合適的數(shù)據(jù)特征屬性,確定適宜的輸出結(jié)果。本研究數(shù)據(jù)挖掘的主要目的是訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型反映肉串樣品屬性和源性摻假檢測(cè)結(jié)果之間的相關(guān)性,因此需使用對(duì)肉串樣品信息具有代表性的屬性作為輸入,以源性成分檢測(cè)結(jié)果作為輸出。綜上,此次排除“樣品編號(hào)、企業(yè)名稱、樣品規(guī)格、商標(biāo)”等對(duì)樣品不具代表性且對(duì)輸出結(jié)果不具影響性的屬性。最終選取“銷售渠道、企業(yè)規(guī)格、加工日期、樣品類型、樣品屬性、單價(jià)”6 個(gè)屬性作為輸入變量,以源性成分檢測(cè)結(jié)果的“合格、不合格”為輸出變量(目標(biāo)變量)。將樣品各屬性按照IBM SPSS Modeler軟件要求,在Excel中進(jìn)行數(shù)據(jù)編輯,以便后期數(shù)據(jù)導(dǎo)入,數(shù)據(jù)框類型見(jiàn)表3。
圖6 不合格樣品企業(yè)規(guī)模情況Fig.6 Enterprise size distribution of unaccepted samples
表3 BP神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)框類型Table 3 Data frame types for BP neural network model
2.3.1 BP神經(jīng)網(wǎng)絡(luò)
在眾多的神經(jīng)網(wǎng)絡(luò)算法中,BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛和成功的一種[25],它利用隱含層將誤差從輸出向輸入逐層進(jìn)行反向傳播,在此過(guò)程中以最速下降法修改權(quán)值和閾值,使誤差函數(shù)得以快速收斂,具有良好的算法
2.3.3 建模流程
圖7 BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過(guò)程Fig.7 Flow chart of the establishment of BP neural network model
采用IBM SPSS Modeler軟件進(jìn)行建模,操作簡(jiǎn)便,具體流程見(jiàn)圖7。首先通過(guò)源節(jié)點(diǎn)導(dǎo)入Excel整理好的數(shù)據(jù);之后通過(guò)類型節(jié)點(diǎn)讀取值與設(shè)置角色,將“結(jié)果”列為目標(biāo)變量,其余列為輸入變量;通過(guò)平衡數(shù)據(jù)節(jié)點(diǎn),給予結(jié)果為“不合格”的數(shù)據(jù)平衡指令,將數(shù)據(jù)按一定比例進(jìn)行平衡;通過(guò)分區(qū)節(jié)點(diǎn)將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集;最后通過(guò)類神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行建模。
2.3.4 建模參數(shù)設(shè)置
2.3.4.1 數(shù)據(jù)導(dǎo)入節(jié)點(diǎn)設(shè)置
數(shù)據(jù)導(dǎo)入后,選擇自動(dòng)數(shù)據(jù)準(zhǔn)備,樣本屬性均為名義變量。對(duì)于已選定的分類變量,神經(jīng)網(wǎng)絡(luò)自動(dòng)數(shù)據(jù)準(zhǔn)備會(huì)將n個(gè)類別的分類型變量轉(zhuǎn)化為n個(gè)取值為0或1的數(shù)值型變量后,采用二進(jìn)制碼將各變量編碼,使其符合神經(jīng)網(wǎng)絡(luò)的輸入要求。
2.3.4.2 平衡數(shù)據(jù)節(jié)點(diǎn)設(shè)置
本次采集樣品200 份,每份樣品檢測(cè)項(xiàng)目數(shù)為5,共得到肉串樣品原始數(shù)據(jù)1 000 條。其中不合格樣本比例為6.5%(65/1 000),相對(duì)于合格樣本而言,肉串不合格屬于小樣本。若直接將此數(shù)據(jù)用于模型構(gòu)建,則會(huì)導(dǎo)致小樣本類別預(yù)測(cè)效果較差,達(dá)不到預(yù)測(cè)效果。參考Linoff等[29]的方法,采用過(guò)抽樣或欠抽樣技術(shù),增加樣本中小樣本事件比率,提高預(yù)測(cè)準(zhǔn)確率。設(shè)置SPSS Modeler平衡節(jié)點(diǎn)為合格∶不合格=2∶1。
2.3.4.3 分區(qū)節(jié)點(diǎn)設(shè)置
將數(shù)據(jù)集分成訓(xùn)練集、測(cè)試集和驗(yàn)證集,以提高模型的穩(wěn)定性和可重復(fù)性。在分區(qū)節(jié)點(diǎn)設(shè)置訓(xùn)練分區(qū)的大小為70%,測(cè)試集分區(qū)大小為20%,驗(yàn)證集大小為10%。
2.3.4.4 建模節(jié)點(diǎn)設(shè)置
建模時(shí)選擇類神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)模型選取多層感知器,模型使用的停止規(guī)則為“無(wú)法進(jìn)一步降低誤差”,使用最大訓(xùn)練時(shí)間15 min。由于模型的訓(xùn)練為不斷向樣本學(xué)習(xí)的過(guò)程,因此可通過(guò)不斷調(diào)整網(wǎng)絡(luò)權(quán)值得到較小的預(yù)測(cè)誤差。所有樣本學(xué)習(xí)完畢后,若預(yù)測(cè)誤差仍較大,則需改變建模參數(shù)重新進(jìn)行學(xué)習(xí),直到得到理想的精度或滿足停止規(guī)則。
2.3.5 建模結(jié)果分析
最終經(jīng)訓(xùn)練后得到的肉串樣品源性成分摻假預(yù)測(cè)模型及模型概要見(jiàn)圖8。形成的BP神經(jīng)網(wǎng)絡(luò)模型為3 層神經(jīng)網(wǎng)絡(luò),隱藏層中神經(jīng)元數(shù)量為9 個(gè)。預(yù)混比例2∶1分層挖掘數(shù)據(jù)得到的肉串樣品源性成分摻假總預(yù)測(cè)準(zhǔn)確率達(dá)90.3%。
利用訓(xùn)練集生成BP神經(jīng)網(wǎng)絡(luò)模型后,用測(cè)試集評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確性,用驗(yàn)證集對(duì)模型預(yù)測(cè)能力加以驗(yàn)證。從驗(yàn)證結(jié)果可知:建立的預(yù)測(cè)模型對(duì)于不合格樣本,判定為不合格率為95.7%,錯(cuò)判為合格率僅為4.3%;對(duì)于合格樣本,判定為合格率為87.6%,錯(cuò)判為不合格率為12.4%。總體而言,對(duì)于實(shí)際結(jié)果為不合格的樣品,所建模型的預(yù)測(cè)準(zhǔn)確率非常高,達(dá)95.7%,這正好滿足了風(fēng)險(xiǎn)預(yù)測(cè)的目的,即盡可能準(zhǔn)確地預(yù)測(cè)出不合格的問(wèn)題樣品;而對(duì)于實(shí)際結(jié)果為合格的樣本,模型的預(yù)測(cè)準(zhǔn)確率有所降低,這可能是由于樣本數(shù)據(jù)不平衡或樣本數(shù)據(jù)量較少所致[30],但是若用此模型進(jìn)行初篩,雖然錯(cuò)判為不合格樣品的概率較高,導(dǎo)致較多樣品需進(jìn)一步驗(yàn)證,但這并不會(huì)造成食品安全風(fēng)險(xiǎn)隱患,因此預(yù)測(cè)結(jié)果仍有參考和應(yīng)用價(jià)值。此外,這一缺陷可通過(guò)進(jìn)一步完善原始數(shù)據(jù)、加大數(shù)據(jù)統(tǒng)計(jì)量和調(diào)整數(shù)據(jù)集平衡比例等深入預(yù)處理得以改進(jìn)[31]。
圖8 BP神經(jīng)網(wǎng)絡(luò)圖及模型概要Fig.8 BP neural network model with outline and accuracy evaluation
圖9 各屬性變量對(duì)BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果的影響Fig.9 Influence of input variables on the prediction result of BP neural network modl
建立的BP神經(jīng)網(wǎng)絡(luò)模型,給出了各屬性變量對(duì)預(yù)測(cè)結(jié)果影響的重要次序。由圖9可知,“企業(yè)規(guī)格”和“銷售渠道”對(duì)預(yù)測(cè)結(jié)果影響較大;“價(jià)格”對(duì)預(yù)測(cè)結(jié)果影響較小。這與2.2節(jié)中對(duì)建模數(shù)據(jù)深層挖掘的分析結(jié)果一致,說(shuō)明該模型預(yù)測(cè)結(jié)果可靠。
2.3.6 模型應(yīng)用
構(gòu)建的模型在具體肉串樣品摻假風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用。若已經(jīng)獲得樣品如下屬性信息,如樣品編號(hào)、銷售渠道、企業(yè)規(guī)格、樣品類型、樣品屬性、加工日期、單價(jià)等。則將相關(guān)屬性導(dǎo)入IBM SPSS Modeler中,利用已訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)出各樣品結(jié)果(表4)。一方面對(duì)于檢測(cè)機(jī)構(gòu)而言,運(yùn)用此模型,可以輔助檢測(cè)人員有針對(duì)性地進(jìn)行檢測(cè),避免漏檢、錯(cuò)檢情況的發(fā)生。檢測(cè)人員可以參考預(yù)測(cè)結(jié)果對(duì)結(jié)論為“不合格”的樣品進(jìn)行重點(diǎn)檢測(cè)。后期爭(zhēng)取通過(guò)對(duì)模型的進(jìn)一步改進(jìn),提升模型對(duì)合格樣品的預(yù)測(cè)準(zhǔn)確率,以實(shí)現(xiàn)對(duì)預(yù)測(cè)合格樣本的免檢,這樣可有效節(jié)約人力、物力和財(cái)力。另一方面對(duì)于監(jiān)管部門(mén),在實(shí)施抽檢行動(dòng)前,可以先簡(jiǎn)單的收集樣品信息,將這些信息導(dǎo)入到該模型中,對(duì)樣品檢測(cè)結(jié)果進(jìn)行預(yù)測(cè),之后根據(jù)預(yù)測(cè)結(jié)果制定及規(guī)劃風(fēng)險(xiǎn)監(jiān)測(cè)抽檢方案。
表4 樣品預(yù)測(cè)結(jié)果Table 4 Prediction results for samples
本實(shí)驗(yàn)對(duì)2019年北京市10 個(gè)銷售渠道,100 家銷售單位的200 份牛、羊肉串樣品源性成分摻假情況進(jìn)行調(diào)查分析,考察影響源性成分摻假的主要風(fēng)險(xiǎn)因素,并通過(guò)對(duì)檢測(cè)數(shù)據(jù)的深層挖掘構(gòu)建牛、羊肉串源性成分摻假的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。該模型以“銷售渠道、企業(yè)規(guī)格、加工日期、樣品類型、樣品屬性、單價(jià)”6個(gè)屬性作為輸入變量,以源性成分檢測(cè)結(jié)果的“合格、不合格”為輸出變量(目標(biāo)變量)。通過(guò)IBM SPSS Modeler軟件的自動(dòng)模型驗(yàn)證與參數(shù)優(yōu)過(guò)程,最終得到的3 層神經(jīng)網(wǎng)絡(luò)預(yù)警模型,其總預(yù)測(cè)準(zhǔn)確率為90.3%,其中對(duì)實(shí)際不合格樣品的預(yù)測(cè)準(zhǔn)確率高達(dá)95.7%。該模型可用于檢測(cè)機(jī)構(gòu)樣品的初篩預(yù)判以及作為監(jiān)管部門(mén)制定抽檢方案的依據(jù),但是對(duì)預(yù)判合格的樣品仍存在4.3%的錯(cuò)判率,故無(wú)法做到對(duì)預(yù)測(cè)合格樣品實(shí)施免除檢測(cè)。此次模型構(gòu)建沒(méi)有完全達(dá)到預(yù)期效果的主要原因在于源性成分摻假風(fēng)險(xiǎn)調(diào)查樣品較少,導(dǎo)致可獲得的數(shù)據(jù)量有限。因此,之后將在此基礎(chǔ)上不斷的收集樣品數(shù)據(jù),完善數(shù)據(jù)源,進(jìn)一步提升模型的預(yù)測(cè)準(zhǔn)確率,使其成為建立食品安全風(fēng)險(xiǎn)預(yù)測(cè)機(jī)制和風(fēng)險(xiǎn)預(yù)警系統(tǒng)的強(qiáng)有力手段。