• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于灰色數(shù)據(jù)預(yù)處理的WD-LSTM模型對乳制品質(zhì)量安全風(fēng)險的預(yù)測預(yù)警分析

      2023-02-13 07:25:44陳晨尹佳董曼穆書敏陳鋰郭鵬程文紅桂預(yù)風(fēng)
      現(xiàn)代食品科技 2023年1期
      關(guān)鍵詞:乳制品分量預(yù)測

      陳晨,尹佳,董曼,穆書敏,陳鋰,郭鵬程,文紅*,桂預(yù)風(fēng)*

      (1.武漢理工大學(xué)理學(xué)院,湖北武漢 430070)(2.湖北省食品質(zhì)量安全監(jiān)督檢驗研究院,湖北省食品質(zhì)量安全檢測工程技術(shù)研究中心,國家市場監(jiān)管重點(diǎn)實(shí)驗室(動物源性食品中重點(diǎn)化學(xué)危害物檢測技術(shù)),湖北武漢 430075)

      乳制品富含營養(yǎng)物質(zhì),可促進(jìn)機(jī)體營養(yǎng)均衡、調(diào)節(jié)人體免疫機(jī)能。在疫情爆發(fā)初期,國家衛(wèi)健委發(fā)布的《新型冠狀病毒感染的肺炎防治營養(yǎng)膳食指導(dǎo)》[1]指出,科學(xué)的營養(yǎng)膳食和每日合理的乳制品攝入是提高機(jī)體抵抗力、預(yù)防與救治新冠肺炎的有效途徑。我國人均乳制品消費(fèi)呈上升趨勢,在行業(yè)迅速發(fā)展的同時,還存在部分企業(yè)重產(chǎn)量而忽視質(zhì)量管控的現(xiàn)象,如何加強(qiáng)對乳制品質(zhì)量安全風(fēng)險的識別,提高生產(chǎn)企業(yè)對質(zhì)量安全的控制能力,已成為保障我國乳制品行業(yè)健康發(fā)展迫切需要解決的問題。因此,對問題產(chǎn)品或可能存在的風(fēng)險發(fā)出及時預(yù)警,實(shí)現(xiàn)乳制品綜合性、動態(tài)性的監(jiān)管和控制,提供靶向性監(jiān)管技術(shù)支持是非常有必要的[2]。

      當(dāng)前,專家學(xué)者們針對乳制品質(zhì)量安全風(fēng)險預(yù)警從不同方向開展了有關(guān)研究。如Tian等[3]基于主成分分析對生乳質(zhì)量安全指標(biāo)體系風(fēng)險進(jìn)行了評估;Zhang等[4]構(gòu)建了乳制品質(zhì)量安全追溯系統(tǒng),使供應(yīng)環(huán)節(jié)可追溯;部分學(xué)者通過乳品供應(yīng)鏈環(huán)節(jié)構(gòu)建了乳制品質(zhì)量風(fēng)險預(yù)警指標(biāo)體系[5,6];陳嘉惠等[7]從三個層面分別對乳制品中的危害因素進(jìn)行風(fēng)險評估。此外,也有學(xué)者重點(diǎn)研究預(yù)警方法,將機(jī)器學(xué)習(xí)引入到食品風(fēng)險的預(yù)測中,結(jié)合深度徑向基函數(shù)[8]、集成極限學(xué)習(xí)機(jī)[9]、層次分析法[10]、BP神經(jīng)網(wǎng)絡(luò)[11]、LSTM 模型[12]等新型預(yù)警方法,對乳制品進(jìn)行深度層次預(yù)警建模,在一定程度上實(shí)現(xiàn)了對乳制品安全風(fēng)險預(yù)警的預(yù)測和防控。

      上述研究成果為我國乳制品質(zhì)量安全預(yù)警的實(shí)踐提供了良好的理論基礎(chǔ)和方法依據(jù)。但目前針對海量抽檢數(shù)據(jù)的風(fēng)險預(yù)警研究還鮮有涉及,主要利用傳統(tǒng)的數(shù)理統(tǒng)計、典型病例通報等手段,對歷史抽檢數(shù)據(jù)進(jìn)行食品安全狀況的評價和風(fēng)險警示,該方法是對食品安全狀況的事后分析,缺少深度的分析與應(yīng)用[13-15]。我國已積累海量的乳制品檢測數(shù)據(jù),乳制品按照分類不同和每年食品安全狀況的調(diào)整,檢測項目存在差異,且并非每天都進(jìn)行抽樣檢測,同時數(shù)據(jù)中存在缺失檢測結(jié)果的大量空值?,F(xiàn)有的乳制品檢測數(shù)據(jù)中包含眾多灰色數(shù)據(jù)[16,17],這種情況下,對數(shù)據(jù)進(jìn)行預(yù)處理,從風(fēng)險因素中挖掘分析,提煉出有價值的信息尤為重要。

      因此本文利用我國乳制品歷史抽檢信息為數(shù)據(jù)源,依據(jù)國家標(biāo)準(zhǔn)對檢測結(jié)果中的灰色數(shù)據(jù)進(jìn)行去量綱化處理,采用softmax、數(shù)據(jù)分箱等方法進(jìn)行數(shù)據(jù)預(yù)處理,通過小波對數(shù)據(jù)進(jìn)行分解,對分解后不同細(xì)節(jié)的分量采用LSTM模型進(jìn)行預(yù)測,并通過symmetric模式重構(gòu),輸出最終的預(yù)測風(fēng)險等級。通過測試集對本文構(gòu)建的WD-LSTM組合模型預(yù)測準(zhǔn)確度進(jìn)行驗證,該模型與同類模型相比有明顯提高,可以為我國乳制品食品質(zhì)量安全風(fēng)險預(yù)警提供有力支持和參考。

      1 材料與方法

      1.1 實(shí)驗材料

      1.1.1 數(shù)據(jù)類型

      本文選取2015-2020年對外公開以及檢測機(jī)構(gòu)內(nèi)部自行檢測獲得的543 336條乳制品檢測信息作為數(shù)據(jù)源,對原始數(shù)據(jù)進(jìn)行分析可得,不同產(chǎn)品類別的檢測信息存在差異,不同年份的檢測信息也存在差異,為了更加全面的得到乳制品存在的風(fēng)險預(yù)警,將所有項目都考慮在內(nèi),建立了乳制品風(fēng)險預(yù)警的檢驗項目指標(biāo)體系。指標(biāo)體系共包括12個項目類別,76個檢驗項目,見表1。

      表1 乳制品風(fēng)險預(yù)警的檢驗項目指標(biāo)體系Table 1 Index system of inspection items for risk warning of dairy products

      由于獲取的乳制品類別、年份以及檢測項目的結(jié)果單位不同,存在數(shù)據(jù)屬性類別多且格式雜亂,檢驗結(jié)果中信息不完全、不充分以及數(shù)據(jù)的多樣化問題[18],使其無法按照統(tǒng)一的規(guī)則轉(zhuǎn)換為風(fēng)險等級。此類灰色數(shù)據(jù)的高復(fù)雜度特點(diǎn)也提高了風(fēng)險分析的難度,若直接將原始數(shù)據(jù)劃分訓(xùn)練集和測試集,帶入模型訓(xùn)練,所得到的結(jié)果可能存在較大的誤差,因此需要對檢測數(shù)據(jù)進(jìn)行分類、去量綱化、數(shù)據(jù)分級等預(yù)處理。部分乳制品檢測信息如表2所示。

      表2 部分乳制品檢測信息Table 2 Partial detection information of dairy products

      1.1.2 灰色數(shù)據(jù)預(yù)處理

      對于上述缺省數(shù)據(jù)多且容易受到多種噪聲污染的灰色數(shù)據(jù),通常需要進(jìn)行數(shù)據(jù)清洗、集成、變換等預(yù)處理。數(shù)據(jù)清洗主要是按照一定的規(guī)則和標(biāo)準(zhǔn)對存在缺失、奇異值和離群點(diǎn)等問題的數(shù)據(jù)剔除;數(shù)據(jù)集成則是將混雜的數(shù)據(jù)按照一定的特征相互匹配,以提高數(shù)據(jù)的統(tǒng)一性;數(shù)據(jù)變換是將原始數(shù)據(jù)轉(zhuǎn)換為滿足一定的條件數(shù)據(jù),主要包括運(yùn)用分箱、聚類等進(jìn)行數(shù)據(jù)光滑、將數(shù)據(jù)集中匯總進(jìn)行數(shù)據(jù)聚集、使用高級概念代替低級概念的數(shù)據(jù)概化、將原始數(shù)據(jù)按特征縮放規(guī)范、構(gòu)造新的特征并匯合到原本特征集中[19]。

      1.1.2.1 數(shù)據(jù)去量綱化處理

      根據(jù)檢測結(jié)果結(jié)合國家標(biāo)準(zhǔn)進(jìn)行去量綱化處理。對于有最大允許限的項目Xi和有最小允許限的項目Yi,分別使用公式1、2對其進(jìn)行標(biāo)準(zhǔn)化和去量綱化。

      式中:

      Xi和Yi——預(yù)處理后的檢驗數(shù)值;

      xstandard和ystandard——標(biāo)準(zhǔn)允許限的值;

      xi和yi——標(biāo)準(zhǔn)化數(shù)值。

      1.1.2.2 數(shù)據(jù)分級處理

      將去量綱化后的數(shù)據(jù),根據(jù)檢驗項目類別的不同,將檢驗項目劃分為四部分,分別是有最大允許限的項目Xi,有最小允許限的項目Yi,有限定范圍允許限的項目Ri和檢驗結(jié)果為5個數(shù)值的項目Zi。該風(fēng)險等級劃分難以采用技術(shù)方法進(jìn)行定量分析,故采用專家打分法進(jìn)行風(fēng)險等級的劃分,邀請十位專家通過無記名投票的方法,得到專家確定的等級,使用加權(quán)評價法得到最終的評價結(jié)果,進(jìn)行評判。結(jié)合檢驗項目風(fēng)險等級劃分標(biāo)準(zhǔn)和專家打分法將乳制品檢驗項目劃分為5個風(fēng)險等級,1級為安全無風(fēng)險,2級為輕微風(fēng)險,3級為輕度風(fēng)險,4級為中度風(fēng)險,5級為不合格產(chǎn)品。其中1~4級風(fēng)險是符合國家標(biāo)準(zhǔn)的,但風(fēng)險系數(shù)不同,而5級為不符合國家標(biāo)準(zhǔn)。具體劃分標(biāo)準(zhǔn)見表3。

      表3 檢驗項目的風(fēng)險等級劃分標(biāo)準(zhǔn)Table 3 Risk classification standard of inspection items

      經(jīng)過初步的數(shù)據(jù)預(yù)處理,去掉因條件缺失無法判別的數(shù)據(jù)后,共518 640條乳制品項目風(fēng)險等級數(shù)據(jù),其中1級499 371條,2級14 054條,3級3 993條,4級1 008條,5級214條。分析2015~2020年抽檢數(shù)據(jù),前5年數(shù)據(jù)的檢測項目基本一致,2020年根據(jù)以往的檢測結(jié)果,對風(fēng)險較大和較少發(fā)現(xiàn)問題的項目進(jìn)行了增減,致使2020年食品數(shù)據(jù)檢測項目與前5年不一致,同時乳制品又分亞類、次亞類、細(xì)類,即使細(xì)類也包括了不同產(chǎn)品標(biāo)準(zhǔn),其要求的項目也不同,最終造成即使同一細(xì)類產(chǎn)品中也存在項目不同的問題,使得用于分析的數(shù)據(jù)存在同類產(chǎn)品中項目缺失、同一標(biāo)準(zhǔn)產(chǎn)品中不同年度項目缺失問題。

      針對此類處理后的灰色異構(gòu)數(shù)據(jù)(區(qū)間灰數(shù)、離散灰數(shù)等),不同產(chǎn)品因所屬食品類別不同而導(dǎo)致檢驗項目存在差異,故僅對有檢測結(jié)果的項目風(fēng)險賦予權(quán)重,對缺失項目予以忽略。由于低風(fēng)險等級的數(shù)據(jù)占絕大多數(shù),若直接采用簡單的加權(quán)平均來獲得最終的產(chǎn)品風(fēng)險等級,會導(dǎo)致整體風(fēng)險等級偏低,不能反應(yīng)真實(shí)的風(fēng)險。在食品安全風(fēng)險等級預(yù)警中,風(fēng)險等級高的數(shù)據(jù)對最終的風(fēng)險等級影響更大,故應(yīng)該有更大的權(quán)重,風(fēng)險等級低的數(shù)據(jù)權(quán)重應(yīng)該較低,且如果在某一產(chǎn)品中存在一個不合格項目,則該產(chǎn)品綜合風(fēng)險等級應(yīng)直接劃分為5級。為體現(xiàn)權(quán)重的變化,采用改進(jìn)的 softmax函數(shù)來計算產(chǎn)品的綜合風(fēng)險等級(公式3),通過softmax函數(shù)中指數(shù)權(quán)重的變化來調(diào)節(jié)風(fēng)險等級的權(quán)重。

      式中:

      Level——該產(chǎn)品的綜合風(fēng)險等級;

      I——該檢測項目的風(fēng)險等級;

      ωi——該風(fēng)險等級在該產(chǎn)品中的占比。

      1.1.2.3 數(shù)據(jù)分箱

      乳制品檢測數(shù)據(jù)的樣品生產(chǎn)日期存在不連續(xù),同一天生產(chǎn)日期樣品數(shù)量也不相同,因此從時序序列考慮,數(shù)據(jù)存在不均勻分布,存在缺失和稠密性差異,需要對經(jīng)過預(yù)處理的檢測數(shù)據(jù)進(jìn)行分箱處理后再帶入模型進(jìn)行預(yù)測研究。數(shù)據(jù)分箱即是將一定時間段的數(shù)據(jù)劃分為一個數(shù)據(jù)集,并對分箱數(shù)據(jù)選擇合適的方法處理,得到各分箱數(shù)據(jù)集的綜合等級。本文采用每個自然日作為一個分箱,忽略缺失日期數(shù)據(jù)后進(jìn)行時間壓縮,并通過風(fēng)險權(quán)重等比例映射的方法計算各分箱數(shù)據(jù)的綜合等級。

      1.2 風(fēng)險預(yù)測方法與模型

      1.2.1 小波分解(Wavelet Decomposition,WD)

      小波分解是一種信號時頻分析方法。它將一個波形分解成N個低頻部分和M個高頻部分的和,只針對信號的低頻部分,即信號的趨勢部分做進(jìn)一步分解,而對于高頻部分,也就是信號的噪聲部分,不再繼續(xù)分解,低頻部分能夠反映原始數(shù)據(jù)在平穩(wěn)條件下本身的變化規(guī)律,高頻部分包含原始數(shù)據(jù)的波動性和非線性等細(xì)節(jié),所以小波變換可以對以低頻信息為主要成分的信號做很好的表征[20]。圖1為小波分解的示意圖。

      圖1 小波分解示意圖Fig.1 Wavelet decomposition diagram

      由于食品類檢測數(shù)據(jù)的隨機(jī)性和不確定性,所得到的乳制品風(fēng)險等級是一個非平穩(wěn)的離散時間序列,若直接使用LSTM模型對該數(shù)據(jù)進(jìn)行預(yù)測,其噪聲會導(dǎo)致學(xué)習(xí)曲線復(fù)雜,且預(yù)測精度受到影響。經(jīng)典的傅里葉變換(公式 4)盡管能對信號的整體內(nèi)涵進(jìn)行反映,但噪聲會使其頻譜復(fù)雜化;短時傅里葉變換可以部分定位時間,但由于窗口的大小是固定的,故僅對頻率波動小的平穩(wěn)信號適用。小波變換既保留了局部變換的思想,又將無限長的三角函數(shù)基換成了有限長的會衰減的小波基(公式5),能從不同尺度上對信號進(jìn)行分解,按照頻率自動調(diào)整窗口大小,提取非平穩(wěn)信號的局部特征,是一種可以進(jìn)行多分辨率分析的自適應(yīng)時頻分析方法[21]。

      傅里葉變換公式:

      小波變換公式:

      式中:

      t——時刻;

      w——頻率;

      α——尺度因子,控制小波函數(shù)的伸縮;

      τ——平移因子,控制小波函數(shù)的平移。

      小波變換是對原始信號和小波基函數(shù)以及尺度函數(shù)做內(nèi)積運(yùn)算,因此一個小波基和一個尺度函數(shù)就能夠確定一個小波變換。小波分解中使用到的小波函數(shù)具有多樣性,同一個小波基函數(shù)可以通過平移和縮放生成不同的小波基,故對同樣的問題,不同的小波基會產(chǎn)生不一樣的結(jié)果。

      根據(jù)本文所用數(shù)據(jù)波動性大,在時間上具有連續(xù)性的特征,選擇小波分解中的一維多階次離散小波分解,即 WaveDec算法,該算法是采用離散小波變換(Discrete Wavelet Transformation,DWT)得到原始信號的低頻部分和高頻部分,再將經(jīng)過DWT變換后的低頻成分再進(jìn)行DWT變換,循環(huán)次數(shù)由分解層數(shù)決定。常用的小波族有很多種,每個小波族又有多種系數(shù)可供選擇,其中Daubechies小波函數(shù)由法國著名的小波分析學(xué)者Inrid·Daubechies提出,簡稱為dbN,其中N代表小波的階數(shù)[22]。dbN是非線性相位,沒有固定的核函數(shù),通常情況下,Daubechies族中消失矩的階數(shù)越大,小波越光滑。結(jié)合數(shù)據(jù)特征選擇了光滑性比較好的db8作為小波函數(shù)[23],按照輸入序列的復(fù)雜情況分解為頻率不同的子序列,各個子序列包含原序列中不同頻率的信息,且其長度不發(fā)生改變,提取小波分解系數(shù)對其進(jìn)行分析,各子序列帶入模型得到預(yù)測結(jié)果后再通過symmetric模式進(jìn)行重構(gòu)。

      1.2.2 長短期記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)

      LSTM是基于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的一種改進(jìn),不僅能學(xué)習(xí)時間規(guī)律,還可以適應(yīng)非線性的復(fù)雜數(shù)據(jù)。LSTM在RNN的基礎(chǔ)上新增了一個間隔多個時間步長來傳遞信息的被稱為“門”的內(nèi)部機(jī)制,可以調(diào)節(jié)信息流,循環(huán)結(jié)構(gòu)之間保持一個持久的單元狀態(tài)不斷傳遞下去[24]?!伴T”結(jié)構(gòu)中包括激活函數(shù)sigmoid,與tanh函數(shù)將值壓縮到-1~1之間不同,sigmoid函數(shù)會把值壓縮至0~1,更加有利于“門”對信息的保存或遺忘。

      1.2.3 WD-LSTM組合模型

      本研究在預(yù)測乳制品風(fēng)險等級時,使用的是WD-LSTM組合模型,具體流程見圖2。該模型在單個LSTM模型的基礎(chǔ)上,增設(shè)能夠適應(yīng)非平穩(wěn)信號的小波分解,非線性、非平穩(wěn)且波動性強(qiáng)的原始序列通過小波分解得到各分量,再將各分量分別代入LSTM模型,模型根據(jù)輸入序列計算其對后面的綜合風(fēng)險等級的影響,同時考慮到后面的綜合風(fēng)險等級對該序列的影響,前后影響值的大小決定了保留或遺忘多大程度,并且通過單元狀態(tài)實(shí)時更新到下一步的預(yù)測。各分量預(yù)測結(jié)果經(jīng)過symmetric模式重構(gòu),得到最終的預(yù)測結(jié)果。

      圖2 WD-LSTM組合模型流程圖Fig.2 Flow chart of WD-LSTM combined model

      1.2.4 模型參數(shù)的搭建和設(shè)置

      為實(shí)現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)的雙向構(gòu)造,方便模型訓(xùn)練,需預(yù)先確定網(wǎng)絡(luò)結(jié)構(gòu)。本文構(gòu)建的是一個4層神經(jīng)網(wǎng)絡(luò),將待預(yù)測的前20個乳制品綜合風(fēng)險等級作為神經(jīng)網(wǎng)絡(luò)的輸入,即輸入層的神經(jīng)元個數(shù)為20;待預(yù)測的乳制品綜合風(fēng)險等級作為網(wǎng)絡(luò)的輸出,即輸出層的神經(jīng)元個數(shù)為1;中間設(shè)置了一個LSTM層和一個全連接層作為兩個隱藏層,其中全連接層在整個網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)中起到“特征提取器”的作用,結(jié)點(diǎn)數(shù)設(shè)定為16。依據(jù)本文所用的數(shù)據(jù)集和實(shí)際目標(biāo)需求,確定相關(guān)參數(shù)的調(diào)整方向,采用能更好反映預(yù)測值誤差的實(shí)際情況的平均絕對誤差(Mean Absolute Error,MAE)作為損失函數(shù),優(yōu)化器使用能基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重的Adam優(yōu)化算子,數(shù)據(jù)集按照2:1的比例劃分為訓(xùn)練集和測試集,一次訓(xùn)練所選取的樣本數(shù)為64,訓(xùn)練輪次定為100。

      1.2.5 經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)

      經(jīng)驗?zāi)B(tài)分解可以對非線性非平穩(wěn)信號的進(jìn)行分析處理,能依賴信號本身的特征做自適應(yīng)分解,無需事先設(shè)定基函數(shù),也克服了基函數(shù)存在的無自適應(yīng)性問題;分解后得到的各層信號分量,即為一系列的固有模態(tài)函數(shù)(Intrinsic Mode Functions,IMF),任何信號都可以被分解成若干個IMF之和,各分量分別代表原始信號中各頻率分量,按照由高到低的頻率順序依次排列,可以反映原始信號的局部特征[25]。

      1.2.6 數(shù)據(jù)分析

      本文使用編程語言Python 3.7.0,利用Tensorflow作為搭建平臺。采用改進(jìn)的softmax和數(shù)據(jù)映射方式對灰色數(shù)據(jù)進(jìn)行預(yù)處理,將分箱數(shù)據(jù)集的綜合等級時間序列輸入到建立的WD-LSTM組合模型,進(jìn)行風(fēng)險預(yù)測預(yù)警分析,通過 matplotlib畫圖軟件包繪制預(yù)測各級分量和風(fēng)險預(yù)測示意圖,預(yù)測準(zhǔn)確率作為評估模型優(yōu)劣的指標(biāo)。

      2 結(jié)果與討論

      2.1 灰色數(shù)據(jù)分箱及等級劃分

      2.1.1 分箱時間間隔的選擇

      分箱處理的時間間隔會直接影響數(shù)據(jù)集個數(shù),從而影響預(yù)測結(jié)果的準(zhǔn)確性,因此,選擇合適的時間間隔至關(guān)重要。本文分別采用了1、4、7、15、30 d為一個數(shù)據(jù)集進(jìn)行分箱處理,計算綜合等級。經(jīng)過對比,若采用7 d及7 d以內(nèi)進(jìn)行分箱,間隔較短會導(dǎo)致缺失值過多,需要插值的數(shù)據(jù)過多而影響真實(shí)性,且使學(xué)習(xí)曲線更加復(fù)雜;而采用太長的時間間隔,則會導(dǎo)致數(shù)據(jù)集過小,導(dǎo)致模型學(xué)習(xí)過程太短,預(yù)測誤差變大。結(jié)合實(shí)際情況和模型的預(yù)測效果,最終選擇采用每個自然日作為一個分箱,對缺失數(shù)據(jù)的日期予以跳過處理。

      2.1.2 分箱數(shù)據(jù)綜合等級劃分

      試驗中分別采用5種不同的綜合風(fēng)險等級公式,對數(shù)據(jù)分箱計算風(fēng)險等級。

      式中:

      i——風(fēng)險等級;

      ω(i)——風(fēng)險等級i的占比。

      Y4和Y5當(dāng)數(shù)據(jù)集中只含有一種風(fēng)險等級時,該風(fēng)險等級即為該分箱的綜合風(fēng)險等級,數(shù)據(jù)集中的風(fēng)險等級不唯一時,Y4通過公式9計算每個風(fēng)險等級的權(quán)重,對權(quán)重最大的兩個風(fēng)險等級求平均值,若平均值為小數(shù)則采用向上取整;Y5通過公式10計算出該數(shù)據(jù)集的綜合風(fēng)險,根據(jù)產(chǎn)品原始的各風(fēng)險等級占比,使用風(fēng)險權(quán)重等比例映射的方法,按照相應(yīng)的比例使用公式11對綜合風(fēng)險進(jìn)行劃分。部分?jǐn)?shù)據(jù)集不同計算公式的風(fēng)險等級對比見表4。

      表4 部分?jǐn)?shù)據(jù)集不同風(fēng)險等級公式對比Table 4 Comparison of formulas for different risk levels of some dataset

      經(jīng)過對比,認(rèn)為公式6會導(dǎo)致對風(fēng)險等級高的產(chǎn)品賦予過大的權(quán)重;公式7和公式8對公式6的指數(shù)進(jìn)行了調(diào)節(jié),但導(dǎo)致高風(fēng)險等級權(quán)重過小,難以確定合適的權(quán)重;Y4采用了平均法,無法體現(xiàn)對風(fēng)險等級的側(cè)重;通過得到的風(fēng)險等級與原始數(shù)據(jù)的風(fēng)險程度比較,公式10更符合實(shí)際風(fēng)險的劃分。因此,本文采用公式10結(jié)合公式11計算風(fēng)險等級,共得到14 037條綜合風(fēng)險等級,其中1級13 171條,2級49條,3級151條,4級542條,5級124條。

      2.2 結(jié)果分析

      2.2.1 模型訓(xùn)練

      在本文中,將數(shù)據(jù)分箱后的綜合風(fēng)險等級輸入到建立的組合模型,其中前2/3作為訓(xùn)練集,1/3作為測試集,對其進(jìn)行小波分解,再通過長短期記憶神經(jīng)網(wǎng)絡(luò)對小波分解得到的各個分量進(jìn)行預(yù)測,將各分量重構(gòu)后輸出最終的預(yù)測結(jié)果。其中測試集用來驗證該模型的精確度。圖3為N1地區(qū)的乳制品數(shù)據(jù)經(jīng)小波分解后各級分量預(yù)測示意圖。橙線為各分量的真實(shí)值,藍(lán)線為各分量的預(yù)測值。

      圖3 N1地區(qū)乳制品數(shù)據(jù)WD各級分量預(yù)測示意圖Fig.3 Schematic diagram of WD components of dairy products data in N1

      2.2.2 有效性分析

      由于本文構(gòu)建的LSTM 模型初始權(quán)重的隨機(jī)性,在每輪預(yù)測時可能會存在誤差,為驗證該模型的穩(wěn)定性,連續(xù)將該模型運(yùn)行5次,得到該模型的平均誤差為0.03,波動較小,因此該模型的運(yùn)行結(jié)果是可靠的。為了全面驗證模型的有效性和適用性,將29個地區(qū)的風(fēng)險等級序列經(jīng)小波分解后帶入LSTM模型進(jìn)行預(yù)測,采用平均絕對值誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percent Error,MAPE)衡量該模型的誤差(公式 12、13),該值越大表明誤差越大,當(dāng)預(yù)測值與真實(shí)值完全吻合時等于0。該模型在29個地區(qū)中預(yù)測的最大MAE為0.07,最大MAPE為2.71%,整體MAE和MAPE的平均值為0.02和0.83%。通過公式14,可以計算出該模型預(yù)測的準(zhǔn)確率,準(zhǔn)確率最低為86.49%,其余均在92.45%以上,整體平均準(zhǔn)確率為97.54%,標(biāo)準(zhǔn)偏差為0.03。該結(jié)果表明,本文建立的WD-LSTM模型可以對乳制品質(zhì)量安全風(fēng)險等級有較好的預(yù)測。29個地區(qū)的預(yù)測結(jié)果見表5。

      表5 29個地區(qū)乳制品風(fēng)險等級預(yù)測結(jié)果Table 5 Prediction results of risk grade of dairy products in 29 regions

      MAE的計算公式:

      MAPE的計算公式:

      式中:

      A——預(yù)測準(zhǔn)確率;

      B——預(yù)測正確的樣本數(shù)量;

      C——測試集的樣本數(shù)量。

      以N1地區(qū)乳制品質(zhì)量安全預(yù)測結(jié)果為例,圖4中,橙線為分箱數(shù)據(jù)集的綜合風(fēng)險等級,藍(lán)線為WD-LSTM模型得到的預(yù)測風(fēng)險等級(圖a為預(yù)測風(fēng)險等級,圖b為取整后的預(yù)測風(fēng)險等級)。由圖中兩種顏色的線段重合度可以看出,二者吻合度較高,說明該模型預(yù)測的準(zhǔn)確性較好。

      圖4 N1地區(qū)乳制品風(fēng)險預(yù)測示意圖Fig.4 Schematic diagram of risk prediction of dairy products in N1

      2.2.3 模型比較與分析

      本次研究中,還分別構(gòu)建了EMD-LSTM模型和有選擇性重構(gòu)且間隔為2的WD-LSTM模型,通過對數(shù)據(jù)采用不同的分解方法和選取不同的間隔來驗證本文所使用的WD-LSTM模型在乳制品灰色數(shù)據(jù)上的擬合效果,表6為不同模型的預(yù)測準(zhǔn)確率對比。

      模型1是EMD-LSTM組合模型。對29個地區(qū)的2015~2020年乳制品檢測數(shù)據(jù)做同樣的預(yù)處理后,模型1將分箱數(shù)據(jù)帶入EMD模型進(jìn)行分解,將得到的各分量IMFs輸入LSTM模型,預(yù)測結(jié)果表明,準(zhǔn)確率最低僅為29.73%,整體準(zhǔn)確率僅為86.97%,標(biāo)準(zhǔn)偏差為0.14??傮w上看,模型1的準(zhǔn)確率與小波分解-LSTM模型相比明顯降低,且預(yù)測結(jié)果差距較大,不夠穩(wěn)定。平均MAE和MAPE分別為0.27和12.95%,且最大MAE和MAPE為1.95和54.91%,均明顯高于WD-LSTM模型。由于EMD的模態(tài)混疊現(xiàn)象嚴(yán)重,會導(dǎo)致特征提取、模型訓(xùn)練、模式識別變得困難,IMF的特征不再是單一尺度[26]。因此,經(jīng)過 EMD-LSTM模型分解后得到的各個分量IMFs波動仍然較為強(qiáng)烈,預(yù)測誤差變大,從而導(dǎo)致重構(gòu)后的模型預(yù)測誤差較大。而小波變換頻帶是固定的,在帶入模型預(yù)測前采用了具有更好的光滑性的db8小波基,有效的減小了各分量變化趨勢的復(fù)雜性,分解后得到更光滑的的各分量也使得LSTM模型預(yù)測的準(zhǔn)確度更高[27]。

      模型2與本文建立的WD-LSTM模型類似,也是一個小波分解后將各分量代入LSTM預(yù)測的組合模型,對各分量有選擇性的進(jìn)行重構(gòu),重構(gòu)后的序列再通過LSTM模型進(jìn)行預(yù)測。在本文中有選擇性重構(gòu)所選擇的間隔為 2,以驗證間隔大小對該模型產(chǎn)生的影響。該模型與對原始序列進(jìn)行平滑處理類似,會對部分細(xì)節(jié)信息有所損失,預(yù)測精度也有所降低,J1地區(qū)的準(zhǔn)確率僅為66.67%,整體準(zhǔn)確率為92.42%,標(biāo)準(zhǔn)偏差為0.07,平均MAE和MAPE分別為0.09和4.83%。故對比表6,在整體預(yù)測精度和誤差上,本文所用的WD-LSTM模型均優(yōu)于模型1和2。

      表6 不同預(yù)測模型的準(zhǔn)確率對比Table 6 Comparison of accuracy of different prediction models

      續(xù)表6

      3 結(jié)論

      針對目前備受關(guān)注的乳制品質(zhì)量安全問題,本文對近六年具有“貧信息”且類型多樣性的乳制品灰色數(shù)據(jù)進(jìn)行了充分的預(yù)處理,按檢測項目性質(zhì)的不同劃分為四部分,結(jié)合專家打分法得到各檢測項目的風(fēng)險等級后分別代入改進(jìn)的softmax公式,并根據(jù)產(chǎn)品中風(fēng)險等級的占比對數(shù)據(jù)分箱劃分區(qū)間。將29個地區(qū)的檢測數(shù)據(jù)轉(zhuǎn)換為綜合風(fēng)險等級后帶入構(gòu)建的WD-LSTM模型,得到整體準(zhǔn)確率為97.54%,標(biāo)準(zhǔn)偏差為0.03,MAE和MAPE的平均值為0.02和0.83%,而本文設(shè)置的對比模型 1、2的整體準(zhǔn)確率分別為 86.97%和92.42%,標(biāo)準(zhǔn)差分別為0.14和0.07,平均MAE分別為0.27和0.09,平均MAPE分別為12.95%和4.83%。該預(yù)測結(jié)果意味著本文構(gòu)建的WD-LSTM模型預(yù)測準(zhǔn)確性較好,且在精度和穩(wěn)定性方面均優(yōu)于類似的相關(guān)模型,說明該模型對乳制品質(zhì)量安全預(yù)測是準(zhǔn)確且有效的,可以起到對乳制品質(zhì)量安全中潛在的風(fēng)險防控和監(jiān)督的作用,并在日常檢測的過程中提供技術(shù)支持。對于未來的工作,可以從以下兩個方向進(jìn)行改善:一是通過優(yōu)化模型算法,調(diào)整參數(shù),使模型在其他類別的產(chǎn)品得以推廣使用;二是研究如何對長時間序列的內(nèi)在關(guān)聯(lián)性和數(shù)據(jù)嚴(yán)重不平衡使用更好的處理方法。

      猜你喜歡
      乳制品分量預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      帽子的分量
      一物千斤
      智族GQ(2019年9期)2019-10-28 08:16:21
      論《哈姆雷特》中良心的分量
      2018年1~2月乳制品產(chǎn)量同比增長8%
      分量
      不必預(yù)測未來,只需把握現(xiàn)在
      通過乳制品源頭控制提高原料奶品質(zhì)的措施
      思南县| 高雄市| 木里| 博罗县| 阳东县| 巩留县| 天门市| 宝鸡市| 任丘市| 辽中县| 连州市| 高台县| 东兴市| 阳山县| 嵊州市| 临潭县| 锡林浩特市| 兰西县| 聊城市| 偃师市| 平潭县| 虞城县| 福建省| 永登县| 临桂县| 牙克石市| 博乐市| 贡山| 文水县| 桃源县| 长乐市| 浠水县| 定州市| 兖州市| 平潭县| 德庆县| 呼伦贝尔市| 惠州市| 郁南县| 科尔| 翁源县|