陳曉
廣東省汕頭市質(zhì)量計量監(jiān)督檢測所 廣東汕頭 515000
食品安全是世界各國長期關(guān)注的問題。近幾年來,世界上一些國家和地區(qū)食品安全惡性事件不斷發(fā)生,且隨著食品加工過程中化學品和新技術(shù)的廣泛使用,新的食品安全問題不斷涌現(xiàn)。食品中若含有“危害”因子,人體攝入后會患病甚至喪命,嚴重影響社會安定和發(fā)展?!俺闄z”顧名思義,即抽樣及檢驗,也就是我們?nèi)绾巫龊贸闃蛹皺z驗的工作。食品安全抽檢工作的出發(fā)點是為了能夠?qū)崿F(xiàn)食品監(jiān)管部門對食品生產(chǎn)的動態(tài)監(jiān)督,因而在抽檢中對食品企業(yè)的抽檢覆蓋率和問題檢出率做出了要求。
數(shù)據(jù)預(yù)處理的步驟大致可以分為四步,即數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換。數(shù)據(jù)清理技術(shù)是對于空缺值等異常進行處理、清除重復(fù)的數(shù)據(jù),以及對異常數(shù)據(jù)進行錯誤糾正和清除等操作?,F(xiàn)實中造成數(shù)據(jù)缺失的原因很多,例如數(shù)據(jù)采集設(shè)備故障導(dǎo)致采集缺失,用戶填寫時不理解或者不耐心未填入導(dǎo)致數(shù)據(jù)缺失,數(shù)據(jù)傳輸過程中錯誤造成的缺失,數(shù)據(jù)錄入過程中因為疏忽造成數(shù)據(jù)缺失,以及存儲設(shè)備損壞導(dǎo)致的缺失等。處理空缺值的方法通常有手動錄入、平均值填充、用最可能的值填充、忽略元組、全局常量填充等方法。數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)合并為統(tǒng)一一致的數(shù)據(jù)存儲中,這種數(shù)據(jù)存儲可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫。數(shù)據(jù)集成主要包括:包含相同字段屬性的縱向追加和具有相關(guān)屬性疊加的橫向合并。在進行數(shù)據(jù)橫向合并時,會出現(xiàn)同一對象的一些屬性字段在不同數(shù)據(jù)庫中的名稱不同或?qū)傩灾挡煌?這樣就容易造成合成后的數(shù)據(jù)出現(xiàn)不一致性或者數(shù)據(jù)的冗余性。數(shù)據(jù)變換就是將原始數(shù)據(jù)進行規(guī)格化處理,轉(zhuǎn)換成方便后續(xù)數(shù)據(jù)挖掘處理的形式。數(shù)據(jù)變換常用的方法有:平滑處理、聚集操作、數(shù)據(jù)概化與規(guī)范化和屬性構(gòu)造等。數(shù)據(jù)集約是指在保持數(shù)據(jù)完整性的前提下,將大容量的數(shù)據(jù)轉(zhuǎn)換成可高效利用的數(shù)據(jù)集,即在獲得相同或相似挖掘結(jié)果的前提下,對數(shù)據(jù)的容量進行有效的縮減的過程。數(shù)據(jù)歸約常用的方法有數(shù)據(jù)立方體聚集、維規(guī)約、數(shù)據(jù)壓縮等[1]。
近年來平臺經(jīng)營者增長迅猛,數(shù)量眾多,有成熟度高的淘寶、天貓、京東、蘇寧易購、1號店、亞馬遜、國美等,也有發(fā)展勢頭強勁的我買網(wǎng)、美團、順豐優(yōu)選、每日優(yōu)鮮、拼多多等。抽檢前應(yīng)充分收集各電商平臺信息,掌握平臺銷售食品種類分布情況,事先登記好網(wǎng)絡(luò)信息平臺的注冊信息備用,包括:公司名稱、營業(yè)執(zhí)照或經(jīng)營許可證號、網(wǎng)址、增值電信業(yè)務(wù)經(jīng)營許可證號等。
大家知道,散裝食品易受環(huán)境污染,因此只要檢驗項目中涉及微生物指標的樣品,必須是預(yù)包裝食品,只有預(yù)包裝食品才能進行微生物檢驗。因此,當檢驗項目中有微生物指標時,在流通領(lǐng)域抽樣必須抽包裝食品,在生產(chǎn)領(lǐng)域抽樣時,如果是大包裝產(chǎn)品,應(yīng)由企業(yè)提供潔凈的包裝容器,在潔凈室分裝好,再進行封樣,并且在抽樣單上注明“樣品由企業(yè)在潔凈室分裝”等字樣。之所以強調(diào)由企業(yè)分裝,是減少如果出現(xiàn)微生物指標不合格時可能出現(xiàn)的不必要的糾紛。
Logistic回歸分析是一種廣義的線性回歸分析模型,Logistic回歸的因變量既可以是二分類的,也可以是多分類的。決策樹(DecisionTree)主要是用于分類和預(yù)測的技術(shù),它是一種在實例的基礎(chǔ)上進行歸納學習的學習型算法,實際上則是一種采用自上而下遞歸方式的“貪心”算法。它主要是從一組無序、無規(guī)則的實例中通過特定的算法來構(gòu)造決策樹,以達到其表現(xiàn)形式的一種分類規(guī)則?;跊Q策樹的預(yù)測算法的主要思想都是通過對決策樹的構(gòu)建,確定樣本數(shù)據(jù)中的屬性標簽在分類中是否起作用或起作用的先后順序。決策樹算法有多種版本,最常見的是ID3算法和C4.5算法。但ID3算法有多值傾向性,也就是如果某個變量包含的值越多,則這個變量就越容易被選為分類標準,而C4.5算法克服了這一缺陷,因此我們選擇了C4.5算法進行實驗。人工神經(jīng)網(wǎng)絡(luò)的研究在一定程度上受到了生物學的啟發(fā),因為生物的學習系統(tǒng)是由相互連接的神經(jīng)元(neuron)組成的異常復(fù)雜的網(wǎng)絡(luò)。而人工神經(jīng)網(wǎng)絡(luò)與此大體相似,它是由一系列簡單單元相互密集連接構(gòu)成,其中每一個單元有一定數(shù)量的實值輸入(可能是其他單元的輸出),并產(chǎn)生單一的實數(shù)值輸出。支持向量機(SupportVectorMachine),也可被簡稱為SVM,它可以在有限樣本下進行統(tǒng)計學習,并且可以研究和解決大數(shù)據(jù)中的分類問題,支持向量機因其優(yōu)良的特性而作為一種通用的學習機器。因此也是本文研究和應(yīng)用的主要方法。支持向量機算法也有多種版本,主要由不同的核函數(shù)決定。常見的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、Sigmoid核函數(shù)和徑向基核函數(shù),根據(jù)它們在數(shù)據(jù)集上的不同表現(xiàn),本文選擇徑向基核函數(shù)作為支持向量機的函數(shù)[2]。
在研究和比較各預(yù)測算法的基礎(chǔ)上,我們采用基于徑向基核函數(shù)的支持向量機作為訓練和預(yù)測算法,并基于該算法,實現(xiàn)了一個Web系統(tǒng)。該系統(tǒng)可以對歷史數(shù)據(jù)進行管理,包括增刪改查等操作。
本文就食品安全監(jiān)督抽檢工作中存在的問題進行了相關(guān)闡述,并且在如何對食品安全監(jiān)督抽檢工作的開展及實踐要點進行了論述,旨在提高食品安全抽檢監(jiān)測的有效性[3]。