阮曉星 金鑫 吳焱
食品安全是社會經(jīng)濟(jì)得以穩(wěn)定發(fā)展的基石。加強(qiáng)食品安全監(jiān)管,關(guān)系到廣大人民群眾的身體健康和生命安全。近年來,我國食品安全問題頻發(fā),不僅損害了消費(fèi)者的合法權(quán)益,也對民生安全造成了嚴(yán)重威脅[1]。因此,如何對食品安全風(fēng)險(xiǎn)進(jìn)行預(yù)警,是人工智能及數(shù)據(jù)挖掘等領(lǐng)域亟待解決的重要難題。
通過文獻(xiàn)調(diào)研發(fā)現(xiàn),盡管目前食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制取得了一定的成效,但仍存在兩個(gè)主要問題:(1)難以對多種不同來源的食品安全風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行融合處理。隨著信息化的快速發(fā)展,食品安全風(fēng)險(xiǎn)數(shù)據(jù)來源日趨多樣。除人工檢測得到的數(shù)據(jù)外,大量與食品安全相關(guān)的投訴數(shù)據(jù)、評價(jià)數(shù)據(jù)及輿情數(shù)據(jù)也呈爆發(fā)式涌現(xiàn)。雖然現(xiàn)有的方法可以對多種不同來源的數(shù)據(jù)進(jìn)行融合[2-6],但卻難以對互聯(lián)網(wǎng)中的大量投訴數(shù)據(jù)、評價(jià)數(shù)據(jù)及輿情數(shù)據(jù)等文本數(shù)據(jù)進(jìn)行融合,難以充分利用這些數(shù)據(jù)做出更精準(zhǔn)的決策。(2)難以對單點(diǎn)風(fēng)險(xiǎn)預(yù)警進(jìn)行擴(kuò)散。目前的方法通常只能夠?qū)Ρ怀闄z經(jīng)營主體等包含大量風(fēng)險(xiǎn)數(shù)據(jù)的目標(biāo)進(jìn)行預(yù)警決策,但如何將風(fēng)險(xiǎn)預(yù)警擴(kuò)散到更多的經(jīng)營主體,實(shí)現(xiàn)自動(dòng)化地預(yù)警預(yù)判,仍然存在困難。
本文將針對上述兩個(gè)問題展開基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制以及基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制的研究。一方面,基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制利用多層感知機(jī)、詞向量模型對多源數(shù)據(jù)進(jìn)行學(xué)習(xí)和融合,實(shí)現(xiàn)對被抽檢經(jīng)營主體的高效單點(diǎn)預(yù)警決策;另一方面,基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制,根據(jù)經(jīng)營主體之間的結(jié)構(gòu)化關(guān)系對預(yù)警信息進(jìn)行擴(kuò)散,對與被抽檢經(jīng)營主體相關(guān)的其他經(jīng)營主體實(shí)現(xiàn)實(shí)時(shí)自動(dòng)化預(yù)警決策。在此基礎(chǔ)上結(jié)合實(shí)例檢驗(yàn)本文所提出的食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制的有效性。
近年來,眾多學(xué)者對食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制進(jìn)行了研究和探索,運(yùn)用統(tǒng)計(jì)學(xué)、人工智能及數(shù)據(jù)挖掘等領(lǐng)域的相關(guān)技術(shù)和理論對食品安全風(fēng)險(xiǎn)進(jìn)行建模,構(gòu)建食品安全風(fēng)險(xiǎn)預(yù)警體系。
在食品安全風(fēng)險(xiǎn)預(yù)警技術(shù)層面,主要探索如何利用和改進(jìn)貝葉斯網(wǎng)絡(luò)、決策樹、人工神經(jīng)網(wǎng)絡(luò)、主成分分析方法,以及支持向量機(jī)等技術(shù)來處理單一經(jīng)營主體的單一來源的食品安全數(shù)據(jù)。王雅潔等[7]分析了貝葉斯網(wǎng)絡(luò)、決策樹以及人工神經(jīng)網(wǎng)絡(luò)等技術(shù)在食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的應(yīng)用,并提出了使用逆向傳播神經(jīng)網(wǎng)絡(luò)運(yùn)用于食品安全風(fēng)險(xiǎn)預(yù)警的構(gòu)想。章德賓等[8]通過分析中國質(zhì)監(jiān)部門日常檢測數(shù)據(jù)的特征及預(yù)處理方法,結(jié)合食品安全預(yù)警問題特點(diǎn),建立基于逆向傳播神經(jīng)網(wǎng)絡(luò)的食品安全預(yù)警模型。王星云等[9]利用食品污染物鉛的抽檢數(shù)據(jù)及食品生產(chǎn)企業(yè)的各個(gè)特征屬性對逆向傳播神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。蔡強(qiáng)等[10]通過對逆向傳播神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)建了食品安全評價(jià)預(yù)測模型。王霞[11]建立了食品安全風(fēng)險(xiǎn)評估預(yù)警模型以及基于逆向傳播神經(jīng)網(wǎng)絡(luò)的食品中污染物殘留量的預(yù)測模型。該模型可以同時(shí)用于符合性檢驗(yàn)、檢測性檢驗(yàn)以及多重性檢測。劉金碩等[12]以食品安全新聞報(bào)道文本為訓(xùn)練語料,提出了一種基于聯(lián)合深度神經(jīng)網(wǎng)絡(luò)的食品安全情感傾向性判別方法,完成了食品安全領(lǐng)域新聞?lì)惼录壍那楦蟹诸惾蝿?wù)。張麗等[13]基于貝葉斯理論,在貝葉斯網(wǎng)絡(luò)的食品供應(yīng)鏈風(fēng)險(xiǎn)分析的基礎(chǔ)上,建立了基于貝葉斯網(wǎng)絡(luò)的食品供應(yīng)鏈風(fēng)險(xiǎn)局部分析模型,對其風(fēng)險(xiǎn)進(jìn)行預(yù)測, 并通過案例研究驗(yàn)證算法的可行性。鄂旭等[14]為了分析食品安全風(fēng)險(xiǎn)狀況,構(gòu)建了一種基于粗糙集變精度模型,并提出了一種包含規(guī)則置信度的構(gòu)造決策樹方法。該方法能夠消除數(shù)據(jù)庫中的噪聲冗余數(shù)據(jù),進(jìn)而保證決策樹構(gòu)建過程中能夠兼容部分存在沖突的決策規(guī)則。段鶴君等[15]利用細(xì)菌性食物中毒歷史數(shù)據(jù),采用主成分分析方法(PCA)降低評分矩陣的維數(shù),利用支持向量機(jī)算法建立回歸模型, 實(shí)現(xiàn)對細(xì)菌性食物中毒爆發(fā)事件的監(jiān)測及預(yù)警。
在食品安全風(fēng)險(xiǎn)預(yù)警理論層面,探討如何加強(qiáng)食品安全風(fēng)險(xiǎn)預(yù)警體系建設(shè)、構(gòu)建食品安全風(fēng)險(xiǎn)預(yù)警指標(biāo)、實(shí)現(xiàn)食品安全風(fēng)險(xiǎn)信息共享、完善食品安全預(yù)警平臺。盧江[16]提出加強(qiáng)信息融合平臺建設(shè)和大數(shù)據(jù)技術(shù)應(yīng)用,優(yōu)先發(fā)展和建設(shè)各類食品安全風(fēng)險(xiǎn)預(yù)警體系,借助人工智能和大數(shù)據(jù)技術(shù)建立預(yù)警體系,為食品安全風(fēng)險(xiǎn)隱患的早期識別和快速預(yù)警提供科學(xué)支撐。郭添榮等[17]構(gòu)建了基于風(fēng)險(xiǎn)治理視閾下的三級評價(jià)因素食品安全風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,為提升食品安全風(fēng)險(xiǎn)防控能力提供量化依據(jù),為食品安全潛在風(fēng)險(xiǎn)的識別與靶向定位提供科學(xué)決策和客觀依據(jù)。王博遠(yuǎn)等[18]認(rèn)為在基于跨部門多源數(shù)據(jù)的食品安全時(shí)空預(yù)警信息化體系框架下,應(yīng)用“互聯(lián)網(wǎng)+”的思維模式,促進(jìn)互聯(lián)網(wǎng)與食品安全的深度融合,打通領(lǐng)域業(yè)務(wù)鏈,實(shí)現(xiàn)橫向整合,加速數(shù)據(jù)的有效流動(dòng)與高度共享,實(shí)現(xiàn)跨部門的業(yè)務(wù)高效協(xié)同、信息共享和預(yù)測預(yù)警。于曉剛[19]等通過構(gòu)建食品安全評價(jià)指標(biāo)體系,制定食品安全狀況等級與預(yù)警指標(biāo),結(jié)合專家知識,建立神經(jīng)網(wǎng)絡(luò)專家模型,在海量、復(fù)雜多樣的數(shù)據(jù)中進(jìn)行訓(xùn)練目標(biāo)函數(shù),從而挖掘關(guān)鍵數(shù)據(jù)價(jià)值、揭示潛在的關(guān)系,進(jìn)而對食品安全狀態(tài)、食源預(yù)測預(yù)警,最終構(gòu)建出食品安全預(yù)警體系平臺。
盡管上述研究在一定程度上能夠有效防范食品安全事故發(fā)生,但在技術(shù)上缺乏對風(fēng)險(xiǎn)預(yù)警的文本數(shù)據(jù)及抽檢數(shù)據(jù)進(jìn)行融合和處理的方法;在理論上缺乏揭示復(fù)雜關(guān)系下風(fēng)險(xiǎn)預(yù)警的關(guān)聯(lián)性和可傳遞性的解決方案。因此,預(yù)警效能較低,且難以擴(kuò)大預(yù)警范圍。為此,本文擬研究設(shè)計(jì)基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制以及基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制,為實(shí)現(xiàn)從點(diǎn)到面的高效食品安全風(fēng)險(xiǎn)預(yù)警給出具體的解決方案。
為對食品安全進(jìn)行實(shí)時(shí)感知及預(yù)警,本文設(shè)計(jì)了包括基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制以及基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制的食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制總架構(gòu),如圖1所示。食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制總架構(gòu)主要包括基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警和基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警。其中基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警利用多層感知機(jī)、詞向量模型對多源數(shù)據(jù)進(jìn)行學(xué)習(xí)和融合,實(shí)現(xiàn)對被抽檢經(jīng)營主體的單點(diǎn)預(yù)警決策;基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警根據(jù)經(jīng)營主體之間的結(jié)構(gòu)化關(guān)系對預(yù)警信息進(jìn)行擴(kuò)散,以實(shí)現(xiàn)對與被抽檢經(jīng)營主體相關(guān)的其他經(jīng)營主體的實(shí)時(shí)預(yù)警決策。
圖1 食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制總架構(gòu)Fig.1 General Architecture of the Food Safety Early Warning Mechanism
為支持對預(yù)警等級進(jìn)行決策,本文結(jié)合實(shí)際應(yīng)用過程中預(yù)警的緊急程度,將預(yù)警分為特別嚴(yán)重預(yù)警、嚴(yán)重預(yù)警、較嚴(yán)重預(yù)警、一般預(yù)警和無預(yù)警五個(gè)級別,具體預(yù)警等級的說明如表1所示。
表1 預(yù)警等級說明Table 1 Description of Warning Levels
在實(shí)際場景中,食品安全多源數(shù)據(jù)來源包括定量檢測、快檢、全國檢測不合格食品、網(wǎng)商交易評價(jià)數(shù)據(jù)、輿情數(shù)據(jù)、12315消費(fèi)者投訴數(shù)據(jù)。定量檢測數(shù)據(jù)是食品檢測機(jī)構(gòu)執(zhí)行本行政區(qū)域的食品安全年度監(jiān)督抽檢計(jì)劃所完成檢測的結(jié)果數(shù)據(jù)。快檢數(shù)據(jù)是菜市場、食堂等食品經(jīng)營企業(yè)所建立的食品快檢點(diǎn)定期上傳的檢測結(jié)果數(shù)據(jù)。定量檢測和快檢均屬于抽檢?;诂F(xiàn)有研究[20-21]對食品危害因子的劃分,本文首先定義了如圖2所示的12種食品危害因子,通過定量檢測和快檢可得這12種食品危害因子的值。定量檢測和快檢數(shù)據(jù)均可通過系統(tǒng)對接方式獲取。全國檢測不合格食品數(shù)據(jù)是由國家市場監(jiān)管總局發(fā)布的檢測不合格食品信息,可通過系統(tǒng)對接方式獲取。網(wǎng)商交易評價(jià)數(shù)據(jù)是在各大食品交易網(wǎng)站上獲取的食品類產(chǎn)品交易評價(jià)文本數(shù)據(jù)。輿情數(shù)據(jù)是從各類社交網(wǎng)站獲取的與食品安全輿情相關(guān)的評論文本數(shù)據(jù)。上述兩種數(shù)據(jù)可通過網(wǎng)絡(luò)爬蟲的方法爬取。12315消費(fèi)者投訴數(shù)據(jù)是從市場監(jiān)管局12315系統(tǒng)中同步獲取的與食品相關(guān)的消費(fèi)投訴類文本數(shù)據(jù),可通過系統(tǒng)對接方式獲取。上述數(shù)據(jù)的樣例如表2所示。
表2 多源數(shù)據(jù)樣例說明Table 2 Description of Multi-Source Data Sample
圖2 食品危害因子Fig.2 Food Hazard Factors
為實(shí)現(xiàn)對經(jīng)營主體的單點(diǎn)預(yù)警,基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制利用多層感知機(jī)(Multi-layer Perceptron,MLP) 和GloVe(Global Vectors for Word Representation)[22]詞向量模型對不同來源的數(shù)據(jù)進(jìn)行學(xué)習(xí)和融合,并根據(jù)融合后的特征向量進(jìn)行分類,得到最終的預(yù)警等級決策。其中,多層感知機(jī)是由多個(gè)神經(jīng)元層組成,其中每個(gè)神經(jīng)元層與相鄰的層之間存在全連接關(guān)系。多層感知機(jī)是一種有向圖結(jié)構(gòu),包含一個(gè)輸入層、一個(gè)或多個(gè)隱藏層和一個(gè)輸出層。多層感知機(jī)的基本組成單元是神經(jīng)元(也稱為節(jié)點(diǎn)或單元),每個(gè)神經(jīng)元接收來自上一層神經(jīng)元的輸入,通過一個(gè)激活函數(shù)對這些輸入進(jìn)行加權(quán)求和并產(chǎn)生一個(gè)輸出,這個(gè)輸出會傳遞給下一層神經(jīng)元作為輸入。這種層與層之間的全連接方式使得多層感知機(jī)能夠?qū)W習(xí)和表示復(fù)雜的非線性關(guān)系。GloVe是一種用于生成詞向量的統(tǒng)計(jì)語言模型。其設(shè)計(jì)目標(biāo)是通過學(xué)習(xí)單詞之間的全局共現(xiàn)統(tǒng)計(jì)信息來生成詞向量。它結(jié)合了兩種主要的詞向量模型方法:全局矩陣因式分解(Global Matrix Factorization)和局部上下文窗口方法(Local Context Window Methods)。GloVe模型的核心思想是基于單詞在語料庫中的共現(xiàn)頻率來捕捉詞語之間的語義關(guān)系。它首先構(gòu)建一個(gè)單詞共現(xiàn)矩陣,該矩陣記錄了在給定的文本語料庫中單詞之間的共現(xiàn)頻率。然后,通過對這個(gè)共現(xiàn)矩陣進(jìn)行因式分解,得到一個(gè)較低維度的稠密向量表示,即詞向量。GloVe的優(yōu)點(diǎn)是在大規(guī)模語料庫上的訓(xùn)練效果良好,并且生成的詞向量能夠捕捉到豐富的語義信息。
基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制首先判斷經(jīng)營主體被定量檢測和快檢的食品是否屬于全國檢測不合格食品數(shù)據(jù)庫中的食品,如果是,則直接對該經(jīng)營主體進(jìn)行“特別嚴(yán)重預(yù)警”,如果不是,則繼續(xù)執(zhí)行下述步驟。
1針對由定量檢測和快檢得到的如圖2中所示的12類危害因子,該機(jī)制將其拼接成一個(gè)12維的特征向量S={a1,a2,…a12}∈,其中每一維的值對應(yīng)著第i類危害因子的值。
2該機(jī)制針對在線商務(wù)交易評價(jià)、輿情和12315消費(fèi)者投訴等產(chǎn)生的非結(jié)構(gòu)化文本數(shù)據(jù),首先將這些文本進(jìn)行拼接,得到一段長度為n的文本數(shù)據(jù)。然后利用GloVe詞向量模型將拼接后的文本換為一個(gè)詞向量矩陣H={h1;h2…h(huán)n }∈,其中每一維度詞向量hi∈R1×300對應(yīng)著文本中的第i個(gè)字符。利用GloVe將在線商務(wù)交易評價(jià)、輿情、12315消費(fèi)者投訴所產(chǎn)生的非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換詞向量,能夠有效學(xué)習(xí)到這些非結(jié)構(gòu)化文本中所包含的特征信息,并進(jìn)一步用于下游預(yù)警決策。
3將由定量檢測和快檢數(shù)據(jù)轉(zhuǎn)化得到的特征向量S拼接到由網(wǎng)商交易評價(jià)、輿情數(shù)據(jù)和12315消費(fèi)者投訴數(shù)據(jù)所轉(zhuǎn)換得到的詞向量矩陣H中的每一維詞向量前部,得到一個(gè)由多源信息融合后的特征矩陣O={o1;o2…on }∈n×312。
4利用多層感知機(jī)對融合后的特征矩陣O進(jìn)行學(xué)習(xí)及預(yù)警決策。具體過程如公式(1)—(4)所示:
其中W1∈和W2∈分別為多層感知機(jī)中第一層和第二層中的可訓(xùn)練的權(quán)重矩陣參數(shù),b1∈和b2∈分別為多層感知機(jī)中第一層和第二層中的可訓(xùn)練的偏置參數(shù),tanh為激活函數(shù),Softmax為歸一化函數(shù),K∈為多層感知機(jī)中間層的輸出,sum函數(shù)的作用是將K的每一維度的特征相加,得到一個(gè)聚集特征M∈,Out∈為最終輸出的特征,通過argmax函數(shù)取值最大的那一維所對應(yīng)的預(yù)警等級為最終決策結(jié)果。該機(jī)制使用梯度下降優(yōu)化方法來逐漸調(diào)整多層感知機(jī)中權(quán)重矩陣和偏置,以最小化預(yù)測輸出與實(shí)際輸出之間的誤差。通過反復(fù)迭代調(diào)整權(quán)重,多層感知機(jī)能夠逐漸學(xué)習(xí)到輸入與輸出之間的映射關(guān)系,從而實(shí)現(xiàn)高效的預(yù)警決策。
基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制盡管能夠?qū)崿F(xiàn)對被抽檢的經(jīng)營主體進(jìn)行快速預(yù)警,但無法擴(kuò)散到更多的相關(guān)聯(lián)的預(yù)警主體。因此,本文提出了一種基于TransE表示學(xué)習(xí)方法和K-means聚類算法的關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制,該機(jī)制通過分析其他經(jīng)營主體與被抽檢的經(jīng)營主體之間的關(guān)聯(lián)性來實(shí)現(xiàn)自動(dòng)擴(kuò)散預(yù)警。其中:TransE[23]是一種常用的表示學(xué)習(xí)方法,可用于將實(shí)體映射到低維連續(xù)向量空間。TransE基于一種直觀的假設(shè),即關(guān)系可以通過對應(yīng)實(shí)體間的平移來表示。換句話說,如果兩個(gè)經(jīng)營主體之間存在某種關(guān)系,那么它們的向量表示應(yīng)該通過一個(gè)平移向量進(jìn)行相互轉(zhuǎn)換。K-means[24]是一種常用的無監(jiān)督聚類算法,可以用于將一組數(shù)據(jù)點(diǎn)劃分成不同的簇,每個(gè)簇內(nèi)部的數(shù)據(jù)點(diǎn)通常具備相似的特征。該算法通過迭代的方式,將數(shù)據(jù)點(diǎn)劃分為K個(gè)簇,使得每個(gè)數(shù)據(jù)點(diǎn)與所屬簇的中心點(diǎn)(即質(zhì)心)的距離最小化。
基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警具體步驟如下:
1利用表示學(xué)習(xí)方法TransE將經(jīng)營主體映射到低維連續(xù)向量空間。TransE通過最小化訓(xùn)練數(shù)據(jù)中的關(guān)系三元組損失函數(shù)來學(xué)習(xí)實(shí)體和關(guān)系的向量表示,這種關(guān)系三元組可通過人工標(biāo)注和收集的方法來獲取。例如,經(jīng)營主體G和經(jīng)營主體F之間存在合作關(guān)系,則它們構(gòu)成(經(jīng)營主體G,合作,經(jīng)營主體F)關(guān)系三元組。通過訓(xùn)練,TransE可以學(xué)習(xí)到經(jīng)營主體的低維向量表示,這些向量表示可以用于執(zhí)行各種下游任務(wù)。
2在得到每個(gè)經(jīng)營主體的向量表示后,本文利用K-means無監(jiān)督聚類算法對經(jīng)營主體進(jìn)行聚類。具體算法如表3所示。
表3 K-means 無監(jiān)督經(jīng)營主體聚類Table 3 Unsupervised Clustering of Business Subjects by K-means
由于每個(gè)簇內(nèi)部的經(jīng)營主體具備類似的特征,所以當(dāng)這個(gè)簇內(nèi)部的某個(gè)經(jīng)營主體被單點(diǎn)預(yù)警時(shí),這個(gè)簇內(nèi)部所有的經(jīng)營主體都有可能是被擴(kuò)散預(yù)警的對象。
3為進(jìn)一步確定同一個(gè)簇內(nèi)部的經(jīng)營主體被擴(kuò)散預(yù)警等級,本文提出利用二階相似性[25]來計(jì)算擴(kuò)算預(yù)警等級。二階相似度通常指的是基于節(jié)點(diǎn)鄰居的相似度計(jì)算。它用于衡量數(shù)據(jù)節(jié)點(diǎn)之間的結(jié)構(gòu)相似性,考慮節(jié)點(diǎn)的直接鄰居節(jié)點(diǎn)之間的關(guān)系。例如,圖3中二階相似度預(yù)警等級預(yù)判部分所示,經(jīng)營主體A和經(jīng)營主體B屬于同一個(gè)簇,且具備3個(gè)共同的食材來源,即可視為經(jīng)營主體A和經(jīng)營主體B之間的二階相似度為3。二階相似度越高,代表經(jīng)營主體A和經(jīng)營主體B之間的關(guān)聯(lián)性越緊密。因此,當(dāng)經(jīng)營主體A在單點(diǎn)預(yù)警中被判定為第5級特別嚴(yán)重預(yù)警,經(jīng)營主體B的預(yù)警等級可以表示為“經(jīng)營主體A預(yù)警等級-(預(yù)警等級總數(shù)-經(jīng)營主體A和經(jīng)營主體B之間的二階相似度)”,即第3級較嚴(yán)重預(yù)警。
圖3 食品安全風(fēng)險(xiǎn)預(yù)警平臺運(yùn)轉(zhuǎn)流程圖Fig.3 Operation Flow Chart of Food Safety Risk Warning Platform
利用基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制以及基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制,本文搭建了食品安全風(fēng)險(xiǎn)預(yù)警平臺,并在H省C縣開展了應(yīng)用試點(diǎn)。該平臺的搭建涉及前端、后端、前后端對接三個(gè)部分。前端負(fù)責(zé)與用戶進(jìn)行交互,利用HTML、CSS、JavaScript等技術(shù)展示風(fēng)險(xiǎn)預(yù)警數(shù)據(jù)。后端則通過Java、SQL等技術(shù)處理業(yè)務(wù)邏輯和風(fēng)險(xiǎn)預(yù)警數(shù)據(jù)的存儲和管理。前后端對接主要利用Java技術(shù)將前端和后端進(jìn)行集成,進(jìn)行數(shù)據(jù)的對接與同步,形成一個(gè)完整的食品安全風(fēng)險(xiǎn)預(yù)警平臺。此外,該預(yù)警平臺采用如圖3所示的流程完成一次完整的預(yù)警任務(wù)閉環(huán)。首先進(jìn)行多源數(shù)據(jù)采集,然后根據(jù)多源數(shù)據(jù)進(jìn)行單點(diǎn)預(yù)警。在完成單點(diǎn)預(yù)警后,執(zhí)行擴(kuò)散預(yù)警。接著,平臺根據(jù)預(yù)警信息生成監(jiān)管任務(wù),通知H省C縣食品安全監(jiān)管相關(guān)部門進(jìn)行監(jiān)管處置,前往現(xiàn)場進(jìn)行食品風(fēng)險(xiǎn)人工檢測及監(jiān)管。在完成監(jiān)管任務(wù)后,食品安全監(jiān)管相關(guān)部門向平臺回傳人工檢測數(shù)據(jù)及監(jiān)管結(jié)果,最后平臺關(guān)閉預(yù)警。
為分析本文設(shè)計(jì)的機(jī)制在實(shí)際應(yīng)用中的性能,本文統(tǒng)計(jì)了食品安全風(fēng)險(xiǎn)預(yù)警平臺在30天中的單日單點(diǎn)預(yù)警次數(shù)、單日擴(kuò)散預(yù)警次數(shù)、30天單點(diǎn)預(yù)警總次數(shù)、擴(kuò)散預(yù)警總次數(shù)、單點(diǎn)預(yù)警總次數(shù)、擴(kuò)散預(yù)警總次數(shù)在全部預(yù)警中所占的比例,如圖4所示。此外,本文還統(tǒng)計(jì)了單點(diǎn)預(yù)警符合回傳數(shù)據(jù)次數(shù)、單點(diǎn)預(yù)警準(zhǔn)確率、擴(kuò)散預(yù)警符合回傳數(shù)據(jù)次數(shù),以及擴(kuò)散預(yù)警準(zhǔn)確率,如表4所示。此外,為驗(yàn)證在對同一經(jīng)營主體進(jìn)行預(yù)警時(shí),基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制相較于基于單源數(shù)據(jù)的單點(diǎn)預(yù)警機(jī)制更為高效,本文統(tǒng)計(jì)了5天中上述兩種方法在對相同經(jīng)營主體產(chǎn)生預(yù)警后的準(zhǔn)確率對比,如表5所示。其中基于單源數(shù)據(jù)的單點(diǎn)預(yù)警機(jī)制在預(yù)警時(shí)僅利用了抽檢數(shù)據(jù),未融合網(wǎng)商交易評價(jià)數(shù)據(jù)、輿情數(shù)據(jù),以及12315消費(fèi)者投訴數(shù)據(jù)等文本數(shù)據(jù)。
表4 食品安全風(fēng)險(xiǎn)預(yù)警準(zhǔn)確率統(tǒng)計(jì)Table 4 Statistics on the Accuracy of Food Safety Risk Warning
表5 單源及多源食品安全風(fēng)險(xiǎn)預(yù)警準(zhǔn)確率對比Table 5 Comparison of the Accuracy of Single Source and Multi Source Food Safety Risk Warnings
圖4 食品安全風(fēng)險(xiǎn)預(yù)警次數(shù)統(tǒng)計(jì)Fig.4 Statistics on the Number of Food Safety Risk Warnings
①整體上,單點(diǎn)預(yù)警次數(shù)越多,擴(kuò)散預(yù)警次數(shù)通常會越多。其主要原因是由于單點(diǎn)預(yù)警會引發(fā)擴(kuò)散預(yù)警,因此隨著擴(kuò)散預(yù)警機(jī)制對當(dāng)前單點(diǎn)預(yù)警經(jīng)營主體與其相關(guān)經(jīng)營主體的相關(guān)性分析,擴(kuò)散預(yù)警的數(shù)量將會增加。
②單點(diǎn)預(yù)警準(zhǔn)確率通常高于擴(kuò)散預(yù)警。其主要原因是由于在進(jìn)行單點(diǎn)預(yù)警決策時(shí)融合了多種來源的食品風(fēng)險(xiǎn)數(shù)據(jù),因此能夠?qū)崿F(xiàn)更精準(zhǔn)地預(yù)警決策。
③當(dāng)單點(diǎn)預(yù)警準(zhǔn)確率高的時(shí)候,擴(kuò)散預(yù)警準(zhǔn)確率通常也會隨著增高。其主要原因是由于擴(kuò)散預(yù)警是在單點(diǎn)預(yù)警的基礎(chǔ)上進(jìn)行的,當(dāng)單點(diǎn)預(yù)警出現(xiàn)誤差,這種誤差會極大地干擾到擴(kuò)散預(yù)警。
④在極少量情況下,本文提出的基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制仍然存在性能較低的情況,例如第5日,僅有50%。其主要原因是由于抽檢過程存在隨機(jī)性,而當(dāng)天產(chǎn)生的單點(diǎn)預(yù)警次數(shù)較少,由于基數(shù)較小,難以有效體現(xiàn)基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制的有效性。
⑤相較于基于單源數(shù)據(jù)的單點(diǎn)預(yù)警機(jī)制,基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制在進(jìn)行單點(diǎn)預(yù)警的過程中能夠?qū)崿F(xiàn)更高的準(zhǔn)確率,具備更強(qiáng)的性能。其主要原因是由于基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制在預(yù)警的過程中融合了網(wǎng)商交易評價(jià)數(shù)據(jù)、輿情數(shù)據(jù)以及12315消費(fèi)者投訴數(shù)據(jù)等文本數(shù)據(jù),進(jìn)而學(xué)習(xí)和捕捉到了更豐富的預(yù)警特征信息。
本文通過對當(dāng)前食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制存在的問題進(jìn)行分析和探討,提出了基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制和基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制。這兩種機(jī)制的應(yīng)用為解決食品安全領(lǐng)域中的預(yù)警難題提供了新的思路和方法。通過多層感知機(jī)和詞向量模型的學(xué)習(xí)與融合,基于多源數(shù)據(jù)融合的單點(diǎn)預(yù)警機(jī)制能夠更加高效地對多種不同來源的風(fēng)險(xiǎn)數(shù)據(jù)進(jìn)行處理,從而實(shí)現(xiàn)更精準(zhǔn)的決策。同時(shí),基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制能夠?qū)㈩A(yù)警信息自動(dòng)化地?cái)U(kuò)散到與被抽檢經(jīng)營主體相關(guān)的其他經(jīng)營主體,實(shí)現(xiàn)更廣泛的預(yù)警決策?;谏鲜鰞煞N機(jī)制,本文構(gòu)建了食品安全風(fēng)險(xiǎn)預(yù)警平臺,并在實(shí)際應(yīng)用中證明了本文提出的兩種機(jī)制的實(shí)用性和可行性。此外,本文仍然存在一些不足之處,基于關(guān)聯(lián)性分析的擴(kuò)散預(yù)警機(jī)制在進(jìn)行擴(kuò)散預(yù)警時(shí)準(zhǔn)確率有待提升,存在一定錯(cuò)誤預(yù)警的風(fēng)險(xiǎn)。在未來工作中,我們將結(jié)合知識圖譜技術(shù),繼續(xù)針對這一難題構(gòu)建面向
作者貢獻(xiàn)說明
阮曉星:提出研究思路,設(shè)計(jì)研究方案,食品安全風(fēng)險(xiǎn)預(yù)警機(jī)制設(shè)計(jì),起草論文及最終版本修訂;
金鑫:實(shí)驗(yàn)方案設(shè)計(jì),模型算法實(shí)現(xiàn),開展實(shí)驗(yàn),起草論文;
吳焱:準(zhǔn)備數(shù)據(jù),結(jié)果驗(yàn)證,分析結(jié)論,起草論文。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,E-mail:14006938@qq.com。
1.金鑫. Data.csv.多源食品安全風(fēng)險(xiǎn)數(shù)據(jù).