宋良輝 婁新愛(ài) 楊 中 鄭健琨 阿力甫 高 杰
(1.新疆維吾爾自治區(qū)分析測(cè)試研究院,新疆 烏魯木齊 830011;2.貴州大學(xué),貴州 貴陽(yáng) 550025;3.貴州省分析測(cè)試研究院,貴州 貴陽(yáng) 550002)
食品安全問(wèn)題與人民生活息息相關(guān),必然成了各國(guó)政府密切關(guān)注的問(wèn)題。政府對(duì)于開(kāi)展食品安全監(jiān)測(cè)和預(yù)警系統(tǒng)的研究[1],提高食品安全監(jiān)管效率進(jìn)行積極的探索。隨著實(shí)驗(yàn)室信息化管理建設(shè)不斷深入推進(jìn),國(guó)內(nèi)不少第三方檢測(cè)實(shí)驗(yàn)室都積累了大量的食品安全檢測(cè)數(shù)據(jù)資源。而其中一些被人忽略的、有價(jià)值的重要信息就隱藏在這些海量的檢測(cè)數(shù)據(jù)中。如何利用這些檢測(cè)數(shù)據(jù),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)可視化,使食品行業(yè)的相關(guān)企業(yè)或者監(jiān)管機(jī)構(gòu)能夠根據(jù)這些數(shù)據(jù)做出預(yù)測(cè)性的判斷,都是值得探討的。數(shù)據(jù)倉(cāng)庫(kù)技術(shù),為進(jìn)一步挖掘數(shù)據(jù)資源、有效利用數(shù)據(jù)資源、協(xié)助管理決策奠定了基礎(chǔ)。
本文主要以新疆、貴州兩地流通環(huán)節(jié)食品檢測(cè)實(shí)驗(yàn)室的檢測(cè)數(shù)據(jù)為分析對(duì)象,研究分析數(shù)據(jù)倉(cāng)庫(kù)模型的設(shè)計(jì),為構(gòu)建流通環(huán)節(jié)食品安全檢測(cè)數(shù)據(jù)的挖掘與分析平臺(tái)做準(zhǔn)備。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,用以支持管理決策[2]。因此,數(shù)據(jù)倉(cāng)庫(kù)具有以下幾個(gè)主要特征:①面向主題的。主題是對(duì)數(shù)據(jù)進(jìn)行綜合歸類(lèi)的抽象概念,是數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)進(jìn)行決策分析所關(guān)心的方面。②集成的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)從企業(yè)的數(shù)據(jù)庫(kù)中提取出來(lái),然后經(jīng)過(guò)清洗處理。因此數(shù)據(jù)倉(cāng)庫(kù)一般是將多個(gè)異種數(shù)據(jù)源集成在一起的。在數(shù)據(jù)整合過(guò)程中使用數(shù)據(jù)清洗技術(shù)和數(shù)據(jù)集成技術(shù),確保命名規(guī)范、編碼結(jié)構(gòu)的一致性等。③時(shí)變的。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)有時(shí)間維度。數(shù)據(jù)倉(cāng)庫(kù)記錄了系統(tǒng)數(shù)據(jù)各個(gè)時(shí)間的狀態(tài)。④非易失的。正因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)只有數(shù)據(jù)的初始化裝載與數(shù)據(jù)訪問(wèn)功能,所以它是非易失的。
在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),食品安全檢測(cè)的數(shù)據(jù)會(huì)存在著數(shù)據(jù)源眾多、數(shù)據(jù)類(lèi)型繁雜以及數(shù)據(jù)格式不規(guī)范等特征。因此,可能有以下兩種情況存在于這些數(shù)據(jù)中[3]:第一種是無(wú)意義的數(shù)據(jù),使得其不具有太高的數(shù)據(jù)分析價(jià)值;第二種是對(duì)那些有意義的數(shù)據(jù),存在數(shù)據(jù)零碎化、片面化與數(shù)據(jù)冗余等情況。數(shù)據(jù)分析的結(jié)果,也必將會(huì)因?yàn)檫@些缺失的、不規(guī)范的數(shù)據(jù)產(chǎn)生負(fù)面的影響。新疆、貴州兩地檢測(cè)實(shí)驗(yàn)室的食品安全檢測(cè)結(jié)果是構(gòu)建本數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源。由于食品檢測(cè)項(xiàng)目多,國(guó)家標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)都有差異,使得檢測(cè)結(jié)果數(shù)值,檢測(cè)項(xiàng)目,判定依據(jù)存在較多不統(tǒng)一的地方。由于食品檢測(cè)本身的復(fù)雜性和原始數(shù)據(jù)錄入的不規(guī)范,導(dǎo)致數(shù)據(jù)源較為雜亂,因此建立一整套針對(duì)性的規(guī)則對(duì)于檢測(cè)數(shù)據(jù)清洗是很有必要的[4]。對(duì)于新疆、貴州兩地的食品安全檢測(cè)數(shù)據(jù)來(lái)說(shuō),需要考慮的影響因素有:食品類(lèi)型、檢測(cè)項(xiàng)目、檢測(cè)標(biāo)準(zhǔn)、分析方法、檢測(cè)結(jié)果等。要實(shí)現(xiàn)這些不同層次的挖掘分析都需要對(duì)屬性進(jìn)行概念分層??茖W(xué)的概念分層的意義:一是可以為構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)提供支持;二是要考慮與限量標(biāo)準(zhǔn)專(zhuān)家知識(shí)庫(kù)有效關(guān)聯(lián);三是要反過(guò)來(lái)對(duì)生產(chǎn)數(shù)據(jù)庫(kù)(實(shí)驗(yàn)室管理系統(tǒng))的基礎(chǔ)分類(lèi)設(shè)置提供參考建議。
該實(shí)驗(yàn)室有一套比較成熟的實(shí)驗(yàn)室管理系統(tǒng)(簡(jiǎn)稱(chēng)LIMS)。該實(shí)驗(yàn)室的現(xiàn)有業(yè)務(wù)流程如下圖:
圖1
LIMS是按照業(yè)務(wù)流程的順序記錄數(shù)據(jù)。LIMS讓實(shí)驗(yàn)室檢測(cè)工作流程化、規(guī)范化,提高了實(shí)驗(yàn)室的工作效率。但是LIMS中保持的有價(jià)值的數(shù)據(jù)沒(méi)有被充分挖掘、有效利用。
在接收樣品的過(guò)程中,收集的數(shù)據(jù)有樣品(指從流通市場(chǎng)中抽取的信息)的基本信息、被檢測(cè)人(指抽取樣品的場(chǎng)所企業(yè)/個(gè)人)信息以及生產(chǎn)企業(yè)(樣品生產(chǎn)企業(yè))信息。實(shí)驗(yàn)任務(wù)制定中確定的商品類(lèi)別中的檢測(cè)項(xiàng)目(包括判斷標(biāo)準(zhǔn)、檢測(cè)依據(jù)以及技術(shù)指標(biāo))信息。實(shí)驗(yàn)室檢測(cè)人員檢測(cè)出的檢測(cè)結(jié)果。
根據(jù)對(duì)實(shí)驗(yàn)室流程的調(diào)研以及各部分人員的調(diào)查分析得到以下需求:①能夠?qū)崿F(xiàn)對(duì)某一類(lèi)商品的檢測(cè)數(shù)據(jù)進(jìn)行分析。②對(duì)某一生產(chǎn)企業(yè)的檢測(cè)數(shù)據(jù)進(jìn)行分析。③對(duì)某一被檢測(cè)人的檢測(cè)數(shù)據(jù)進(jìn)行分析。④對(duì)某一檢測(cè)項(xiàng)目的檢測(cè)數(shù)據(jù)進(jìn)行分析。⑤對(duì)整體樣品檢測(cè)數(shù)據(jù)的分析。因此數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)要從生產(chǎn)企業(yè)、檢測(cè)項(xiàng)目、樣品類(lèi)別、被檢測(cè)人和時(shí)間五個(gè)維度分析。時(shí)間維度有年和月兩個(gè)層次,包括樣品抽樣的時(shí)間和樣品生產(chǎn)的時(shí)間[5]。
概念模型的設(shè)計(jì)包含了兩個(gè)方面:一是界定系統(tǒng)的邊界;二是確定主題域及其內(nèi)容。概念模型設(shè)計(jì)主要確定每個(gè)決策主題與屬性以及主題之間的關(guān)系。結(jié)合食品的特性,依據(jù)實(shí)驗(yàn)室具體工作的需求可以容易地得到如下主題:樣品、商品類(lèi)別、生產(chǎn)企業(yè)、被監(jiān)測(cè)人、檢測(cè)項(xiàng)目[6-7]。
通過(guò)對(duì)食品安全檢測(cè)數(shù)據(jù)主題進(jìn)行分析,邏輯模型設(shè)計(jì)主要包括:①模型轉(zhuǎn)換;②粒度層次劃分;③關(guān)系模式定義和定義記錄系統(tǒng)。作為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中的重要環(huán)節(jié),邏輯模型直接展示用戶(hù)的具體需求,同時(shí)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的物理實(shí)施有著重要的指導(dǎo)作用。根據(jù)維度設(shè)計(jì),該數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型可以設(shè)計(jì)為以下形式:
食品檢測(cè)事實(shí)表包含了五個(gè)維度表,食品檢測(cè)數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù)。每個(gè)維度表通過(guò)一個(gè)關(guān)鍵字直接與事實(shí)表關(guān)聯(lián)。
通過(guò)在數(shù)據(jù)倉(cāng)庫(kù)中實(shí)現(xiàn)食品安全檢測(cè)數(shù)據(jù)的邏輯模型,成功建立了數(shù)據(jù)倉(cāng)庫(kù)的物理模型,而數(shù)據(jù)倉(cāng)庫(kù)中的維表與事實(shí)表對(duì)應(yīng)的索引可以依據(jù)前面邏輯模型設(shè)計(jì)出的各種數(shù)據(jù)表的存儲(chǔ)結(jié)構(gòu)。下圖給出了模型中部分邏輯模型與物理模型的對(duì)應(yīng)關(guān)系。
圖2
以數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)的食品安全檢測(cè)數(shù)據(jù)分析預(yù)警,將作為風(fēng)險(xiǎn)信息中最為基礎(chǔ)和關(guān)鍵的一環(huán),也會(huì)從側(cè)面加強(qiáng)與完善整個(gè)食品安全監(jiān)管系統(tǒng),從而保障人民的食品安全,因此數(shù)據(jù)倉(cāng)庫(kù)在食品安全方面的應(yīng)用也得到了更多的研究與重視。本文所設(shè)計(jì)的流通環(huán)節(jié)食品安全檢測(cè)數(shù)據(jù)倉(cāng)庫(kù)模型就是對(duì)這一技術(shù)的具體研究。基于食品安全檢測(cè)數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)模型的建立,主要服務(wù)于食品監(jiān)管部門(mén)以及實(shí)驗(yàn)室決策人員。進(jìn)一步為食品安全預(yù)警分析提供了支持。
[1]王海明,鄭培,潘海虹.食品安全風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警系統(tǒng)研究[J].中國(guó)衛(wèi)生監(jiān)督雜志,2010(6):12-15.
[2]李雄飛,杜欽生,吳昊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:機(jī)械工業(yè)出版社,2013.
[3]郭曙超,龔方,昃向君,等.食品安全檢測(cè)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用于研究[J].食品研究與開(kāi)發(fā),2013,34(17):125-128.
[4]何玉潔,張俊超.數(shù)據(jù)倉(cāng)庫(kù)與OLAP實(shí)踐教程[M].北京:清華大學(xué)出版社,2008.
[5]宋國(guó)杰,楊冬青,林子雨,等.實(shí)時(shí)主動(dòng)數(shù)據(jù)倉(cāng)庫(kù)的概念、問(wèn)題及應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2007.
[6]Guo Shuchao,Gong Fang,Ze Xiangjun.Applied Study on Food Test Data Warehouse Technology[J].Food Research and Development,2013,34(17):125-128.
[7]Song Guojie,Yang Dongqing,Lin Ziyu et al.Concept,Issues and Applications of Real Time Active Data Warehouse[J].Journal of Computer Research and Development,2007,44(z3).