高錄軍,劉 玲,張積慧,郝毫剛,李曉平,唐 軍,劉 雨,趙麗丹
(中國獸醫(yī)藥品監(jiān)察所,北京100081)
10.11751/ISSN.1002-1280.2017.10.09
獸藥大數(shù)據(jù)平臺的應(yīng)用架構(gòu)研究
高錄軍,劉 玲,張積慧,郝毫剛,李曉平,唐 軍,劉 雨,趙麗丹*
(中國獸醫(yī)藥品監(jiān)察所,北京100081)
獸藥大數(shù)據(jù)對獸藥監(jiān)管、獸藥行業(yè)健康發(fā)展以及疫病防控具有重要意義。針對現(xiàn)有的獸藥海量數(shù)據(jù)進(jìn)行大數(shù)據(jù)應(yīng)用研究,提出了獸藥大數(shù)據(jù)平臺的應(yīng)用方向和應(yīng)用架構(gòu),以期為獸藥大數(shù)據(jù)平臺的應(yīng)用發(fā)展提供參考。
獸藥;大數(shù)據(jù);應(yīng)用;模式
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算技術(shù)的迅猛發(fā)展,形成的海量數(shù)據(jù)對人類社會產(chǎn)生日益重大的影響。與此同時,數(shù)據(jù)也成為一種新的自然資源[1],亟待人們對其加以合理、高效、充分的利用,使之能夠給人們的生活工作帶來更大的效益和價值[2]。為了將數(shù)據(jù)轉(zhuǎn)化為知識,可以利用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術(shù)對數(shù)據(jù)進(jìn)行處理與分析,從而輔助相關(guān)機(jī)構(gòu)做出決策參考,提高決策能力、決策效率和決策準(zhǔn)確性[3]。但是,收集到的數(shù)據(jù)越來越多、數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜,一般的數(shù)據(jù)挖掘技術(shù)已經(jīng)不能滿足需要,這就使得“大數(shù)據(jù)”應(yīng)運(yùn)而生。相對數(shù)據(jù)挖掘而言,大數(shù)據(jù)的應(yīng)用不僅僅是數(shù)據(jù)量級的差別,也是對數(shù)據(jù)應(yīng)用層次的提升,不僅僅對傳統(tǒng)的規(guī)則數(shù)據(jù)進(jìn)行處理,同時,也對雜亂的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,從而對數(shù)據(jù)內(nèi)在的知識進(jìn)行獲取,從而支撐相關(guān)領(lǐng)域的預(yù)測、規(guī)劃和決策。
隨著獸藥信息化的不斷發(fā)展,國家獸藥產(chǎn)品追溯系統(tǒng)[4]、國家獸藥基礎(chǔ)信息查詢系統(tǒng)、各省級獸藥監(jiān)管平臺、獸藥實驗室管理系統(tǒng)、獸藥企業(yè)管理系統(tǒng)等獸藥信息系統(tǒng)的建設(shè),為獸藥行業(yè)提供了海量的數(shù)據(jù)和資源,為獸藥大數(shù)據(jù)的應(yīng)用奠定了基礎(chǔ)。因此,開展獸藥大數(shù)據(jù)平臺的應(yīng)用架構(gòu)研究能夠充分利用大量的獸藥信息化數(shù)據(jù),為獸藥信息化的深入發(fā)展和獸藥行業(yè)的健康發(fā)展提供有力支撐。
1.1 功能概述 獸藥大數(shù)據(jù)平臺建設(shè)以獸藥行業(yè)基本發(fā)展情況分析、獸藥行業(yè)發(fā)展趨勢分析、獸藥企業(yè)發(fā)展分析、獸藥行業(yè)預(yù)測分析等為主要功能。獸藥行業(yè)基本發(fā)展情況分析從獸藥生產(chǎn)、經(jīng)營、使用三個維度分析獸藥的生產(chǎn)規(guī)模、流通水平及使用情況。行業(yè)發(fā)展趨勢分析從獸藥行業(yè)產(chǎn)品結(jié)構(gòu)入手,分析現(xiàn)有獸藥及新獸藥研發(fā)的發(fā)展趨勢,同時根據(jù)獸藥結(jié)構(gòu),分析獸藥生產(chǎn)產(chǎn)能及產(chǎn)能分布情況,對產(chǎn)能進(jìn)行同比環(huán)比的分析,探明獸藥生產(chǎn)增長趨勢,及時根據(jù)產(chǎn)能數(shù)據(jù)變化,規(guī)避行業(yè)發(fā)展的風(fēng)險。獸藥企業(yè)發(fā)展分析通過大數(shù)據(jù),為企業(yè)提供分析報告,以幫助企業(yè)從各方面提升產(chǎn)品質(zhì)量、提高市場競爭力。獸藥行業(yè)預(yù)測分析通過大數(shù)據(jù)分析,對獸藥行業(yè)監(jiān)管、用藥安全及疾病預(yù)防方面提供預(yù)測分析。
1.2 基本功能
1.2.1 獸藥行業(yè)基本情況分析 獸藥行業(yè)基本情況分析包括獸藥生產(chǎn)企業(yè)分析、獸藥經(jīng)營企業(yè)分析、獸藥使用企業(yè)分析以及獸藥產(chǎn)品分析等。獸藥生產(chǎn)企業(yè)分析包括獸藥生產(chǎn)企業(yè)的數(shù)量及變化情況分析、區(qū)域企業(yè)數(shù)據(jù)及變化情況分析、企業(yè)規(guī)模分析(包括產(chǎn)值規(guī)模、資產(chǎn)規(guī)模、人員規(guī)模等)、經(jīng)濟(jì)效益分析。獸藥經(jīng)營企業(yè)分析包括獸藥經(jīng)營企業(yè)整體數(shù)據(jù)及變化情況分析、區(qū)域企業(yè)數(shù)量及變化情況分析。獸藥使用企業(yè)分析包括獸藥使用企業(yè)整體數(shù)量及變化情況分析,區(qū)域企業(yè)數(shù)量及變化情況分析。另外,同時三個維度進(jìn)行獸藥產(chǎn)品的深層次分析,包括獸藥進(jìn)出口情況、使用量變化、使用種類變化、區(qū)域使用情況等。
1.2.2 獸藥行業(yè)發(fā)展趨勢分析 獸藥行業(yè)發(fā)展趨勢分析主要包括獸藥產(chǎn)品結(jié)構(gòu)分析、獸藥產(chǎn)能數(shù)據(jù)分析及獸藥流通數(shù)據(jù)分析。獸藥產(chǎn)品結(jié)構(gòu)分析主要對不同種類和不同分類的獸藥進(jìn)行結(jié)構(gòu)分析,比如中藥、化藥、生物制品等不同藥品的適應(yīng)癥進(jìn)行分析,同時,對新獸藥研發(fā)情況進(jìn)行分析。獸藥產(chǎn)能數(shù)據(jù)分析主要根據(jù)獸藥分類信息,對各類藥品的產(chǎn)能分布及增長趨勢進(jìn)行分析,按照時間、區(qū)域等情況進(jìn)行分析,為行業(yè)投資提供依據(jù)。獸藥流通數(shù)據(jù)分析主要從市場容量、流通效率及流通覆蓋情況,分析行業(yè)整體獸藥流通情況,發(fā)現(xiàn)獸藥流通規(guī)律、有效規(guī)避獸藥流通風(fēng)險等。
1.2.3 獸藥企業(yè)發(fā)展分析 獸藥企業(yè)發(fā)展分析主要是通過獸藥大數(shù)據(jù),為企業(yè)提供宏觀及微觀分析報告,以幫助企業(yè)從各方面提升產(chǎn)品質(zhì)量、提高市場競爭力。包括獸藥產(chǎn)品結(jié)構(gòu)、市場覆蓋范圍、市場占有率、產(chǎn)品流通效率、銷售渠道、產(chǎn)品庫存、產(chǎn)品流向、企業(yè)預(yù)警及其它預(yù)測分析。
1.2.4 獸藥行業(yè)預(yù)測分析 通過獸藥大數(shù)據(jù)分析,對獸藥行業(yè)監(jiān)管、藥品用藥安全及疾病預(yù)防方面提供預(yù)測分析,為獸藥監(jiān)管和動物疾病防控提供決策參考。獸藥行業(yè)預(yù)測分析主要包括獸藥流通異常預(yù)警分析、過期獸藥預(yù)警分析和疾病預(yù)測分析等。獸藥流通異常預(yù)警分析主要根據(jù)大量獸藥流通數(shù)據(jù),通過同比、環(huán)比的方式,及時發(fā)現(xiàn)獸藥流通的異常狀況,及早發(fā)現(xiàn)獸藥流通的異常狀況。過期獸藥預(yù)警分析主要根據(jù)獸藥的生產(chǎn)日期及獸藥的流通數(shù)據(jù),及時對市場上的過期獸藥進(jìn)行事先預(yù)警,借助國家獸藥產(chǎn)品追溯碼信息,對過期獸藥進(jìn)行及時預(yù)警。疾病預(yù)測分析根據(jù)獸藥的生產(chǎn)數(shù)據(jù)、流通數(shù)據(jù)及獸藥使用數(shù)據(jù),對一定時間段之內(nèi)的疾病情況進(jìn)行分析;根據(jù)歷史同期用藥數(shù)據(jù),預(yù)測可能發(fā)生的疫情情況,并為相關(guān)單位提供預(yù)警報告。
1.3 功能結(jié)構(gòu) 根據(jù)獸藥大數(shù)據(jù)平臺相關(guān)功能,提出平臺功能結(jié)構(gòu)(圖1)。
2.1 數(shù)據(jù)源 獸藥大數(shù)據(jù)主要來源于獸藥信息相關(guān)的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)也稱作行數(shù)據(jù),通常為關(guān)系型數(shù)據(jù)庫中存儲的數(shù)據(jù),比如ORACLE、SqlServer等,是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。結(jié)構(gòu)化數(shù)據(jù)主要來源于國家獸藥產(chǎn)品追溯系統(tǒng)、國家獸藥基礎(chǔ)數(shù)據(jù)查詢系統(tǒng)、省級獸藥管理平臺等多個獸藥信息化系統(tǒng)及其他相關(guān)來源。其中,國家獸藥產(chǎn)品追溯系統(tǒng)獸藥追溯數(shù)據(jù)約500億條,國家獸藥基礎(chǔ)數(shù)據(jù)查詢系統(tǒng)數(shù)據(jù)約30萬條,省級獸藥管理平臺數(shù)據(jù)約10億條,以及其他獸藥信息系統(tǒng)的大量數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù)是相對于數(shù)據(jù)庫中嚴(yán)格的二維表結(jié)構(gòu)而言的,是一種標(biāo)記信息,比如XML等。半結(jié)構(gòu)化數(shù)據(jù)主要來源于國家獸藥產(chǎn)品追溯系統(tǒng)數(shù)據(jù)采集過程中所產(chǎn)生的XML文本信息等。
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、HTML、視頻信息等等。非結(jié)構(gòu)化數(shù)據(jù)主要來源于所有獸藥相關(guān)的文檔、中國獸藥信息網(wǎng)等網(wǎng)頁信息。
2.2 數(shù)據(jù)處理流程 按照大數(shù)據(jù)處理的一般流程[5],獸藥大數(shù)據(jù)平臺可以分為數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)解釋四個階段。
數(shù)據(jù)采集主要是通過傳感器、條碼識別、搜索引擎以及數(shù)據(jù)檢索工具等對數(shù)據(jù)源進(jìn)行獲取,從而獲取獸藥大數(shù)據(jù)平臺的基礎(chǔ)數(shù)據(jù)。數(shù)據(jù)處理主要是對采集的數(shù)據(jù)進(jìn)行關(guān)聯(lián)與聚合,對數(shù)據(jù)進(jìn)行清洗,從而產(chǎn)生可以信賴的數(shù)據(jù)。數(shù)據(jù)分析主要是通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計分析的工具與方法對數(shù)據(jù)進(jìn)行深層次的分析,從而形成一定的結(jié)論。數(shù)據(jù)解釋主要是對數(shù)據(jù)分析后的結(jié)果通過可視化展現(xiàn),能夠讓用戶快速理解結(jié)論。
按照大數(shù)據(jù)處理一般流程,獸藥大數(shù)據(jù)平臺的數(shù)據(jù)處理流程見圖2。
獸藥大數(shù)據(jù)平臺根據(jù)數(shù)據(jù)處理流程,其架構(gòu)共分為五個層次,自底向上分別為基礎(chǔ)層、數(shù)據(jù)源層、數(shù)據(jù)處理層、大數(shù)據(jù)層、應(yīng)用層。
基礎(chǔ)層為獸藥信息化及獸藥大數(shù)據(jù)平臺的物理設(shè)備支持,包括系統(tǒng)運(yùn)轉(zhuǎn)的服務(wù)器、數(shù)據(jù)庫、操作系統(tǒng)、網(wǎng)絡(luò)、中間件以及數(shù)據(jù)采集設(shè)備等。
數(shù)據(jù)源層主要為獸藥大數(shù)據(jù)平臺的基礎(chǔ)數(shù)據(jù)來源,包括結(jié)構(gòu)化數(shù)據(jù)(如國家獸藥產(chǎn)品追溯系統(tǒng)數(shù)據(jù)庫、國家獸藥基礎(chǔ)數(shù)據(jù)查詢數(shù)據(jù)庫等)、半結(jié)構(gòu)化數(shù)據(jù)(如國家獸藥產(chǎn)品追溯系統(tǒng)采集數(shù)據(jù)等)、非結(jié)構(gòu)化數(shù)據(jù)(如獸藥信息相關(guān)的文檔、圖片、視頻及網(wǎng)頁等)。
數(shù)據(jù)處理層主要是根據(jù)數(shù)據(jù)的結(jié)構(gòu)特征等按照大數(shù)據(jù)平臺設(shè)計開發(fā)適配器,對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、處理并最終存入大數(shù)據(jù)平臺的數(shù)據(jù)庫。
大數(shù)據(jù)層是獸藥大數(shù)據(jù)平臺的核心,可以采用MapReduce 分布式計算技術(shù)作為編程模型和計算框架,為系統(tǒng)提供高性能的分布式計算環(huán)境。大數(shù)據(jù)存儲可采用基于列存儲的非關(guān)系型數(shù)據(jù)庫Hbase,Hbase是一種建立在HDFS 之上、實時讀寫、高性能的非結(jié)構(gòu)化的分布式數(shù)據(jù)庫系統(tǒng)。
應(yīng)用層分為數(shù)據(jù)分析層和可視化層。數(shù)據(jù)分析層主要是通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計分析等工具和方法對相關(guān)數(shù)據(jù)進(jìn)行深入分析,形成分析結(jié)果??梢暬瘜邮菍⑾到y(tǒng)分析結(jié)果以可視化的形式予以展示,提供給用戶,為科學(xué)決策提供參考。
獸藥大數(shù)據(jù)平臺的架構(gòu)如圖3所示:
獸藥大數(shù)據(jù)平臺建設(shè)是獸藥管理和獸藥信息化發(fā)展的必然趨勢,獸藥大數(shù)據(jù)平臺的應(yīng)用架構(gòu)研究能夠充分利用海量獸藥數(shù)據(jù),將獸藥數(shù)據(jù)轉(zhuǎn)化為知識,能夠促進(jìn)獸藥監(jiān)管的便捷化和科學(xué)化,能夠促進(jìn)獸藥企業(yè)科學(xué)生產(chǎn),提高企業(yè)生產(chǎn)效率,為獸藥行業(yè)和獸藥企業(yè)的健康發(fā)展提供有力手段和有效支撐。同時,能夠幫助相關(guān)部門有效預(yù)判、預(yù)測動物疫病并提前做好充分準(zhǔn)備,為保障動物養(yǎng)殖安全和食品質(zhì)量安全起到積極的作用。
[1] 于艷華, 宋美娜. 大數(shù)據(jù)[J]. 中興通訊技術(shù), 2013(1): 57-60.
Yu Y H, SONG M N. Big data[J]. Zte Technology Journal, 2013(1):57-60.
[2] 劉智慧, 張泉靈. 大數(shù)據(jù)技術(shù)研究綜述[J]. 浙江大學(xué)學(xué)報, 2014, 48(6): 957-972.
Liu Z H, ZHANG L Q. Research overview of big data technology[J]. Journal of Zhejiang University, 2014, 48(6): 957-972.
[3] 熊忠陽. 面向商業(yè)智能的并行數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[D].重慶:重慶大學(xué),2004.
Xiong Z Y. Research on palallel data mining and application for business intelligence[D]. Chongqing: Chongqing University, 2004.
[4] 高錄軍, 劉業(yè)兵, 李曉平, 等. 國家獸藥追溯系統(tǒng)信息采集與處理技術(shù)的研究[J].中國獸藥雜志, 2014, 48(9): 53-56.
Gao L J, Liu Y B, Li X P,etal. Research on information acquisition and processing of national veterinary drug product traceability information system[J]. Chinese Journal of Veterinary Drug, 2014, 48(9): 53-56.
[5] 孟小峰, 慈 祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機(jī)研究與發(fā)展, 2013,50(1):146-169.
Meng X F, Ci X. Big data management: concepts, techniques and challenges[J]. Journal of Computer Research and Development, 2013,50(1): 146-169.
ResearchonApplicationFrameworkofBigDataPlatformforVeterinaryDrugs
GAO Lu-jun,LIU Ling,ZHANG Ji-hui,HAO Hao-gang,LI Xiao-ping,TANG Jun,LIU Yu,ZHAO Li-dan*
(ChinaInstituteofVeterinaryDrugControl,Beijing100081,China)
ZHAOLi-dan,E-mail:zhaolidan@ivdc.org.cn
The veterinary drug big data is in great significance towards the veterinary drug supervision, healthy development of the industry, and disease prevention and control. In this paper, the application direction and structure of the big data platform for veterinary drugs are put forward. This can provide a reference for the application and development of the big data platform for veterinary drugs.
veterinary drug;big data;application;mode
2017-07-26
A
1002-1280 (2017) 10-0062-06
S851.66
農(nóng)業(yè)部重大信息平臺構(gòu)建及運(yùn)維專項(2130104)
高錄軍,碩士,工程師,從事獸藥信息化建設(shè)及研究。
趙麗丹。E-mail: zhaolidan@ivdc.org.cn
(編輯:李文平)