涂婕 羅震鈞 龐璋帆
摘 要:隨著各種計算機技術(shù)的廣泛應(yīng)用推動了大數(shù)據(jù)時代的到來。大數(shù)據(jù)時代對很多行業(yè)來說既是機遇也是挑戰(zhàn),在藥檢信息化發(fā)展過程中,同樣存在著大量的藥檢數(shù)據(jù)信息被閑置和數(shù)據(jù)利用率比較低的問題。如何合理利用這些數(shù)據(jù),并把這些閑散的數(shù)據(jù)統(tǒng)一起來,將“死”數(shù)據(jù)變“活”等等都是藥檢信息化管理需要考慮和解決的問題。文章基于科學檢驗精神中的嚴謹和創(chuàng)新方針來研究如何科學合理地應(yīng)用藥檢系統(tǒng)的大數(shù)據(jù),探討了藥檢系統(tǒng)大數(shù)據(jù)挖掘的重要意義,并展望了未來藥檢大數(shù)據(jù)挖掘的下一步研究方向。
關(guān)鍵詞:藥檢系統(tǒng);大數(shù)據(jù);云計算;數(shù)據(jù)挖掘
1 科學檢驗精神的提出
2011年12月中國食品藥品檢定研究院李云龍院長在全國藥品醫(yī)療器械檢驗檢測電視電話工作會議上提出了科學檢驗精神的實質(zhì)與內(nèi)涵為“為民、求是、嚴謹、創(chuàng)新”,其中創(chuàng)新就是用現(xiàn)代信息技術(shù)改造和提升檢驗工作。實際上就是用新的計算機技術(shù)與“三品一械”的檢驗檢測管理系統(tǒng)相結(jié)合,為高效、可靠、準確、標準化的管理打下基礎(chǔ),并建設(shè)中國藥檢數(shù)字化新時代。據(jù)此,本文根據(jù)藥檢系統(tǒng)的實際使用需要,以科學檢驗精神為指導方向,引入計算機的最新技術(shù),規(guī)劃一個藥檢云計算平臺,并在此基礎(chǔ)上研究藥檢大數(shù)據(jù)挖掘策略。
2 大數(shù)據(jù)與藥檢系統(tǒng)
2.1 大數(shù)據(jù)的概念
大數(shù)據(jù)是一種巨量數(shù)據(jù),是為了更經(jīng)濟更有效地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值而設(shè)計的新一代架構(gòu)和技術(shù),用之來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。面對如此海量的數(shù)據(jù),如果對其進行充分挖掘則可能得到的價值就會更大,創(chuàng)造出的效益將會更驚人。大數(shù)據(jù)具有4V特點,即:數(shù)量巨大,種類繁多,價值高,處理速度快。
在藥檢系統(tǒng)中,數(shù)據(jù)量也隨著藥檢業(yè)務(wù)范圍的擴大、項目也不斷地擴展。以湖北省藥檢院為例:該院在2011年以后年檢品量都突破1萬批,檢品信息還附加的有采購原材料信息、生產(chǎn)信息、企業(yè)資料信息、藥品流通信息、銷量信息、市場反應(yīng)信息及其它的關(guān)聯(lián)信息等,還有累積三十多年的檢驗檢測數(shù)據(jù),這樣的海量數(shù)據(jù)信息進行挖掘的意義是很大的。
2.2 基于藥檢云計算的大數(shù)據(jù)挖掘平臺
大量的藥檢數(shù)據(jù)信息需要一個存儲平臺,這個平臺就是藥檢云計算平臺,只有設(shè)計好一個平臺才能對采集到的藥檢大數(shù)據(jù)進行合理的利用。藥檢云計算平臺是藥檢大數(shù)據(jù)的載體,該平臺存儲了所有的藥檢所(院)的數(shù)據(jù)信息。它的功能 是獲取和存儲數(shù)據(jù),獲取數(shù)據(jù):一方面是從藥檢實驗室不斷獲得檢驗檢測數(shù)據(jù);另一方面從互聯(lián)網(wǎng)獲得與藥品食品等的相關(guān)數(shù)據(jù)或與生產(chǎn)、流通企業(yè)等的數(shù)據(jù)信息。存儲數(shù)據(jù)是依據(jù)統(tǒng)一的格式對采集的這些數(shù)據(jù)進行整理并存儲。有了藥檢云計算的平臺,就可以使用可靠的方法對平臺存儲的數(shù)據(jù)進行挖掘。數(shù)據(jù)挖掘又是一個比較繁瑣、復雜的工程,需要應(yīng)用多種智能算法進行運算,還要對挖掘出來的數(shù)據(jù)進行評價,反復迭代才能得到最優(yōu)的數(shù)據(jù),才會得到獲得最大的效益。
構(gòu)建的藥檢云計算應(yīng)該為兩部分:一部分是私有云,該部分的功能是從藥檢所(院)內(nèi)網(wǎng)實驗室系統(tǒng)中獲取各式各樣的檢驗檢測數(shù)據(jù)信息和以前服務(wù)器上累積的數(shù)據(jù)信息,通過內(nèi)網(wǎng)高速通道傳輸?shù)剿接性粕?,私有云是對?nèi)的非藥檢人員不能訪問;另一部分是公有云,該部分的功能則是從Internet上獲取與食品藥品等各種相關(guān)的信息。通過整合工具處理這兩部分數(shù)據(jù),構(gòu)成藥檢云計算數(shù)據(jù)中心。
3 藥檢大數(shù)據(jù)挖掘策略
藥檢云計算平臺將會隨著時間的推移存儲越來越多的數(shù)據(jù),這些數(shù)據(jù)需要進行深入地挖掘才能創(chuàng)造出巨大的經(jīng)濟和社會效益。對于藥檢系統(tǒng)來說,大數(shù)據(jù)的挖掘順序應(yīng)該是:首先,確定藥檢挖掘主題,如:挖掘的方向是涉及食品方面、還是藥品方面或者是其它;確定挖掘的范圍是醫(yī)療的、不良反應(yīng)的、還是面向社會的或者是僅局限于藥檢所(院)內(nèi)部的;確定其挖掘目的是評價性的、預測性的、還是關(guān)聯(lián)性的等。其次是對采集到的藥檢數(shù)據(jù)進行處理分析,該過程一般要借助挖掘工具處理,例如:IBM的Intelligent Miner、MS的Clementine、SAS的Enterprise Miner、Oracle的Darwin等。接著是藥檢數(shù)據(jù)挖掘模型的建立,在該過程中,先通過數(shù)據(jù)抽樣對部分數(shù)據(jù)進行選取;然后數(shù)據(jù)探索對數(shù)據(jù)趨勢、分布質(zhì)量等進行分析、統(tǒng)計、判斷,甚至還對一些數(shù)據(jù)進行修改,例如:適當加入新數(shù)據(jù)、修改變量參數(shù)等;最后通過經(jīng)典數(shù)據(jù)挖掘算法建立相應(yīng)的藥檢數(shù)據(jù)挖掘模型,這些算法主要有:C4.5、決策樹、最大期望、K-means、海量網(wǎng)頁爬蟲等。最后是對建立的藥檢模型評價,當一個模型建立后,則要通過實踐的使用對模型進行評價,當模型與實際結(jié)果有出入時則需要回到藥檢模型建立的過程中對相關(guān)的模型修改,在此過程中需要通過合適智能算法可以對模型進行評價,如:蟻群算法、文化算法、免疫算法、遺傳算法、神經(jīng)網(wǎng)絡(luò)等,這些算法都有智能學習的功能,當發(fā)現(xiàn)問題時可以自我調(diào)節(jié)并重新找到最優(yōu)解。通過這樣的挖掘過程可以提取到藥檢大數(shù)據(jù)的重要信息,這對藥檢系統(tǒng)的檢驗檢測有重要意義,如:食藥安全預警機制、食藥安全問題模型預測、藥品安全信息模型等等。
4 結(jié)束語
文章以科學檢驗精神為指導方向,結(jié)合計算機最新技術(shù)用以推進藥檢信息化未來發(fā)展的思路與理念,并在此基礎(chǔ)上介紹了大數(shù)據(jù)的概念,同時規(guī)劃了基于藥檢云計算的大數(shù)據(jù)挖掘平臺,并在此基礎(chǔ)上提出了大數(shù)據(jù)挖掘的策略。在未來的挖掘中需要對藥檢大數(shù)據(jù)采集的準確性、安全性、價值性進行分析,用以保證采集到的數(shù)據(jù)信息是可靠的。
作者簡介:涂婕(1983-),女,湖北武漢人,圖書管理員,湖北省食品藥品監(jiān)督檢驗研究院情報信息中心科員。
羅震鈞(1985-),男,河南漯河人,助理工程師,武漢理工大學計算機學院在職博士研究生。
龐璋帆(1982-),男,湖北武漢人,湖北省食品藥品監(jiān)督檢驗研究院湖北藥品所科員。endprint