賈 楠,汪志波,王金棒,洪群業(yè),王 銳,馮偉華,張仕華,劉亞麗,鄭 路,鄭新章,邱紀青
中國煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)楓楊街2 號 450001
大數(shù)據(jù)是以容量大、類型多、增長速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合。由于互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,人類社會已進入大數(shù)據(jù)時代。隨著數(shù)據(jù)資源日益積累,數(shù)據(jù)已成為重要的基礎(chǔ)性戰(zhàn)略資源,數(shù)據(jù)的價值和數(shù)據(jù)管理的重要性成為研究熱點。為落實國家大數(shù)據(jù)戰(zhàn)略,推進創(chuàng)新型行業(yè)建設(shè),2018 年煙草行業(yè)啟動實施了煙草科研大數(shù)據(jù)重大專項,以推進煙草行業(yè)科研數(shù)據(jù)資源整合和開放共享,充分發(fā)揮科研數(shù)據(jù)基礎(chǔ)資源作用和創(chuàng)新引擎作用,加快科研大數(shù)據(jù)在科技創(chuàng)新、科技決策等領(lǐng)域中的應(yīng)用,提升科技創(chuàng)新效能。因此,統(tǒng)籌煙草科研數(shù)據(jù)資源規(guī)劃、加強煙草科研數(shù)據(jù)資源管理是開展煙草科研大數(shù)據(jù)工作的關(guān)鍵。數(shù)據(jù)資源體系建設(shè)主要以信息管理學(xué)、圖書館學(xué)等領(lǐng)域的信息資源規(guī)劃理論為基礎(chǔ)[1],利用企業(yè)或組織業(yè)務(wù)數(shù)據(jù)為對象,科學(xué)統(tǒng)籌信息資源分布,從而推動信息資源充分共享和有效利用,為業(yè)務(wù)處理與管理決策提供支撐。為此,通過對國內(nèi)外數(shù)據(jù)資源體系研究現(xiàn)狀進行分析,結(jié)合煙草行業(yè)現(xiàn)有科研數(shù)據(jù)資源情況,基于信息資源規(guī)劃理論構(gòu)建了煙草科研大數(shù)據(jù)資源體系,以期為煙草科研大數(shù)據(jù)資源建設(shè)與應(yīng)用提供基礎(chǔ)支撐。
近年來國外學(xué)者在跨國企業(yè)信息資源戰(zhàn)略規(guī)劃[2]、信息資源規(guī)劃與企業(yè)業(yè)務(wù)目標(biāo)關(guān)系[3]、信息資源戰(zhàn)略規(guī)劃概念及演進[4-5]、企業(yè)和政府中信息資源規(guī)劃及作用[6]等方面已開展了許多研究,并積累了豐富經(jīng)驗。此外,2014 年高德納咨詢公司(Gartner)發(fā)布的《預(yù)測2015:大數(shù)據(jù)挑戰(zhàn)從技術(shù)轉(zhuǎn)向組織》研究報告認為,對大數(shù)據(jù)的關(guān)注應(yīng)從技術(shù)研發(fā)轉(zhuǎn)向組織應(yīng)對,組織的注意力必須轉(zhuǎn)向信息管理。如果無法證明其價值或不能對已有信息管理流程進行創(chuàng)新,60%的大數(shù)據(jù)項目將無法實施[7]。因此,在大數(shù)據(jù)時代,統(tǒng)籌規(guī)劃與科學(xué)管理大數(shù)據(jù)資源至關(guān)重要。
1986 年,高復(fù)先[8]率先在國內(nèi)提出了信息資源規(guī)劃概念,即在總體數(shù)據(jù)規(guī)劃過程中實現(xiàn)數(shù)據(jù)管理標(biāo)準(zhǔn)化,并在集成化的信息系統(tǒng)構(gòu)建中發(fā)揮作用。以此為基礎(chǔ),國內(nèi)許多學(xué)者對信息資源規(guī)劃開展了深入研究。高復(fù)先[8]根據(jù)政府部門實施信息資源規(guī)劃的需求,最早提出了數(shù)據(jù)規(guī)劃視角理論;朱曉峰[9]在數(shù)據(jù)規(guī)劃視角理論的基礎(chǔ)上,提出了業(yè)務(wù)流程集成視角理論;裴雷等[10]拓寬了對信息資源規(guī)劃的研究范圍,通過引入價值觀、環(huán)境等要素,提出了多層次系統(tǒng)視角理論。近年來,在國家基礎(chǔ)研究數(shù)據(jù)[11]、國土資源[12]、醫(yī)療健康[13]、水利[14]、水運[15]、水環(huán)境監(jiān)測[16]和蘋果產(chǎn)業(yè)[17]等領(lǐng)域也相繼開展了數(shù)據(jù)資源體系的研究和應(yīng)用。利用3 種視角理論科學(xué)規(guī)劃信息資源,可有效應(yīng)對信息孤島問題,有助于優(yōu)化政務(wù)流程、推動陽光政府建設(shè)、提高政府信息共享程度、提升公共服務(wù)能力[18];推動企業(yè)信息化[19],規(guī)范表達用戶需求,規(guī)劃穩(wěn)定的數(shù)據(jù)模型[20],建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),實現(xiàn)科學(xué)決策,提高工作效率。
煙草農(nóng)工商領(lǐng)域產(chǎn)生的與科研活動相關(guān)的數(shù)據(jù)均屬于煙草科研數(shù)據(jù)資源。采用問卷調(diào)查、實地走訪、專題座談等形式,對煙草工商企業(yè)、科研單位以及行業(yè)外相關(guān)單位進行了煙草科研數(shù)據(jù)資源專題調(diào)研。結(jié)果顯示,煙草科研數(shù)據(jù)資源覆蓋煙草育種、煙葉種植到卷煙生產(chǎn)和銷售的全部流程,數(shù)據(jù)涉及煙草農(nóng)業(yè)、化學(xué)、工藝、香精香料、基因、質(zhì)量檢測等眾多學(xué)科,并以相關(guān)數(shù)據(jù)為基礎(chǔ)建立了大量專用數(shù)據(jù)庫系統(tǒng)和應(yīng)用平臺,部分煙草企業(yè)還購買了第三方資源數(shù)據(jù)庫[21]。
1.3.1 煙草科研數(shù)據(jù)資源特點
(1)種類豐富。煙草農(nóng)業(yè)領(lǐng)域主要涉及種質(zhì)資源、育種(品種)、栽培、病蟲害防治、土水肥、煙葉采收、烘烤和調(diào)制、煙葉質(zhì)量等數(shù)據(jù);工業(yè)領(lǐng)域包括煙葉復(fù)烤、卷煙配方和產(chǎn)品設(shè)計、制絲生產(chǎn)、卷接包、香精香料及添加劑、煙草制品檢測分析等數(shù)據(jù);商業(yè)方面包含品牌培育、市場營銷、卷煙真?zhèn)舞b別等數(shù)據(jù)。在煙草科研過程中還產(chǎn)生大量項目申報、成果評價、標(biāo)準(zhǔn)、專利、論文、論著等數(shù)據(jù)。
(2)聯(lián)系密切。煙草行業(yè)經(jīng)過30 多年的發(fā)展,整個產(chǎn)業(yè)鏈產(chǎn)生并積累了大量與科研相關(guān)的數(shù)據(jù),這些數(shù)據(jù)具有一定連續(xù)性且存在相關(guān)性,其內(nèi)在關(guān)系需要經(jīng)過數(shù)據(jù)處理才能有效利用。
(3)類型多樣。與煙草科研相關(guān)的數(shù)據(jù)資源,涉及生產(chǎn)過程、科學(xué)實驗、科研觀測和統(tǒng)計、科技文獻等,既有傳統(tǒng)數(shù)據(jù)庫中存儲的結(jié)構(gòu)化數(shù)據(jù),也有圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)+等技術(shù)的發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)呈增長趨勢。
1.3.2 煙草科研數(shù)據(jù)資源存在問題
(1)缺乏有效整合和匯交。煙草行業(yè)現(xiàn)有各類數(shù)據(jù)資源平臺眾多,數(shù)據(jù)產(chǎn)生時間和來源存在較大差別;數(shù)據(jù)完整性差,平臺規(guī)模、數(shù)據(jù)類型差異性大;數(shù)據(jù)資源平臺重復(fù)建設(shè),缺乏銜接和匯交,不利于數(shù)據(jù)整合和共享。
(2)分布分散尚未形成體系。煙草科研數(shù)據(jù)涵蓋農(nóng)工商科各領(lǐng)域,由于缺乏整體建設(shè)規(guī)劃,尚未形成規(guī)范的數(shù)據(jù)資源體系和知識網(wǎng)格,科研數(shù)據(jù)處于自成體系、分散孤立狀態(tài),無法有效利用數(shù)據(jù)資源。此外,由于部分數(shù)據(jù)涉及企業(yè)技術(shù)和商業(yè)利益,各單位對這些數(shù)據(jù)資源的使用和共享進行限制,無法實現(xiàn)數(shù)據(jù)信息的深入挖掘和全面分析,對數(shù)據(jù)分析的科學(xué)性、系統(tǒng)性和準(zhǔn)確性影響較大。
(3)缺乏統(tǒng)一的標(biāo)準(zhǔn)體系和整合框架。由于數(shù)據(jù)采集、保存、整合、共享等缺乏規(guī)范標(biāo)準(zhǔn)和系統(tǒng)規(guī)劃,無法實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化和統(tǒng)一化,以及形成有效數(shù)據(jù)管理和共享機制,從而影響數(shù)據(jù)資源的共享和利用。
(4)整合技術(shù)手段滯后。目前煙草科研數(shù)據(jù)資源大多局限于單個子集或單一資源類型建設(shè),缺乏對多源異構(gòu)數(shù)據(jù)的處理和融合,數(shù)據(jù)整合技術(shù)相對落后。
(5)綜合利用不足?,F(xiàn)有科研管理系統(tǒng)僅注重本單位科研業(yè)務(wù)流程處理,主要滿足日常業(yè)務(wù)管理需要,由于缺乏數(shù)據(jù)分析和深度挖掘,不斷積累的科研數(shù)據(jù)得不到充分利用。
構(gòu)建煙草科研大數(shù)據(jù)資源體系的關(guān)鍵在于形成統(tǒng)一的、具有共識性的資源主題分類,進而實現(xiàn)對數(shù)據(jù)資源系統(tǒng)的頂層設(shè)計,以解決長期以來存在的“信息孤島”問題,實現(xiàn)科研數(shù)據(jù)資源的有效整合和系統(tǒng)集成,推動科研數(shù)據(jù)的及時匯交和共享。此外,煙草行業(yè)同屬于農(nóng)業(yè)和加工制造業(yè),大量科研數(shù)據(jù)來源于煙葉種植、卷煙制造、市場管理和營銷、科研等全過程的各個業(yè)務(wù)環(huán)節(jié),通過對科研數(shù)據(jù)進行分類和梳理,以信息資源規(guī)劃方法為基礎(chǔ),構(gòu)建基于業(yè)務(wù)流程煙草科研大數(shù)據(jù)資源體系。
煙草科研數(shù)據(jù)資源分類以數(shù)據(jù)產(chǎn)生的業(yè)務(wù)流程為主線,借鑒了目前常用的中國圖書館分類法(CLC)、國際專利分類法(IPC)、歐洲專利分類體系(ECLA),同時也參考了中國煙草科技信息中心制定的《煙草專業(yè)資料分類表》。
針對煙草行業(yè)現(xiàn)有科研數(shù)據(jù)資源情況,構(gòu)建煙草科研大數(shù)據(jù)資源體系應(yīng)遵循以下原則:①科學(xué)合理性。應(yīng)從科研視角對數(shù)據(jù)進行分類,使數(shù)據(jù)資源體系符合煙草科研規(guī)律,具備科學(xué)合理性。②結(jié)構(gòu)完整性。盡可能囊括所有數(shù)據(jù)分類,使相同主題、專業(yè)與相關(guān)學(xué)科的各類數(shù)據(jù)重組,有機整合各類資源,保障體系結(jié)構(gòu)的完整性。③良好應(yīng)用性。應(yīng)實現(xiàn)體系結(jié)構(gòu)中各類別數(shù)據(jù)間的有機整合,發(fā)揮大數(shù)據(jù)的分析作用。④較好擴展性。隨著數(shù)據(jù)種類和數(shù)量的增加,應(yīng)不斷調(diào)整數(shù)據(jù)分類并為新的分類預(yù)留空間,不要因擴展而影響已有的分類體系結(jié)構(gòu)。⑤分類用詞規(guī)范性。系統(tǒng)結(jié)構(gòu)中各類用詞盡量采用通用術(shù)語和規(guī)范用語,簡潔表達類目的含義,突出類別的專指性,通過規(guī)范描述實現(xiàn)同級類目的排他性,保證煙草科研用語的規(guī)范性。
通過對煙草科研數(shù)據(jù)現(xiàn)狀進行分析,結(jié)合煙草資源體系構(gòu)建原則和數(shù)據(jù)分類方法,初步構(gòu)建了煙草科研大數(shù)據(jù)資源體系框架,見圖1。借鑒圖書分類法[22]、專利分類法和專業(yè)資料分類法,參考科技文獻和圖書資源[23-31],結(jié)合煙草學(xué)科理論知識,將煙草農(nóng)業(yè)、煙草工業(yè)、煙草商業(yè)列為煙草科研大數(shù)據(jù)資源體系的第一級分類;按照煙草及煙草制品完整的生命周期順序,即從育種開始,經(jīng)過育苗、移栽、生長至采收,調(diào)制后貯存、卷煙加工、成品營銷、煙草物流等順序,將第一級分類分別細分至第二級分類,并在各環(huán)節(jié)中補充基礎(chǔ)研究類目;同樣,將第二級分類細分至第三級和第四級?;诖?,構(gòu)建的煙草科研大數(shù)據(jù)資源體系主要覆蓋以下10 類數(shù)據(jù)。
(1)煙葉生產(chǎn)基礎(chǔ)數(shù)據(jù)。涉及煙草育種、煙葉生產(chǎn)生態(tài)、煙田分布、煙葉質(zhì)量、煙草病蟲害、煙草有害生物基礎(chǔ)信息、植煙土壤病原物檢測、煙葉生產(chǎn)基礎(chǔ)設(shè)施、煙農(nóng)合作社及煙農(nóng)情況等數(shù)據(jù)。
(2)煙葉生產(chǎn)技術(shù)管理數(shù)據(jù)。涉及產(chǎn)區(qū)植煙品種類型、特征特性、產(chǎn)質(zhì)量、栽培調(diào)制、推廣應(yīng)用;煙葉品質(zhì)、品種布局、煙葉常規(guī)化學(xué)成分、煙草品種與特征化合物關(guān)聯(lián);各省煙葉年產(chǎn)量及等級質(zhì)量、各工業(yè)公司片煙質(zhì)量;煙葉復(fù)烤等數(shù)據(jù)。
(3)煙葉原料數(shù)據(jù)。涉及煙葉原料外觀質(zhì)量分析,包括煙葉生產(chǎn)、加工、倉儲、品種、等級質(zhì)量、物理化學(xué)指標(biāo)、評吸等數(shù)據(jù)。
(4)煙草生物技術(shù)數(shù)據(jù)。涉及煙草分子生物學(xué)、煙草遺傳、煙草生物化學(xué)、煙草細胞生物學(xué)等相關(guān)科研數(shù)據(jù)。
(5)煙草微生物數(shù)據(jù)。涉及煙草農(nóng)業(yè)、煙草工業(yè)中與煙草相關(guān)的微生物遺傳、生理和分類等數(shù)據(jù)。
(6)卷煙加工數(shù)據(jù)。涉及卷煙配方設(shè)計、加工工藝、檢測與控制、卷煙半成品、成品質(zhì)量及分析數(shù)據(jù);生產(chǎn)設(shè)備運行、產(chǎn)品質(zhì)量檢驗等數(shù)據(jù)。
(7)再造煙葉數(shù)據(jù)。涉及再造煙葉加工工藝、理化指標(biāo)、致香成分、煙氣分析等數(shù)據(jù)。
(8)卷煙材料數(shù)據(jù)。涉及香精香料基礎(chǔ)成分和作用、卷煙輔材研發(fā)及應(yīng)用、質(zhì)量安全評價及工業(yè)可用性及包裝設(shè)計等數(shù)據(jù)。
(9)市場營銷數(shù)據(jù)。涉及品牌市場銷售、客戶、零售戶、消費者、物流配送、營銷創(chuàng)新、市場監(jiān)管等數(shù)據(jù)。
圖1 煙草科研大數(shù)據(jù)資源體系框架Fig.1 Framework of resource system for big data of tobacco scientific research
(10)科研基礎(chǔ)數(shù)據(jù)。涵蓋農(nóng)工商所有科研基礎(chǔ)數(shù)據(jù),涉及國內(nèi)外煙草專利、商標(biāo)、法律法規(guī);學(xué)術(shù)期刊論文、標(biāo)準(zhǔn)等;科研項目和科技成果;科研儀器設(shè)備、實驗室過程實驗;行業(yè)政策、法律法規(guī)、發(fā)展戰(zhàn)略、經(jīng)濟運行等數(shù)據(jù)。
從中國煙草科教網(wǎng)文獻數(shù)據(jù)庫中隨機選取45篇來自不同刊物、反映不同研究領(lǐng)域的煙草科技文獻,根據(jù)資源體系進行分類,所選文獻闡述的研究主題和領(lǐng)域均能較好地歸入體系中相應(yīng)的類目,從而驗證了該體系的合理性。
煙草科研大數(shù)據(jù)資源體系是煙草科研大數(shù)據(jù)建設(shè)的核心基礎(chǔ)。通過對煙草行業(yè)現(xiàn)有科研數(shù)據(jù)資源進行梳理,并充分考慮科研數(shù)據(jù)保存、整合、管理和共享等應(yīng)用需求,以信息資源規(guī)劃方法和理論為依據(jù),構(gòu)建了基于業(yè)務(wù)流程的煙草科研大數(shù)據(jù)資源體系。數(shù)據(jù)資源體系采用了4 級分類,主體反映的是科研數(shù)據(jù),同時涉及通過觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得并用于科學(xué)研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù),實現(xiàn)了科研數(shù)據(jù)的完整性。隨著煙草行業(yè)科技創(chuàng)新工作的深入開展,科研數(shù)據(jù)的種類和數(shù)量將持續(xù)增加,通過對資源體系進行適時修改和完善,可以避免數(shù)據(jù)擴展對體系結(jié)構(gòu)的嚴謹性和科學(xué)性產(chǎn)生影響。該體系的建立有助于加速推動煙草行業(yè)科研大數(shù)據(jù)環(huán)境的形成,對加強科研數(shù)據(jù)標(biāo)準(zhǔn)化管理、保障科研數(shù)據(jù)完整準(zhǔn)確、實現(xiàn)科研數(shù)據(jù)共享和循環(huán)利用等提供支撐。