米春橋, 彭小寧, 米允龍, 趙嫦花
(1.懷化學院,湖南懷化 418000;2.武陵山片區(qū)生態(tài)農業(yè)智能控制技術湖南省重點實驗室,湖南懷化 418000)
農業(yè)大數(shù)據(jù)技術研究現(xiàn)狀與發(fā)展趨勢
米春橋1,2, 彭小寧1,2, 米允龍1,2, 趙嫦花1,2
(1.懷化學院,湖南懷化 418000;2.武陵山片區(qū)生態(tài)農業(yè)智能控制技術湖南省重點實驗室,湖南懷化 418000)
分析了農業(yè)大數(shù)據(jù)清洗技術、尺度轉換技術、融合技術、關聯(lián)分析與預測技術、可視化技術及具體應用等方面的研究現(xiàn)狀與發(fā)展動態(tài),從分布式并行算法、時空插值、本體理論、背景挖掘、時空制圖等方面對農業(yè)大數(shù)據(jù)相關技術的發(fā)展趨勢進行了分析與展望。研究結果對促進大數(shù)據(jù)技術與農業(yè)信息科學交叉發(fā)展及建立農業(yè)大數(shù)據(jù)基礎技術體系具有參考價值。
農業(yè)大數(shù)據(jù)技術;研究現(xiàn)狀;發(fā)展趨勢
農業(yè)大數(shù)據(jù)是融合了農業(yè)地域性、季節(jié)性、多樣性、周期性及作物本身特性等特征后產生的來源廣泛、類型多樣、結構復雜、具有潛在價值并難以應用傳統(tǒng)方法處理和分析的數(shù)據(jù)集合。當前農業(yè)生產各環(huán)節(jié)的數(shù)據(jù)量日益增多,基于數(shù)據(jù)分析的農業(yè)業(yè)務需求也越來越多,但與農業(yè)業(yè)務特點相結合的比較成熟的農業(yè)大數(shù)據(jù)分析技術還很缺乏。因此,有必要對農業(yè)大數(shù)據(jù)相關技術的發(fā)展狀況進行分析,以促進農業(yè)大數(shù)據(jù)基礎技術體系的建立與發(fā)展。
1.1 農業(yè)大數(shù)據(jù)清洗技術研究分析 數(shù)據(jù)清洗指發(fā)現(xiàn)并糾正數(shù)據(jù)中可識別的錯誤,是一個減少錯誤和不一致性、解決對象識別的過程,主要利用有關技術如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預定義的數(shù)據(jù)清洗規(guī)則將臟數(shù)據(jù)轉化成滿足數(shù)據(jù)質量要求的數(shù)據(jù)。相關研究可以分為2大類:一是傳統(tǒng)的數(shù)據(jù)量較小的情況下數(shù)據(jù)清洗方法的研究[1],按實現(xiàn)方式可分為4種:①手工實現(xiàn)方式,即用人工來檢測所有的錯誤并改正;②程序實現(xiàn)方式,通過編寫專門的應用程序檢測、改正錯誤;③某類特定應用領域的問題,如根據(jù)概率統(tǒng)計學原理查找數(shù)值異常的記錄;④與特定應用領域無關的數(shù)據(jù)清洗,這一部分的研究主要集中于重復記錄的檢測、刪除。然而,當面對大數(shù)據(jù)時,傳統(tǒng)的清洗方法需要作相應的改變才能適應。二是大數(shù)據(jù)環(huán)境下數(shù)據(jù)清洗方法的探索,如云計算環(huán)境下大數(shù)據(jù)重復記錄清洗算法研究[2],大數(shù)據(jù)環(huán)境下缺失信息處理方法研究[3],大數(shù)據(jù)環(huán)境下數(shù)據(jù)清洗基本框架模型及其局限性分析[4]等,目前這部分的研究仍處于初期探索階段,尤其未見與農業(yè)領域大數(shù)據(jù)清洗相關的研究報道。因此,針對特定農業(yè)問題而構建一個快速獲取干凈、完備數(shù)據(jù)集的清洗方法流程已變得尤為重要與緊迫。
1.2 農業(yè)大數(shù)據(jù)尺度轉換技術研究分析 農業(yè)大數(shù)據(jù)的突出特點是時空特性顯著,當前國內外主要是利用時空插值方法進行農業(yè)點源數(shù)據(jù)的尺度轉換,相關研究可分為2類:一是將普通Kriging方法進行改造與時空擴展[5],然后用于各類要素的時空插值實踐中,典型的研究如降雨量時空分析[6]、溫度時空預測[7]等,這類方法具有簡單易用的特點,但難以勝任對特定領域業(yè)務特色的突顯,如對作物種植災害脅迫的農事物候性的有效描述就很難直接用此類方法做到。二是采用編程語言如R語言自主建立相關時空協(xié)方差函數(shù)模型進行時空變異建模及插值分析[8],目前主要有2種時空協(xié)方差函數(shù)建模方法:一種是可分離型的模型[9],即通過將空間協(xié)方差函數(shù)與時間協(xié)方差函數(shù)相加或相乘得到,這類模型構建簡易,但卻分割了時空間的相關信息;另一種是不可分離型的模型[10],這類模型善于有效描述時空變量的時空變異結構信息,已成為時空插值研究的主要方向,但由于其構建十分復雜,在高效實現(xiàn)方面仍然是一個難點,當前還缺乏較成熟的研究成果,尤其是與具體業(yè)務領域的結合應用成果更少。建立集成農業(yè)地域性與物候性的時空一體化插值模型對大量的農業(yè)點源數(shù)據(jù)進行尺度轉換與提升是當前急需解決的問題。
1.3 多源農業(yè)大數(shù)據(jù)融合技術研究分析 多源數(shù)據(jù)融合是將多種來源的多個觀測數(shù)據(jù),在一定準則下進行自動分析處理與綜合集成,獲得單個或單類數(shù)據(jù)無法獲得的有價值的綜合信息[11]。國內外相關研究可分為2類:一是語法層次的數(shù)據(jù)集成研究,包括數(shù)據(jù)格式轉換方法、基于元數(shù)據(jù)的數(shù)據(jù)集成方法、基于網(wǎng)絡協(xié)議標準的數(shù)據(jù)互操作技術等[12],但這類傳統(tǒng)的基于語法層次的數(shù)據(jù)集成技術難以適應農業(yè)時空數(shù)據(jù)的異構性、分布性、增長性、變化性等特點。二是語義層次的數(shù)據(jù)融合研究,它具有擴展性好、適應動態(tài)信息源、支持語義級信息共享等優(yōu)點[13],是當前數(shù)據(jù)集成、共享及互操作的高級發(fā)展階段。本體是實現(xiàn)語義融合集成的良好途徑[14],而目前國內外關于農業(yè)本體[15]的研究仍處于初級階段,相關的探索如聯(lián)合國糧食及農業(yè)組織(FAO)已構造了漁業(yè)本體、食品安全領域本體和食物、營養(yǎng)與農業(yè)的本體3個領域的原始本體[16],也有學者對基于本體的農業(yè)災害應急處置領域知識表示[17]與應急信息資源目錄體系構建[18]、基于本體的農業(yè)知識建模[19]等進行了相關的探索,但缺乏成熟的應用成果,尤其缺少面向農業(yè)時空大數(shù)據(jù)融合的本體建模探索與研究。
1.4 農業(yè)大數(shù)據(jù)關聯(lián)分析與預測技術研究分析 農業(yè)大數(shù)據(jù)來源廣泛、類型多樣、結構復雜,應用關聯(lián)分析可以很好地挖掘農業(yè)大數(shù)據(jù)的潛在價值。關聯(lián)分析又稱關聯(lián)挖掘,是在大量數(shù)據(jù)集中發(fā)現(xiàn)頻繁模式、關聯(lián)性、相關性或因果結構等特征的一種實用分析方法,從而描述某些現(xiàn)象同時出現(xiàn)的規(guī)律和模式。當前相關的研究可分為2類:第一類是關于經典關聯(lián)分析算法的研究,如有研究指出原Apriori 算法有2個致命的瓶頸[20]:其一,算法在執(zhí)行時將會多次不斷地掃描整個事務數(shù)據(jù)庫,對于規(guī)模較大的數(shù)據(jù)集來講,算法時間過長;其二,原算法將會產生大規(guī)模的候選項集,隨著候選項集的不斷增大,對計算機的內存空間要求不斷提高。因此,后續(xù)發(fā)展中許多研究者提出了很多對原算法的改進算法。第二類是在云計算環(huán)境下,不少學者致力于把關聯(lián)規(guī)則與云計算結合起來,以促進關聯(lián)分析在大數(shù)據(jù)時代的發(fā)展,相關的研究如基于Boolean 矩陣和Hadoop 的高效Apriori算法實現(xiàn)[21],結合FP-tree與MapReduce提出MFIM 算法來挖掘頻繁項集的研究[22],大數(shù)據(jù)環(huán)境下否定關聯(lián)規(guī)則算法的研究[23]等。這些研究都在一定程度上改善了關聯(lián)分析的效率,但都未與具體的領域業(yè)務相結合,尤其少見關于農業(yè)大數(shù)據(jù)關聯(lián)分析的研究報道。而如何在農業(yè)大數(shù)據(jù)中立足農業(yè)數(shù)據(jù)的時空特點,建立適合農業(yè)實踐應用需求的農業(yè)大數(shù)據(jù)時空關聯(lián)分析與預測方法及技術,從而有效揭示農業(yè)現(xiàn)象背后所隱藏的關聯(lián)因素與潛在規(guī)律,是當前急需解決的重要難題。
1.5 農業(yè)大數(shù)據(jù)時空可視化技術研究分析 在當前大數(shù)據(jù)時代,時空可視化已經成為時空分析和知識發(fā)現(xiàn)過程中不可缺少的重要環(huán)節(jié),它是將相關時空現(xiàn)象在空間維和屬性維上的變化隨時間維以交互式的圖形圖像方式表達出來,便于用戶了解復雜時空現(xiàn)象的發(fā)展過程,分析其變化規(guī)律,把握其發(fā)展趨勢[24]。相關研究主要可以分為2類:一是靜態(tài)時空可視化方法研究,如時間符號法、時間注記法、對比地圖法、變化地圖法、運動線法、時間統(tǒng)計圖法和時間圖形地圖法[25]等,典型的研究如通過擴張符號法和結構符號法來表示不同時間數(shù)量和質量屬性的變化,通過定位地圖表示法表示制圖區(qū)域呈周期性變化的地理現(xiàn)象,如溫度、降水和風向的年變化[24]等。二是動態(tài)時空可視化方法研究,如以時間為主線所有變化按時間先后順序作為事件序列存儲的時空數(shù)據(jù)表達方法[26]。借助動畫技術展示地理數(shù)據(jù)時間維的動態(tài)地圖表達方法[27]等。具體應用方面,Yahoo Tracker、時間墻模型、主題河流模型(Theme River)等都是基于時間維度的可視化表達方法[28]。為提高動態(tài)地圖的認知效率,有學者還提出了交互式時間圖例、自定義動畫內容篩選、時空數(shù)掘聚合和時空插值漸變4種優(yōu)化方法[24]。當前,直接應用于農業(yè)大數(shù)據(jù)時空可視化的技術研究還很缺乏,這些相關研究可為農業(yè)大數(shù)據(jù)時空可視化分析奠定良好的基礎。
1.6 農業(yè)大數(shù)據(jù)應用研究分析 大數(shù)據(jù)在農業(yè)中的應用目前較多見的為基于大數(shù)據(jù)的農業(yè)災害時空分析,相關研究主要可以分為2類:一是基于空間和時間頻率統(tǒng)計分析的常見氣象災害時空描述性分析,典型的研究如高溫日數(shù)時空變化分析[29]、霜凍時空分布特征分析[30]等。二是基于致災因子指數(shù)的具體作物災害空間分布與年際變化特征分析,典型的研究如基于相對濕潤指數(shù)的季節(jié)性干旱時空分布特征分析[31]、基于農業(yè)干旱參考指數(shù)的玉米干旱時空變化分析[32]等。這2類研究都在一定程度上揭示了相關災害的空間分布特征和時間變化規(guī)律,但是其普遍思路都是把空間和時間分割開來分別統(tǒng)計建模分析,缺乏對空間和時間的統(tǒng)籌考慮及集成化的模型支撐,不利于揭示災害的時空內在規(guī)律性。另外,也有部分學者對農業(yè)大數(shù)據(jù)的理論框架進行了探索性的研究,如:孫忠富等[33]結合農業(yè)特點,分析了大數(shù)據(jù)在農業(yè)上的需求、主要應用領域及其在智慧農業(yè)中的關鍵地位;宋長青等[34]對高等農業(yè)院校農業(yè)大數(shù)據(jù)研究現(xiàn)狀及發(fā)展思路進行了分析,指出農業(yè)大數(shù)據(jù)可促進農業(yè)生產環(huán)節(jié)更精準、產品流通更有序、科技推廣更高效、管理決策更科學;李秀峰等[35]對大數(shù)據(jù)時代包括農業(yè)大數(shù)據(jù)智能處理技術、農業(yè)大數(shù)據(jù)決策本體技術、農業(yè)信息化云服務人機交互技術的農業(yè)信息服務技術創(chuàng)新進行了論述。這些研究對加快大數(shù)據(jù)在農業(yè)中的應用具有很好的促進作用。
未來,隨著IT技術本身的發(fā)展及農業(yè)信息化水平的不斷提高,農業(yè)大數(shù)據(jù)技術的發(fā)展呈現(xiàn)出多種需求趨勢。在數(shù)據(jù)處理方面,數(shù)據(jù)量越來越大,因此急需在關注農業(yè)數(shù)據(jù)自身特點的前提下,針對農業(yè)數(shù)據(jù)差異性設計高效率分布式并行計算的農業(yè)大數(shù)據(jù)清洗技術;在數(shù)據(jù)尺度轉換方面,需要結合農業(yè)大數(shù)據(jù)的地域特征(空間性)與物候特征(時間性),研究建立結合農業(yè)地域性與物候性的時空一體化插值模型,實現(xiàn)適合農業(yè)領域的點源大數(shù)據(jù)的尺度提升;在數(shù)據(jù)融合方面,需要基于農業(yè)行業(yè)標準、農業(yè)信息處理規(guī)范、農業(yè)專家知識等相關標準,研究建立基于本體的多源農業(yè)大數(shù)據(jù)融合模型,實現(xiàn)多源異構農業(yè)大數(shù)據(jù)語義層次的融合集成;在關聯(lián)分析與預測方面,需要立足農業(yè)大數(shù)據(jù)本身的特點,研究基于背景挖掘的農業(yè)大數(shù)據(jù)關聯(lián)分析與預測技術,為充分全面理解不同時間、不同地區(qū)、不同要素農業(yè)現(xiàn)象的共性及個性化特征提供技術手段;在可視化分析方面,需要研究建立農業(yè)大數(shù)據(jù)時空制圖可視化技術,包括用于揭示特定階段農業(yè)現(xiàn)象空間分布特征的對比地圖法、變化地圖法等靜態(tài)時空可視化技術,用于揭示長時間農業(yè)現(xiàn)象時空擴散與變遷規(guī)律的時空數(shù)據(jù)聚合與漸變動態(tài)可視化技術,從時空角度對農業(yè)問題進行多角度靜、動態(tài)可視化分析;在具體應用方面,需要將農業(yè)大數(shù)據(jù)基礎分析技術與農業(yè)數(shù)據(jù)本身特征(如時空性較強等)及具體分析任務、目的相結合,形成農業(yè)大數(shù)據(jù)基礎技術與農業(yè)生產實踐相互促進的良好發(fā)展局面。
農業(yè)相關業(yè)務的形成機理和時空演化過程十分復雜,農業(yè)大數(shù)據(jù)具有顯著的多源、多類、多量、多維、多時態(tài)、多空間、多主題、多結構等特征,因此,農業(yè)大數(shù)據(jù)技術必須與農業(yè)業(yè)務相結合才具有實用性,農業(yè)大數(shù)據(jù)技術的發(fā)展必須體現(xiàn)農業(yè)特色才具有生命力。該研究對農業(yè)大數(shù)據(jù)清洗技術、尺度轉換技術、融合技術、關聯(lián)分析與預測技術、可視化技術及具體應用等方面的研究現(xiàn)狀、動態(tài)及趨勢進行了分析與展望,對促進農業(yè)大數(shù)據(jù)技術發(fā)展及建立農業(yè)大數(shù)據(jù)基礎技術體系具有較大的參考價值。
[1] 郭志懋,周傲英.數(shù)據(jù)質量和數(shù)據(jù)清洗研究綜述[J].軟件學報,2002,13(11):2076 -2082.
[2] ZHANG F,XUE H F,XU D S,et al.Big data cleaning algorithms in cloud computing[J].International journal of online engineering,2013,9(3):77-81.
[3] 姜麟,米允龍,王添.大數(shù)據(jù)下不完備信息系統(tǒng)近似空間的并行算法[J].計算機工程與應用,2014,50(15):101-106.
[4] 蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識服務的數(shù)據(jù)清洗研究[J].圖書與情報,2013 (5):16-21.
[5] 徐愛萍,胡力,舒紅.空間克里金插值的時空擴展與實現(xiàn)[J].計算機應用,2011,31(1):273-276.
[6] COWPERTWAIT P S P.A spatial-temporal point process model of rainfall for the Thames catchment,UK[J].Journal of hydronautics,2006,330(3/4):586-595.
[7] IM H K,RATHOUZ P J,FREDERICK J E.Space-time modeling of 20 years of daily air temperature in the Chicago metropolitan region[J].Environmetrics,2009,20(5):494-511.
[8] 李莎,舒紅,徐正全.利用時空Kriging進行氣溫插值研究[J].武漢大學學報(信息科學版),2012,37(2):237-241.
[9] 李莎,舒紅,董林.基于時空變異函數(shù)的Kriging插值及實現(xiàn)[J].計算機工程與應用,2011,47(23):25-26,38.
[10] 李莎,舒紅,徐正全.東北三省月降水量的時空克里金插值研究[J].水文,2011,31(3):31-35.
[11] 顧穎,戚建國,倪深海,等.多源信息同化融合技術在旱情評價中的應用[J].人民黃河,2014,36(5):41-44.
[12] 曹彥波.基于本體的資源環(huán)境空間信息集成與共享技術研究[D].昆明:云南師范大學,2006.
[13] 王艷妮,劉剛.地質災害領域本體的研究與應用[J].地理與地理信息科學,2011,27(6):36-40.
[14] 張曉祥.大數(shù)據(jù)時代的空間分析[J].武漢大學學報(信息科學版),2014,39(6):655-659.
[15] 錢平,鄭業(yè)魯.農業(yè)本體論研究與應用[M].北京:中國農業(yè)科學技術出版社,2006.
[16] SINI M,SALOKHE G,PARDY C,et al.Ontology-based navigation of bibliographic metadata:Example from the food,nutrition and agriculture[C]//Proceedings of the international conference on the semantic web and digital libraries.Rome,Italy:[s.n],2007:64-76.
[17]肖花,劉春年.基于本體的農業(yè)災害應急處置領域知識表示研究[J].安徽農業(yè)科學,2011,39(27):16612-16614.
[18] 肖花,劉春年.基于本體的農業(yè)災害應急信息資源目錄體系構建研究[J].安徽農業(yè)科學,2011,39(24):15147-15149.
[19] XIE N F.Research on agricultural ontology and fusion rules based knowledge fusion framework[J].Agri Sc Techno,2012,13(12):2638-2641.
[20] 陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2006.
[21] YU H L,WEN J,WANG H M,et al.An improved apriori algorithm based on the boolean matrix and hadoop[J].Procedia engineering,2011,15(1):1827-1831.
[22] HE B.The algorithm of mining frequent itemsets based on MapReduce[J]//Proceedings of international conference on soft computing techniques and engineering application,2014,250:529-534.
[23] 米允龍,姜麟,米春橋.MapReduce 環(huán)境下的否定粗糙關聯(lián)規(guī)則算法[J].計算機集成制造系統(tǒng),2014,20(11):2893-2903.
[24] 艾波.時空數(shù)據(jù)可視化方法研究[D].青島:山東科技大學,2011.
[25] HORNSBY K,EGENHOFER M J.Qualitative representation of change[C]//HIRTLE S C,FRANK A U.Spatial information theory:A theoretical basis for GIS.Berlin:Springer,1997:15-33.
[26] 馬榮華.地理空間認知與GIS空間數(shù)據(jù)組織研究[D].南京:南京大學,2002.
[27] 李霖,苗蕾.時間動態(tài)地圖模型[J].武漢大學學報(信息科學版),2004,29(6):484-487.
[28] 桑鵬,唐新明,艾波,等.RSS新聞事件的多維描述與時空可視化方法[J].地球信息科學學報,2014,16(3):341-348.
[29] 雷楊娜,龔道溢,張自銀,等.中國夏季高溫日數(shù)時空變化及其環(huán)流背景[J].地理研究,2009,28(3):653-662.
[30] 張龍,尹憲志,付雙喜,等.甘肅省霜凍時空分布特征及防御措施[J].現(xiàn)代農業(yè)科技,2015(1):248-250.
[31] 王明田,王翔,黃晚華,等.基于相對濕潤度指數(shù)的西南地區(qū)季節(jié)性干旱時空分布特征[J].農業(yè)工程學報,2012,28(19):85-92.
[32] 劉宗元,張建平,羅紅霞,等.基于農業(yè)干旱參考指數(shù)的西南地區(qū)玉米干旱時空變化分析[J].農業(yè)工程學報,2014,30(2):105-115.
[33] 孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農業(yè)中研究與應用展望[J].中國農業(yè)科技導報,2013,15(6):63-71.
[34] 宋長青,高明秀,周虎.高等農業(yè)院校農業(yè)大數(shù)據(jù)研究現(xiàn)狀及發(fā)展思路[J].中國農業(yè)教育,2014(5):16-20.
[35] 李秀峰,陳守合,郭雷風.大數(shù)據(jù)時代農業(yè)信息服務的技術創(chuàng)新[J].中國農業(yè)科技導報,2014,16(4):10-15.
Research Status and Dvelopment Trend of Agriculture Big Data Technology
MI Chun-qiao1,2,PENG Xiao-ning1,2,MI Yun-long1,2et al
(1.Huaihua University,Huaihua,Hunan 418000; 2.Key Laboratory of Intelligent Control Technology for Wuling-Mountain Ecological Agriculture in Hunan Province,Huaihua,Hunan 418000)
The research status of agriculture big data cleaning technology,scale conversion technology,fusion technology,correlation analysis and prediction technology,visualization technology and concrete applications were analyzed.The development trends were also analyzed from the aspects of distributed parallel algorithm,spatial and temporal interpolation,ontology theory,background mining,spatial and temporal mapping.It has important reference significance in promoting the cross development of big data technology and agriculture information science and the establishment of agriculture big data basic analysis technology system.
Agriculture big data technology; Research status; Development trend
國家自然科學基金項目(41301084)。
米春橋(1983- ),男,湖南懷化人,副教授,博士,從事地理信息系統(tǒng)與農業(yè)信息化技術研究。
2016-11-09
S 126
A
0517-6611(2016)34-0235-03