趙 冰,毛克彪,蔡玉林,王 涵,孟祥金,袁紫晉
(1. 山東科技大學(xué)測(cè)繪科學(xué)與工程學(xué)院,青島266590;2. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,呼倫貝爾草原生態(tài)系統(tǒng)國(guó)家野外科學(xué)觀測(cè)研究站,北京100081;3. 湖南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院,長(zhǎng)沙410128;4. 重慶交通大學(xué),重慶400074;5. 山東建筑大學(xué)測(cè)繪地理信息學(xué)院,濟(jì)南250100)
據(jù)聯(lián)合國(guó)糧食及農(nóng)業(yè)組織估計(jì),到2050 年,全球人口將增長(zhǎng)30%以上,這意味著糧食增產(chǎn)規(guī)模必須達(dá)到70%[1]。而2018 年3 月以來,美國(guó)打響的中美貿(mào)易戰(zhàn)持續(xù)升級(jí),我國(guó)的農(nóng)業(yè)發(fā)展受到?jīng)_擊,面臨挑戰(zhàn)。農(nóng)業(yè)對(duì)國(guó)民經(jīng)濟(jì)的穩(wěn)定發(fā)展具有重要作用。據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2017 年末我國(guó)總?cè)丝跒?3.9 億,世界總?cè)丝诩s75 億,我國(guó)人口占世界總?cè)丝诘?8.5%。我國(guó)是個(gè)人口眾多的大國(guó),解決好吃飯問題,始終是治國(guó)理政的頭等大事[2]。然而,耕地流失[3]、農(nóng)業(yè)環(huán)境污染[4]、極端天氣頻發(fā)[5]、農(nóng)產(chǎn)品質(zhì)量安全等問題,制約著我國(guó)農(nóng)業(yè)發(fā)展。
2005 年以來,隨著物聯(lián)網(wǎng)、云技術(shù)、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,數(shù)據(jù)量增長(zhǎng)速度非??欤渲兴[含的信息也發(fā)生了質(zhì)的變化。數(shù)據(jù)量的爆炸式增長(zhǎng)極大地提高了挖掘分析的價(jià)值,傳統(tǒng)的數(shù)據(jù)庫(kù)和分析方法不能滿足新時(shí)代的需求,這極大拓展了數(shù)據(jù)挖掘產(chǎn)品的應(yīng)用范圍。大數(shù)據(jù)在這種背景下誕生,為海量數(shù)據(jù)分析提供了契機(jī)。大數(shù)據(jù)首先在金融、醫(yī)療、交通等領(lǐng)域發(fā)揮了巨大作用,IBM 公司投資160 億美元進(jìn)行30 多次與大數(shù)據(jù)相關(guān)的收購(gòu),使業(yè)績(jī)穩(wěn)定高速增長(zhǎng),2012 年,IBM 股價(jià)每股突破200 美元大關(guān),3 年內(nèi)翻3 番[6];2009 年谷歌通過對(duì)網(wǎng)絡(luò)檢索詞條挖掘分析成功預(yù)測(cè)了H1N1 在全美地區(qū)的傳播范圍,預(yù)測(cè)結(jié)果比傳統(tǒng)的疾控中心數(shù)據(jù)更加有效和及時(shí)[7];倫敦在2012 年奧運(yùn)會(huì)期間對(duì)地鐵、公交和社交網(wǎng)絡(luò)等方面數(shù)據(jù)實(shí)時(shí)采集,利用數(shù)據(jù)挖掘分析預(yù)判和控制交通情況,在道路使用率增加25%情況下保障了城市交通的井然有序。
由于農(nóng)業(yè)領(lǐng)域產(chǎn)品附加值不高等特殊性,大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域應(yīng)用發(fā)展相對(duì)較慢。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算的發(fā)展,全球?qū)Ш叫l(wèi)星系統(tǒng)、遙感、地理信息系統(tǒng)技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用,智慧農(nóng)業(yè)、精準(zhǔn)農(nóng)業(yè)、設(shè)施農(nóng)業(yè)的不斷實(shí)踐,農(nóng)業(yè)產(chǎn)業(yè)鏈中獲得的生命信息數(shù)據(jù)、環(huán)境信息數(shù)據(jù)、位置數(shù)據(jù)和農(nóng)產(chǎn)品儲(chǔ)藏運(yùn)輸數(shù)據(jù)以前所未有的速度增長(zhǎng)。人們開始意識(shí)到大數(shù)據(jù)應(yīng)用對(duì)農(nóng)業(yè)的重要性,大數(shù)據(jù)技術(shù)有助于加強(qiáng)農(nóng)業(yè)生產(chǎn)各部門的深度耦合作用,對(duì)于提高農(nóng)業(yè)生產(chǎn)效率、保障食品安全與產(chǎn)品質(zhì)量、促進(jìn)農(nóng)產(chǎn)品市場(chǎng)供需信息流通,推動(dòng)農(nóng)業(yè)優(yōu)質(zhì)高效可持續(xù)發(fā)展具有十分重大的意義。
自2010 年以來,農(nóng)業(yè)大數(shù)據(jù)的發(fā)展已經(jīng)引起了高度關(guān)注,以美國(guó)為首的發(fā)達(dá)國(guó)家起步較早。2012 年3 月,美國(guó)政府投資2 億美元以上,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破[8];2013 年,美國(guó)在第二次國(guó)家政府行動(dòng)方案的實(shí)踐中對(duì)data.gov 網(wǎng)站進(jìn)行改進(jìn),開放了農(nóng)業(yè)和營(yíng)養(yǎng)方面等政府?dāng)?shù)據(jù)供公眾下載使用;2013 年,英國(guó)在大數(shù)據(jù)研究上投資1.89 億英鎊,并啟動(dòng)了農(nóng)業(yè)技術(shù)戰(zhàn)略,利用大數(shù)據(jù)推動(dòng)農(nóng)業(yè)科技商業(yè)化。在學(xué)術(shù)研究層面,Morota 等[9]研究了大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法在精準(zhǔn)畜牧業(yè)中的作用,并分析了機(jī)器學(xué)習(xí)在動(dòng)物基因組預(yù)測(cè)、乳房炎檢測(cè)、圖像分析等中的應(yīng)用。Young 等[10]利用對(duì)遙感影像大數(shù)據(jù)的分析結(jié)合網(wǎng)頁(yè)爬蟲技術(shù),研究了美國(guó)Baltimore 市城市農(nóng)業(yè)試點(diǎn)的情況。Frelat 等[11]對(duì)撒哈拉以南地區(qū)超過13 萬(wàn)個(gè)小農(nóng)家庭的土地利用和糧食生產(chǎn)數(shù)據(jù)進(jìn)行研究,得出了糧食供應(yīng)變化的驅(qū)動(dòng)因素,并提出了改善糧食安全、消除貧困現(xiàn)狀的建議。
我國(guó)也對(duì)農(nóng)業(yè)大數(shù)據(jù)的發(fā)展給予了重視,2015 年12 月,農(nóng)業(yè)部印發(fā)了《關(guān)于推進(jìn)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實(shí)施意見》;2018 年9 月,國(guó)務(wù)院印發(fā)了《鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018—2022 年)》,明確提出要實(shí)施數(shù)字鄉(xiāng)村戰(zhàn)略,深化大數(shù)據(jù)的創(chuàng)新應(yīng)用。在具體研究實(shí)施方面,“渤海糧倉(cāng)”大數(shù)據(jù)平臺(tái)[12]、國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心[13]、農(nóng)業(yè)大數(shù)據(jù)應(yīng)用云平臺(tái)、全國(guó)基層農(nóng)技推廣信息化平臺(tái)[14]等農(nóng)業(yè)大數(shù)據(jù)平臺(tái)集成了不同層面的農(nóng)業(yè)數(shù)據(jù)為農(nóng)業(yè)生產(chǎn)和研究服務(wù)。國(guó)內(nèi)眾多學(xué)者也對(duì)農(nóng)業(yè)大數(shù)據(jù)展開了研究。溫孚江[15]最早闡述了農(nóng)業(yè)大數(shù)據(jù)發(fā)展在政府、企業(yè)管理、學(xué)科發(fā)展等方面的重大戰(zhàn)略意義;孫忠富等[16]闡述了農(nóng)業(yè)大數(shù)據(jù)的內(nèi)涵及關(guān)鍵技術(shù)并分析了農(nóng)業(yè)大數(shù)據(jù)對(duì)智慧農(nóng)業(yè)的推動(dòng)力;王文生等[17]對(duì)農(nóng)業(yè)大數(shù)據(jù)的內(nèi)涵、獲取途徑、應(yīng)用現(xiàn)狀進(jìn)行了介紹,并對(duì)農(nóng)業(yè)大數(shù)據(jù)在精準(zhǔn)農(nóng)業(yè)技術(shù)體系、國(guó)家農(nóng)村綜合信息服務(wù)系統(tǒng)等5 個(gè)方面的應(yīng)用進(jìn)行了展望;王東杰等[18]針對(duì)農(nóng)業(yè)的開放共享問題的現(xiàn)狀及存在問題進(jìn)行了探討并提出了相應(yīng)建議。Yan M 等[19]人基于農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的多源數(shù)據(jù),對(duì)冬小麥生長(zhǎng)周期進(jìn)行判斷,提煉出了判斷農(nóng)業(yè)季節(jié)的關(guān)鍵指標(biāo)。顧軍林[20]利用農(nóng)業(yè)無人機(jī)平臺(tái)、無線傳輸裝置和地面站等收集的大數(shù)據(jù)基于Hadoop 框架進(jìn)行分析,對(duì)無人機(jī)的航線規(guī)劃、飛行控制和圖像處理取得了不錯(cuò)的效果。
國(guó)內(nèi)外學(xué)者發(fā)表了大量論文,對(duì)農(nóng)業(yè)大數(shù)據(jù)從數(shù)據(jù)源的獲取、數(shù)據(jù)的處理技術(shù)手段及應(yīng)用案例等不同角度進(jìn)行了研究,同時(shí)分析了農(nóng)業(yè)大數(shù)據(jù)的困境,設(shè)計(jì)了智能分析平臺(tái)等。文章對(duì)農(nóng)業(yè)大數(shù)據(jù)的基本概念進(jìn)行了簡(jiǎn)要剖析,從數(shù)據(jù)源、數(shù)據(jù)的處理技術(shù)以及數(shù)據(jù)應(yīng)用3 個(gè)維度,特別是應(yīng)用維度對(duì)國(guó)內(nèi)外農(nóng)業(yè)大數(shù)據(jù)的研究進(jìn)展進(jìn)行了著重討論與比對(duì),探討中國(guó)在發(fā)展農(nóng)業(yè)大數(shù)據(jù)中所面臨的問題并提出合理化建議,為農(nóng)業(yè)大數(shù)據(jù)的進(jìn)一步發(fā)展應(yīng)用提供參考,進(jìn)而推動(dòng)農(nóng)業(yè)大數(shù)據(jù)應(yīng)用的發(fā)展。
農(nóng)業(yè)大數(shù)據(jù)挖掘是指利用數(shù)據(jù)挖掘技術(shù)從海量的數(shù)據(jù)中提取潛在有用的信息為農(nóng)業(yè)服務(wù)的過程。農(nóng)業(yè)大數(shù)據(jù)的數(shù)據(jù)來源眾多、層次豐富,涉及農(nóng)產(chǎn)品生產(chǎn)、運(yùn)營(yíng)管理、市場(chǎng)流通等的方方面面,不僅包括種植業(yè)數(shù)據(jù)(糧食、蔬菜、經(jīng)濟(jì)作物、牧草、花卉等)、養(yǎng)殖業(yè)數(shù)據(jù)(家畜、家禽、水產(chǎn)等)、農(nóng)產(chǎn)品加工業(yè)等不同農(nóng)業(yè)生產(chǎn)部門的作業(yè)數(shù)據(jù),還包括農(nóng)資行業(yè)的農(nóng)業(yè)運(yùn)輸機(jī)械、化肥、農(nóng)藥、種子數(shù)據(jù)、農(nóng)業(yè)氣象數(shù)據(jù)、市場(chǎng)數(shù)據(jù)等。數(shù)據(jù)的格式不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括來自地面?zhèn)鞲衅鳌⑿l(wèi)星影像、無線射頻識(shí)別技術(shù)(Radio Frequency Identification,RFID)、各種智能終端等的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)范圍,包括本地市的生產(chǎn)流通的統(tǒng)計(jì)數(shù)據(jù)、農(nóng)業(yè)信息數(shù)據(jù),還包括國(guó)家層級(jí)以及借鑒的國(guó)外數(shù)據(jù)。不同來源、層次、級(jí)別、類型的數(shù)據(jù)共同構(gòu)成了農(nóng)業(yè)大數(shù)據(jù)的龐大數(shù)據(jù)集。農(nóng)業(yè)大數(shù)據(jù)的處理流程可以分為數(shù)據(jù)獲取、數(shù)據(jù)的預(yù)處理、內(nèi)存分析、智能數(shù)據(jù)分析、數(shù)據(jù)的可視化5 部分(圖1)。
圖1 農(nóng)業(yè)大數(shù)據(jù)挖掘分析框架Fig.1 Analysis framework of agricultural big data mining
農(nóng)業(yè)大數(shù)據(jù)不僅貫穿整個(gè)農(nóng)業(yè)生產(chǎn)過程,而且在農(nóng)業(yè)科研、市場(chǎng)運(yùn)營(yíng)等的交互中不斷累積,包括音頻、視頻、圖片、視頻、辦公文檔、查詢文件、文檔、文件、鏈接信息等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)數(shù)據(jù)源的不同,可以把農(nóng)業(yè)大數(shù)據(jù)分為4 類,即歷史數(shù)據(jù)庫(kù)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、網(wǎng)絡(luò)媒體數(shù)據(jù)、農(nóng)業(yè)遙感數(shù)據(jù)。
(1)歷史數(shù)據(jù)庫(kù)數(shù)據(jù):歷史數(shù)據(jù)庫(kù)數(shù)據(jù)是指農(nóng)業(yè)生產(chǎn)過程中大量通過人力手動(dòng)輸入存儲(chǔ)的數(shù)據(jù),如統(tǒng)計(jì)數(shù)據(jù)、電子化交易數(shù)據(jù)等。歷史數(shù)據(jù)庫(kù)以二維表結(jié)構(gòu)為數(shù)據(jù)模型,利用關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問,數(shù)據(jù)結(jié)構(gòu)統(tǒng)一,存儲(chǔ)在靜態(tài)數(shù)據(jù)庫(kù)和數(shù)據(jù)集中。歷史數(shù)據(jù)庫(kù)為農(nóng)業(yè)生產(chǎn)中的農(nóng)產(chǎn)品健康情況監(jiān)測(cè)、災(zāi)害預(yù)測(cè)等提供了寶貴的參考資料。
(2)物聯(lián)網(wǎng)數(shù)據(jù):各種物聯(lián)網(wǎng)設(shè)備,如各種傳感器、無線射頻識(shí)別儀器、智能采集終端以及GPS 在農(nóng)業(yè)中的應(yīng)用,實(shí)現(xiàn)了對(duì)海量農(nóng)作物/畜禽的長(zhǎng)勢(shì)數(shù)據(jù)、環(huán)境數(shù)據(jù)信息的實(shí)時(shí)自動(dòng)獲取。物聯(lián)網(wǎng)數(shù)據(jù)對(duì)農(nóng)業(yè)生產(chǎn)的自動(dòng)化管理提供了強(qiáng)勁的推動(dòng)力。
(3)網(wǎng)絡(luò)媒體數(shù)據(jù):截至2018 年6 月,我國(guó)網(wǎng)民規(guī)模為8.02 億,手機(jī)網(wǎng)民規(guī)模達(dá)7.88 億,居全球第一[21]。Google、百度等搜索引擎,微博、微信等各種社交網(wǎng)絡(luò)平臺(tái),農(nóng)業(yè)知識(shí)服務(wù)網(wǎng)站、論壇,電子商務(wù)等各種網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)庫(kù)中都存儲(chǔ)著大量涉農(nóng)數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)的繁雜化、信息的碎片化、真實(shí)性等特征也對(duì)處理分析模型提出了更高的要求。
(4)農(nóng)業(yè)遙感數(shù)據(jù):遙感技術(shù)具有獲取信息量大、無接觸破壞,數(shù)據(jù)獲取快捷簡(jiǎn)便、客觀等優(yōu)點(diǎn),而且多種分辨率的遙感數(shù)據(jù)能夠滿足不同的農(nóng)業(yè)作業(yè)需求,已成為農(nóng)業(yè)大數(shù)據(jù)的重要來源之一。
農(nóng)業(yè)生產(chǎn)管理生物量多、生物狀態(tài)差異明顯、易受環(huán)境變化和人為因素的影響,傳統(tǒng)的人工實(shí)地采集方法不能滿足現(xiàn)代農(nóng)業(yè)對(duì)詳細(xì)、實(shí)時(shí)、大量的數(shù)據(jù)需求。目前農(nóng)業(yè)數(shù)據(jù)的采集更加自動(dòng)化和智能化。采集技術(shù)主要有以地面?zhèn)鞲衅骱瓦b感衛(wèi)星為代表的感知技術(shù)、射頻識(shí)別技術(shù)、智能移動(dòng)終端數(shù)據(jù)采集等。同時(shí),大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)爬蟲、開放應(yīng)用程序編程接口(Application Program Interface,API)等網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)為農(nóng)業(yè)大數(shù)據(jù)的采集提供了新穎、高效的技術(shù)手段。
由于采集的原始數(shù)據(jù)中包含噪聲數(shù)據(jù)、缺失和不一致數(shù)據(jù),并且隨著數(shù)據(jù)量增加,噪聲也在累積,不僅降低數(shù)據(jù)分析建模的執(zhí)行效率,甚至干擾挖掘分析的結(jié)果[8]。
弗蘭茲·卡夫卡出生于布拉格,是一個(gè)猶太商人家中的長(zhǎng)子。從小喜愛戲劇、文學(xué),最初學(xué)習(xí)文學(xué)、化學(xué),后轉(zhuǎn)學(xué)法律,獲得博士學(xué)位以后一直在保險(xiǎn)公司工作。盡管一生中有多次訂婚史,但卻終生未娶。于41歲因肺癆過世。
數(shù)據(jù)的預(yù)處理就是在保證原有的數(shù)據(jù)語(yǔ)義、信息量的基礎(chǔ)上減少數(shù)據(jù)分析時(shí)噪聲數(shù)據(jù)的干擾,將數(shù)據(jù)格式規(guī)范化,達(dá)到更理想的挖掘效果。數(shù)據(jù)的預(yù)處理主要包括:(1)數(shù)據(jù)清洗,去除數(shù)據(jù)采集時(shí)的人工錯(cuò)誤數(shù)據(jù)、冗余數(shù)據(jù),估計(jì)和填充不完整數(shù)據(jù)、光滑噪聲數(shù)據(jù);(2)數(shù)據(jù)集成,將多個(gè)數(shù)據(jù)源的數(shù)據(jù)有機(jī)集中在一致的數(shù)據(jù)存儲(chǔ)中;(3)歸約,將數(shù)據(jù)集進(jìn)行簡(jiǎn)化或壓縮,使原始數(shù)據(jù)體積減小,提高處理效率;(4)數(shù)據(jù)變換,不同來源、不同級(jí)別的數(shù)據(jù)粒度、規(guī)范各異,需要將數(shù)據(jù)格式統(tǒng)一化、標(biāo)準(zhǔn)化、結(jié)構(gòu)化,便于數(shù)據(jù)挖掘算法的執(zhí)行。
農(nóng)業(yè)大數(shù)據(jù)存儲(chǔ)既面臨著數(shù)據(jù)量大、數(shù)據(jù)類型繁雜帶來的存儲(chǔ)難題,又需要滿足上層接口對(duì)于數(shù)據(jù)查詢、處理分析的高吞吐、強(qiáng)擴(kuò)展的需求。在大量的數(shù)據(jù)存儲(chǔ)需求和動(dòng)態(tài)數(shù)據(jù)流不斷涌入挑戰(zhàn)下,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)檢索速度緩慢,維護(hù)艱難,非關(guān)系型的數(shù)據(jù)庫(kù)技術(shù)NoSQL 的出現(xiàn)有效解決了這一難題。NoSQL 提供了4 類存儲(chǔ)模式,即Key Value存儲(chǔ)模型(如Riak)、基于Column Family(列分組)存儲(chǔ)模型(如谷歌的BigTabel)、基于文檔模型(如MongoDB)和基于圖模型的模式(如Neo4j),應(yīng)對(duì)不同的存儲(chǔ)要求[22]。
傳統(tǒng)的農(nóng)業(yè)數(shù)據(jù)分析采用標(biāo)準(zhǔn)的統(tǒng)計(jì)方法,如回歸分析、方差分析和主成分分析[23]。這些方法通常為選取樣本數(shù)據(jù)進(jìn)行擬合分析,樣本數(shù)據(jù)雖然具有代表性,但不能精確反映全體數(shù)據(jù)的變化情況,而且受樣本數(shù)量和分析方法的限制,分析方法以簡(jiǎn)單的線性分析求解因果變化為主,無法發(fā)掘目前數(shù)據(jù)密集環(huán)境下多源異構(gòu)、高維的農(nóng)業(yè)數(shù)據(jù)間蘊(yùn)藏的相關(guān)關(guān)系。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘分析更加注重從海量數(shù)據(jù)中尋找相關(guān)關(guān)系和進(jìn)行預(yù)測(cè)分析,與傳統(tǒng)的小樣本統(tǒng)計(jì)分析有著本質(zhì)的不同[24]。
針對(duì)不同的數(shù)據(jù)格式和處理時(shí)效等要求,催生了不同的農(nóng)業(yè)大數(shù)據(jù)處理工具:對(duì)靜態(tài)數(shù)據(jù)集處理的批處理工具(如Mahout、Dryad 等)、對(duì)實(shí)時(shí)數(shù)據(jù)流處理的流處理工具(如Storm、StreamCloud 等)、易于以圖表或表格的形式查看、比較和分析數(shù)據(jù)的交互式分析工具(如Google’s Dremel 等)[25]。數(shù)據(jù)分析的主要算法依賴機(jī)器學(xué)習(xí),與傳統(tǒng)的機(jī)器學(xué)習(xí)的區(qū)別是融合了大數(shù)據(jù)處理的分布式處理和并行運(yùn)算技術(shù)等理念方法,并且在學(xué)習(xí)模型及算法不斷改進(jìn)創(chuàng)新過程中滿足現(xiàn)實(shí)應(yīng)用場(chǎng)景的需求。機(jī)器學(xué)習(xí)算法是通過重復(fù)的執(zhí)行訓(xùn)練和測(cè)試過程構(gòu)造算法,發(fā)現(xiàn)數(shù)據(jù)間的規(guī)律模式,以實(shí)現(xiàn)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換。大數(shù)據(jù)機(jī)器學(xué)習(xí)能夠應(yīng)對(duì)大數(shù)據(jù)的海量、高維、高稀疏、時(shí)效性要求高等處理難點(diǎn),借助Hadoop 和Spark 等并行計(jì)算系統(tǒng),利用音頻、視頻等數(shù)據(jù)的融合技術(shù),在線學(xué)習(xí)和流式學(xué)習(xí)的實(shí)時(shí)流數(shù)據(jù)處理技術(shù)解決大數(shù)據(jù)機(jī)器學(xué)習(xí)的難題。機(jī)器學(xué)習(xí)算法憑借超強(qiáng)的數(shù)據(jù)處理能力和泛化能力,在農(nóng)業(yè)大數(shù)據(jù)的分析和處理中占據(jù)重要地位,已應(yīng)用于諸多方面,如氣象預(yù)測(cè)[26-28]、食品質(zhì)量安全[29-30]、農(nóng)業(yè)防災(zāi)減災(zāi)[31]、小麥農(nóng)時(shí)判別[20]、雜草識(shí)別[9]等。
農(nóng)業(yè)領(lǐng)域與傳統(tǒng)的經(jīng)濟(jì)等領(lǐng)域不一樣,具有地理區(qū)域信息、關(guān)聯(lián)領(lǐng)域多、影響因素多、數(shù)據(jù)采集復(fù)雜、決策管理困難等特點(diǎn)[32-33],傳統(tǒng)大數(shù)據(jù)數(shù)學(xué)模型與數(shù)據(jù)挖掘方法分析處理具有龐雜數(shù)據(jù)格式的海量農(nóng)業(yè)數(shù)據(jù)存在缺陷。數(shù)據(jù)可視化技術(shù)將重要的信息特征壓縮于圖與表中,通過圖形化技術(shù)簡(jiǎn)化數(shù)據(jù)關(guān)系,降低復(fù)雜數(shù)據(jù)的理解難度,提升人類對(duì)數(shù)據(jù)潛在內(nèi)容的感知[33-34],從而在無序的、龐雜的、不相干的海量農(nóng)業(yè)數(shù)據(jù)中抽取更完整、更真實(shí)的信息。數(shù)據(jù)可視化已成為實(shí)現(xiàn)大數(shù)據(jù)分析統(tǒng)計(jì)和數(shù)據(jù)分析成果展示的重要基礎(chǔ)手段[33,35]。分析結(jié)果可視化呈現(xiàn)是驅(qū)動(dòng)大數(shù)據(jù)實(shí)現(xiàn)價(jià)值的強(qiáng)有力武器[6]。數(shù)據(jù)挖掘結(jié)果的可視化實(shí)現(xiàn)了對(duì)動(dòng)植物疫病的動(dòng)態(tài)可視化診斷、農(nóng)情可視化監(jiān)測(cè)、趨勢(shì)預(yù)測(cè)信息可視化查詢,數(shù)據(jù)分析結(jié)果更加直觀,易用性更高。常見的可視化技術(shù)有原位分析、標(biāo)簽云、歷史流、空間信息流、不確定性分析等[36]。
農(nóng)業(yè)生產(chǎn)具有類型多樣,涵蓋區(qū)域廣泛,影響因子復(fù)雜等特征,而且具有時(shí)空變異的特點(diǎn),是適合大數(shù)據(jù)實(shí)現(xiàn)應(yīng)用價(jià)值的領(lǐng)域,農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)技術(shù)的應(yīng)用是十分重要和必要的。該文選取國(guó)內(nèi)外4 個(gè)應(yīng)用案例說明農(nóng)業(yè)大數(shù)據(jù)在不同領(lǐng)域中的應(yīng)用。
3.1.1 農(nóng)業(yè)大數(shù)據(jù)應(yīng)用于精準(zhǔn)種植和產(chǎn)量預(yù)測(cè)
孟山都公司對(duì)農(nóng)業(yè)大數(shù)據(jù)的應(yīng)用探索開始較早,已成為種業(yè)的領(lǐng)先者。1901 年成立的美國(guó)孟山都公司在2012 年和2013 年收購(gòu)了大數(shù)據(jù)精密種植公司Precision Planting 和天氣大數(shù)據(jù)公司The Climate Corporation,助力農(nóng)業(yè)大數(shù)據(jù)的研究。孟山都公司將收集的海量土壤、種子、氣象相關(guān)數(shù)據(jù)存入數(shù)據(jù)庫(kù)系統(tǒng),利用大數(shù)據(jù)分析,確定了不同土壤類型在不同的氣候條件下最適宜的種子品種。孟山都公司為農(nóng)民實(shí)地測(cè)土選種,幫助農(nóng)民在同一地塊根據(jù)不同的土壤情況、作物品種進(jìn)行不同深度、間距的差異化種植和灌溉,以達(dá)到最佳種植效果。另外,孟山都公司利用降雨、氣溫、光照等氣象數(shù)據(jù)結(jié)合土壤數(shù)據(jù),為農(nóng)民提供作物產(chǎn)量預(yù)測(cè)服務(wù)。
食品安全事件具有突發(fā)性、群發(fā)性、危害大等特點(diǎn),食用農(nóng)產(chǎn)品加工、流通環(huán)節(jié)眾多,快速找出問題環(huán)節(jié)和流通范圍對(duì)保障消費(fèi)者的身體健康和生命安全尤為重要。印度CropIn 公司是一家為農(nóng)場(chǎng)生產(chǎn)和管理運(yùn)營(yíng)提供服務(wù)的農(nóng)業(yè)科技公司,該公司利用RFID 技術(shù)、智能傳感技術(shù)和二維條碼技術(shù)等多種技術(shù)對(duì)生產(chǎn)、流通、消費(fèi)環(huán)節(jié)的數(shù)據(jù)實(shí)時(shí)采集與監(jiān)控,建立了農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)。CropIn 為農(nóng)產(chǎn)品設(shè)置唯一的ID 標(biāo)識(shí),發(fā)生農(nóng)產(chǎn)品安全事故時(shí),通過ID 信息對(duì)采集的數(shù)據(jù)挖掘分析,快速追溯問題農(nóng)產(chǎn)品的污染源頭和流通范圍,可有效提升突發(fā)食品安全事件發(fā)現(xiàn)的時(shí)間效率和精準(zhǔn)程度,減小問題產(chǎn)品的危害程度。
3.2.1 農(nóng)業(yè)大數(shù)據(jù)應(yīng)用于測(cè)土配方施肥
吉林省是我國(guó)重要的糧食產(chǎn)地,也是用肥大省。吉林省從2004 年開始測(cè)土配方施肥工作,政府每年投資2 500 萬(wàn)元用于土壤屬性數(shù)據(jù)的采集,建立了龐大的土壤信息數(shù)據(jù)庫(kù)。豐富的土壤信息大數(shù)據(jù)讓涉農(nóng)企業(yè)為農(nóng)戶提供精準(zhǔn)營(yíng)銷成為可能。吉林省某公司借助政府發(fā)布的土壤數(shù)據(jù)建立了測(cè)土配方施肥專家系統(tǒng)。該系統(tǒng)通過農(nóng)戶撥打電話自動(dòng)定位,對(duì)所在地塊位置的土壤屬性數(shù)據(jù)分析,自動(dòng)生成施肥配方,幫助農(nóng)民科學(xué)施肥。僅2006 年,吉林省通過測(cè)土配方施肥減少肥料用量3.68 萬(wàn)t,增產(chǎn)糧食5.6 億kg[37]。土壤大數(shù)據(jù)的使用,實(shí)現(xiàn)了從源頭對(duì)化肥污染工作的治理,提高了企業(yè)的營(yíng)銷效率,也讓農(nóng)民從科學(xué)施肥中獲益。
3.2.2 農(nóng)業(yè)大數(shù)據(jù)輔助政府管理決策
農(nóng)業(yè)大數(shù)據(jù)體系龐大,不僅涵蓋農(nóng)產(chǎn)品生產(chǎn)、加工和市場(chǎng)銷售方面的內(nèi)容,還包括了農(nóng)業(yè)環(huán)境、氣象數(shù)據(jù)、資源等一系列和農(nóng)業(yè)相關(guān)、可以為農(nóng)業(yè)服務(wù)的數(shù)據(jù)。佳格天地通過環(huán)境和農(nóng)業(yè)大數(shù)據(jù)收集、處理、分析和數(shù)據(jù)可視化,提供環(huán)境和農(nóng)業(yè)解決方案的大數(shù)據(jù)[38]并將大量免費(fèi)開放的遙感、氣象等環(huán)境大數(shù)據(jù)用于大面積農(nóng)作物識(shí)別中。借助環(huán)境大數(shù)據(jù),佳格天地公司對(duì)各種經(jīng)濟(jì)作物、糧食作物進(jìn)行了識(shí)別計(jì)算,為政府調(diào)整優(yōu)化種植業(yè)產(chǎn)業(yè)結(jié)構(gòu)提供決策支持;對(duì)濰坊市23 萬(wàn)多個(gè)蔬菜大棚中的廢棄大棚進(jìn)行識(shí)別,為政府確定大棚種植的數(shù)量,準(zhǔn)確發(fā)放補(bǔ)貼提供可靠支持;對(duì)秸稈焚燒的地塊識(shí)別監(jiān)測(cè),為政府環(huán)境治理提供決策支持。農(nóng)業(yè)大數(shù)據(jù)應(yīng)用于政府工作過程,有助于政府更好地掌握農(nóng)業(yè)發(fā)展態(tài)勢(shì),提高監(jiān)管、服務(wù)、決策的工作效率。
農(nóng)業(yè)大數(shù)據(jù)具有為農(nóng)業(yè)決策提供可靠數(shù)據(jù)支撐的優(yōu)勢(shì),在實(shí)踐應(yīng)用過程中已取得顯著進(jìn)展。但農(nóng)業(yè)大數(shù)據(jù)發(fā)展中存在的問題與障礙也在日益凸顯,有待進(jìn)一步研究突破。目前主要存在農(nóng)業(yè)大數(shù)據(jù)基礎(chǔ)建設(shè)薄弱、數(shù)據(jù)開放共享問題、數(shù)據(jù)的分析挖掘能力有待加強(qiáng)和農(nóng)業(yè)大數(shù)據(jù)專業(yè)人才缺乏4 個(gè)方面的問題。
3.3.1 農(nóng)業(yè)大數(shù)據(jù)建設(shè)基礎(chǔ)薄弱
由于我國(guó)農(nóng)村地區(qū)網(wǎng)絡(luò)通信不發(fā)達(dá),信息技術(shù)傳播慢等原因,現(xiàn)代化建設(shè)水平不高,缺少專業(yè)的數(shù)據(jù)采集設(shè)施,農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)總體較少?,F(xiàn)存的農(nóng)業(yè)數(shù)據(jù)也存在結(jié)構(gòu)不規(guī)范、內(nèi)容不完整、細(xì)節(jié)程度不夠等問題,造成數(shù)據(jù)可用性低、數(shù)據(jù)匯交困難。
3.3.2 數(shù)據(jù)開放共享問題
農(nóng)業(yè)數(shù)據(jù)的開放共享,有利于加強(qiáng)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)各個(gè)環(huán)節(jié)間的耦合作用,避免公開數(shù)據(jù)集的匱乏,加強(qiáng)農(nóng)業(yè)市場(chǎng)數(shù)據(jù)信息流通與使用。當(dāng)前農(nóng)業(yè)大數(shù)據(jù)開放面臨較大的挑戰(zhàn),一是相關(guān)部門、企業(yè)受體制機(jī)制的限制和觀念束縛,將數(shù)據(jù)存儲(chǔ)在各自的數(shù)據(jù)庫(kù)中造成眾多數(shù)據(jù)“閑置”和數(shù)據(jù)重復(fù)采集;二是數(shù)據(jù)格式不一致,缺乏統(tǒng)一的數(shù)據(jù)開放標(biāo)準(zhǔn)和有效的數(shù)據(jù)開放平臺(tái),數(shù)據(jù)開放存在技術(shù)難題。
3.3.3 大數(shù)據(jù)的分析挖掘能力有待加強(qiáng)
當(dāng)前大數(shù)據(jù)的處理分析技術(shù)已經(jīng)有了很大進(jìn)展,但農(nóng)業(yè)生產(chǎn)的分散性、時(shí)空差異性、關(guān)聯(lián)復(fù)雜性、動(dòng)態(tài)變化性和實(shí)時(shí)性等特征造成數(shù)據(jù)的繁雜性進(jìn)一步加大,大數(shù)據(jù)的數(shù)據(jù)挖掘算法和處理分析模型還需要進(jìn)一步加強(qiáng)。
3.3.4 農(nóng)業(yè)大數(shù)據(jù)專業(yè)人才缺乏
農(nóng)業(yè)大數(shù)據(jù)價(jià)值的挖掘,離不開專業(yè)技術(shù)支持。目前我國(guó)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)領(lǐng)域的大數(shù)據(jù)挖掘與利用意識(shí)與信息化教育普及不夠、專業(yè)人才奇缺、專業(yè)分析人員的需求與缺口并存[39-40]。具備大數(shù)據(jù)和農(nóng)業(yè)相關(guān)知識(shí)復(fù)合型人才的缺乏,關(guān)鍵數(shù)據(jù)采集不全、數(shù)據(jù)挖掘不充分,效果不理想。農(nóng)業(yè)大數(shù)據(jù)專業(yè)人才的瓶頸已成為制約我國(guó)農(nóng)業(yè)大數(shù)據(jù)發(fā)展的關(guān)鍵問題之一。
該文對(duì)農(nóng)業(yè)大數(shù)據(jù)的概念、發(fā)展、關(guān)鍵技術(shù)和應(yīng)用案例等進(jìn)行了論述,通過文獻(xiàn)分析,對(duì)農(nóng)業(yè)大數(shù)據(jù)應(yīng)用的最新技術(shù)形成如下結(jié)論。
(1)農(nóng)業(yè)大數(shù)據(jù)是一個(gè)富有巨大潛力的研究領(lǐng)域,在促進(jìn)生產(chǎn)標(biāo)準(zhǔn)化、加速作業(yè)效率、促進(jìn)產(chǎn)銷有序銜接、保障產(chǎn)品質(zhì)量安全等方面已經(jīng)有所展現(xiàn)。農(nóng)業(yè)大數(shù)據(jù)的價(jià)值,將在更多的實(shí)踐應(yīng)用中逐步釋放。
(2)數(shù)據(jù)不斷涌入的大數(shù)據(jù)時(shí)代背景下,還需要進(jìn)一步加強(qiáng)農(nóng)業(yè)大數(shù)據(jù)的探索實(shí)踐,增強(qiáng)對(duì)農(nóng)業(yè)大數(shù)據(jù)技術(shù)方法、軟件系統(tǒng)的研究和全方位推廣應(yīng)用。
結(jié)合相關(guān)研究進(jìn)展,今后需在以下幾個(gè)方面加大研究力度:一是加強(qiáng)農(nóng)業(yè)大數(shù)據(jù)基礎(chǔ)建設(shè)。增強(qiáng)農(nóng)村的信息化水平,完善數(shù)據(jù)的采集基礎(chǔ)、數(shù)據(jù)標(biāo)準(zhǔn),增強(qiáng)農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)的質(zhì)量和數(shù)量,為農(nóng)業(yè)的發(fā)展決策提供可靠的數(shù)據(jù)保障。二是促進(jìn)數(shù)據(jù)開放共享。加強(qiáng)數(shù)據(jù)立法,制定有關(guān)數(shù)據(jù)共享行為規(guī)范的法律條文,對(duì)數(shù)據(jù)利用過程加強(qiáng)監(jiān)管,為農(nóng)業(yè)信息公開、合理利用提供法律保障;制定數(shù)據(jù)的格式和規(guī)范要求,增強(qiáng)數(shù)據(jù)的可用性,促進(jìn)不同部門、行業(yè)、區(qū)域的共享系統(tǒng)對(duì)接,實(shí)現(xiàn)全國(guó)范圍內(nèi)數(shù)據(jù)資源的互利共享。三是增強(qiáng)大數(shù)據(jù)分析挖掘能力。一方面要結(jié)合農(nóng)業(yè)領(lǐng)域的特點(diǎn)對(duì)農(nóng)業(yè)大數(shù)據(jù)的知識(shí)庫(kù)、模型庫(kù)不斷優(yōu)化,減小多個(gè)模型組合時(shí)多參數(shù)分析導(dǎo)致的誤差累積,另一方面需要開發(fā)更強(qiáng)大的分析工具和更高性能的數(shù)據(jù)處理系統(tǒng)架構(gòu),增強(qiáng)系統(tǒng)的并行處理能力和計(jì)算精度,建立能夠滿足不同群體應(yīng)用需求的綜合性農(nóng)業(yè)大數(shù)據(jù)處理平臺(tái)。四是進(jìn)行農(nóng)業(yè)大數(shù)據(jù)專業(yè)人才培育。政府、高校應(yīng)加大對(duì)人才培養(yǎng)投入力度,開展更多專業(yè)學(xué)科,同時(shí)開展相關(guān)工作人員技術(shù)培訓(xùn),培育更多具有農(nóng)業(yè)專業(yè)知識(shí)與大數(shù)據(jù)技術(shù)的復(fù)合型人才。