李婭婭
(武漢輕工大學(xué),湖北 武漢430000)
農(nóng)業(yè)是指利用動(dòng)植物的生長發(fā)育規(guī)律,通過人工培育來獲得產(chǎn)品的產(chǎn)業(yè)。在過去的很多年里,我國耗費(fèi)了大量的人力物力對農(nóng)業(yè)中的各種數(shù)據(jù)進(jìn)行了大規(guī)模全面調(diào)查,從而建立了農(nóng)作物品種、土地等資源以及農(nóng)作物環(huán)境等大量的數(shù)據(jù)庫,留下了大量的數(shù)據(jù)。但是,由于目前沒有合理且有效的數(shù)據(jù)管理工具,收集來的這些龐大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出人類的處理及計(jì)算能力,很多數(shù)據(jù)由于很少被訪問或應(yīng)用,導(dǎo)致它們便成為了“死數(shù)據(jù)”。數(shù)據(jù)挖掘技術(shù)使數(shù)據(jù)庫應(yīng)用技術(shù)由相對底層的階段進(jìn)入到了一個(gè)更高層的階段。數(shù)據(jù)挖掘技術(shù)不僅能對數(shù)據(jù)庫中的歷史數(shù)據(jù)進(jìn)行遍歷查詢,還能夠找出歷史數(shù)據(jù)之間的潛在聯(lián)系,從而實(shí)現(xiàn)促進(jìn)信息傳遞的功能。
數(shù)據(jù)挖掘(data mining)也叫數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge discovery from database,KDD),是一種深層次的數(shù)據(jù)分析方法。是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程。最早該技術(shù)是用來分析商業(yè)領(lǐng)域中客戶的信息數(shù)據(jù),后來逐步廣泛應(yīng)用于醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域。
數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)見圖1:
圖1 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
(1)第一層——信息庫:是一個(gè)或一組可以對數(shù)據(jù)進(jìn)行數(shù)據(jù)、集成和選擇的信息庫。
(2)第二層——服務(wù)器:服務(wù)器根據(jù)用戶的請求,處理請求并從服務(wù)器中提取相關(guān)數(shù)據(jù)。
(3)第三層——知識(shí)庫:是一個(gè)領(lǐng)域內(nèi)的規(guī)則集合,即知識(shí)。用于指導(dǎo)搜索或者評估結(jié)果的匹配度。
(4)第四層——數(shù)據(jù)挖掘引擎:數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)中最基礎(chǔ)的部分,基本上是由一個(gè)功能模塊所組成。
(5)第五層——模式評估:一般來講模式評估模塊用于度量興趣度,它需要與數(shù)據(jù)挖掘模塊相交互。
(6)第六層——用戶界面:用戶操作界面,根據(jù)需要的操作提交相關(guān)的請求,獲取結(jié)果。
(1)行為和趨勢的自動(dòng)預(yù)測。數(shù)據(jù)挖掘技術(shù)能夠在大型的數(shù)據(jù)庫中自動(dòng)地尋找有預(yù)測性的信息,從而直接從數(shù)據(jù)本身出發(fā)迅速地得出相應(yīng)結(jié)論,實(shí)現(xiàn)決策。
(2)數(shù)據(jù)總結(jié):數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)總結(jié)可來源于數(shù)據(jù)分析中的統(tǒng)計(jì)分析方法,不同于傳統(tǒng)的數(shù)據(jù)總結(jié),數(shù)據(jù)挖掘的數(shù)據(jù)總結(jié)對數(shù)據(jù)進(jìn)行濃縮,去除多余冗余的數(shù)據(jù),還可以利用直方圖等統(tǒng)計(jì)學(xué)圖形對數(shù)據(jù)進(jìn)行可視化。
(3)關(guān)聯(lián)分析。關(guān)聯(lián)分析的目的在于尋找數(shù)據(jù)庫中數(shù)據(jù)之間隱藏的相關(guān)性。關(guān)聯(lián)分析有兩種常用的技術(shù):關(guān)聯(lián)規(guī)則和序列模式,關(guān)聯(lián)規(guī)則用于尋找在同一個(gè)事件里不同項(xiàng)之間的相關(guān)性,如推薦系統(tǒng);而序列模式用于尋找事件中時(shí)間上的相關(guān)性,如股市預(yù)測。
(4)聚類。聚類功能目的在于將整個(gè)數(shù)據(jù)庫按特征劃分成不同樣的子集/群組,也稱為簇。劃分為簇之后,簇與簇之間的差別盡可能明顯,一個(gè)簇中的數(shù)據(jù)盡可能相同。例如,商業(yè)系統(tǒng)中按消費(fèi)習(xí)慣和年齡等特征將用戶進(jìn)行聚類處理,制定營銷策略。
數(shù)據(jù)挖掘還有許多其它的功能,如偏差檢測和概念描述等等,在一個(gè)數(shù)據(jù)挖掘系統(tǒng)中。這些功能并不是獨(dú)立出現(xiàn)的,一個(gè)完整的數(shù)據(jù)挖掘系統(tǒng)一般會(huì)包含以上幾種甚至所有功能,這些功能相互聯(lián)系,發(fā)揮強(qiáng)大的作用。
對于數(shù)據(jù)挖掘技術(shù)的應(yīng)用,許多國內(nèi)外學(xué)者都取得了非常顯著的成功,其中國外學(xué)者對數(shù)據(jù)挖掘技術(shù)的研究起步較早。國外Yosef Masoudi-Sobhanzadeh;Ali Masoudi-Nejad使用基于關(guān)聯(lián)規(guī)則和離散算法的數(shù)據(jù)挖掘方法對抗高血壓藥物進(jìn)行綜合重排,該項(xiàng)目可能會(huì)使一些失敗的藥物開發(fā)項(xiàng)目復(fù)活,并為治療2019冠狀病毒疾病(COVID-19)和橋本氏病(HT)等不同疾病提出合適的方案。同樣值得注意的是,應(yīng)用有效的計(jì)算方法有助于產(chǎn)生更好的結(jié)果。Florian Barbi;Laurent Vallon;Carmen Guerrero-Galán等人利用數(shù)據(jù)挖掘和功能環(huán)境基因組學(xué)重新評估了真菌單糖轉(zhuǎn)運(yùn)蛋白的系統(tǒng)發(fā)育和功能多樣性,他們的結(jié)果突出了環(huán)境基因組學(xué)的潛力,以找出關(guān)鍵真菌蛋白家族的功能多樣性,可以在生物技術(shù)的背景下進(jìn)行探索。
對于農(nóng)業(yè)上的應(yīng)用,Journal of Physics:Conference Series等人利用Apriori算法對印度尼西亞一家出售農(nóng)業(yè)必需品的商店里進(jìn)行資料挖掘,因?yàn)橛《饶嵛鱽啙摿薮蟮霓r(nóng)業(yè)部門在使用技術(shù)方面存在障礙,該研究最大限度地提高農(nóng)產(chǎn)品的銷售利潤;Qiubo Li;Ru Xiao針對農(nóng)產(chǎn)品的特殊性和現(xiàn)有農(nóng)產(chǎn)品物流配送系統(tǒng)的不足,為了降低農(nóng)產(chǎn)品電子商務(wù)物流配送的成本,提高客戶滿意度,探索將數(shù)據(jù)挖掘技術(shù)應(yīng)用于人工智能領(lǐng)域,完成6G物聯(lián)網(wǎng)通信背景下數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)電子商務(wù)中的運(yùn)用研究。R.Aarthi;D.Sivakumar研究了一種用于動(dòng)態(tài)土壤質(zhì)地預(yù)測的增強(qiáng)農(nóng)業(yè)數(shù)據(jù)挖掘技術(shù),土壤質(zhì)地分類是獲得可持續(xù)農(nóng)業(yè)管理的首要因素,因?yàn)橘|(zhì)地分類間接影響土壤肥力管理。該技術(shù)解決了傳統(tǒng)的紋理分類方法在使用大數(shù)據(jù)集時(shí)比較復(fù)雜且耗時(shí)的問題。
與國外相比,國內(nèi)對DMKD(數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn))的研究稍晚,沒有形成整體力量。河南中醫(yī)藥大學(xué)的王燦、劉茜茜等人運(yùn)用現(xiàn)代信息技術(shù)挖掘中醫(yī)藥治療中風(fēng)病的組方用藥規(guī)律,并探討高頻核心藥的運(yùn)用思路和原理,為中風(fēng)病的中醫(yī)藥治療提供更多的可行性方案。王曉蓉在基于大數(shù)據(jù)挖掘技術(shù),指定了電力變壓器健康狀態(tài)差異預(yù)警規(guī)則策略,實(shí)踐證明,挖掘預(yù)警規(guī)則能夠較好地實(shí)現(xiàn)對電力變壓器運(yùn)行狀態(tài)的預(yù)警。
在農(nóng)業(yè)方面,龐鳳麗等人將蘑菇的顏色和紋理提取出來作為特征向量,利用BP神經(jīng)網(wǎng)絡(luò)對蘑菇毒性進(jìn)行預(yù)測識(shí)別,開發(fā)了一款基于Android的毒蘑菇輔助識(shí)別系統(tǒng)。李勇、陳鈺欣等人為解決水果滯銷問題,基于數(shù)據(jù)挖掘技術(shù)分析了水果滯銷的現(xiàn)狀和原因,給出了相應(yīng)的解決對策。鐘亮、郭熙等人以江西省奉新縣北部的土壤為數(shù)據(jù)集,使用9種數(shù)學(xué)方法和5種機(jī)器學(xué)習(xí)方法對土壤光譜進(jìn)行分析,為土壤質(zhì)地的分類提供了有效的參考。湘潭大學(xué)的馬夢麗基于數(shù)據(jù)挖掘?qū)r(nóng)戶糧食的全要素生產(chǎn)率進(jìn)行數(shù)學(xué)測算,并對影響因素進(jìn)行了深入的研究,得到了幾項(xiàng)重要的研究結(jié)論。
由此可見,無論在國內(nèi)或外,無論是各個(gè)行業(yè),由于計(jì)算機(jī)技術(shù)的滲透,數(shù)據(jù)挖掘技術(shù)也隨之得到了廣泛的應(yīng)用,而數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)各方面如水果、土壤、糧食、畜牧等都有十分重要的應(yīng)用,這些應(yīng)用對農(nóng)業(yè)生產(chǎn)有重要的指導(dǎo)作用。
2.2.1 數(shù)據(jù)挖掘在農(nóng)業(yè)環(huán)境中的信息技術(shù)分析
前面提過,我國有大量的農(nóng)業(yè)方面的數(shù)據(jù)庫,其中就包括了大量的農(nóng)業(yè)環(huán)境數(shù)據(jù)。針對這些大數(shù)據(jù),可以利用數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘。如對其中的土壤環(huán)境背景數(shù)據(jù)和不同地方農(nóng)村耕地習(xí)慣等數(shù)據(jù)進(jìn)行挖掘,可以得到不同地方環(huán)境差異的影響因素;也可以根據(jù)土壤的環(huán)境質(zhì)量狀況數(shù)據(jù)結(jié)合農(nóng)作物生長條件,挖掘出造成農(nóng)產(chǎn)品質(zhì)量逐漸低下的環(huán)境因素,這可以從根本上為農(nóng)業(yè)生產(chǎn)和農(nóng)產(chǎn)品生長以及生產(chǎn)地的選擇提供更有效的指導(dǎo);對農(nóng)產(chǎn)品的施肥信息數(shù)據(jù)和農(nóng)產(chǎn)品質(zhì)量進(jìn)行挖掘分析,可為農(nóng)產(chǎn)品生產(chǎn)時(shí)的施肥操作提供有利的幫助。
2.2.2 數(shù)據(jù)挖掘在品種資源數(shù)據(jù)中的應(yīng)用
目前,我國農(nóng)作物資源數(shù)據(jù)庫中有大量的以水果、蔬菜、糧食等為主的180余種作物,37萬余份品種等信息,其中包括了700多個(gè)數(shù)據(jù)庫125多萬條信息。建立合理的資源庫或數(shù)據(jù)倉庫,使用數(shù)據(jù)挖掘技術(shù)從這些數(shù)據(jù)庫中挖掘更多的知識(shí),對所有的種質(zhì)資源進(jìn)行聚類分析或其它數(shù)據(jù)挖掘操作,增強(qiáng)用戶對客觀的認(rèn)識(shí),直觀地看到數(shù)據(jù)中的隱藏知識(shí),從而得以選育更高產(chǎn)、更優(yōu)質(zhì)且抗病的新品種。但是這些品種資源數(shù)據(jù)的獲取是一個(gè)棘手的問題。
2.2.3 數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)專家系統(tǒng)中的應(yīng)用
由于數(shù)據(jù)挖掘技術(shù)的不斷交互性,一般需要領(lǐng)域?qū)<业囊龑?dǎo)和干預(yù)。將數(shù)據(jù)挖掘技術(shù)與農(nóng)業(yè)專家系統(tǒng)相結(jié)合,可以對農(nóng)業(yè)生產(chǎn)過程中專家系統(tǒng)中的領(lǐng)域知識(shí)進(jìn)行數(shù)據(jù)挖掘,這些領(lǐng)域知識(shí)對數(shù)據(jù)挖掘過程起輔助作用。對挖掘到的知識(shí)進(jìn)行解釋和分析,可以直接應(yīng)用到實(shí)際的系統(tǒng)中以及實(shí)際的生產(chǎn)活動(dòng)中,為生產(chǎn)決策提供輔助?;蛘呖梢詫⑦@些知識(shí)提供給農(nóng)業(yè)專家,為專家已有的知識(shí)體系進(jìn)行修正。
2.2.4 數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)病蟲害管理中的應(yīng)用
病蟲害是農(nóng)業(yè)生產(chǎn)活動(dòng)中極具破壞性的生物自然災(zāi)害,農(nóng)業(yè)病害蟲的動(dòng)態(tài)監(jiān)測、發(fā)生預(yù)測及預(yù)測以及病害蟲的風(fēng)險(xiǎn)評估等方面在農(nóng)業(yè)生產(chǎn)管理中十分重要。病蟲害的發(fā)生和影響總是與一定的地理空間相關(guān)。病蟲害數(shù)據(jù)的分析存在諸多困難和挑戰(zhàn)。首先,病蟲害數(shù)據(jù)體量大、結(jié)構(gòu)復(fù)雜、多層次且高維度,而且涉及時(shí)空屬性,不同時(shí)間和空間粒度的分析結(jié)果千差萬別。其次,數(shù)據(jù)中各屬性并非完全孤立,屬性間存在不同程度的聯(lián)系。若是利用傳統(tǒng)統(tǒng)計(jì)學(xué)方法對數(shù)據(jù)間的聯(lián)系進(jìn)行分析呈現(xiàn)非常困難,所以要從中挖掘到有價(jià)值的信息就非常困難。因此,需要調(diào)查病蟲害發(fā)生的相關(guān)數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行詳細(xì)地分析和管理,以便對農(nóng)業(yè)病蟲害的控制管理提供正確的引導(dǎo)。
農(nóng)業(yè)領(lǐng)域中存在大量半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)形式,如文本、圖形、數(shù)學(xué)公式、圖像等,這些數(shù)據(jù)中隱藏了許多重要的知識(shí),而目前的數(shù)據(jù)挖掘工具大多只能對文本型的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,少量學(xué)者對圖片型的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理進(jìn)行研究?,F(xiàn)如今,對網(wǎng)站的數(shù)據(jù)挖掘和語音的數(shù)據(jù)挖掘都成為了熱點(diǎn)研究。數(shù)據(jù)的多樣性和多形式性在數(shù)據(jù)挖掘技術(shù)中的問題暫無全面有效的解決方法。這迫使對新的、全面的數(shù)據(jù)挖掘工具進(jìn)行研究成為待解決的問題,研究者應(yīng)當(dāng)利用現(xiàn)有的大數(shù)據(jù),充分發(fā)揮數(shù)據(jù)挖掘的能效。
既然數(shù)據(jù)挖掘涉及到了大量的數(shù)據(jù),這就意味著很有可能會(huì)存在大量的隱私數(shù)據(jù),如商業(yè)系統(tǒng)中的客戶信息挖掘分析,就必然會(huì)對客戶的收入、住址等敏感信息進(jìn)行處理;農(nóng)業(yè)中有的數(shù)據(jù)也是相關(guān)部門的未公開文件,這除了隱私性問題還有一個(gè)真實(shí)性問題。另外,數(shù)據(jù)的來源也是一個(gè)問題,我們處理的數(shù)據(jù)一般都是來源于網(wǎng)絡(luò),而網(wǎng)絡(luò)安全一直是一個(gè)棘手的問題。在我們的學(xué)習(xí)和工作中需要安全、合理并合法地對數(shù)據(jù)進(jìn)行使用。
圖形可視化是指利用計(jì)算機(jī)技術(shù)對處理好的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使得數(shù)據(jù)能夠以圖形的形式顯示出來,便于操作者直觀地觀察數(shù)據(jù)。所以,理解挖掘出的知識(shí)最有效的方式就是圖形可視化。目前,許多數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘工具都缺乏與用戶的交互,這讓數(shù)據(jù)的知識(shí)難以有效地被利用,挖掘效率大打折扣。因而,開發(fā)并利用有效的可視化工具也是數(shù)據(jù)挖掘過程一個(gè)重要的環(huán)節(jié)。
數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛且有巨大潛力,橫跨多個(gè)學(xué)科,涵蓋了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等。農(nóng)業(yè)生產(chǎn)領(lǐng)域中的數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)與現(xiàn)代農(nóng)業(yè)的產(chǎn)物。通過以上分析可以得出結(jié)論:數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域中的應(yīng)用可以涉及多個(gè)層面,無論從深度和寬度,都可以達(dá)到意料之外的效果。但是由于數(shù)據(jù)挖掘技術(shù)本身的技術(shù)限制以及獲取有效數(shù)據(jù)的難度,發(fā)展和研究還是不夠充分。因此,隨著計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)挖掘技術(shù)的深入實(shí)踐探索和研究,農(nóng)業(yè)領(lǐng)域的計(jì)算機(jī)科學(xué)應(yīng)用將會(huì)是一個(gè)研究新高潮,這對推動(dòng)我國農(nóng)業(yè)現(xiàn)代化的發(fā)展具有重要的作用。