劉振洋,趙家松,胡仁傑,劉笠溶
(云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,云南 昆明 650201)
【研究意義】甘蔗產(chǎn)業(yè)是云南省特色產(chǎn)業(yè)之一,更是扶貧產(chǎn)業(yè)之一,云南甘蔗種植面積、產(chǎn)量和產(chǎn)糖量均居全國第二位,僅次于廣西,云南省16 個地州中有10 個地州產(chǎn)糖,主要集中在臨滄、德宏、保山、普洱、文山、西雙版納、玉溪、紅河8 個地州、市、縣,全省129 個縣(市)中有52 個縣(市、區(qū))種植甘蔗,多為沿邊少數(shù)民族地區(qū)。對云南省甘蔗產(chǎn)量的研究既有助于云南省特色產(chǎn)業(yè)的發(fā)展,也可對邊區(qū)經(jīng)濟(jì)發(fā)展起到推動作用[1]。產(chǎn)量預(yù)測模型是當(dāng)前產(chǎn)量研究的重要方法之一,通過預(yù)測農(nóng)作物的產(chǎn)量,有助于農(nóng)作物的種植規(guī)劃和市場調(diào)控。目前主要的產(chǎn)量預(yù)測模型有BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹、線性回歸等,這些模型在產(chǎn)量預(yù)測方面的應(yīng)用均較為成熟。
【前人研究進(jìn)展】BP 神經(jīng)網(wǎng)絡(luò)模型在產(chǎn)量預(yù)測方向的使用最為廣泛。彭秋連等[2]、許鑫等[3]將BP 神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于農(nóng)作物產(chǎn)量預(yù)測上,其相對誤差始終維持較低水平;李修華等[4]使用遺傳算法對BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),創(chuàng)新性地采用基于遺傳算法的BP 神經(jīng)網(wǎng)絡(luò)模型對甘蔗產(chǎn)量進(jìn)行預(yù)測,其相對誤差和決定系數(shù)相對于BP神經(jīng)網(wǎng)絡(luò)模型,都有了較大改進(jìn)。此外,胡程磊等[5]、張浩等[6]提出基于BP 神經(jīng)網(wǎng)絡(luò)的IPSO-BP 神經(jīng)網(wǎng)絡(luò)模型和AIGA-BP 神經(jīng)網(wǎng)絡(luò)模型,在糧食產(chǎn)量預(yù)測方向上的預(yù)測精度維持在一個較高水平,對比BP 神經(jīng)網(wǎng)絡(luò)模型也有極大的提升。
支持向量機(jī)作為當(dāng)前機(jī)器學(xué)習(xí)的主流算法,也被大量應(yīng)用于產(chǎn)量預(yù)測研究,段東瑤等[7]將SVM 模型使用于綠茶加工含水量變化預(yù)測,模型預(yù)測精度較高,擬合度較好,具有很強(qiáng)的參考價(jià)值;趙桂芝等[8]、施瑤等[9]提出基于PSO 算法優(yōu)化的SVM 模型和基于SAFA 算法優(yōu)化的LSSVM模型,為糧食產(chǎn)量預(yù)測提供了新的途徑。Cart 回歸樹作為數(shù)據(jù)挖掘的經(jīng)典算法,也可以被用于產(chǎn)量預(yù)測方向,陳湘芳等[10]使用Cart 回歸樹對黃瓜產(chǎn)量進(jìn)行預(yù)測,預(yù)測模型的誤差較小且具有良好的準(zhǔn)確性?;疑P鸵脖怀S糜诋a(chǎn)量預(yù)測,余永松等[11]、張永強(qiáng)等[12]使用灰色模型對蔬菜和花生產(chǎn)量進(jìn)行預(yù)測,其模型收斂速度較快且相對誤差較??;喬松珊等[13]還將馬爾科夫鏈用于提高灰色模型的精度,對肉類產(chǎn)量進(jìn)行了很好的預(yù)測。
基于其簡潔和穩(wěn)定的特點(diǎn),線性回歸也是產(chǎn)量預(yù)測方面使用較為廣泛的算法之一。研究表明,將多元線性回歸算法用于國內(nèi)外多種農(nóng)作物的產(chǎn)量預(yù)測,利用多元線性回歸算法構(gòu)建的模型在經(jīng)濟(jì)作物和糧食作物的產(chǎn)量預(yù)測上,都保持較低的誤差和較高的擬合度,證明了線性回歸算法在產(chǎn)量預(yù)測領(lǐng)域的可行性和實(shí)用性[14-20]。關(guān)聯(lián)規(guī)則算法作為數(shù)據(jù)挖掘的重要算法之一,在農(nóng)業(yè)數(shù)據(jù)分析上同樣取得很好的成果。徐霖[21]將關(guān)聯(lián)規(guī)則算法應(yīng)用于土壤肥力評價(jià)系統(tǒng)中,計(jì)算分析得到土壤肥力與農(nóng)作物產(chǎn)量之間的關(guān)聯(lián)關(guān)系。Santosh 等[22]使用關(guān)聯(lián)規(guī)則中的Apriori 算法,開發(fā)出一套基于消費(fèi)者數(shù)據(jù)和生產(chǎn)者的農(nóng)業(yè)推薦系統(tǒng),為農(nóng)業(yè)生產(chǎn)者購買生產(chǎn)資料提供推薦,降低生產(chǎn)風(fēng)險(xiǎn);Hira 等[23]使用關(guān)聯(lián)規(guī)則算法建立多維模型,對農(nóng)業(yè)種植中的各農(nóng)業(yè)參數(shù)之間的關(guān)系進(jìn)行分析,最終得到多條關(guān)聯(lián)性較強(qiáng)的規(guī)則,為農(nóng)業(yè)種植提供指導(dǎo)作用;Niketa 等[24]發(fā)現(xiàn)多種關(guān)聯(lián)規(guī)則算法在農(nóng)業(yè)中的應(yīng)用,主要用于闡明不同氣候與作物生產(chǎn)之間的隱藏模式和關(guān)聯(lián)、農(nóng)業(yè)害蟲控制等;Inam 等[25]使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)多條水稻產(chǎn)量最高水平的強(qiáng)過濾關(guān)聯(lián)規(guī)則,對神經(jīng)網(wǎng)絡(luò)算法進(jìn)行優(yōu)化,建立神經(jīng)網(wǎng)絡(luò)模型對水稻產(chǎn)量進(jìn)行預(yù)測。可見,對于農(nóng)業(yè)數(shù)據(jù)的分析,關(guān)聯(lián)規(guī)則法具有很強(qiáng)的可行性和優(yōu)越性。
【本研究切入點(diǎn)】從以上研究可以發(fā)現(xiàn),線性回歸算法被廣泛應(yīng)用于產(chǎn)量預(yù)測模型構(gòu)建,模型將產(chǎn)量作為樣本輸出,通過輸入多個樣本特征對產(chǎn)量進(jìn)行預(yù)測。而關(guān)聯(lián)規(guī)則算法對農(nóng)業(yè)數(shù)據(jù)分析的應(yīng)用可以被用于選擇樣本特征,選擇關(guān)聯(lián)性較強(qiáng)的因素作為樣本特征,可以提高產(chǎn)量預(yù)測模型的準(zhǔn)確性。【擬解決的關(guān)鍵問題】構(gòu)建基于關(guān)聯(lián)規(guī)則和多元線性回歸的甘蔗產(chǎn)量預(yù)測模型,為云南甘蔗糖業(yè)的發(fā)展提供科學(xué)依據(jù)。
本研究所用數(shù)據(jù)來自于云南統(tǒng)計(jì)年鑒中5 個甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)2008—2020 年的甘蔗產(chǎn)量、種植條件以及氣象條件數(shù)據(jù),其中種植條件包括水庫數(shù)、氮肥用量、磷肥用量、鉀肥用量、復(fù)合肥用量、地膜使用量、甘蔗種植面積,氣象條件包括年均氣溫和年降水量。以2008—2018年的數(shù)據(jù)作為訓(xùn)練集,用于模型的訓(xùn)練;以2019—2020 年的數(shù)據(jù)作為測試集,用于測試模型精度,以紅河為例,具體原始數(shù)據(jù)見表1。
表1 云南紅河2008—2020 年甘蔗產(chǎn)量、種植條件及氣象數(shù)據(jù)Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020
收集數(shù)據(jù)的過程中往往會出現(xiàn)數(shù)據(jù)缺失或臟數(shù)據(jù)的情況,如果不加以處理,將會影響最終預(yù)測模型的精度。云南統(tǒng)計(jì)年鑒缺少2008—2011 年各地州平均氣溫和年降水量的數(shù)據(jù),出現(xiàn)數(shù)據(jù)缺失的情況。針對這種情況,本研究采用均值填充缺失值的預(yù)處理方法,即用2012—2018 年各地州平均氣溫和年降水量的數(shù)據(jù)取平均值對缺失數(shù)據(jù)進(jìn)行補(bǔ)全,并對不同年份相同因素所使用的統(tǒng)計(jì)單位進(jìn)行統(tǒng)一化,保證訓(xùn)練集數(shù)據(jù)的精確度。
1.3.1 模型算法 數(shù)據(jù)挖掘的意義在于從大量數(shù)據(jù)中通過算法搜索其中隱藏的信息,將有價(jià)值的信息總結(jié)為知識。數(shù)據(jù)挖掘的主要方法包括關(guān)聯(lián)規(guī)則、決策樹、線性回歸、神經(jīng)網(wǎng)絡(luò)等,本研究主要采用關(guān)聯(lián)規(guī)則和線性回歸構(gòu)建預(yù)測模型,具體算法則采用Apriori 和多元線性回歸算法。
Apriori 算法基于其簡便性和可靠性,已經(jīng)成為關(guān)聯(lián)規(guī)則中使用范圍最廣的算法,被廣泛應(yīng)用于規(guī)則的挖掘和知識的發(fā)現(xiàn)。選用Apriori 算法可以對不同因素與甘蔗產(chǎn)量的關(guān)聯(lián)性進(jìn)行分析,從中找出甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素,由于在模型的實(shí)際構(gòu)建中,弱關(guān)聯(lián)因素和無關(guān)聯(lián)因素會導(dǎo)致模型的精度下降和關(guān)聯(lián)性降低,因此保留強(qiáng)關(guān)聯(lián)因素作為構(gòu)建預(yù)測模型的樣本特征,同時舍棄弱關(guān)聯(lián)和無關(guān)聯(lián)因素。
多元線性回歸算法是當(dāng)前使用最為廣泛的線性回歸算法之一,該算法在產(chǎn)量預(yù)測中應(yīng)用十分廣泛。多元線性回歸算法可以表示多個樣本特征與樣本輸出之間的線性關(guān)系,其一般形式表示為:
式中,y為樣本輸出,x1,x2,……xn為n個樣本特征,β0為常數(shù),β1,β2,……βn為回歸系數(shù)。
多元線性回歸算法可以通過輸入多個樣本特征得到相應(yīng)的樣本輸出,從而達(dá)到預(yù)測目的,因此采用多元線性回歸算法構(gòu)建產(chǎn)量預(yù)測模型。在得到甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素后,以甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸的樣本特征,構(gòu)建多元線性回歸模型。
1.3.2 甘蔗產(chǎn)量影響因素分析 由于Apriori 算法需要的數(shù)據(jù)格式是二元的,所以首先需要對數(shù)據(jù)進(jìn)行二元化處理,轉(zhuǎn)化為Apriori 算法需要的數(shù)據(jù)格式。數(shù)據(jù)處理方法為分別將每個地區(qū)2008—2017 年的數(shù) 據(jù)轉(zhuǎn)化 為10×10 階的矩 陣S1,2009—2018 年的數(shù)據(jù)以同樣的方式轉(zhuǎn)化為10×10階的矩陣S2,將S2與S1進(jìn)行比較,對應(yīng)位置的數(shù)據(jù)同比上升的記錄為1,同比未上升的記錄為0,轉(zhuǎn)化結(jié)果為新的10×10 階矩陣S3。以臨滄市的甘蔗種植條件、氣象條件數(shù)據(jù)及甘蔗產(chǎn)量數(shù)據(jù)為例,具體轉(zhuǎn)化過程如圖1 所示。
圖1 矩陣轉(zhuǎn)化過程Fig.1 Matrix transformation process
在得到每個地區(qū)的S3后,將所有5 個地區(qū)的S3合并為一個50×10 階矩陣,記作S4,使用Apriori 算法對S4進(jìn)行分析,計(jì)算每個影響因素對甘蔗產(chǎn)量的支持度、置信度、提升度,結(jié)果如表2 所示。
1.3.3 多元線性回歸預(yù)測模型構(gòu)建 關(guān)聯(lián)規(guī)則是形如A=>B 的蘊(yùn)含式,其中A 稱為規(guī)則前件,B稱為規(guī)則后件。通常用支持度和置信度作為關(guān)聯(lián)規(guī)則的價(jià)值度量,其中支持度反映A 與B 同時出現(xiàn)的概率,揭示規(guī)則的有用性;置信度反映A 出現(xiàn)時B 也出現(xiàn)的可能性大小,揭示規(guī)則的可靠性。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,本研究設(shè)置min_sup=0.4、min_conf=0.5。由表2 可知,包括種植因素和氣候因素在內(nèi),甘蔗產(chǎn)量的影響因素共有9 個,其中年均氣溫與年降水量兩個因素對甘蔗產(chǎn)量的支持度和置信度分別小于0.4 和0.5,因此年均氣溫與年降水量兩個因素對于甘蔗產(chǎn)量而言是弱關(guān)聯(lián)因素。
表2 各影響因素關(guān)聯(lián)規(guī)則計(jì)算結(jié)果Table 2 Association rule calculation results of various influencing factors
此外,考慮到置信度忽略了規(guī)則后件中項(xiàng)集的支持度,引入規(guī)則的提升度有助于解決這個問題。規(guī)則的提升度可以有效判斷規(guī)則是否有實(shí)際價(jià)值,如果A=>B 的提升度大于1,則說明A 和B 正相關(guān)。表1 中水庫數(shù)、復(fù)合肥用量兩個因素對甘蔗產(chǎn)量的提升度小于1,這兩個因素也作為弱關(guān)聯(lián)因素。
根據(jù)上述數(shù)據(jù)分析,基于關(guān)聯(lián)規(guī)則方法,將甘蔗產(chǎn)量的影響因素由9 個縮減為5 個,使用氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積5 個與甘蔗產(chǎn)量正相關(guān)的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸模型的樣本特征,構(gòu)建多元線性回歸模型,具體模型如下式所示:
式中,y為甘蔗產(chǎn)量,x1,x2,……x5分別為氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積,β0為常數(shù)項(xiàng),β1,β2,……β5分別為對應(yīng)樣本特征的回歸系數(shù)。將5 個樣本特征的訓(xùn)練集數(shù)據(jù)代入模型進(jìn)行訓(xùn)練,可以得到不同地區(qū)預(yù)測模型的回歸系數(shù)和β0,以回歸系數(shù)和β0構(gòu)建多元線性回歸模型,作為最終的甘蔗產(chǎn)量預(yù)測模型。
將Apriori 算法分析出的5 個強(qiáng)關(guān)聯(lián)因素作為樣本特征,并設(shè)置甘蔗產(chǎn)量為目標(biāo)變量(樣本輸出),可以得到云南省各地州的多元線性回歸預(yù)測模型。通過代入回歸系數(shù)及β0,各地州甘蔗產(chǎn)量預(yù)測模型如表3 所示。
表3 甘蔗產(chǎn)量預(yù)測模型Table 3 Prediction model of sugarcane yield
R2是評判多元線性回歸模型的重要標(biāo)準(zhǔn)之一,在多元線性回歸模型中,R2代表著多元線性回歸模型的擬合程度,R2越接近1,模型的擬合程度越好。此外,平均誤差也是評判模型精準(zhǔn)度的重要指標(biāo),將測試集數(shù)據(jù)代入各地州甘蔗產(chǎn)量預(yù)測模型后,可以計(jì)算出預(yù)測模型的平均誤差。由表4 可知,各地州甘蔗產(chǎn)量預(yù)測模型的平均誤差處于2.1%~8.6%之間,R2處于0.857~0.997 之間,表明各地州甘蔗產(chǎn)量預(yù)測模型的平均誤差較小、擬合程度較好,該模型具有較好的參考性和研究價(jià)值。
表4 甘蔗產(chǎn)量預(yù)測模型平均誤差及R2Table 4 Average error and R2 of prediction model of sugarcane yield
BP 神經(jīng)網(wǎng)絡(luò)模型作為產(chǎn)量預(yù)測領(lǐng)域使用最為廣泛的模型,在產(chǎn)量預(yù)測方面有許多應(yīng)用,通過與其對比可以說明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型在預(yù)測精度上的優(yōu)劣勢,分別構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型,代入測試集數(shù)據(jù)對甘蔗產(chǎn)量進(jìn)行預(yù)測用于計(jì)算平均誤差,并將兩種預(yù)測模型的平均誤差與基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差進(jìn)行對比分析。取9 個樣本特征,代入訓(xùn)練集數(shù)據(jù)構(gòu)建兩種預(yù)測模型,并分別對兩種預(yù)測模型依次代入測試集數(shù)據(jù)進(jìn)行驗(yàn)證。
在使用相同樣本特征的情況下,基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差在2.1%~8.6%之間,而多元線性回歸模型的平均誤差在10.7%~32.2%之間,BP 神經(jīng)網(wǎng)絡(luò)模型的平均誤差則在8.4%~29.6%之間,具體對比結(jié)果如表5 所示。
表5 各模型平均誤差對比Table 5 Comparison of average errors of various models
為驗(yàn)證模型的可靠性與實(shí)用性,將2019 年云南省5 個甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)的甘蔗種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)代入模型,獲得模型的預(yù)測產(chǎn)量,并與實(shí)際的甘蔗產(chǎn)量數(shù)據(jù)進(jìn)行對比,計(jì)算相對誤差,結(jié)果(表6)表明,模型預(yù)測產(chǎn)量和實(shí)際的甘蔗產(chǎn)量較為接近,相對誤差較小,具有較強(qiáng)的可靠性和實(shí)用性。
表6 各地區(qū)2019 年模型預(yù)測產(chǎn)量與實(shí)際產(chǎn)量及相對誤差Table 6 Relative error between predicted output of model and actual output of each region in 2019
得益于數(shù)據(jù)挖掘和人工智能技術(shù)的蓬勃發(fā)展,農(nóng)業(yè)生產(chǎn)中產(chǎn)生的大量數(shù)據(jù)得到充分的挖掘和利用,以產(chǎn)量預(yù)測為例,其中獲得的知識被反作用于農(nóng)業(yè)生產(chǎn),讓農(nóng)業(yè)生產(chǎn)逐步邁入數(shù)據(jù)時代。前人研究表明,在目前國內(nèi)外產(chǎn)量預(yù)測領(lǐng)域,線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹等算法具有大量的應(yīng)用成果。但隨著樣本特征的增加和種植環(huán)境的復(fù)雜化,產(chǎn)量預(yù)測模型的擬合度會出現(xiàn)下降趨勢,Niazian 等[26]使用多元線性回歸算法構(gòu)建預(yù)測模型,對阿朱萬種子產(chǎn)量進(jìn)行預(yù)測,其模型訓(xùn)練集R2為0.81、測試集R2為0.79。Abdipoura 等[27]使用多元線性回歸算法對紅花種子產(chǎn)量進(jìn)行預(yù)測,其模型訓(xùn)練集R2=0.71、測試集R2=0.686。針對這種情況,許多學(xué)者采用優(yōu)化算法對基礎(chǔ)模型進(jìn)行優(yōu)化從而提高模型的準(zhǔn)確率,如遺傳算法、IPSO 算法對BP 神經(jīng)網(wǎng)絡(luò)的優(yōu)化,PSO 算法和SAFA 算法對SVM 的優(yōu)化,均大大提高了模型的準(zhǔn)確率和擬合度。本研究基于前人優(yōu)化模型理念,利用關(guān)聯(lián)規(guī)則算法對樣本特征和樣本輸出之間的關(guān)聯(lián)性進(jìn)行分析,篩選出強(qiáng)關(guān)聯(lián)的樣本特征,對多元線性回歸算法進(jìn)行優(yōu)化,降低復(fù)雜環(huán)境和多個樣本特征對多元線性回歸算法的影響,在相同條件下提高了多元線性回歸算法的準(zhǔn)確率和擬合度。
與其他類型的產(chǎn)量預(yù)測模型類似,本研究所提出的甘蔗產(chǎn)量預(yù)測模型在地域和時效上存在一定的局限性。對云南省甘蔗主產(chǎn)區(qū)以外的地區(qū),模型的準(zhǔn)確率和擬合度不能得到保證,而且隨著時間的推移和種植數(shù)據(jù)的不斷增加,模型的準(zhǔn)確率也會發(fā)生變化。為獲取更精準(zhǔn)的預(yù)測效果,需要考慮將未來產(chǎn)生的甘蔗產(chǎn)量數(shù)據(jù)、種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)加入訓(xùn)練集,對模型進(jìn)行更新訓(xùn)練,保證模型的可靠性與時效性。
本研究構(gòu)建基于關(guān)聯(lián)規(guī)則算法的多元線性回歸模型,根據(jù)測試集的測試結(jié)果可以看出,該模型精度在91%~97%之間,R2在0.857~0.997,表明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型具有較高的預(yù)測精度和擬合度,預(yù)測結(jié)果較為準(zhǔn)確,為甘蔗產(chǎn)量預(yù)測模型提供了新的方法。由于使用的數(shù)據(jù)集皆為云南統(tǒng)計(jì)年鑒的真實(shí)數(shù)據(jù),因此該模型具有一定的應(yīng)用價(jià)值,可以被用于云南省的甘蔗產(chǎn)量研究。同時,該模型表明關(guān)聯(lián)規(guī)則算法對多元線性回歸算法的改進(jìn)作用,可為后續(xù)的產(chǎn)量預(yù)測模型提供新的改進(jìn)思路。