摘要:" 基于國(guó)家森林資源清查體系,我國(guó)積累了大量的森林資源清查數(shù)據(jù),為國(guó)家的戰(zhàn)略規(guī)劃和政策制定提供重要依據(jù)。本文首先對(duì)基于分類(lèi)和聚類(lèi)的數(shù)據(jù)方法進(jìn)行了研究,并對(duì)國(guó)家森林資源清查數(shù)據(jù)的特征和數(shù)據(jù)挖掘的方向展開(kāi)分析,選取了華東監(jiān)測(cè)區(qū)的樣地和樣木數(shù)據(jù),篩選了區(qū)域、立地因子、測(cè)樹(shù)因子、生長(zhǎng)量等參數(shù),進(jìn)行了聚類(lèi)和分類(lèi)的數(shù)據(jù)挖掘,提出了關(guān)于模型組的合理歸并與增減以及避免主觀因素造成的誤分類(lèi)等方面的優(yōu)化方法,而數(shù)據(jù)挖掘的應(yīng)用也可以提升智能機(jī)器人的感知、決策和交互能力。
關(guān)鍵詞:" 數(shù)據(jù)挖掘;" 分類(lèi)算法;" 聚類(lèi)算法;" 數(shù)據(jù)優(yōu)化
中圖分類(lèi)號(hào):" "T 10" " " " " " " "文獻(xiàn)標(biāo)識(shí)碼:" "A" " " " " " " " 文章編號(hào):1001 - 9499(2024)06 - 0061 - 04
基于源自德國(guó)的森林資源連續(xù)清查的抽樣框架體系,我國(guó)國(guó)家森林資源連續(xù)清查每五年一次,截至2018年已經(jīng)完成了9次;自2021年起,國(guó)家林草局聯(lián)合自然資源部開(kāi)展了國(guó)家林草綜合監(jiān)測(cè)工作,期間積累了數(shù)百萬(wàn)條樣地?cái)?shù)據(jù)和數(shù)億條樣木數(shù)據(jù),為森林資源監(jiān)測(cè)工作提供了有力的支持[ 1 , 2 ]。通過(guò)清查數(shù)據(jù),可以了解森林的分布、類(lèi)型、面積、質(zhì)量等信息,進(jìn)而制定合理的保護(hù)、管理和利用政策,以實(shí)現(xiàn)國(guó)家可持續(xù)發(fā)展和生態(tài)安全的目標(biāo)[ 3 , 4 ]。然而由于時(shí)間跨度較大、調(diào)查設(shè)備更替、外業(yè)調(diào)查情況復(fù)雜等諸多因素,這些數(shù)據(jù)對(duì)森林資源動(dòng)態(tài)監(jiān)測(cè),特別是遙感反演生物量、蓄積量等指標(biāo)來(lái)說(shuō),可用性存在一定的不足,因此國(guó)家森林資源清查數(shù)據(jù)的優(yōu)化需要投入更多的研究[ 5 , 6 ]。
信息爆炸時(shí)代,海量信息同時(shí)也伴隨著海量的特征信息,數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中揭示出先前未知并且具有潛在價(jià)值的信息[ 7 ],主要通過(guò)分析每個(gè)數(shù)據(jù),以及從大量數(shù)據(jù)間尋找其中的規(guī)律。數(shù)據(jù)挖掘的興起主要依賴(lài)于數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等學(xué)科的高速發(fā)展[ 8 ],而基于數(shù)據(jù)挖掘方法在智能機(jī)器人中的應(yīng)用場(chǎng)景也非常廣闊。本文嘗試采用數(shù)據(jù)挖掘的算法對(duì)國(guó)家森林資源清查體系下的數(shù)據(jù),進(jìn)行優(yōu)化,使其在蓄積量、生物量、碳匯量、生長(zhǎng)量等更多研究方向上具有更多的使用價(jià)值。
1 基于分類(lèi)和聚類(lèi)的數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘方法從機(jī)器學(xué)習(xí)的角度來(lái)看可以分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi)。有監(jiān)督的數(shù)據(jù)挖掘是利用數(shù)據(jù)的特定屬性構(gòu)建一個(gè)預(yù)測(cè)性模型,如分類(lèi)、估值和預(yù)測(cè)。無(wú)監(jiān)督的數(shù)據(jù)挖掘則是在所有的屬性中尋找某種關(guān)系,構(gòu)建描述性模型,如關(guān)聯(lián)規(guī)則和聚類(lèi)[ 9 - 12 ]。根據(jù)數(shù)據(jù)特性和研究目的,本次研究主要是依靠有監(jiān)督的分類(lèi)算法和無(wú)監(jiān)督的聚類(lèi)算法,因此主要對(duì)這兩類(lèi)算法進(jìn)行研究分析。
1. 1 基于分類(lèi)的數(shù)據(jù)挖掘方法
分類(lèi)方法主要是在已知確定類(lèi)別的情況下,尋找數(shù)據(jù)內(nèi)部的關(guān)系,分成相應(yīng)的類(lèi)別。通過(guò)分類(lèi)算法來(lái)識(shí)別物體、人臉、語(yǔ)音等,從而實(shí)現(xiàn)自主導(dǎo)航、人機(jī)交互等功能。此外,分類(lèi)算法還可以用于機(jī)器人的視覺(jué)感知、目標(biāo)跟蹤、姿態(tài)估計(jì)等方面。常用的分類(lèi)方法有支持向量機(jī)(SVM)算法、決策樹(shù)算法、隨機(jī)森林算法、K近鄰(KNN)算法等。
SVM算法主要可以用于解決小樣本下的數(shù)據(jù)挖掘問(wèn)題,并且提高泛化性能,通過(guò)映射也可以對(duì)高維、非線性的問(wèn)題求解,主要面向二分類(lèi)問(wèn)題,處理多分類(lèi)的問(wèn)題可能需要重分類(lèi),或者多次二分類(lèi),相對(duì)麻煩。
決策樹(shù)算法基本思想首先是從單一根節(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的單項(xiàng)特征值進(jìn)行測(cè)試,然后根據(jù)測(cè)試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn),再遞歸地對(duì)實(shí)例進(jìn)行測(cè)試并分配,直到到達(dá)葉節(jié)點(diǎn),最后實(shí)例就被完全分到葉節(jié)點(diǎn)的類(lèi)中。
隨機(jī)森林算法是在決策樹(shù)算法的基礎(chǔ)上,對(duì)樣本進(jìn)行了重采樣,并且也隨機(jī)選取了特征,形成多棵樹(shù),數(shù)據(jù)的最終分類(lèi)則通過(guò)投票的方式?jīng)Q定。顯然隨機(jī)森林算法的穩(wěn)定性和抗過(guò)擬合化的能力都得到了大幅度的提高,但是相應(yīng)的時(shí)間復(fù)雜度和計(jì)算成本也相應(yīng)提高了,對(duì)數(shù)據(jù)的依賴(lài)性相對(duì)較強(qiáng)。
KNN算法是一種主要依靠測(cè)量特征值之間的距離來(lái)進(jìn)行分類(lèi)的方法,其精度相對(duì)較高,可以用于非線性分類(lèi),對(duì)數(shù)據(jù)的依賴(lài)性相對(duì)較弱,不過(guò)計(jì)算量相對(duì)較大,并且對(duì)樣本分類(lèi)不均衡的問(wèn)題,容易帶來(lái)誤判,因此可解釋性也相對(duì)較差。
1. 2 基于聚類(lèi)的數(shù)據(jù)挖掘方法
聚類(lèi)方法主要是用于類(lèi)別不確定的情況下,利用數(shù)據(jù)在距離、密度、連通性等層面的相似度將數(shù)據(jù)聚合成不同的類(lèi)別。其中較為常見(jiàn)的數(shù)據(jù)挖掘算法有基于距離的K均值(K-means)算法、基于密度聚類(lèi)(DBSCAN)算法、基于Kohonen網(wǎng)絡(luò)的聚類(lèi)算法等。
K-means算法首先選取部分?jǐn)?shù)據(jù)組,隨機(jī)初始化產(chǎn)生中心點(diǎn),通過(guò)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,劃分類(lèi)別,對(duì)得到的每一類(lèi)中心點(diǎn)設(shè)為新的中心點(diǎn),經(jīng)過(guò)多次的迭代,得到最終的聚類(lèi)結(jié)果。在優(yōu)化過(guò)程中,可以采用多次隨機(jī)產(chǎn)生初始化中心點(diǎn),選取迭代最優(yōu)的結(jié)果。
DBSCAN算法的關(guān)鍵是確定半徑和臨界值,再?gòu)娜我鈹?shù)據(jù)點(diǎn)開(kāi)始,判斷以這個(gè)點(diǎn)為中心,確定半徑的圓內(nèi)包含點(diǎn)的數(shù)量是否超過(guò)臨界值,如果沒(méi)超過(guò)臨界值則該點(diǎn)被標(biāo)記為噪聲點(diǎn),反之則會(huì)被標(biāo)記為中心點(diǎn),然后重復(fù),直到所有的點(diǎn)都被遍歷,需要注意的是當(dāng)一個(gè)噪聲點(diǎn)位于另外一個(gè)中心點(diǎn)的圓內(nèi)時(shí),則這個(gè)點(diǎn)應(yīng)被標(biāo)記為邊緣點(diǎn),反之則仍為噪聲點(diǎn)。該算法的特點(diǎn)是不需要知道類(lèi)別的數(shù)量,但如何尋找更優(yōu)的半徑和臨界值,往往需要借助經(jīng)驗(yàn)或多次的嘗試。
基于Kohonen網(wǎng)絡(luò)的聚類(lèi)算法是一種基于自組織特征映射網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò)算法,網(wǎng)絡(luò)包含一個(gè)輸入層和一個(gè)輸出層,不包括隱層,輸入層中的每個(gè)輸入節(jié)點(diǎn)呈二維結(jié)構(gòu)分布,并都與輸出節(jié)點(diǎn)完全相通,且節(jié)點(diǎn)之間具有側(cè)向連接連。算法的過(guò)程是首先確定聚類(lèi)的初始類(lèi)中心,然后計(jì)算歐式距離,當(dāng)某個(gè)樣本輸入網(wǎng)絡(luò)時(shí),與樣本距離最近的一個(gè)輸出節(jié)點(diǎn)“獲勝”,該節(jié)點(diǎn)即是對(duì)相應(yīng)信號(hào)刺激反應(yīng)最敏感的節(jié)點(diǎn)。調(diào)整獲勝節(jié)點(diǎn)及其鄰接節(jié)點(diǎn)的網(wǎng)絡(luò)權(quán)值,將使“獲勝”節(jié)點(diǎn)更接近相應(yīng)樣本。通過(guò)調(diào)整權(quán)值則會(huì)使該節(jié)點(diǎn)再次接近這類(lèi)樣本。當(dāng)不同結(jié)構(gòu)的樣本輸入網(wǎng)絡(luò)后,將有其他輸出節(jié)點(diǎn)分別“獲勝”和進(jìn)行權(quán)值調(diào)整。這樣經(jīng)過(guò)樣本輸入和不斷的權(quán)值調(diào)整,使得最后的結(jié)果呈現(xiàn)出若干輸出節(jié)點(diǎn)分別對(duì)應(yīng)著若干樣本群,且每個(gè)樣本群內(nèi)部輸入變量結(jié)構(gòu)特征相似,不同樣本群間結(jié)構(gòu)特征差異明顯。
2 國(guó)家森林資源清查數(shù)據(jù)的分析
國(guó)家森林資源清查的基礎(chǔ)數(shù)據(jù)主要包括樣地、樣木和跨角林地等數(shù)據(jù),成果數(shù)據(jù)還包括了生長(zhǎng)量、生物量和碳儲(chǔ)量等數(shù)據(jù),范圍涉及到全國(guó)各個(gè)省份(實(shí)際上從森林資源清查體系上來(lái)說(shuō)是各個(gè)副總體),百余個(gè)樹(shù)種組,并且從基礎(chǔ)數(shù)據(jù)到成果數(shù)據(jù)的過(guò)程中也是經(jīng)歷過(guò)邏輯檢查、數(shù)據(jù)清洗和多輪的模型推演,以2021年度為例,基礎(chǔ)的樣地?cái)?shù)據(jù)就達(dá)到了45.7萬(wàn)條,涉及到的數(shù)據(jù)記錄達(dá)到600億組,各類(lèi)蓄積量、生物量、碳儲(chǔ)量、生長(zhǎng)量等模型也多達(dá)1297組。因此我們?cè)趯?duì)這些數(shù)據(jù)進(jìn)一步挖掘的時(shí)候需要充分考慮其數(shù)據(jù)的特征,并且對(duì)數(shù)據(jù)挖掘的方向進(jìn)行預(yù)先的設(shè)計(jì)。
2. 1 國(guó)家森林資源清查數(shù)據(jù)的特征
從基礎(chǔ)數(shù)據(jù)來(lái)看,從類(lèi)型上分,主要可以分為樣地和樣木數(shù)據(jù)兩類(lèi)。樣地?cái)?shù)據(jù)的屬性因子有90項(xiàng),其主要因子包含坐標(biāo)因子4項(xiàng)、地形地貌因子6項(xiàng)、土壤因子10項(xiàng)、覆蓋類(lèi)型因子6項(xiàng)、立木因子7項(xiàng)等。樣木數(shù)據(jù)的屬性因子有22項(xiàng),其主要因子有樹(shù)種、胸徑、蓄積量等。從關(guān)聯(lián)關(guān)系的角度來(lái)看,是由樣地號(hào)這個(gè)字段進(jìn)行關(guān)聯(lián),樣地表的多個(gè)屬性是由樣木表計(jì)算得到的,具體計(jì)算過(guò)程因?yàn)椴簧婕暗奖敬螖?shù)據(jù)優(yōu)化,故不加以贅述。
從成果數(shù)據(jù)來(lái)看,從類(lèi)型上分,主要可以分為生長(zhǎng)量和儲(chǔ)量?jī)煞N,其中儲(chǔ)量包含了蓄積量、生物量和碳儲(chǔ)量,三者之間具有密不可分的聯(lián)系,而生長(zhǎng)量和儲(chǔ)量之間則主要通過(guò)多期數(shù)據(jù)進(jìn)行模型推演計(jì)算得到。
由此可以看出國(guó)家森林資源清查數(shù)據(jù)的核心是樣木和樣地?cái)?shù)據(jù),屬性因子聚焦于地理信息(包含坐標(biāo)、地形地貌)和立木信息(包含覆蓋情況和測(cè)樹(shù)因子)兩類(lèi)。
2. 2 森林資源清查數(shù)據(jù)挖掘的主要方向
本次數(shù)據(jù)挖掘的主要目的是為了森林資源動(dòng)態(tài)監(jiān)測(cè)和遙感反演,因此數(shù)據(jù)挖掘的主要任務(wù)是在于尋找不同環(huán)境下樹(shù)木的生長(zhǎng)情況和立木情況之間的關(guān)系。
具體來(lái)說(shuō),森林資源動(dòng)態(tài)監(jiān)測(cè)主要研究的是一片區(qū)域(省市縣鄉(xiāng)村各級(jí)都有可能)森林資源的變化情況,基于國(guó)家層面的森林資源連續(xù)清查抽樣框架不足以滿(mǎn)足精度要求。因此可以從兩個(gè)方面對(duì)國(guó)家森林資源清查數(shù)據(jù)進(jìn)行優(yōu)化,一是從生長(zhǎng)量模型的角度,將不同地域相同樹(shù)種的樣地、樣木數(shù)據(jù)進(jìn)行歸并,擴(kuò)充樣本數(shù)量,尋找內(nèi)在聯(lián)系;二是從遙感反演的角度,將不同地域相同樹(shù)種的胸徑和立地條件之間建立關(guān)系,尋找新的分組模式,便于下一步遙感反演模型的建立。
3 國(guó)家森林資源清查數(shù)據(jù)的數(shù)據(jù)挖掘
因?yàn)閲?guó)家森林資源連續(xù)清查始于20世紀(jì)70年代,過(guò)早的數(shù)據(jù)由于調(diào)查設(shè)備相對(duì)簡(jiǎn)陋,保存手段較為落后,并且生態(tài)環(huán)境的變化又比較明顯,因此研究選取的是近四次國(guó)家森林資源連續(xù)清查數(shù)據(jù)。我國(guó)幅員遼闊,為避免出現(xiàn)地域跨越過(guò)大,在數(shù)據(jù)挖掘過(guò)程中造成的數(shù)據(jù)量過(guò)大,并且噪聲性數(shù)據(jù)過(guò)多,影響數(shù)據(jù)挖掘的效果,我們把研究區(qū)域縮小到華東區(qū)域。
3. 1 基于樣地生長(zhǎng)量的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的過(guò)程為:
(1)選取生長(zhǎng)量、副總體、地貌、土壤厚度、平均胸徑、優(yōu)勢(shì)樹(shù)種作為分析字段,對(duì)優(yōu)勢(shì)樹(shù)種組進(jìn)行歸并;
(2)以副總體為初始聚類(lèi)數(shù),對(duì)數(shù)據(jù)按照不同優(yōu)勢(shì)樹(shù)種組聚類(lèi),以凝聚和分離的輪廓測(cè)量作為聚類(lèi)質(zhì)量的衡量標(biāo)準(zhǔn),得到新的類(lèi)分組;
(3)以新的類(lèi)分組為目標(biāo)字段,做分類(lèi)算法,得到新分類(lèi)的準(zhǔn)確度;
(4)對(duì)新分類(lèi)的結(jié)果進(jìn)行分析,確定優(yōu)化方法。
在聚類(lèi)算法的選擇上,因?yàn)椴煌瑯?shù)種組的聚類(lèi)半徑和臨界值差異會(huì)相對(duì)較大,因此會(huì)對(duì)優(yōu)化帶來(lái)較大的困難,所以排除DBSCAN算法,選擇K-means算法、基于Kohonen網(wǎng)絡(luò)的聚類(lèi)算法。
在分類(lèi)算法的選擇上,由于是多分類(lèi)問(wèn)題,所以排除SVM算法,經(jīng)過(guò)嘗試,計(jì)算成本不是非常大的情況下,隨機(jī)森林算法與決策樹(shù)算法相比,更具有優(yōu)勢(shì),因此最終的選擇是KNN算法和隨機(jī)森林算法。
聚類(lèi)算法的評(píng)價(jià)標(biāo)準(zhǔn)為凝聚和分離的輪廓測(cè)量即輪廓系數(shù)S:
S=(B-A)/max(A,B)(1)
式中,A是記錄與其聚類(lèi)中心的距離;B是記錄與其非所屬最近聚類(lèi)中心的距離;S的取值區(qū)間為[-1,1],且越趨近于1,效果越好,而原始數(shù)據(jù)的輪廓系數(shù)的區(qū)間為[0.2,0.25]。
聚類(lèi)算法的評(píng)價(jià)指標(biāo)為模型的決定系數(shù),即R2,數(shù)據(jù)挖掘的結(jié)果見(jiàn)表1。
3. 2 基于樣木的胸徑和立地條件的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的過(guò)程為:
(1)選取副總體、地貌、土壤厚度、胸徑、樹(shù)種作為分析字段,將樹(shù)種進(jìn)行歸并至樹(shù)種組;
(2)以副總體為初始聚類(lèi)數(shù),對(duì)數(shù)據(jù)按照不同樹(shù)種組進(jìn)行聚類(lèi),得到新的類(lèi)分組;
(3)以新的類(lèi)分組為目標(biāo)字段,做分類(lèi)算法,得到新分類(lèi)的準(zhǔn)確度;
(4)對(duì)新分類(lèi)的結(jié)果進(jìn)行分析,確定優(yōu)化方法。
聚類(lèi)和分類(lèi)算法的選擇以及評(píng)價(jià)標(biāo)準(zhǔn)同上。原始數(shù)據(jù)的輪廓系數(shù)的區(qū)間為[0.22,0.26],數(shù)據(jù)挖掘的結(jié)果見(jiàn)表2。
4 數(shù)據(jù)挖掘結(jié)果分析與結(jié)論
本文研究結(jié)果可以看出,國(guó)家森林資源清查數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)挖掘的優(yōu)化可以體現(xiàn)在幾個(gè)方面:
(1)可以歸并模型組,擴(kuò)大研究區(qū)域內(nèi)具有相同特征的樣地?cái)?shù)量,方便后續(xù)的遙感反演,如研究楊樹(shù)類(lèi)的生長(zhǎng)情況時(shí),用新的聚類(lèi)方式,提升了輪廓系數(shù),減少了類(lèi)別,并且后續(xù)可以依照新的分類(lèi)模型,去篩選數(shù)據(jù),提高之后反演的精度;
(2)可以適當(dāng)增加模型組,在進(jìn)一步研究蓄積量、生物量、碳儲(chǔ)量等指標(biāo)時(shí),因地制宜的構(gòu)建模型組,能夠提高預(yù)測(cè)精度,做出更好的測(cè)算;
(3)可以避免一些經(jīng)驗(yàn)主義的錯(cuò)誤,如“南方山區(qū)的松類(lèi)長(zhǎng)勢(shì)都差不多”,減少因主觀因素造成錯(cuò)誤的分類(lèi),影響后續(xù)的反演結(jié)果。
森林資源清查數(shù)據(jù)對(duì)滿(mǎn)足國(guó)家重大需求具有重要意義,可以為戰(zhàn)略規(guī)劃、生態(tài)環(huán)境保護(hù)、木材和非木材林產(chǎn)品供應(yīng)、災(zāi)害防控和經(jīng)濟(jì)發(fā)展等方面提供重要支持。基于數(shù)據(jù)挖掘的國(guó)家森林資源清查數(shù)據(jù)優(yōu)化方法涉及面非常廣泛,可以研究的方向也有很多,本文僅以華東區(qū)域?yàn)槔?,選取了部分清查數(shù)據(jù),進(jìn)行探索,做出了一些優(yōu)化,為后續(xù)更深層次的研究鋪墊。
參考文獻(xiàn)
[1] 曾偉生," 曹迎春," 陳新云," 等." 河北省主要樹(shù)種單木和林分生長(zhǎng)率模型研建[J]. 林業(yè)資源管理, 2020(1): 30 - 37.
[2] 曾偉生," 陳新云," 楊學(xué)云." 內(nèi)蒙古主要樹(shù)種組立木胸徑生長(zhǎng)率模型研建[J]. 林業(yè)資源管理, 2018(2): 38 - 42, 110.
[3] M. Gerdes, D. Galar, D. Scholz. Genetic algorithms and decision trees for condition monitoring and prognosis of A320 aircraft air conditioning[J]. 2017, 59: 424 - 433.
[4] 曾偉生," 夏 銳." 全國(guó)森林資源調(diào)查年度出數(shù)統(tǒng)計(jì)方法探討[J].林業(yè)資源管理,2021(2): 29 - 35.
[5] Navarro C R M, Gonzalez F E, Garcia G J, et al. Impact of plot size and model selection on forest biomass estimation using airborne LiDAR: A case study of pine plantations in southern Spain[J]. Journal of Forest Science, 2017, 63: 88 - 97.
[6] Sullivan M J, Lewis S L, Hubau W, et al. Field methods for" "sampling tree height for tropical forest biomass estimation[J]. Methods in Ecology and Evolution, 2018, 9: 1179 - 1189.
[7] Wang Y, Ni W, Sun G, et al. Slope-adaptive waveform metrics of large footprint lidar for estimation of forest aboveground biomass[J]. Remote Sensing of Environment, 2019, 224: 386 - 400.
[8] Poudel K P, Temesgen H, Gray A N. Evaluation of sampling
strategies to estimate crown biomass[J]. Forest Ecosystems, 2015, 2(1): 1.
[9] Gilbert B, Lowell K. Forest attributes and spatial autocorrelation and interpolation: effects of alternative sampling schemata in the boreal forest[J]. Landscape amp; Urban Planning, 1997, 37: 235 - 244.
[10] 鄒杰." 基于數(shù)據(jù)挖掘的數(shù)據(jù)清洗及其評(píng)估模型的研究[D].北京: 北京郵電大學(xué), 2017.
[11] 朱文軒." 基于數(shù)據(jù)挖掘的我國(guó)林業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法與實(shí)證研究[D]. 北京: 北京林業(yè)大學(xué), 2021.
[12] 劉海," 徐旭平," 周蔚," 等." 林業(yè)樣地的數(shù)據(jù)清洗方法研究及其應(yīng)用[J].安徽工程大學(xué)學(xué)報(bào), 2020, 35(3): 62 - 66.