摘要:構(gòu)建植被覆蓋度模型是運用數(shù)學算法對作物群體監(jiān)控系統(tǒng)中采集的數(shù)據(jù)進行處理的一種數(shù)學方法,常用的構(gòu)建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運用的相關(guān)理論,以期為作物群體監(jiān)控系統(tǒng)應用提供算法基礎(chǔ)。
關(guān)鍵詞:植被覆蓋度;構(gòu)建模型;KNN;樸素貝葉斯;Kmeans
中圖分類號:TP183 ? ?文獻標識碼:A ? ?文章編號:1674-1161(2023)03-0038-02
在電子信息技術(shù)飛速發(fā)展的背景下,作物群體監(jiān)控系統(tǒng)成為當下農(nóng)業(yè)科研的熱點,該系統(tǒng)可以服務(wù)精細化農(nóng)業(yè),準確了解作物生長狀況,實現(xiàn)對作物生長發(fā)育的控制,對提高作物產(chǎn)量和質(zhì)量具有重要意義[1]。作物群體監(jiān)控系統(tǒng)主要通過無人機搭載高光譜成像設(shè)備采集水稻圖像數(shù)據(jù),截取部分圖像進行預處理、樣本擴展庫構(gòu)建和圖像分割,最后構(gòu)建植被覆蓋度模型。構(gòu)建植被覆蓋度模型是運用數(shù)學算法對作物群體監(jiān)控系統(tǒng)中采集的數(shù)據(jù)進行處理的一種數(shù)學方法,常用的構(gòu)建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運用的相關(guān)理論,以期為作物群體監(jiān)控系統(tǒng)應用提供算法基礎(chǔ)。
1 KNN模型構(gòu)建
KNN訓練算法是一種基本的實例分類訓練算法。該算法假設(shè)已成功給定了一個被稱為分類訓練且類別已確定的實例數(shù)據(jù)集,在實例分類時新加入一個實例,依照其中k個最近相鄰的訓練學習實例類別,通過多數(shù)實例組合進行表決等多種手段,對其類型進行綜合預測。因此,KNN算法并沒有必要提供顯式的自動機器深度學習計算過程,它實際上是利用訓練數(shù)據(jù)集對特征向量空間進行劃分,并作為其分類模型[2]。
1.1 KNN算法原理
KNN數(shù)值模型的3個重要基礎(chǔ)性設(shè)計要素分別是k值的正確選取、距離值的衡量及分類決策準則。當k值三要素均已確定時,對于任何新的輸入實例,其所屬的類都是唯一可以被確定的,即可以依照要素把特征空間分割成幾組子空間,確定各子空間中每一點都所屬的子空間類。
1.2 基于KNN距離度量
在一個特征數(shù)據(jù)空間中兩個不同實例的點之間的數(shù)據(jù)距離值,也就是兩個不同實例的點之間的數(shù)據(jù)相似性不同程度的反映。例如,KNN模型的向量特征實數(shù)空間為三維的向量實數(shù)空間時,使用的空間距離計算公式為歐式空間距離,其距離公式為
[L2(xi,xj)=(l=13|x(l)i-x(l)j|2)12] ? ? ? ? ? ? ? ?(1)
1.3 k值的選擇
k值不同,KNN模型得到的結(jié)果也會有很大差異。當給定的k值較小時,相當于使用較小的鄰域中輸入訓練過程實例的值來對其結(jié)果進行模擬預測,學習時的近似和模擬誤差也同樣會逐漸減小,只有和輸入的一個訓練過程實例較近的一個輸入訓練過的實例,才真正能夠?qū)ξ覀冾A測的學習結(jié)果有效。k值降低代表著整個系統(tǒng)模型的擬合設(shè)置過程變得更加復雜,極易產(chǎn)生過擬合現(xiàn)象。當給定的k值較大時,相當于對較大鄰域內(nèi)部智能訓練過程實例的一個數(shù)據(jù)模型進行了數(shù)值預測,此時的優(yōu)點是可以大幅降低根據(jù)學習公式估算時的誤差,缺點是根據(jù)學習公式估算的近似度和誤差將會逐漸加大。k值增大意味著整個模型中的整體設(shè)計變得更加簡單。
1.4 KNN模型構(gòu)建過程
1) 計算每個已分好類的點與待測點的歐式距離;2) 把各點到待測點的距離按從小到大進行排序;3) 根據(jù)給定的k值選擇距離最小的k個點;4) 觀察k個點所代表類別的各自出現(xiàn)次數(shù);5) 取出出現(xiàn)次數(shù)最多的點的類別,并把待測點歸為這一類別。
2 樸素貝葉斯模型構(gòu)建
樸素貝葉斯模型是基于貝葉斯定理及其樸素特征符合條件的幾個獨立基本假設(shè)而逐步提出來的。該屬性計算簡化方法以貝葉斯算法模型為理論基礎(chǔ),對屬性彼此獨立的計算目標和取值函數(shù)進行簡化,沒有任何一個屬性變量對其所需占據(jù)的決策過程結(jié)果的影響比重很大,也沒有任何一個屬性變量對它所需要占據(jù)的決策過程結(jié)果的影響比重很小。
2.1 構(gòu)建算法
對于給定的訓練數(shù)據(jù)集,首先做出條件獨立的假設(shè),得到輸入和輸出的聯(lián)合概率分布;然后在此模型基礎(chǔ)上給出輸入x,利用貝葉斯定理求出后每個分類的后驗概率,選出其中最大者作為輸出y[3]。
樸素貝葉斯方法主要是通過對聯(lián)合訓練的多個數(shù)據(jù)模型進行聯(lián)合學習分析來幫助理解的一種聯(lián)合概率分布方法。先驗概率分布
P(Y = ck) , k = 1,2,...,K ? ? ? ? ? ? ? ? ?(2)
條件概率分布
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck ),k=1,
2,...,K ? ?(3)
樸素貝葉斯法就條件概率分布公式做出了保持條件概率獨立性的基本假設(shè),這種算法其實是比較強烈的數(shù)學假說,樸素貝葉斯法因之得名。具體來說,條件獨立性可以用一種假設(shè)性來表示
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck )
=ΠP(X(j)=x(j)|Y=ck) ? ? ? (4)
樸素貝葉斯分類時,對給定的輸入x,通過這個學習過程得到的樸素模型可用來直接計算后驗概率分布P(Y=ck|X=x),將后驗概率最大的類作為x的類輸出。
2.2 樸素貝葉斯分類流程
2.2.1 準備工作階段 根據(jù)具體情況確定特征屬性并適當劃分,再由人工將待分類項分類,形成訓練樣本集合。準備工作流程是該方法唯一通過人工分類的流程,對后續(xù)樣本分類質(zhì)量起到至關(guān)重要的作用
2.2.2 分類器訓練階段 將特征屬性和訓練樣本輸入,根據(jù)輸入數(shù)據(jù)計算每個特征屬性劃分對每個類別的條件概率預估以及每個類別在訓練樣本中出現(xiàn)的頻率,記錄并輸出分類器。
2.2.3 應用階段 應用第二階段分類器對待分類項分類,輸出待分類項和類別的映射關(guān)系。
3 Kmeans模型構(gòu)建
Kmeans是一種非監(jiān)督學習、面向聚類函數(shù)的算法,其算法設(shè)計思路是當k被賦予特定值、使用原始群集中心點時,每個點(或數(shù)據(jù)記錄)將被劃分為離其最近群集中心所代表的群集。定義所有群體類集中的中心點后,再次遍歷所有的點,計算下一次聚類中心(就是取點的平均值),然后對其他點進行一個替換點并分配中心點和迭換替代點并更新一個群集內(nèi)的所有點的替換步驟,直到1 個群集內(nèi)所有點的變化很小或能重新達到指定的迭代次數(shù)[4]。
3.1 算法流程
1) 鑒于k值未知,故先給定k值,即聚類后得到的k個簇;2) 遍歷所有數(shù)據(jù),在其中隨機選中k個數(shù)據(jù)點作為聚類中心點,即每個簇的中心;3) 通過計算每個點與聚類中心點的歐式距離,比較所有距離的大小,取最小距離并將點歸入此集合內(nèi);4) 把所有數(shù)據(jù)回歸到最優(yōu)集合(包含 k 個集合),對各集合重新求解,再對其中的質(zhì)心進行求解;5) 如果計算聚類得到的質(zhì)心與原始質(zhì)心之間穩(wěn)定距離遠遠小于某個點設(shè)置的質(zhì)心閾值,則意味著重新計算的質(zhì)心在此位置上已變化不大且趨于穩(wěn)定(稱為收斂),此時可直接確定該質(zhì)心聚類已達到期望的閾值結(jié)果,算法可能會被自動終止;6) 若新的聚類中心點與原來的中心點之間距離變化很大,則需替換3~5 個步驟。
3.2 數(shù)學原理
將Kmeans算法原理用數(shù)學公式表示:假設(shè)集合劃分成k個,標記為(C1,C2,...CK),則得到的最小化平方誤差E為
[E=i=1kx∈Ci||x-μi||22] ? ? ? ? ? ? ? ? ? ? ? ? (5)
式中,μi是集合Ci的平方均值向量,也稱為質(zhì)心,其表示方法為:
[μi=1Cix∈Cix] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
優(yōu)點:1) Kmeans是最簡單的聚類算法,實現(xiàn)起來較為容易且速度較快;2) 當聚類得到的集合均較密集且每個集合之間的差異較大,則該模型實現(xiàn)得較好;3) 該算法需確定的參數(shù)很少,只有集合個數(shù)k值。
缺點:1) k值未知,需人為設(shè)定,但通常情況下確定k值很難;2) Kmeans聚類算法對聚類開始的中心點選取要求很高,不同隨機點直接獲得的初始聚類選擇結(jié)果截然不同,故對其聚類結(jié)果產(chǎn)生極大影響;3) 通過迭代方式得到的解,有極大可能會得到局部最優(yōu)解,但無法得到全局最優(yōu)解,從而為模型構(gòu)建帶來很大誤差,影響真實效果。
參考文獻
[1] 呂霞,馬向陽,冮地,等.基于水稻群體監(jiān)控系統(tǒng)的植被覆蓋度模型對比研究[J].農(nóng)業(yè)科技與裝備,2022(1):47-48.
[2] 劉文斌,張樂.基于KNN的卷積神經(jīng)網(wǎng)絡(luò)改進算法[J].信息與電腦(理論版),2019(2):48-49.
[3] 李濤.多源傳感器數(shù)據(jù)融合及其在目標檢測中的應用[D].成都:電子科技大學,2015.
[4] 鐘穗希,李子波,唐榮年.基于PCA-Kmeans聚類法的橡膠樹葉片氮含量的近紅外高光譜診斷模型研究[J].海南大學學報(自然科學版),2020,38(3):260-269.
Theoretical Research on the Construction of Three Planting Coverage Models
L? Xia
(Liaoning Institute of Agricultural Mechanization, Shenyang 110161, China)
Abstract: The construction of vegetation coverage model is a mathematical method that uses mathematical algorithms to process the data collected in crop population monitoring system. The commonly used construction models mainly include KNN, Naive Bayes, Kmeans, etc. This paper introduced the relevant theories of the application of the three models in the extraction of vegetation coverage, so as to provide the algorithm basis for the application of crop population monitoring system.
Key words: vegetation coverage; construct model; KNN; Naive Bayes; Kmeans