侯云濤,蔡曉華,吳澤全,東忠閣
(1.黑龍江省農(nóng)業(yè)機械工程科學(xué)研究院,哈爾濱 150081;2.哈爾濱博納科技有限公司,哈爾濱 150081)
近年來,隨著人民群眾對奶產(chǎn)品的需求加大及規(guī)?;膛pB(yǎng)殖場數(shù)目的快速增加,奶牛養(yǎng)殖過程的自動化、智慧化和網(wǎng)絡(luò)信息化程度亟待提高。加強對奶牛個體日常的監(jiān)控和管理水平,對保障奶牛健康和奶產(chǎn)量十分重要[1]。
奶牛個體的行為特征按照不同的判斷準(zhǔn)則和應(yīng)用目的有多種不同的分類依據(jù)和方法。相關(guān)實驗成果表明:奶牛發(fā)情初期會出現(xiàn)莫名興奮及難以平靜等現(xiàn)象,而沒有發(fā)情奶牛則表現(xiàn)得相對散漫。奶牛處在發(fā)情期時,時常會做出爬跨類行為;奶牛生病時,躺臥、站立等行為時間往往大幅度增長[2]。因此,監(jiān)測并準(zhǔn)確識別奶牛運動行為特征是判斷奶牛是否處于發(fā)情和身體狀況異常的有效方法之一。
目前,我國多半的奶牛養(yǎng)殖過程采取的依然是傳統(tǒng)的人工養(yǎng)殖,往往需要很多飼養(yǎng)人員,且很多時候不能快速診斷奶牛疾病,難以迅速、精確地判斷出奶牛是否處在發(fā)情階段,直接影響了初奶的營養(yǎng)、口感及產(chǎn)出量,大幅度降低了奶牛養(yǎng)殖效率。
近年來,國內(nèi)外學(xué)者已經(jīng)廣泛展開運用無線物聯(lián)網(wǎng)技術(shù)對奶牛行為進(jìn)行實時監(jiān)控的研究。澳大利亞CSIRO研究機構(gòu)的科研專家利用三軸加速度計采集奶牛的體表溫度、三軸加速度、速度、三軸磁場強度值和個體位置等數(shù)據(jù),從而采用閾值法來分類和判定動物行為特征[3]。美國的相關(guān)科研專家通過行為特征數(shù)據(jù)還原奶牛躺臥、站立、運動等行為,從而判別奶牛是否健康[4]。北歐的研究人員利用支持向量機(SVM)分類算法分類并判斷奶牛的站、躺、反芻、食料、正常行走和跛腳走等日常行為特征。Nadimi等使用基于ZigBee無線傳感器網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)監(jiān)測動物行為并對其行為模式分類。尹令等人通過分析三軸加速度數(shù)據(jù),還原奶牛的運動行為,從而判斷奶牛是否處于發(fā)情期。
本文設(shè)計了一種配置有加速度傳感器的基于ZigBee無線傳感技術(shù)的傳感器節(jié)點,將節(jié)點以項圈的形式佩戴在奶牛脖子上,在不干涉其正?;顒拥那闆r下實時監(jiān)測,并采集奶牛三軸運動加速度數(shù)據(jù),利用基于二叉決策樹支持向量機(Support Vector Machine,SVM)時間序列模型識別奶牛個體的行為特征,使飼養(yǎng)人員能夠及早了解奶牛的身體狀況。
實驗中使用的測試數(shù)據(jù)來源于4頭奶牛的視頻記錄,其中兩頭是處于發(fā)情期的成年奶牛。這4 頭奶牛被散養(yǎng)在一個可自由活動的場所內(nèi),奶牛的運動行為特征由攝像機拍攝和記錄。攝像機的記錄時間與數(shù)據(jù)采集裝置的測試時間同步,通過查看錄相可以精確了解奶牛每個時刻的動作,通過加速度數(shù)值可以看出奶牛運動速度變化的快慢程度。測試中,數(shù)據(jù)采集裝置(加速度傳感器)的安裝方向如下:x軸指向奶牛的頭;傳感器y軸與傳感器x軸構(gòu)成一個平面,正方向指向奶牛身體外側(cè);z軸指向地面。加速度傳感器采樣頻率為10Hz。
采集的奶牛三軸加速度數(shù)據(jù)是依據(jù)時間順序排列的運動數(shù)據(jù)的集合,每條數(shù)據(jù)都是依據(jù)時序的順序排列,是多元時序數(shù)據(jù)。在時序分析中,最顯著的特點是按照時序排列數(shù)據(jù)的先后次序。在分析時間序列時,需要注意的應(yīng)是時序數(shù)據(jù)在某個時間區(qū)域內(nèi)的變化方式和內(nèi)在的變化規(guī)則,而不是對于時序中某一單個數(shù)據(jù)點分析[5]。
奶牛三軸加速度采集裝置佩帶在奶牛頸部,裝置的些許晃動和碰撞都會產(chǎn)成對時序數(shù)據(jù)的噪聲疊加,這些因素都給對時序數(shù)據(jù)分析帶來相當(dāng)?shù)睦щy。同時,由于時序數(shù)據(jù)具有高維度的特點,因此直接在原始數(shù)據(jù)上進(jìn)行分析時不僅運算量大,還會有大量冗余信息,從而影響算法的可靠性和準(zhǔn)確性。為此,本研究針對時序數(shù)據(jù)的有序性、信息量大及特征類別多等特點,通過計算采樣點之間的距離,將加速度時序數(shù)據(jù)劃分成子序列段的集合。
為能夠準(zhǔn)確地劃分子序列段,首先需要獲得每個采樣序列點ai的點距離Radius(ai),然后通過與設(shè)定的閾值σ比較(閾值根據(jù)具體的應(yīng)用領(lǐng)域確定),按照比較結(jié)果尋找ai的同質(zhì)點和同質(zhì)區(qū)域,最終得到子序列段Lt(k)(下標(biāo)t表示t時刻的子序列段,k為子序列段的長度)。對時序數(shù)據(jù)精確的分段處理,能夠高效地選擇和記錄短時域內(nèi)相同運動行為的顯著局部特性,同時又不會丟失全時間域內(nèi)所有行為的全局特性。
得到子序列段Lt(k)后,按照本文對子序列特征向量的定義,計算得到子序列的特征向量組。每當(dāng)獲得20個子序列特征向量組后,這20組特征數(shù)據(jù)將由終端節(jié)點通過ZigBee無線網(wǎng)絡(luò)上傳至PC機,依次輸入支持向量機分類模型,從而判斷在這20個時間子序列段內(nèi)奶牛個體的運動狀態(tài)。如果較長采樣時間(2min)內(nèi)仍未獲得足夠20個的子序列特征向量組,那么將由終端節(jié)點將采樣時間(2min)內(nèi)的子序列特征向量組上傳至PC機,判斷采樣時間(2min)內(nèi)的奶牛個體的運動狀態(tài)。以上兩種操作中,第1種操作的優(yōu)先級高于第2種操作。也就是說,當(dāng)獲得20個子序列特征向量組的采樣時間小于2min時,上傳數(shù)據(jù)后,子序列個數(shù)和采樣時間同步清零;若采樣時間(2min)內(nèi)仍未獲得20個子序列特征向量組,上傳采樣時間(2min)內(nèi)的各子序列特征向量組,子序列個數(shù)和采樣時間同步清零。
上文涉及到的相關(guān)定義如下:
定義1(時間采樣序列點):由多維度數(shù)據(jù)和對應(yīng)的記載時間組成的時間數(shù)據(jù)的集合,記為x={(a0,t0),...,(an,tn)},元素(ai,ti)代表采樣序列x在ti時刻的采樣值ai,記載時間ti必須是遵守遞增的(i≤j?ti≤tj,0≤i,j≤n)。任意時刻ti的采樣值記作ai=(ai,x,ai,y,ai,z),下標(biāo)x,y,z代表采樣點對應(yīng)的坐標(biāo)。
定義2(序列采樣點間距離):針對任意連續(xù)時刻ti、ti-1對應(yīng)的2個采樣點ai與ai-1之間的空間距離Radius定義為Radius=|ai,x-ai-1,x|+|ai,y-ai-1,y|+|ai,z-ai-1,z|,記作Radius(ai)。
定義3(序列同質(zhì)采樣點):如果任意時刻的兩個連續(xù)采樣點at、at-1間的距離Radius和闕值σ符合Radius(ai)<σ,則稱此2點為序列同質(zhì)采樣點。
定義4(序列同質(zhì)區(qū)域):對于從采樣點ai的采樣時刻ti到采樣點ai+n的采樣時刻ti+n的一段持續(xù)采樣時間區(qū)域T,若符合該時間區(qū)域內(nèi)相鄰的每個采樣點都是同質(zhì)點,并且n 定義5(子序列特征向量組): (1) 其中,Amax=(Max|at,at+1,...,at+k|)代表子序列段數(shù)據(jù)中最大加速度的絕對值,Aavg(Lt(k))、Amin(Lt(k))分別是子序列段數(shù)據(jù)中平均加速度、最小加速度的絕對值。以上3個特征數(shù)據(jù)分別從最大、平均值和最小加速度3個方面來衡量三軸加速度的差別。 EnergyDis(Lt(k))體現(xiàn)了奶牛運動能量的差異化。能量特征值計算公式為 (2) 式(2)給出了子序列段時序數(shù)據(jù)中綜合加速度的平均能量的差異。 DeviaDis(Lt(k))體現(xiàn)了體現(xiàn)了三軸加速度波動的狀況,計算公式為 (3) 這個特征值給出了子序列段數(shù)據(jù)中綜合加速度波動的差別。 (4) 約束條件為 (5) 圖1 最優(yōu)分類超平面 高維度映射空間的高維度向量內(nèi)積總會在輸入樣本空間找到一個核函數(shù),能夠滿足Mercer條件。使得K(xi,xj)=(Φ(xi)·Φ(xj)),所以并非必需尋求非線性映射的具體函數(shù)表達(dá)式,從而達(dá)到避開求非線性映射而轉(zhuǎn)求內(nèi)積的目的,即求解 (6) 約束條件為 (7) 常見的核函數(shù)有: (8) 徑向基核K(x,xi)=exp(-γ|x-xi|2) (9) Sigmoid核K(x,xi)=tanh(r(x·xi)+c) (10) 線性核K(x,xi)=x·xi (11) (12) 當(dāng)樣本數(shù)據(jù)在高維映射空間無法進(jìn)行無誤差分離時,引入松弛變量ξi≥0,并通過求解公式(13)保證數(shù)據(jù)誤分率最小,即 (13) 其中,ξi為衡量樣本數(shù)據(jù)(xi·yi)對可以分離的預(yù)期偏離參數(shù)。C>0是1個常數(shù),它反映了對誤分的補償水平,保證分類機的繁復(fù)性和無法分離點數(shù)量之間的最優(yōu)性;C越大代表對誤分的補償就越大;C為平衡因子,反映第1項與第2項之間的權(quán)衡。使用Lagrange乘子方法,求解可轉(zhuǎn)化為 (14) 約束條件為 (15) 作為一種機器學(xué)習(xí)算法,支持向量機具有可訓(xùn)練的優(yōu)勢,但由于訓(xùn)練所需樣本較少,所以較多地應(yīng)用在小樣本分類。對于不同的多類分類規(guī)劃,使用支持向量機的具體處理方式也各不相同,主要有一對余(OAA)、一對一(OAO)及二叉樹等??紤]奶牛行為特征分類的實際情況,本研究采取二叉樹結(jié)構(gòu),自根節(jié)點從上至下,逐層構(gòu)造SVM 兩類分類器的分類識別算法。 在使用二叉樹SVM對樣本集進(jìn)行分類時,不同的分類順序會導(dǎo)致分類結(jié)果出現(xiàn)較大差異。為了提高針對奶牛行為特征的分類精度,努力使分辨誤差不在靠近根結(jié)點的分類器中產(chǎn)生,要求必須把辨識度最大的類最先分辨出來。按照訓(xùn)練參數(shù)的特征值測算各類元素集彼此的易分程度,普通的分離是用類空間中心間的歐式距離或Mahalanobis距離作為各類之間的易分性指數(shù),但這種分離策略的缺陷在于:類之間的易分性,很多時候還需要考慮類的數(shù)學(xué)分布。圖2為不同的類間可分離性比對示意。由于(a)、(b)兩圖中所示意的類之間的距離是一樣的,因此可以很容易得出結(jié)論:(a)中的兩個類遠(yuǎn)遠(yuǎn)要比(b)中的兩個類難于區(qū)分。 圖2 類間可區(qū)分性比對示意圖 所以,類的數(shù)學(xué)分布是影響類間區(qū)分性測度的關(guān)鍵考慮因素[6]。按照以上結(jié)論,本研究方法考慮類之間相似度定義時,在考慮類中心點之間的距離的同時,基于類之間的空間分布,提出一種新的類之間的分離度定義。 第i類中心點定義為 (16) 其中,Φ(xs)表示將輸入空間的樣本多維特征向量用非線性映射Φ:Rm→Rn映射到對應(yīng)的高維空間中。 i類與j類的距離定義為 (17) 其中 類之間的相似度定義為 (18) 其中,(Rj=max‖xt-mi‖)。 綜合以上的研究,本文提出一種聚類與二叉樹SVM融合的分類方法。算法步驟具體如下: 第1步:由式(18)得到類與類之間的相似程度; 第2步:將具有最高相似度的兩個類合并構(gòu)成一個新的大類,再重新訓(xùn)練支持向量,運用式(16)~式(18) 得到新類的類中心點坐標(biāo)及新類與其余各類的距離數(shù)據(jù),進(jìn)而計算新類與其余各類的相似度; 第3步:反復(fù)操作第1步和第2步,最后訓(xùn)練樣本被聚成兩個大的類,將此兩類作為二叉樹根節(jié)點,按照從上至下的順序構(gòu)造二叉樹的SVM子分類器。 據(jù)相關(guān)實驗結(jié)果顯示:奶牛處于發(fā)情早期,會出現(xiàn)異于平時的狀態(tài)(躁動、興奮等),而未發(fā)情的狀態(tài)則較為懶散。奶牛處于發(fā)情時期,時常會做出爬跨動作;奶牛不舒服時,全天會基本處于躺臥。因此,監(jiān)測奶牛行為特征是判斷奶牛發(fā)情和身體異常的一個有效方法。奶牛的每天行為并非簡單的重復(fù),本研究將其行為類別分為靜止和運動兩個狀態(tài)。其中,運動狀態(tài)包括慢走行為、快走行為、爬跨行為、慢跑行為和快跑行為。 將采集得到三軸加速度時間序列數(shù)據(jù)按照1.2節(jié)提出的方法相應(yīng)處理,之后在得到的時間子序列的特征向量集中選擇出訓(xùn)練數(shù)據(jù)集(占比70%),運用第2.2節(jié)提出的分類方法將所有樣本數(shù)據(jù)分成兩個子類,作為根節(jié)點;再將根節(jié)點進(jìn)一步劃分成兩個次級子類,將這兩個子類作為后續(xù)待劃分的次級根節(jié)點;按照這個方式繼續(xù)劃分,直到最后分離出兩個相似度最大的類,此時需要選擇切合狀況的核函數(shù)構(gòu)造類之間的二值支持向量機分類器。 支持向量機核函數(shù)的選擇非常重要,核函數(shù)的差異會在各類中產(chǎn)生不同的支持向量。因此,核函數(shù)的選取及參數(shù)的確定對于分類的實時性和精確性有著深遠(yuǎn)的影響。 本文通過實驗測試和比對,將二值支持向量機分類器的核函數(shù)確定為徑向基函數(shù)( Radial Basis Function,RBF) 。最終,建立了如圖 3 所示的二叉樹SVM順序結(jié)構(gòu)。 圖3 二叉樹SVM順序結(jié)構(gòu)分類圖 實驗記錄數(shù)據(jù)來源于1頭健康成年奶牛2h的行為特征記錄。采樣頻率為 10 Hz,共采集樣本426 506個。對試驗樣本中的時序數(shù)據(jù)進(jìn)行子序列劃分后,子序列個數(shù)共為2 432個,行為特征分類測試結(jié)果如表1所示。 表1 奶牛行為特征分類測試結(jié)果 表1測試結(jié)果表明:分類模型的整體測試結(jié)果是較好的。其中,靜止與運動兩大類特征行為的區(qū)分準(zhǔn)確率較高,達(dá)到 94.10%;區(qū)分微小運動與劇烈運動時,準(zhǔn)確率為 86.78%;但對奶牛的行為特征進(jìn)行細(xì)致劃分時,區(qū)分度相對較低。經(jīng)分析后,主要存在以下幾個導(dǎo)致誤差較大的因素: 1)由于數(shù)據(jù)采集裝置佩戴在牛頸上,其對奶牛頭部活動較為敏感,而頭部活動易存在行為特征的復(fù)合,導(dǎo)致噪聲干擾; 2)奶牛的行為特征是依靠肉眼判定的,但目前并沒有奶牛行為判斷的標(biāo)準(zhǔn),并且有時特征不顯著,僅僅依靠肉眼觀察和判斷,使源樣本數(shù)據(jù)不可靠; 3)項圈能在某些情況下下輕微移動,導(dǎo)致三軸加速度采集裝置產(chǎn)生傾斜角度,產(chǎn)生噪聲干擾。 針對奶牛個體的行為特征的分類問題,基于二叉樹SVM 構(gòu)造了多類分類模型,用于分類和判定靜止、慢走、快走、快跑、慢跑及爬跨等日常行為特征。經(jīng)過實驗檢測,區(qū)分運動和靜止能夠到90%以上的準(zhǔn)確度,區(qū)分小幅和大幅運動也能達(dá)到85%以上的準(zhǔn)確度;但再細(xì)分小幅度和大幅度的活動時會出現(xiàn)一些誤判情況,模型的區(qū)分度還需要進(jìn)一步提高。 盡管本文對奶牛個體行為特征分類進(jìn)行了深入研究,建立的多分類模型能夠較準(zhǔn)確地判定奶牛個體的行為特征,但本系統(tǒng)目前依然還不夠完善,有待進(jìn)一步提高。 1)測試受到場地、資源等多方面限制,隨機選擇了1頭成年發(fā)情奶牛,記錄了這頭奶牛2h內(nèi)的行為特征數(shù)據(jù),進(jìn)行模型區(qū)分度評估。后續(xù)實驗要延長個體行為的數(shù)據(jù)采集時間,增加個體數(shù)據(jù)采集量;同時,對不同品種、不同年齡的奶牛進(jìn)行實驗對比,擴大實驗范圍,優(yōu)化特征識別模型。 2)考慮增加奶牛體溫和脈搏檢測模塊,在采集加速度數(shù)據(jù)的同時,結(jié)合奶牛個體處于不同行為狀態(tài)時的體溫和脈搏的變化情況,對奶牛的行為特征進(jìn)行綜合判定,提高區(qū)分的準(zhǔn)確率。2 支持向量機分類算法
2.1 支持向量機原理
2.2 基于二叉樹SVM的多類分類方法
3 奶牛行為特征分類模型的建立
4 實驗結(jié)果及分析
5 結(jié)論與討論
5.1 結(jié)論
5.2 討論