劉慶武 付美艷 張萬民
摘 要:對種鴨育成期的養(yǎng)殖過程中的數(shù)據(jù)進行人工處理存在強度大、效率低甚至數(shù)據(jù)錯誤等問題。采用軟件即服務(wù)的模式,參照Lambda數(shù)據(jù)處理架構(gòu),將物聯(lián)網(wǎng)技術(shù)與生物統(tǒng)計技術(shù)相結(jié)合,設(shè)計并實現(xiàn)種鴨育成測定數(shù)據(jù)平臺,通過非介入、動態(tài)、實時的方式采集、分析與處理數(shù)據(jù),充分挖掘數(shù)據(jù)的價值,為種鴨精準飼養(yǎng)和科學(xué)化管理提供必要的數(shù)據(jù)支撐。
關(guān)鍵詞:種鴨;育成測定;物聯(lián)網(wǎng);生物統(tǒng)計;Lambda;數(shù)據(jù)平臺;平滑處理
我國肉鴨消費具有多元化特點,瘦肉型與肉脂型北京鴨、優(yōu)質(zhì)小體型肉鴨、番鴨與半番鴨的年出欄量超過35億只,產(chǎn)值約1000億元。[1]肉鴨養(yǎng)殖在解決糧食危機、提高農(nóng)民收入、保障優(yōu)質(zhì)蛋白供給以及促進農(nóng)村穩(wěn)定等方面發(fā)揮了重要作用。種鴨是肉鴨生產(chǎn)的基礎(chǔ),只有種質(zhì)優(yōu)良、體質(zhì)健壯的種鴨,才能生產(chǎn)出更多的優(yōu)質(zhì)商品鴨苗。育成期是父母代種鴨生長中最重要的時期,也是決定種鴨能否獲得高產(chǎn)、穩(wěn)產(chǎn)的關(guān)鍵。這一階段飼養(yǎng)的特點是對種鴨進行限制性飼養(yǎng),即有計劃地控制飼喂量(量的限制)或限制日糧的蛋白質(zhì)和能量水平(質(zhì)的限制)。[2]當(dāng)前我國種鴨養(yǎng)殖分散、信息化水平低、基礎(chǔ)設(shè)施投資不足,且應(yīng)用企業(yè)引進的管理系統(tǒng)以單機版為主,各系統(tǒng)缺乏統(tǒng)一的接口而互不通用,造成信息孤島,致使已有的信息化投入不能產(chǎn)生規(guī)模效應(yīng)。[3]
物聯(lián)網(wǎng)是基于計算機互聯(lián)網(wǎng)的延伸與擴展,它是利用RFID(射頻識別)、傳感器等技術(shù)隨時隨地捕獲物體的標(biāo)識信息,通過各種通信網(wǎng)絡(luò)進行可靠傳輸與信息共享,并借助智能的數(shù)據(jù)處理技術(shù)進行挖掘與分析,最終實現(xiàn)智能化控制與決斷的覆蓋世界上萬事萬物的“Internet of Things”。[4-5]
采用軟件即服務(wù)(SaaS)模式,構(gòu)建基于物聯(lián)網(wǎng)的種鴨育成測定數(shù)據(jù)平臺,將物聯(lián)網(wǎng)技術(shù)與生物統(tǒng)計技術(shù)相結(jié)合,根據(jù)種鴨育成期的養(yǎng)殖過程的數(shù)據(jù),通過生物統(tǒng)計分析與處理得到精準的飼料需求,為種鴨精準飼喂和科學(xué)化管理提供必要的數(shù)據(jù)支撐。
一、設(shè)計
體系結(jié)構(gòu):遵循開放性、擴展性、安全性和可靠性等設(shè)計原則,種鴨育成測定數(shù)據(jù)平臺采用“統(tǒng)一支撐平臺框架、多個平臺應(yīng)用模組”的架構(gòu),如圖1所示。
(1)物聯(lián)網(wǎng)邊緣計算(IoT Edge):是平臺的數(shù)據(jù)來源,包括自動飼喂裝置、自動稱重裝置、飼料余量監(jiān)測以及物聯(lián)網(wǎng)網(wǎng)關(guān)。通過物聯(lián)網(wǎng)網(wǎng)關(guān)(IoT Gateway,可以是Rasberry Pi、Smart Phone、Local PC、Remote Server等)實現(xiàn)測定裝置的互聯(lián)互通以及實時數(shù)據(jù)緩存。
(2)物聯(lián)網(wǎng)基礎(chǔ)層(IoT Foundation):在物聯(lián)網(wǎng)客戶端的物理基礎(chǔ)上,使用設(shè)備管理和連接管理功能實現(xiàn)設(shè)備集成,創(chuàng)建并且提供安全可靠的數(shù)據(jù)鏈路;通過消息中間件(MQTT、Kafka等)和遠程數(shù)據(jù)同步獲取育成測定數(shù)據(jù);根據(jù)訪問數(shù)據(jù)的頻次,實現(xiàn)不同“溫度”數(shù)據(jù)的動態(tài)分層存儲。
(3)數(shù)據(jù)分析與處理層(Data Analyse and Process Layer):是平臺的核心層,包括數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)預(yù)計算、生物統(tǒng)計分析與分布式數(shù)據(jù)存儲。數(shù)據(jù)清洗用于刪除原始采食數(shù)據(jù)集和原始稱重數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值和異常值;數(shù)據(jù)預(yù)處理包括與企業(yè)管理信息系統(tǒng)的數(shù)據(jù)集成,對采集時間、采食量以及稱重值的規(guī)范化處理。還需要利用基本屬性構(gòu)造出新的屬性,例如個體日增重、個體日采食量、個體日累積采食量、個體日料肉比、個體日采食次數(shù)、個體日采食時長、個體日采食效率等。數(shù)據(jù)預(yù)處理一方面提高了數(shù)據(jù)質(zhì)量,另一方面讓數(shù)據(jù)更好地適應(yīng)數(shù)據(jù)分析與處理的需要;另外,數(shù)據(jù)分析與處理層還包括生物統(tǒng)計中常用的假設(shè)檢驗和置信區(qū)間估計方法(參數(shù)假設(shè)檢驗、非參數(shù)假設(shè)檢驗、Bootstrap方法等),常用的回歸方法(線性回歸分析、非線性回歸分析等)以及數(shù)據(jù)的分類、聚類分析(邏輯回歸、支持向量機、隨機森林的分類方法、K-Means等)。同時,將預(yù)處理后數(shù)據(jù)、預(yù)計算與統(tǒng)計分析的結(jié)果做進一步分布式存儲。
(4)服務(wù)層(Serving Layer):包括遠程設(shè)備管理服務(wù)、消息管理服務(wù)、數(shù)據(jù)分析與處理服務(wù)與數(shù)據(jù)查詢服務(wù)。通過屏蔽不同類型設(shè)備的技術(shù)參數(shù),為上一層(應(yīng)用層)提供標(biāo)準、統(tǒng)一的設(shè)備管理接口;通過屏蔽底層數(shù)據(jù)存儲的差異性,為應(yīng)用層提供標(biāo)準、統(tǒng)一、方便、安全的數(shù)據(jù)查詢接口;使用消息管理服務(wù)協(xié)調(diào)遠程設(shè)備管理服務(wù)、數(shù)據(jù)分析與處理服務(wù)以及數(shù)據(jù)查詢服務(wù)的協(xié)同作業(yè)。
(5)應(yīng)用層(Application Layer):與服務(wù)層的統(tǒng)一標(biāo)準不同,應(yīng)用層提倡定制化與百花齊放。從數(shù)據(jù)源到數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)預(yù)計算、數(shù)據(jù)存儲、數(shù)據(jù)服務(wù),最終到數(shù)據(jù)應(yīng)用,數(shù)據(jù)的價值只有在應(yīng)用層才能真正得以體現(xiàn)。
應(yīng)用層主要包括集中管理控制臺CMC(Central Management Console)、企業(yè)配置向?qū)c商業(yè)智能BI(Business Intelligence)。其中,集中管理控制臺是基于Web的管理工具,用于執(zhí)行大部分日常管理任務(wù),例如角色管理、用戶管理、權(quán)限管理、身份認證、數(shù)據(jù)管理和服務(wù)器管理等;企業(yè)配置向?qū)瞧髽I(yè)用戶使用平臺功能的前提和基礎(chǔ),包括注冊企業(yè)基本信息、創(chuàng)建企業(yè)賬號信息(包括企業(yè)管理員和任務(wù)管理員)、完善養(yǎng)殖企業(yè)的組織機構(gòu)信息(包括養(yǎng)殖場信息、棟|舍信息、欄|圈信息、企業(yè)品種信息、企業(yè)品系信息、企業(yè)飼料信息以及企業(yè)個體信息等)、實驗管理以及任務(wù)管理等;商業(yè)智能提供格式化報表、即席查詢、可視化報表和儀表盤以及多維分析和預(yù)測等多種可視化數(shù)據(jù)分析與探索工具。
二、數(shù)據(jù)處理架構(gòu)
參照Lambda架構(gòu)設(shè)計思想,將數(shù)據(jù)處理架構(gòu)分為批處理層(Batch Layer)、實時處理層(Speed Layer)、服務(wù)層(Serving Layer)。Lambda架構(gòu)最重要的特征有:
(1)容錯性:即使出現(xiàn)故障,仍然能夠?qū)嶋H滿足需要(如果出現(xiàn)故障,數(shù)據(jù)不會丟失,可以從主數(shù)據(jù)集重新計算);
(2)橫向擴容:當(dāng)數(shù)據(jù)量/負載增大時,可以通過增加更多的硬件資源來保證性能。也就是通常所說的線性可擴展,采用Scale out(即通過增加機器的個數(shù))而不是Scale up(通過增強機器的性能);
(3)低延遲的讀寫過程:采用并行計算,盡量縮短了系統(tǒng)響應(yīng)的延遲時間;
(4)快速查詢:需要能夠方便、快速地查詢所需要的信息。
平臺數(shù)據(jù)處理架構(gòu)如圖2所示:
(5)批處理層。輸入的新數(shù)據(jù)將被導(dǎo)入批處理層和實時處理層。在批處理層,輸入數(shù)據(jù)將被添加到Master數(shù)據(jù)集。批處理層對Master數(shù)據(jù)集進行迭代計算。當(dāng)批處理層對全部數(shù)據(jù)進行批處理計算后,可以得到批處理視圖,并且通過數(shù)據(jù)查詢服務(wù)對外提供標(biāo)準、統(tǒng)一、方便、安全的數(shù)據(jù)查詢接口。批處理層通過定時任務(wù)的方式更新批處理視圖,以保證數(shù)據(jù)的高容錯性。
(6)實時處理層。實時處理層負責(zé)實時處理增量數(shù)據(jù),通過實時計算更新實時視圖,彌補了批量視圖更新的較高延遲。
(7)服務(wù)層。服務(wù)層的任務(wù)是根據(jù)查詢條件為用戶查詢提供支持。服務(wù)層隨機訪問視圖,將批處理視圖和實時視圖的結(jié)果結(jié)合起來,最后反饋給應(yīng)用層。
三、關(guān)鍵技術(shù)
個體稱重數(shù)據(jù)的平滑處理方法。在育成測定應(yīng)激期內(nèi),個體間存在不同程度的應(yīng)激反應(yīng),也會出現(xiàn)多只擠入稱重裝置的現(xiàn)象。不可避免地導(dǎo)致干擾成分混雜進個體稱重數(shù)據(jù),通常這些干擾成分往往呈現(xiàn)非線性、非平穩(wěn)性和非光滑性等特點,給后續(xù)數(shù)據(jù)分析和處理帶來了誤差甚至?xí)?dǎo)致錯誤。
為了從稱重數(shù)據(jù)快速、高效地提取有用的特征信息,必須對稱重數(shù)據(jù)進行平滑處理,即消除或抑制干擾成分的影響。使用局部加權(quán)回歸散點平滑法(locally weighted scatterplot smoothing,LOESS),擬合一條連續(xù)的曲線,以該曲線作為基準,偏離較遠的則標(biāo)記為異常值點。MATLAB是美國Mathworks公司開發(fā)的應(yīng)用軟件,具有強大的科學(xué)及工程計算能力。[6]它不但提供了專門用于數(shù)據(jù)平滑處理的smooth函數(shù),而且通過MATLAB引擎可以調(diào)用MATLAB中大量的數(shù)學(xué)計算函數(shù),完成復(fù)雜的計算任務(wù),從而簡化用戶程序設(shè)計的任務(wù)。
個體稱重數(shù)據(jù)平滑處理流程圖如圖3所示。
(1)從歷史稱重數(shù)據(jù)表和實時稱重數(shù)據(jù)內(nèi)存表中獲取指定個體的歷史稱重數(shù)據(jù)和實時稱重數(shù)據(jù),合并成完整的個體稱重數(shù)據(jù)集;
(2)從平臺配置信息中分別讀取兩次平滑處理的SPAN值(即窗寬值)與基于參照稱重值的上下相對浮動范圍;
(3)使用MATLAB引擎,調(diào)用封裝后的smooth函數(shù)(MATLAB提供了多種調(diào)用格式,實際使用Z=smooth(Y,SPAN,METHOD),其中Z為平滑處理后的個體參照稱重數(shù)據(jù);Y為個體稱重數(shù)據(jù),SPAN為窗寬值,取0.2;METHOD為平滑方法,取lowess,即加權(quán)線性擬合,一階回歸)對個體稱重數(shù)據(jù)集進行第一次平滑處理;
(4)遍歷個體稱重數(shù)據(jù)集,逐一判斷該值是否偏離設(shè)定1允許的范圍。如果已偏離,則標(biāo)記為異常稱重數(shù)據(jù)(只作標(biāo)記,不刪除)。遍歷后,篩選出第一次平滑處理后新的個體稱重數(shù)據(jù)集(不含已標(biāo)記異常值的稱重數(shù)據(jù));
(5)重復(fù)(3)~(4),得到經(jīng)過兩次平滑處理的個體稱重數(shù)據(jù)集。
四、分布式關(guān)系型數(shù)據(jù)庫
種鴨育成測定數(shù)據(jù)平臺在SAP的SQLAnywhere網(wǎng)絡(luò)數(shù)據(jù)庫的基礎(chǔ)上,通過橫向擴展的方式,構(gòu)建“集中管理系統(tǒng)數(shù)據(jù)庫—企業(yè)基本信息數(shù)據(jù)庫—企業(yè)育成測定數(shù)據(jù)庫”的三級、分布式關(guān)系型數(shù)據(jù)庫。
(一)集中管理系統(tǒng)數(shù)據(jù)庫(CMC System Database)
CMC系統(tǒng)數(shù)據(jù)庫用于存儲與維護種平臺運行的所需公共基礎(chǔ)信息,包括:幣種信息、國家信息、區(qū)域信息、時區(qū)信息、語言信息、畜種信息、品種信息、品系信息、設(shè)備制造商信息、設(shè)備類型信息;企業(yè)信息、角色信息、權(quán)限信息、用戶信息、用戶個性化信息;企業(yè)基本信息數(shù)據(jù)庫的路由信息、系統(tǒng)參數(shù)信息和服務(wù)器信息。
(二)企業(yè)基本信息數(shù)據(jù)庫(Enterprise Master Database,Scalable)
企業(yè)基本信息數(shù)據(jù)庫用于存儲與維護養(yǎng)殖企業(yè)基礎(chǔ)信息,包括養(yǎng)殖場信息、棟舍信息、欄圈信息、生物個體信息、群組信息、群組成員信息、設(shè)備信息、測定任務(wù)信息、飼料信息、飼料價格變動信息、原料信息、原料價格變動信息等;在育成測定過程中必要的操作信息,包括:個體健康狀態(tài)標(biāo)記、個體淘汰、更換飼料、更換個體耳標(biāo);以及企業(yè)育成測定數(shù)據(jù)庫路由信息。
(三)企業(yè)育成測定數(shù)據(jù)庫(Enterprise Slave Database,Scalable)
企業(yè)育成測定數(shù)據(jù)庫用于存儲與維護在育成測定過程中生成的原始數(shù)據(jù)、預(yù)處理后的數(shù)據(jù)、預(yù)計算以及生物統(tǒng)計分析的計算結(jié)果,包括:原始稱重數(shù)據(jù)、原始空腹稱重數(shù)據(jù)、原始采食數(shù)據(jù)、原始環(huán)境數(shù)據(jù)、原始設(shè)備狀態(tài)數(shù)據(jù)、預(yù)處理后的稱重數(shù)據(jù)、預(yù)處理后的采食數(shù)據(jù)、預(yù)處理后的環(huán)境數(shù)據(jù)、個體日結(jié)數(shù)據(jù)、群體日結(jié)數(shù)據(jù)、設(shè)備報警信息等。
五、防錯與出錯處理
在參照Lambda架構(gòu)的基礎(chǔ)上,通過多級分布式存儲和基于生命周期的動態(tài)管理相結(jié)合的方式存儲和維護育成測定過程中的數(shù)據(jù)(包括原始數(shù)據(jù)、預(yù)處理后的數(shù)據(jù)、日結(jié)數(shù)據(jù)以及生物統(tǒng)計分析數(shù)據(jù)),不僅可以啟動、結(jié)束育成測定任務(wù),而且可以暫停(支持多次)、重啟(支持多次),有效地避免人為操作失誤或其他未知原因造成的異常和錯誤。
另外,種鴨育成測定平臺以“事件”的方式按照預(yù)設(shè)的事件類型,詳細記錄事件發(fā)生源、事件類型、是否已啟用報警、事件的文字描述、事件發(fā)生的時間以及處理結(jié)果。
六、應(yīng)用案例
種鴨育成測定數(shù)據(jù)平臺配合中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所先后完成北京鴨Z10(測定起止時間:2019-09-01 11:48:51~2019-09-26 05:56:56,測定鴨只數(shù)量:38),Z78(測定起止時間:2020-05-27 16:04:41~2020-03-25 11:45:24,測定鴨只數(shù)量:483)以及Z4(測定起止時間:2020-04-07 17:09:06~2020-04-30 03:29:37,測定鴨只數(shù)量:407)的育成測定任務(wù)。一方面提高了養(yǎng)殖企業(yè)的自主智能化程度,大大降低人力成本和勞動強度;另一方面改變了養(yǎng)殖場傳統(tǒng)的人工處理方式,徹底解脫了管理人員煩瑣的、重復(fù)的、甚至不準確的手工匯總統(tǒng)計工作,為種鴨育成期的精準飼養(yǎng)和科學(xué)化管理提供必要數(shù)據(jù)支撐。
參考文獻:
[1]侯水生.我國水禽產(chǎn)業(yè)技術(shù)的發(fā)展戰(zhàn)略[J].水禽世界,2011(6):8-9.
[2]張武鵬.育成期種鴨的飼養(yǎng)管理技術(shù)[J].養(yǎng)殖與飼料,2007(1):17-18.
[3]韓紅蓮,張敏.發(fā)達國家畜牧業(yè)物聯(lián)網(wǎng)模式對我國的啟示[J].黑龍江畜牧,2015(5)28-29.
[4]沈彥君.物聯(lián)網(wǎng)技術(shù)在智能圖書館中的應(yīng)用[J].國家圖書館學(xué)刊,2012,21(02):51-54.
[5]王艷軍,呂志勇,黃蕾.基于物聯(lián)網(wǎng)傳感器的城市交通狀態(tài)預(yù)測[J].武漢理工大學(xué)學(xué)報,2010,32(20):108-111.
[6]張亮均,等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2015(6):7-8.
作者簡介:劉慶武(1977— ),男,山東濟寧人,碩士,工程師,研究方向:軟件技術(shù)生物統(tǒng)計;付美艷(1980— ),女,山東平度人,碩士,副教授,研究方向:計算機應(yīng)用技術(shù);張萬民(1959— ),男,山東壽光人,碩士,教授,研究方向:物聯(lián)網(wǎng)軟件工程。