李文龍,趙婷婷,達日格日樂,史良玉,郭 剛,王雅春,肖 煒,俞 英*
(1.中國農業(yè)大學動物科學技術學院,北京 100193;2.北京首農畜牧發(fā)展有限公司,北京 100076;3.北京市畜牧總站,北京 100107)
奶牛乳房炎是奶牛養(yǎng)殖業(yè)中最常見的疾病,對全世界奶業(yè)造成極大的經濟損失,各類損失每年共計197億~300 億美元[1-2]。奶牛乳房炎可分為隱性乳房炎和臨床乳房炎,隱性乳房炎造成的奶產量損失較嚴重[3],發(fā)病率為 25%~68%[4]。2019 年我國牛奶總產量突破3 201.00 萬t,同比增長4.10%[5]。為保證產奶量及原料乳品質的持續(xù)穩(wěn)定提高,對奶牛乳房炎進行風險評估進而防范乳房炎的發(fā)生尤為關鍵。
國內外已有利用不同統(tǒng)計學模型預測奶牛乳房炎發(fā)生的研究[6-9]。研究發(fā)現奶牛群體改良(Dairy Herd Improvement,DHI)測定記錄中的乳汁體細胞數(Somatic Cell Count,SCC)、胎次等均可作為變量預測奶牛乳房炎[9]。目前Logistic 回歸、深度學習和隨機森林等方法均已被應用于預測,不同模型的準確率無顯著差異[10]。奶牛乳房炎風險評估方面的研究集中在模型的構建及指標監(jiān)測[11-13],然而關于模型在奶牛養(yǎng)殖中實際外部驗證的預測效力及應用策略的研究鮮有報道。
課題組前期利用北京地區(qū)1998—2016 年196 萬余條奶牛生產性能測定記錄,以“泌乳牛群規(guī)模+胎次+測定季節(jié)+泌乳階段+本月體細胞評分(Somatic Cell Score,SCS)”為變量構建了隱性乳房炎和臨床乳房炎的Logistic 回歸模型,兩模型的預測準確率分別為67.6%和83.6%[9]。本研究基于史良玉等[9]構建的奶牛乳房炎Logistic 回歸模型(Cow Mastitis Logistic Regression Model,CMLM),應用多個牧場近年實際DHI 數據,構建不同類型驗證數據集對CMLM 在中國荷斯坦牛群中乳房炎風險預測的實際表現進行評估和分析,以期為CMLM 風險評估體系的預測效力和實際應用提供參考數據。
1.1 數據來源 驗證數據來自北京首農畜牧發(fā)展有限公司6 個牧場及浙江省嘉興市一牧場的實際DHI 記錄,篩選同一頭奶牛連續(xù)2 個月都具有的DHI 記錄,數據分布見表1,共計73 004 頭次(151 月次)。
1.2 CMLM 風險評估體系及診斷類別概率截點 CMLM風險評估體系包括隱性乳房炎(CMLM-S)、臨床乳房炎(CMLM-C)兩類奶牛乳房炎Logistic 回歸模型的概率公式:
式中,P 隱性乳房炎表示奶牛下月患隱性乳房炎的概率,P 臨床乳房炎表示奶牛下月患臨床乳房炎的概率,x1表示泌乳牛群規(guī)模,x2表示胎次,x3表示季節(jié),x4表示泌乳階段,x5表示本月SCS,β10和β20是常數項,其余β值分別為各變量系數[9]。
設定CMLM 風險評估體系的診斷類別概率截點為0.5。即如果P隱性乳房炎<0.5,P臨床乳房炎<0.5,預測奶牛下月不患乳房炎;如果P隱性乳房炎≥0.5,P臨床乳房炎<0.5,預測奶牛下月患隱性乳房炎;如果P隱性乳房炎>0.5,P臨床乳房炎≥0.5,則預測奶牛下月患臨床乳房炎。
1.3 分析及驗證方法 CMLM 風險評估體系在中國荷斯坦牛群中應用效果的驗證流程如圖1 所示。
1.3.1 CMLM 外部驗證區(qū)分度、校準度檢驗 區(qū)分度(Discrimination)指正確區(qū)分個體是否會發(fā)生結局事件的能力,而校準度(Calibration)通常評價風險模型預測個體未來發(fā)生結局事件的概率準確性,二者是評估模型的重要指標。為對CMLM 進行外部驗證以評估區(qū)分度和校準度,本研究將北京市2016—2020 年不同奶牛場、不同月份的DHI 數據作為驗證數據集,讀取DHI 中各風險因素數據,根據變量類型進行變量劃分并賦值:利用國際通用的轉換公式“SCS=log2(SCC/100 000)+3”將SCC 轉化為SCS;泌乳牛群規(guī)模,劃定200~400 頭泌乳牛規(guī)模的奶牛場為小型奶牛場,400~800 頭泌乳牛為中型奶牛場,大于800 頭泌乳牛為大型奶牛場,據課題組前期結果[9],≤800 頭泌乳牛的奶牛場歸為小群及中群,將其賦值為1,而大群賦值為2;胎次,分為1 胎(賦值為1)、2 胎(賦值為2)、3 胎及以上(賦值為3);季節(jié),分為6、7、8 月的夏季(賦值為1)與其他月份的非夏季(賦值為2);泌乳階段,分為1~100 天(賦值為1)、101~200 天(賦值為2)、201~300 天(賦值為3)及>300 天(賦值為4)。隨后變量值分別進入CMLM-S 及CMLM-C,得到奶牛下個月乳房炎患病預測結果。針對驗證數據中隱性乳房炎、臨床乳房炎奶牛發(fā)病情況及預測概率分別進行ROC 曲線及校準曲線的繪制以評判CMLM 的區(qū)分度和校準度。校準度曲線反映模型預測風險與實際發(fā)生風險的一致程度,用來評判模型的校準度[14-15],校準曲線圖中實線對角線表示理想情況下完美校準的對角線,以點相連的虛線反映實際觀察風險和預測風險之間的關系。所有的分析繪圖均使用R 4.0.0 進行。
1.3.2 CMLM 在不同類型驗證數據集中預測的準確性DHI 是一套針對奶牛泌乳性能及乳成分的完整奶牛生產性能記錄體系,實際情況中通常每場每月進行1 次測定。本部分研究中將每場每月DHI 及下月奶牛信息作為1個驗證數據集,評估CMLM 的預測準確性?;诒本┦械尿炞C數據集,考評CMLM 在“多個牧場全年”、“多個牧場不同年份”及“同一牧場長時程”類型驗證數據集中的表現。將奶牛實際DHI 信息中相應指標的數據作為變量值代入CMLM,得到奶牛下月預測患病狀況,同時取第2 個月DHI 數據實際記錄,依據SCC值對其實際乳房炎患病情況進行判斷[9],奶牛乳房炎發(fā)病判定標準采用馬裴裴等[16]的研究結果:10 萬/mL~50萬/mLSCC 作為隱性乳房炎判定標準,大于50萬/mLSCC作為臨床乳房炎判定標準。同時統(tǒng)計特異度,本實驗中特異度指評判CMLM 對健康奶牛的判斷能力。預測結果與實際結果進行比較,統(tǒng)計CMLM 在不同類型驗證數據集的預測準確率。
1.3.3 CMLM 在中國南方牧場的應用驗證 利用浙江省嘉興市地區(qū)一“小群”荷斯坦牛場2019 年1 月—2020年連續(xù)13 個月次的DHI 數據,進行乳房炎風險預測(同1.2.2),評估CMLM 在中國南方小群牧場應用的乳房炎發(fā)病預測準確率。
1.3.4 基于連續(xù)3 個月預測信息篩選高患病風險奶牛生產實踐中,牧場通常會對連續(xù)三個月均為乳房炎高發(fā)病風險的奶牛進行隔群或移群處理,篩選乳房炎高發(fā)病風險奶牛對于牧場具備指導性意義。利用連續(xù)3 個月的CMLM 預測信息,提取3 個月均預測準確且患乳房炎的奶牛,選擇P臨床乳房炎值最大的前20 頭奶牛作為乳房炎高發(fā)病風險奶牛。探究乳房炎高發(fā)病風險奶牛在下一個月乳房炎的實際發(fā)病率。
2.1 CMLM 在北京地區(qū)驗證數據集中的區(qū)分度及校準度 為統(tǒng)計CMLM 在北京地區(qū)驗證數據集中的區(qū)分度,計算CMLM 在外部驗證的ROC 圖曲線下面積(Area Under the Curve,AUC),并與CMLM 在建模數據中的結果進行比較,以判斷CMLM 外部驗證區(qū)分度的表現。結果顯示CMLM 在外部數據中,CMLM-S 的預測價值為0.712(圖2-A),CMLM-C 的預測價值為0.798(圖2-B),均較高。在建模數據中,CMLM-S 和CMLM-C的預測價值分別為0.721 和0.825。相比之下,CMLM在驗證數據中仍能保持較好區(qū)分度,且與建模數據相比預測價值較穩(wěn)定。CMLM-S 校準曲線(圖2-C)相較于完美校準線整體趨勢一致,而CMLM-C 的預測風險相較于實際風險略高(圖2-D)。以上結果表明,CMLM在外部驗證中區(qū)分度保持良好,且具備一定校準度。
圖2 CMLM 在驗證數據中的預測ROC 曲線、校準曲線
2.2 北京地區(qū)不同類型驗證數據集乳房炎發(fā)病風險的預測準確率 據圖1 所示的評估流程,本部分研究首先計算了2019 年北京地區(qū)5 個荷斯坦牛場60 個數據集驗證CMLM 的相關驗證統(tǒng)計量,以探究CMLM 在“多個牧場全年”驗證數據集中的表現。結果發(fā)現,在2019 年總共60 個驗證數據集中,CMLM 的乳房炎發(fā)病預測準確率整體表現穩(wěn)定,平均準確率為67.19%,其中最大值為77.98%,最小值為48.90%(表2)。單個數據集中最多包含1 094 頭泌乳奶牛信息,最少包含169 頭奶牛信息,數據集覆蓋“大群”和“小群及中群”2 種類型的泌乳牛群規(guī)模。2019 年中,在相同牧場不同月份的數據集中,預測準確率無明顯差異;同一月份內各個不同泌乳牛群規(guī)模的牧場預測準確率也無明顯波動。特異度為將實際無病的奶牛正確診斷為非病牛的概率,在各個牧場不同時間段內,不同數據集的特異度均高于70%(表2)。以上結果表明,CMLM 在“多個牧場全年”的驗證數據集類型中,其預測奶牛乳房炎發(fā)病狀況的能力較優(yōu)且穩(wěn)定。
表2 2019 年北京地區(qū)荷斯坦牛場CMLM 的驗證統(tǒng)計量
進一步增加1 個牧場,探究CMLM 在2020 年驗證數據集中的表現。利用2020 年1—6 月共計36 個驗證數據集進行驗證,結果顯示(表3),2020 年乳房炎發(fā)病預測準確率無顯著變異,平均為69.87%,其中最大值為84.79%,最小值為53.46%,與2019 年相比無明顯差異,特異度整體與2019 年也表現一致。由此可知,CMLM 在北京地區(qū)荷斯坦牛群“多個牧場不同年份”類型驗證數據集中,表現穩(wěn)健。
表3 2020 年1—6 月北京地區(qū)荷斯坦牛場CMLM 的驗證統(tǒng)計量
A 牧場2016—2020 年6 月共 54 個月次數據集中乳房炎發(fā)病預測的準確率如表4 所示,擴大數據集的時間跨度之后,CMLM 的整體預測水平保持穩(wěn)定。在54 個不同時間段的數據集中,預測準確率平均為70.12%,最高為81.02%。每整年的驗證數據內預測準確率變異幅度較小,2016、2017 年的驗證數據集內預測準確率的變異最大,但變異系數僅為0.09。
表4 A 牧場近5 年不同月份預測準確率統(tǒng)計
2.3 CMLM 在中國南方牧場的應用驗證 前期構建CMLM 的建模數據為北京地區(qū)196 萬余條DHI 記錄,建模數據更具中國北方牧場代表性。為驗證CMLM 在南方奶牛群體中的預測效果,利用CMLM 對南方奶牛小群牧場的乳房炎發(fā)病情況進行預測,結果顯示(圖3),來自同一個牧場的連續(xù)12 個驗證數據集中,CMLM對南方牧場的奶牛乳房炎發(fā)病情況具有良好的預測效果,平均準確率為77.64%,最高為85.29%,最低為70.13%。南方牧場不同月份之間的預測準確率無明顯差異。
圖3 浙江省G 牧場2019 年數據CMLM 驗證統(tǒng)計量分布折線圖
2.4 乳房炎高發(fā)病風險奶牛的預測情況 本研究基于連續(xù)3 個月CMLM 預測信息,探尋篩選乳房炎高發(fā)病風險奶牛的策略,并將其作為優(yōu)化應用的手段(圖4)。在北京市所有牧場的數據中,共統(tǒng)計得到2 480 頭次乳房高發(fā)病風險奶牛的信息。其中,2 458 頭次乳房炎高發(fā)病風險奶牛下個月會發(fā)生臨床乳房炎,22 頭次沒有發(fā)生,預測準確率約99.11%。表明基于此策略得到的乳房炎高發(fā)病風險奶牛下月患病概率極高,適宜作為候選的重點防控牛只。
圖4 乳房炎高發(fā)病風險奶牛下月發(fā)病比率
隨著時間推移,各種變量因素的變化均可能影響模型的預測效力[17]。本文基于CMLM,利用近年北京市牧場作為驗證數據對其進行外部驗證,發(fā)現CMLM仍然具有優(yōu)良的預測準確性和區(qū)分度。此外,關于CMLM 在不同緯度地區(qū)及實際應用的研究,發(fā)現其具備在全國范圍內推廣應用的潛力。
CMLM 在驗證數據中仍然具備較優(yōu)的區(qū)分度。邏輯回歸模型需在外部進行驗證,以穩(wěn)健用于其他群體[18]。模型區(qū)分度通常是驗證時關注的重點,一般情況下,AUC 在0.50~0.70被認為模型區(qū)分度一般,AUC 在0.70~0.90 被認為該模型良好,AUC 高于0.90 被認為該模型是優(yōu)秀的,而模型的校正度有時被忽略[19]。在國內外關于預測奶牛乳房炎的研究中,對模型進行外部驗證并對模型進行校準度檢驗鮮有報道,很難明確這些模型在實際應用中的準確性和穩(wěn)定性[20-22]。本研究中,以北京地區(qū)6 個牧場138 月次的實際DHI 記錄作為CMLM 的驗證數據集,發(fā)現CMLM 在驗證數據中的區(qū)分度良好,其中CMLM-S 的預測價值為0.712,CMLM-C的預測價值為0.798。同時,CMLM-S、CMLM-C 在驗證數據中的區(qū)分度與建模時基本一致,驗證了CMLM 的穩(wěn)定性。CMLM-C 模型的校準度相對不佳,校準結果表明模型的預測風險比實際風險高,校準曲線出現偏離。在其他牛群中使用該模型時,可能需要對其性能進行評估和重新校準,當然這也可能是由于驗證數據集來源固定牛場受到某些未知因素的干擾,有待進一步收集數據進行驗證。
CMLM 在多個牧場不同月份驗證數據集的準確率和特異度整體上穩(wěn)定,平均準確率為68.89%。在2019年“多個牧場全年”的驗證數據集的準確率保持平穩(wěn),平均準確率為67.19%;CMLM 在2020 年的數據集中預測準確率平均為69.87%。在2019 和2020 年CMLM的預測準確率未發(fā)生明顯改變。由此可判斷,CMLM在利用不同年份多個牧場的數據集對奶牛乳房炎進行預測時,可以保證較高的準確率。時間對CMLM 預測效力的影響很小,可從A 牧場近5 年的數據進一步得到驗證。預測結果中準確率明顯較小可能是由于DHI 測定時樣品采集的誤差。除牛場管理、胎次、泌乳階段以及季節(jié)和月份等因素外[23-24],一些尚未進入DHI 測定的因素也會影響SCC 值,如乳房及乳頭形態(tài)、乳房衛(wèi)生情況、臥床衛(wèi)生情況等[25-26],這些因素也有可能影響奶牛個體乳房炎風險評估的準確性。
分析CMLM 在南方牧場中的應用情況,發(fā)現在小群牧場13 個月次的數據集中,整體準確性趨勢穩(wěn)定,且可保持較高水平。結果提示,CMLM 在南方小群牧場奶牛群體的應用具備可行性,可進一步研究以推廣該評估體系在其他地理區(qū)域的應用價值。由于南方牧場數據集來自小規(guī)模泌乳牛群體,樣本量較小,同時南北方高溫時期、不同乳房炎類型奶牛占比有所差異[27],仍需要繼續(xù)收集其他南方地區(qū)不同規(guī)模牧場的數據,進一步完成模型在不同地理區(qū)域牧場奶牛群體的驗證及優(yōu)化。此外,關于乳房炎高發(fā)病風險奶牛的篩選策略得到的結果預測準確率也極高,為99.11%,表明可以作為一種較優(yōu)的在牧場試運行應用的策略。
本研究結果顯示,CMLM 在中國北方牧場具備良好的應用性,其在驗證數據中區(qū)分度依然保持良好;對于“多個牧場全年”、“多個牧場不同年份”及“同一牧場長時程”類型的驗證數據集奶牛乳房炎的預測均具備較高的穩(wěn)定性及準確性;在南方地區(qū)和實際生產實踐中CMLM 同樣具備應用潛力。該研究表明,基于“泌乳牛群規(guī)模+胎次+測定季節(jié)+泌乳階段+本月體細胞評分”為變量構建的CMLM 可以穩(wěn)定應用于中國荷斯坦牛群下月乳房炎發(fā)生風險的預測。
致謝:感謝提供DHI 數據的牛場及數據中心。