韓金+侯圓圓+王鳴泉
引言
1.棉花產量統(tǒng)計何其難。數(shù)學界有一個哥德巴赫猜想,棉花界也有一道難解的數(shù)學題,國家的棉花年產量究竟有多少?新疆的棉花產量究竟有多少?這道難題困擾著棉花界的人士。
中國的棉花總產量從500萬噸到800萬噸跨度不斷變化,但確切數(shù)字是多少,我們有多種答案,就拿2014棉花年度為例,生產、收購、加工等環(huán)節(jié)基本結束,我們仍然困擾著這個答案。
2.統(tǒng)計失真問題源于樣本和方法。棉花產量統(tǒng)計失真,主要源于統(tǒng)計口徑與統(tǒng)計方法。棉花產量究竟是多少?對于這個問題權威部門也沒有一個統(tǒng)一的說法,國家統(tǒng)計局、中國棉花協(xié)會、發(fā)改委、農業(yè)部、美國農業(yè)部(USDA)、國際棉花咨詢委員會(ICAC)等不同的渠道有不同的版本發(fā)布。以2014年新疆棉產量預測,從367萬噸到450萬噸之間有多個版本和渠道發(fā)布,跨度較大,不但業(yè)外困惑,業(yè)內也是眾說紛紜。
統(tǒng)計失真問題,既有樣本影響因素,也有統(tǒng)計口徑因素,還有人為因素,當然統(tǒng)計方法也非常重要。
3.數(shù)據建模解決棉花產量精確統(tǒng)計問題。古訓云:工欲善其事,必先利其器。解決中國棉花產量問題,要充分相信科學、充分利用科技手段。為解決棉花產量的精確統(tǒng)計,特別是新疆棉花產量的精確統(tǒng)計與預測問題,作者所在協(xié)會的成員單位北京中棉機械成套設備有限公司重點投入搭建了“全國棉花加工檢驗綜合數(shù)據平臺”,從2013年度監(jiān)測新疆阿克蘇,到2014棉花年度在新疆全區(qū)推廣應用。該系統(tǒng)精確統(tǒng)計每一包產量,每一包棉花都有自己的條碼編號,每一個加工廠精確統(tǒng)計,每個地區(qū)涵蓋所有加工企業(yè)。
本文作者韓金在棉花加工領域從事多年研究,中國人民大學侯圓圓是統(tǒng)計方面的專家,王鳴泉是中國聯(lián)通大數(shù)據分析方面的專家,三人一塊共同對棉花采集數(shù)據進行了建模分析。
第一節(jié):數(shù)據來源
一、技術基礎
由于數(shù)據平臺系統(tǒng)做到了全覆蓋,因此每日加工量匯總數(shù)據真實,根據已發(fā)生的記載數(shù)據,預測未來日期的加工量,從而達到分析預測整個新疆的棉花總產量,有著很重要的研究價值和社會價值,本文就從新疆棉花產量的每日加工量統(tǒng)計,通過建立數(shù)據模型,來分析預測新疆2014年度棉花總產量。
目前已經實現(xiàn)了棉花加工、檢驗數(shù)據信息化。每包棉花依據加工數(shù)據編成條碼,作為棉包身份證進行統(tǒng)計。專業(yè)纖檢機構逐包HVI儀器化檢驗,形成公檢電子證書。
新疆所有棉花加工企業(yè)的加工、檢驗數(shù)據的采集、存儲、管理及業(yè)務操作都由北京中棉機械成套設備有限公司的棉包條碼信息管理系統(tǒng)實現(xiàn)。
二、數(shù)據平臺和模型作用
1.以棉包條碼信息系統(tǒng)作為數(shù)據終端,通過網絡技術實現(xiàn)數(shù)據集中存儲形成數(shù)據平臺,實現(xiàn)數(shù)據價值。準確采集全國收購、加工、檢驗、批次數(shù)據,為政府部門、行業(yè)協(xié)會等提供產量等宏觀數(shù)據服務。
2.圍繞新疆棉花產量統(tǒng)計難題,各種數(shù)據滯后,調控、經營決策不合理的現(xiàn)狀,建立科學合理的數(shù)據模型。形成集加工、檢驗、倉儲、物流、紡織等各環(huán)節(jié)信息支撐系統(tǒng),實現(xiàn)棉花全產業(yè)鏈信息化。
3.建立棉花現(xiàn)代物流體系需要的信息流,圍繞中央一號文件要求的農產品價格形成機制試點,形成新疆目標價格補貼試點按照產量發(fā)放補貼的依據。
4.以平臺為中心圍繞棉花產業(yè)鏈開發(fā)應用服務,與現(xiàn)有交易平臺形成對接,按照詳細質量指標實現(xiàn)精準購棉,建立適合國產棉使用的計算機輔助配棉系統(tǒng),實現(xiàn)紡織企業(yè)國產棉精細化用棉。
三、數(shù)據平臺現(xiàn)狀
數(shù)據平臺平穩(wěn)運行。2014年9月1日建成全疆數(shù)據采集系統(tǒng),覆蓋全疆846家棉花加工廠的1118條生產線,做到了新疆400型加工廠全覆蓋,新疆所有規(guī)劃內400型棉花加工全部使用采集終端,采集終端成為棉花加工企業(yè)的生產管理系統(tǒng)。由于2014年新疆采取棉花入庫公檢模式,該系統(tǒng)又作為預約終端,實現(xiàn)全部新疆加工企業(yè)預約入庫管理系統(tǒng)的一部分,成功采集企業(yè)的預約入庫量。加上該系統(tǒng)是儀器化公證檢驗數(shù)據下載和傳輸?shù)墓ぞ撸植杉庸て髽I(yè)加工數(shù)據對應的檢驗數(shù)據。因此數(shù)據平臺涵蓋從生產到入庫所有環(huán)節(jié)的加工數(shù)據、入庫數(shù)據、檢驗數(shù)據。
本分析僅從采集到的加工數(shù)據,通過建模分析,得出預測和分析結論。
四、數(shù)據收集
本數(shù)據建模采用的數(shù)據來源,全部來自2014年9月1日建成的全國加工檢驗綜合數(shù)據平臺系統(tǒng),系統(tǒng)覆蓋了全疆846家400型棉花加工廠的1118條生產線。由于生產線作業(yè)采集,企業(yè)全覆蓋,因此數(shù)據來源真實可靠。
由于樣本不包含200型小廠,因此根據采集樣本得出的總預測產量理論上會小于實際新疆總產量。為保證數(shù)據真實,我們抓取了數(shù)據平臺的截圖來證明數(shù)據來源(見圖1)。
圖1 ? ?產量統(tǒng)計系統(tǒng)登錄窗口
第二節(jié):數(shù)據的整理和顯示
一、數(shù)據整理
由于數(shù)據分收購數(shù)據、加工數(shù)據、檢驗數(shù)據、入庫數(shù)據幾類,為便于分析,我們僅以全新疆加工數(shù)據為樣本進行分析。
我們截取匯總了從2014年9月18日開始加工的每日新疆加工日增量更新數(shù)據見表1,來進行決策和預測分析。
二、數(shù)據顯示
1.直方圖
按照月份進行分組,計算組距,如圖2所示。
圖2 ? ?按月統(tǒng)計加工量
從圖2中可以得出一些結論:(1)2014年新疆從9月18日開始加工。(2)加工高峰期主要集中在10月和11月。(3)觀察數(shù)為91個,日最大加工量體現(xiàn)在10月30日84180噸,日最小加工量體現(xiàn)在9月20日121噸,平均日加工量38831噸。(4)截至發(fā)稿之日12月18日,累計匯總加工量為3533626噸,即新疆產量已經達到353萬噸,占國家統(tǒng)計局統(tǒng)計發(fā)布產量的96%。(5)截至發(fā)稿之日12月18日,從12月14日日加工量跌破3萬噸后,連續(xù)4天檢測平均加工量仍維持2.6萬噸,說明加工進入尾聲,增量下降,總量增加。
2.折線圖
圖3 ? ?日加工量折線圖
通過圖3的折線圖,可以清晰地揭示出每日加工量的增量在時間序列上的變化規(guī)律,通過早期的數(shù)據分布規(guī)律,我們可以依據時間序列變量及日加工量之間的對應關系,對未來時間的數(shù)據進行預測分析,這也是我們課題研究的意義所在。
對異常數(shù)據進行適當削峰處理,可以得到圖4 曲線,其中M代表月份。
第三節(jié):數(shù)據建模
根據圖3折線圖和圖4平滑圖,我們認為日增量曲線變化規(guī)律符合二次曲線,現(xiàn)將時間(excel圖標的水平軸)作為x,例如2014年9月8日就是1,2014年9月9日就是2,以此類推。x2就是x的平方,產量(excel圖標的縱軸)作為y。
函數(shù)形式假設為二次型y=a0+b1x+b2x2,看是否通過檢驗。
我們分別采用excel自帶的數(shù)據分析工具,先對采集數(shù)據進行描述性統(tǒng)計再進行檢驗假設,限于篇幅,假設檢驗步驟省略。從回歸假設檢驗看,回歸模型的R方達到了0.906,ANOVA分析也表現(xiàn)顯著,因此模型的擬合效果良好。再看系數(shù),所有參數(shù)系數(shù)都非常顯著,因此該二次模型成立。
第四節(jié):數(shù)據分析
依據上述模型,根據時間軸與產量作散點圖,棉花產量隨時間遞減,加上上述檢驗假設,模型的擬合曲線與真實增量的散點圖如圖5所示,可以看出模型的擬合效果良好,數(shù)據符合二次曲線。
圖5 ? ?二次函數(shù)散點曲線圖
根據趨勢線得出曲線方程:y=ax2+bx+c
依據實際加工量進行二次函數(shù)運算,得a=-24.07,b=2585.054,c=-12540.375,該模型表達式為y=-24.07x2+2585.054x-12540.375。為此,欲求新疆棉花總產量,首先需要預測出以后各期增量。因此為x賦值92、93、94……并帶入到二次函數(shù)中求解產量y,計算的終止條件是y≤0。
用以上方式,算出增量第102天時增量為正,第103天增量為負。
x=102時(即2014年12月28日),解得y值:y=-24.07x2+2585.054x-12540.375
=-24.07×1022+2585.054×102-12540.375=710.853。
略去小數(shù),x=102時,y=711。
數(shù)據列表如表2,累計匯總為3660124噸。
在我們截稿之際,恰逢國家統(tǒng)計局2014年12月17日統(tǒng)計發(fā)布了新疆棉花產量367.7萬噸。此二次曲線數(shù)學模型計算與國家統(tǒng)計局的發(fā)布數(shù)據基本吻合。
第五節(jié):數(shù)據修正
我們依據上述模型對數(shù)據進行擬合,發(fā)現(xiàn)從9月18日到11月18日期間即前60天預測值與實際值重合度高,從11月18日后,預測值在實際值下方整體偏下,即實際值略高于預測值,而且隨著時間推移,偏離度逐漸加大,進一步抓取11月18日到12月18日之間30天的數(shù)據作散點圖(見圖6)分析。
圖6 ? ?30天實際加工量散點圖
該散點圖特質除了具備二次曲線下降的趨勢外,是否更符合線性關系呢?
數(shù)據模型的最關鍵點在于找到二次曲線與線性回歸的拐點,依據線性假設和回歸分析,根據趨勢,我們做線假設,假設線性方程:y=ax+b。
利用excel表格中數(shù)據分析工具,帶入11月11日到12月18日共38天時間的實際加工量,進行回歸函數(shù)運算,得出a= -663,b=92008,該模型表達式為y = -663x + 92008。
為此,欲求新疆棉花總產量,首先需要預測出12月18日以后的每日增量。因此為x賦值93、94……并代入到二次函數(shù)中求解產量y,計算的終止條件是y≤0。
當x=139時,y=-149,即第139天增量為負值,也就是說加工到第139天結束,對應加工日期為2015年2月2日,預計整個加工量為4270343噸(見表3)。
表3 ? ?線性回歸函數(shù)
第六節(jié):決策結論
427萬噸的數(shù)學模型預測產量,我們認為有其合理性??紤]到樣本的覆蓋性,我們增加考慮因素,影響產量變動的主要因素有:
1.未被統(tǒng)計在內的200型小包棉產量??紤]到樣本沒有覆蓋目標價格改革試點實施前,東疆哈密和吐魯番地區(qū)棉花成熟早,主要用于絮棉、民用棉的現(xiàn)狀,該區(qū)域收購早,加工也早,大部分用的是200型小包銷售,因此樣本不包含小包型產量,預計有2萬~3萬噸左右。
2.未被覆蓋的400型大包未參與公檢部分。因為目標價格補貼政策出臺較晚,部分紡織自用棉加工企業(yè)沒有入庫參與公檢,但由于系統(tǒng)包含了紡織自用棉的統(tǒng)計,盡管不參與入庫公檢,但不影響數(shù)據采集,數(shù)據系統(tǒng)中加工量的統(tǒng)計還是完整的。
3.入庫數(shù)量和檢驗數(shù)量佐證模型。截止到12月18日,加工分會成員單位北京中棉機械成套有限公司統(tǒng)計新疆全疆皮棉的加工量是353萬噸,從我們掌握的新疆入庫數(shù)據看,截至同日新疆棉花入庫336.5萬噸,這和我們模型計算的情況是吻合的。收購情況也符合預測,整體看新疆南北疆采摘基本結束了,無論加工還是入庫,地方上下降明顯,明顯結束早于上年同期,突出表現(xiàn)在兵團企業(yè)仍在持續(xù),與目標價格補貼兵地之間籽棉流動減少有關。同期檢驗量是309.5萬噸,符合加工量大于入庫量,入庫量大于檢驗量的規(guī)律。
分析結論
綜上,我們根據數(shù)學模型計算的新疆棉花產量為427萬噸左右。考慮調整因素,預計新疆產量為430萬噸左右。
數(shù)據模型的好處在于,如果能夠累計2~3年以上數(shù)據,基本可以得出比較精確的函數(shù)關系,那么就可以根據早期的加工量,分析預測全年加工量,例如根據2015年10月的加工規(guī)律,預測2015年度的棉花產量,從這層意義上,經濟價值很大。
(作者單位:韓金,中國棉花協(xié)會加工分會;侯圓圓,中國人民大學;王鳴泉,中國聯(lián)通)