蔡桂全,陶建平
(1. 華中農(nóng)業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,湖北武漢430070; 2. 玉林師范學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西玉林537000)
農(nóng)業(yè)在我國國民經(jīng)濟(jì)中的地位舉足輕重,但是其自身發(fā)展受自然環(huán)境因素的嚴(yán)重約束,特別是自然災(zāi)害。自然環(huán)境的制約導(dǎo)致農(nóng)民收入具有不確定性,這在很大程度上限制了農(nóng)村經(jīng)濟(jì)發(fā)展的水平和速度。例如: 2020年初我國武漢地區(qū)突發(fā)新冠肺炎疫情,對該地區(qū)及其周邊的農(nóng)業(yè)造成了巨大的負(fù)面影響,這時(shí)農(nóng)業(yè)保險(xiǎn)的作用就凸顯出來了。農(nóng)業(yè)保險(xiǎn)能夠有效降低農(nóng)業(yè)生產(chǎn)過程中因自然災(zāi)害而導(dǎo)致的農(nóng)戶經(jīng)濟(jì)損失,為農(nóng)戶提供穩(wěn)定的經(jīng)濟(jì)收益[1]。
合理使用農(nóng)業(yè)保險(xiǎn)能夠較好地保障農(nóng)業(yè)經(jīng)營者的利益,是現(xiàn)代農(nóng)業(yè)發(fā)展的三大支柱之一,全國許多地方相繼開展了農(nóng)業(yè)保險(xiǎn)的推廣工作。農(nóng)業(yè)保險(xiǎn)對于農(nóng)業(yè)經(jīng)營者的保險(xiǎn)強(qiáng)化作用是毋庸置疑的,但是在農(nóng)業(yè)保險(xiǎn)供給中也遇到了難點(diǎn)[2-3]。例如,政府和保險(xiǎn)公司在推行農(nóng)業(yè)保險(xiǎn)時(shí),需要對農(nóng)業(yè)保險(xiǎn)的需求狀況進(jìn)行準(zhǔn)確預(yù)測,因?yàn)檫@關(guān)系整個(gè)社會的安定,并且直接影響保險(xiǎn)公司的經(jīng)營生命線。為了農(nóng)業(yè)保險(xiǎn)行業(yè)的健康發(fā)展,必須更加全面、準(zhǔn)確地預(yù)測農(nóng)業(yè)保險(xiǎn)需求。現(xiàn)階段,學(xué)術(shù)界對保險(xiǎn)需求預(yù)測開展了多方面的研究[4],例如汽車保險(xiǎn)需求預(yù)測、職工基本養(yǎng)老保險(xiǎn)需求預(yù)測等。目前針對農(nóng)業(yè)保險(xiǎn)需求問題的研究也較多,但大多是側(cè)重需求的影響分析或者需求供給方面的,對農(nóng)業(yè)保險(xiǎn)需求預(yù)測的研究很少。
本文中選取農(nóng)業(yè)保費(fèi)收入作為農(nóng)業(yè)保險(xiǎn)需求的指標(biāo),并以此為被解釋變量,提出一種基于數(shù)據(jù)降維和機(jī)器學(xué)習(xí)技術(shù)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測方法。利用數(shù)據(jù)降維技術(shù)中的主成分分析(PCA)原理對支持向量機(jī)的輸入數(shù)據(jù)集進(jìn)行降維,從農(nóng)戶經(jīng)濟(jì)條件因素、社會文化因素、地理環(huán)境因素和政府補(bǔ)貼因素4個(gè)方面的7個(gè)解釋變量中提取出主要影響因子。然后,采用權(quán)重的方式將局部和全局的核函數(shù)進(jìn)行線性相加,組成多核支持向量機(jī),以便獲得較高的預(yù)測精度。
準(zhǔn)確的保險(xiǎn)需求分析對于保險(xiǎn)行業(yè)未來發(fā)展具有非常重要的作用。從20世紀(jì) 80年代開始,保險(xiǎn)需求分析就已經(jīng)受到了各國學(xué)者的關(guān)注[5]。國內(nèi)外學(xué)者相繼提出了很多保險(xiǎn)需求分析方法。劉紅亮[6]對商業(yè)健康保險(xiǎn)彈性需求進(jìn)行分析,建立多元線性回歸模型對國內(nèi)不同區(qū)域間的差異進(jìn)行了比較。孫蓉等[7]通過問卷調(diào)查形式,對政府作為、保戶參保意愿與保險(xiǎn)需求關(guān)系進(jìn)行了研究。
農(nóng)業(yè)保險(xiǎn)需求分析一直是相關(guān)研究的熱點(diǎn)方向。例如,宋婷等[8]開展了農(nóng)產(chǎn)品價(jià)格波動對農(nóng)業(yè)保險(xiǎn)需求影響的研究,得出農(nóng)產(chǎn)品價(jià)格波動與農(nóng)戶農(nóng)業(yè)保險(xiǎn)需求之間存在長期穩(wěn)定關(guān)系的結(jié)論。谷政[9]以江蘇省156戶農(nóng)村家庭為調(diào)查對象,開展了現(xiàn)階段農(nóng)戶對農(nóng)業(yè)保險(xiǎn)需求情況調(diào)查,并提出了修改完善保險(xiǎn)條款的政策建議。
現(xiàn)有的研究大多是側(cè)重需求的影響分析或者需求供給方面的,面對多個(gè)變量的農(nóng)業(yè)保險(xiǎn)數(shù)據(jù)觀測問題,不能僅依靠調(diào)查問卷的手段,因此,韓雯[10]提出了基于Logistic模型的貴州省農(nóng)業(yè)保險(xiǎn)需求影響因素研究,對不同因素的顯著性進(jìn)行討論??紤]到實(shí)際農(nóng)業(yè)保險(xiǎn)數(shù)據(jù)存在高緯、高相關(guān)的屬性,會對Logistic回歸結(jié)果產(chǎn)生不良的影響[11],因此,本文中提出利用數(shù)據(jù)降維技術(shù)中的PCA對Logistic回歸分析之前的解決變量進(jìn)行主成分提取,從達(dá)到有效降維。
機(jī)器學(xué)習(xí)技術(shù)在各行各業(yè)預(yù)測得到了廣泛的應(yīng)用,但是,目前利用機(jī)器學(xué)習(xí)進(jìn)行農(nóng)業(yè)保險(xiǎn)需求預(yù)測的研究很少?,F(xiàn)有的類似研究僅針對汽車保險(xiǎn)需求預(yù)測或者職工基本養(yǎng)老保險(xiǎn)需求預(yù)測,因此,本文中利用PCA對7個(gè)解釋變量進(jìn)行降維后,結(jié)合支持向量機(jī)實(shí)現(xiàn)農(nóng)業(yè)保險(xiǎn)需求預(yù)測,并采用權(quán)重的方式將局部和全局的核函數(shù)進(jìn)行線性相加,組成多核支持向量機(jī),從而對傳統(tǒng)的支持向量機(jī)進(jìn)行優(yōu)化,進(jìn)一步提高預(yù)測精度。
本文中采用我國某省2006—2014年共9年的農(nóng)業(yè)保險(xiǎn)相關(guān)數(shù)據(jù)進(jìn)行分析,如表1所示。從表中可以看出,總保費(fèi)收入和農(nóng)業(yè)保險(xiǎn)保費(fèi)收入均呈現(xiàn)逐年增長的態(tài)勢,農(nóng)業(yè)保險(xiǎn)賠付率也不斷提高;但是農(nóng)業(yè)保險(xiǎn)保費(fèi)所占比例仍然較低,因此,需要通過農(nóng)業(yè)保險(xiǎn)需求預(yù)測,實(shí)現(xiàn)更加有效的整體調(diào)控和政策引導(dǎo)。
風(fēng)險(xiǎn)管理理論和大數(shù)法則理論是保險(xiǎn)行業(yè)最常用的理論基礎(chǔ),兩者的側(cè)重點(diǎn)不同,適用的場景也有所不同。由于農(nóng)業(yè)保險(xiǎn)的特殊性,涉及的主體數(shù)量眾多,因此大數(shù)法則理論更加適用于保險(xiǎn)公司。對于風(fēng)險(xiǎn)規(guī)避者來說,保險(xiǎn)需求產(chǎn)生是期望效用理論的具體實(shí)現(xiàn),即
U[pW1+(1-p)W2]>pU(W1)+(1-p)U(W2),
(1)
式中:U(·)為消費(fèi)者的效用;W為消費(fèi)者的收益水平;p、1-p分別為收益水平W1和W2出現(xiàn)的概率[11]。針對不同風(fēng)險(xiǎn)喜好的消費(fèi)者,可以用不同的效用溢價(jià)曲線進(jìn)行描述,例如小規(guī)模農(nóng)戶保險(xiǎn),其風(fēng)險(xiǎn)效用溢價(jià)曲線如圖1所示。A點(diǎn)與B點(diǎn)之間的橫向距離越大,表示農(nóng)戶對農(nóng)業(yè)保險(xiǎn)的需求越大,反之則越小。
表1 我國某省2006—2014年農(nóng)業(yè)保險(xiǎn)相關(guān)數(shù)據(jù)
U(·)為消費(fèi)者的效用; W為消費(fèi)者的收益水平; p、1-p分別為收益水平W1和W2出現(xiàn)的概率。圖1 小規(guī)模農(nóng)戶保險(xiǎn)的風(fēng)險(xiǎn)效用溢價(jià)曲線
農(nóng)業(yè)保險(xiǎn)的參與成員不僅僅是農(nóng)戶,還有政府、保險(xiǎn)機(jī)構(gòu)、金融機(jī)構(gòu)和農(nóng)業(yè)企業(yè)等,因此,農(nóng)業(yè)保險(xiǎn)需求分析與預(yù)測必須綜合考慮所有的需求主體。農(nóng)業(yè)保險(xiǎn)的保費(fèi)分擔(dān)如圖2所示。從圖中可以看出,農(nóng)業(yè)保險(xiǎn)的保費(fèi)應(yīng)當(dāng)由涉及到的所有主體共同分擔(dān)。
在進(jìn)行常規(guī)的Logistic回歸分析之前,利用SPSS1 9.0軟件的PCA主成分提取功能[12-14],進(jìn)行解釋變量的數(shù)據(jù)降維處理,如圖3所示。
作為一種最常用的線性降維方法,PCA能夠在盡量保證信息量不丟失的情況下,通過投影對原始特征進(jìn)行降維。假設(shè)模型樣本是由農(nóng)戶經(jīng)濟(jì)條件因素、社會文化因素、地理環(huán)境因素和政府補(bǔ)貼因素等構(gòu)成的一個(gè)m維數(shù)據(jù)變量,需要從這些解釋變量中提取出主要影響因子。訓(xùn)練樣本為x1,x2,…,xm,標(biāo)準(zhǔn)差為S1,S2,…,Sm,則標(biāo)準(zhǔn)化變換的公式為
π—保費(fèi)金額; q—保險(xiǎn)需求概率; q1—保險(xiǎn)賠付供給剛好滿足農(nóng)戶需求時(shí)的概率; q2—保險(xiǎn)賠付供給剛好滿足社會整體需求時(shí)的概率。圖2 農(nóng)業(yè)保險(xiǎn)的保費(fèi)分擔(dān)
圖3 SPSS1 9.0軟件的主成分分析(PCA)降維操作界面
Yj=aj1x1+aj2x2+…+ajmxm,j=1,2,…,m,
(2)
式中:Yj為序號j為主成分;ajm為訓(xùn)練樣本xm對應(yīng)的系數(shù)因子。
首先,如果Y1的數(shù)值等于相應(yīng)特征值的正交單位數(shù)值,且Y1的方差最大,則可以確定為第一主成分。其次,如果Y2的數(shù)值等于相應(yīng)特征值的正交單位數(shù)值,Y1與Y2的協(xié)方差為0且Y2的方差最大,則可以確定Y2為第二主成分。同理,以此類推可以得到最多n個(gè)主成分。
在累積貢獻(xiàn)率的計(jì)算過程中,第i個(gè)主成分Yi的貢獻(xiàn)率為η,
(3)
式中λi、λj分別為Yi、Yj對應(yīng)的特征值,則前n個(gè)主成分的總貢獻(xiàn)率為
(4)
以其中一個(gè)公因子為例,其統(tǒng)計(jì)分析的表達(dá)式為
F1=-0.160Z1+0.161Z2+0.145Z3+0.199Z4-
0.131Z5-0.167Z6+0.137Z7+0.174Z8+
0.131Z9-0.037Z10,
(5)
式中:F1為某數(shù)據(jù)樣本;Z1—Z10分別為不同公因子;數(shù)字為實(shí)際變量間的相關(guān)系數(shù),數(shù)值越大相關(guān)性越大。
將上述PCA得到的n個(gè)主成分作為Logistic回歸分析的解釋變量,分析農(nóng)戶是否購買農(nóng)業(yè)保險(xiǎn)的問題。首先,選取7個(gè)解釋變量,即農(nóng)戶年齡X1、農(nóng)戶家庭年收入X2、農(nóng)戶家庭勞動力數(shù)量X3、農(nóng)戶受教育年數(shù)X4、農(nóng)戶家庭貸款數(shù)額X5、農(nóng)業(yè)保險(xiǎn)保費(fèi)X6、政府補(bǔ)貼比例X7。Logistic回歸分析的具體形式為
(6)
式中:P(yi=1|xi)為給定一個(gè)xi,模型輸出真實(shí)值yi=1的概率;α、β均為模型參數(shù)。對上述7個(gè)解釋變量進(jìn)行Logistic回歸分析后,得到了其中的X1、X2、X4、X5、X6、X7為顯著性檢驗(yàn)結(jié)果(顯著性水平P<0.05),也就是說通過PCA降維去掉了X3因子。以這6個(gè)解釋變量作為輸入數(shù)據(jù),構(gòu)建基于支持向量機(jī)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測。
針對不同的應(yīng)用場景需求,傳統(tǒng)支持向量機(jī)會選擇某一種核函數(shù)[15],但是這樣的模式會導(dǎo)致支持向量機(jī)學(xué)習(xí)的泛化能力較弱,無法應(yīng)對復(fù)雜的數(shù)據(jù)樣本情況[16]。由于組合核函數(shù)具有多個(gè)核函數(shù)的數(shù)據(jù)映射的能力,因此基于組合核函數(shù)的支持向量機(jī)可以更好地應(yīng)對實(shí)際案例需求。本文中采用權(quán)重的方式將局部和全局的核函數(shù)進(jìn)行線性相加,組成多核支持向量機(jī)[17],實(shí)現(xiàn)農(nóng)業(yè)保險(xiǎn)需求預(yù)測,其中組合核函數(shù)K(x,z)為
(7)
式中:kj(x,z)為單核函數(shù),x、z均為空間中的點(diǎn);βj為權(quán)重因子;M為樣本總數(shù)。相比單個(gè)核函數(shù)學(xué)習(xí)方法,組合方法可以獲得更高的預(yù)測精度和樣本泛化能力。
將核函數(shù)代入分類或預(yù)測的決策函數(shù)f(x),得
(8)
式中:b為偏置參數(shù);αi為線性權(quán)值。
將式(7)代入式(8)中,得到線性加權(quán)多核支持向量機(jī)方法的決策函數(shù)為
(9)
本文選擇全局核函數(shù)POLY和局部性核函數(shù)RBF構(gòu)成組合核函數(shù),從而兼顧了全局和局部樣本特征,因此,組合核函數(shù)K(x,z)為
K(x,z)=βRBFkRBF(x,z)+βPOLYkPOLY(x,z) ,
(10)
βRBF+βPOLY=1,
(11)
式中:βPOLY、βRBF分別為全局核函數(shù)POLY和局部性核函數(shù)RBF的權(quán)重因子;kPOLY、kRBF分別為全局核函數(shù)POLY和局部性核函數(shù)RBF的單核函數(shù)。
最終,基于PCA和多核支持向量機(jī)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測流程如圖4所示。
圖4 基于主成分分析(PCA)和多核支持向量機(jī)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測流程
通過具體實(shí)驗(yàn)對本文中提出的農(nóng)業(yè)保險(xiǎn)需求預(yù)測方法進(jìn)行分析和驗(yàn)證。實(shí)驗(yàn)的硬件環(huán)境為Intel Core i7 2.2 GHz處理器、8 GB內(nèi)存,軟件環(huán)境為Windows 7操作系統(tǒng)、MATLAB 7.0仿真軟件。
為了驗(yàn)證多核函數(shù)組合分類識別模型的最佳參數(shù)設(shè)置,實(shí)驗(yàn)選取UCI(加州大學(xué)歐文分校)數(shù)據(jù)庫中的鳶尾屬植物(Iris)數(shù)據(jù)集,對樣本進(jìn)行多種組合的核函數(shù)參數(shù)測試。Iris數(shù)據(jù)集的樣本個(gè)數(shù)為3 612,屬性個(gè)數(shù)為24。每組訓(xùn)練樣本隨機(jī)選取樣本個(gè)數(shù)為200,重復(fù)50次,然后訓(xùn)練支持向量機(jī)分類器,之后進(jìn)行具體測試。Iris數(shù)據(jù)集的多核函數(shù)性能對比結(jié)果如表2所示。
表2 鳶尾屬植物(Iris)數(shù)據(jù)集的多核函數(shù)性能對比
從表中數(shù)據(jù)可以看出,與單核函數(shù)支持向量機(jī)相比,組合多核函數(shù)支持向量機(jī)的準(zhǔn)確率明顯提高,而且,當(dāng)核函數(shù)參數(shù)取值為α=4.5,d=3時(shí)(此時(shí)βRBF=0.5,權(quán)重平均分配),多核函數(shù)支持向量機(jī)的樣本識別準(zhǔn)確率最高。
根據(jù)Iris數(shù)據(jù)集的測試結(jié)果,設(shè)置最佳的核函數(shù)參數(shù)為α=4.5,d=3,并進(jìn)行農(nóng)業(yè)保險(xiǎn)的需求預(yù)測實(shí)驗(yàn)。實(shí)驗(yàn)用數(shù)據(jù)見表1,其中前6 a的數(shù)據(jù)作為訓(xùn)練樣本,后3 a的數(shù)據(jù)作為測試樣本。運(yùn)用均方誤差(MSE)驗(yàn)證模型的擬合效果以及預(yù)測效果。測試結(jié)果發(fā)現(xiàn),當(dāng)RBF核函數(shù)的權(quán)值為0.7時(shí),本文中提出的方法的準(zhǔn)確率最高(βRBF在0.5~0.8范圍內(nèi)變化),達(dá)到97.3%。
為了比較不同方法的預(yù)測準(zhǔn)確率,在相同的實(shí)驗(yàn)環(huán)境下,分別對基于Logistic模型、標(biāo)準(zhǔn)支持向量機(jī)和本文中提出的基于PCA和多核支持向量機(jī)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測方法進(jìn)行實(shí)驗(yàn),預(yù)測結(jié)果如圖5所示。
(a)基于Logistic模型
(b)基于標(biāo)準(zhǔn)支持向量機(jī)
(c)基于主成分分析(PCA)和多核支持向量機(jī)圖5 采用不同方法的農(nóng)業(yè)保險(xiǎn)需求預(yù)測結(jié)果
由圖可以看出,3種方法的農(nóng)業(yè)保費(fèi)金額(需求)預(yù)測結(jié)果均逐年增大,符合實(shí)際情況。相比其他2種方法,基于PCA和多核支持向量機(jī)的方法預(yù)測準(zhǔn)確率明顯提高,具體預(yù)測結(jié)果見表3。
表3 采用不同方法的農(nóng)業(yè)保險(xiǎn)需求預(yù)測均方誤差
比較表中數(shù)據(jù)可以看出,本文中提出的基于PCA和多核支持向量機(jī)的方法的預(yù)測誤差平均值最小,僅為3.7%,說明該方法較好地表征了被解釋變量與解釋變量間的關(guān)系,已知數(shù)據(jù)與未知數(shù)據(jù)的擬合曲線重合性較好,驗(yàn)證了該方法在農(nóng)業(yè)保險(xiǎn)需求預(yù)測方面是可行和有效的。
本文中提出了一種基于PCA和多核支持向量機(jī)的農(nóng)業(yè)保險(xiǎn)需求預(yù)測方法。選用某省2006—2014年的農(nóng)業(yè)保險(xiǎn)歷史數(shù)據(jù)進(jìn)行預(yù)測實(shí)驗(yàn),驗(yàn)證了所提方法的可行性和有效性。測試結(jié)果表明: 相比傳統(tǒng)預(yù)測方法,本文中提出的方法更有效,能夠?qū)r(nóng)業(yè)保費(fèi)金額作出很好的預(yù)測,平均預(yù)測誤差為2.3%。該方法能夠?yàn)檎约氨kU(xiǎn)公司在第一時(shí)間出臺應(yīng)急舉措提供大數(shù)據(jù)輔助決策服務(wù),減少了人工排查出險(xiǎn)客戶的工作量,例如,針對近期武漢突發(fā)新型冠狀肺炎疫情,政府及保險(xiǎn)公司亟需給參保農(nóng)戶提供快速、合理的理賠額度,就是一個(gè)很實(shí)用的例子。
由于缺乏更多的保險(xiǎn)數(shù)據(jù),實(shí)驗(yàn)樣本量相對較小,因此后續(xù)將繼續(xù)進(jìn)行擴(kuò)充、驗(yàn)證。