陳明藝 陳鑫 王梅杰
摘 要:“拍照賺錢(qián)”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。該文用拉伊達(dá)準(zhǔn)則篩去地理位置偏遠(yuǎn)的數(shù)據(jù)點(diǎn),運(yùn)用K-均值聚類(lèi),將任務(wù)點(diǎn)劃分為4個(gè)區(qū)域,進(jìn)而分別探究每個(gè)區(qū)域任務(wù)定價(jià)與經(jīng)緯度的函數(shù)關(guān)系,并采用多元非線性回歸求得任務(wù)定價(jià)與經(jīng)緯度之間的函數(shù)關(guān)系表達(dá)式;再引入會(huì)員對(duì)價(jià)格的影響因子,對(duì)任務(wù)定價(jià)和影響因子進(jìn)行多元非線性回歸,得到對(duì)應(yīng)函數(shù)關(guān)系式;用K-均值聚類(lèi)每個(gè)區(qū)域的任務(wù)進(jìn)行打包,并將聚類(lèi)中心經(jīng)緯度作為任務(wù)包的經(jīng)緯度,定義出任務(wù)包定價(jià)與該區(qū)域最低單個(gè)任務(wù)定價(jià)、任務(wù)包中任務(wù)數(shù)量、任務(wù)包中各任務(wù)原價(jià)之間的關(guān)系式,求出定價(jià)模型,并且借助多項(xiàng)Logistic統(tǒng)計(jì)回歸模型對(duì)任務(wù)完成度進(jìn)行了預(yù)測(cè)。
關(guān)鍵詞:K-均值聚類(lèi) 拉伊達(dá)準(zhǔn)則 多元非線性回歸 多項(xiàng)Logistic回歸分析
中圖分類(lèi)號(hào):G712 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)02(a)-0-03
1 模型的假設(shè)及符號(hào)的使用
1.1 模型的假設(shè)(該論文基于2017年全國(guó)大學(xué)生數(shù)學(xué)建模B題而作)
假設(shè)在某區(qū)域的會(huì)員執(zhí)行該區(qū)域的任務(wù);
假設(shè)任務(wù)的發(fā)布只與任務(wù)本身有關(guān),無(wú)其他影響因素。
1.2 符號(hào)的使用及說(shuō)明
為處理問(wèn)題方便,將文中常用量設(shè)置符號(hào)如表1所示。
2 模型的建立與求解
2.1 異常數(shù)據(jù)的篩選
題目所給數(shù)據(jù)涉及地理位置信息,而不同地理位置的定價(jià)與任務(wù)完成情況不同。通過(guò)對(duì)觀察可以發(fā)現(xiàn),數(shù)據(jù)密集分布于廣東省佛山、廣州、東莞、深圳市,且有少量點(diǎn)零散分布在其他地區(qū)。由于樣本數(shù)據(jù)量足夠大,所以運(yùn)用拉依達(dá)準(zhǔn)則進(jìn)行異常數(shù)據(jù)的篩選。運(yùn)用經(jīng)緯度數(shù)據(jù)做其正態(tài)分布圖(見(jiàn)圖1)。
運(yùn)用經(jīng)緯度數(shù)據(jù)并借助做其正態(tài)分布圖,得以驗(yàn)證緯度的樣本數(shù)據(jù)近似服從正態(tài)分布,接下來(lái)運(yùn)用拉依達(dá)準(zhǔn)則對(duì)緯度的異常數(shù)據(jù)進(jìn)行篩選:
, (1)
其中,為樣本均值。
(2)
如果某測(cè)量值與平均值之差大于標(biāo)準(zhǔn)差的3倍,則予以刪除,結(jié)合公式并篩選得到832個(gè)數(shù)據(jù)。
2.2 問(wèn)題(1)模型建立與求解
2.2.1 K-均值聚類(lèi)模型
題目數(shù)據(jù)來(lái)源于廣州、佛山、東莞、深圳,并且數(shù)據(jù)點(diǎn)在4個(gè)城市呈現(xiàn)區(qū)域密集集中狀態(tài),所以用K-均值聚類(lèi)對(duì)篩選得到的全部數(shù)據(jù)進(jìn)行分類(lèi)。K-均值聚類(lèi)具體分體步驟如下:
輸入樣本數(shù)據(jù):N={(x1,y1),(x2,y2),…,(xi,yi)},i=1,2,…,832,j=1,2,3,4。
通過(guò)K均值聚類(lèi)劃分為4個(gè)區(qū)域,令I(lǐng)=1,隨機(jī)選取4個(gè)數(shù)據(jù)點(diǎn)作為4個(gè)類(lèi)簇的初始簇中心,中心點(diǎn)為:mj(I),j=1,2,3,4。計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與4個(gè)聚類(lèi)中心的距離d((xi,yi),mj(I)),若符d((xi,yi),mj(I))=min{d((xi,yi),mj(I)),j=1,2,3,4},則(xi,yi)∈CJ。
計(jì)算4個(gè)新的聚類(lèi)中心:mj(I+1)=(xi,yi)。
若mj(I+1)≠mj(I),則I=I+1,否則重新計(jì)算中心點(diǎn)距離。
結(jié)合上述原理,得到聚類(lèi)結(jié)果如圖2所示。
Cluster1為廣州市,任務(wù)完成率為37.33%;
Cluster2為佛山市,任務(wù)完成率為60.37%;
Cluster3為深圳市,任務(wù)完成率為36.54%;
Cluster4為東莞市,任務(wù)完成率為94.80%。
2.2.2 多元回歸分析模型
設(shè)經(jīng)度、緯度為自變量,價(jià)格為因變量建立二次回歸方程:
P=β0+β1X+β2X2+β3Y+β4Y2+ε (3)
其中βi表示回歸系數(shù),ε為誤差。
基于上述假設(shè)求解自變量與因變量的函數(shù)關(guān)系,通過(guò)檢驗(yàn)選擇擬合度最高的一種假設(shè)作為最優(yōu)解,得到每個(gè)區(qū)域內(nèi)擬合度最高的二次回歸方程。
Cluster1:
P=-20447.5101+1735.704X-36.703X2
決定系數(shù):R2=0.8623。
Cluster2:
P=87051.6008+2878.4852X-2107.7656Y+ 49.6927X2-45.6885XY+13.8969Y2
決定系數(shù):R2=0.8057。
Cluster3:
P=181540.22+3230.1669X-3835.0042Y+ 73.9869X2-57.6404XY+22.5785Y2
決定系數(shù):R2=0.9167。
Cluster4:
P=1124600-5400X-18700Y+100Y2
決定系數(shù):R2=0.8493。
2.3 問(wèn)題(2)模型的建立與求解
2.3.1 對(duì)會(huì)員位置進(jìn)行區(qū)域劃分
做會(huì)員位置分布、任務(wù)完成與未完成情況的散點(diǎn)圖如圖3所示。
其中黃色表示會(huì)員位置、紅色表示未完成任務(wù)、綠色表示完成任務(wù)。依據(jù)會(huì)員的經(jīng)緯度,將會(huì)員劃分到問(wèn)題(1)所分的區(qū)域。
2.3.2 影響定價(jià)因子的確定
在其他影響因素不變的情況下,信譽(yù)度越高,預(yù)定任務(wù)限額越大,任務(wù)開(kāi)始預(yù)定時(shí)間也早,則任務(wù)完成率越高。所以采取3個(gè)指標(biāo):用戶信譽(yù)度、預(yù)訂任務(wù)限額、預(yù)訂任務(wù)開(kāi)始時(shí)間。該文選用d/K來(lái)衡量信譽(yù)度k、距離d交互對(duì)定價(jià)的影響?;谏鲜龇治觯砬骴/Q、d/T的數(shù)值。用一個(gè)區(qū)域內(nèi)所有用戶對(duì)任務(wù)點(diǎn)影響因子的相加來(lái)表示用戶質(zhì)量對(duì)任務(wù)點(diǎn)影響,用u,v,w分別表示信譽(yù)度影響因子、預(yù)定任務(wù)限額影響因子、預(yù)定任務(wù)開(kāi)始時(shí)間影響因子:
u;v;w (4)
2.3.3 多元非線性回歸模型
以第三類(lèi)區(qū)域數(shù)據(jù)為例,用戶距離、信譽(yù)度影響因子、預(yù)定任務(wù)限額、預(yù)定任務(wù)開(kāi)始時(shí)間作為自變量,定價(jià)作為因變量,使用多元非線性回歸的方法探究自變量與因變量存在的函數(shù)關(guān)系。
設(shè)主成分因子xi(i=1,2,3,4)為自變量,t2為因變量,建立二次回歸方程:
P=β0+β1D+β2D2+β3u+β4u2+β5w+β6w2+β7v+β8v2+ε (5)
其中βi表示回歸系數(shù)。
進(jìn)行模型的求解,得到擬合度最高的回歸方程:
Cluster1:
P=106.6846-0.10312D+1.7027×10-5u-0.023227w+ 9.9046×10-5D2+1.1925×10-7D×u+7.093×10-5D×w+3.517 ×10-13u2-8.5889×10-10u×w
決定系數(shù):R2=0.7919。
Cluster2:
P=259.1411-5.2216D+0.034261D2-0.014402v-0.00020448D×v+0.00063709D×w+1.9565× 10-7v2
決定系數(shù)R2=0.8376。
Cluster3:
P=93.177-1.1664D×w-7.1769×10-5D2-1.4568×10-6v ×D-1.0502×10-5D×w+1.1373×10-9v2+3.72×10-6w2
決定系數(shù)R2=0.9042。
Cluster4:
P=75.6512-0.00010737×v-0.0029586×w+3.4313× 10-10v2
決定系數(shù):R2=0.7583。
2.4 問(wèn)題(3)模型的建立與求解
2.4.1 對(duì)任務(wù)進(jìn)行打包
用戶的預(yù)定任務(wù)限額為1~8個(gè),所以對(duì)任務(wù)進(jìn)行打包時(shí),任務(wù)包內(nèi)的任務(wù)個(gè)數(shù)不能超過(guò)8個(gè)。以Cluster1區(qū)域?yàn)槔龑?duì)該區(qū)域中的任務(wù)經(jīng)緯度進(jìn)行K-均值聚類(lèi),通過(guò)K-均值聚類(lèi)將Cluster1中的任務(wù)打包為48個(gè)任務(wù)包,并得到了48個(gè)任務(wù)包的聚類(lèi)中心坐標(biāo),任務(wù)包中的任務(wù)數(shù)量最大為8,最小任務(wù)數(shù)量為1。
2.4.2 對(duì)打包任務(wù)進(jìn)行定價(jià)
打包任務(wù)將多個(gè)任務(wù)集中在一起發(fā)布,需要對(duì)打包任務(wù)進(jìn)行重新定價(jià),具體步驟如下。
設(shè)打包任務(wù)中:任務(wù)數(shù)量為a,每個(gè)任務(wù)的原定價(jià)為:P1、P2、……、Pa,整個(gè)打包任務(wù)的定價(jià)為S,該區(qū)域打包任務(wù)中包含的任務(wù)數(shù)量最多為h,單個(gè)任務(wù)的最低定價(jià)為O。任務(wù)數(shù)量越多,該打包任務(wù)的平均任務(wù)價(jià)格S應(yīng)越低,但最低不應(yīng)低于該區(qū)域單個(gè)任務(wù)的最低定價(jià),打包任務(wù)降價(jià)最大值為:S-Pmin-O≥0,打包任務(wù)
應(yīng)降價(jià):P-=,建立S與a的關(guān)系式如下:
S=。
2.4.3 求出打包任務(wù)的定價(jià)關(guān)系表達(dá)式
由于部分任務(wù)被打包到一起,集中度較高,因此任務(wù)數(shù)量的大小對(duì)定價(jià)的影響尤為重要。可知任務(wù)數(shù)量越大,平均任務(wù)價(jià)格越低。因此將打包任務(wù)的數(shù)量與所有用戶距打包任務(wù)中心點(diǎn)的距離之和相互結(jié)合,結(jié)合第二問(wèn)的模型,經(jīng)多元非線性擬合,最終得到擬合效果最優(yōu)的函數(shù)關(guān)系表達(dá)式為:
P=212.199-0.000126u-0.016474v+0.53636w+6.7085 ×10-7D/a×u+0.00012357D/a×v-0.0042344D/a×w+ 3.243×10-12×u2
決定系數(shù):R2=0.8580。
對(duì)得到的定價(jià)模型,通過(guò)logistic模型得到任務(wù)的完成度,對(duì)比改進(jìn)前后的任務(wù)完成度,得知改進(jìn)方案對(duì)任務(wù)完成度的影響。打包處理之前的任務(wù)指標(biāo)有:任務(wù)經(jīng)緯度、任務(wù)定價(jià)、任務(wù)執(zhí)行情況、會(huì)員經(jīng)緯度、會(huì)員信譽(yù)度、會(huì)員開(kāi)始時(shí)間。打包處理后,發(fā)生變化的是任務(wù)的數(shù)量,因此將任務(wù)的經(jīng)緯度與任務(wù)的數(shù)量結(jié)合,將用戶距離之和/數(shù)量,作為其中一個(gè)協(xié)變量,再將任務(wù)標(biāo)價(jià)作為另一個(gè)協(xié)變量,將任務(wù)完成度作為因變量。把已結(jié)束的項(xiàng)目中的任務(wù)點(diǎn)作為樣本,通過(guò)K-均值聚類(lèi)分類(lèi)的任務(wù)點(diǎn)作為預(yù)測(cè)對(duì)象,將其數(shù)據(jù)帶入建立的定價(jià)模型得到標(biāo)價(jià),對(duì)其進(jìn)行完成度的預(yù)測(cè),求得各個(gè)會(huì)員對(duì)任務(wù)點(diǎn)的用戶距離之和。預(yù)測(cè)出打包后的任務(wù)點(diǎn)的完成度,求得偽R2=0.801。
經(jīng)計(jì)算得出,打包前有84個(gè)任務(wù)點(diǎn),完成的任務(wù)點(diǎn)有56個(gè),完成率為66.66%;打包后由84個(gè)任務(wù)點(diǎn),完成的任務(wù)點(diǎn)有68個(gè),完成率為80.95%,可知打包處理后完成率獲得了很大的提高。
2.5 問(wèn)題(4)模型的建立和求解
做出新任務(wù)的位置信息和任務(wù)點(diǎn)的位置信息的散點(diǎn)圖,如圖4所示。
通過(guò)觀察散點(diǎn)圖,可以發(fā)現(xiàn)任務(wù)點(diǎn)集中分布于Cluser1地域與Cluster4地域。所以此文需要采用多項(xiàng)logistic回歸分析對(duì)任務(wù)點(diǎn)進(jìn)行地域歸類(lèi)。
選用問(wèn)題(2)中合理定價(jià)的任務(wù)點(diǎn)經(jīng)緯度信息、定價(jià)信息、分類(lèi)情況,進(jìn)行多項(xiàng)Logistic分析,以分類(lèi)情況為因變量,任務(wù)點(diǎn)的經(jīng)緯度信息為協(xié)變量進(jìn)行分類(lèi),將數(shù)據(jù)劃分到4個(gè)區(qū)域。問(wèn)題(2)中所建立的模型所引入的變量較為全面,所以該問(wèn)題引用問(wèn)題(2)中所建立的任務(wù)定價(jià)模型。以Cluster4為例,結(jié)合問(wèn)題(2)中D、u、v、w的算法,計(jì)算出問(wèn)題(4)中的D、u、v、w,提取問(wèn)題(2)中Cluster4中定價(jià)合理的任務(wù)數(shù)據(jù)點(diǎn),并運(yùn)用問(wèn)題(2)中所求得D、u、v、w與用戶距離求和/數(shù)量、信譽(yù)度/距離之和、限額/距離之和、開(kāi)始時(shí)間/距離之和,聯(lián)立形成新表,將問(wèn)題(2)中合理的價(jià)格作為訓(xùn)練集,問(wèn)題(4)中的定價(jià)為測(cè)試集,進(jìn)行多項(xiàng)Logistic分析,預(yù)測(cè)出問(wèn)題(4)中的定價(jià),并且通過(guò)計(jì)算擬R2來(lái)證實(shí)該分析,擬R2計(jì)算結(jié)果如表2所示。
通過(guò)偽R2max=0.814可以看出,利用問(wèn)題(2)中的價(jià)格來(lái)預(yù)測(cè)問(wèn)題(4)中的價(jià)格具有合理性。
參考文獻(xiàn)
[1] 安思錦,翟健.軟件眾包參與度影響因素分析及預(yù)測(cè)模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(10):9-16.
[2] 陳家銀.豬八戒眾包平臺(tái)數(shù)據(jù)分析與眾包模式設(shè)計(jì)[D].大連理工大學(xué),2016.
[3] 劉偉韜,廖尚輝.主成分logistic回歸分析在底板突水預(yù)測(cè)中的應(yīng)用[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2015,34(8):905-909.
[4] 卓金武.MATLAB在數(shù)學(xué)建模中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2011.