陳光慧,陳嘉倩,宋 禎,韓 瀟
(暨南大學(xué) 經(jīng)濟(jì)學(xué)院,廣東 廣州 510632)
近年來(lái),隨著知識(shí)經(jīng)濟(jì)時(shí)代的到來(lái),知識(shí)更新的速度越來(lái)越快,這使得企業(yè)外部創(chuàng)新資源持續(xù)涌現(xiàn),開(kāi)放式創(chuàng)新已成為企業(yè)與外部協(xié)同發(fā)展的必然選擇[1]。互聯(lián)網(wǎng)的普及與發(fā)展使得一種基于Web2.0網(wǎng)絡(luò)技術(shù)的信息化創(chuàng)新組織形式——“眾包”應(yīng)運(yùn)而生。眾包(Crowdsourcing)這一術(shù)語(yǔ)最早是由Jeff Howe在《連線》雜志上提出并推廣使用的,具體定義為:“眾包是指公司或機(jī)構(gòu)將原本由內(nèi)部員工完成的工作以自愿的形式外包給非特定的(通常是大型的)大眾的行為[2]。”勞務(wù)眾包APP平臺(tái)為眾包開(kāi)辟了一種新的自助式商業(yè)模式。企業(yè)在APP上發(fā)布任務(wù),用戶在APP上獲取任務(wù),賺取酬金。眾包平臺(tái)不僅有利于企業(yè)整合分散閑置的資源和能力,還保證了調(diào)查數(shù)據(jù)的可信度,提高了勞動(dòng)力市場(chǎng)的效率和信息市場(chǎng)的交流速度。
與此同時(shí),大數(shù)據(jù)時(shí)代帶來(lái)了一場(chǎng)以“數(shù)據(jù)驅(qū)動(dòng)”為特征的人類(lèi)思考決策模式的變革,這一變革要求企業(yè)能夠?qū)崟r(shí)收集、存儲(chǔ)時(shí)刻變化的運(yùn)營(yíng)數(shù)據(jù),及時(shí)處理分析,從中挖掘出有益的信息。數(shù)據(jù)分析的重要前提是數(shù)據(jù),大數(shù)據(jù)時(shí)代下,大量多維度數(shù)據(jù)的獲得給數(shù)據(jù)分析帶來(lái)了巨大的機(jī)遇,產(chǎn)生了基于大量數(shù)據(jù)的科學(xué)算法。以機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘?yàn)榛A(chǔ)的分析技術(shù)具有可擴(kuò)展性、并行處理和實(shí)時(shí)分析等性能,能夠滿足海量數(shù)據(jù)帶來(lái)的復(fù)雜性、實(shí)時(shí)性和全方位的分析要求,因此大多學(xué)者認(rèn)為,海量的信息使得企業(yè)可以使用多種方法進(jìn)行內(nèi)部客觀數(shù)據(jù)的分析,其結(jié)果將更具可信度[3]。對(duì)于勞務(wù)眾包APP平臺(tái)來(lái)說(shuō),頻繁變動(dòng)、快進(jìn)快出的會(huì)員和任務(wù)的數(shù)據(jù)組成了一份“大數(shù)據(jù)”,數(shù)據(jù)更為客觀真實(shí)。我們可以從多個(gè)角度,同時(shí)也可以運(yùn)用多個(gè)數(shù)據(jù)挖掘模型,在這些數(shù)據(jù)中挖掘出變量信息,幫助企業(yè)迅速地把握運(yùn)營(yíng)現(xiàn)狀。
本文以勞務(wù)眾包APP平臺(tái)的運(yùn)營(yíng)情況為研究對(duì)象,依據(jù)學(xué)者對(duì)勞務(wù)眾包平臺(tái)模式的研究,選取任務(wù)完成度作為運(yùn)營(yíng)情況的衡量指標(biāo)[4]。以“拍照賺錢(qián)”平臺(tái)為例,利用該平臺(tái)實(shí)際收集到的運(yùn)營(yíng)數(shù)據(jù),從中挖掘出影響該勞務(wù)眾包平臺(tái)任務(wù)完成度的因素,構(gòu)建并優(yōu)化預(yù)測(cè)模型:使用隨機(jī)模擬的方法計(jì)算出影響顯著且能加入模型的變量“距離”的值;通過(guò)Fisher線性判別模型反映影響效果的方向性;為提高預(yù)測(cè)準(zhǔn)確率,嘗試使用多個(gè)機(jī)器學(xué)習(xí)模型,選擇預(yù)測(cè)準(zhǔn)確率最高者成為最后的預(yù)測(cè)模型。
現(xiàn)有研究一般將眾包參與主體劃分為三個(gè)角色:發(fā)包商家、眾包平臺(tái)以及接包方(平臺(tái)的市民用戶)。眾包的共性在于:(1)地理位置的分散特征。眾包參與者通過(guò)互聯(lián)網(wǎng)聚集在眾包平臺(tái)上,眾包參與者在地理上均為獨(dú)立個(gè)體[5];(2)用戶的自主性。眾包參與者之間沒(méi)有雇傭關(guān)系的約束,用戶根據(jù)自身需求和能力理性選擇參與任務(wù)[6];(3)用戶貢獻(xiàn)的是業(yè)余時(shí)間[7]50-70;(4)開(kāi)放式信息需求。眾包方的信息需求大且分散,利用眾包形式可以降低信息收集的成本,改進(jìn)企業(yè)生產(chǎn)效率[6]。
隨著眾包模式的發(fā)展,眾包的類(lèi)型逐漸增加,近年來(lái)相關(guān)研究人員多將其分為合作和競(jìng)標(biāo)兩種模式:?jiǎn)栴}由集體共同完成的,稱(chēng)為合作式;以競(jìng)賽形式完成任務(wù)的威客模式屬于競(jìng)標(biāo)式[8-9]。本文研究的“拍照賺錢(qián)”勞務(wù)眾包的模式便是競(jìng)標(biāo)式:一個(gè)任務(wù)同一時(shí)間段只能由一位用戶完成,用戶之間存在競(jìng)爭(zhēng)關(guān)系。
當(dāng)前國(guó)內(nèi)眾包的研究主要集中在眾包的概念性質(zhì)、眾包參與者的行為等方面,很少?gòu)谋姲脚_(tái)的角度去探索。而互聯(lián)網(wǎng)是眾包發(fā)展的前提,眾包平臺(tái)是眾包模式發(fā)展的最好載體[10]。中國(guó)在眾包模式探究與實(shí)際運(yùn)營(yíng)方面處于相對(duì)落后的位置:國(guó)內(nèi)關(guān)于眾包平臺(tái)的研究很少,有學(xué)者對(duì)國(guó)內(nèi)的豬八戒平臺(tái)進(jìn)行一些數(shù)據(jù)調(diào)查、模式介紹之類(lèi)的研究[10],其他平臺(tái)的研究更是少之又少,這與中國(guó)眾包平臺(tái)發(fā)展還不成熟的現(xiàn)狀相關(guān)。近兩年,勞務(wù)眾包平臺(tái)興起,其中有較大一部分平臺(tái)主打“拍照賺錢(qián)”,這類(lèi)平臺(tái)的信息值得挖掘。如果能通過(guò)挖掘平臺(tái)實(shí)時(shí)數(shù)據(jù)獲得一些有助于平臺(tái)運(yùn)營(yíng)的建議,將促使眾包模式本土化,這也正是本文研究的角度與出發(fā)點(diǎn)。
前人研究一般集中在參與動(dòng)機(jī)對(duì)平臺(tái)用戶參與數(shù)量及完成質(zhì)量的研究,從心理學(xué)的角度來(lái)分析用戶參與眾包活動(dòng)的動(dòng)因,將吸引用戶參與眾包的因素歸結(jié)為內(nèi)在激勵(lì)和外部激勵(lì)兩大類(lèi),因而大多數(shù)研究使用調(diào)查問(wèn)卷或量表對(duì)用戶的動(dòng)機(jī)進(jìn)行衡量,獲得主觀數(shù)據(jù)。但是,問(wèn)卷問(wèn)題略顯冗雜,且前后相關(guān)性較強(qiáng),模型信度不強(qiáng)。
本文認(rèn)為動(dòng)機(jī)只能作為行為的主觀影響因素,探究用戶行為決策還應(yīng)從客觀環(huán)境出發(fā),了解其物質(zhì)性的一面。實(shí)際上,大眾的參與行為也與眾包平臺(tái)的環(huán)境氛圍、眾包任務(wù)的相關(guān)屬性關(guān)系密切。例如,張媛對(duì)大眾參與眾包的行為影響因素的實(shí)證研究表明,大眾對(duì)于眾包平臺(tái)的信任對(duì)用戶參與行為有正向影響[11]。此外,師蕾在探索眾包項(xiàng)目屬性對(duì)參與者行為的影響的實(shí)證調(diào)查研究中,得到工期較長(zhǎng)、難度系數(shù)較低以及競(jìng)爭(zhēng)強(qiáng)度較弱的任務(wù)能吸引更多參與者的結(jié)論[12]。與此同時(shí),中國(guó)的勞務(wù)眾包平臺(tái)的運(yùn)營(yíng)模式是以用戶所在城市為限,在平臺(tái)上公布任務(wù),參與者之間存在著競(jìng)爭(zhēng),用戶具有不確定性。行為研究過(guò)程中不考慮個(gè)人因素可使研究更具有普適性,也更適用于中國(guó)勞務(wù)眾包平臺(tái)的現(xiàn)狀。與此同時(shí),大數(shù)據(jù)的興起也為這一問(wèn)題的解決提供了方法——可以使用平臺(tái)上大量的客觀數(shù)據(jù),挖掘出那些問(wèn)卷中無(wú)法捕捉到的影響任務(wù)完成度的原因。
因此,本文計(jì)劃基于實(shí)際運(yùn)營(yíng)數(shù)據(jù),從任務(wù)屬性和市場(chǎng)狀況這兩個(gè)方面分析任務(wù)完成情況的影響因素。任務(wù)屬性主要體現(xiàn)在價(jià)格上,Yang等應(yīng)用社會(huì)網(wǎng)絡(luò)工具分析平臺(tái)上用戶的行為模式,發(fā)現(xiàn)獎(jiǎng)金越高,用戶參與度越高;但是現(xiàn)金不是激勵(lì)用戶的唯一重要因素,當(dāng)用戶參與一個(gè)特定的任務(wù)面臨一個(gè)更高的機(jī)會(huì)成本,會(huì)降低其完成的可能性[13]。任務(wù)離用戶的距離、用戶的收入水平都能體現(xiàn)任務(wù)的機(jī)會(huì)成本。具體總結(jié)得出如下五個(gè)假設(shè)。
假設(shè)一:任務(wù)價(jià)格影響完成情況。
假設(shè)二:任務(wù)與用戶之間的距離影響完成情況。
假設(shè)三:任務(wù)所在城市的人均可支配收入影響完成情況。
Frey認(rèn)為盡管人們的行為會(huì)受到外部激勵(lì)的影響,但是如果一個(gè)任務(wù)難度較大并且最終的收益較小,那么這類(lèi)任務(wù)就代表高時(shí)間成本和高精力成本,很難吸引人們來(lái)參與;反之,如果參與一項(xiàng)任務(wù)的機(jī)會(huì)成本較低,就會(huì)有更多的人來(lái)參與[14]120-140。與此同時(shí),F(xiàn)ullerton等的研究表明任務(wù)完成成本較高時(shí),用戶一方面可以最大化個(gè)人價(jià)值獲取成就感,另一方面在完成過(guò)程中會(huì)考慮到已經(jīng)投入的時(shí)間、精力成本,這類(lèi)任務(wù)的完成度反而高[15]。
假設(shè)四:人均交通支出反映任務(wù)執(zhí)行途中的資金成本,距離反映時(shí)間、精力成本,影響完成情況。
市場(chǎng)狀況既體現(xiàn)在任務(wù)之間的競(jìng)爭(zhēng),又體現(xiàn)在平臺(tái)注冊(cè)用戶之間的競(jìng)爭(zhēng)。Leimeister等研究發(fā)現(xiàn)競(jìng)爭(zhēng)性任務(wù)屬性、市場(chǎng)成熟度等對(duì)任務(wù)解決產(chǎn)生顯著影響,具有擁擠效應(yīng)[16]。Howe等認(rèn)為用戶在眾包任務(wù)完成過(guò)程中貢獻(xiàn)的是業(yè)余時(shí)間[7],因此可以考慮用失業(yè)率、非戶籍人口比例來(lái)量化擁擠效應(yīng)。
假設(shè)五:失業(yè)率、非戶籍人口比例反映競(jìng)爭(zhēng)力度,影響完成情況。
因此,本文將影響任務(wù)完成度的因素定為價(jià)格、距離、用戶所在城市的人均可支配收入、人均交通支出、失業(yè)率和非戶籍人口比例。
由于“拍照賺錢(qián)”這一新興模式在珠三角地區(qū)活躍度較高,由此我們主要選用了珠三角的4個(gè)城市進(jìn)行分析,分別是深圳、廣州、佛山和東莞。數(shù)據(jù)來(lái)源于某“拍照賺錢(qián)”平臺(tái)一個(gè)已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),真實(shí)可靠。數(shù)據(jù)涵蓋任務(wù)和用戶,任務(wù)信息包含每個(gè)任務(wù)的位置、定價(jià)和完成情況;會(huì)員信息包含會(huì)員的位置、信譽(yù)值、參考其信譽(yù)值給出的預(yù)訂限額。其中任務(wù)數(shù)為835,用戶數(shù)為1 877,無(wú)缺失值。數(shù)據(jù)的詳細(xì)說(shuō)明如表1所示。
表1 數(shù)據(jù)集信息說(shuō)明表
注:數(shù)據(jù)來(lái)源于2017年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽B題。
利用XGeocoding軟件將任務(wù)和用戶的經(jīng)緯度轉(zhuǎn)換成對(duì)應(yīng)的具體地址。將每個(gè)任務(wù)的完成情況按照所屬城市進(jìn)行匯總,結(jié)果如表2所示。
表2 各城市任務(wù)完成情況統(tǒng)計(jì)表
由表2可知,東莞市的任務(wù)完成情況最佳,177個(gè)任務(wù)全部被完成;廣州市和佛山市的完成情況接近,三分之二左右的用戶會(huì)完成任務(wù);深圳市的任務(wù)完成率只有0.21。為更好地構(gòu)建預(yù)測(cè)模型,變量的值一部分來(lái)自于該數(shù)據(jù),另一部分宏觀因素的值從每個(gè)城市的統(tǒng)計(jì)局網(wǎng)站獲取。
根據(jù)上文的分析,本文考慮的影響因素分別有價(jià)格、距離、人均可支配收入、全年人均交通支出、失業(yè)率、非戶籍人口比例。
1.價(jià)格:從給定數(shù)據(jù)中直接得到,記為pri。由表3可知,深圳的任務(wù)均價(jià)最低,而東莞的任務(wù)均價(jià)最高,東莞的任務(wù)完成率(100%)遠(yuǎn)大于深圳(21%)。初步估計(jì):價(jià)格越高,任務(wù)完成度越高。
表3 各城市不同完成情況下任務(wù)價(jià)格平均值統(tǒng)計(jì)表 單位:元
2.距離:由隨機(jī)模擬方法計(jì)算得出,記為dis。平臺(tái)中沒(méi)有“任務(wù)與用戶之間的距離”這一數(shù)據(jù)。在以往的研究中,研究者明知這一變量重要,但苦于無(wú)法獲知,未能加入后續(xù)的模型分析。本文提出,可以利用任務(wù)和用戶的經(jīng)緯度數(shù)據(jù),按照平臺(tái)實(shí)際使用規(guī)則,采用仿真的方法,計(jì)算每個(gè)任務(wù)與其對(duì)應(yīng)完成用戶之間的距離。
平臺(tái)使用規(guī)則:用戶注冊(cè)平臺(tái)后,都會(huì)被賦予一個(gè)“信譽(yù)值”以對(duì)應(yīng)的“預(yù)訂限額”(該用戶在同一個(gè)時(shí)間段內(nèi)可以預(yù)訂的最多任務(wù)數(shù))。用戶成功完成任務(wù)后,系統(tǒng)自動(dòng)增加用戶的“信譽(yù)值”和“預(yù)訂限額”;用戶打開(kāi)APP后自動(dòng)定位到所在城市,平臺(tái)根據(jù)用戶所在城市,篩選出該城市的所有任務(wù)推薦給用戶;一個(gè)用戶可以在“預(yù)定限額”內(nèi)預(yù)訂多個(gè)任務(wù),系統(tǒng)默認(rèn)將任務(wù)分配給預(yù)訂用戶中“預(yù)定限額”值最大的用戶。因此,任務(wù)和任務(wù)執(zhí)行者在同一個(gè)城市,首先將任務(wù)和用戶按照城市歸屬地進(jìn)行劃分,再按圖1所示的計(jì)算流程計(jì)算出距離。這里,i=1,2,3,4;1=深圳,2=廣州,3=佛山,4=東莞。
圖1 距離求解流程圖
根據(jù)流程圖,先說(shuō)明如何確定預(yù)訂比例以及經(jīng)緯度轉(zhuǎn)化為距離的方法:
(1)確定用戶的預(yù)訂比例
用戶根據(jù)任務(wù)價(jià)格、距離,綜合個(gè)人情況等因素,選擇預(yù)訂或者不預(yù)訂,因此需要估計(jì)每一個(gè)城市的預(yù)訂比例。查看用戶信息中的信譽(yù)值、預(yù)訂限額和開(kāi)始預(yù)訂時(shí)間,可以認(rèn)為信譽(yù)值大于或等于2的用戶是至少預(yù)訂、執(zhí)行或者完成過(guò)一次任務(wù)的活躍用戶。統(tǒng)計(jì)每一個(gè)城市的活躍用戶數(shù)量,進(jìn)而計(jì)算每個(gè)城市的預(yù)訂比例,公式如下:
(2)兩點(diǎn)經(jīng)緯度坐標(biāo)轉(zhuǎn)換為平面距離(單位:千米)
假設(shè)地球是一個(gè)完美的球體,那么它的半徑就是地球的平均半徑,記為R。以0度經(jīng)線為基準(zhǔn),根據(jù)地球表面任意兩點(diǎn)的經(jīng)緯度就可以計(jì)算出這兩點(diǎn)的地表距離。符號(hào)標(biāo)記:第一點(diǎn)A的經(jīng)緯度為(LonA,LatA),第二點(diǎn)B記為(LonB,LatB),距離記為dis。球面上兩點(diǎn)間的距離(C)公式:
C=sin(MLatA)×sin(MLatB)×cos(LonA-LonB)+cos(LatA)×cos(LatB)
經(jīng)緯度數(shù)據(jù)均位于北半球和東半球,則可以直接代入公式,計(jì)算得到每一個(gè)任務(wù)的經(jīng)緯度坐標(biāo)和每一個(gè)完成用戶的經(jīng)緯度坐標(biāo)之間的距離。
(3)隨機(jī)模擬構(gòu)成“預(yù)訂用戶池”
預(yù)定比例乘以城市用戶總數(shù),求得每一個(gè)“預(yù)訂用戶池”的用戶數(shù)量ni。在R中使用sample()函數(shù),從該城市的所有用戶中隨機(jī)抽取用戶構(gòu)成人數(shù)為ni的“預(yù)訂用戶池”;再?gòu)摹邦A(yù)訂用戶池”中挑選出配額最大的用戶作為“完成用戶”,并得到該用戶的經(jīng)緯度坐標(biāo),使用距離公式求得該任務(wù)與完成者的距離;隨機(jī)模擬n次,分別計(jì)算抽選出的用戶與該個(gè)任務(wù)的距離,并取n次模擬的平均值。通過(guò)R軟件模擬,發(fā)現(xiàn)當(dāng)n=100時(shí),距離平均值已經(jīng)十分穩(wěn)定,所以用此時(shí)的平均值作為每一個(gè)任務(wù)與其完成者距離的估計(jì)。
3.其他變量:人均可支配收入、全年人均交通支出、失業(yè)率、非戶籍人口比例,分別記為inc,tra,unemp,non。相關(guān)數(shù)據(jù)匯總情況詳見(jiàn)表4。
表4 人均可支配收入等四個(gè)變量數(shù)值匯總表
注:數(shù)據(jù)從4個(gè)城市的2017年統(tǒng)計(jì)年鑒或政府報(bào)告中整理得到。
將6個(gè)因素全部加入Fisher線性判別模型,令第n個(gè)任務(wù)的完成情況的符號(hào)為Sn(0,1)(0表示任務(wù)未被完成,1表示被完成),同時(shí)沿用前述各變量的符號(hào),得到:
Sn(0,1)=α1pri+α2dis+α3inc+α4tra+α5unemp+α6non
在R軟件中,得到標(biāo)準(zhǔn)化后的線性判別的判別函數(shù)為:
Sn(0,1)=0.087 4pri+0.286 9dis-
2.001 2inc-3.050 4tra-
1.698 4unemp+0.029 4non
本文用混淆矩陣評(píng)價(jià)模型(見(jiàn)表5),并定義準(zhǔn)確率η。
表5 Fisher線性判別模型混淆矩陣
通過(guò)計(jì)算得到線性判別模型的準(zhǔn)確率是73.74%,說(shuō)明Fisher線性判別模型有一定的解釋度。Fisher線性判別模型顯示:價(jià)格、非戶籍人口比例越高,距離越遠(yuǎn);城市人均可支配收入、全年人均交通支出、失業(yè)率越低,任務(wù)完成率越高。
考慮到Fisher線性判決的準(zhǔn)確率只有73.74%,為了提高準(zhǔn)確率,在R中嘗試多種機(jī)器學(xué)習(xí)的模型,最終得到準(zhǔn)確率最高的算法是隨機(jī)森林。
隨機(jī)森林(Random Forest)是一種基于分類(lèi)樹(shù)的算法,它需要模擬和迭代,通過(guò)反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類(lèi)或回歸,在保證準(zhǔn)確度的前提下,大大降低了計(jì)算量。隨機(jī)森林可以解釋若干自變量(X1,X2,…,Xk)對(duì)因變量Y的作用。在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成很多分類(lèi)樹(shù),再匯總分類(lèi)樹(shù)的結(jié)果。隨機(jī)森林對(duì)多元共線性不敏感,結(jié)果對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測(cè)多個(gè)解釋變量的作用[17]。隨機(jī)森林模型的實(shí)現(xiàn)步驟是:
第一步,輸入訓(xùn)練集S={(xi,yi),i=1,2,…,n},(X,Y)∈Rd×R。
第二步,輸入待測(cè)樣本xt∈Rd,F(xiàn)ori=1,2,…,Ntree。
對(duì)原始訓(xùn)練集SBoostrap抽樣,生成訓(xùn)練集Si;使用Si生成一棵不減枝的樹(shù)hi,從d個(gè)特征中隨機(jī)選取Mtry個(gè)特征,并在每個(gè)節(jié)點(diǎn)上從Mtry個(gè)特征依據(jù)Gini指標(biāo)選取最優(yōu)特征;重復(fù)上一步驟直到樹(shù)長(zhǎng)到最大。
第三步,通過(guò)輸出樹(shù)的集合{hi,i=1,2,…,Ntree},對(duì)待測(cè)樣本xt,決策樹(shù)hi輸出hi(xt)。
分類(lèi)方程:f(xt)=majority vote{hi(xt)}Ntreei=1
針對(duì)于本次研究,將前述的所有變量的值加入隨機(jī)森林模型中,用原數(shù)據(jù)的70%構(gòu)建訓(xùn)練集、30%作為檢驗(yàn)集,分別得到訓(xùn)練集、檢驗(yàn)集的混淆矩陣,分別計(jì)算出準(zhǔn)確率,詳見(jiàn)表6~7。
表6 隨機(jī)森林模型訓(xùn)練集混淆矩陣
表7 隨機(jī)森林模型檢驗(yàn)集混淆矩陣
使用隨機(jī)森林模型得到的訓(xùn)練集的準(zhǔn)確率為83.53%,檢驗(yàn)集的準(zhǔn)確率為78.49%。隨機(jī)森林模型比Fisher線性判別模型的準(zhǔn)確率更高,能夠更好地進(jìn)行預(yù)測(cè)。同時(shí),也可以得到每個(gè)自變量對(duì)因變量的作用:自變量的重要性的衡量標(biāo)準(zhǔn)是準(zhǔn)確率平均減少值(Mean Decrease Accuracy),該數(shù)值體現(xiàn)了把一個(gè)變量的取值變?yōu)殡S機(jī)數(shù)時(shí)隨機(jī)森林預(yù)測(cè)準(zhǔn)確性的降低程度,該值越大表示該變量的重要性越大[17]。
如圖2所示,得到自變量對(duì)任務(wù)完成的重要性強(qiáng)弱依次是:距離、失業(yè)率、非戶籍人口比例、任務(wù)價(jià)格、人均可支配收入和全年交通支出。
圖2 各自變量準(zhǔn)確率的平均減少值圖
根據(jù)模型結(jié)果,可具體解釋分析各影響因素的影響機(jī)制:
1.效益與成本對(duì)比。用戶的效益主要來(lái)源于完成任務(wù)后所獲得的商家給予的獎(jiǎng)勵(lì)金以及相應(yīng)的信譽(yù)獎(jiǎng)勵(lì),因此任務(wù)標(biāo)價(jià)越高,任務(wù)完成情況越好。而用戶的成本主要分為3個(gè),即資金成本、時(shí)間精力成本和機(jī)會(huì)成本。
(1)資金、時(shí)間、精力成本
成本主要存在于用戶執(zhí)行任務(wù)時(shí)。資金成本主要是任務(wù)執(zhí)行途中所花費(fèi)的交通費(fèi)用。在相等距離的條件下,過(guò)高的交通費(fèi)用導(dǎo)致用戶不愿意為了一筆收入不高的任務(wù)花費(fèi)較高的成本,因此在4個(gè)城市中,全年人均交通支出越高,完成率越低。模型中用距離可以衡量用戶完成任務(wù)的時(shí)間精力成本。該成本可視為沉沒(méi)成本,一旦付出較高的成本,用戶會(huì)更可能強(qiáng)迫自己去完成任務(wù),因此出現(xiàn)了“距離越遠(yuǎn),完成率越高”的情況。
(2)機(jī)會(huì)成本
根據(jù)統(tǒng)計(jì)局?jǐn)?shù)據(jù)表明,2016年深圳的人均可支配收入有4 057.92元/月,而東莞的為3 491.83元/月。用收入價(jià)格比來(lái)直觀顯示任務(wù)價(jià)格和收入對(duì)完成率的影響:
若不計(jì)成本,深圳人要完成60件任務(wù),才能賺到相當(dāng)于1個(gè)月工資的收入,而東莞人完成50件任務(wù)便可達(dá)到月人均收入水平。由此相較于東莞人,深圳人對(duì)于“拍照賺錢(qián)”這一賺錢(qián)方式的需求不大。任務(wù)的低廉價(jià)格對(duì)于他們而言沒(méi)有吸引力,所以深圳的完成率較低,這也是線性判別函數(shù)中“價(jià)格”變量前系數(shù)為正、“人均可支配收入”變量前系數(shù)為負(fù)的經(jīng)濟(jì)解釋。
2.市場(chǎng)競(jìng)爭(zhēng)。用戶競(jìng)爭(zhēng)主要用非戶籍人口比例和失業(yè)率來(lái)量化。眾包平臺(tái)上每個(gè)任務(wù)設(shè)置的獎(jiǎng)勵(lì)金數(shù)額較少,任務(wù)發(fā)布頻率也較低,用戶不可能以任務(wù)獎(jiǎng)勵(lì)金作為收入的主要來(lái)源。非戶籍人口渴望更多收入,會(huì)更有動(dòng)力選擇這種方式賺外快,且更有壓力去迫使自己必須完成拍照任務(wù),取得獎(jiǎng)勵(lì)金,因此非戶籍人口比例越高,完成率更高。完成情況越好,更多商家認(rèn)可平臺(tái)帶來(lái)的經(jīng)濟(jì)效益,會(huì)在平臺(tái)發(fā)布更多的任務(wù),形成良性循環(huán)。
勞務(wù)眾包平臺(tái)的任務(wù)本質(zhì)上是一種兼職。由于時(shí)間地點(diǎn)距離的限制,失業(yè)人員有意愿工作但未能如愿。勞務(wù)眾包平臺(tái)的任務(wù)并不能帶來(lái)持續(xù)穩(wěn)定的收入,不能維持日常開(kāi)銷(xiāo),因此他們對(duì)該平臺(tái)的認(rèn)可度不高,從而失業(yè)人員越多,反而完成率越低。與此同時(shí),不少上班族有可能會(huì)利用閑暇時(shí)間去賺小額外快,所以出現(xiàn)失業(yè)率越低,完成率越高的現(xiàn)象。
本文基于平臺(tái)內(nèi)部實(shí)際運(yùn)營(yíng)數(shù)據(jù),在前人研究基礎(chǔ)上,通過(guò)鎖定影響任務(wù)完成情況的因素,并根據(jù)平臺(tái)現(xiàn)有數(shù)據(jù),采用仿真的方法獲得“距離”這一變量的值,隨后采用Fisher線性判別和隨機(jī)森林兩大預(yù)測(cè)模型,最終能較好預(yù)測(cè)任務(wù)的完成情況。根據(jù)以上結(jié)果的分析,可認(rèn)為該研究思路具有一定的延伸性和推廣性。
第一,變量的選擇具有一定的創(chuàng)新性。以往的研究都沒(méi)有將用戶和任務(wù)之間“距離”加入模型,這是因?yàn)閷W(xué)者很難獲得平臺(tái)內(nèi)部數(shù)據(jù),“距離”自然無(wú)從得知。還有一個(gè)原因是平臺(tái)數(shù)據(jù)也只能提供任務(wù)和用戶的經(jīng)緯度,如何將這一數(shù)據(jù)轉(zhuǎn)化為距離是一個(gè)難點(diǎn)。本文采用仿真的方法,成功解決了這一問(wèn)題,得到了每一個(gè)任務(wù)與其完成用戶之間的距離。從隨機(jī)森林模型的結(jié)果可以看出,距離這一因素對(duì)于完成度的影響程度最大,加入這一變量會(huì)使得對(duì)用戶行為影響因素的分析更為完整。
第二,與以往研究不同,本文充分考慮了區(qū)域因素,并將區(qū)域因素量化。將任務(wù)和用戶都依據(jù)城市進(jìn)行劃分,每一個(gè)城市的人均可支配收入、交通支出費(fèi)用、非戶籍人口比例和失業(yè)率都不一樣,而這些變量分別可以反映用戶執(zhí)行任務(wù)的機(jī)會(huì)成本、資金成本和競(jìng)爭(zhēng)情況。依據(jù)從Fisher線性判別中得到,價(jià)格、距離、非戶籍人口比例對(duì)完成率有正向影響,而城市人均可支配收入、交通支出費(fèi)用和失業(yè)率具有負(fù)向影響,這與大多數(shù)前人的研究結(jié)果一致。
第三,在模型的優(yōu)化環(huán)節(jié),隨機(jī)森林方法的預(yù)測(cè)結(jié)果準(zhǔn)確性高達(dá)83.53%,可以認(rèn)為用該模型去預(yù)測(cè)新任務(wù)的完成情況是合理有效的。
基于上述研究結(jié)論和研究思路,本文提出以下三點(diǎn)建議:
第一,任務(wù)眾包的完成情況與任務(wù)所在地域的地理人文環(huán)境密切相關(guān),因此勞務(wù)眾包平臺(tái)的推廣需要本土化、區(qū)域化。平臺(tái)可依據(jù)每個(gè)城市的收入水平、人口構(gòu)成、人口素質(zhì)等協(xié)助商家制定個(gè)性化的定價(jià)策略,平臺(tái)也可以制定針對(duì)性的任務(wù)分配規(guī)則。
第二,在本文研究的六大因素中,距離和價(jià)格是商家和平臺(tái)可控的因素。獎(jiǎng)金是任務(wù)執(zhí)行者完成任務(wù)的重要驅(qū)動(dòng)力,任務(wù)執(zhí)行者會(huì)根據(jù)獎(jiǎng)金額度來(lái)篩選任務(wù),有吸引力的獎(jiǎng)金才能吸引更多能力強(qiáng)的參與者。因此,企業(yè)應(yīng)在定價(jià)上下功夫,定價(jià)應(yīng)既具有吸引力又有一定的區(qū)分度。距離是影響任務(wù)完成度的最重要因素,商家和平臺(tái)應(yīng)該給予重視。平臺(tái)可以考慮更換任務(wù)分配規(guī)則:不是每次都將任務(wù)首先分配給限額最高的用戶,而是同時(shí)考慮將任務(wù)分配給距離最近的用戶。與此同時(shí),商家和平臺(tái)可以考慮采用“臨近任務(wù)打包”等手段,縮短用戶與任務(wù)之間的平均距離,從而促進(jìn)用戶參與度,提高任務(wù)完成質(zhì)量。
第三,最終得到的隨機(jī)森林模型具有較高的準(zhǔn)確性。因此,在任務(wù)發(fā)布之前,可先使用模型進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果,商家可以適當(dāng)調(diào)整價(jià)格,而平臺(tái)可以調(diào)整挑選執(zhí)行任務(wù)的用戶的規(guī)則,讓“更合適的人做事”,保證任務(wù)完成質(zhì)量,提高任務(wù)的完成度,為雙方創(chuàng)造更大的價(jià)值。