□薛潔 姚雨萌 吳霞
隨著全球化和自由化進(jìn)程的加快,越來越多的人熱衷于體驗(yàn)共享生活。繼滴滴出行打開共享交通出行市場之后,人們紛紛把目光投向了共享住宿。針對杭州市共享住宿問題,借助國際住宿分享平臺Airbnb愛彼迎,研究杭州市共享住宿的發(fā)展?fàn)顩r,并且利用XGBoost算法對杭州市共享住宿的入住率進(jìn)行預(yù)測。結(jié)果表明,杭州市共享住宿的入住率受入住時間、訪問量和評論數(shù)的影響較大,并且提出的基于機(jī)器學(xué)習(xí)算法XGBoost的預(yù)測模型對入住率的擬合效果較好,可以作為消費(fèi)者和共享住宿房東做決策的模型依據(jù)。
隨著“互聯(lián)網(wǎng)+”和社會生產(chǎn)力水平的不斷發(fā)展,衍生了一種新的經(jīng)濟(jì)形態(tài)——共享經(jīng)濟(jì)。共享經(jīng)濟(jì)是利用互聯(lián)網(wǎng)等現(xiàn)代技術(shù),實(shí)現(xiàn)資源優(yōu)化再配置,減少資源浪費(fèi),降低成本的模式[1]。我國的共享經(jīng)濟(jì)相較國外雖然開展的較晚,但卻發(fā)展迅速,展現(xiàn)了良好的生機(jī)。2018年6月21日,國務(wù)院總理李克強(qiáng)主持召開國務(wù)院常務(wù)會議,部署促進(jìn)分享經(jīng)濟(jì)健康發(fā)展,推動創(chuàng)業(yè)創(chuàng)新便利群眾生產(chǎn)生活。據(jù)國家信息中心分享經(jīng)濟(jì)研究中心估計,我國共享經(jīng)濟(jì)保持高速增長,2017年我國共享經(jīng)濟(jì)市場交易額約為49205億元,比上年增長47.2%,到2020年中國的共享經(jīng)濟(jì)的總規(guī)模將占到中國GDP的10%左右,到2025年中國的共享經(jīng)濟(jì)的交易總規(guī)模將達(dá)到GDP的20%左右[2]。由此看出,共享經(jīng)濟(jì)在未來對我國的經(jīng)濟(jì)發(fā)展貢獻(xiàn)巨大。
隨著共享經(jīng)濟(jì)實(shí)踐與理論的不斷發(fā)展,國內(nèi)住房分享日漸普及,行業(yè)持續(xù)升溫,在市場交易規(guī)模、融資量、參與人數(shù)等方面都取得了重大突破。初步估算,2017年我國共享住宿市場交易規(guī)模達(dá)145.6億元,比上年增長70.6%,融資額約為5.4億美元,比上年增長約180%[3]。目前,國內(nèi)共享住宿市場整體處于起步階段,未來發(fā)展?jié)摿薮??!?018中國共享住宿發(fā)展報告》中提到2017年主要共享住宿平臺的房源數(shù)量約300萬套,參與者人數(shù)約為7800萬人,其中房客7600萬人。報告中還提到,我國共享住宿行業(yè)初具規(guī)模,業(yè)務(wù)創(chuàng)新不斷涌現(xiàn),整體處于快速上升階段,頭部企業(yè)正在脫穎而出[3]。
目前對于共享住宿的研究,從概念、運(yùn)營模式、發(fā)展進(jìn)程到社會影響等各個方面都做了很多工作,成為了一個跨學(xué)科綜合性課題。國外JonesD.等人(2011)在調(diào)查中國香港游客對中國大陸分享住房的偏好時,發(fā)現(xiàn)年輕、接受中高等教育、中等收入水平的女性是大陸分享住房的主要目標(biāo)群體[4];Chen L.等人(2013)對中國臺灣游客的調(diào)查發(fā)現(xiàn),選擇分享住房的游客呈現(xiàn)出核心家庭、獲得良好教育及中低階層的特征[5];ZhihuaZhang等(2017)利用地理位置加權(quán)法對影響Airbnb平臺房價的主要因素進(jìn)行了定量研究[6]。國內(nèi)的共享住宿研究主要以定性分析為主,顧彥(2017)指出目前住房分享市場成立較早、規(guī)模較大的活躍平臺大概可以分為三個梯隊(duì):第一梯隊(duì)是小豬短租、途家網(wǎng)等;第二梯隊(duì)包括Airbnb、中國、木鳥網(wǎng)等;第三梯隊(duì)主要包括大量的、長尾的特色品牌和民宿聯(lián)盟等[7]。而王漪(2017)則指出現(xiàn)階段國內(nèi)住房分享平臺呈現(xiàn)途家、小豬、Airbnb三足鼎立的局面[8]。雖然共享住宿已經(jīng)廣受市場認(rèn)可,但其發(fā)展仍面臨諸多問題,如邱榕等(2016)從國情、房源及市場這些因素出發(fā)分析了Airbnb在我國發(fā)展存在的問題,其中信任缺失和房源質(zhì)量參差不齊這兩個問題最為嚴(yán)重[9]。
因此,針對國內(nèi)共享住宿定量研究的不足,本文以歷來有“上有天堂,下有蘇杭”美譽(yù)的杭州市作為研究對象,分析杭州市共享住宿的發(fā)展、入住率等影響因素,提出基于XGBoost算法的共享住宿入住率預(yù)測模型,從而為杭州共享住宿發(fā)展提供科學(xué)建議和決策支持。
官方界定共享住宿主要指以互聯(lián)網(wǎng)平臺為依托,整合、分享海量的、分散的住宿資源,滿足多樣化住宿需求的各種經(jīng)濟(jì)活動的總和[3]。由此可見,互聯(lián)網(wǎng)平臺在共享住宿中的重要性。目前,國內(nèi)共享住宿業(yè)務(wù)開展較好的互聯(lián)網(wǎng)平臺有Airbnb、途家、小豬短租等。其中,Airbnb平臺作為共享住宿平臺的主力軍,占整個中國用戶群體的83%,其中房東平均年齡32歲,30歲以下房東占比45%[3]。
表1 各變量的具體描述
由于本案例研究對象的發(fā)展尚處起步階段,不利于開展問卷調(diào)查,因此本文以Airbnb作為研究共享住宿的數(shù)據(jù)平臺,獲取網(wǎng)站上展示的杭州市307個共享住宿信息,以及2018年第一季度的每日住房可訂情況,將每月的不可訂比例作為每月的入住率。
經(jīng)過數(shù)據(jù)收集及整理發(fā)現(xiàn),評論數(shù)為空的房源在總房源中所占比例較低,且房源的入住率也較低,可以認(rèn)為,評論數(shù)為空是新房源的緣故,因此,直接刪除評論數(shù)為空的房源?;诖?,本文最終確定了281個不重復(fù)房源。通過對房源入住率的分析,發(fā)現(xiàn)約七成房源的入住率超過60%,如圖1所示。從圖中也可發(fā)現(xiàn):入住率低于20%的房源僅占3.6%,整體而言,杭州市在線房源的入住率較好,說明現(xiàn)階段杭州市共享住宿的發(fā)展較為樂觀,從而研究杭州市房源的入住率具有重要的現(xiàn)實(shí)意義。
圖1 杭州市在線房源入住率餅圖
為了便于消費(fèi)者更加直觀的判斷房源,在接下來的模型構(gòu)建中,因變量入住率則根據(jù)計算出來的數(shù)值大小將其轉(zhuǎn)換成高、中、低三個程度,即入住率低于0.33設(shè)為低,0.33到0.66設(shè)為中,高于0.66則設(shè)為高。
而為了具體分析杭州市共享住宿入住的影響因素,本文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取每個房源的特征信息作為自變量,共計22個。自變量大致分為兩類:一類為“硬件設(shè)施”,即描述房屋內(nèi)部特征,比如臥室數(shù)、床數(shù)、衛(wèi)生間數(shù)和最多可住人數(shù);另一類為“軟件設(shè)施”,描述房屋的各性能,比如價格、評論數(shù)、圖片數(shù)等。具體描述如表1所示。其中,綜合評分取值為4、4.5和5三種,且以4.5和5居多,鑒于此,對于綜合評分變量采取隨機(jī)替換為4.5和5的隨機(jī)填補(bǔ)法;瀏覽數(shù)變量,采用均值填補(bǔ)法補(bǔ)充缺失值。
接下來,本文將基于XGBoost算法構(gòu)建多分類預(yù)測模型,具體分析上述因素對杭州市共享住宿入住率的影響,并對入住率進(jìn)行預(yù)測,評估模型的預(yù)測效果。
由TianqiChen在2015年提出的XGBoost算法作為如今的新起之秀,在數(shù)據(jù)挖掘領(lǐng)域熠熠生輝。XGBoost全名 ExtremeGradient Boosting,作為監(jiān)督學(xué)習(xí),可以處理回歸和分類兩類問題[10]。因此本文選用XGBoost算法作為預(yù)測模型。
XGBoost是在GBDT基礎(chǔ)上發(fā)展起來的,通常以決策樹或者回歸作為基學(xué)習(xí)器[11]。XGBoost是遞歸模型,每次建立模型都是在上一次的模型基礎(chǔ)上建立的,并且以損失函數(shù)(lossfunction)作為模型建立參考,損失函數(shù)越大,則說明模型越不穩(wěn)定。每一次建立模型的目的就是要減少誤差,如果建立的模型能夠讓損失函數(shù)不斷的下降,則說明模型性能在不斷的提高。
模型的目標(biāo)函數(shù)表示為:
其中,L(Θ)為訓(xùn)練誤差,Ω(Θ)為正則項(xiàng)。優(yōu)化誤差項(xiàng),以便于減小誤差,提高模型的精度;優(yōu)化正則項(xiàng)是為了簡化模型,簡單模型往往未來變動較小,預(yù)測更加穩(wěn)定。但是沒有辦法同時訓(xùn)練很多樹,所以采取逐步增加的方式,先固定之前學(xué)習(xí)到的,再在其基礎(chǔ)上添加一顆新的樹[12]。
表2 Booster參數(shù)之分類模型參數(shù)
則目標(biāo)函數(shù)可以改寫成:
const表示常數(shù)項(xiàng),對目標(biāo)函數(shù)進(jìn)行泰勒展開,如:
對泰勒展開的目標(biāo)函數(shù),遍歷每個特征的分裂點(diǎn),計算該分裂條件下的前后目標(biāo)函數(shù)變量值,最后確定目標(biāo)函數(shù)變化值最大的為分類條件。
目前很多平臺可以實(shí)現(xiàn)XGBoost算法,常見的如R,python,Java等。本文選用Python作為實(shí)現(xiàn)工具,對Airbnb網(wǎng)站的共享住宿數(shù)據(jù)進(jìn)行模型構(gòu)建。模型的優(yōu)化選擇本質(zhì)上就是模型的參數(shù)選擇過程,為模型選擇最優(yōu)參數(shù),才能不斷提高模型的性能。XGBoost算法的參數(shù)大致分為三種類型:通用參數(shù),Booster參數(shù)和學(xué)習(xí)目標(biāo)參數(shù)[13]。其中Booster作為控制每一步迭代的參數(shù),對模型的性能影響較大,對模型具體的參數(shù)解釋如表2所示。在建立模型之前將281條數(shù)據(jù)分為訓(xùn)練集和測試集,其中訓(xùn)練集為221條數(shù)據(jù),測試集為60條數(shù)據(jù)。
上述參數(shù)中,對模型影響最大的參數(shù)為eta(學(xué)習(xí)速率)和n_eati-mators(迭代次數(shù))。對模型而言,n_eatimators越大說明學(xué)習(xí)越充分,模型的性能也會提高,但是,過大的迭代次數(shù)會浪費(fèi)資源,也會導(dǎo)致過擬合現(xiàn)象。所以選擇合適的迭代次數(shù)顯得尤為重要,既可以讓模型處在一個良好的性能,同時,也可以達(dá)到最好的效率。eta參數(shù)的設(shè)置和n_eatimators的參數(shù)選擇有關(guān),為了能夠快速的迭代找到其他最優(yōu)的參數(shù),通常先將eta設(shè)置較大,當(dāng)其他參數(shù)確定了之后再盡可能的選擇較小的學(xué)習(xí)速率以獲得最優(yōu)的性能。
選擇最優(yōu)參數(shù)的過程,實(shí)際是參數(shù)的排列組合過程,不同的參數(shù)組合擬合程度也是不同的。為了找出最優(yōu)的參數(shù)組合,本文利用網(wǎng)格搜索法,通過遍歷所有的參數(shù)組合選定最優(yōu)的參數(shù)組合(調(diào)參過程如圖2所示),分別設(shè)置樹的最大深度、最小葉子節(jié)點(diǎn)樣本權(quán)重和、gamma值、類別數(shù)目、訓(xùn)練模型的子樣本占樣本的比例和每棵樹隨機(jī)采樣的列數(shù)的占比為[3,10]、[1,10]、[0,0.5]、[3,8],[0.6,1]和[0.6,1],搜索步長從大到小。對每一個參數(shù)進(jìn)行網(wǎng)格搜索法調(diào)參,最終獲得最佳參數(shù)如表3所示。
表3 模型最終確定參數(shù)
圖2 網(wǎng)格搜索調(diào)參流程圖
圖3 模型特征重要性排序
表4 模型混淆矩陣
XGBoost模型作為預(yù)測模型,算法較為復(fù)雜,只能得到最終的預(yù)測結(jié)果,其中自變量和因變量之間的關(guān)系無從得知。因此,本文利用XGBoost包中的important函數(shù)來獲取各變量的重要性大小,從而得出各變量對預(yù)測結(jié)果所貢獻(xiàn)的權(quán)重比重。如圖3所示:
從圖中可以看出特征重要性依次為:入駐時間,訪問量,評論數(shù),價格,圖片數(shù),瀏覽數(shù),服務(wù)費(fèi),清潔費(fèi),回復(fù)率,是否超贊房東,是否整套,是否有自我介紹,最多可住人數(shù),衛(wèi)生間數(shù),是否可以自助服務(wù),床數(shù),是否有交通介紹,星級評分,是否有助手,語言數(shù),臥室數(shù),是否有房屋介紹。
其中,入駐時間、訪問量、評論數(shù)、價格、圖片數(shù)、瀏覽數(shù)、服務(wù)費(fèi)、清潔費(fèi)、回復(fù)率和是否超贊房東,對入住率高低的影響較為重要,也體現(xiàn)出了房客選擇房源的著重點(diǎn)所在。而星級評分、是否有助手、語言數(shù)、臥室數(shù)和是否有房屋介紹這五個因素的重要性最低,不僅說明了這些變量對入住率高低的影響較低,也體現(xiàn)了如今Airbnb的主要客源還是國內(nèi)。
利用測試集對模型進(jìn)行檢驗(yàn),可得混淆矩陣如表4所示:
1.總體模型評估。模型的總體準(zhǔn)確率為:p總=100%=86.67%,該模型的總體準(zhǔn)確率為86.67%,認(rèn)為該模型的預(yù)測效果較好。
Hammingloss(漢明損失)是描述多分類的評價指標(biāo),表示所有分類中錯誤樣本的比例,所以該值越小則模型的分類能力越強(qiáng)。其中,|D|表示樣本總數(shù),|L|表示標(biāo)簽總數(shù),xi和yi分別表示真實(shí)結(jié)果和預(yù)測結(jié)果,xor表示異或運(yùn)算。根據(jù)公式得出模型的Hammingloss(漢明損失)為:HammingLoss(xi,yi)=
顯示模型的整體分類錯誤較低,模型的整體擬合程度較好。
2.各分類評估。研究了模型的整體效能之后,對每一個分類進(jìn)行討論。本文所研究的是三分類問題,對于多分類問題需要對二分類做類似推廣,將每個類別單獨(dú)視為“正”,其他類別視為“負(fù)”,得出每個類別的精確度、召回率,以及精確度與召回率的調(diào)和平均值F1,如表5所示:
表5 不同類別的精確度、召回率和F1
可以看出,入住率中和高的各項(xiàng)指標(biāo)都較高,顯示該模型對這兩類的擬合程度較好,而與入住率為中和高相比,入住率為低的召回率較低,但是F1值和精確度較高。由于F1值是對精確度和召回率的調(diào)和平均值,是綜合了兩個指標(biāo)的評判指標(biāo),F(xiàn)1值越高,則說明模型較理想。入住率為低的F1值為1.96,較高。則說明XGBoost模型不僅在整體上表現(xiàn)優(yōu)異,在每個類別上也表現(xiàn)良好。
本文基于Airbnb網(wǎng)站上281個房源信息,運(yùn)用XGBoost算法對杭州市的共享住宿進(jìn)行入住率預(yù)測。
考慮到共享住宿入住率目前研究的不足,提出使用XGBoost算法對入住率進(jìn)行多分類預(yù)測,從模型的各項(xiàng)評判指標(biāo)來看,模型的擬合效應(yīng)較好,可以作為判斷入住率高低的依據(jù),從而為消費(fèi)者提前選擇合適的共享住宿提供參考。為了提高模型的性能,本文使用網(wǎng)格搜索法,尋找最優(yōu)參數(shù)組合,提高模型的預(yù)測準(zhǔn)確度。
從模型的特征重要性評估結(jié)果顯示:(1)重要性排名前三名的為入駐時間,訪問量和評論數(shù),也說明了在共享住宿的選擇上價格并不是影響消費(fèi)者的重要因素,選擇共享住宿,是為了體驗(yàn)時下年輕人十分注重的社交體驗(yàn)機(jī)會。入駐時間可以體現(xiàn)房源的存在價值,時間越久,消費(fèi)者會更加傾向該房源。訪問量和評論數(shù)可以作為評判房源吸引力的直接指標(biāo),是房源預(yù)訂與否的重要因素。(2)重要性排名后三名的是語言數(shù),臥室數(shù),是否有房屋介紹。其中,語言數(shù)直接體現(xiàn)了我國的國外市場沒有打開,為了讓我國的共享住宿事業(yè)有更好的發(fā)展,應(yīng)適當(dāng)?shù)耐卣箛饪蛻?,吸引國外消費(fèi)者的青睞;臥室數(shù)和是否有房屋介紹則顯示了消費(fèi)者對于房間的具體構(gòu)造關(guān)注度較低,人文情懷才是人們選擇共享住宿的著重點(diǎn)。
本文提出的共享住宿入住率預(yù)測模型有助于共享住宿房東針對不同時期的入住采取措施,制定對應(yīng)的策略,也可以查缺補(bǔ)漏,在有關(guān)方面采取針對性的提高策略,以更好的達(dá)到共享。另一方面,為消費(fèi)者提前制定出行計劃提供數(shù)據(jù)支持,致力于讓更多的消費(fèi)者可以選擇到滿意的共享住宿,讓出行更加便利。