摘? 要: 對成交價格進行預(yù)測,旨在獲得Ebay拍賣品的價格動態(tài),使買賣雙方更好地進行交易。將價格區(qū)間進行多分類劃分和多次最優(yōu)參數(shù)選擇,建立極端梯度提升(XGBoost,eXtreme Gradient Boosting)模型,并與最優(yōu)邏輯斯蒂回歸模型比較,使用平均準確率作為模型的評估指標。經(jīng)比較發(fā)現(xiàn)XGBoost模型達到90.55%的準確率,明顯優(yōu)于邏輯斯蒂回歸模型。此外通過十次迭代,分別得到兩個模型的準確率變化趨勢,結(jié)果顯示Xgboost具有更高的準確率。
關(guān)鍵詞: Ebay網(wǎng)上拍賣; 成交價格預(yù)測; 多分類; 極端梯度提升; 最優(yōu)參數(shù)選擇; 邏輯斯蒂回歸
中圖分類號:TP393????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-46-05
Prediction of the final price of Ebay online auction using XGBoost
Cao Feifei
(School of Economics, Guangdong Peizheng University, Guangzhou, Guangdong 510830, China)
Abstract: To predict the transaction price, aiming to obtain the price dynamics of Ebay auction products, so that buyers and sellers can better conduct transactions. By multi-classifying the price interval and multiple optimal parameter selecting, the XGBoost (eXtreme Gradient Boosting) model is established, and compared it with the optimal logistic regression, using the average accuracy as the evaluation index. The comparison finds the XGBoost model achieved 90.55% accuracy, which is significantly better than the logistic regression model. In addition, through ten iterations, the accuracy trends of the two models are obtained respectively, the result shows that XGBoost has higher accuracy.
Key words: Ebay online auction; transaction price prediction; multi-classification; eXtreme Gradient Boosting; optimal parameter selection; logistic regression
0 引言
互聯(lián)網(wǎng)的飛速發(fā)展使我們的生活真正產(chǎn)生日新月異的變換,不知不覺改變?nèi)藗兊纳盍?xí)慣,網(wǎng)上拍賣市場就是眾多改變之一[1]。由于網(wǎng)上拍賣的流行, 許多大型拍賣網(wǎng)站應(yīng)運而生,比如熟知的Yahoo拍賣、露天拍賣、臺灣樂天市場、Ebay、DMM.com等[2],他們對電子商務(wù)的集體影響是驚人的,其中Ebay是發(fā)展最迅速,也是目前為止世界上最大的網(wǎng)上拍賣網(wǎng)站。據(jù)統(tǒng)計,Ebay網(wǎng)站上有1.49億活躍買家[3],幾乎任何人都可以買賣任何東西,超過7億商品在Ebay進行交易。作為世界上最大的網(wǎng)上交易平臺,Ebay產(chǎn)生了大量的交易數(shù)據(jù),各類交易數(shù)據(jù)都包含大量有用的交易信息[4],因此對這些交易數(shù)據(jù)的研究就顯得尤為重要。
通過對拍賣數(shù)據(jù)的研究,為出標者和投標者制定一套切實可用的競價策略,出標者能盡可能得到想要的價格,中標者也可以最劃算的價格拍到自己想要的物品,實現(xiàn)共贏。由于拍賣過程的動態(tài)性,即隨時間的變化,拍賣過程沒有規(guī)律可循,造成實際操作不容易預(yù)測。本文在前人研究的基礎(chǔ)上使用機器學(xué)習(xí)算法,對拍賣數(shù)據(jù)集進行預(yù)處理和指標體系構(gòu)建,然后對成交價格進行預(yù)測,我們希望機器學(xué)習(xí)方法能在拍賣數(shù)據(jù)方面體現(xiàn)它們的價值,這也是本文的另一個目的。
1 相關(guān)工作
目前,對于最終成交價格的預(yù)測研究都是通過對歷史數(shù)據(jù)收集,找到它們之間的規(guī)律,然后通過建立模型進行預(yù)測。
國外有代表性的研究如下:Wang、Jank和Shmueli用函數(shù)型數(shù)據(jù)分析(FDA)對最終成交價格預(yù)測,并對拍賣動態(tài)性進行了解釋[5]。Zhang,Jank和Shmueli提出了一種動態(tài)預(yù)測模型,此外他們也使用函數(shù)型K最近臨對拍賣動態(tài)數(shù)據(jù)進行了預(yù)測,他們先使用Beta模型擬合出三個不同的價格走勢,這樣就得到Beta累積分布函數(shù),通過對Beta累積分布函數(shù)分別求一階導(dǎo)數(shù)和二階導(dǎo)數(shù)作為價格的速度和加速度,然后使用函數(shù)型K最近臨預(yù)測價格走勢[6]。Liu,F(xiàn)eng和Shao通過對投標者行為的分析,他們提出了基于Bagging算法和決策樹算法的模型去預(yù)測成交價格[7]。相比國外, 國內(nèi)對于最終成交價格的動態(tài)性的研究很少,主要有:李雪峰等人使用機器學(xué)習(xí)算法對Ebay網(wǎng)站上的諾基亞移動手機數(shù)據(jù)進行最終成交價格的預(yù)測,他們將最終成交價格分為連續(xù)型和離散型兩種類型,并分別應(yīng)用不同的機器學(xué)習(xí)算法進行預(yù)測。連續(xù)型的最終價格預(yù)測使用多元回歸算法,離散型價格預(yù)測使用使用邏輯斯蒂回歸和神經(jīng)網(wǎng)絡(luò)算法,除此之外,他們還認為聚類分析也會對預(yù)測的準確率造成影。楊睿等基于函數(shù)型回歸模型建立了網(wǎng)絡(luò)拍賣品的動態(tài)預(yù)測模型。
2 數(shù)據(jù)收集及預(yù)處理
2.1 數(shù)據(jù)收集
本文所用的數(shù)據(jù)集是通過網(wǎng)絡(luò)爬蟲技術(shù)獲得的。文章對Ebay拍賣網(wǎng)站的歷史交易數(shù)據(jù)建立爬蟲模型,并對歷史數(shù)據(jù)進行實時跟蹤,獲取有用的信息, 然后將爬取的數(shù)據(jù)保存到數(shù)據(jù)庫中。此數(shù)據(jù)集是關(guān)于Microsoft Box的數(shù)據(jù),它在Ebay拍賣網(wǎng)站上非常流行,產(chǎn)生了大量的交易數(shù)據(jù),總共有1861個拍賣數(shù)據(jù),拍賣長度都是七天。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 數(shù)據(jù)重編碼
因為數(shù)據(jù)集中條件(Condition)這一列是字符串形式的,所以在建模之前將其重編碼為0,1變量,并記為Condition1;對于拍賣開始時間(StartTime),投標時間(BidTime)和投標結(jié)束時間(EndTime),它們都是時間戳形式的數(shù)據(jù),我們將其轉(zhuǎn)換成數(shù)值形式,并生成三個新變量分別記為startday,bidday和endday。
2.2.2 缺失值處理
此數(shù)據(jù)集中郵費這一屬性包含缺失值,所以對其進行填充,本文采用K最近鄰法填充缺失值,因為基于K個最近鄰的缺失值填充算法考慮到了屬性上下數(shù)據(jù)之間的相關(guān)性,可以使預(yù)測結(jié)果更為準確,我們使用R語言來完成。
具體做法如下:首先計算目標屬性與其他屬性之間的歐式距離,其次在所有計算出來的距離中找到距離目標屬性距離最小K個最近鄰郵費,然后對選擇出的K個最近鄰目標屬性賦予相應(yīng)的權(quán)值,其相應(yīng)位置的加權(quán)平均值即為目標屬性缺失值的估計值。填充完缺失值后,生成新的郵費變量記為ShipFee1。
2.2.3 數(shù)據(jù)標準化
對拍賣品的成交價格這一屬性進行標準化是為了加快訓(xùn)練速度, 更快的找到最優(yōu)解,且圖1成交價格分布直方圖((a)表示沒取對數(shù)之前的分布,(b)表示取對數(shù)之后的分布)使其處在一個可比較的范圍內(nèi), 標準化公式如下:
[Zsp=Xsp-μspσsp]? ⑴
其中[Zsp]表示成交價格的標準化值,[ Xsp]表示其原始值,[ μsp]表示其均值,[σsp]表示其標準差,sp表示成交價格。
標準化前后的圖形如圖1所示,其中(a)(b)兩圖都存在明顯的傾斜,成交價格集中在300美元以下,我們對測試集也進行了同樣的處理,發(fā)現(xiàn)它和訓(xùn)練集有非常相似的分布。
3 屬性構(gòu)建和選擇
3.1 屬性構(gòu)建
由于拍賣數(shù)據(jù)和投標數(shù)據(jù)是一個拍賣記錄對應(yīng)多個投標記錄,且他們之間相互依賴,為了使用機器學(xué)習(xí)算法更準確的建立模型,需將一對多關(guān)系轉(zhuǎn)換為一對一的關(guān)系。我們使用李雪峰等提出的方法進行屬性的構(gòu)建與選擇[9]。
此數(shù)據(jù)集共包含1861個拍賣記錄,對于Ebay上的一個拍賣i(此數(shù)據(jù)集中[1≤i≤1861]),用M表示拍賣記錄的集合:[M={mi}],讓N表示所有投標記錄的集合:[N={ni}],因此M和N之間存在一對多的關(guān)系,它們之間的關(guān)系可以通過圖2看出。
由于拍賣記錄中包含的時變屬性有投標時間, 投標金額,投標者的好評率和投標數(shù)量, 通過對這四個屬性的處理,構(gòu)建新屬性,使得一對多的關(guān)系轉(zhuǎn)變成一對一的關(guān)系,最終得到16個新的屬性, 構(gòu)建的新屬性及其含義如表2,生成新的屬性關(guān)系如表3。
3.2 屬性的選擇
構(gòu)建好新屬性后, 進行屬性的選擇,我們要選擇對成交價格影響大的屬性去建立預(yù)測模型。用[P]表示預(yù)測的屬性集合,[A]表示賣家的屬性集合,[B]表示固有的屬性集合,[C]表示構(gòu)建的新屬性集合,因此有[P=A∪B∪C],[ A],[B],[C]包含的屬性如下:
[A=SR],[SR]表示出標者的好評率,[B=ST,ET,SP,SF,RS,CD]
其中,[ST]表示拍賣開始時間,[ET]表示拍賣結(jié)束時間,[SP]表示拍賣品的起始價格,[SF]表示郵費, [RS]表示是否有保留價格,[CD]表示拍賣品的條件。
對于每個屬性表示的含義,請看表2。
[C=MINBT,MAXBT,DURATION,MINBid,MAXBid,AVGBid,STDEVBid,MINBR,AVGBR,STDEVBR,MINNB,MAXNB,AVGNB,STDEVNB,BIDCOUNTS]
最終的預(yù)測屬性集合為[P*=P-MINBT,MINBR,ST], 我們使用[P*]所包含的屬性建立預(yù)測模型.
4 成交價格預(yù)測模型
4.1 評估指標
對于多分類預(yù)測模型,使用平均準確率(AvgAccuracy)作為評估指標,我們先給出準確率([Accuracyi])的計算公式:
[Accuracyi=niN×100%,i∈[1,10]]? ⑵
由⑵式可得到平均準確率([AvgAccuracy])的計算公式:
[AvgAccuracy=110i=110Accuracyi×100%] ⑶
其中[ni]表示每次正確預(yù)測的樣本量,[N]表示每次預(yù)測的樣本總量。
4.2 實驗結(jié)果
預(yù)測之前, 將此數(shù)據(jù)集記為[S],使用交叉驗證法先將拍賣數(shù)據(jù)集劃分為10個大小相同的互斥子集,即[S=S1∪S2∪S3∪…∪S9,Si∩Sj≠?(i≠j,i,j∈1,10)],要求每個子集[Si]都能保持一致的數(shù)據(jù)分布,然后每次用9個子集的并集作為訓(xùn)練集,余下的那個子集作為測試集,得到10組訓(xùn)練/測試集,這樣可以對數(shù)據(jù)集進行10次訓(xùn)練和測試,最終得到這10個測試結(jié)果的平均值。
極端梯度提升是梯度提升樹的改進,用極端梯度提升進行多分類預(yù)測時,使用負對數(shù)似然損失函數(shù)([-LogLoss])作為最優(yōu)極端梯度提升模型的衡量指標, 該函數(shù)的值越小,則模型的預(yù)測效果越好。本文選取樹的最大深度([maxdepth]),學(xué)習(xí)率([learning_rate]),擬合提升樹的數(shù)量([n_estimators]),這三個參數(shù)建立極端梯度提升模型,并使用網(wǎng)格搜索進行參數(shù)的調(diào)整,選擇最優(yōu)的參數(shù),建立最佳的模型,下面給出實驗結(jié)果。
我們首先研究樹的最大深度([max_depth])與負對數(shù)似然函數(shù)([-Log Loss])的關(guān)系,圖3是樹的最大深度與負對數(shù)似然函數(shù)的變化關(guān)系,從圖中可以看到,隨著樹深度的加深, 損失函數(shù)越來越小,我們設(shè)置樹的最大深度的取值為(0,2,4,6,8),最終選擇8作為樹的最大深度。
然后研究學(xué)習(xí)速率([learning_rate])與負對數(shù)似然函數(shù)([-Log Loss])的關(guān)系,圖4是不同擬合提升樹的數(shù)量, 學(xué)習(xí)速率與負對數(shù)似然函數(shù)的關(guān)系圖,對于學(xué)習(xí)率的取值分別為(0.0001,0.001,0.01,0.1),從圖3中可以看出,隨著學(xué)習(xí)速率的增大,負對數(shù)似然函數(shù)的值逐漸縮小并收斂,慢慢向零靠近,因此選擇0.1為最優(yōu)學(xué)習(xí)率。
最后研究需要擬合的提升樹的數(shù)量([n_estimators])與負對數(shù)似然函數(shù)([- LogLoss])的關(guān)系,圖5是在樹的最大深度([max_depth])不同時,擬合提升樹的數(shù)量([n_estimators]))與負對數(shù)似然函數(shù)([- Log Loss])的關(guān)系圖,擬合提升樹的數(shù)量([n_estimators]))取值范圍為[0]到[200],從圖5中可以看出,隨著樹的最大深度增大,負對數(shù)似然函數(shù)的值逐漸縮小并收斂,慢慢向零靠近,因此選擇[200]為最優(yōu)擬合數(shù)量。
通過對這三個參數(shù)的調(diào)整,選擇,最終得到了最優(yōu)訓(xùn)練模型,將該模型運行在之前已經(jīng)劃分好的[10]個訓(xùn)練/測試數(shù)據(jù)集上,最終得到的平均準確率為[90.55%]
4.3 模型評估
現(xiàn)在將極端梯度提升預(yù)測模型([XGBoost])與最優(yōu)的邏輯斯蒂回歸模型([LR])進行比較,迭代[10]次的準確率的變化如圖[6]所示,表[4]是這兩個模型在10個測試子集上的準確率和平均準確率。從中看出,極端梯度提升模型具有更好的預(yù)測效果。
5 結(jié)束語
通過數(shù)據(jù)預(yù)處理,清洗以及對屬性的構(gòu)建與選擇等一系列工作,本文通過網(wǎng)格搜索選擇最優(yōu)的參數(shù)去建立預(yù)測模型,在離散型價格預(yù)測上取得了較高的準確率。將成交價格劃分成間隔相等的區(qū)間并建立多分類預(yù)測模型,我們認為這種預(yù)測方法比較新穎。
在研究過程中,也存在一些缺陷和不足,主要有以下兩點:一是此數(shù)據(jù)集是傾斜的,雖然經(jīng)過標準化處理,也還是傾斜的,這會對預(yù)測準確率造成影響;二是對極端梯度提升模型參數(shù)的選擇, 挑選了最主要的三個參數(shù)進行建模, 并且這三種參數(shù)的取值都是自行設(shè)置的。
因為本文所用的數(shù)據(jù)集中并沒有包含是否有圖片,對拍賣物品的描述等屬性,但是研究人員發(fā)現(xiàn)這些屬性對最終成交價格有明顯的影響,基于此可以通過設(shè)計一個程序得到這些有用的信息,我們猜想以后的研究可以朝著這一方面發(fā)展,從圖片和文本中挖掘出對成交價格有用的信息,建立適合多種數(shù)據(jù)分布類型的預(yù)測模型。
參考文獻(References):
[1] 張金城.網(wǎng)上拍賣:電子商務(wù)的一種新交易方式[J].審計與經(jīng)濟研究,2002.17(3):49-51
[2] Kersten G E, Vahidov R, Gimon D. Concession-making in multi-attribute auctions and multi-bilateral negotiations: Theory and experiments[J].Electronic Commerce Research & Applications,2013.12(3):166-180
[3] Ba S, Whinston A B, Zhang H. Building trust in online auction markets through an economic incentive mechanism[J]. Decision Support Systems,2003.35(3):273-286
[4] Pinker E J, Seidmann A, Vakrat Y. Managing Online Auctions: Current Business and Research Issues[J]. Management Science,2003.49(11):1457-1484
[5] Wang S, Jank W, Shmueli G, et al. Modeling Price Dynamics in eBay Auctions Using Differential Equations[J]. Publications of the American Statistical Association,2008.103(483):1100-1118
[6] Zhang S, Jank W, Shmueli G. Real-time forecasting of online auctions via functional-nearest neighbors[J].International Journal of Forecasting,2010.26(4):666-683
[7] Liu Y, Feng Y Q, Shao Z. Support System for Predicting Online Auction End Prices[J]. Systems Engineering-Theory Practice,2009.29(12):134-140
收稿日期:2020-06-19
作者簡介:曹菲菲(1994-),女,甘肅平?jīng)鋈?,理學(xué)碩士,專任教師,主要研究方向:統(tǒng)計機器學(xué)習(xí)。