馬文景,陳淮莉
(上海海事大學物流科學與工程研究院,上海 201306)
近年來,我國網絡零售業(yè)獲得了長足的發(fā)展,其競爭焦點也逐漸從價格轉向服務,線上零售商的優(yōu)勢也越來越多地體現在購物的便利性和服務體驗上。因此,通過向客戶提供精準的訂單預計配送時間,在快的基礎上提升時間的精準度和可控度,實現消費者對時間的個性化需求,已成為提高客戶線上消費滿意度的至關重要的一環(huán)。在 B2C (business to customer)模式下,時隙是網絡零售商提供給客戶選擇的交貨時間窗[1],便于客戶根據自身偏好和日程安排,提前選擇時隙。這可以避免空遞造成的損失,極大地滿足客戶對時間的精準安排和有效利用的需求,提高客戶滿意度。在配送的精準快方面,京東(JD.COM)的表現尤為突出,“京準達”就是京東針對“最后一公里”推出的每2 h一個波次的精準送達服務??蛻艨赏ㄟ^“京準達”預約未來一周的特定收貨時間段,最早可始于9:00,最晚可至22:00。選擇“京準達”服務的客戶需要在原訂單和運費的基礎上多付3~6元的運費。隨著近年來主營生鮮品的電商和外賣訂餐平臺不斷涌現,電商競爭越來越激烈,按時隙配送已成為電商配送服務的主流方向。
目前,國外關于配送時隙的研究較多,國內關于配送時隙的研究相對較少。AGATZ等[1]介紹了電商配送時隙的需求管理概念,并探討了對應的訂單履約方法。ASDEMIR等[2]研究了多時隙選項的動態(tài)定價問題,提出了一種基于馬爾科夫決策過程的動態(tài)定價模型,通過調整價格影響客戶的時隙選擇行為、提高車輛裝載率、降低平均訂單交付成本,但是該方法主要用于時隙配送能力較充足的情況。XU等[3]以最小化總發(fā)貨次數為目標提出了近優(yōu)算法,采用滾動計劃對客戶訂單任務進行再分配,并探討了相關需求、訂單價值和訂單數量的影響。LIN等[4]通過仿真評估不同送貨政策對互聯網零售商的影響,重點分析硬時間窗對成本的影響從而均衡配送成本與客戶服務水平。HSU等[5]尋求最佳的交付裝運周期以平衡交付成本與客戶訂單提前期,建立了需求量受提前期影響的非線性利潤優(yōu)化模型,并通過案例分析得出隨著時間和區(qū)域需求變化調整裝運頻率的動態(tài)策略比維持靜態(tài)策略更好的結論。BUSHUEV等[6]將配送窗口的最優(yōu)位置的概念引入基于成本的配送性能模型,并通過分析表明配送窗口的最優(yōu)定位將最小化不及時(過早或過晚)交付的預期懲罰成本。COROLLI等[7]從航空公司收益管理中受到啟發(fā),建立了兩個隨機規(guī)劃模型,該模型通過調節(jié)客戶要求的時隙與實際可能延遲交付的時隙之間的時間差,并考慮運能消耗的隨機性,對時隙運能進行協(xié)調分配。CARAMIA等[8]重點研究了從中央商務區(qū)(CBD)到周邊的配送問題,并從配送中心和配送路徑規(guī)劃這兩個角度出發(fā),對配送時隙運能進行了優(yōu)化分配。ACAR等[9]研究了影響客戶選擇的因素,并通過因子分析和多變量方差分析評估和選取了6個與客戶的人口特征有關的因素。HOSSEINALIFAM等[10]基于航空公司收益管理的思想研究動態(tài)資源分配的問題,提出一種將客戶選擇偏好和現實問題納入考慮的混合(參數-非參數)選擇模型,并采用列生成算法對該模型進行求解。MAZHARI等[11]通過蒙特卡洛仿真檢驗客戶選擇采用CCOR(customer choices on reliability)來獲得風險收益的概率的影響,此外為同時達到最小化總規(guī)劃成本和風險收益的目標,提出了將基于模糊決策的選擇所獲得的帕累托最優(yōu)解與非支配排序遺傳算法(NSGA-II)結合的多目標規(guī)劃方法。BUHLER等[12]為得到更接近現實的配送成本,提出了4種可以與現有的預訂期建模方法相結合的新的線性混合整數規(guī)劃模型,并通過算例說明配送的近似成本接近其真實值。HEDGCOCK等[13]通過對現有的關于選擇前后關系效應的文獻成果進行梳理總結,建立了誘導因素和先前選擇對后續(xù)選擇影響的模型。
已有的配送時隙研究多采用最普遍的多項式Logit(multi-nomial Logit,MNL)模型對客戶的選擇行為進行擬合,但傳統(tǒng)的MNL模型僅能處理客戶可觀測的系統(tǒng)性偏好,具有獨立不相關(independent and irrelevant alternatives,IIA)特性、喜好隨機性限制和跨期間的重復選擇的局限性。Mixed Logit模型的條件約束更為自由,其參數可以根據具體情況設置為任何形式的隨機分布,其精度接近任何一種隨機效用模型,突破了MNL模型固有的局限性,從而能夠靈活地解決客戶的隨機性偏好,對客戶的選擇行為分析更加貼合實際。因此,本文采用Mixed Logit模型對線上客戶的配送時隙選擇行為進行分析,采用基于強化學習的Q學習算法對時隙定價優(yōu)化問題進行求解,最終通過仿真分析時隙的動態(tài)定價策略。
在網購環(huán)境中,網絡零售商為某地區(qū)提供配送服務時會提供多種時隙選項[1],不同時隙具有的時隙屬性不同,即不同時隙在交付期長度、時隙寬度、物流服務水平方面存在差異。在時隙開放前,網絡零售商根據各時隙所耗費的成本和客戶的時隙選擇歷史數據,確定這些時隙的初始價格。在時隙開放后,客戶在下訂單時會選擇一個時隙作為交貨時間,該時隙的運能就會被分配給該客戶的訂單。由于客戶的選擇偏好不同,各時隙的運能分配情況可能會產生較大的差異:一部分時隙由于被較多客戶選擇,其運能可能因消耗較快而供不應求;另一部分時隙由于被較少的客戶選擇,其剩余運能居高不下,供過于求。此時,網絡零售商會根據各時隙的運能分配情況,通過有針對性地對各時隙的價格進行動態(tài)調整,影響后續(xù)到達客戶的時隙選擇行為,從而使各時隙的運能得到均衡分配,以降低成本、優(yōu)化收益。
集合:N為配送時隙選項集合,i∈{1,2,…,I}=N,i=0表示不選擇這些時隙選項;M為客戶訂單到達時段集合,t∈{1,2,…,T}=M。
參數:H為每個時隙的初始固定配送能力;Z表示時段t被劃分的單位時段數;σ為交付期長度的成本彈性系數;ρ為時隙寬度的成本彈性系數;α為學習速率;γ為未來收益的折扣因子;ε為探索概率。
變量:Ui為時隙i對客戶的效用;βr為時隙價格r的偏好系數;βL為交付期長度L的偏好系數;βW為時隙寬度W的偏好系數;βS為物流服務水平S的偏好系數;R為網絡零售商時隙選項的收益;Pi為選擇時隙i的概率;Li為時隙i的交付期長度;Wi為時隙i的寬度;Si為時隙i的物流服務水平。
決策變量:ri為時隙i的價格。
考慮到不同的時隙選項對客戶的效用不盡相同,引入效用函數:
Ui=Vi+εi,?i∈N
(1)
式中:Vi為可觀測的固定效用;εi為反映個體消費者獨特偏好的不可觀測的隨機變量。當Vi獨立且服從同一Gumbel分布時,根據效用函數可建立基于MNL模型的選擇概率公式,選擇時隙i的概率為
(2)
MNL模型是Logit模型的基本形式,是離散選擇模型體系的基礎,但由于受到當時計算技術的限制,具有以下局限性:(1)該模型認為同一選項的效用對所有決策者來說是無差別的,而事實上同一選項的效用對不同決策者的效用權重往往不同;(2)該模型假設決策者在重復選擇時,同一選項的效用對該決策者的權重依然相同,而事實上過去的選擇會對當前的選擇產生影響(即滯后反應),對于此類問題MNL模型也無法處理;(3)MNL模型有一個限制性假設,即認為不同的選項之間是可以成比例地相互替代的,而事實上該假設在很多情況下不符合實際。由于MNL模型存在上述局限性,所以它只能處理客戶的系統(tǒng)性偏好問題。
Mixed Logit模型的參數分布能夠根據實際情況自由靈活地設置,因而能夠更好地處理客戶的隨機偏好問題。因此,客戶對時隙i的選擇概率可表示為
(3)
(4)
式(4)中,Vi為隨機效用中的可觀測部分,其表達式為Vi=β1x1+β2x2+…+βkxk=β′x,其中x=(x1,x2,…,xk)T為特性向量,β′=(β1,β2,…,βk)為待估參數向量。在Mixed Logit模型中β′可以根據客戶的時隙選擇偏好服從任何分布。本文根據調查,將影響客戶時隙選擇行為的因素分為時隙價格r、交付期長度L、時隙寬度W和物流服務水平S等4個因素。將各影響因素代入Vi:
Vi=βrri+βLLi+βWWi+βSSi
(5)
則客戶m在Mixed Logit模型下選擇時隙i的概率為
(6)
與MNL模型不同的是,Mixed Logit模型沒有封閉解,需要計算機通過統(tǒng)計模擬,按照模型中參數服從的分布進行抽樣生成隨機數,再將隨機數代入式(4)得到相應的函數值,最后計算這些函數值的平均數,從而得到Pi的模擬解。
假設將時隙i的開放預定時間范圍[0,T]劃分為T個離散時段,再將每個離散時段劃分為Z個足夠小的單位時段,在單位時段內有且僅有一個客戶訂單到達或者沒有客戶訂單到達??蛻粲唵卧跁r段t到達的概率用λt表示,且服從Poisson分布,則在時段t客戶對時隙i的需求表達式為
qit=λtPiZ,i∈N;t∈M
(7)
假設每個時隙在初始階段的運能(即能夠配送的訂單數量)是固定的,記為H。每收到一個客戶的訂單,客戶所選擇的時隙的運能就會被消耗。在時段t時隙i剩余運能的表達式為
(8)
(9)
在時段t,若時隙i的當前剩余運能無法滿足當前需求,則需要商家考慮采取租用或外包車輛的方式額外調度運能,從而會產生一定的額外成本CEi:
CEi=(qit-Sit)k,i∈N;t∈M
(10)
式中,k表示單位額外訂單所產生的成本。
時隙i的單位訂單可變成本為
(11)
式中:σ表示時隙i的交付期長度Li的成本彈性系數;ρ表示時隙i的交付時隙寬度Wi的成本彈性系數;η表示時隙i的物流服務水平Si的成本彈性系數。單位訂單可變成本Cvi與Li和Wi均成反比,與Si成正比。假設處理單位訂單的固定成本為Cp,則時隙i的單位訂單成本為
Ci=Cp+Cvi
(12)
收益目標函數為
(13)
式中:xi為0-1變量,用來判斷時隙i是否存在機會成本或額外成本。
(14)
強化學習的任務是找到一個最佳策略,可以讓智能主體在與環(huán)境的交互中根據當前的系統(tǒng)狀態(tài)選擇一個動作,使累積的長期收益最大。因此,需要針對線上訂單的配送時隙定價問題對狀態(tài)、動作和即時回報作出具體的定義。首先在各時隙配送能力固定的情況下,客戶訂單的到達對各時隙運能的消耗都會使各時隙的當前運能進入一個新的狀態(tài),故將時隙i時段t的當前剩余運能記為系統(tǒng)狀態(tài):
Sit=Si(t-1)-qit
(15)
進入當前系統(tǒng)狀態(tài)后,網絡零售商需要對時隙進行定價,即系統(tǒng)做出動作ai(Sit)。在決策過程中,即時回報取網絡零售商該輪次獲得的利潤(式(13))。
Q學習算法是強化學習中的一個突破性算法,其最大的優(yōu)點是不需要學習狀態(tài)轉移概率和回報函數,只需利用唯一已知的即時回報R在線學習和優(yōu)化最佳策略,且計算速度快。因此,本文采用Q學習算法來尋求時隙定價的優(yōu)化策略,其學習步驟為:觀察當前的系統(tǒng)狀態(tài)St,選擇一個動作at并執(zhí)行,觀察動作執(zhí)行后的狀態(tài)St+1和所收到的即時回報Rt,然后根據更新公式更新Q值,Q值的更新規(guī)則為
Q(St,at)←Q(St,at)+α(Rt+
(16)
經過大量的迭代計算,Q學習算法的學習訓練結果會記錄在一個look up表中,包括每個狀態(tài)S下執(zhí)行各個動作a所得的Q值。在需要決策時,系統(tǒng)只需在look up表中找到在當前狀態(tài)S下最大的Q值對應的動作a即可。在學習過程中,為了避免陷入局部最優(yōu),通常采用ε-greedy策略來處理探索(exploration)與利用(exploitation)之間的平衡問題,即網絡零售商以較大的概率1-ε選取Q值最大的動作作為最優(yōu)動作,同時以較小的概率ε向外探索,隨機選取Q值不是最大的動作作為自己的最佳策略。
為驗證模型的有效性,以某網絡零售商客戶的歷史時隙選擇數據為例,通過計算機仿真進行算例分析。假設網絡零售商向客戶提供3個可選擇的時隙(即I=3),分別為上午8:00—12:00,下午1:00—5:00和下午5:00—9:00。為區(qū)分這3個配送時隙的綜合服務質量,對時隙屬性的參數進行差別設置,即將3個時隙的(Li,Wi,Si)分別設置為(1,1,5)、(3,2,3)和(6,4,1);通過網絡零售商對客戶的調研,將客戶對這3個時隙保留價格的上下限[rimin,rimax]分別設為[8,10]、[5,8]和[3,6];每個時段包含的單位時段的數量Z=20,時隙的初始配送能力H=20;在時段t內的訂單到達率λt=0.4;其他參數設置為k=0.6,σ=3.33,ρ=0.14,η=0.12。
Mixed Logit 模型中的變量系數可以設置成均勻分布、正態(tài)分布和對數正態(tài)分布等。根據實際情況和以往的研究經驗,對影響時隙選擇的變量系數的分布進行設置。參照一般的經濟學原理,時隙價格高則效用為負值,而對數正態(tài)分布可以很好地描述顧客的單向偏好性。因此,將時隙價格的偏好系數βr設為服從對數正態(tài)分布,將交付期長度的偏好系數βL和時隙寬度的偏好系數βW設為服從正態(tài)分布,將物流服務水平的偏好系數βS設為固定值。為將βr設為對數正態(tài)分布,先將時隙價格r取對數,然后令其服從正態(tài)分布即可。本文分別用MNL模型和Mixed Logit模型對線上客戶的時隙選擇行為進行擬合,通過調用統(tǒng)計軟件SAS 9.4對影響時隙選擇的變量系數進行估計,結果見表1。
表1 MNL模型與Mixed Logit模型的估計結果比較
表1中:(1)采用Mixed Logit模型時“_M”為變量系數的均值的標志,“_S”為變量系數的標準差的標志。(2)變量系數的標準差可以取負值,但是這里取其絕對值作為標準差。比如,盡管交付期長度的偏好系數的標準差為-2.226,但這里取2.226作為標準差。(3)標準差是隨機誤差絕對值的統(tǒng)計均值,反映的是個體與總體均值的偏離情況,標準差越大說明偏離越遠,整體表現為數據越分散;標準誤差是在抽樣試驗中常用到的樣本平均數的標準差,反映樣本平均數的離散程度,標準誤差越小,說明樣本平均數與總體平均數越接近,否則,表明樣本平均數比較離散。
從表1可以看出,Mixed Logit模型能夠比MNL模型揭示更多客戶時隙選擇行為的信息:(1)在采用MNL模型時,時隙價格的偏好系數為負說明對線上購物的客戶收取的配送費用高,效用為負;在采用Mixed Logit模型時,時隙價格偏好系數的對數服從均值為-4.447 3、標準差為1.441 1的正態(tài)分布(見圖1)。根據對數正態(tài)分布的性質,時隙價格的效用始終小于0,即在其他時隙屬性相同的情況下,沒有客戶愿意支付高價格。(2)在采用MNL模型時,交付期長度的偏好系數只能反映線上客戶對時隙價格的平均偏好為負;在采用Mixed Logit模型時,交付期長度的偏好系數服從均值為-1.628 1、標準差為2.226 0的正態(tài)分布(見圖2)。由此可以得出該分布大于0的累積概率密度為0.232 2,說明即使選擇時隙配送的客戶群體的平均偏好為負,仍有23.22%的客戶偏好交付期長的時隙(比如提前下單預訂某種商品并需要其在特定時間送達的客戶,就需要較長的交付期來滿足其交貨需求)。因此,網絡零售商應對不同的客戶提供不同的時隙選項以滿足客戶的多樣化、定制化需求。(3)在采用Mixed Logit模型時,時隙寬度的偏好系數服從均值為-1.205 2、標準差為1.780 4的正態(tài)分布(見圖3),由此不僅可以得知時隙寬度的效用為負(采用MNL模型也可以得知該信息),而且可以通過計算得知有24.92%的客戶喜歡較大的時隙寬度(這類客戶的自由支配時間可能較多,且對未來時間的計劃性需求不強,因而并不希望在太具體的時間收貨)。因此,商家在向客戶提供時隙選項時,也應考慮到這部分客戶的存在。
圖1 對數時隙價格的系數分布
圖2 交付期長度的系數分布
圖3 時隙寬度的系數分布
從表1還可以得出:(1)物流服務水平的系數為正,即客戶對物流服務水平的平均偏好為正。因為該系數被設為固定值,所以可以認為所有客戶都希望得到物流服務水平更高的配送。(2)從系數的絕對值大小上看,客戶對時隙價格的敏感度最高,其次是交付期長度和時隙寬度,最后是物流服務水平。
由表2中的兩個模型的擬合參數結果比較可以看出,不管是對數似然函數、McFadden似然比指數(LRI),還是赤池信息準則(AIC)、施瓦茲準則(Schwarz Criterion)、Estrella值,采用Mixed Logit模型時的各項指標都比采用MNL模型時的更優(yōu)。究其原因主要是:MNL模型要求不可觀測效用的價格系數也服從正態(tài)分布,與實際相沖突;Mixed Logit模型通過假設價格系數服從對數正態(tài)分布來解決這一問題,故更符合實際。
表2 MNL模型與Mixed Logit模型的擬合參數結果比較
分別將用MNL模型和Mixed Logit模型對客戶時隙選擇行為的擬合所得到的相關參數代入時隙的收益模型中,并通過Q學習算法對收益模型中的時隙價格進行求解。設置Q學習算法的相關參數為:學習輪次最大值K=10 000,學習速率α=0.6,未來收益折扣因子γ=0.4,探索概率ε=0.2。通過MATLAB R2016a進行求解,用兩種模型求解的各時隙的價格和總收益情況見表3、圖4和圖5。
表3 用MNL模型和Mixed Logit模型求解的時隙價格比較
圖4 用MNL模型和Mixed Logit模型求解的各時隙價格
圖5 用MNL模型和Mixed Logit模型求解的總收益
由圖4可知:對于時隙價格的求解,采用MNL模型時求解結果在3 000輪次的學習后波動減小,在4 000輪次左右的學習后開始收斂,而采用Mixed Logit模型時求解結果在1 000輪次左右就開始收斂,即采用Mixed Logit模型時Q學習算法比采用MNL模型時的Q學習算法能更快地尋找到最優(yōu)定價策略。由圖5可知,對于總收益的求解,采用Mixed Logit模型時Q學習算法在1 000輪次左右的學習后開始收斂于一個穩(wěn)定的總收益81.46,而采用MNL模型時的Q學習算法在3 000輪次左右的學習后趨于穩(wěn)定,最終收斂于76.39,即在最優(yōu)收益的計算方面,采用Mixed Logit模型時的Q學習算法比采用MNL模型時的Q學習算法不僅求解速度更快,而且求解結果明顯更優(yōu)。
Q學習算法是對客戶時隙選擇行為和客戶對時隙定價策略反應的模擬、預演和學習,因此對客戶時隙選擇行為描述的準確性會直接影響Q學習算法的求解結果和求解速度。采用Mixed Logit模型時的Q學習算法在求解速度和求解結果上的優(yōu)勢,與Mixed Logit模型比MNL模型對客戶時隙選擇行為的擬合和刻畫的靈活性和精確度更勝一籌有著密切的聯系。
以往的客戶時隙選擇研究多采用傳統(tǒng)的多項式Logit (MNL)模型進行分析,且往往只考慮時隙價格和交付期長度對時隙選擇的影響,較少討論時隙寬度和物流服務水平對時隙選擇的影響。本文將時隙價格、交付期長度、時隙寬度和物流服務水平均納入影響時隙選擇的因素中,并考慮時隙選擇行為的隨機性特點,基于Mixed Logit客戶選擇概率模型建立期望收益模型,同時與基于MNL模型建立的期望收益模型進行比較,并使用Q學習算法尋求時隙定價優(yōu)化策略。研究發(fā)現:(1)時隙價格的效用系數為負,且服從對數正態(tài)分布,即在其他時隙屬性相同的情況下,沒人愿意付出更大的經濟成本購買時隙,因此網絡零售商依然需要在降低成本和價格方面下足功夫;(2)客戶對交付期長度和時隙寬度的平均偏好為負,但仍分別有23.22%的客戶和24.92%的客戶偏好更長的交付期和時隙寬度,因此商家在制定時隙選項時也要考慮這部分客戶的偏好;(3)物流服務水平給所有的客戶帶來的效用均為正,因此商家在關注時隙價格和收益的同時,也要注重配送品質的提升,從而進一步贏得顧客;(4)從客戶選擇行為的擬合效果看,相比于MNL模型,Mixed Logit模型參數估計的各項優(yōu)度更為顯著,并且能夠反映更多內容;(5)從Q學習算法對優(yōu)化時隙價格和總收益的求解情況看,較之MNL模型,基于Mixed Logit模型的定價模型不僅在求解時能夠更快地收斂,而且所求得的定價策略也更優(yōu)。
本文采用了最一般的Q學習算法對時隙的動態(tài)定價進行求解,算法系數是根據經驗設置的靜態(tài)參數。然而,Q學習算法在算法系數的選擇上有很大的自由度和靈活性,其變化對算法的收斂速度有較大的影響,因此如何利用不同的強化學習方法對參數進行優(yōu)化,從而使參數的設置更加符合實際情況是未來的研究方向。