劉玨夙
(廣東工業(yè)大學(xué) 管理學(xué)院,廣東 廣州 510520)
易腐品的特點(diǎn)是使用壽命短,在超過一定的時(shí)間后,這類商品就會(huì)失去部分甚至全部?jī)r(jià)值。這樣的商品特點(diǎn)導(dǎo)致過多或過少的訂購(gòu)量都會(huì)使決策者損失一定的收益,因此訂購(gòu)量的合理確定具有重要的現(xiàn)實(shí)意義。報(bào)童問題是關(guān)于易腐品的庫(kù)存訂購(gòu)決策問題。在傳統(tǒng)報(bào)童問題的研究中,都假定需求的統(tǒng)計(jì)信息是可知的。而在現(xiàn)實(shí)的決策情景中,決策者往往難以準(zhǔn)確掌握需求的分布情況。Scarf[1]首先提出了未知需求分布的決策方法,該方法在已知均值方差的情況下,給出了模型最優(yōu)解。Gallego,等[2]在文獻(xiàn)[1]的研究基礎(chǔ)上進(jìn)一步優(yōu)化了訂購(gòu)規(guī)則,且考慮了更多的實(shí)際因素來擴(kuò)展其分析。Chan,等[3]結(jié)合這一方法提出了一個(gè)配貨優(yōu)化模型,使得決策者能在不對(duì)任何一個(gè)產(chǎn)品的需求分布做具體假設(shè)的情況下,對(duì)訂貨種類和訂貨量進(jìn)行聯(lián)合優(yōu)化。陳淮莉[4]研究了隨機(jī)需求下多產(chǎn)品、多周期的生鮮品訂購(gòu)問題,從零售商的角度給出了最優(yōu)訂購(gòu)量以及最優(yōu)折扣。然而,這些研究仍然要求需求分布的均值和方差是可知的,并沒有完全脫離統(tǒng)計(jì)假設(shè)。
在線算法僅依靠歷史數(shù)據(jù)進(jìn)行決策,而不需要再對(duì)未來的輸入序列做出統(tǒng)計(jì)假設(shè),能夠用它來研究報(bào)童問題的在線訂購(gòu)策略。張桂清,等將在線算法引入到報(bào)童問題中進(jìn)行了競(jìng)爭(zhēng)比分析,在概率預(yù)期[5]和一般預(yù)期[6]兩種情況下分別給出了風(fēng)險(xiǎn)算法。Abdel-Aal,等[7]在需求不確定的情況下結(jié)合市場(chǎng)選擇理論,用魯棒優(yōu)化方法建立了選擇性報(bào)童模型。2008年Kalnishkan,等[8]提出了一種基于專家意見的在線預(yù)測(cè)方法——弱集成算法(WAA)。該算法僅憑借歷史信息對(duì)專家意見進(jìn)行集成,并將集成結(jié)果用以決策。Levina,等[9]將弱集成算法應(yīng)用于無統(tǒng)計(jì)假設(shè)的多期報(bào)童問題中,為報(bào)童提供了一個(gè)具體的在線訂購(gòu)策略。Zhang,等[10]進(jìn)一步研究了非平穩(wěn)環(huán)境的報(bào)童問題,采用策略切換的思想,將弱集成算法應(yīng)用于動(dòng)態(tài)專家意見,給出了具體的在線訂購(gòu)策略。在之后的研究中,Zhang,等[11]構(gòu)建了針對(duì)兩產(chǎn)品、多周期報(bào)童問題的在線訂購(gòu)策略,并證明了該策略具有理論保證。
在實(shí)際生活中,有相當(dāng)一部分易腐品的需求會(huì)受到人類社會(huì)活動(dòng)的影響,這使得我們?cè)诳紤]易腐品需求變動(dòng)時(shí)有跡可循。O’Neil,等[12]應(yīng)用機(jī)器學(xué)習(xí)算法解決需求沖擊下的無分布報(bào)童問題。王海燕,等[13]探討了需求分布規(guī)律變化情況下的報(bào)童訂購(gòu)決策問題。此外,有一些易腐品的需求會(huì)隨著節(jié)假日和季節(jié)交替呈現(xiàn)出顯著的周期性特征,例如電影票的訂票需求。由于大多數(shù)人的閑暇時(shí)間都集中在非工作日(如周末或者節(jié)假日),因此電影院的觀影人數(shù)往往是非工作日多、工作日少,從而導(dǎo)致電影票的非工作日需求高、工作日需求低;與這一情況相反的是寫字樓和學(xué)校周邊的餐飲店,這類餐飲店受到主要消費(fèi)人群的活動(dòng)規(guī)律影響,其需求規(guī)律通常表現(xiàn)為工作日高需求,而非工作日低需求。在上述兩個(gè)例子中,需求都以某一固定的時(shí)間段為變動(dòng)周期,在每一個(gè)變動(dòng)周期內(nèi),需求表現(xiàn)出低-高或高-低的交替變化。將這類需求稱作周期性變動(dòng)需求,本文以低-高需求為例研究了需求周期性變動(dòng)下多階段報(bào)童問題的在線訂購(gòu)決策方法。在需求的周期性變動(dòng)規(guī)律可獲取前提下,本文應(yīng)用WAA算法,基于歷史需求數(shù)據(jù)給出了具體的訂購(gòu)策略,并理論分析策略的競(jìng)爭(zhēng)性能。
弱集成算法[9]根據(jù)專家的歷史表現(xiàn)來調(diào)整其權(quán)重,以提高在線決策者的競(jìng)爭(zhēng)性能。給定各個(gè)專家的初始權(quán)重,在每一個(gè)決策期對(duì)專家的收益進(jìn)行重新計(jì)算,并根據(jù)計(jì)算結(jié)果更新專家在下一決策期的權(quán)重。沿用以往研究中的記號(hào),表1給出了主要記號(hào)及其含義。
表1 WAA使用的主要記號(hào)及其含義
在每個(gè)決策期t=1,2,...,T,專家的標(biāo)準(zhǔn)化權(quán)重由式(1)給出。
算法1弱集成算法(WAA)輸入:實(shí)際決策值?1,?2,...,?T;輸出:最終累積收益GT。(0)在線決策者和專家決策體的初始收益皆為0,即G0=0,Gθ 0=0;(1)在每個(gè)決策期t=1,2,...,T進(jìn)行步驟(2)-(7)循環(huán)計(jì)算;(2)計(jì)算各專家的標(biāo)準(zhǔn)化權(quán)重;(3)專家決策體給出專家預(yù)測(cè)意見γθ t;(4)在線決策者在集成專家意見后做出預(yù)測(cè):γt=∫Θ γθ t pt(dθ);(5)得到實(shí)際決策者的結(jié)果ωt;(6)計(jì)算在線決策者和各專家的收益gt,gθ t;(7)更新在線決策者和專家的累計(jì)收益Gt,Gθ t;(8)重復(fù)步驟(2)-(7),直至所有決策期結(jié)束。
當(dāng)決策總周期數(shù)為T時(shí),引理1給出了弱集成算法實(shí)現(xiàn)的累積收益下界。
引理1當(dāng)收益函數(shù)g的界為-L≤g≤0(L為一個(gè)固定常數(shù))時(shí),對(duì)于任意的期數(shù)T,WAA的累積收益均滿足:
在需求呈周期性變動(dòng)的多階段報(bào)童問題中,假定報(bào)童在每一期的期初決定當(dāng)期訂購(gòu)量,且此時(shí)當(dāng)期的實(shí)際需求量尚不可知。在報(bào)童確定訂購(gòu)量后,實(shí)際需求也隨之獲得。對(duì)報(bào)紙這類易腐品而言,一旦報(bào)童確定當(dāng)期訂購(gòu)量,在這一期中途不能進(jìn)行補(bǔ)訂,在這一期結(jié)束后,訂購(gòu)的剩余量也不具備回收價(jià)值。
以一個(gè)特定的時(shí)間段ρ作為規(guī)律性變動(dòng)的最小周期,根據(jù)需求特征的不同,進(jìn)一步將每個(gè)變動(dòng)周期劃分為不同的部分。以低-高交替變化的周期性需求為例,每一個(gè)變動(dòng)周期中均包含低需求期和高需求期。用d表示低需求期時(shí)的實(shí)際需求量,d′表示高需求期的實(shí)際需求量,x和y分別表示在低需求期和高需求期中報(bào)童對(duì)產(chǎn)品的訂購(gòu)量,x和y分別通過集成專家意見獲得。用Θ(Θ=Θ1?Θ2)表示專家池,其中低需求期專家池Θ1的專家索引為θ,高需求期專家池Θ2的專家索引為θ′。第t期的產(chǎn)品具體需求量無法確定,但可知在低需求期時(shí),產(chǎn)品的需求量d和報(bào)童的訂購(gòu)量x為區(qū)間[B1,B1′]中的任意實(shí)數(shù),在高需求期時(shí),產(chǎn)品的需求量d′和報(bào)童的訂購(gòu)量y為區(qū)間[B2,B2′]中的任意實(shí)數(shù),且有B1′≤B2。
設(shè)每一天為一個(gè)決策期,T為總的決策天數(shù)。為方便論述,設(shè)在前T天中共包含N個(gè)完整的需求變動(dòng)周期,其中N∈?。在每個(gè)需求變動(dòng)周期中,包含ρ個(gè)決策天數(shù),且有ρ=μ+ν。其中,μ表示一個(gè)周期內(nèi)包含的低需求天數(shù),ν表示一個(gè)周期內(nèi)包含的高需求天數(shù),在周期性變化的需求中,ρ、μ和ν均為確定的常數(shù)。將低需求期構(gòu)成的決策天數(shù)總和記為T1,將高需求期構(gòu)成的決策天數(shù)總和記為T2,則有T=T1+T2。從初始決策期開始,需求做低-高交替變化,記:
即有A=A1?A2。對(duì)于任何的t∈A,設(shè)需求為dt。當(dāng)t=nρ+i,i=1,2,...,μ時(shí),t∈A1,且 有t1=nρ+i-nν,則此時(shí)專家意見集為Θ1。當(dāng)Θ1中的專家θ的訂購(gòu)量為時(shí),該專家在第t期的收益為:
在前t1個(gè)低需求期的累積收益為因此,報(bào)童在第t期的訂購(gòu)量為xt1時(shí),其收益為:
在前t1個(gè)低需求期的累積收益為
類似地,當(dāng)t=nρ-j,j=ν-1,...,0時(shí),t∈A2,且有t2=nρ-i-nμ,則此時(shí)專家意見集為Θ2。當(dāng)Θ2中的專家θ′的訂購(gòu)量為時(shí),該專家在第t期的收益為:
在前t2個(gè)高需求期的累積收益為因此,報(bào)童在第t期的訂購(gòu)量為yt2時(shí),其收益為:gt=gt2′=pmin(yt2,dt2′)-cyt2;在前t2個(gè)高需求期的累積收益為
定理1在收益函數(shù)式(4)和式(5)的基礎(chǔ)上,應(yīng)用弱集成算法對(duì)靜態(tài)專家意見進(jìn)行集成,可得到需求呈低-高周期性變化報(bào)童問題的在線訂購(gòu)策略。
證明:考慮到低需求期和高需求期的需求差異,對(duì)低需求期和高需求期分別設(shè)置對(duì)應(yīng)專家池,每個(gè)專家在任何一期總是推薦一個(gè)固定訂購(gòu)量,每一期選擇對(duì)應(yīng)的專家池中的靜態(tài)專家意見進(jìn)行集成,在選擇專家池前,需要先判斷當(dāng)前決策期處于周期中的低需求期還是高需求期。根據(jù)弱集成算法的決策流程,可知當(dāng)?shù)趖期為低需求期(t∈A1),且對(duì)應(yīng)低需求期序列的第t1期時(shí),報(bào)童的訂購(gòu)量為:
當(dāng)?shù)趖期為高需求期( t∈A2),且對(duì)應(yīng)高需求期序列的第t2期時(shí),報(bào)童的訂購(gòu)量為:
當(dāng)q(dx)和q′(dy)分別為[B1,B1′]和[B2,B2′]上的均勻分布時(shí),采用Levina,等[9]給出的求解方法。若第t期為低需求期,則第t期時(shí)可獲得前t1-1個(gè)低需求期的歷史需求序列d1,d2,...,dt1-1,令其順序統(tǒng)計(jì)量為d(1),d(2),...,d(t1-1),且d(0)=B1,d(t1)=B1′。
同理可得:
采用類似的方法,若第t期為高需求期,則在第t期時(shí)可知前t2-1個(gè)高需求期的歷史需求序列。令其順序統(tǒng)計(jì)量為且。令k′=1,2,...,t2-1??傻茫?/p>
綜上,針對(duì)需求呈低-高周期性變化的報(bào)童問題,本文給出了具體的在線訂購(gòu)策略,即若第t期為低需求期,訂購(gòu)量為xt=at1/bt1,若第t期為高需求期,訂購(gòu)量為yt=at2/bt2,并將此策略記為ASP。
對(duì)于定理1給出的在線訂購(gòu)策略ASP,應(yīng)用引理1,定理2給出了以最優(yōu)專家策略的累積收益為基準(zhǔn)時(shí)該策略競(jìng)爭(zhēng)性能的理論保證。
定理2對(duì)于需求低-高周期性變動(dòng)的多階段報(bào)童模型,按照在線策略ASP進(jìn)行決策時(shí),報(bào)童的累積收益滿足:
其中,Li=(Bi′-Bi)p,i=1,2,Λ=max(p-c,c)。
證明:由收益函數(shù)的定義式可知,對(duì)于低需求期而言,訂購(gòu)量等于需求量且為最大值B1′時(shí),收益達(dá)到最大值;當(dāng)實(shí)際需求為最小值B1而報(bào)童的訂購(gòu)量為最大值B1′時(shí),收益取到最小值,即有:
不失一般性,令g=g-B1′(p-c),則有:
因此,在應(yīng)用引理1分析在線策略的競(jìng)爭(zhēng)性能時(shí)可知:
考慮任意兩個(gè)專家策略的累積收益差值,若有兩個(gè)專家的固定訂購(gòu)量分別為θ1和θ2,由前面的分析可知,經(jīng)過T1期后,這兩個(gè)專家實(shí)現(xiàn)的累積收益和滿足關(guān)系式:
令Λ=max(p-c,c),則根據(jù)引理1和文獻(xiàn)[9]的方法,有:
同理,對(duì)于高需求期而言,有:
由式(10)可知,隨著總決策天數(shù)T的增大,在線策略的平均累積收益逐漸接近低需求期固定訂購(gòu)量x和高需求期固定訂購(gòu)量y的平均累積收益。由于x和y是任意的,因此它們分別可以是使得累積收益和達(dá)到最優(yōu)的固定訂購(gòu)量策略。事實(shí)上,當(dāng)T→∞時(shí),易得:
當(dāng)需求不呈現(xiàn)周期性變動(dòng),即B1′=B2′=B,B1=B2=0,T1=T,T2=0時(shí),有L2=L1=Bp,式(10)變成式(3),該結(jié)果退化成Levina,等[9]的研究結(jié)果,因此本文是文獻(xiàn)[9]的推廣研究。
本節(jié)運(yùn)用數(shù)值算例進(jìn)一步驗(yàn)證策略ASP的競(jìng)爭(zhēng)性能,記ASP對(duì)應(yīng)的最優(yōu)專家策略為BASP。為方便對(duì)比分析,將Levina,等在文獻(xiàn)[9]中構(gòu)建的策略記為AS,對(duì)應(yīng)的最優(yōu)專家策略記為BAS。在計(jì)算訂購(gòu)量時(shí),先判斷第t期屬于哪一種需求期,再根據(jù)判斷結(jié)果來選擇式(6)或(7)進(jìn)行計(jì)算,即可得出相應(yīng)的訂購(gòu)量xt或yt。為了便于計(jì)算,對(duì)需求量和報(bào)童的訂購(gòu)量進(jìn)行整數(shù)化處理,即有:
根據(jù)需求周期的變化規(guī)律,依次在[0,50]和[50,100]間隨機(jī)生成90個(gè)隨機(jī)整數(shù),作為前90天的實(shí)際需求序列。隨機(jī)產(chǎn)出10組不同的隨機(jī)需求序列進(jìn)行試驗(yàn),表2給出了每次試驗(yàn)中在線策略ASP與其對(duì)應(yīng)的最優(yōu)專家策略BASP的累積收益比較,其中RAT表示ASP與BASP實(shí)現(xiàn)的累積收益比值。從表2中的30次試驗(yàn)結(jié)果來看,ASP與BASP的比值都大于0.94,且在第7次的試驗(yàn)下得到了最大值0.970 675,由此可見,ASP具有較強(qiáng)的競(jìng)爭(zhēng)性能。
表2 不同隨機(jī)需求下ASP與BASP的累積收益
為了觀察ASP對(duì)AS的改進(jìn)效果,以第1次試驗(yàn)中所用的需求序列為例,比較ASP和AS的日累積收益,結(jié)果如圖1所示,其中叉號(hào)符表示ASP的日累積收益,圓圈表示AS的日累積收益。由圖1可知,ASP和AS在前90天的日累積收益分別為7 606和4 012。ASP的累積收益明顯大于AS的累積收益,說明在原有算法的基礎(chǔ)上考慮需求的周期波動(dòng)能提高決策者的收益。
圖1 ASP與AS的日累積收益比較
第一次試驗(yàn)中ASP和BASP的日累積收益比較如圖2所示。由圖2可知,本次試驗(yàn)中ASP和BASP的前90天的日累積收益分別達(dá)到7 606和7 849,二者的日累積收益非常接近,進(jìn)一步證明了該策略相對(duì)于基準(zhǔn)策略最優(yōu)專家策略具有較強(qiáng)的競(jìng)爭(zhēng)性能。
圖2 ASP與BASP的日累積收益比較
當(dāng)歷史數(shù)據(jù)越充分時(shí),ASP決策的結(jié)果就會(huì)越接近固定的最優(yōu)專家的決策方案。調(diào)整決策的期數(shù),計(jì)算ASP和BASP的累積收益,結(jié)果見表3。由表3可知,ASP的競(jìng)爭(zhēng)性能會(huì)隨著決策期數(shù)的增加而增強(qiáng),當(dāng)決策天數(shù)為600時(shí),競(jìng)爭(zhēng)比已經(jīng)大于0.99,此時(shí)ASP的累積收益已經(jīng)基本等于最優(yōu)專家的累積收益。
表3 不同決策周期下ASP與BASP的累積收益
本文在傳統(tǒng)報(bào)童問題的基礎(chǔ)上,結(jié)合現(xiàn)實(shí)因素,研究了需求呈周期性變動(dòng)情形下的訂購(gòu)決策方法。采用集成專家意見的弱集成算法對(duì)固定的專家意見進(jìn)行集成,給出了具體的在線訂購(gòu)策略。從理論上對(duì)該在線策略的競(jìng)爭(zhēng)性能進(jìn)行了證明,用數(shù)值算例進(jìn)一步說明了策略能追蹤到最優(yōu)專家策略且獲得與最優(yōu)專家策略相當(dāng)接近的累積收益,并對(duì)參數(shù)的敏感性進(jìn)行了分析。這為與報(bào)紙具有相似特征的易逝品庫(kù)存控制問題提供了一定的管理啟示:首先,在考慮需求周期變動(dòng)的情況下,為易逝品零售商的訂購(gòu)決策提供了參考,有利于零售商快速有效地通過歷史信息進(jìn)行訂購(gòu)決策,在滿足市場(chǎng)需求的同時(shí)充分發(fā)揮現(xiàn)有資源的作用以達(dá)到自身收益的最大化;其次,對(duì)于易逝品的零售商而言,該在線決策方法可作為他們?cè)陂L(zhǎng)期持續(xù)決策中調(diào)整訂購(gòu)計(jì)劃的根據(jù),并能保證零售商在長(zhǎng)期決策中可獲取到具有競(jìng)爭(zhēng)性的收益。本文研究周期性變動(dòng)需求情形下的多階段報(bào)童在線決策問題,其中用于學(xué)習(xí)參照的專家意見是靜態(tài)的。但是,在面對(duì)復(fù)雜多變的市場(chǎng)環(huán)境時(shí),專家的意見也會(huì)隨著市場(chǎng)披露信息的變動(dòng)而調(diào)整其推薦訂購(gòu)量。因此,考慮到在多階段報(bào)童中專家意見可以依據(jù)專家自身對(duì)市場(chǎng)信息的敏感程度動(dòng)態(tài)地調(diào)整,如何學(xué)習(xí)動(dòng)態(tài)的專家意見并為零售商在市場(chǎng)中制定出更優(yōu)的訂購(gòu)決策是需要進(jìn)一步思考和研究的問題。