符巍
摘要:提出一種基于數(shù)據(jù)包絡(luò)分析方法和數(shù)據(jù)驅(qū)動多元邏輯回歸的運動隊成績預(yù)測方法。首先進行多元邏輯回歸分析,以檢查運動隊獲勝概率與比賽結(jié)果之間的關(guān)系。其次利用基于數(shù)據(jù)包絡(luò)分析的球員組合效率分析,從而最優(yōu)的選擇球員并安排場上球員的比賽時間。然后利用球員和球隊的歷史數(shù)據(jù)來進行訓(xùn)練,從而獲得預(yù)測結(jié)果。最后,將提出的成績預(yù)測方法應(yīng)用于美國國家籃球協(xié)會,并以金州勇士隊為例來說明其有效性。結(jié)果表明基于數(shù)據(jù)包絡(luò)分析的多元邏輯回歸方法可以很好地預(yù)測運動隊的成績,并且還可以提供與成績相關(guān)的決策策略。
關(guān)鍵詞:數(shù)據(jù)包絡(luò)分析;多元邏輯回歸;成績預(yù)測;數(shù)據(jù)驅(qū)動;運動隊
中圖分類號:G80-059文獻標(biāo)識碼:A文章編號:1006-2076(2021)04-0102-10
Performance prediction of sports teams based on data driven and data envelopment analysis
FU Wei
Dept. of P.E., South China Agricultural University, Guangzhou 510642, Guangdong, China
Abstract:A method of performance prediction based on data envelopment analysis (DEA) and data-driven multiple logistic regression was proposed. Firstly, the multiple logistic regression analysis was carried out to check the relationship between the winning probability of the sports team and the result of the competition. Secondly, the efficiency analysis of player combination based on DEA was used to optimize the selection of players and arrange the game time of players. Finally, the performance prediction method was applied to the National Basketball Association of the United States, and the Golden State Warriors was taken as an example to illustrate its effectiveness. Results show that the multiple logistic regression method based on DEA can predict the performance of sports teams well, and can also provide decision-making strategies related to performance.
Key words:data envelopment analysis; multiple logistic regression; performance prediction; data driven; sports team
現(xiàn)如今,對未來的績效準(zhǔn)確預(yù)測可以使各種行動和目標(biāo)受益,例如資源分配、生產(chǎn)調(diào)整、收入管理等。此外,績效預(yù)測對于為這些生產(chǎn)部門設(shè)定發(fā)展目標(biāo)也至關(guān)重要。例如,制造商將基于各個方面的生產(chǎn)效率預(yù)測來制定生產(chǎn)計劃;一個國家可以通過進行良好的生產(chǎn)分析和預(yù)測,很好地起草和管理國家經(jīng)濟計劃。而集體運動的成績預(yù)測近年來引起了越來越多的關(guān)注,可用于設(shè)計訓(xùn)練和比賽計劃。在真正的管理應(yīng)用程序中所有這些成績預(yù)測應(yīng)用程序中,最重要的領(lǐng)域之一是體育行業(yè)。成績預(yù)測和分析與相關(guān)教練、球員、體育科學(xué)家、投資者和成績分析師利益攸關(guān)。
在過去的幾十年中,全世界的體育運動越來越引起人們的關(guān)注。體育產(chǎn)業(yè)在全球范圍內(nèi)贏得了巨大的價值和收入,其中美國國家籃球協(xié)會(NBA)是最有價值的聯(lián)賽之一,在該聯(lián)盟中,2019年NBA球隊的平均特許經(jīng)營價值僅為19.23億美元。NBA憑借其轉(zhuǎn)播權(quán)、廣告和商品銷售已成為最大的體育業(yè)務(wù)之一。為此,經(jīng)理或教練將專注于對未來可能表現(xiàn)的分析,并相應(yīng)地調(diào)整團隊設(shè)置。
運動隊成績研究中通常使用回歸方法和貝葉斯推理以及神經(jīng)網(wǎng)絡(luò)等方法,例如,楊若愚集成了貝葉斯推理,基于規(guī)則推理和比賽時間序列方法來預(yù)測足球比賽的結(jié)果。AMATRIA M等分析了評估運動參與者能力和獲勝概率的幾種不同方法,并將這些方法進一步整合到一個通用框架中,以預(yù)測2008年歐洲足球錦標(biāo)賽的結(jié)果。ARABI B等基于1908年至2012年的21 639名運動員的樣本,應(yīng)用了邏輯回歸模型來檢驗相對年齡對運動表現(xiàn)的影響。劉天彪等使用多項式邏輯回歸來確定與中超聯(lián)賽球隊質(zhì)量相關(guān)的技術(shù)成績變量。所有這些方法都解決了性能預(yù)測問題,但是運動成績可能會受到鮮為人知的事件或極端事件的影響。
數(shù)據(jù)包絡(luò)分析,這是一種用于性能評估的非參數(shù)生產(chǎn)前沿方法,該方法考慮了可變規(guī)模收益假設(shè),因此獲得了不受規(guī)模效應(yīng)影響的純技術(shù)效率,由于其有效性,在醫(yī)學(xué)、體育、教育、金融等領(lǐng)域得到了廣泛的應(yīng)用。數(shù)據(jù)包絡(luò)分析方法學(xué)擅長處理多個輸入和多個輸出;其次,它考慮了各種投入和產(chǎn)出之間的權(quán)衡;另外,這種非參數(shù)方法不使用任何主觀權(quán)重,這在開發(fā)成績預(yù)測方法時顯示出極大的靈活性。許多學(xué)者開發(fā)了基于數(shù)據(jù)包絡(luò)分析的方法來評估NBA球隊和球員的表現(xiàn),因為球員交易在NBA中非常普遍,而數(shù)據(jù)包絡(luò)分析方法提供了考慮不同球員組合的預(yù)測比賽結(jié)果的機會,這非常適合教練處理此類工作的NBA運作。此外,可以進行基于數(shù)據(jù)包絡(luò)分析的實驗和模擬來找到可以確定最大獲勝概率的最佳球員組合,這個因素?zé)o法被忽略,因此可以很好地預(yù)測NBA球隊的表現(xiàn)。例如,GOMEZ M等使用網(wǎng)絡(luò)數(shù)據(jù)包絡(luò)分析方法評估了NBA球隊的效率,并且作者還計算了可能減少的球隊預(yù)算和球隊贏得的比賽。KOSTER J等還評估了網(wǎng)絡(luò)環(huán)境下NBA的球隊效率,并且作者使用了附加的兩階段分解框架來估計工資效率和場上效率。LEE BL等使用動態(tài)網(wǎng)絡(luò)數(shù)據(jù)包絡(luò)分析模型來解決籃球比賽的效率,并且作者考慮了主場球隊和客隊之間的差異。幾乎所有數(shù)據(jù)包絡(luò)分析模型都是為基于預(yù)先指定的輸入和輸出數(shù)據(jù)進行事后效率分析而設(shè)計的,很少有研究著眼于未來的性能預(yù)測。數(shù)據(jù)驅(qū)動的提出,從正在考慮的大量數(shù)據(jù)到數(shù)據(jù)背后的知識和信息,高度評價了數(shù)據(jù)的價值,如何充分挖掘大數(shù)據(jù)下隱藏的可用信息也逐漸成為研究熱點。
在本文中,基于數(shù)據(jù)包絡(luò)分析與方法開發(fā)一種數(shù)據(jù)驅(qū)動多元邏輯回歸的運動隊成績預(yù)測方法,提出的方法將應(yīng)用于美國國家籃球協(xié)會,以驗證其有用性和有效性。
1問題與方法
1.1問題設(shè)定
對于任何一支NBA球隊,假設(shè)下賽季將列出n名球員。為了簡化研究,假設(shè)不存在參與者交易。此外,假設(shè)沒有球員受傷,可以分配所有球員的上場時間和下賽季的比賽。對于預(yù)先指定的數(shù)據(jù)樣本,此NBA球隊記錄了q場比賽,且第pp=1,…,q場比賽的比賽時間tp>1,比賽結(jié)果xpr≥0r=1,…,s。此外,對于每一位球員j=1,…,n,他在第p場比賽的總時間tpj≥0內(nèi),所獲得的輸出數(shù)據(jù)xprj≥0。
在一個賽季中,教練將在所有球員之間分配比賽時間,并預(yù)測每位球員獲得相應(yīng)的勝利貢獻值。然后,將其參與者匯總的總結(jié)果轉(zhuǎn)換為可能的獲勝概率。因此如何在球員之間分配上場時間,從而在下一個常規(guī)賽中使得所有82場比賽的獲勝概率和預(yù)期獲勝次數(shù)最大化。
對于常規(guī)的籃球比賽,將有四節(jié)比賽,每節(jié)持續(xù)12 min,因此t0=12*4。同時,場上允許同時有5名球員,即n0=5。因此,總共的比賽時間n0*t0=240將分配給這n名球員,每名球員將通過在場上比賽獲得一些結(jié)果。最后可以通過將單個球員的結(jié)果相加,可以預(yù)測整個團隊的量化總結(jié)果。此外,總收益將根據(jù)比賽結(jié)果與獲勝概率之間的數(shù)量關(guān)系轉(zhuǎn)換為可能的獲勝概率,并且這種獲勝概率可以作為考慮的NBA球隊的未來表現(xiàn)預(yù)測結(jié)果。可以通過一種有效的方式分配上場時間最大化某個目標(biāo)函數(shù)f,這個基本的預(yù)測模型可以表述為模型(1):
maxf=f(t1,L,tn)
s.t.∑nj=1tj=n0×t0(1)
0≤tj≤t0,j=1,L,n.
目標(biāo)函數(shù)f是球員比賽時間的函數(shù),通過適當(dāng)分配總比賽時間no·t0,目標(biāo)函數(shù)f可以最大化。如果f是單個目標(biāo)函數(shù),則最佳預(yù)測結(jié)果將僅與一個球員的比賽時間有關(guān)。但是,像NBA這樣運動中,影響結(jié)果的因素很多,因此需要使用回歸方法來獲得多目標(biāo)函數(shù)的公式,該公式可以顯示獲勝概率與分配給個人球員的上場時間之間的數(shù)量關(guān)系。進一步通過數(shù)據(jù)包絡(luò)分析的生產(chǎn)前沿方法將上場時間tj(j=1,…,n)轉(zhuǎn)換為各種輸出xrjr=1,…,s;j=1,…,n,因此只需要估計獲勝概率和各種結(jié)果之間的數(shù)量關(guān)系即可。
1.2DEA數(shù)學(xué)建模
為了解決性能預(yù)測問題,需要指定在預(yù)定的時間段內(nèi)可能的效率或低效率狀態(tài)。為此,應(yīng)該首先對球員和整個球隊進行效率評估。效率分析的方法有很多種,本文基于一種稱為數(shù)據(jù)包絡(luò)分析的生產(chǎn)層方法提出了效率分析的方法。該方法利用歷史數(shù)據(jù)構(gòu)建一個效率邊界,在此邊界上對所有決策單元進行預(yù)測,并將實際單元與這些預(yù)測進行比較,以評估它們的相對效率。該模型具有內(nèi)生方向矢量的基于松弛的方向距離函數(shù)(DDF)模型,以最大化期望的輸出并且同時最小化不期望的輸出。此時只考慮基于輸出的基于松弛的方向,因為:(1)只有一個輸入(即比賽時間);(2)可以很容易地證明,如果只考慮一個輸入,則基于最優(yōu)輸出余量的低效率DMU的投影將非常有效;(3)最優(yōu)方向向量是非徑向的,因此模型在存在非零松弛的情況下不會高估效率。對于最佳方向矢量,可以參考文獻\。因此可以根據(jù)不期望的輸出的可行的減少和期望的輸出的可行的增長來估計最大的效率低下。根據(jù)文獻\計算球員jj=1,…,n的每個度量的無效率比ρ+orj,ρ-orj。
盡管在預(yù)測期間球隊和球員的可能效率未知,并且充滿不確定性,但效率的可能近似值是過去幾個賽季中的平均效率得分,因此可以得到每種度量的加權(quán)平均無效率,其中以第oo∈Pj場比賽的比賽時間作為每個獨立無效率比的權(quán)重ρ+rj,ρ-rj。
為了進行基于數(shù)據(jù)包絡(luò)分析的性能預(yù)測,認為平均無效率比ρ+rj,ρ-rj和ρ+r,ρ-r是球員和團隊分別在預(yù)測期內(nèi)的無效率狀態(tài)的良好代表。這個假設(shè)可以與以下觀察結(jié)果相聯(lián)系:基于對手的表現(xiàn),表現(xiàn)良好的球員和球隊在比賽中的表現(xiàn)可能要好于對手。
在預(yù)測模型中,決策變量tj是球員j的比賽時間,xrj是其相應(yīng)的最優(yōu)結(jié)果,λkj是用于構(gòu)建每個球員j(j=1,…,n)的效率邊界的強度變量。第一個約束意味著所有球員分配的上場時間與單個比賽的總比賽時間精確相加,而隨后的4個約束則確保預(yù)測期內(nèi)每個球員的計劃投入產(chǎn)出在生產(chǎn)可能集(PPS)內(nèi),它是在變量回歸比例(VRS)假設(shè)下,利用歷史數(shù)據(jù)構(gòu)建的。這里,計劃投入產(chǎn)出和加權(quán)無效率比的乘積給出了一個無效率松弛,這可以被描述為在預(yù)測期內(nèi)采用的無效率狀態(tài)。約束條件x^r=∑nj=1xrj表示團隊的輸出僅來自所有球員的輸出。另外,剩下的3個約束被用來確保預(yù)期的輸出在團隊的生產(chǎn)可能性集合內(nèi)。同樣,團隊的平均低效率比率也被強加給了團隊。為方便研究,消除對團隊比賽時間的限制,因為考慮的是一個正常的比賽環(huán)境,并且團隊比賽時間對于所有比賽都是相同的。
預(yù)測模型開發(fā)了一個基本框架來處理預(yù)測,但是仍然可以添加額外的約束。通過保持每個度量的加權(quán)平均無效率,可以計算最大可能的獲勝概率P。假設(shè)每個常規(guī)賽季每隊有N場比賽,則預(yù)期的獲勝次數(shù)將被統(tǒng)計為N·P。 特別是,在NBA常規(guī)賽中,預(yù)期的比賽獲勝次數(shù)將表示為82P。
數(shù)據(jù)包絡(luò)分析方法是運籌學(xué)、管理科學(xué)與數(shù)理經(jīng)濟學(xué)交叉研究的一個新領(lǐng)域。DEA評價結(jié)構(gòu)框圖如圖1所示。
2應(yīng)用實例
2.1數(shù)據(jù)描述
在本節(jié)中,使用金州勇士隊從2011—2012賽季到2014—2015賽季的數(shù)據(jù)來預(yù)測下一個2015—2016常規(guī)賽季的理想表現(xiàn)。此外,出于以下兩個原因,將刪除那些超時的比賽:一方面,將為虛擬比賽分配240 min的總比賽時間,而這些超時的比賽的總比賽時間將超過該值。另一方面,在標(biāo)準(zhǔn)比賽時間(即240 min)內(nèi),由于這些比賽以平局結(jié)束,因此很難將這些加時賽的輸贏結(jié)果量化為一或零。另外,本文忽略了進行了48 min以上的比賽。從籃球參考(http://www.basketball-reference.com/)獲得了金州勇士隊及其14名球員的經(jīng)驗數(shù)據(jù),如表1和表2所示。
2.2初步預(yù)測結(jié)果
首先,使用團隊結(jié)果數(shù)據(jù)進行邏輯回歸分析,結(jié)果在表3和圖2中給出,結(jié)果發(fā)現(xiàn)邏輯回歸方程可以很好地擬合獲勝概率。實際上,如果將閾值設(shè)置為50,那么在297場比賽中只有53場與實際結(jié)果不一致。因此,準(zhǔn)確性可以接近82.15。 McFadden和LR統(tǒng)計也證明了該方法具有良好的適用性。以上所有發(fā)現(xiàn)表明,可以使用估計的回歸方程來說明各種比賽結(jié)果與獲勝概率之間的數(shù)量關(guān)系。因此,將在性能預(yù)測模型中使用的目標(biāo)函數(shù)給出如下:
F=-16.94654+0.190505*兩分+0.325316*三分+0.137032*罰球+0.208003*防守籃板+0.106414*助攻+0.206344*搶斷-0.130368*失誤-0.112095*犯規(guī)(2)
進攻籃板和蓋帽不考慮在回歸方程式中,因為它們的兩個估計參數(shù)都不具有統(tǒng)計意義。此外,可以通過對比賽時間進行加權(quán)來獲得平均無效率比率,如表4所示。進一步將這些結(jié)果納入DAE模型中,以最佳分配比賽時間,并獲得下一個2015—2016賽季常規(guī)賽預(yù)測的期望結(jié)果,如表5所示。
根據(jù)表5,可以得出結(jié)論,通過最佳選擇球員并分配上場時間,金州勇士隊的最佳獲勝機率是73.95,2015—2016賽季常規(guī)賽的預(yù)期勝利將是60.64。獲得該結(jié)果的一個基本假設(shè)是在預(yù)測方法中采用平均無效率比率來表征球員和球隊的無效率狀態(tài),因此從統(tǒng)計上看,平均無效率比率是暫時的沖擊,不應(yīng)影響整體預(yù)測結(jié)果。金州勇士隊在2015—2016賽季打破了NBA的紀(jì)錄,獲得了73場勝利,因此可以得出結(jié)論,提出的預(yù)測方法可以提供良好的預(yù)測結(jié)果。同樣,可以驗證金州勇士隊在整個賽季中的表現(xiàn)都非常出色,因為實際獲勝的概率甚至比預(yù)期的更高。該結(jié)果還可能存在如下原因:從2011—2012賽季到2014—2015賽季,金州勇士隊的獲勝概率呈上升趨勢,因此,基于四季數(shù)據(jù)集的平均無效率比率可能會低估金州勇士隊的潛力。此外,根據(jù)表5中的結(jié)果,可以說安德森·瓦雷喬、斯蒂芬·庫里、哈里森·巴恩斯,安德魯·博古特和安德烈·伊瓜達拉是金州勇士隊中最有價值的前5名球員,因為他們應(yīng)該獲得大多數(shù)得分,此外,這些球員還獲得了許多其他成果。
DAE預(yù)測方法可以獲得唯一的最佳目標(biāo)函數(shù),因此預(yù)測的獲勝概率是唯一的,但是解決方案可以是多個。一旦添加一些其他約束,解決方案可能會更改。例如,在許多實際應(yīng)用中,教練傾向于將一些球員安排給其他人,特別是那些頂級球員在世界各地都有很多球迷,他們的出場時間將有利于門票收入,因此,教練將為那些頂級球員分配比其他人更多的比賽時間??紤]前面討論的情況,這5個首發(fā)球員的預(yù)期比那些替代者的比賽時間更長。正如金州勇士隊宣布的那樣,克萊·湯普森、安德魯·博古特、德雷蒙德·格林、斯蒂芬·庫里和哈里森·巴恩斯是2015—2016賽季常規(guī)賽的首發(fā)球員。通過再次求解DAE模型,在表6中獲得了新的預(yù)測結(jié)果。如表6所示,預(yù)測獲勝概率將保持不變,但是不同球員所上場時間的分配和相應(yīng)的比賽結(jié)果將有很大差異。同樣,將重點放在得分最高的有價值球員上,他們將排在斯蒂芬·庫里、安德森·瓦雷喬、德雷蒙德·格林,哈里森·巴恩斯和安德魯·博古特的行列,該結(jié)果與先前獲得的結(jié)果非常相似。
另外,將比較本文方法與其他一些預(yù)測方法的預(yù)測結(jié)果。盡管許多學(xué)者在NBA中建立了運動成績預(yù)測方法,但普遍的缺點是預(yù)測準(zhǔn)確性低,并且這些方法都沒有被廣泛接受??紤]體育行業(yè)從業(yè)者和體育迷廣泛使用的兩個預(yù)測結(jié)果:一個由娛樂體育節(jié)目網(wǎng)絡(luò)(EPSN,www.espn.com)提供,另一個由FiveThirtyEight(fivethirtyeight.com/sports)提供。ESPN使用一種稱為“籃球?qū)嵙χ笖?shù)(BPI)”的前瞻性方法來衡量球隊的素質(zhì),它使用高級統(tǒng)計分析來衡量每支球隊相對于平均球隊的攻防水平。BPI可以用來預(yù)測給定球隊的平均得分和獲勝概率。ESPN的BPI被宣稱是最成功的預(yù)測方法之一,它已經(jīng)贏得了NBA比賽的72以上。相反,F(xiàn)iveThirtyEight將基于Elo的模型與所謂的CARM-ELO球員預(yù)測:一種將當(dāng)前NBA球員與整個聯(lián)盟歷史上類似球員進行比較的系統(tǒng),以預(yù)測NBA球隊的“CARM-Elo”評級,預(yù)期數(shù)量輸贏和進入季后賽的可能性。可以在網(wǎng)上找到這兩種方法的結(jié)果,但是有關(guān)其預(yù)測模型和技術(shù)參數(shù)的信息有限,因此僅將預(yù)測結(jié)果與數(shù)學(xué)值進行比較。
ESPN得到了60勝22負的預(yù)測結(jié)果,而FiveThirtyEight預(yù)測了金州勇士隊的季前賽結(jié)果也相同,比較結(jié)果示于表7。首先,當(dāng)金州勇士隊打破NBA紀(jì)錄并獲得73勝時,包括本文在內(nèi)的所有3個預(yù)測都低估了獲勝的可能性和預(yù)期的獲勝次數(shù)。此外,可以看出,本文提出的預(yù)測方法與ESPN和FiveThirtyEight提供的預(yù)測結(jié)果極為接近,而本文提出的方法預(yù)測精度較高。這一發(fā)現(xiàn)表明,本文預(yù)測方法具有與ESPN和FiveThirtyEight相似的預(yù)測結(jié)果,考慮到金州勇士隊創(chuàng)造了新記錄,在2015—2016年的理由甚至更好。由于ESPN和FiveThirtyEight都是成功的預(yù)測方法的典范,通過比較分析,可以得出結(jié)論,基于數(shù)據(jù)包絡(luò)分析的數(shù)據(jù)驅(qū)動方法在運動隊成績預(yù)測中具有相對較好的預(yù)測效果。
2.3討論與分析
在上一節(jié)中,以“金州勇士”為例來說明提出的數(shù)據(jù)驅(qū)動預(yù)測方法的有用性和有效性。在下面的部分中,將對所提出的預(yù)測方法及其應(yīng)用結(jié)果進行進一步的討論,以展示如何將其用于對問題進行深入了解。
在DEA模型中,通過假設(shè)所有結(jié)果的無效率均恒定來進行確定性的最佳性能預(yù)測。但是,會有一些不確定性??紤]了球員、整個球隊以及球隊和球員同時處于低效率狀態(tài)的不確定性,關(guān)于無效率變化率的靈敏度分析結(jié)果如圖3所示。結(jié)果發(fā)現(xiàn),與球員相比,最佳獲勝概率對團隊效率低下概率的變化更加敏感。這是因為對于像NBA這樣的集體運動,并不是每個球員在同一場比賽中都會表現(xiàn)好或者壞。實際上,在幾乎所有比賽中,有些球員會表現(xiàn)得很好,而其他球員則會表現(xiàn)得不好。結(jié)果,整個團隊將同時獲得來自表現(xiàn)出色的球員和表現(xiàn)不好的球員的比賽結(jié)果。因此,當(dāng)強加團隊的生產(chǎn)可能集和生產(chǎn)前沿約束時,團隊的無效率比率是一個敏感因素,而球員的無效率比率則較不敏感。從這個角度出發(fā),建議金州勇士隊的經(jīng)理和教練更加注意團隊合作與溝通,并努力消除更多的團隊效率低下的情況。
顯然,所提出的預(yù)測方法是數(shù)據(jù)驅(qū)動的,結(jié)果將基于數(shù)據(jù),因此不同的數(shù)據(jù)樣本可能會導(dǎo)致不同的結(jié)果。先前獲得的結(jié)果基于從2011—2012賽季到2014—2015賽季的4個季節(jié)的數(shù)據(jù)樣本,通過使用最新的2014—2015賽季,在這里將考慮另外3個樣本,分別只有1個賽季、2個賽季和3個賽季。以相同的方式解決了所提出的預(yù)測方法,預(yù)測結(jié)果如表8所示。結(jié)果表明預(yù)測的獲勝概率將減少樣本量,這是因為金州勇士隊在2011年至2015年的常規(guī)賽中贏得了越來越多的冠軍,其平均無效率比越來越小。圖4顯示了不同數(shù)據(jù)樣本下的獲勝概率,其中涉及每個賽季的實際獲勝概率、基于不同樣本的累積獲勝概率和預(yù)測獲勝概率。因此,預(yù)測結(jié)果也將越來越好。尤其是,基于2013—2014和2014—2015兩個賽季的結(jié)果非常接近2015—2016常規(guī)賽季的真實結(jié)果,當(dāng)時金州勇士隊打破了NBA紀(jì)錄,獲得了73場勝利。
圖5顯示了在不同數(shù)據(jù)樣本下每個球員的比賽時間,可以看出,盡管存在一些變化,但是球員表現(xiàn)出主要趨勢,這意味著具有最佳球隊獲勝概率的比賽時間是相對穩(wěn)定的。
在此,還將給出最小的成績,同時還要給出由DEA模型計算的平均無效率比率,如表4所示。為解決最小獲勝概率預(yù)測問題,提出如下目標(biāo)函數(shù):
Minf^=β0+β1x^1+…+βsx^s
s.t.∑nj=1tj=n0·t0
∑k∈Ejλkjtkj=tj,j=1,…,n
∑k∈Ejλkjxkrj=xrj+ρ+rjxrj,r=1,…,m;j=1,…,n
∑k∈Ejλkjxkrj=xrj-ρ-rjxrj,r=m+1,…,s;j=1,…,n
∑k∈Ejλkj=1,j=1,…,n
∑nj=1xrj=x^r,r=1,…,s(3)
∑l∈Eλlxlr=x^r+ρ+rx^r,r=1,…,m
∑l∈Eλlxlr=x^r-ρ-rx^r,r=m+1,…,s
∑l∈Eλl=1
0≤tj≤t0,j=1,…,n
λkj,λl≥0,j=1,…,n;k∈Pj;l=1,…,q.
表9列出了基于模型(3)的最小預(yù)測結(jié)果,結(jié)果發(fā)現(xiàn)預(yù)測的最低性能與表5中給出的期望結(jié)果有很大不同。盡管所有參與者的平均無效率比率都很高,但是不同的計劃會導(dǎo)致不同的結(jié)果,甚至?xí)泻艽蟮牟煌=Y(jié)果證明適當(dāng)選擇球員和在場上分配上場時間對NBA球隊而言最為重要,而且,獲得這些期望的和不期望的結(jié)果的不同組合的戰(zhàn)略安排與獲勝概率密切相關(guān)。
在許多體育賽事中,都存在“熱球員”現(xiàn)象,這表明某些球員的表現(xiàn)將優(yōu)于其他球員。另外,幾乎所有運動中的每個團隊中都會有一個、兩個或更多的關(guān)鍵球員貢獻最大。從這個角度來看,可以進一步討論一些球員缺席的影響,畢竟傷病問題對于幾乎所有球員都是不可避免的。在不失一般性的前提下,認為存在一些關(guān)鍵角色,如果其他角色發(fā)揮較差,他們將做出更多貢獻。另外,如果一名球員受傷并且在預(yù)測期內(nèi)不打任何比賽,那么將來的表現(xiàn)會發(fā)生多少變化,以及如何重新分配比賽時間。為此,考慮下一個賽季整個賽季某個球員不在這里的情況,其結(jié)果列在表10中。根據(jù)結(jié)果發(fā)現(xiàn),通過保持團隊和球員的平均無效率比率,無論缺席哪個人,最優(yōu)預(yù)測獲勝概率都將保持不變。此結(jié)果的一個可能原因是,在基于數(shù)據(jù)包絡(luò)分析的方法中,不同的DMU是同質(zhì)的,并且可以用對等DMU的凸組合代替。結(jié)果,任何人的缺席都可以被其他人抵消,獲勝的概率保持不變。另一個原因是,除了每個球員的PPS之外,還使用了團隊的PPS來限制預(yù)測的可能的輸入輸出。由于NBA是一項團隊運動,而且金州勇士隊的球員每年都會發(fā)生很大變化,因此,球隊的PPS與球員的PPS總和之間的差距會很大。當(dāng)使用DEA模型來解決獲勝概率預(yù)測時,可能存在一些更多的輸出,這些輸出可以通過球員總數(shù)來實現(xiàn),而不能通過團隊來實現(xiàn)。因此如果存在這種冗余輸出,則無論哪個球員不能參加比賽,獲勝概率都將保持不變。
但是,如果調(diào)查比賽時間的變化,就會發(fā)現(xiàn)史蒂芬·庫里的比賽時間增加最多。表11顯示了如果同時刪除兩個球員,則11號球員史蒂芬·庫里將成為增加最多比賽時間的球員,結(jié)果表明,在幾乎所有情況下,史蒂芬·庫里都是最大目標(biāo)。增幅最大的人可以被認為是關(guān)鍵球員,因為隨著比賽時間的延長,他會盡力抵消缺席帶來的負面影響,并為球隊帶來最佳的比賽結(jié)果。另外,根據(jù)可能的得分和比賽結(jié)果,以前發(fā)現(xiàn)史蒂芬·庫里是前5名有價值的球員之一,因此,可以得出結(jié)論,根據(jù)數(shù)據(jù)驅(qū)動預(yù)測方法和本文中使用的數(shù)據(jù)樣本,史蒂芬·庫里是金州勇士隊最有價值的球員。實際上,史蒂芬·庫里在2015—2016賽季NBA常規(guī)賽中獲得了最有價值球員(MVP)的榮譽。
此外,考慮這樣一種情況,即所有參與者在每個結(jié)果上的個人效率低下率和整個團隊的效率低下率都是隨機確定的。表4中的結(jié)果是基于DEA模型的平均值,這里假設(shè)效率低下的比率是從樣本中以前的比賽中隨機選擇的,結(jié)果如表12所示,預(yù)測結(jié)果也將隨機改變。因此可以發(fā)現(xiàn)隨機預(yù)測結(jié)果更有可能比確定性情況低。這可能存在如下原因:對于這些理想或不理想的輸出,這些球員在所有比賽中很少是百分比高于或低于其平均值。詳細信息可以參考表13中給出的統(tǒng)計信息,該統(tǒng)計表明,對于期望的輸出,幾乎所有百分比值都小于0.5,對于不期望的輸出,則幾乎大于0.5。
3結(jié)論與展望
本文中提出了一種基于數(shù)據(jù)包絡(luò)分析的兩步數(shù)據(jù)驅(qū)動方法,以預(yù)測NBA球隊的獲勝概率。它首先使用多元統(tǒng)計回歸分析來估計團隊一級獲勝概率與各種比賽結(jié)果之間的數(shù)量關(guān)系,然后應(yīng)用基于數(shù)據(jù)包絡(luò)分析的生產(chǎn)前沿模型來獲得最佳比賽結(jié)果。得出如下結(jié)論:
(1)提出了具有可變規(guī)模收益假設(shè)的數(shù)據(jù)包絡(luò)分析方法,為捕獲比賽時間和球員輸出之間的非線性關(guān)系提供了十分有效的途徑。一般來說建議將數(shù)據(jù)包絡(luò)分析用于事后評估,本文首次將數(shù)據(jù)包絡(luò)分析方法用于事先預(yù)測團隊運動水平,結(jié)果表明數(shù)據(jù)包絡(luò)分析提供了考慮不同球員組合的預(yù)測比賽結(jié)果的機會,能夠有效預(yù)測球隊與球員的關(guān)系。提出的基于前沿生產(chǎn)方法的數(shù)據(jù)驅(qū)動多元邏輯分析方法,在大數(shù)據(jù)環(huán)境中,充分發(fā)揮了數(shù)據(jù)的潛力,提升了訓(xùn)練數(shù)據(jù)的利用效率,增大了預(yù)測精度。
(2)球隊的無效率比率是一個敏感因素,而球員的無效率比率則較不敏感。從這個角度出發(fā),建議球隊的經(jīng)理和教練更加注意球隊合作與溝通,保持良好的球隊相處氛圍與競技狀態(tài),并努力消除更多的團隊效率低下因素,保持團隊效率將極大提升球隊的成績。
(3)盡管所有參與者的平均無效率比率都很高,但是不同的計劃會導(dǎo)致不同的結(jié)果,甚至?xí)泻艽蟮牟煌?。這樣的發(fā)現(xiàn)證明了選擇適當(dāng)?shù)那騿T與合理分配上場時間對球隊而言最為重要。而且,獲得這些期望的和不期望的結(jié)果的不同組合的戰(zhàn)略安排與獲勝概率密切相關(guān)。
(4)為消除球隊傷病帶來的影響,可分析得到全隊比賽時間增加較多的球員,該類球員為全隊的關(guān)鍵球員,因此要更加注重合理分配關(guān)鍵球員的出場時間。
(5)使用來自NBA金州勇士隊的真實數(shù)據(jù)集來證明所提出方法的有用性和有效性。通過經(jīng)驗應(yīng)用,不僅建立了適用的成績預(yù)測方法,而且還提供了有關(guān)NBA球隊提升成績的寶貴建議。另外,此方法還可推廣至其他團隊運動項目中,方法具備普遍性。
本文提出的方法可被視為同一目標(biāo)未來研究的參考和基準(zhǔn),是基于數(shù)據(jù)包絡(luò)分析的方法的運動成績預(yù)測。同時,它可以從某些方向擴展。首先,提出的方法僅應(yīng)用于一個NBA球隊,可以嘗試使用更全面的數(shù)據(jù)和情況進行說明,這一點在大數(shù)據(jù)環(huán)境中將特別具有吸引力。此外,沒有考慮對手的逐項比賽日程和競爭策略,將更多的行為理論整合到數(shù)據(jù)驅(qū)動的預(yù)測方法中具有重要意義。同樣,預(yù)測單個比賽是一個亟待解決的問題,對此應(yīng)該考慮更多因素,例如球員限制、球員組合和比賽時間計劃。未來的研究可以開發(fā)出運動水平上運動隊成績預(yù)測的方法。此外,所提出的預(yù)測方法采用平均無效率比率來量化預(yù)測期間的效率狀態(tài)。這是一種自然可行的方法,但是其他方法也可以解決數(shù)據(jù)驅(qū)動的預(yù)測問題。并且,準(zhǔn)確預(yù)測在預(yù)測期內(nèi)可能的效率狀態(tài)對于預(yù)測方法和結(jié)果非常重要。此外,由于數(shù)據(jù)包絡(luò)分析方法非常理想,因此預(yù)測結(jié)果可能會被夸大??赡艿脑蛉Q于生產(chǎn)前沿,這可能與對手弱的比賽密切相關(guān),需要設(shè)計一項可能的研究來克服此缺點并獲得更好的結(jié)果。
參考文獻:
[1]趙月民,陳培友.基于加速度傳感器的大學(xué)生自行車運動能耗預(yù)測模型研究\.山東體育學(xué)院學(xué)報,2019,35(1):80-85.
[2]郭正茂,譚宏,楊劍.競爭戰(zhàn)略對中國體育用品制造業(yè)上市公司短期績效影響的實證研究——基于PORTER基本競爭戰(zhàn)略分類范式\.山東體育學(xué)院學(xué)報,2018,34(6):1-7.
[3]袁軍. 陜西省競技武術(shù)套路男子長拳后備人才專項身體素質(zhì)因子分析及預(yù)測模型構(gòu)建\.西安:西安體育學(xué)院,2019.
[4]謝暉.利用多變量GM(1,N)灰色模型預(yù)測運動成績的研究\.當(dāng)代體育科技,2018,8(13):221-224.
[5]曲淑華,張曉東,尹貽杰.世界田徑錦標(biāo)賽標(biāo)槍成績發(fā)展態(tài)勢分析及灰色預(yù)測\.北京體育大學(xué)學(xué)報,2017,40(11):93-97.
[6]劉山玉,韓盼星.第20屆CUBA男籃四強攻防能力分析\.廣州體育學(xué)院學(xué)報,2019,39(6):91-93.
[7]楊若愚. 中國優(yōu)秀運動員爆發(fā)力素質(zhì)相關(guān)基因多態(tài)性及其預(yù)測模型的研究\.上海:上海體育學(xué)院,2017.
[8]AMATRIA M, LAPRESA D, ARANA J, et al. Optimization of game formats in U-10 soccer using logistic regression analysis. J Hum Kinet,2016,54(1):163-171.
[9]ARABI B, MUNISAMY S, EMROUZNEJAD A. A new slacks-based measure of Malmquist-Luenberger index in the presence of undesirable outputs. Omega,2015(51):29-37.
[10]劉天彪,馬成全,張丹,等.中超聯(lián)賽職業(yè)足球俱樂部賽季初的資金投入和比賽表現(xiàn)與賽季末成績排名的相關(guān)性研究\.首都體育學(xué)院學(xué)報,2019,31(6):511-516.
[11]楊潤田,徐騰達.冬奧會背景下崇禮滑雪旅游產(chǎn)業(yè)的發(fā)展規(guī)?!诮?jīng)濟預(yù)測的視角\.沈陽體育學(xué)院學(xué)報,2019,38(6):1-7.
[12]李欣.基于DEA模型的我國少數(shù)民族自治州公共體育服務(wù)效率研究\.廣州體育學(xué)院學(xué)報,2018,38(4):78-82.
[13]GOMEZ M, IBANEZ S, PAREJO I. The use of classification and regression tree when classifying winning and losing basketball teams. Kinesiol: Int J Fundam Appl Kinesiology,2017,49(1):47-56.
[14]KOSTER J, AVEN B. The effects of individual status and group performance on network ties among teammates in the National Basketball Association. Plol One,2018,13(4):e0196013.
[15]LEE BL, WORTHINGTON AC. A network DEA quantity and quality-orientated production model: an application to Australian university research services.Omega,2016(60):26-33.
[16]游艷雯.基于數(shù)據(jù)包絡(luò)分析的路網(wǎng)性編組站運營效率評價研究\.鐵道運輸與經(jīng)濟,2019,41(11):99-104.
[17]涂春景,江崇民,張彥峰,等.基于灰色模型的我國城鎮(zhèn)老年人體質(zhì)定量預(yù)測研究\.體育科學(xué),2016,36(6):92-97.
[18]蔣佳峰.杭州富陽運動休閑產(chǎn)業(yè)競爭力分析——基于數(shù)據(jù)包絡(luò)分析法(DEA)\.浙江體育科學(xué),2017,39(6):1-6.
[19]VILLA G, LOZANO S. Dynamic network DEA approach to basketball games efficiency. J Oper Res Soc,2018,69(11):1738-1750.
[20]鐘松偉,唐行軍,陳曉娟.2016-2017賽季NBA總決賽冠軍勇士隊致勝因素分析\.體育科技文獻通報,2019,27(11):77-79.