馬超
(東北石油大學(xué), 體育部, 河北, 秦皇島 066000)
運(yùn)動(dòng)員是國(guó)家體育發(fā)展的重要儲(chǔ)備力量,準(zhǔn)確估計(jì)運(yùn)動(dòng)員成績(jī),能夠?yàn)槠渲贫ǜm用的訓(xùn)練規(guī)劃,提升其成績(jī)[1-3]。訓(xùn)練強(qiáng)度與運(yùn)動(dòng)員自身身體素質(zhì)等因素可直接影響運(yùn)動(dòng)員成績(jī),只有精準(zhǔn)了解運(yùn)動(dòng)員成績(jī)的變化特點(diǎn),才能確保運(yùn)動(dòng)員取得更好的成績(jī)[4],這就說(shuō)明估計(jì)運(yùn)動(dòng)員成績(jī)非常重要。陳曦等[5]研究融合知識(shí)圖譜和協(xié)同過(guò)濾的學(xué)生成績(jī)預(yù)測(cè)方法,建立描繪課程信息的課程知識(shí)圖譜,通過(guò)基于鄰節(jié)點(diǎn)方法與基于知識(shí)圖譜學(xué)習(xí)方法計(jì)算課程在知識(shí)層面的相似度,將獲取的相似度集成到協(xié)同過(guò)濾的成績(jī)預(yù)測(cè)框架,獲取成績(jī)預(yù)測(cè)結(jié)果;李夢(mèng)瑩等[6]研究基于雙路注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)模型,通過(guò)兩次注意力計(jì)算獲取不同屬性特征在第一階段與第二階段成績(jī)上的注意力得分,結(jié)合多特征融合方式,獲取成績(jī)預(yù)測(cè)結(jié)果?;跉v史數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法是通過(guò)歷史數(shù)據(jù)實(shí)施預(yù)測(cè)[7-8],基于歷史數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法有很多,例如隱馬爾科夫模型、混沌預(yù)測(cè)與支持向量機(jī)等。支持向量機(jī)存在小樣本學(xué)習(xí)與學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn),在預(yù)測(cè)方面具有一定優(yōu)勢(shì),因此用來(lái)研究基于歷史數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)員成績(jī)估計(jì)方法。利用KNN算法對(duì)運(yùn)動(dòng)員的歷史成績(jī)進(jìn)行預(yù)處理,去除干擾數(shù)據(jù)的影響,精準(zhǔn)地對(duì)數(shù)據(jù)進(jìn)行了分類(lèi);利用支持向量機(jī)構(gòu)建回歸預(yù)測(cè)模型,引入拉格朗日函數(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以避免數(shù)據(jù)運(yùn)算陷入局部;利用粒子群算法對(duì)支持向量回歸預(yù)測(cè)模型參數(shù)進(jìn)行優(yōu)化,減少輸入量噪聲的干擾,降低計(jì)算的復(fù)雜度。
歷史數(shù)據(jù)驅(qū)動(dòng)估計(jì)運(yùn)動(dòng)員成績(jī)估計(jì)思想:首先數(shù)據(jù)預(yù)處理,因?yàn)樵歼\(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)集內(nèi)會(huì)存在噪聲干擾,支持向量回歸不能直接通過(guò)原始運(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)集實(shí)施估計(jì),所以利用K最近鄰(K-nearest neighbor,KNN)分類(lèi)算法實(shí)施數(shù)據(jù)預(yù)處理;然后將數(shù)據(jù)預(yù)處理后的運(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)集作為支持向量回歸預(yù)測(cè)模型的訓(xùn)練樣本,經(jīng)過(guò)支持向量回歸預(yù)測(cè)模型訓(xùn)練后,獲取運(yùn)動(dòng)員成績(jī)估計(jì)結(jié)果;最后利用粒子群算法優(yōu)化支持向量回歸參數(shù),提升估計(jì)結(jié)果的準(zhǔn)確性。
運(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)包含各賽級(jí)的比賽名次、比賽運(yùn)動(dòng)用時(shí)、年齡、性別、訓(xùn)練時(shí)長(zhǎng)、體質(zhì)。利用KNN算法對(duì)運(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)實(shí)施數(shù)據(jù)預(yù)處理[9],減少不完整數(shù)據(jù)信息的干擾,無(wú)需先驗(yàn)統(tǒng)計(jì)即可實(shí)現(xiàn)數(shù)據(jù)的分類(lèi)。KNN算法的核心思想是假設(shè)在運(yùn)動(dòng)員歷史成績(jī)特征空間內(nèi),若一個(gè)運(yùn)動(dòng)員歷史成績(jī)樣本的k個(gè)最鄰近運(yùn)動(dòng)員歷史成績(jī)樣本內(nèi)的多數(shù)屬于某一個(gè)類(lèi)別,則判斷這個(gè)運(yùn)動(dòng)員歷史成績(jī)樣本也屬于這個(gè)類(lèi)別,同時(shí)存在這個(gè)類(lèi)別運(yùn)動(dòng)員歷史成績(jī)樣本的特性。KNN算法的具體步驟如下。
步驟1:建立運(yùn)動(dòng)員歷史成績(jī)訓(xùn)練樣本集T。
步驟2:設(shè)置k的初始值。
步驟3:在運(yùn)動(dòng)員歷史成績(jī)訓(xùn)練樣本集內(nèi)選取和運(yùn)動(dòng)員歷史成績(jī)測(cè)試樣本最接近的前k個(gè)樣本,利用歐幾里德距離獲取運(yùn)動(dòng)員歷史成績(jī)樣本X與Y的相似度,歐幾里德距離計(jì)算如式(1),
(1)
假設(shè)全部運(yùn)動(dòng)員歷史成績(jī)樣本屬于n維空間Rn,任一運(yùn)動(dòng)員歷史成績(jī)樣本Xi=xi1,xi2,…,xin∈Rn,其中第i個(gè)運(yùn)動(dòng)員歷史成績(jī)樣本的第k個(gè)特征值是xik。運(yùn)動(dòng)員歷史成績(jī)樣本Xi與Xj的歐幾里德距離是dXi,Xj,dXi,Xj用來(lái)表示運(yùn)動(dòng)員歷史成績(jī)樣本的相似度。計(jì)算式如式(2):
(2)
式中,第j個(gè)運(yùn)動(dòng)員歷史成績(jī)樣本的第k個(gè)特征值是yjk。
步驟4:針對(duì)運(yùn)動(dòng)員歷史成績(jī)測(cè)試樣本Xq,和Xq距離最近的k個(gè)運(yùn)動(dòng)員歷史成績(jī)樣本是X1,…,Xk,假設(shè)離散點(diǎn)目標(biāo)函數(shù)是F:Rn→ei,第i個(gè)類(lèi)別標(biāo)簽是ei,標(biāo)簽集合是E=e1,…,es>。離散點(diǎn)目標(biāo)函數(shù)計(jì)算式如式(3):
(3)
式中,返回值是s,運(yùn)動(dòng)員歷史成績(jī)樣本間的相似度是δ,當(dāng)樣本a與樣本b一致時(shí),δa,b=1,當(dāng)樣本a與樣本b不同時(shí),δa,b=0。
步驟5:將投票數(shù)量多的運(yùn)動(dòng)員歷史成績(jī)樣本作為支持向量機(jī)的輸入。
利用支持向量回歸預(yù)測(cè)模型估計(jì)運(yùn)動(dòng)員成績(jī),支持向量回歸估計(jì)模型屬于在高維特征空間內(nèi)構(gòu)建回歸預(yù)測(cè)函數(shù);將數(shù)據(jù)預(yù)處理后的運(yùn)動(dòng)員歷史成績(jī)數(shù)據(jù)集作為支持向量回歸預(yù)測(cè)模型的輸入;線性回歸不敏感損失函數(shù)ε的計(jì)算式如式(4):
(4)
式中,f(x)為支持向量機(jī)的回歸預(yù)測(cè)函數(shù),l為實(shí)際值。
回歸函數(shù)的對(duì)應(yīng)值就是運(yùn)動(dòng)員成績(jī)估計(jì)值,因此獲取最優(yōu)化計(jì)算式如式(5):
(5)
(6)
整理式(6)后可得式(7),
(7)
高斯核函數(shù)計(jì)算式如式(8):
(8)
式中,σ為高斯核帶寬,σ>0。
支持向量回歸預(yù)測(cè)模型的預(yù)測(cè)函數(shù)為式(9):
(9)
支持向量回歸預(yù)測(cè)模型中懲罰因子C、高斯核帶寬σ與不敏感損失函數(shù)ε的取值與估計(jì)精度關(guān)系緊密。懲罰因子C的取值和能夠允許的誤差有關(guān),C值與允許誤差成反比;高斯核帶寬σ和訓(xùn)練樣本的輸入空間范圍成正比,一般情況下,高斯核帶寬σ取值相對(duì)大一些;不敏感損失函數(shù)ε和輸入量噪聲大小有關(guān),輸入量噪聲較小時(shí),不敏感損失函數(shù)ε取值相對(duì)小一些;輸入量噪聲較大時(shí),不敏感損失函數(shù)ε取值相對(duì)大一些。利用粒子群算法優(yōu)化支持向量回歸預(yù)測(cè)模型的懲罰因子C、高斯核帶寬σ與不敏感損失函數(shù)ε,將空間向量C,σ,ε當(dāng)成粒子群算法內(nèi)的一個(gè)粒子,利用算法迭代獲取最優(yōu)粒子,支持向量回歸預(yù)測(cè)模型在當(dāng)前訓(xùn)練樣本數(shù)據(jù)下的最優(yōu)參數(shù)分別是xq,C、xq,σ與xq,ε,粒子群算法優(yōu)化支持向量回歸預(yù)測(cè)模型參數(shù)的具體步驟如下。
步驟1:初始化支持向量回歸預(yù)測(cè)模型參數(shù),設(shè)置最大迭代次數(shù)是Gmax;粒子位置的限定范圍是Xmin,C,Xmax,CXmin,σ,Xmax,σXmin,ε,Xmax,ε;粒子速度的限定范圍是[-Vmax,C,Vmax,C][-Vmax,σ,Vmax,σ][-Vmax,ε,Vmax,ε];粒子種群規(guī)模是M;隨機(jī)設(shè)置粒子速度與位置,粒子q的位置是xq,C,xq,σ,xq,ε,懲罰因子C值大小是xq,C,高斯核帶寬σ值大小是xq,σ,不敏感損失函數(shù)ε值大小是xq,ε,粒子q的速度是vq,C,vq,σ,vq,ε;
步驟2:將xq,C,xq,σ,xq,ε當(dāng)成參數(shù)訓(xùn)練支持向量回歸預(yù)測(cè)模型,交叉驗(yàn)證支持向量回歸預(yù)測(cè)模型估計(jì)精度當(dāng)成適應(yīng)度值,假設(shè)待估計(jì)的樣本數(shù)是t,利用均方誤差衡量支持向量回歸預(yù)測(cè)模型內(nèi)參數(shù)的適應(yīng)度,均方差MSE的計(jì)算式如式(10),
(10)
步驟3:粒子q個(gè)體通過(guò)的最佳位置是pbestq=pq,C,pq,σ,pq,ε,記錄粒子q的MSE值最小的位置信息是pbestq;
步驟4:種群通過(guò)的最佳位置是gbest=gC,gσ,gε,記錄群體全部粒子在迭代時(shí)的最小MSE值相應(yīng)的位置信息是gbest;
步驟5:假設(shè)粒子位置與速度均大于設(shè)定區(qū)間,那么選擇邊界值限制粒子速度與位置,粒子位置xq與速度vq的更新式如式(11)、式(12),
(11)
(12)
式中,γ為迭代次數(shù),ω為慣性因子,c1與c2為學(xué)習(xí)因子,r1與r2為加速常數(shù)。
步驟6:如果迭代次數(shù)γ 以某體育學(xué)校的運(yùn)動(dòng)員為實(shí)驗(yàn)對(duì)象,隨機(jī)選取10組1500 m自由泳運(yùn)動(dòng)員作為研究對(duì)象,每組10人,利用本文方法對(duì)這10組游泳運(yùn)動(dòng)員成績(jī)實(shí)施估計(jì),估計(jì)結(jié)果如圖1所示。根據(jù)圖1可知,本文方法能夠有效估計(jì)出游泳運(yùn)動(dòng)員的成績(jī),且估計(jì)值與實(shí)際值非常接近。實(shí)驗(yàn)證明:本文方法能夠精準(zhǔn)估計(jì)運(yùn)動(dòng)員成績(jī),具有較高精度的運(yùn)動(dòng)員成績(jī)估計(jì)結(jié)果。 圖1 10組運(yùn)動(dòng)員游泳成績(jī)估計(jì)結(jié)果 在該校內(nèi)隨機(jī)選取10種類(lèi)型運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員,驗(yàn)證本文方法的通用性,利用本文方法對(duì)這10種運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員成績(jī)實(shí)施估計(jì),并與實(shí)際值對(duì)比,10種運(yùn)動(dòng)項(xiàng)目的估計(jì)精度如圖2所示。根據(jù)圖2可知,針對(duì)不同類(lèi)型的運(yùn)動(dòng)項(xiàng)目,本文方法均能準(zhǔn)確估計(jì)運(yùn)動(dòng)員的成績(jī),估計(jì)精度基本維持在96%以上。實(shí)驗(yàn)證明:本文方法具有很好的通用性,且估計(jì)精度高。 圖2 10種運(yùn)動(dòng)項(xiàng)目成績(jī)的估計(jì)精度 利用本文方法與方法1、方法2同時(shí)對(duì)上述10種類(lèi)型的運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員成績(jī)實(shí)施估計(jì),測(cè)試3種方法的估計(jì)精度與估計(jì)效率,其中方法1為融合知識(shí)圖譜和協(xié)同過(guò)濾的學(xué)生成績(jī)預(yù)測(cè)方法(文獻(xiàn)[5]),方法2為基于雙路注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)模型(文獻(xiàn)[6]),每種運(yùn)動(dòng)項(xiàng)目選取100名運(yùn)動(dòng)員的成績(jī)進(jìn)行測(cè)試,取其平均值,提升實(shí)驗(yàn)的可信度,3種方法對(duì)10種類(lèi)型運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員成績(jī)估計(jì)精度與估計(jì)效率如圖3、圖4所示。根據(jù)圖3可知,針對(duì)不同類(lèi)型運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員,本文方法的運(yùn)動(dòng)員成績(jī)估計(jì)精度明顯高于其余2種方法,本文方法的平均估計(jì)精度是97.8%,方法1的平均估計(jì)精度是81.9%,方法2的平均估計(jì)精度是86.6%。實(shí)驗(yàn)證明:估計(jì)不同類(lèi)型運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員成績(jī)時(shí),本文方法的估計(jì)精度最高,明顯降低運(yùn)動(dòng)員成績(jī)估計(jì)誤差,同時(shí)增加估計(jì)結(jié)果可信度。根據(jù)圖4可知,針對(duì)不同類(lèi)型運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員,本文方法的運(yùn)動(dòng)員成績(jī)估計(jì)時(shí)間明顯低于其余2種方法,本文方法的估計(jì)時(shí)間始終維持在20 s以?xún)?nèi),變化幅度較小,其余2種方法的估計(jì)時(shí)間變化幅度較大,穩(wěn)定性較差。實(shí)驗(yàn)證明:本文方法的估計(jì)時(shí)間最少,運(yùn)動(dòng)員成績(jī)估計(jì)效率更高。 圖3 3種方法的估計(jì)精度 圖4 3種方法的估計(jì)效率 以1500 m游泳運(yùn)動(dòng)員成績(jī)?yōu)槔?,測(cè)試3種方法在不同運(yùn)動(dòng)員數(shù)量時(shí),成績(jī)估計(jì)的準(zhǔn)確性,通過(guò)誤差評(píng)價(jià)指標(biāo)平均絕對(duì)百分誤差(Mean Absolute Percentage Error,MAPE)對(duì)3種方法的性能實(shí)施準(zhǔn)確性評(píng)估,在不同運(yùn)動(dòng)員數(shù)量時(shí),3種方法的誤差評(píng)價(jià)指標(biāo)測(cè)試結(jié)果如圖5所示。根據(jù)圖5可知,隨著運(yùn)動(dòng)員數(shù)量的不斷增加,3種方法的MAPE值均隨之提升,一般情況下,MAPE值低于10,說(shuō)明估計(jì)方法的估計(jì)精度較高,在不同運(yùn)動(dòng)員數(shù)量時(shí),本文方法的MAPE值均明顯低于其余兩種方法,MAPE值始終保持在10以?xún)?nèi),其余2種方法只有在運(yùn)動(dòng)員數(shù)量低于200人時(shí),MAPE值低于10;當(dāng)運(yùn)動(dòng)員數(shù)量超過(guò)200人時(shí),2種方法的MAPE值均大于10。實(shí)驗(yàn)證明:在不同運(yùn)動(dòng)員數(shù)量時(shí),本文方法的MAPE值最低,說(shuō)明本文方法的估計(jì)值與實(shí)際值最為接近,估計(jì)精度更高,估計(jì)質(zhì)量高。 圖5 3種方法的誤差評(píng)價(jià)指標(biāo)對(duì)比圖 本文方法實(shí)現(xiàn)高質(zhì)量的運(yùn)動(dòng)員成績(jī)預(yù)測(cè),對(duì)于運(yùn)動(dòng)員的訓(xùn)練規(guī)劃非常重要,精準(zhǔn)估計(jì)運(yùn)動(dòng)員成績(jī),能夠了解其所需要的訓(xùn)練規(guī)劃,利于提高運(yùn)動(dòng)員成績(jī),使其更加優(yōu)秀;因此研究基于歷史數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)員成績(jī)估計(jì)方法,提升運(yùn)動(dòng)員成績(jī)估計(jì)精度與估計(jì)效率,為運(yùn)動(dòng)員訓(xùn)練規(guī)劃提供更有價(jià)值的信息,為國(guó)家培養(yǎng)更為優(yōu)秀的運(yùn)動(dòng)員。2 實(shí)驗(yàn)結(jié)果分析
3 總結(jié)