張欣欣, 郭 純, 郭 真, 左 鑫
(1. 海南師范大學(xué) 體育學(xué)院, ???571158; 2. 湖南大學(xué) 體育學(xué)院, 長(zhǎng)沙 410012; 3. 湖南理工學(xué)院 體育學(xué)院, 湖南 岳陽(yáng) 414006)
體育成績(jī)的建模與預(yù)測(cè),不但可以指定鍛煉計(jì)劃[1],還能夠增加鍛煉效率[2].一般來(lái)說(shuō),對(duì)體育成績(jī)的建模與預(yù)測(cè)將一定時(shí)間段內(nèi)的體育成績(jī)數(shù)據(jù)看作是時(shí)間序列數(shù)據(jù),可采用多元線性回歸對(duì)其完成非線性建模,通過(guò)計(jì)算預(yù)測(cè)參數(shù)對(duì)某個(gè)個(gè)體的體育成績(jī)進(jìn)行估計(jì)[3].為了解決傳統(tǒng)方法在體育成績(jī)預(yù)測(cè)中的缺陷,近年來(lái)快速發(fā)展的模糊理論和灰色理論成為了研究熱點(diǎn)[4],灰色預(yù)測(cè)過(guò)程可以看作是一個(gè)黑盒子,雖然對(duì)普通大眾部分不規(guī)則的體育成績(jī)預(yù)測(cè)有良好效果,但是預(yù)測(cè)結(jié)果缺乏一定的解釋性[5].此外,機(jī)器學(xué)習(xí)模型也逐漸引用至體育成績(jī)預(yù)測(cè)過(guò)程中,相比于傳統(tǒng)計(jì)算模型,機(jī)器學(xué)習(xí)模型能夠通過(guò)自組織、非線性的方式從已有體育成績(jī)數(shù)據(jù)中學(xué)習(xí)出映射關(guān)系,獲得精準(zhǔn)的成績(jī)預(yù)測(cè)結(jié)果,同時(shí)還有較強(qiáng)的解釋性[6].
目前為止,傳統(tǒng)機(jī)器學(xué)習(xí)體育成績(jī)預(yù)測(cè)方法已經(jīng)無(wú)法面對(duì)海量的大數(shù)據(jù)[7].為了解決海量數(shù)據(jù)背景下的體育成績(jī)預(yù)測(cè)問(wèn)題,本文在GM(1,1)模型和GOM模型基礎(chǔ)上提出了一種改進(jìn)的等維動(dòng)態(tài)GOM模型提取體育成績(jī)時(shí)間序列中的灰度特征,并構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)完成對(duì)體育成績(jī)時(shí)間序列的回歸與預(yù)測(cè),獲取更精確、穩(wěn)定的體育成績(jī)預(yù)測(cè).
經(jīng)典的灰度預(yù)測(cè)特征模型為GM(1,1)模型[8]和GOM模型[9],通常情況下,隨著時(shí)間序列長(zhǎng)度的增加,當(dāng)預(yù)測(cè)的時(shí)刻越遠(yuǎn)時(shí),灰度特征區(qū)間越大,相應(yīng)的預(yù)測(cè)精度也會(huì)降低.不同的預(yù)測(cè)問(wèn)題將會(huì)有不同的區(qū)間范圍選擇,為了使體育成績(jī)預(yù)測(cè)獲得最優(yōu)化的灰度特征預(yù)測(cè)區(qū)間,引入等維動(dòng)態(tài)GOM灰度特征模型進(jìn)行預(yù)測(cè)區(qū)間構(gòu)建[10],該模型的構(gòu)建步驟如下:
3) 再次將新的預(yù)測(cè)值加入到時(shí)間序列數(shù)據(jù)中,并重復(fù)步驟2),直到預(yù)測(cè)的特征能夠達(dá)到預(yù)測(cè)目標(biāo)或滿足給定的精度要求后停止.
目前為止,體育成績(jī)數(shù)據(jù)量大且體育科目分布廣泛,采用機(jī)器學(xué)習(xí)模型通常無(wú)法解決海量灰度特征分析.因此,本文引入深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)模型完成對(duì)日益增長(zhǎng)的體育成績(jī)數(shù)據(jù)及提取的灰度特征進(jìn)行識(shí)別與回歸[11].圖1給出了本文體育成績(jī)灰度特征分析的CNNs模型.
從圖1中可以看出,整體深度CNNs由5層網(wǎng)絡(luò)組成,每層網(wǎng)絡(luò)的詳細(xì)設(shè)計(jì)如下:
圖1 體育成績(jī)灰度特征分析的CNNs模型Fig.1 CNNs model for analysis of gray scale features of sport performance
第一層(L1):輸入層輸入的GOM主變量樣本大小為[28×60].
第二層(C2):第一個(gè)卷積層的作用是實(shí)現(xiàn)縱向的空間濾波用于提取體育特征的灰度空間特征.空域特征的卷積核大小為[28×1],卷積輸出的特征圖大小為[1×60],卷積核采用向量卷積方式.
第三層(C3):第二個(gè)卷積層的作用是實(shí)現(xiàn)橫向的時(shí)間域?yàn)V波用于體育成績(jī)的時(shí)域特征,使用了5組橫向?yàn)V波器,產(chǎn)生40個(gè)空域上的特征圖.
第四層(F4):第一個(gè)全連接層用于將兩層卷積產(chǎn)生的40個(gè)特征圖進(jìn)行合并,由于一共產(chǎn)生了240個(gè)輸出結(jié)果,用100個(gè)神經(jīng)元作為過(guò)渡,將產(chǎn)生的特征降維.
第五層(O5):第二個(gè)全連接層也是輸出層,將降維后的時(shí)域特征和灰度空間特征進(jìn)行分回歸,獲得回歸后的體育成績(jī)預(yù)測(cè)值.
在訓(xùn)練過(guò)程中,設(shè)置訓(xùn)練的最大次數(shù)為10 000次,并根據(jù)誤差產(chǎn)生的loss曲線判斷網(wǎng)絡(luò)是否收斂,作為迭代的終止標(biāo)準(zhǔn).
對(duì)于體育成績(jī)X0及其相應(yīng)的影響因子X(jué)1,X2,…,Xp,假設(shè)存在N個(gè)時(shí)刻的真實(shí)數(shù)據(jù),現(xiàn)在需要預(yù)測(cè)第n+1,n+2,…時(shí)刻的體育成績(jī)值,基于融合模型的體育成績(jī)預(yù)測(cè)算法構(gòu)建步驟如下:
1) 根據(jù)動(dòng)態(tài)影響因素模型計(jì)算出關(guān)于體育成績(jī)量的時(shí)間序列,并按照關(guān)聯(lián)順序進(jìn)行排序,假設(shè)排序后的指標(biāo)為X1,X2,…,Xp,其中,p為篩選后的指標(biāo)個(gè)數(shù).
2) 根據(jù)體育成績(jī)影響因素構(gòu)建的等維動(dòng)態(tài)GOM模型,對(duì)各個(gè)影響因子分別預(yù)測(cè)第n+1,n+2,…時(shí)刻的體育成績(jī)值,加入預(yù)測(cè)值后的影響因子向量,采用X1,X2,…,Xp來(lái)表示.
3) 根據(jù)數(shù)據(jù)特征選定出影響因素范圍[L,H],L和H均為正整數(shù),且L≥1,H不超過(guò)樣本個(gè)數(shù).
4) 設(shè)置閾值范圍Lmin,選擇前L個(gè)影響因子經(jīng)過(guò)主成分分析算法生成主成分,假設(shè)獲得的前M個(gè)主成分的得分為F1,F(xiàn)2,…,F(xiàn)m,對(duì)應(yīng)的荷載因子為μ1,μ2,…,μm.
5) 將相同年份的F1,F(xiàn)2,…,F(xiàn)m與X0的時(shí)間序列數(shù)據(jù)值歸一化至[-1,1],并劃分為訓(xùn)練集和測(cè)試集,將N個(gè)樣本劃分為n1個(gè)訓(xùn)練集樣本,n2個(gè)測(cè)試集樣本.
6) 構(gòu)造如圖1所示的深度CNNs模型.
7) 將測(cè)試集輸入至訓(xùn)練好的BP網(wǎng)絡(luò)中,計(jì)算網(wǎng)絡(luò)的預(yù)測(cè)值與真實(shí)值之間的平均相對(duì)誤差e1,其中,e1為擬合誤差.
8) 根據(jù)等維動(dòng)態(tài)GOM模型計(jì)算出各個(gè)影響因子在n-n2,n-n2+1,…,n年的預(yù)測(cè)值和相應(yīng)的荷載因子μ1,μ2,…,μm,計(jì)算出各個(gè)主成分F1,F(xiàn)2,…,F(xiàn)m對(duì)應(yīng)年份的體育成績(jī)值,并將體育成績(jī)歸一化至[-1,1],輸入至已經(jīng)訓(xùn)練好的CNNs中,計(jì)算網(wǎng)絡(luò)預(yù)測(cè)值與實(shí)際值之間的平均相對(duì)誤差e2,其中,e2為綜合誤差,包括了等維動(dòng)態(tài)GOM模型的預(yù)測(cè)誤差和CNNs的擬合誤差,作為評(píng)價(jià)算法的最終指標(biāo).
9) 將F1,F(xiàn)2,…,F(xiàn)m在n+1,n+2,…年的預(yù)測(cè)值歸一化后輸入至已訓(xùn)練好的CNNs中,再將網(wǎng)絡(luò)的輸出值進(jìn)行逆歸一化,即可獲得在n+1,n+2,…時(shí)刻體育成績(jī)的預(yù)測(cè)值.
為了驗(yàn)證本文提出算法的可行性與有效性,從網(wǎng)絡(luò)上抓取百米賽跑體育成績(jī)?yōu)檠芯磕繕?biāo),分別記錄百米賽跑每秒成績(jī)達(dá)標(biāo)的人數(shù),在12~20 s的時(shí)間段內(nèi)分別記錄體育成績(jī)達(dá)標(biāo)人數(shù).在數(shù)據(jù)采集過(guò)程中,滿足橫向平等的比較原則,且收集數(shù)據(jù)均來(lái)自我國(guó)各大賽事的網(wǎng)絡(luò)成績(jī)公布結(jié)果.
在灰度預(yù)測(cè)特征的對(duì)比實(shí)驗(yàn)中,采用網(wǎng)絡(luò)收集到的數(shù)據(jù),構(gòu)建了GM(1,1)模型,將GOM模型和等維動(dòng)態(tài)GOM模型進(jìn)行灰度預(yù)測(cè)特征對(duì)比.表1給出了12~20 s內(nèi)百米賽跑達(dá)標(biāo)人數(shù)體育成績(jī)結(jié)果.
表1 12~20 s內(nèi)百米賽跑達(dá)標(biāo)人數(shù)體育成績(jī)結(jié)果Tab.1 Sport performance results of qualified person number with completion time from 12 s to 20 s in 100-metre race
根據(jù)灰度預(yù)測(cè)特征模型的構(gòu)建過(guò)程,可以計(jì)算出
28 764,34 531,47 341)
根據(jù)GM(1,1)模型和GOM模型的構(gòu)建過(guò)程,可計(jì)算出模型中的發(fā)展系數(shù)a和常數(shù)b以及平移值c,結(jié)果如下:a=-0.165 37,b=13 823.47,c=17 947.38,由此獲得百米賽跑體育成績(jī)達(dá)標(biāo)人數(shù)的預(yù)測(cè)模型,即
GM(1,1)模型:
GOM模型:
采用這兩個(gè)模型擬合并預(yù)測(cè)20 s后百米賽跑體育成績(jī)達(dá)標(biāo)的人數(shù).表2為對(duì)比的預(yù)測(cè)結(jié)果.
表2 GM(1,1)模型與GOM模型的擬合結(jié)果比較Tab.2 Comparison of fitting results between GM(1,1) and GOM models
由表2可以看出,在GM(1,1)模型下,誤差絕大部分都大于10%,有些甚至?xí)哂?0%,擬合的精度也較小,不高于75%.結(jié)果表明,GM(1,1)模型能夠適用于體育成績(jī)達(dá)標(biāo)人數(shù)的預(yù)測(cè),但是預(yù)測(cè)的精度偏低.相反,在GOM模型下的誤差均沒(méi)有超過(guò)10%,且擬合精度高于95%,遠(yuǎn)比GM(1,1)模型高,在條件數(shù)的比較上也可以看出,GOM模型比GM(1,1)模型擁有更好的穩(wěn)定性和魯棒性.
另外,本文還比較了GM(1,1)模型、GOM模型和等維動(dòng)態(tài)GOM模型預(yù)測(cè)5、10、15、21和22 s內(nèi)的百米賽跑體育成績(jī)達(dá)標(biāo)人數(shù)預(yù)測(cè)結(jié)果.表3為三種灰度特征提取模型的對(duì)比預(yù)測(cè)結(jié)果.
表3 三種灰度特征提取模型的對(duì)比預(yù)測(cè)結(jié)果Tab.3 Comparison and prediction results by three extraction models for gray scale features
比較三個(gè)模型的預(yù)測(cè)結(jié)果可以看出,GM(1,1)模型的平均預(yù)測(cè)精度小于90%,而GOM模型和等維動(dòng)態(tài)GOM模型的預(yù)測(cè)精度均大于95%,取得了更為優(yōu)秀的體育成績(jī)達(dá)標(biāo)人數(shù)預(yù)測(cè)結(jié)果.無(wú)論是21 s內(nèi)還是22 s內(nèi)的預(yù)測(cè)結(jié)果,等維動(dòng)態(tài)GOM的預(yù)測(cè)精度均高于GOM模型.因此,經(jīng)過(guò)白化過(guò)程,可以使得灰度預(yù)測(cè)特征提取模型獲得更好的預(yù)測(cè)結(jié)果和更高的預(yù)測(cè)精度.
在體育成績(jī)的預(yù)測(cè)上,采用20 s內(nèi)的64 029個(gè)百米跑的成績(jī)完成模型訓(xùn)練.針對(duì)21 198個(gè)樣本,將其中的60%樣本作為訓(xùn)練集,20%作為驗(yàn)證集,剩下的20%作為測(cè)試集.通過(guò)圖1定義的CNNs完成對(duì)訓(xùn)練集的訓(xùn)練,并通過(guò)測(cè)試集完成對(duì)已經(jīng)訓(xùn)練好的體育成績(jī)預(yù)測(cè)模型的測(cè)試.為了可視化測(cè)試結(jié)果,圖2給出了測(cè)試難度最大的500個(gè)樣本.
圖2 測(cè)試難度最大體育成績(jī)預(yù)測(cè)結(jié)果Fig.2 Prediction results of sport performance with maximum difficulty
從圖2中的結(jié)果可以看出,經(jīng)過(guò)CNNs的預(yù)測(cè),百米跑成績(jī)預(yù)測(cè)結(jié)果與真實(shí)結(jié)果差距較小,算法精度較高,誤差變化區(qū)間比較窄,二者之間的誤差幾乎可以忽略不計(jì).該結(jié)果驗(yàn)證了CNNs對(duì)體育成績(jī)時(shí)間序列預(yù)測(cè)的可行性與有效性,預(yù)測(cè)結(jié)果良好,并且整體的預(yù)測(cè)誤差較小.
為了橫向比較本文提出的CNNs性能,采用相同數(shù)量的訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別比較本文算法與當(dāng)前主流算法.圖3為百米跑體育成績(jī)預(yù)測(cè)平均精度對(duì)比結(jié)果.從圖3中的對(duì)比結(jié)果可以看出:1)多元線性回歸對(duì)于百米跑體育成績(jī)預(yù)測(cè)精度最低,該模型不能反映普通大眾的體育成績(jī)變化特點(diǎn),構(gòu)建出的預(yù)測(cè)模型誤差較大,在大群體數(shù)據(jù)的預(yù)測(cè)中幾乎沒(méi)有應(yīng)用價(jià)值.2)遺傳算法和粒子群算法等群智能算法結(jié)果優(yōu)于多元線性回歸,但是此類算法更適合小樣本的數(shù)據(jù)分析,對(duì)于海量樣本的體育成績(jī)預(yù)測(cè)結(jié)果不理想.雖然獲得了較為不錯(cuò)的平均預(yù)測(cè)精度,但是在極個(gè)別特殊情況下的體育成績(jī)預(yù)測(cè)效果一般.3)本文提出的CNNs屬于深度學(xué)習(xí)模型,該模型在海量數(shù)據(jù)樣本中的識(shí)別能力較強(qiáng),綜合圖2、3中的結(jié)果可以看出,深度CNNs擁有海量的權(quán)重和閾值完成對(duì)特殊情況的預(yù)測(cè),因此,不論是整體預(yù)測(cè)的平均精度還是特殊極端結(jié)果的預(yù)測(cè)都獲得了良好的效果,更適合體育成績(jī)時(shí)間序列數(shù)據(jù)的預(yù)測(cè).
圖3 百米跑體育成績(jī)預(yù)測(cè)平均精度對(duì)比結(jié)果Fig.3 Comparison results of average accuracy for sport performance prediction in 100-meter race
通過(guò)改進(jìn)的等維動(dòng)態(tài)GOM模型,在體育成績(jī)達(dá)標(biāo)人數(shù)預(yù)測(cè)中取得了最優(yōu)預(yù)測(cè)結(jié)果.在體育成績(jī)預(yù)測(cè)中,本文提出的CNNs超越了傳統(tǒng)的多元線性回歸、遺傳算法和粒子群算法,不但在平均預(yù)測(cè)精度上取得了最好的效果,而且在極端數(shù)據(jù)的成績(jī)預(yù)測(cè)中也獲得了最佳的結(jié)果,預(yù)測(cè)值與真實(shí)值之間的誤差可忽略.今后的工作集中在構(gòu)建更精確的深度模型,從海量大數(shù)據(jù)中提取更精確的灰度預(yù)測(cè)特征,對(duì)體育成績(jī)和達(dá)標(biāo)人數(shù)完成更為精確的預(yù)測(cè).