華正春
摘 要: 為改善中國(guó)足球的競(jìng)技能力,提高運(yùn)動(dòng)員訓(xùn)練效果,提出基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計(jì)方法。首先采用決策樹方法對(duì)歷史足球飛行軌跡數(shù)據(jù)構(gòu)造樹形架構(gòu),并在決策樹上進(jìn)行數(shù)據(jù)特征分類,提取足球飛行速度的大小、方向等分類結(jié)果,然后利用卡爾曼濾波估計(jì)足球飛行狀態(tài),通過(guò)時(shí)序解析和碰撞測(cè)試挖掘出足球最優(yōu)飛行軌跡。實(shí)驗(yàn)結(jié)果表明,該方法估計(jì)結(jié)果與足球?qū)嶋H飛行軌跡的軌跡相似度高,可以應(yīng)用于實(shí)際中。
關(guān)鍵詞: 數(shù)據(jù)挖掘技術(shù); 最優(yōu)飛行軌跡; 決策樹; 卡爾曼濾波
中圖分類號(hào): TN911.1?34; G843 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)19?0123?03
Football optimal flight path estimation based on data mining technology
HUA Zhengchun
(Guangxi Teachers Education University, Nanning 530023, China)
Abstract: In order to improve the competitive ability of Chinese football and training effect of athletes, a football optimal flight path estimation method based on data mining technology is proposed. The decision?making tree method is used to construct the history football flight path data for the tree?form architecture. The data characteristics are classified on decision?making tree to extract the classification results such as the magnitude and direction of football flight speed. The Kalman filtering is adopted to estimate the football flight state, by which the football optimal flight path is mined by means of temporal analysis and intersection test. The experimental results indicate that the estimation result of the proposed method has high path similarity with the practical football flight path, and can be applied to the practical application.
Keywords: data mining technology; optimal flight path; decision?making tree; Kalman filtering
0 引 言
足球是中國(guó)體育競(jìng)技業(yè)中綜合實(shí)力比較薄弱的一個(gè)項(xiàng)目,在歷屆足球聯(lián)賽中,中國(guó)足球在戰(zhàn)術(shù)、防守、進(jìn)攻上都遠(yuǎn)落后于強(qiáng)隊(duì),運(yùn)動(dòng)員往往不能對(duì)傳球、接球、截球等操作做出正確判斷,從而錯(cuò)失得分良機(jī)。
近年來(lái),數(shù)據(jù)挖掘技術(shù)不斷成熟,應(yīng)用軟件、開發(fā)工具為這一技術(shù)帶來(lái)了新的知識(shí)獲取方法,如決策樹、遺傳算法、MBR(Memory?Based Reasoning,記憶基礎(chǔ)推理)和神經(jīng)網(wǎng)絡(luò)等[1]。隨著數(shù)據(jù)研究領(lǐng)域的不斷拓寬,體育競(jìng)技業(yè)也進(jìn)行了一些數(shù)據(jù)研究工作,但有效的科研成果非常少。人為估計(jì)足球飛行軌跡不是在短時(shí)間內(nèi)就能擁有的能力,如果能夠借助數(shù)據(jù)挖掘技術(shù)分析歷屆足球聯(lián)賽球員的個(gè)人行為,獲取隱含在行為之內(nèi)的因果聯(lián)系,就可以縮短這種能力的練就時(shí)間,實(shí)施智能化球隊(duì)訓(xùn)練與管理,提高球員個(gè)人素質(zhì)。所以,提出基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計(jì)方法。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是指在龐大且雜亂的數(shù)據(jù)體系中,使用特殊手段發(fā)現(xiàn)深度埋藏在數(shù)據(jù)體系內(nèi)部的關(guān)鍵知識(shí)[2]。數(shù)據(jù)挖掘技術(shù)的基本使命如圖1所示,包括分類、聚類解析、關(guān)聯(lián)、時(shí)序解析、估計(jì)和誤差解析,這六項(xiàng)使命可并行使用,也可相互關(guān)聯(lián)使用。
分類作為最根本的數(shù)據(jù)挖掘使命,其原理是按照事先規(guī)劃好的特征類別將數(shù)據(jù)樣本訓(xùn)練好,最后完成數(shù)據(jù)特征的分門別類,以構(gòu)造特征模型用于數(shù)據(jù)驗(yàn)證。
聚類解析的鼻祖是分類,是從分類使命中衍生出來(lái)的根據(jù)數(shù)據(jù)相似度進(jìn)行分類的一個(gè)分支,但聚類解析的分類類別不需要進(jìn)行事先規(guī)劃,而是直接使用現(xiàn)實(shí)數(shù)據(jù)相似度進(jìn)行解釋[3],細(xì)化程度低于分類使命,能夠構(gòu)造宏觀特征模型,用來(lái)表征數(shù)據(jù)之間的特征關(guān)聯(lián)程度。
關(guān)聯(lián)使命主要對(duì)動(dòng)態(tài)數(shù)據(jù)特征的關(guān)聯(lián)規(guī)則進(jìn)行定義,在零售業(yè)、電網(wǎng)故障識(shí)別中比較常用,可以衡量現(xiàn)實(shí)數(shù)據(jù)之間的隱含規(guī)則。支持度和可信度是關(guān)聯(lián)使命的解析標(biāo)準(zhǔn),能夠增強(qiáng)數(shù)據(jù)與現(xiàn)實(shí)情況的契合程度。
時(shí)序解析與估計(jì)是數(shù)據(jù)挖掘技術(shù)中的特殊使命,都利用動(dòng)態(tài)的歷史數(shù)據(jù)特征對(duì)未來(lái)數(shù)據(jù)特征進(jìn)行解釋。誤差解析是對(duì)歷史數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)之間差別進(jìn)行比較的數(shù)據(jù)挖掘使命,可以提高數(shù)據(jù)挖掘技術(shù)的可靠性。
2 數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計(jì)
2.1 決策樹
若想要進(jìn)行有關(guān)足球最優(yōu)飛行軌跡的估計(jì)工作,決策樹將通過(guò)貪婪方法構(gòu)造樹形架構(gòu),在樹干上分配分類規(guī)律,訓(xùn)練出樹杈連接點(diǎn),令樹杈連接點(diǎn)進(jìn)行子分裂,將足球歷史飛行軌跡數(shù)據(jù)特征沿著樹杈依次向下按照時(shí)序排列[4]。在上述估計(jì)過(guò)程中,決策樹的分裂方法是非常重要的,在搜尋分類結(jié)果時(shí),每一個(gè)樹杈連接點(diǎn)都是一個(gè)交叉口,分裂結(jié)果與搜尋結(jié)果的關(guān)聯(lián)性很強(qiáng),分裂方法不同,有可能出現(xiàn)不同的搜尋結(jié)果,這在進(jìn)行足球最優(yōu)飛行軌跡估計(jì)時(shí)容易出現(xiàn)特征歧義,導(dǎo)致估計(jì)結(jié)果不合實(shí)際[5]。在貪婪方法中,ID3是一種概念學(xué)習(xí)方法,它使用信息熵進(jìn)行數(shù)據(jù)特征樣本訓(xùn)練,在樹杈連接點(diǎn)分裂之前將最大信息增益設(shè)成分裂標(biāo)準(zhǔn),以對(duì)每個(gè)樹杈連接點(diǎn)的分裂問(wèn)題做出最優(yōu)解答[6],實(shí)現(xiàn)足球歷史飛行軌跡數(shù)據(jù)特征的最優(yōu)分類。不斷更新最大信息增益,直至決策樹架構(gòu)構(gòu)造完成。
所謂信息熵就是信息期望值,ID3用最大信息增益表示足球最優(yōu)飛行軌跡估計(jì)期望,信息增益設(shè)為[P,][P]的表達(dá)式為:
[P=iK(i)lnK(i)Q(i)] (1)
式中:[K(i)]是第[i]個(gè)歷史數(shù)據(jù)特征分布概率;[Q(i)]是第[i]個(gè)歷史數(shù)據(jù)概率分布密度。
樹杈連接點(diǎn)集合表示為[D。]用式(1)計(jì)算出每個(gè)樹杈連接點(diǎn)的最大信息增益,表示為[pi,]那么樹杈連接點(diǎn)的分裂規(guī)律可以表示為:
[Info(D)=-i=1mpilog2pi] (2)
式中[log2pi]表示最大信息增益對(duì)數(shù)。
圖2是決策樹在足球最優(yōu)飛行軌跡估計(jì)中的應(yīng)用流程。如果集合[D]中只有一種特征類別[T,]那么決策樹只進(jìn)行一次最大信息增益[P]的計(jì)算,并只用一個(gè)分裂規(guī)律同時(shí)進(jìn)行一次分裂[7]。當(dāng)決策樹構(gòu)造成功后,足球歷史飛行軌跡數(shù)據(jù)的分類結(jié)果也就產(chǎn)生了,對(duì)分類結(jié)果進(jìn)行解析可實(shí)現(xiàn)最優(yōu)飛行軌跡的估計(jì)。
2.2 足球飛行軌跡數(shù)據(jù)特征的獲取
足球受到人腳部力量和萬(wàn)有引力的驅(qū)使在空中發(fā)生旋轉(zhuǎn)和移動(dòng),因?yàn)樵诿總€(gè)方向均有速度產(chǎn)生,無(wú)法匯聚求解,所以集合[D]中必須存在的數(shù)據(jù)特征是足球飛行的速度大小[v(i)]和方向[d(i)],統(tǒng)稱為飛行速率[8],用轉(zhuǎn)置矩陣[v(i),d(i)T]表示。為了方便觀察足球飛行軌跡,令:
[v(i)=d(i+1)-d(i)] (3)
[d(i+1)=d(i)+Δtv(i)] (4)
式中[Δt]是一個(gè)觀察周期。式(3),式(4)表示在一個(gè)觀察周期內(nèi)足球飛行速度是保持不變的,那么足球動(dòng)力學(xué)模型表達(dá)式可表示為:
[v(i+1)-v(i)=00-g+v(i)-kv(i)-qwzkwyqwz-kv(i)-kwx-qwy-qwx-qv(i)] (5)
式中:[g]是重力加速度;[k,q]是[K(i)]及[Q(i)]中的參數(shù);[wx,wy,wz]分別是速度在[x,y,z]軸上的分量。
2.3 足球飛行狀態(tài)估計(jì)
對(duì)決策樹的分類結(jié)果進(jìn)行足球飛行狀態(tài)估計(jì)需要使用卡爾曼濾波[9]的狀態(tài)轉(zhuǎn)移函數(shù)和觀察函數(shù),表示如下:
[X(i)=fX(i-1),u(i-1),σ(i-1)] (6)
[Y(i)=hX(i),v(i)] (7)
式中:[X(i)]是足球?qū)崟r(shí)飛行狀態(tài);[Y(i)]是實(shí)時(shí)飛行狀態(tài)的觀察值;[f[]]表示狀態(tài)轉(zhuǎn)移;[h[]]表示轉(zhuǎn)移狀態(tài)下的觀察估計(jì)值;[u]是狀態(tài)閾值;[σ]是飛行速率矩陣偏差。
由于[f[]]和[h[]]不能進(jìn)行協(xié)方差運(yùn)算,致使數(shù)據(jù)挖掘技術(shù)不能進(jìn)行誤差解析和未來(lái)足球飛行軌跡狀態(tài)估計(jì),所以引進(jìn)雅可比矩陣進(jìn)行一階偏導(dǎo)變形:
[F(i)=?f?XX0ji-1,u(i-1)] (8)
[H(i)=?h?XX0ji-1] (9)
式中,[X0ji-1]表示第[j]個(gè)周期的足球飛行狀態(tài)估計(jì)函數(shù),這個(gè)函數(shù)是不斷更新的,使用前一個(gè)周期的估計(jì)值和現(xiàn)有周期的觀察值之差作為更新信息[Pj-1i],有:
[Pj-1i=X(j-1)-Y(i)] (10)
可知第[j+1]個(gè)周期的足球飛行狀態(tài)估計(jì)函數(shù)可表示為:
[X0j+1i=X0ji-1+Pj-1i] (11)
由式(11)可知,在進(jìn)行足球飛行狀態(tài)估計(jì)時(shí),要保留所有觀察值中隱含的軌跡信息,以確保能夠在足量的飛行狀態(tài)中選擇出最優(yōu)飛行估計(jì)信息,提高所提基于數(shù)據(jù)挖掘技術(shù)(決策樹)的足球最優(yōu)飛行軌跡估計(jì)方法的準(zhǔn)確率。
2.4 足球最優(yōu)飛行軌跡估計(jì)
如圖3所示的足球最優(yōu)飛行軌跡估計(jì)流程依次通過(guò)決策樹分類、足球飛行狀態(tài)觀察與估計(jì)、時(shí)序解析和碰撞測(cè)試,最終得到最優(yōu)軌跡估計(jì)值。時(shí)序解析是指根據(jù)時(shí)間序列將足球飛行狀態(tài)估計(jì)結(jié)果中列出的經(jīng)常發(fā)生事項(xiàng)提取出來(lái)引進(jìn)時(shí)間窗,令時(shí)間窗在原有時(shí)間序列上流通,經(jīng)過(guò)訓(xùn)練挖掘隱含在數(shù)據(jù)內(nèi)部的關(guān)鍵知識(shí)點(diǎn)。
碰撞測(cè)試是在足球飛行狀態(tài)估計(jì)結(jié)果中引進(jìn)力的作用的一個(gè)綜合過(guò)程,包含萬(wàn)有引力、摩擦力、風(fēng)力、運(yùn)動(dòng)員腳部推力等。對(duì)每個(gè)關(guān)鍵知識(shí)點(diǎn)進(jìn)行碰撞測(cè)試,當(dāng)所有關(guān)鍵知識(shí)點(diǎn)均完成測(cè)試,視為到達(dá)碰撞邊緣。將足球飛行狀態(tài)估計(jì)結(jié)果[X0ji-1]中的關(guān)鍵知識(shí)點(diǎn)轉(zhuǎn)化成足球飛行速度在[x,y,z]軸上的負(fù)分量,設(shè)為轉(zhuǎn)置矩陣[(w-x,w-y,w-z)T,]那么碰撞測(cè)試之后的最優(yōu)軌跡估計(jì)結(jié)果可表示為:
[v+rx=[v-rx,w-y]b1v+ry=[v-ry,w-x]b2v+rz=b3w-zd+rx=[v-ry,w-x]b4d+ry=[v-rx,w-y]b5d+rz=b6w-z] (12)
式中:[v+r,][v-r]是碰撞速度在坐標(biāo)軸上的正、負(fù)分量;[d+r]是碰撞位移在坐標(biāo)軸上的正分量,下角標(biāo)分別對(duì)應(yīng)[x,][y,z]軸;常數(shù)參數(shù)[b1~b6]可通過(guò)關(guān)聯(lián)多組足球歷史飛行軌跡數(shù)據(jù)特征,利用最小二乘法擬合而成。
3 實(shí)驗(yàn)結(jié)果與分析
軌跡結(jié)構(gòu)是指能夠全面解釋事物內(nèi)外部特征的軌跡數(shù)據(jù)[10]。軌跡結(jié)構(gòu)相似度是解釋兩種軌跡結(jié)構(gòu)相似程度的數(shù)據(jù)指標(biāo)。足球飛行中實(shí)際速度大小和方向與其估計(jì)值的軌跡結(jié)構(gòu)相似度表示如下:
[sim(vi,v0)=13vv+vmin+vmax] (13)
[sim(di,d0)=disinθ, 0°≤θ≤90°d0, 90°<θ≤180°] (14)
式中:[vv,][vmin,vmax]分別是估計(jì)值與實(shí)際值之間平均、最小和最大速度大小的差值;[di,d0]分別是方向估計(jì)值和實(shí)際值;夾角[θ]是估計(jì)值和實(shí)際值之間的偏量。
使用本文提出的基于數(shù)據(jù)挖掘技術(shù)的足球最優(yōu)飛行軌跡估計(jì)方法在一段時(shí)長(zhǎng)為3 h的歷史足球比賽視頻上進(jìn)行最優(yōu)飛行軌跡估計(jì),實(shí)際飛行軌跡已經(jīng)給出,計(jì)算出估計(jì)值與實(shí)際值的軌跡結(jié)構(gòu)相似度,如圖4,圖5所示。從圖中能夠看出,實(shí)際值和估計(jì)值的軌跡結(jié)構(gòu)相似度非常高,基本高于0.95,特別是速度大小的相似程度一直保持在0.97以上,說(shuō)明所提方法可在實(shí)際應(yīng)用中取得好的效果。
4 結(jié) 論
數(shù)據(jù)挖掘技術(shù)在金融業(yè)、刑偵業(yè)、工業(yè)、農(nóng)業(yè)等領(lǐng)域均得到了一定應(yīng)用。本文提出一種基于數(shù)據(jù)挖掘技術(shù)(決策樹)的足球最優(yōu)飛行軌跡估計(jì)方法,目標(biāo)是提高中國(guó)足球競(jìng)技能力,令運(yùn)動(dòng)員能夠合理估計(jì)足球飛行軌跡,及時(shí)對(duì)我方與對(duì)方球員的行為規(guī)律做出正確判斷。實(shí)驗(yàn)結(jié)果表明本文方法是可靠的,具有非常高的軌跡結(jié)構(gòu)相似度。
參考文獻(xiàn)
[1] 竇昀翬.探索數(shù)據(jù)挖掘技術(shù)在甲醇價(jià)格預(yù)測(cè)模型中因素分析的應(yīng)用[J].上?;?,2015,40(9):39?42.
[2] 尚岑,王東雨,宇文姝麗.數(shù)據(jù)挖掘技術(shù)在健康數(shù)據(jù)分析中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(5):54?58.
[3] 宋園,劉乾,王燦,等.RoboCup2D日志文件數(shù)據(jù)挖掘研究及應(yīng)用[J].大慶師范學(xué)院學(xué)報(bào),2015,35(6):31?34.
[4] 閔芳,楊功廷,張昱.基于決策樹C4.5算法的足球賽事預(yù)測(cè)[J].科技和產(chǎn)業(yè),2014,14(6):94?96.
[5] 張?zhí)烊?,于天彪,趙海峰,等.數(shù)據(jù)挖掘技術(shù)在全斷面掘進(jìn)機(jī)故障診斷中的應(yīng)用[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(4):527?532.
[6] 杜春杰,劉鴻優(yōu).高水平職業(yè)足球運(yùn)動(dòng)員比賽技戰(zhàn)術(shù)表現(xiàn)特征研究:以西班牙男子足球甲級(jí)聯(lián)賽為例[J].體育學(xué)刊,2016,23(4):110?116.
[7] 傅鴻浩,張廷安.足球運(yùn)動(dòng)中的唯象理論實(shí)證研究:以國(guó)家(地區(qū))經(jīng)濟(jì)實(shí)力與運(yùn)動(dòng)成績(jī)關(guān)系為例[J].體育科學(xué),2016,36(7):79?88.
[8] 夏磊,張樂君,國(guó)林,等.節(jié)點(diǎn)相似度標(biāo)簽傳播在社會(huì)網(wǎng)絡(luò)中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(14):103?109.
[9] 秦鋒,田杰,程澤凱.基于偏最小二乘法的RoboCup傳球研究[J].計(jì)算機(jī)工程,2014,40(9):275?279.
[10] 李明,姚遠(yuǎn)耀.數(shù)據(jù)挖掘技術(shù)在物流供應(yīng)鏈合作伙伴選擇中的應(yīng)用[J].物流技術(shù),2015,34(2):152?154.