喬克滿汪德秀
(1巢湖學(xué)院體育系,安徽巢湖238000)
(2巢湖市體育局業(yè)余體校,安徽巢湖238000)
數(shù)據(jù)挖掘技術(shù)在體育領(lǐng)域的研究現(xiàn)狀與應(yīng)用前景
喬克滿1汪德秀2
(1巢湖學(xué)院體育系,安徽巢湖238000)
(2巢湖市體育局業(yè)余體校,安徽巢湖238000)
通過(guò)文獻(xiàn)研究的方法整理分析了相關(guān)文獻(xiàn)資料,探討了國(guó)內(nèi)外體育數(shù)據(jù)挖掘的發(fā)展前沿,展望了數(shù)據(jù)挖掘技術(shù)在體育領(lǐng)域的應(yīng)用前景,認(rèn)為數(shù)據(jù)挖掘技術(shù)對(duì)我國(guó)體育領(lǐng)域的理論研究和實(shí)踐工作具有廣泛意義。
數(shù)據(jù)挖掘;體育;研究現(xiàn)狀;前景
數(shù)據(jù)采集和存儲(chǔ)技術(shù)的進(jìn)步導(dǎo)致了數(shù)據(jù)規(guī)模的日益增加,這些數(shù)據(jù)涉及社會(huì)生產(chǎn)及生活的各個(gè)領(lǐng)域,包括從超市業(yè)務(wù)數(shù)據(jù)、信用卡使用記錄、電話呼叫記錄等普通應(yīng)用領(lǐng)域到天體圖像、分子數(shù)據(jù)等特殊應(yīng)用領(lǐng)域。近年來(lái),體育領(lǐng)域的數(shù)據(jù)亦在日益激增,如:各式各樣的國(guó)民體質(zhì)監(jiān)測(cè)數(shù)據(jù)、競(jìng)技體育比賽數(shù)據(jù)等。數(shù)據(jù)是一種寶貴的信息資源,但這種資源同礦藏一樣,只有通過(guò)、管理、分析、挖掘、提煉等操作,才能使?jié)撛诘馁Y源變成可用的財(cái)富。而數(shù)據(jù)挖掘技術(shù)的目的正是為了解決此類(lèi)問(wèn)題。
數(shù)據(jù)挖掘是發(fā)掘大量數(shù)據(jù)中尚未被發(fā)現(xiàn)的知識(shí),是從系統(tǒng)內(nèi)部智能的自動(dòng)獲取知識(shí)的過(guò)程,是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開(kāi)采、結(jié)果表達(dá)和解釋的系統(tǒng)工程。Usama Fayyad博士于1996年提出了學(xué)術(shù)界較為廣泛認(rèn)可的數(shù)據(jù)挖掘定義:“數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程”[1]。隨后十多年中,數(shù)據(jù)挖掘被眾多領(lǐng)域的研究人員看作是數(shù)據(jù)庫(kù)系統(tǒng)和機(jī)器學(xué)習(xí)方面的一個(gè)重要研究課題。許多產(chǎn)業(yè)界人士將其看作是一個(gè)能帶來(lái)巨大回報(bào)的重要領(lǐng)域,從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)出來(lái)的規(guī)則和知識(shí)可以用在信息管理、查詢響應(yīng)、決策支持、過(guò)程控制等許多方面。
目前,數(shù)據(jù)挖掘的重要性已經(jīng)被商業(yè)應(yīng)用、電子商務(wù)、犯罪研究、生物醫(yī)療、Internet等領(lǐng)域認(rèn)可。比如,商人們聘請(qǐng)數(shù)據(jù)挖掘人員幫他們發(fā)現(xiàn)顧客購(gòu)買(mǎi)模式,Amazon.com、Taobao.com利用購(gòu)買(mǎi)的歷史記錄把相應(yīng)的產(chǎn)品推薦給購(gòu)物者。數(shù)據(jù)挖掘在科學(xué)研究方面也有著廣泛的應(yīng)用,主要有生物研究、生物醫(yī)學(xué)研究、氣象研究、水文地質(zhì)研究和考古等。朱玉全等歸納了比較活躍的數(shù)據(jù)挖掘應(yīng)用方向,包括:市場(chǎng)營(yíng)銷(xiāo),銀行業(yè),生產(chǎn)、銷(xiāo)售和零售業(yè),制造業(yè),經(jīng)紀(jì)業(yè)和安全交易,保險(xiǎn)業(yè),醫(yī)藥,交通,電信,公司經(jīng)營(yíng)管理等。[2]
在認(rèn)識(shí)到數(shù)據(jù)挖掘的功能后,國(guó)外已經(jīng)將其應(yīng)用于眾多體育領(lǐng)域中。如,從競(jìng)技體育歷史統(tǒng)計(jì)數(shù)據(jù)挖掘得出許多重要的信息,并據(jù)此提出了一系列的研究思路、方法和公式,開(kāi)發(fā)了專業(yè)的體育數(shù)據(jù)挖掘工具。許多體育組織都聘請(qǐng)專門(mén)的數(shù)據(jù)挖掘人員來(lái)預(yù)測(cè)球隊(duì)未來(lái)前景、球員天賦、為球隊(duì)的教練及經(jīng)理們引進(jìn)和選擇球員提供決策依據(jù)。
2.1.1 全美職業(yè)棒球大聯(lián)盟(MLB)中的應(yīng)用
當(dāng)前數(shù)據(jù)挖掘在美國(guó)職業(yè)棒球聯(lián)盟中使用尤為出色。棒球領(lǐng)域內(nèi)最先從事數(shù)據(jù)統(tǒng)計(jì)分析的先驅(qū)之一Bill James提出了新的分析方法“SABERmetrics”[3]——源于美國(guó)棒球研究協(xié)會(huì)(Society of American Baseball Research)的首字母——他用精確和科學(xué)的數(shù)據(jù)挖掘相關(guān)技術(shù)去搜集和處理棒球的統(tǒng)計(jì)數(shù)據(jù),并提出了評(píng)價(jià)每位球員在比賽獲勝中貢獻(xiàn)量的一種新方法“Win Share”,用于評(píng)價(jià)球員對(duì)于球隊(duì)的價(jià)值。
棒球領(lǐng)域的專家們通過(guò)分析棒球歷史數(shù)據(jù)并結(jié)合Albert概率理論,提出并修正了廣泛用于挖掘擊球手和投手表現(xiàn)的加權(quán)線性預(yù)測(cè)評(píng)分公式。預(yù)測(cè)評(píng)分(RUNS)等于:
式中1B(2B、3B)表示一(二、三)壘打,HR為本壘打,BB四壞保送,HBP觸身球,SB被盜壘,CS盜壘失敗,(AB-H)為(打數(shù)-安打),OutsOnbase表示上壘被截殺次數(shù)。
另一個(gè)被棒球領(lǐng)域廣泛用于評(píng)價(jià)投手能力的公式是由Thorns和Palmer提出來(lái)的。
式中Pitching Runs是反映投手能力的特征量,IP(Innings Pitched)為投球局?jǐn)?shù),LeagueERA為聯(lián)盟平均自責(zé)分率,ER(Earned Run)為投手的自責(zé)分。結(jié)果大于0說(shuō)明這個(gè)投手好于一般投手,結(jié)果小于0顯示該投手較差。
2.1.2 美國(guó)職業(yè)籃球聯(lián)盟(NBA)中的應(yīng)用
NBA中與SABERmetrics形似的數(shù)據(jù)統(tǒng)計(jì)分析變革被稱為ABPRmetrics,命名源于職業(yè)籃球研究協(xié)會(huì)(theAssociationofProfessional Basketball Research,ABPR)。ABPRmetrics是以籃球的團(tuán)隊(duì)運(yùn)動(dòng)理念為衡量準(zhǔn)則的。這一新的數(shù)據(jù)挖掘分析方法證明了某些擁有優(yōu)秀統(tǒng)計(jì)數(shù)據(jù)球員卻給他們的各自球隊(duì)的表現(xiàn)帶來(lái)了消極影響。
82games.com網(wǎng)站通過(guò)數(shù)據(jù)挖掘在原始統(tǒng)計(jì)數(shù)據(jù)中查找各種模式,對(duì)籃球運(yùn)動(dòng)員的價(jià)值和貢獻(xiàn)以及球隊(duì)的表現(xiàn)和效率,提出了許多新奇見(jiàn)解。其中之一就是將控球進(jìn)攻的半場(chǎng)劃分為16個(gè)不同的投籃區(qū)域來(lái)觀察和分析籃球比賽中的投籃。如圖1(來(lái)源[4])所示。這種類(lèi)型的分析價(jià)值在于能看出球員在哪些區(qū)域投籃最好,適用于教練們?cè)谶M(jìn)攻中如何最好的安排隊(duì)員。相反的,如果知道對(duì)手球員在哪些區(qū)域投籃最差,教練就能安排適合的防守策略來(lái)迫使對(duì)手球員在最不利的區(qū)域投籃。
圖1 進(jìn)攻半場(chǎng)的投籃區(qū)域
82Games.com的數(shù)據(jù)分析專家們還提出了衡量球員關(guān)鍵時(shí)段效率的方法。他們定義“關(guān)鍵時(shí)段”為比賽分差不超過(guò)5分的第4節(jié)最后5分鐘和整個(gè)加時(shí)賽。
籃球數(shù)據(jù)挖掘?qū)<襃ohn Hollinger,提出了球員效率值(Player Efficiency Rating,PER)的概念,用于評(píng)價(jià)球員每分鐘的比賽效率[5]。這一評(píng)價(jià)方法綜合考慮了球員比賽中的積極貢獻(xiàn)和消極影響。Dan Rosenbaum綜合考慮其他場(chǎng)上球員(包括對(duì)手和隊(duì)友)、主客場(chǎng)等多方面因素,根據(jù)球員上場(chǎng)與不上場(chǎng)時(shí)球隊(duì)效率的比較,提出并修正了用于評(píng)價(jià)球員對(duì)于球隊(duì)價(jià)值的綜合正/負(fù)效率值[6]。
2.1.3 全美橄欖球聯(lián)盟(NFL)中的應(yīng)用
《職業(yè)橄欖球計(jì)劃》主編Schatz通過(guò)對(duì)橄欖球的數(shù)據(jù)挖掘分析,提出了DVOA方程(the Defense-adjusted Value Over Average formula)。[7]這個(gè)方程衡量特定位置的進(jìn)攻球員的成功率與聯(lián)盟平均值的關(guān)系。全隊(duì)DVOA值可以用于衡量整個(gè)球隊(duì)在進(jìn)攻、防守以及某些特別組的效率。
Jay Coleman和Allen Lynch通過(guò)歷史數(shù)據(jù)的挖掘分析,提出了用于詳細(xì)預(yù)測(cè)年度NCAA(全美大學(xué)生體育協(xié)會(huì))賽事的公式Dance Card和Score Card。這兩個(gè)公式成功預(yù)測(cè)NCAA賽事獲勝者的準(zhǔn)確率分別為94%和75%[8]。
除了美國(guó)三大體育聯(lián)盟體育數(shù)據(jù)挖掘的成功應(yīng)用外,其它一些國(guó)家和體育相關(guān)組織也正在建設(shè)體育數(shù)據(jù)挖掘的系統(tǒng)工程。如歐洲足球產(chǎn)業(yè)領(lǐng)域中,許多知名足球俱樂(lè)部一直非常重視體育數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),相關(guān)的體育數(shù)據(jù)挖掘理論與實(shí)踐研究為足球產(chǎn)業(yè)的發(fā)展帶來(lái)了巨大的經(jīng)濟(jì)效益。
2.1.4 澳大利亞體育學(xué)院數(shù)據(jù)分析的兩項(xiàng)革新
澳大利亞體育學(xué)院(the Australian Institute of Sport,AIS)為了使與體育運(yùn)動(dòng)有關(guān)的多種豐富的體育數(shù)據(jù)信息得到最優(yōu)化應(yīng)用,提出了“兩項(xiàng)革新”。[9]第一項(xiàng)革新是建立用于存儲(chǔ)多種視頻、音頻和數(shù)據(jù)文件的數(shù)字化知識(shí)倉(cāng)庫(kù),這一知識(shí)倉(cāng)庫(kù)集中規(guī)范化處理各種數(shù)據(jù),使得各種不同的體育軟件能夠訪問(wèn)需要的信息;第二項(xiàng)革新是力圖用數(shù)據(jù)挖掘的技術(shù)發(fā)現(xiàn)那些可能隱藏在數(shù)據(jù)庫(kù)海量數(shù)據(jù)中的新知識(shí)。
2.1.5 體育數(shù)據(jù)挖掘工具
許多商業(yè)產(chǎn)品包含的數(shù)據(jù)挖掘功能可以用作體育領(lǐng)域的數(shù)據(jù)挖掘工具,如SAS、SPSS、SQL等。隨著大多數(shù)體育組織和機(jī)構(gòu)對(duì)數(shù)據(jù)挖掘應(yīng)用感興趣,以及數(shù)據(jù)挖掘?qū)ζ渌袠I(yè)帶來(lái)的效益越來(lái)越顯著,使得更多的第三方公司為獲取商業(yè)利潤(rùn)而專門(mén)開(kāi)發(fā)和設(shè)計(jì)應(yīng)用于體育數(shù)據(jù)分析的數(shù)據(jù)挖掘工具。以下是美國(guó)三大體育聯(lián)盟應(yīng)用較為廣泛的三款體育數(shù)據(jù)挖掘工具。
Advanced Scout(AS)是IBM公司開(kāi)發(fā)的一款體育數(shù)據(jù)挖掘軟件。90年代中期起,NBA球隊(duì)教練就借助Advanced Scout來(lái)發(fā)現(xiàn)隱藏在比賽統(tǒng)計(jì)數(shù)據(jù)里的重要信息。該軟件有兩種數(shù)據(jù):一種是結(jié)構(gòu)性的,即比賽統(tǒng)計(jì)數(shù)據(jù);另一種是非結(jié)構(gòu)性的,即NBA比賽錄像帶上的多媒體資料。教練使用該軟件可以了解到即將比賽的對(duì)手特點(diǎn)以及預(yù)測(cè)比賽中出現(xiàn)的狀況,從而為比賽的決策提供幫助。
Digital Scout是非常受美國(guó)職業(yè)棒球和NBA歡迎的體育數(shù)據(jù)挖掘軟件,可以應(yīng)用到棒球、籃球、橄欖球及其它體育運(yùn)動(dòng)中。該軟件可以方便地收集數(shù)據(jù)、統(tǒng)計(jì)分析,并得出分析報(bào)告。比如,棒球分析報(bào)告包括擊球隊(duì)員擊中和投手投中的數(shù)據(jù)統(tǒng)計(jì)圖表,而籃球分析報(bào)告包括球員以及整個(gè)球隊(duì)投籃統(tǒng)計(jì)圖表等。
Inside-Edge是另一款頗受棒球領(lǐng)域歡迎的數(shù)據(jù)挖掘工具。棒球世界系列賽(美國(guó)職業(yè)棒球聯(lián)盟總決賽)連續(xù)六次使用Inside-Edge產(chǎn)品。Inside-Edge給客戶提供的報(bào)告包括擊球隊(duì)員和投球隊(duì)員的具體數(shù)據(jù),包括運(yùn)動(dòng)員力量、弱勢(shì)、傾向及習(xí)慣。在遇到特殊對(duì)手時(shí),經(jīng)理或教練可以借助分析報(bào)告做出決策。隊(duì)員自己也可以根據(jù)這些分析報(bào)告更好地了解自己,知道怎樣改善自身的不足。
已有不少學(xué)者提出,面向我國(guó)體育領(lǐng)域日益積累的大量數(shù)據(jù),利用成熟的數(shù)據(jù)挖掘工具,根據(jù)數(shù)據(jù)挖掘的基本步驟,是能夠?qū)崿F(xiàn)對(duì)體育數(shù)據(jù)的挖掘。但由于我國(guó)體育數(shù)據(jù)采集、體育數(shù)據(jù)庫(kù)建設(shè)和管理不完善、體育數(shù)據(jù)挖掘工具開(kāi)發(fā)不力等方面的問(wèn)題,在體育界的應(yīng)用尚處于起步階段,大多為小規(guī)模樣本數(shù)據(jù)的探索性研究。
國(guó)內(nèi)學(xué)者最先關(guān)注的是體育統(tǒng)計(jì)與數(shù)據(jù)挖掘的區(qū)別、聯(lián)系與融合,他們研究了數(shù)據(jù)挖掘?qū)ΜF(xiàn)代統(tǒng)計(jì)學(xué)發(fā)展的影響,數(shù)據(jù)挖掘在體育統(tǒng)計(jì)中的應(yīng)用等,認(rèn)為數(shù)據(jù)挖掘是一種重要的新思想、新理念、新方法,一種可以挖掘“寶藏”的金鏟子。姜達(dá)維則認(rèn)為“數(shù)據(jù)挖掘是一個(gè)實(shí)踐性、目的性很強(qiáng)的數(shù)據(jù)分析技術(shù)門(mén)類(lèi),它充分利用數(shù)據(jù)資料,運(yùn)用可利用的現(xiàn)有技術(shù)手段提取知識(shí)和信息,為決策服務(wù),遠(yuǎn)遠(yuǎn)超出傳統(tǒng)統(tǒng)計(jì)方法的服務(wù)領(lǐng)域”。[10]
體能、技戰(zhàn)術(shù)等數(shù)據(jù)資源的挖掘研究,為提高運(yùn)動(dòng)員競(jìng)技水平提供了參考。戴敏、黃亞樓通過(guò)挖掘體能測(cè)試項(xiàng)目之間的關(guān)聯(lián)關(guān)系,解決體能測(cè)試指標(biāo)的優(yōu)化問(wèn)題;同時(shí),運(yùn)用數(shù)據(jù)挖掘的原理,將運(yùn)動(dòng)員體能狀態(tài)評(píng)價(jià)與預(yù)測(cè)問(wèn)題轉(zhuǎn)換為分類(lèi)挖掘問(wèn)題,設(shè)計(jì)了一個(gè)包括輸入層、隱含層、輸出層的模型,用于對(duì)網(wǎng)球運(yùn)動(dòng)員體能狀態(tài)進(jìn)行評(píng)價(jià)。[11]高洪歌從數(shù)據(jù)挖掘技術(shù)入手,分別介紹了關(guān)聯(lián)規(guī)則分析、聚類(lèi)分析和基于馬爾科夫過(guò)程的數(shù)據(jù)挖掘算法在乒乓球比賽技戰(zhàn)術(shù)分析中的應(yīng)用方法和實(shí)現(xiàn)過(guò)程[12]。
近年來(lái),面向高等院校的體育數(shù)據(jù)挖掘研究也開(kāi)始活躍起來(lái)。如李慧玲討論和分析了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在高校體育數(shù)據(jù)分析的應(yīng)用,包括體育課程考核數(shù)據(jù)分析的應(yīng)用、體質(zhì)健康數(shù)據(jù)分析的應(yīng)用、運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)分析的應(yīng)用[13]。周興斌等采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)構(gòu)建了大學(xué)生體育訓(xùn)練輔助決策支持系統(tǒng):基于大學(xué)生的體育成績(jī)及身體檢查表等數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘技術(shù)產(chǎn)生新的知識(shí)規(guī)則來(lái)充實(shí)知識(shí)庫(kù),根據(jù)用戶輸入選擇相應(yīng)的模型并結(jié)合知識(shí)庫(kù)中的規(guī)則來(lái)逐步產(chǎn)生一套合理的體育運(yùn)動(dòng)訓(xùn)練方案[14]。
理論上講,數(shù)據(jù)挖掘可以在任何類(lèi)型的信息存儲(chǔ)上進(jìn)行。這包括關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù)、對(duì)象—關(guān)系數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)等。體育領(lǐng)域的各項(xiàng)科研實(shí)踐產(chǎn)生了大量存儲(chǔ)形式各異的數(shù)據(jù),但由于數(shù)據(jù)挖掘自身的優(yōu)勢(shì),使得數(shù)據(jù)挖掘技術(shù)的應(yīng)用具有與生俱來(lái)適應(yīng)性。這項(xiàng)嶄新的技術(shù)可提高體育領(lǐng)域的科技含量,符合我國(guó)從體育大國(guó)向體育強(qiáng)國(guó)轉(zhuǎn)變的體育國(guó)策。
我國(guó)政府對(duì)人民大眾健康和增強(qiáng)體質(zhì)的重視,使得體質(zhì)研究成為目前體育科研的熱點(diǎn)之一。體育相關(guān)理論知識(shí)結(jié)合數(shù)據(jù)挖掘技術(shù),對(duì)日益增加的體質(zhì)數(shù)據(jù)進(jìn)行分析,能較為容易的提取海量體質(zhì)數(shù)據(jù)背后隱含的、人們事先不知道的,但又是潛在有用的信息和知識(shí)。如:根據(jù)體質(zhì)數(shù)據(jù)和體育健身項(xiàng)目方面的知識(shí),挖掘出不同健身項(xiàng)目和國(guó)民體質(zhì)健康之間的關(guān)聯(lián),為全民健身項(xiàng)目?jī)?yōu)化服務(wù);根據(jù)積累和不斷收集的數(shù)據(jù),結(jié)合體質(zhì)數(shù)據(jù)和營(yíng)養(yǎng)學(xué)方面的知識(shí),可以挖掘造成不同地區(qū)體質(zhì)好或差的營(yíng)養(yǎng)方面的原因;根據(jù)體質(zhì)數(shù)據(jù)和醫(yī)學(xué)方面的知識(shí),能夠挖掘出人們的健康狀況,甚至分析出導(dǎo)致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等方面提供有力的指導(dǎo)。
數(shù)據(jù)挖掘技術(shù)本身正是在產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展背景下產(chǎn)生的,體育產(chǎn)業(yè)作為產(chǎn)業(yè)經(jīng)濟(jì)的一部分,其應(yīng)用數(shù)據(jù)挖掘技術(shù)的可行性是毋庸置疑的。以體育銷(xiāo)售為例,通過(guò)歷史銷(xiāo)售數(shù)據(jù)挖掘分析出流失客戶的共同特征,可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。這樣,可以一定程度地提高體育銷(xiāo)售的效益。如同數(shù)據(jù)挖掘技術(shù)為其它產(chǎn)業(yè)經(jīng)濟(jì)帶來(lái)效益一樣,必將可以為我國(guó)體育產(chǎn)業(yè)創(chuàng)造更多的財(cái)富。
從美國(guó)三大體育聯(lián)盟數(shù)據(jù)挖掘的成功,可以看出體育數(shù)據(jù)挖掘可以為競(jìng)技體育水平提高做出積極的貢獻(xiàn)。數(shù)據(jù)挖掘技術(shù)可以為體育訓(xùn)練提供決策支持,提高競(jìng)技體育數(shù)據(jù)分析的效率,挖掘優(yōu)秀運(yùn)動(dòng)隊(duì)(員)之間潛在的規(guī)律,為競(jìng)技體育的經(jīng)營(yíng)管理、教練員的戰(zhàn)術(shù)決策等提供參考。此外,采用數(shù)據(jù)挖掘?qū)?yōu)秀運(yùn)動(dòng)員的早期體質(zhì)數(shù)據(jù)進(jìn)行分析,能夠找出它們的共同特點(diǎn),從而為競(jìng)技體育選材提供有力的依據(jù)。
數(shù)據(jù)挖掘在體育教學(xué)領(lǐng)域的研究具有一定的應(yīng)用前景,可以從體育教學(xué)管理,教學(xué)評(píng)價(jià),課程設(shè)置,教學(xué)方法,教材選擇等方面對(duì)數(shù)據(jù)挖掘在體育教育信息化過(guò)程中的應(yīng)用加以研究。如:運(yùn)用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,根據(jù)學(xué)生性別、年齡、身體形態(tài)評(píng)分及身體機(jī)能評(píng)分、身體素質(zhì)評(píng)價(jià)等級(jí)等對(duì)期末測(cè)試成績(jī)建立預(yù)測(cè)模型,從而尋找潛在知識(shí),改善體育教學(xué)效果;運(yùn)用聚類(lèi),分類(lèi)等數(shù)據(jù)挖掘技術(shù)對(duì)體育教學(xué)分組方法進(jìn)行分析,實(shí)現(xiàn)按照學(xué)生身體素質(zhì)的相似程度來(lái)進(jìn)行合理的教學(xué)分組,適應(yīng)因材施教的教學(xué)要求。
數(shù)據(jù)挖掘技術(shù)可以輔助科研工作者進(jìn)行科研選題??蒲羞x題是廣大科研工作者面臨的棘手問(wèn)題,發(fā)掘即新穎又具相當(dāng)研究?jī)r(jià)值的科研題項(xiàng),對(duì)整個(gè)科研工作具有重要意義。數(shù)據(jù)挖掘技術(shù)可以根據(jù)純數(shù)據(jù)之間的關(guān)聯(lián)性挖掘出一些潛在的、容易被忽視的規(guī)則,這些規(guī)則可以作為潛在的科研題項(xiàng)。筆者在運(yùn)用關(guān)聯(lián)規(guī)則研究體質(zhì)數(shù)據(jù)的過(guò)程中,發(fā)現(xiàn)一些規(guī)則具有一定的潛在科研價(jià)值。如:發(fā)掘出握力與平衡能力的關(guān)系;肺活量與握力間的關(guān)系;吸煙與肺活量之間的關(guān)系等等。這些僅僅是通過(guò)純數(shù)據(jù)挖掘出的一些模式,尚需進(jìn)一步的科研加以驗(yàn)證性研究。
數(shù)據(jù)挖掘技術(shù)自身的發(fā)展及其在眾多研究領(lǐng)域的成功應(yīng)用,為其在體育領(lǐng)域的發(fā)展提供了啟示。數(shù)據(jù)挖掘技術(shù)對(duì)我國(guó)體育領(lǐng)域的各項(xiàng)科研實(shí)踐工作具有廣泛的意義,但尚需廣大體育科研工作者和數(shù)據(jù)挖掘?qū)I(yè)人員的共同關(guān)注。
數(shù)據(jù)挖掘技術(shù)在體育的許多子領(lǐng)域都具有旺盛的生命力。體育領(lǐng)域積累并不斷擴(kuò)充著大量數(shù)據(jù),如何對(duì)這些數(shù)據(jù)進(jìn)行整理并采用數(shù)據(jù)挖掘的方法進(jìn)行分析,創(chuàng)造新的價(jià)值,是體育科研人員的重要任務(wù)之一。
體育數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的系統(tǒng)工程。目前市場(chǎng)上雖具有各種相對(duì)成熟的數(shù)據(jù)挖掘工具,能夠在明確定義了解決的問(wèn)題后,根據(jù)數(shù)據(jù)挖掘的基本步驟,實(shí)現(xiàn)對(duì)體育數(shù)據(jù)的挖掘。但體育領(lǐng)域自身的特殊性,使之難以避免的存在“水土不服”現(xiàn)象。因而需要在體育專業(yè)人員和數(shù)據(jù)挖掘?qū)I(yè)人員共同努力下,完成對(duì)數(shù)據(jù)挖掘工具的二次開(kāi)發(fā),提高其在體育領(lǐng)域的交互性、適應(yīng)性。
數(shù)據(jù)挖掘無(wú)法實(shí)現(xiàn)對(duì)結(jié)果的最終解析,永遠(yuǎn)不會(huì)替代有經(jīng)驗(yàn)的體育科研人員所起的作用,它只是更科學(xué)、更容易的根據(jù)純數(shù)據(jù)間的關(guān)系挖掘出一定模式的一種工具。
[1]Fayyad U,Piatetsky-Shapiro G,Smyth P.the KDD process for extracting useful knowledge from volumes of data[J]. Communications of the ACM,1996,39(11):27-34.
[2]朱玉全等.數(shù)據(jù)挖掘技術(shù)[M].南京:東南大學(xué)出版社,2006:12
[3]Albert,J.An Introduction to Sabermetrics[EB/OL].Bowling Green State University(http://www-math.bgsu.edu/~albert/ papers/saber.html),1997.
[4]Beech,R.NBA Player Shot Zones[EB/OL].82Games.com(http://www.82games.com/shotzones.htm),2005-10-08.
[5]Hollinger,J.Pro Basketball Prospectus[M].2002 Edition.Potomac Books,2002.
[6]Rosenbaum,Dan T.Measuring How NBA Players Help Their Teams Win[EB/OL].82Games.com(http://www.82games.com/ comm30.htm),2004-4-30.
[7]Schatz,A.Pro Football Prospectus:Statistics,Analysis,and Insight for the Information Age[M].2006 Edition.Workman Publishing Company,2006.
[8]Coleman,J.&A.Lynch.NCAA Men’s Basketball Tournament Score Card[EB/OL].University of Northern Florida(http:// www.unf.edu/~jcoleman/score.htm),2006.
[9]Lyons,K.Data Mining and Knowledge Discovery[J].Australian Sports Commission Journals,Ausport Volume 2,Number 4,2005.
[10]姜達(dá)維,姜一鵬.體育統(tǒng)計(jì)與數(shù)據(jù)挖掘:區(qū)別、聯(lián)系與融合[J].天津體育學(xué)院學(xué)報(bào),2005,(06):63-65.
[11]戴敏,黃亞樓.基于數(shù)據(jù)挖掘的運(yùn)動(dòng)員體能測(cè)試數(shù)據(jù)分析[J].計(jì)算機(jī)工程與應(yīng)用,2003,(09):38-40,60.
[12]高洪歌.數(shù)據(jù)挖掘技術(shù)在乒乓球比賽技戰(zhàn)術(shù)分析中的應(yīng)用研究[D].北方工業(yè)大學(xué),2006.
[13]李慧玲,林子.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在高校體育數(shù)據(jù)分析中的應(yīng)用[J].廣州體育學(xué)院學(xué)報(bào),2005,(05):126-128.
[14]遲殿委,周興斌.基于數(shù)據(jù)挖掘的體育訓(xùn)練決策支持系統(tǒng)[J].微計(jì)算機(jī)信息,2009,(12):190-192.
Abstract:Through literature study,this thesis analyzed the development of data mining from home and abroad,made a view of the developing direction of data mining,and concluded that data mining has profound importance to theory study and practical work in sports.
Key words:data mining;sports;research status;prospect
責(zé)任編輯:宏彬
STATUS AND PROSPECT OF DATA MINING IN SPORTS
QIAO Ke-man1WANG De-xiu2
(1 Dept.P.E.,Chaohu College,Chaohu Anhui 238000)
(2 Amateur School,Chaohu Bureau of sport,Chaohu Anhui 238000)
TP311
A
1672-2868(2010)03-0031-05
2010-01-20
巢湖學(xué)院自然科學(xué)資助項(xiàng)目(項(xiàng)目編號(hào):XLY-201015)。
喬克滿(1979-),男,安徽宿松人。巢湖學(xué)院體育系,館員,研究方向:體育信息統(tǒng)計(jì)、體育數(shù)據(jù)挖掘。