巫文佳,李云鵬 ,閻 鉦,趙 紅
網(wǎng)球運動是一項把競爭性、文化性、觀賞性和參與性有機融合在一起的體育項目[1]。隨著我國社會政治、經(jīng)濟、文化的不斷發(fā)展,特別是李娜法網(wǎng)奪冠后,國內(nèi)掀起了一股網(wǎng)球運動熱潮。在網(wǎng)球運動不斷創(chuàng)新和改革的大潮下,網(wǎng)球基礎訓練除了要研究國外優(yōu)秀選手的動作技術及相關的文化外,更要研究如何采取先進的訓練方法、手段及其科學的訓練內(nèi)容,滿足人們參與網(wǎng)球運動的需求。訓練方法要符合他們的實際情況,使他們的網(wǎng)球技能在短時間內(nèi)得到提高。我國學者田麥久[2]認為,基礎訓練是全程系統(tǒng)性多年訓練過程的第一個環(huán)節(jié),是指運動員在進行專項訓練之前,先進行一段時間系統(tǒng)、全面的身體訓練和體力訓練,同時結合基本技術、心理和智能訓練,使他們既能健康成長,又能具備基礎的體能和技能,為將來攀登運動成績高峰打下堅實基礎的教育訓練過程。在進行專項訓練之前,應安排一段時間的基礎訓練,并且要根據(jù)專項需要原則進行身體訓練。
近些年來,我國網(wǎng)球項目研究集中在網(wǎng)球項目的現(xiàn)狀與發(fā)展趨勢、網(wǎng)球運動員競技能力與專項素質(zhì)、訓練方法和訓練理論、運動損傷和疲勞、專項訓練和技術訓練等方面。由于我國網(wǎng)球運動開展得較晚,從事網(wǎng)球項目科學研究的人員較少,目前和網(wǎng)球項目基礎訓練密切相關的研究并不多。如何使網(wǎng)球基礎訓練更加科學合理,是網(wǎng)球基礎訓練面臨的新課題。
本文將數(shù)據(jù)挖掘方法[6],特別是粒計算方法[5]運用到網(wǎng)球基礎訓練的數(shù)據(jù)分析中。數(shù)據(jù)挖掘[6]能從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息。而粒計算方法[5]能自動地在不同粒度層次之間進行跳轉,并發(fā)現(xiàn)有意義的規(guī)律。近年來,基于粗糙集[3-4]的粒計算理論[5]在許多學科和工程應用領域都取得了廣泛的應用。將這些新方法用于網(wǎng)球基礎訓練研究,是體育項目研究的一種有意義的嘗試。在網(wǎng)球基礎訓練過程中進行有針對性的數(shù)據(jù)采集與挖掘,運用粒計算方法統(tǒng)計分析,制定量化標準評價指標,掌握并合理運用網(wǎng)球基礎訓練規(guī)律。通過對網(wǎng)球基礎訓練內(nèi)容體系進行深入的研究,解決網(wǎng)球基礎訓練問題,制定網(wǎng)球基礎訓練量化評價標準。這些都為今后我國從事相關研究與實踐提供了理論參考,有望促進我國網(wǎng)球基礎訓練水平的提高。
網(wǎng)球數(shù)據(jù)挖掘研究工作的基礎是網(wǎng)球基礎訓練中的數(shù)據(jù)。因此,我們的首要工作就是采集網(wǎng)球基礎訓練中的各項數(shù)據(jù)。首先要做的是明確需要采集的數(shù)據(jù)指標。其次要設計合理的數(shù)據(jù)采集方案,以確保采集數(shù)據(jù)的真實性和正確性,進而保證粒計算方法研究的科學性。
根據(jù)網(wǎng)球基礎訓練過程目標的需要,我們主動進行有針對性的網(wǎng)球基礎訓練數(shù)據(jù)挖掘與采集,制定數(shù)據(jù)采集量表,以期獲得我們想要的數(shù)據(jù)指標。例如針對球拍選擇、運動選材、訓練方式,設計了三個指標采集數(shù)據(jù)集,分別為不同人群、不同打法類型選擇的球拍統(tǒng)計量表、身體素質(zhì)與運動成績統(tǒng)計量表、不同訓練方式統(tǒng)計量表。身體素質(zhì)所采用數(shù)據(jù)指標能夠代表人體在網(wǎng)球運動中所表現(xiàn)的力量、速度、耐力、柔韌及靈敏身體機能,運用粒計算方法統(tǒng)計分析,挖掘他們之間的關聯(lián)。球拍選擇所采用數(shù)據(jù)指標能夠反映出不同人、不同打法類型的人選擇何種球拍的量化指標,運用粒計算方法統(tǒng)計分析,從而挖掘其中的關聯(lián)。不同訓練方式與訓練成效的量化指標,運用粒計算方法統(tǒng)計分析,挖掘其中的關聯(lián)。網(wǎng)球基礎訓練數(shù)據(jù)指標的測量與評價包括:測量可靠性、有效性及客觀性檢驗、項目分析如指標的難易度與區(qū)分度檢驗,成套測驗的組內(nèi)相關分析、測量尺度、評分評價表的制定與評價。
只有進行合理的需求分析,制定合適的數(shù)據(jù)格式,并采取合適的數(shù)據(jù)采集方法,才能獲得有意義的數(shù)據(jù),并從中挖掘出規(guī)律。由于相關數(shù)據(jù)的規(guī)模比較小,因此在小樣本上進行學習,使決策支持軟件與教練員進行良好交互,是相當困難的工作。
網(wǎng)球基礎訓練數(shù)據(jù)采集包含一次性采集和累積采集。如球拍選擇量表數(shù)據(jù)采用一次性問卷采集,身體素質(zhì)與網(wǎng)球運動成績量表數(shù)據(jù)中身體素質(zhì)數(shù)據(jù)采用一次性的測量,運動成績數(shù)據(jù)采用一次性考核或在比賽進行中采集,不同訓練方式量表數(shù)據(jù)采取累積測量與評價。
所謂帶回饋機制的數(shù)據(jù)就是通過對上次數(shù)據(jù)采集分析,發(fā)現(xiàn)有冗余及未被采集的關聯(lián)數(shù)據(jù)時,要對采集數(shù)據(jù)指標進行調(diào)整。如在對網(wǎng)球基礎訓練身體素質(zhì)數(shù)據(jù)采集分析中,有些數(shù)據(jù)通過統(tǒng)計分析不具有相關性就需要刪除,有些關聯(lián)數(shù)據(jù)指標沒有被納入需要采集的范圍中就需要補充進來,從而建立一個主動的、帶上下反饋機制的數(shù)據(jù)采集方法。
建立回饋機制的主動數(shù)據(jù)指標采集機制。采用《人體測量與評價》[7]等相關資料,確定采集數(shù)據(jù)指標,制定科學采集方法。在進行下一輪的數(shù)據(jù)采集過程前,先對上一輪的數(shù)據(jù)指標進行統(tǒng)計分析,對冗余指標予以刪除,對有用卻沒有被采集到的指標進行補充,以期使采集到的指標科學化[8]。
我們運用粒計算方法來挖掘網(wǎng)球基礎訓練中的數(shù)據(jù)。數(shù)據(jù)挖掘的粒計算方法包括分類[9-10]、粒關聯(lián)規(guī)則[11-13]、屬性選擇[14]以及代價敏感[15]等。這些研究所得出的結論可以用于指導我們的網(wǎng)球基礎訓練和選拔運動員等非常有意義的工作。
通過數(shù)據(jù)挖掘中的分類方法[16]找出網(wǎng)球基礎訓練數(shù)據(jù)之間的各種關系。例如,我們可以研究球員的各項指標對其成績的影響。具體地說,是找出哪些指標對球員成績有比較大的影響,哪些指標影響較小甚至可以忽略不計。其意義在于指導網(wǎng)球教學和訓練工作。在此研究中,自變量,即條件屬性,是球員各項技術指標(例如:靈敏性、速度、耐力等);因變量,即決策屬性,是球員的成績,在進行分類前需要對其進行離散化(例如:優(yōu)秀、良好、一般等)。還可以找出其它各種關系,比如訓練方法對成績提高的影響,球員屬性對球拍選擇的影響。
針對網(wǎng)球基礎訓練數(shù)據(jù)特性的分類方法所得出的結論可以被用來指導我們的網(wǎng)球教學和訓練工作。例如,我們通過分類方法得出,球員的靈活性是影響球員成績至關重要的因素,那么,我們在網(wǎng)球訓練時就增加對球員靈活性方面的訓練。假設我們得出,球員握拍方式對球員成績沒有顯著影響,那么,我們在教學中就可以忽略對這個因素的考慮。這樣的好處是可以集中教學資源,重點訓練對球員成績有較大影響的技術指標。同理,使用分類方法所得出的規(guī)則來作為選拔運動員的依據(jù)。例如,我們從實驗數(shù)據(jù)中求得規(guī)則<靈活性=好,耐力=好>=><運動員成績=高>。那么,我們在選拔運動時,就會優(yōu)先選擇靈活性好和耐力好的球員。經(jīng)典的分類方法有很多,我們主要采用高效的決策樹[17-19]來進行分類。
粒關聯(lián)規(guī)則用于從數(shù)據(jù)庫多對多關系中挖掘有用的關聯(lián),它比在單個表中進行挖掘更有挑戰(zhàn)性。同時,復雜的數(shù)據(jù)類型及關聯(lián)的多變性帶來一系列的科學問題,例如,評分機制使得基礎數(shù)據(jù)不能以多對多關系來存儲于數(shù)據(jù)庫。由于粒關聯(lián)規(guī)則的復雜性,需要從簡單的情況開始考慮,包括基本的二元關系、名詞型數(shù)據(jù)等,然后逐步考慮評分值、數(shù)值型值、鄰域、區(qū)間值等一般情況。從數(shù)據(jù)模型出發(fā),逐漸考慮計算模型以及不同的規(guī)則形式,使得每種規(guī)則適用于一定的范圍,循序漸進地建立良好的系統(tǒng)。
粒關聯(lián)規(guī)則可以顯露出在關系表中隱含的、有用的、尚未發(fā)現(xiàn)的多值關系。給定兩個信息表和一個關系表,粒關聯(lián)規(guī)則發(fā)現(xiàn)的問題就是源覆蓋、目標覆蓋、源置信度、目標置信度分別大于等于我們設定的4個指標閥值,即最小源覆蓋(ms)、最小目標覆蓋值(mt)、最小源置信度值(mc)、最小目標置信度值(tc)。問題的解決就是先產(chǎn)生大于等于4個指標閥值的頻繁項目集,然后通過頻繁項目集產(chǎn)生規(guī)則,最后從產(chǎn)生的規(guī)則中確定出有價值的規(guī)則。規(guī)則中的項目數(shù)據(jù)類型可以是數(shù)值型或符號型的。對于數(shù)值型數(shù)據(jù),我們先將其離散化成符號型數(shù)據(jù),再繼續(xù)進行規(guī)則挖掘。例如根據(jù)所采集到的網(wǎng)球基礎訓練數(shù)據(jù),分別包括球員信息表、球拍信息表和球員對球拍的評分關系表,我們運用粒關聯(lián)規(guī)則挖掘方法,通過所設置的4個指標閾值,挖掘出有價值的規(guī)則。通過這些規(guī)則的研究,我們可以得到不同身體素質(zhì)和打法的球員更愿意選擇的球拍,從而為以后球員對球拍的選擇提供科學的參考。
獲得球員技術指標中對球員成績最有影響效度的屬性。例如,我們測試一個球員,需要測量其很多技術指標,包括身高、體重、擊球習慣和所用球拍等。但并不是所有這些屬性都對球員的成績有至關重要的影響。在本研究中,我們利用粒計算(主要是粗糙集)方法從中選擇出一部分屬性(屬性子集即屬性約簡)作為所有這些指標的代表。這樣,在實際中,我們就可以只測量這些關鍵指標而不需要測量所有指標。
找出一種合適的網(wǎng)球基礎訓練方案,能使我們獲得最小化訓練代價。例如,這里有兩種訓練方案,一是先訓練正手后訓練反手,另一是先訓練反手后訓練正手。我們通過數(shù)據(jù)發(fā)現(xiàn),方案二比方案一在訓練球員達到相同的成績的條件下,所需要的時間少,那么我們會選擇方案二。因為時間也是一種代價。
代價敏感學習[20-21]是數(shù)據(jù)挖掘中的挑戰(zhàn)性問題之一。網(wǎng)球訓練數(shù)據(jù)的獲取需要一定的測試代價,如測試球員的1000米成績需要花費相應時間,測試燈光環(huán)境下的各項技術需要耗費電能。訓練中進行各種分類會涉及誤分類代價,如將優(yōu)秀球員劃分為一般球員,可能會阻礙其進一步發(fā)展。如何依據(jù)網(wǎng)球基礎訓練的實際情況來合理考慮這些代價,并且考慮這些代價之間的權衡是我們必須應對的問題。
用統(tǒng)計方法確定各類測試代價,用調(diào)查問卷方式確定基礎的誤分類代價,并采用動態(tài)調(diào)整的方法逐步獲得更合理的設置。利用已有的粒計算、粗糙集、決策樹等理論和方法,設計新的代價敏感學習算法,并根據(jù)其效果進行參數(shù)的學習。
運用粒計算進行網(wǎng)球訓練數(shù)據(jù)采集與挖掘具有重要的理論和現(xiàn)實意義。一方面,在網(wǎng)球基礎訓練過程中進行有針對性的數(shù)據(jù)采集與挖掘,運用粒計算進行統(tǒng)計分析,制定各種問題分類的評價量化標準,為網(wǎng)球基礎訓練提供科學的理論依據(jù),推動網(wǎng)球基礎訓練方法研究;另一方面,通過粒計算方法對網(wǎng)球基礎訓練針對性采集的數(shù)據(jù)進行科學定量分析,制定網(wǎng)球基礎訓練各階段的考核評價標準,教練員可以對不同階段的運動員的訓練水平進行評價和監(jiān)督,指導基礎訓練階段的訓練工作。
[1]李興昌.快易網(wǎng)球在高校網(wǎng)球教學中的應用研究[J].體育科技,2011,32(2):135-138.
[2]田麥久.運動訓練學詞解[M].北京:北京體育大學出版社,2002:27-28.
[3]Z.Pawlak,Rough sets[J].International Journal of Computer and Information Sciences,1982,11:341-356.
[4]W.Zhu and F.Wang, Reduction and axiomization of covering generalized rough sets[J].Information Sciences, 2003, 152(1):217-230.
[5]T.Y.Lin, Granular computing on binary relations: data mining and neighborhood systems, II: rough set representations and belief functions, in: RSKD, 1998, 107-140.
[6]J.W.Han and M.Kamber,Data mining:concepts and techniques,Elsevier,1996.
[7]人體測量與評價編寫組.人體測量與評價[M].北京:高等教育出版社,1999,97-161.
[8]曹潔.青少年網(wǎng)球運動員基礎訓練調(diào)查研究[J].湖北體育科技,2011,30(1):77-79.
[9]D.Nejman.A rough set based method of handwritten numbers classification.Institute of Computer Science Reports [R].Warsaw:Warsaw University o f Technology, 1994.
[10]P.D.Turney.Cost-sensitive classification: empirical evaluation of a hybrid genetic decision tree induction algorithm[J].Journal of Artificial Intelligence Research, 1995, 2:369-409.
[11]F.Min, Q.H.Hu, W.Zhu, Granular association rules with four subtypes, in: Proceedings of the 2011 IEEE International Conference on Granular Computing, 2012.
[12]F.Min,Q.H.Hu,W.Zhu,Granular association rules on two universes with four measures,arXiv:1209.5598.
[13]X.He, F.Min, W.Zhu, A comparative study of discretization approaches for granular association rule mining, arXiv: 1212.0190.
[14]C.Cornelisa, R.Jensen.G.Hurtado and D.Slezak, Attribute selection with fuzzy decision reducts, Information Sciences, 2010, 180(2): 209-224.
[15]F.Min, H.P.He, Y.H.Qian, and W.Zhu, Test-cost-sensitive attribute reduction, Information Sciences, 2011, 181: 4928-4942.
[16]S.Ji, L.Carin.Cost-sensitive feature acquisition and classification, Pattern Recognition, 2007, 40, 1474-1485.
[17]J.Quinlan,Induction of decision trees,Machine learning,1986:81-106.
[18]C.X.Ling, V.S.Sheng, Q.Yang.Test strategies for cost-sensitive decision trees, IEEE Transactions on Knowledge and Data Engineering, 2006, 18(8):1055-1067.
[19]J.Du, Z.Cai, C.X.Ling.Cost-sensitive decision trees with pre-pruning, in Canadian AI’07, 2007, 171-179.
[20]P.D.Turney, Types of cost in inductive concept learning, in: Proceedings of the Workshop on Cost-Sensitive Learning at the 17th ICML, 2000:1-7.
[21]M.Tan,Cost-sensitive learning of classification knowledge and its applications in robotics,Machine Learning1993,13(1):7-33.