• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多元分析算法在世界杯球隊綜合實力中的預(yù)測

      2018-09-06 01:54:10賴琮霖李力卡張慧嫦
      計算機與現(xiàn)代化 2018年8期
      關(guān)鍵詞:貢獻率實力世界杯

      賴琮霖,李力卡,張慧嫦

      (中國電信股份有限公司廣東研究院,廣東 廣州 510630)

      0 引 言

      每屆世界杯前夕,對世界杯球隊實力的評估與預(yù)測始終是一個熱門的話題。影響比賽勝負的因素有很多,除了天時地利人和以及賽場上存在一定的偶然成分之外,球隊實力是決定比賽結(jié)果的一項很重要的因素[1-2]。按照慣例,國際足聯(lián)和一些官方網(wǎng)站會在每場比賽后發(fā)布球隊的一些相關(guān)數(shù)據(jù)(比如:進球數(shù)、控球率、傳球數(shù)、搶斷數(shù)等),這些數(shù)據(jù)可以全面、有效、客觀地對球隊實力進行評估,稱之為足球技戰(zhàn)術(shù)表現(xiàn)分析評價[1,3-6],其定義為“運用技術(shù)統(tǒng)計數(shù)據(jù)反映比賽各方面、各環(huán)節(jié)、各部分間的數(shù)量關(guān)系和特征的研究方法”[3]。它存在著一套信息反饋機制,通過建立比賽技戰(zhàn)術(shù)指標(biāo)與比賽結(jié)果間的因果關(guān)系,更好地幫助教練員和球隊做下階段的調(diào)整、訓(xùn)練與應(yīng)戰(zhàn)。這使得足球技戰(zhàn)術(shù)分析從描述性向著探索指導(dǎo)方向轉(zhuǎn)變[3]。

      當(dāng)前信息技術(shù)已可以對賽場上球隊表現(xiàn)做及時準(zhǔn)確地捕捉,數(shù)據(jù)的采集已經(jīng)不是一項技術(shù)難題。OPTA作為一個成熟的體育數(shù)據(jù)提供商,其數(shù)據(jù)搜集系統(tǒng)采集的結(jié)果能達到與實際比賽數(shù)據(jù)高度一致[4],取代了原先的人工描述性統(tǒng)計[5],它使得足球比賽進入了“大數(shù)據(jù)”時代。數(shù)據(jù)是客觀、可量化、可分析整理的,而可量化的指標(biāo)是利用數(shù)學(xué)模型進行球隊分析的必要前提,其完整性和正確性是模型有效性的重要保證。但目前,如何利用好數(shù)據(jù)去評價球隊實力的有效方法還相對欠缺[2,4]。已有研究指出足球大數(shù)據(jù)挖掘未來的方向可分為4個層次,分別為描述性和對比性分析、診斷性分析、預(yù)測性分析、治療性分析,除了最基本的表現(xiàn)分析,還能夠解釋現(xiàn)象發(fā)生原因、預(yù)測未來以及給出診斷建議,要如何達到這些目標(biāo),目前還處于探索階段[7]。主成分分析法作為一種多元統(tǒng)計的分析方法,它將一些相關(guān)性很高的變量轉(zhuǎn)化為彼此相互獨立或不相關(guān)的變量,通過提取相關(guān)度最高的少數(shù)指標(biāo)來解釋原始數(shù)據(jù),在指標(biāo)較多的情況下可有效起到數(shù)據(jù)降維的效果,方法已被廣泛應(yīng)用在工業(yè)生產(chǎn)、環(huán)境治理、政府決策等場景當(dāng)中[8-13]。聚類方法可對研究對象做預(yù)處理相似性評估,對事物有基本的概括總結(jié)與可行性檢驗[9]。

      本文基于2010、2014年世界杯的比賽技術(shù)指標(biāo)與歷屆比分結(jié)果建立模型,采用主成分分析法、聚類方法對各支球隊的實力進行研究。主要解決以下2個問題:1)對2010年各國參加球隊的表現(xiàn)進行相似性分析;2)評價各國球隊在2010年世界杯的實力,對32支球隊的綜合表現(xiàn)進行綜合排名,并以此模型進一步評價2014年世界杯32支球隊的實力,驗證模型的有效性。

      1 數(shù)據(jù)描述

      本文收集了2010年南非世界杯32支球隊的統(tǒng)計指標(biāo)共32項,見表1;其球隊最終排名情況見表2;2014年巴西世界杯各球隊的相關(guān)統(tǒng)計指標(biāo)項見表3。

      表2 南非世界杯球隊排名

      表3 巴西世界杯小組賽的統(tǒng)計指標(biāo)

      2 模型假設(shè)

      1)各球隊的綜合排名排除運氣、球隊訓(xùn)練狀態(tài)、球員名氣、天氣、心理狀態(tài)、球場的熟悉程度、裁判判罰等因素帶來的影響,僅與其比賽統(tǒng)計指標(biāo)存在因果關(guān)系[14-15]。

      2)各球隊的排名情況不考慮其比賽對陣流程順序。

      3 建模與求解

      3.1 2010世界杯32支球隊相似性分析

      相似性分析的目的在于檢驗球隊實力的相關(guān)性,預(yù)處理判斷統(tǒng)計指標(biāo)是否能夠?qū)?2支球隊的實力進行分類,為接下來的求解做可行性檢驗。聚類分析是從數(shù)據(jù)分析的角度,給出一個定量評估分類方法[9]。

      3.1.1 方法步驟

      1)選出獨立性較強的統(tǒng)計指標(biāo)。

      具有明顯較強相關(guān)的指標(biāo)會使結(jié)果具有傾向性。一般認為技術(shù)實力好的球隊勢必會具有更多優(yōu)勢,而且比賽場次多的球隊其指標(biāo)更高,會使得結(jié)果自然傾斜,需予以剔除。

      ①去掉出場次數(shù)、勝平負場次數(shù)、積分影響。

      ②通過足球比賽規(guī)則可知,凈勝球=進球數(shù)-失球數(shù),觸球數(shù)可計算出控球率,射門成功率=進球數(shù)/射門數(shù),傳球成功率=成功傳球/傳球,成功長傳率=成功長傳/長傳數(shù),傳球≈前場傳球+后場傳球,越位數(shù)已算入了犯規(guī)數(shù)。因此,可剔除這些明顯相關(guān)的指標(biāo)。剩下的指標(biāo)有進球數(shù)、控球率等17個,如表1粗體所示。

      ③17個指標(biāo)需平等且地位相同,對它們做場均化和標(biāo)準(zhǔn)化處理后的分布情況如圖1所示,指標(biāo)基本分布在中位線附近,解決了因不同指標(biāo)范圍不等和量綱不同而造成無法有效評估的問題。

      xij表示為第i支球隊的第j個場均化后的指標(biāo),之后按式(1)進行標(biāo)準(zhǔn)化計算。

      (1)

      圖1 統(tǒng)計指標(biāo)標(biāo)準(zhǔn)化后的分布情況

      2)計算出32個樣本點兩兩間的距離矩陣D=(dij)32×32。

      距離的定義有歐氏距離、標(biāo)準(zhǔn)歐氏距離、馬氏距離、絕對值距離與閔氏距離5種。本文選用絕對值距離,即:

      (2)

      3)生成聚類。

      初始構(gòu)造32個類G,并且根據(jù)每2個類之間的距離定位聚類圖的平臺高度。合并距離最近的2個類Gs、Gt為新的類,并且把這2類距離作為聚類圖的新平臺高度。以此不斷迭代,直到把所有類合并完為止。

      距離合并的原則可按照最短、最長、平均距離、重心距離、離差平方和方法這5種,本文采用平均距離方法。即每2類間的平均距離為:

      (3)

      其中,ns、nt為Gs、Gt類中樣本點的個數(shù)。

      4)生成聚類圖。

      3.1.2 結(jié)果分析

      從圖2可以看出,聚類算法把32支球隊分為了3類:1)第一梯隊是巴西、阿根廷等球隊,屬于世界杯上表現(xiàn)最強的一類;2)第二梯隊是智利、墨西哥等,法國也屬于這一類,因為實際上法國隊在2010年表現(xiàn)一般,小組并未出線;3)第三梯隊是新西蘭、朝鮮等,實力表現(xiàn)較弱。分類結(jié)果基本符合圖2所示,得出的統(tǒng)計指標(biāo)在一定程度上可以反映球隊實力,因此接下來可以運用統(tǒng)計指標(biāo)對綜合排名進行評估。

      圖2 2010年世界杯各球隊綜合實力聚類分析

      3.2 32支球隊的綜合排名

      3.2.1 數(shù)據(jù)預(yù)處理

      再進一步看,17個統(tǒng)計指標(biāo)維度較高,增加了評估的復(fù)雜度,因此本模型運用主成分分析法進行降維。指標(biāo)相關(guān)性情況如圖3所示,大多為正相關(guān)(相關(guān)性為正),所以適用主成分分析法[9]。對于部分負相關(guān)參數(shù),比如紅牌數(shù)、犯規(guī)數(shù)等,需做取反處理。

      圖3 相關(guān)系數(shù)統(tǒng)計直方圖

      3.2.2 方法步驟

      1)生成指標(biāo)相關(guān)系數(shù)矩陣R。

      R=(rij)17×17

      (4)

      (5)

      相關(guān)系數(shù)矩陣對角線為1,關(guān)于主對角線則對稱。

      2)求解特征值與特征向量。

      det (λE-R)=0,E表示單位矩陣,解出的特征值按從大到小排列λ1≥λ2≥…≥λ17≥0,對應(yīng)的特征向量為u1,u2,u3,…,u17,uj=(u1,j,u2,j,u3,j,…,u32,j)T。

      (6)

      其中,yj表示第j個主成分。

      3)計算貢獻率,主成分篩選。

      由步驟2計算得出特征值λj,選擇其中的前p(p17)個作為主成分。選擇原則采用累計貢獻率。

      信息貢獻率:

      (7)

      累計貢獻率:

      (8)

      當(dāng)累計貢獻率ap高于85%的時候,可認為前p個主成分有效。

      4)計算綜合得分。

      (9)

      其中,bj表示第j個主成分的信息貢獻率。

      3.2.3 結(jié)果分析

      利用2010年南非世界杯各球隊的數(shù)據(jù)統(tǒng)計和球隊排名進行主成分分析,將得到的主成分指標(biāo)與2014年巴西世界杯各球隊小組賽的數(shù)據(jù)統(tǒng)計相結(jié)合,得出巴西世界杯的球隊排名。

      1)貢獻率。如圖4所示,直方圖代表信息貢獻率,線條代表累計貢獻率。當(dāng)p=7時,前7個主成分達到了85%的累計貢獻率。因此接下來選取前7個特征值對應(yīng)的特征向量進行主成分與指標(biāo)的相關(guān)性分析。

      圖4 信息貢獻率與累計貢獻率

      2)前7個主成分對應(yīng)的特征向量。

      變量均為場均數(shù)據(jù),通過特征向量找到與主成分相關(guān)最大的變量。如表4所示,特征向量里的元素即為主成分的系數(shù),第1主成分主要反映了場均攔截、場均射門數(shù)、場均射正數(shù)、控球率、長傳成功率與場均進球數(shù);第2主成分主要反映了場均頭球進球、射正率、場均黃牌數(shù)等。

      表4 標(biāo)準(zhǔn)化變量的前7個主成分的特征數(shù)據(jù)

      圖5展示了各指標(biāo)的相關(guān)性情況。線段越長,表示該指標(biāo)與各主成分的相關(guān)性越大;線段越靠近的指標(biāo)表示其相關(guān)程度越高;點表示不同球隊在主成分坐標(biāo)系中的坐標(biāo),與聚類分析類似,可以用于分析不同球隊的相似度。從圖5中可以看出傳球成功率、長傳成功率與控球率的關(guān)系很大、犯規(guī)數(shù)與黃牌數(shù)的關(guān)系大等規(guī)律,符合事實。

      由于第1主成分的貢獻率高,因此選用與第1主成分相關(guān)性最大的幾個指標(biāo)作為評價球隊的標(biāo)準(zhǔn)。

      圖5 前3個主成分與統(tǒng)計指標(biāo)間關(guān)系圖

      3)評估2014年世界杯各球隊的實力排名。

      對表3的巴西世界杯小組賽的統(tǒng)計指標(biāo)進行標(biāo)準(zhǔn)化場均化計算,結(jié)合主成分指標(biāo)得出表5的排名結(jié)果。從表5可以看出,就個別情況出現(xiàn)的誤差(例如日本、俄羅斯、葡萄牙真實情況沒有進入16強隊伍,而本算法估計結(jié)果是它們進入了8強,有的球隊小組出線,但其排名卻靠后,例如美國),可以解釋為這幾支球隊中作為主成分的幾個參數(shù)表現(xiàn)都比較好,也可以認為與其對戰(zhàn)的對手將其克制使其未能出線。但從整體上來看,表5仍符合真實情況下球隊的排名情況,評估出的排名前8的球隊均進入了世界杯16強。結(jié)合實際對陣情況,對于16強進8強,除了墨西哥比荷蘭排名靠前但最后荷蘭進入了8強之外,其他幾場比賽都是對陣雙方排名靠前的進入8強;若根據(jù)8強進4強的對陣情況來估測,則4強就是荷蘭、巴西、德國和阿根廷,最終冠軍屬于德國,完全符合真實情況。因此說明該模型具有一定的有效性,當(dāng)屆小組賽的數(shù)據(jù)在一定程度上可以估測球隊的排名晉級情況。

      表5 評估2014世界杯球隊排名情況

      4 結(jié)束語

      對比預(yù)測結(jié)果和實際結(jié)果可以看出,本文的模型具有一定有效性。聚類結(jié)果表明,每支球隊的數(shù)據(jù)統(tǒng)計可以反映球隊整體水平,聚類分析能較好地把實力強隊與實力弱隊分開。同時,主成分分析法能夠較好地提取統(tǒng)計指標(biāo)當(dāng)中的主要成分,在起到降低計算維數(shù)作用的同時,還能對各支球隊起到評價作用,評測結(jié)果符合實際情況。

      更重要的是,主成分分析能為球隊提高綜合實力提供針對性的意見。例如:從圖5中與第1主成分關(guān)聯(lián)較強的幾個參數(shù)來看,提高球隊綜合實力關(guān)鍵如下:

      1)提高場均攔截就是提高球隊的防守實力,這樣可以減少對方進攻的成功率。

      2)提高場均射門數(shù)需要球隊增強進攻的強度。同時還要提高場均射正數(shù),這就要求球隊提高進攻的準(zhǔn)度。

      3)提高控球率、長傳成功率就要求球隊增強對球的操控程度,盡可能地把球留在己方球員腳下。

      以上3點統(tǒng)計指標(biāo)也被一些研究者們認定為是球隊在世界杯取勝的關(guān)鍵性指標(biāo)[2,16-17]。2018是世界杯年,通過本研究方法,希望能為廣大體育從業(yè)者和愛好者們提供科學(xué)的參考。

      有些研究已經(jīng)開始運用人工智能和結(jié)構(gòu)模型等復(fù)雜理論分析足球技戰(zhàn)術(shù)表現(xiàn),其動態(tài)地分析各指標(biāo)因素間的復(fù)雜關(guān)系,鑒于研究還沒有上升到理論層面,目前應(yīng)用較少[3],未來可作為一個方向繼續(xù)深入研究。此外,大多數(shù)針對比賽的研究仍脫離了比賽情景因素,實用性仍存在一定局限,下階段指標(biāo)的測量可引入更多維度,將技術(shù)指標(biāo)與環(huán)境、對手因素、時間因素、戰(zhàn)術(shù)目標(biāo)動態(tài)結(jié)合,根據(jù)比賽的不同階段指定評估模型。同時,應(yīng)區(qū)分不同對陣情形下的統(tǒng)計指標(biāo),例如區(qū)分不同程度球隊間的比賽,做更精細化分析。

      猜你喜歡
      貢獻率實力世界杯
      見證創(chuàng)新實力的躍升
      軟實力致勝
      一種通用的裝備體系貢獻率評估框架
      實力搶鏡
      中外文摘(2020年18期)2020-09-30 14:47:04
      多彩世界杯
      足球周刊(2018年1期)2018-04-19 02:17:36
      關(guān)于裝備體系貢獻率研究的幾點思考
      失“意”世界杯
      南方周末(2017-11-16)2017-11-16 08:21:14
      提升文化軟實力是當(dāng)務(wù)之急
      В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
      中亞信息(2016年10期)2016-02-13 02:32:45
      世界杯搞笑來襲
      佳木斯市| 贵德县| 西和县| 平和县| 溧水县| 灵丘县| 滨州市| 兰坪| 吉水县| 运城市| 宜丰县| 兴文县| 津南区| 彝良县| 临安市| 轮台县| 温州市| 乌拉特后旗| 虹口区| 阳东县| 长沙县| 林周县| 清新县| 珠海市| 大新县| 莱西市| 胶州市| 德惠市| 海阳市| 游戏| 特克斯县| 新田县| 四川省| 苍山县| 来宾市| 毕节市| 精河县| 麻江县| 绿春县| 页游| 丹江口市|