朱龍翔
【摘要】本文提出了一種基于聚類和模糊決策的綜合評價方法,利用k均值算法對評價樣本進行初步分類,并對初步分類結果選取有價值的分類使用模糊決策進行進一步分析從而對該類樣本進行評價.
【關鍵詞】k均值;灰度預測;相關性分析;綜合評價
聚類分析技術是數(shù)據(jù)挖掘技術的重要內容之一,聚類分析可以將樣本集合中相似度高的個體聚合為一類,在樣本處理階段可以將樣本預先分類以降低需要分析的樣本集合容量.關聯(lián)度分析方法可以根據(jù)因素之間發(fā)展態(tài)勢的相似或相異程度來衡量因素間關聯(lián)的程度.
本文給出了一種基于聚類和關聯(lián)度分析的綜合評價方法,解決無后驗知識情況下對無差別數(shù)據(jù)樣本進行分組評價的問題.最后以NBA球員為例給出仿真結果和分析.
一、綜合評價方法設計
針對NBA球員的評價方法主要依據(jù)出場率,投籃命中率,得分等技術要素進行評估,但由于在對NBA球員進行綜合分析時評價方式受到球員所處位置等因素限制,且各項要素間關聯(lián)復雜無法定量描述使得綜合評價模型難以建立.
聚類分析作為無指導學習的典型代表,能夠按照特定標準對數(shù)據(jù)集進行合理劃分,確定每個對象所屬類別,從而將球員整體集合這個復雜數(shù)據(jù)集合分為由相似個體組成的多個個體集合,簡化了問題復雜性.
(一)K均值聚類分析
設待分析的球員數(shù)據(jù)樣本集X為n×m的矩陣,n為樣本個數(shù),m為特征數(shù)量,分類數(shù)為k,分類特征集Q={Q1,Q2,…,Qk},樣本間距離d為任意兩個體樣本間的歐氏距離,類歸屬矩陣W規(guī)模為n×k.K均值聚類解決問題為找到一個類歸屬矩陣W最小化類平方誤差總和
P(W,Q)=∑kl=1∑ni=1wi,ld(Xi,Ql).
同時需滿足
∑kl=1wi,l=1,1≤i≤n,
wi,l∈{0,1},1≤i≤n,1≤l≤k.
其中,對每個wi,t需計算
wi,t=1 if d(Xi,Ql)≤d(Xi,Qt),for 1≤t≤k,
wi,t=0 for t≠l.
解決以上問題可以以下方法遞歸解決.
1.選取初始的類特征向量集合Q0然后針對Q0計算得到W0.記步數(shù)t=0.
2.W=Wt依照以下方法計算Qt+1.
ql,j=∑ni=1wi,lxi,j∑ni=1wi,l.
如果此時P(Wt,Q)=P(W,Qt+1),則W,Qt為類歸屬矩陣和類特征向量集,否則進行第3步.
3.Q=Qt+1,然后針對Q計算Wt+1.如果P(Wt,Q)=P(Wt+1,Q)或步數(shù)t超過給定迭代次數(shù)T,則Wt,Q為類歸屬矩陣和類特征向量集;否則步數(shù)t=t+1然后繼續(xù)第2步.
通過聚類分析,樣本集被劃分為k類特征集合為Q的數(shù)據(jù)子集,可通過q來觀測不同類別贗本集合的特征,選取需要的樣本子集進行進一步分析.同樣可作為同類優(yōu)選的第一步.
(二)基于相關度分析
在進行模糊決策前需要對樣本中該分類的各要素進行相關性分析以確定每個要素的權重因子.
1.相關性分析
由主觀給定的權重因子通常在通用性和可靠性上存在問題,因此,本文通過對樣本特征進行相關性分析來確定各特征的權重因子.
針對不同類別(位置)的NBA球員,可以選取歷年公認該類別(位置)的最佳球員數(shù)據(jù)作為參考序列.
(a0(1),a0(2),…,a0(n)),
則相應選取的m個特征序列為
(am(1),am(2),…,am(n)),m≥1.
則ai與參考序列a0在k球員身上體現(xiàn)的關聯(lián)系數(shù)ξi(k)計算方式如下:
ξi(k)=minr mins|x0(s)-xr(s)|+ρmaxr maxr|x0(s)-xr(s)||x0(s)-xr(s)|+ρmaxr maxs|x0(s)-xr(s)|,
ri=∑nk=1ξi(k)n.
稱ri為序列ai對a0的關聯(lián)度.其中分辨系數(shù)ρ∈[0,1],本文取ρ=0.5.
2.基于關聯(lián)度的評價方法
根據(jù)1給出的針對各特征與評價結果的關聯(lián)度ri,可做如下變換得到該類球員的評價得分:
G=∑mi=1(xi×ri).
二、應用與評估
(一)數(shù)據(jù)說明
本文數(shù)據(jù)采用新浪NBA數(shù)據(jù)庫2016—2017賽季數(shù)據(jù).
為避免數(shù)值差異性造成不同特征對距離影響不同,對目標數(shù)據(jù)做如下歸一化變換:
a(1)≠0,f(a(k))=a(k)a(1)=b(k).
(二)聚類分析
綜合得分,籃板等數(shù)據(jù),可以推斷第2類和第9類數(shù)據(jù)為優(yōu)秀球員類.以出場率和得分能力為主要考慮對象,選取第9類為例進行進一步分析.
(三)基于相關度評價
1.相關性分析
選取11—16年五個賽季的MVP球員數(shù)據(jù)作為參考序列,數(shù)據(jù)如下:
由于失誤和犯規(guī)對評價起負面影響,因此,關聯(lián)度系數(shù)變更為負因子進行計算,最后計算評價得分如下:
由上表結果可見,16—17賽季MVP熱門人選拉塞爾-威斯布魯克,詹姆斯-哈登,勒布朗-詹姆斯,斯蒂芬-庫里均在評價結果前十,算法結果命中率高.
三、結果與評估
本文提出的基于聚類與相關性分析的NBA球員評價方法可以較好地根據(jù)往年數(shù)據(jù)對新賽季球員數(shù)據(jù)進行量化評價,經(jīng)過檢驗預測結果對實際候選人命中率高,可以作為一種客觀評價模型使用.
【參考文獻】
[1]王悅,冷泳林,魯富宇,鄂旭.K均值聚類在高校教師評價分析中的應用研究[J].計算機技術與發(fā)展,2014(5):204-206+210.
[2]金玲玲,汪文俊,王喜鳳.大學生綜合素質的灰色模糊聚類評價模型[J].計算機技術與發(fā)展,2012(5):109-112.
[3]黎鎖平.基于灰色關聯(lián)分析的多級別聚類評價模型的研究[J].甘肅工業(yè)大學學報,2000(4):100-103.endprint