• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種體質(zhì)測試數(shù)據(jù)異常檢測融合算法

      2018-07-11 08:12:54白王梓松李亭葳
      中國教育信息化 2018年12期
      關(guān)鍵詞:測試數(shù)據(jù)值域均值

      白王梓松,劉 新,侯 嵐,李亭葳

      (1.湘潭大學 信息工程學院,湖南 湘潭 411105;2.湘潭大學 公共管理學院,湖南 湘潭 411105)

      一、引言

      大學生體質(zhì)健康測試是根據(jù)教育部頒發(fā)的《國家學生體質(zhì)健康標準(2014年修訂)》所進行的全國性的大學生身體素質(zhì)情況檢測。目的是促進學生加強體質(zhì)鍛煉,養(yǎng)成良好的鍛煉習慣,提高自身體質(zhì)健康水平。該測試實行多年以來,為提高我國大學生體質(zhì)水平起到了積極的作用。體質(zhì)測試成績是反映學生體質(zhì)水平的重要數(shù)據(jù),對該數(shù)據(jù)進行分析研究可以了解大學生整體的體質(zhì)健康狀態(tài),發(fā)現(xiàn)不足,預(yù)測學生健康發(fā)展趨勢,從而更好地指導大學生進行體育鍛煉。

      我們在對體質(zhì)測試數(shù)據(jù)收集和處理過程中發(fā)現(xiàn),由于學生作弊、流程不規(guī)范、設(shè)備誤差、人為修改、學生消極懈怠等因素,收集到的部分數(shù)據(jù)是不真實、不準確的,不能真實反映學生的體質(zhì)水平,對研究工作造成了一定的干擾[1-4],因此對異常數(shù)據(jù)的檢測十分必要。

      異常檢測在體質(zhì)測試數(shù)據(jù)的具體應(yīng)用中也可以稱為體質(zhì)測試數(shù)據(jù)的離群點檢測,而目前離群點檢測技術(shù)主要有基于統(tǒng)計方法、基于鄰近方法、基于分類方法、基于聚類方法幾種類型[5]。其中基于鄰近方法可以分為基于距離和基于密度的離群點檢測方法,現(xiàn)今比較常用的主要是基于距離方法、基于密度方法和基于聚類的方法。Zhang[6]等人使用基于距離的LOF算法對智能配電網(wǎng)故障進行檢測;Lv[7]等人將基于密度的離群點檢測技術(shù)運用到復雜數(shù)據(jù)集中;Fabian[8]、郁映卓[9]使用k均值聚類算法檢測人體運動特征的異常行為。但以上各類異常檢測技術(shù)都不能完全適用于具有多維、少樣本時序等特性的體質(zhì)測試數(shù)據(jù)的異常檢測中。

      本文針對體質(zhì)測試中各種情況產(chǎn)生的異常數(shù)據(jù)的問題,以體質(zhì)測試成績系統(tǒng)為平臺,綜合k均值聚類算法、基于距離的異常檢測思想、基于密度的異常檢測思想,結(jié)合學生的歷史數(shù)據(jù),提出了一種體質(zhì)測試數(shù)據(jù)異常檢測融合算法(Anomaly Detection Fusion Algorithm for Physical Fitness Test Data,簡稱 ADF-PFT),以便對異常數(shù)據(jù)進行重測、剔除等進一步處理。

      二、體質(zhì)測試數(shù)據(jù)的特征

      根據(jù)《國家學生體質(zhì)健康標準 (2014年修訂)》(簡稱《標準》)對大學生體質(zhì)健康測試的要求,需要對學生BMI、肺活量、50米跑、1000米跑/800米跑、立定跳遠、坐位體前屈、引體向上/一分鐘仰臥起坐進行測試。根據(jù)《標準》中的要求和高校體質(zhì)測試的具體實踐,總結(jié)出體質(zhì)測試數(shù)據(jù)有如下特點:①多維性;②各項目計量單位不同,數(shù)據(jù)值域范圍差別大;③有歷史數(shù)據(jù)參考。

      按照《標準》對總分的計算方法,學生的體質(zhì)測試總分由多個子項目的得分按照不同權(quán)值相加得到。各個檢測項目所評價的身體素質(zhì)之間有著某些關(guān)聯(lián),對單個項目進行異常檢測研究是片面的,對所有項目數(shù)據(jù)組成整體的異常檢測才具備研究意義。表1中的成績是某同學完整體質(zhì)測試數(shù)據(jù),如只對引體向上單個項目進行研究,會發(fā)現(xiàn)該同學引體向上成績非常好,遠超過平均水平,據(jù)此可能會判定該成績是異常成績。但實際分析各項成績后發(fā)現(xiàn),該同學各項成績都非常出眾,可以綜合判斷該同學身體素質(zhì)比較好,因此引體向上的成績也比較可信。整體研究就是多維數(shù)據(jù)研究,對多維數(shù)據(jù)的處理是需要解決的第一個問題。

      表1 某同學體質(zhì)測試數(shù)據(jù)

      各測試項目的指標、評價內(nèi)容、計量方式等的不同,導致測試結(jié)果的值域范圍也不同,從而造成了在異常檢測時值域范圍大的項目對結(jié)果影響明顯。如表2中,除肺活量和50米外其余項目成績浮動都相同,但少量的肺活量浮動(1號數(shù)據(jù))和大幅度提高的50米成績(2號數(shù)據(jù))歐式距離對比發(fā)現(xiàn),1號數(shù)據(jù)的歐氏距離更大,這種直接計算的方式不符合異常檢測的效果要求。為了平衡各項目數(shù)據(jù)值域范圍不同造成的影響,需要運用一定的方法對數(shù)據(jù)進行標準化,使各數(shù)據(jù)既能在同一值域中浮動,也能不失去數(shù)據(jù)本身包含的信息,使用何種方法對數(shù)據(jù)標準化就是需要解決的第二個問題。

      表2 不同項目數(shù)據(jù)浮動對歐氏距離的影響

      人體體質(zhì)變化的規(guī)律是循序漸進的,排除環(huán)境等的影響,個體的鍛煉、飲食、生活習慣通常也比較固定,在短時間內(nèi)身體素質(zhì)大幅度變動的可能性較小,倘若能將歷史數(shù)據(jù)作為異常檢測的條件之一,將大大提升異常檢測的效果。傳統(tǒng)異常檢測技術(shù)使用標準化的數(shù)據(jù)處理雖然可以解決多維性和值域范圍不同對檢測結(jié)果的影響,但是卻沒有將歷史數(shù)據(jù)作為異常檢測的因素,缺少了一種有價值的、可靠的參考依據(jù),影響其異常檢測結(jié)果的實際效果。

      三、體質(zhì)測試數(shù)據(jù)的預(yù)處理

      1.數(shù)據(jù)清洗

      使用體質(zhì)測試成績系統(tǒng)中的成績導入功能,將原始測試數(shù)據(jù)導入數(shù)據(jù)庫時,通常有部分不滿足要求,不能直接計算成績。主要有以下幾類:①空白數(shù)據(jù)和缺項數(shù)據(jù);②數(shù)據(jù)項有無關(guān)空白字符;③數(shù)據(jù)項中圓角半角符號混用;④學生班級異動;⑤可更新成績。

      對于空白數(shù)據(jù)和缺項數(shù)據(jù)、學生班級異動的情況,只存儲于數(shù)據(jù)庫中,不計算成績是較好的處理方式;對②和③中涉及的問題,可以依據(jù)數(shù)據(jù)項逐條檢測情況,將異常字符剔除或替換為規(guī)范字符;對可更新成績數(shù)據(jù),需要使用摘要算法比對成績是否有變化,并判斷成績是提高還是降低,最終保留較高的成績。

      2.數(shù)據(jù)標準化

      多維數(shù)據(jù)值域范圍的不同對聚類、距離和密度的計算結(jié)果有很大影響。體質(zhì)測試的各個項目所測試的指標不同,單位也不盡相同,數(shù)據(jù)值域的不同導致值域范圍大的項目對異常檢測的結(jié)果影響大,值域小的項目對結(jié)果影響小。本文提出的ADF-PFT算法對每個項目的權(quán)重要求是相同的,因而數(shù)據(jù)標準化也就勢在必行。

      目前數(shù)據(jù)標準化有多種方法,如小數(shù)定標標準化、最值標準化、Z-Score標準化等。小數(shù)定標標準化方法通過調(diào)整小數(shù)點的位置,使所有的維度的值域在[-1,1]上來達到標準化的目的。該方法直觀簡單、易于實現(xiàn),但其不能完全消除不同維度間的權(quán)值差異。最值標準化方法是對各維度進行線性變換,使原來值域為[υmin,υmax]的項目值域落在上,該方法可以靈活指定,并且可以完全消除不同維度的權(quán)重差異,但該方法中離群點對值域范圍影響較大,導致大多數(shù)值可能集中分布在一個較小的值域中,不適用于檢測離群點的數(shù)據(jù)標準化中。本文采用Z-Score方法,該方法利用各維度的均值和標準差進行標準化,如公式1所示:

      四、體質(zhì)測試數(shù)據(jù)異常檢測融合算法(ADF-PFT)

      1.體質(zhì)測試數(shù)據(jù)離群指數(shù)(PFT-OI)

      本文提出一種針對體質(zhì)測試數(shù)據(jù)異常檢測的評價指標——體質(zhì)測試數(shù)據(jù)離群指數(shù)(Physical Fitness Test Outlier Index,簡稱 PFT-OI)。 PFT-OI以 ADF-PFT 算法為核心,以Z-Score標準化的數(shù)據(jù)為基礎(chǔ),不僅考慮了學生測試數(shù)據(jù)在數(shù)據(jù)總體中的聚類結(jié)果,還將歷史數(shù)據(jù)和當前數(shù)據(jù)的差距作為因素之一,結(jié)合基于距離和密度的異常檢測思想,綜合度量體質(zhì)測試數(shù)據(jù)中的異常情況。

      定義1:用T(xi)表示PFT-OI,用來度量離群程度,用公式2表示:

      其中,α、β、γ 是權(quán)值參數(shù),Simk如公式 3所示,表示當前年份體質(zhì)測試數(shù)據(jù)使用k均值算法聚類的結(jié)果的相似度。

      其中KMS(xi,x)表示在集合X中的xi節(jié)點在使用k均值算法聚類后的結(jié)果,也就是節(jié)點xi與其最近的聚類中心的歐式距離。在使用k均值算法聚類的過程中,通過用多組數(shù)據(jù)對k值的多次探測實驗,得到不同k值下所有節(jié)點質(zhì)心距離的平均值。通過圖1可以看出,當k=5時是拐點,因而對于體質(zhì)測試數(shù)據(jù)選取k=5是合適的。

      圖1 多組k均值聚類結(jié)果圖

      定義2:Dist(x,x*)表示x節(jié)點與x*節(jié)點的歐式距離,如公式4所示:

      n為節(jié)點的總維度,j為維度標號。

      Simdis是節(jié)點與歷史數(shù)據(jù)距離的相似度,根據(jù)歷史數(shù)據(jù)年份數(shù)y有不同的處理方式。當y=0時,說明沒有歷史數(shù)據(jù),相似度為0;當y>0時,需求出當前節(jié)點xi與之前多年數(shù)據(jù)距離的平均值,x*i,j表示所對應(yīng)的第y年的數(shù)據(jù)節(jié)點。

      Simden是節(jié)點與歷史數(shù)據(jù)密度的相似度。本文定義表示當前節(jié)點xi與某年份對應(yīng)節(jié)點的密度差,如公式6所示:

      其中Gt(xi)表示距離xi最近的t個節(jié)點的集合,求出與xi最近的t個節(jié)點距離的和的倒數(shù),可以反映出該節(jié)點的附近的密度。根據(jù)歷史數(shù)據(jù)年份數(shù)y,Simden有不同的處理方式。當y=0時,說明沒有歷史數(shù)據(jù),Simden為0;當y>0時,應(yīng)求出當前節(jié)點與其余各年份節(jié)點密度差的平均值公式如下:

      PFT-OI是根據(jù)體質(zhì)測試數(shù)據(jù)的特點,專門針對體質(zhì)測試數(shù)據(jù)設(shè)計的評價指標。它在對異常數(shù)據(jù)的檢測中既能“橫向的”考慮數(shù)據(jù)節(jié)點在本年度其他同學測試數(shù)據(jù)的結(jié)構(gòu),也能“縱向的”兼顧學生本人的歷史數(shù)據(jù),相比只使用聚類算法的優(yōu)勢主要有:較大程度提高了異常成績的檢出率;較大程度降低了誤檢率。

      2.ADF-PFT算法步驟

      輸入:多年數(shù)據(jù)集 Y={X0,X1,X2,…,Xy}(其中 Xy={x1,x2,x3,…,xn}),聚類個數(shù) K,鄰近值 t,最大迭代次數(shù) AtMax,權(quán)值 α、β、γ。

      輸出:PFT-OI集合 T={T(x1),T(x2),T(x3),…,T(xn)}

      步驟1:隨機選取K=5個點Xc={xc1,xc2,xc3,xc4,xc5}∈X0作為初始質(zhì)心;

      步驟2:對于X0中每個點求出dist(xi,xcj)min;i=1,2,3,…,n;j=1,2,…,K;令 λi=j;

      步驟3:對于每一類的中心點xcj進行更新,計算λi=j 的所有點 Xcj各維度的平均值

      步驟 4:如果迭代次數(shù) At<AtMax,At++,轉(zhuǎn)到步驟 2;

      步驟5:根據(jù)公式4,得到X0中各點到其聚類中心的歐氏距離集合D={KMS(x1,X0),KMS(x2,X0),…,KMS(xn,X0)},按照公式3求出k均值聚類結(jié)果相似度集合,Simk={SK1,SK2,…,SKn};

      步驟 6:若 y=0,則 Simdis=0,轉(zhuǎn)到步驟 8;若 y>0,轉(zhuǎn)到步驟7;

      步驟 7:對于集合 Y={X0,X1,X2,…,Xy},根據(jù)求出各集合X0與Xy對應(yīng)點的歐式距離平均值集合按照公式 5 求出歷史距離相似度集合 Simdis={SDI1,SDI2,…,SDIn};

      步驟 8:若 y=0,則 Simden=0,轉(zhuǎn)到步驟 10;若 y>0,轉(zhuǎn)到步驟9;

      步驟9:對于集合Y={X0,X1,X2,…,Xy},求出每個點在對應(yīng)子集合中的密度,即距離該點最近的t個點Xt(xi)={xt1,xt2,…,xtt}距離和的倒數(shù) m=1/(∑xk∈Xt(xi)Dist(xi,xk),Yden={M0,M1,…,My},其中 M={m1,m2,…,mn},求出各點與對應(yīng)點密度差的均值按照公式 7 求出歷史密度差相似度集合Simden={SDE1,SDE2,…,SDEn};

      表3 2015級2016年數(shù)據(jù)離群程度最大10個成績(傳統(tǒng)k均值算法)

      表4 2015級2016年數(shù)據(jù)離群程度最大10個成績(PFT-OI)

      步驟10:依據(jù)公式2可得到PFT-OI集合T={T(x1),T(x2),T(x3),…,T(xn)}。

      五、實驗結(jié)果分析

      實驗主要對比傳統(tǒng)k均值聚類算法和PFT-OI兩種方法對異常值的檢測效果。

      實驗1采用某高校2015級4878名學生在2015學年和2016學年的體質(zhì)測試數(shù)據(jù)作為數(shù)據(jù)集,其中男生占比 46.3%,女生占比 53.7%。取 α=1,β=0,γ=0,即傳統(tǒng)k均值聚類算法對2015級2016年體質(zhì)測試數(shù)據(jù)進行檢測,T(xi)最大的10個同學具體成績?nèi)绫?所示。

      根據(jù)k均值聚類結(jié)果的大小從上到下列出異常程度最高的10個結(jié)果。從表格中可以觀察出:①有7個同學的立定跳遠成績?yōu)?0cm,推測應(yīng)該是設(shè)備問題導致;②第1條、第2條數(shù)據(jù)是異常程度最高的兩個,但根據(jù)其2015年的成績比較分析,這兩位成績穩(wěn)定、合理,屬于成績極差和極好的同學,不應(yīng)歸為異常成績,屬于誤檢。

      下面使用 PFT-OI,取 α=0.4,β=0.3,γ=0.3,得到 T(xi)最大的10個同學,他們成績?nèi)绫?所示。

      根據(jù)T(xi)大小從上到下列出了異常程度最高的10個結(jié)果。從表4可得出:①除立定跳遠成績50cm異常的行外,其余各行都存在明顯的成績異常;②沒有發(fā)現(xiàn)穩(wěn)定、合理的極差成績和極好成績出現(xiàn);③第6條數(shù)據(jù)只看2016年成績時屬于正常成績,但同其2015年成績相比時發(fā)現(xiàn),其50米成績和引體向上差距大,說明具有一定的異常性,用傳統(tǒng)的k均值聚類方法不能檢測出。

      實驗2使用某高校2014級2015年、2016年成績和2015級2015年、2016年成績分成若干小組作為數(shù)據(jù)集 (20000+條數(shù)據(jù)),取T(xi)較大的前1.5%的數(shù)據(jù)進行誤檢率統(tǒng)計,參數(shù)如表5所示。

      表5 實驗2參數(shù)設(shè)定表

      由圖2可知,傳統(tǒng)的k均值聚類方法對異常成績檢測的誤檢率較高,PFT-OI相比傳統(tǒng)的k均值聚類方法在誤檢率方面有明顯的降低,尤其是當α=0.4,β=0.3,γ=0.3時,誤檢率達到較低水平。

      圖2 7組數(shù)據(jù)誤檢率統(tǒng)計圖

      使用相同數(shù)據(jù)集的情況下,從以上兩個實驗可以看出,PFT-OI相比于傳統(tǒng)k均值聚類方法有較低的誤檢率,大大提升了異常檢測的精度。

      六、結(jié)束語

      傳統(tǒng)的k均值聚類方法對體質(zhì)測試數(shù)據(jù)進行異常檢測具有高誤檢率的缺點,PFT-OI和ADF-PFT算法的提出有效降低了誤檢率,完善了體質(zhì)數(shù)據(jù)異常檢測中缺乏縱向關(guān)系挖掘的問題。該方法現(xiàn)已著手應(yīng)用到體質(zhì)測試成績管理系統(tǒng)中,在體質(zhì)測試成績分析和管理中可以有效輔助高校體育教師的工作,大大減輕工作量。

      在實驗過程中發(fā)現(xiàn),ADF-PFT算法中還存在密度計算復雜度較高和權(quán)值優(yōu)化難的問題,這也是筆者在下一步需要解決和研究的主要問題。

      猜你喜歡
      測試數(shù)據(jù)值域均值
      函數(shù)的值域與最值
      測試數(shù)據(jù)管理系統(tǒng)設(shè)計與實現(xiàn)
      多角度求解函數(shù)值域
      值域求解——一個“少”字了得
      破解函數(shù)值域的十招
      基于自適應(yīng)粒子群優(yōu)化算法的測試數(shù)據(jù)擴增方法
      均值不等式失效時的解決方法
      均值與方差在生活中的應(yīng)用
      空間co-location挖掘模式在學生體能測試數(shù)據(jù)中的應(yīng)用
      體育科技(2016年2期)2016-02-28 17:06:21
      關(guān)于均值有界變差函數(shù)的重要不等式
      铁岭市| 延边| 铜川市| 平山县| 台东市| 满洲里市| 瓮安县| 建阳市| 育儿| 仁化县| 遵义市| 来凤县| 绥化市| 兖州市| 元氏县| 沂源县| 鄂托克前旗| 察隅县| 泰安市| 眉山市| 调兵山市| 泾源县| 嘉荫县| 阿拉善左旗| 景德镇市| 安塞县| 蒙山县| 九江县| 修武县| 峨眉山市| 芮城县| 四会市| 商都县| 太仓市| 武威市| 台北县| 温泉县| 潜山县| 大英县| 左权县| 灵璧县|