蘇曉雨 謝文才
武警警官學院 四川 成都610213
軍事訓練是部隊的中心工作,努力提高訓練成績是部隊追求的目標,更是基層單位抓的經(jīng)常性工作。隨著部隊實戰(zhàn)化訓練的深入,傳統(tǒng)的訓練成績分析方法已不能適應科學組訓的需要,無非是得到均值、方差、效度和可信度而已,只能從表面獲取部隊訓練的成效,無法深層次反應訓練成績間的關(guān)聯(lián)與特點,并不能從隱藏的因素中尋找真正影響訓練成績的核心環(huán)節(jié)。數(shù)據(jù)挖掘能為決策者提供重要的、極有價值的信息或知識,從而產(chǎn)生不可估量的效益。雖然數(shù)據(jù)挖掘產(chǎn)品尚不成熟,但其市場份額卻正日益擴大,越來越多的大中型企業(yè)開始利用數(shù)據(jù)挖掘來分析公司的數(shù)據(jù)以輔助決策,數(shù)據(jù)挖掘正逐漸成為在社會市場競爭中立于不敗之地的法寶。為訓練成績的分析提供科學的依據(jù),為改進訓練及弱勢科目的改進具有重要意義。
科目與科目成績之間的關(guān)系,使用關(guān)聯(lián)規(guī)則分析總體流程圖為圖1所示。
圖1 運用關(guān)聯(lián)規(guī)則分析流程圖
2.1 關(guān)聯(lián)算法過程Apriori算法[1-3]主要利用逐層搜索的迭代方法進行挖掘,其中k項集用于尋找k+1項集。首先通過完整的掃描數(shù)據(jù)庫,累計每個項的出現(xiàn)次數(shù),并收集符合最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然后,利用L1找出頻繁2項集的集合L2,再次利用L2找出L3,如此下去,直到不能再找出頻繁k 項集。找出的每個Lk需要在數(shù)據(jù)庫一次完整的掃描。它可以用于挖掘事件數(shù)據(jù)集內(nèi)有價值的、未知的卻又實際存在的數(shù)據(jù)關(guān)系,找到這些關(guān)系——關(guān)聯(lián)規(guī)則,并利用即可達到某些預測功能。算法流程圖如圖2所示。
圖2 運用Apriori算法分析流程圖
2.2 挖掘頻繁項集具體實現(xiàn)
1.連接步:連接的作用是生成候選K項集。對預先設定的最小支持度,通過對項數(shù)為1的候選1項集C1,刪除小于最小支持度的項集得到頻繁1項集L1;然后L 1由通過與自身連接生成候選2項集C2,保留C2中滿足最小支持度的項集,
得到頻繁2項集L2;而后由L2與L2連接生成候選3項集C3,保留C3中滿足最小支持度的項集得到頻繁3項集L 3,如此不斷循環(huán),將會得到頻繁項集Lk。
2.剪枝步:緊跟著連接步后面的就是剪枝,剪枝的作用通過對比最小支持度,將不滿足的項集剔除掉,為下一步的運算縮小搜索空間的范圍。因為頻繁項集的所有非空子集也是頻繁項集,則Lk-1與Lk-1連接生成Ck也是頻繁項集。
3.先驗性質(zhì):頻繁項集的所有非空子集也是頻繁項集。其流程圖如圖3所示。
圖3 Apriori算法流程圖
采用Matlab語言進行編寫,需要將等級用字符代替,其關(guān)系表如表1所示:
表1 科目等級與字符對應關(guān)系表
挖掘12000條關(guān)聯(lián)規(guī)則,如表2所示。
表2 篩選后的關(guān)聯(lián)規(guī)則
5 E1→Z2 77.1930% 83.8095% 5 E2→Z2 --6 F1→Z2 49.1228% 91.8033% 6 F2→Z2 18.4211% 95.4545%7 G1→Z2--7 G2→Z2 48.2456% 82.0896%8 H1→Z2--8 H2→Z2 73.6842% 84.8485%9 I1→Z2 5.2632% 85.7143% 9 I2→Z2 74.5614% 81.7308%
得到科目規(guī)則關(guān)系如圖4、圖5所示。
圖4 單科目優(yōu)秀與總評良好的規(guī)則
圖5 單科目良好與總評良好的規(guī)則
為提取出多個科目之間對總評的影響,使用主成分分析法將“重要”科目先篩選出來,而后利用Apriori算法進行關(guān)聯(lián)規(guī)則分析,選取兩個科目進行分析,提取出兩個科目與總評成績的規(guī)則如下。通過主成分分析法,得到的兩個科目分別為“科目7、科目8”,將兩個科目個等級的成績兩兩組合與總評良好之間的規(guī)則表如表4所示。
表4 科目7、科目8與總評關(guān)聯(lián)規(guī)則
由上表可知,可以得到刺殺與擒敵術(shù)兩個科目的成績與總評成績之間的關(guān)系,例如:“G2,H2→Z2”表示當刺殺與擒敵都取得良好的成績時,總評取得良好的成績的概率為43.8596%。而“G4,H2→Z2”表示刺殺取得及格,擒敵取得良好的情況下,總評良好的概率為28.9474%。其余科目與科目或與總評成績之間的關(guān)系可以在結(jié)果中查找并進行分析。
本文運用Apriori算法主要在給定支持度與置信度的情況下對科目與科目,科目與總評之間的關(guān)聯(lián)規(guī)則的分析,結(jié)果較為詳實,有較強的參考性。