王歡+張麗萍+閆盛
摘 要:針對克隆代碼有害性預(yù)測中有害和無害數(shù)據(jù)分類不平衡的問題,提出一種基于隨機下采樣(RUS)的能夠自動調(diào)整分類不平衡的K-Balance算法。首先對克隆代碼提取靜態(tài)特征和演化特征構(gòu)建樣本數(shù)據(jù)集;然后選取比例不同的分類不平衡新數(shù)據(jù)集;接著對已選取的新數(shù)據(jù)集進行有害性預(yù)測;最后,通過觀察分類器的不同表現(xiàn)自動選擇一個最適合的分類不平衡比例值。在7款C語言開源軟件共170個版本上對克隆有害性預(yù)測模型的性能進行評估,并和其他分類不平衡解決方法進行對比,實驗結(jié)果表明所提方法對有害和無害克隆的分類預(yù)測效果(受試者工作特征曲線下方面積(AUC)值)提高了2.62個百分點~36.70個百分點,能有效地改善分類不平衡的預(yù)測問題,為軟件質(zhì)量評估提供了參考。
關(guān)鍵詞:克隆代碼;有害性;不平衡分類;隨機下采樣;參數(shù)搜索
中圖分類號: TP311.5
文獻標志碼:A
文章編號:1001-9081(2016)12-3468-08