余海+李斌+王培霞+賈荻+王永吉
摘 要:源代碼注釋是軟件的重要組成部分,研究者往往需要利用人工或自動化的方法產生分析注釋,注釋的質量評估也往往是通過人工來完成,這無疑是低效不客觀的。為此,首先從注釋的格式、語言形式、內容以及與代碼相關度4個方面出發(fā)構建注釋評估準則;進而,基于這一準則提出了一種基于組合分類算法的注釋質量評估方法。該方法將機器學習以及自然語言處理技術引入到注釋質量評估中來,利用分類算法將注釋分為不合格、合格、良好、優(yōu)秀四個等級。通過對基本分類算法的組合使用,使得評估效果進一步提高。組合分類算法的準確率和F1值較單獨使用某一種分類算法提高20個百分點左右,除宏平均F1值外,各項指標都達到了70%以上。實驗結果表明,所提方法能夠很好地應用于注釋質量評估。
關鍵詞:源碼注釋;質量評估;文本分類;組合算法;自然語言處理
中圖分類號:TP311
文獻標志碼:A
文章編號:1001-9081(2016)12-3448-06