薛永大
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上豐富的網(wǎng)頁數(shù)據(jù)為各種應(yīng)用研究提供了海量信息,網(wǎng)頁分類是信息組織管理和信息檢索的重要技術(shù)。隨著最近幾年的不斷研究,網(wǎng)頁分類技術(shù)又有了新發(fā)展,文章首先對網(wǎng)頁預(yù)處理、特征選擇與提取、網(wǎng)頁表示模型、分類算法和評價指標(biāo)等基礎(chǔ)技術(shù)的研究動態(tài)進(jìn)行了歸納和總結(jié);其次,對近年來網(wǎng)頁分類方法的新進(jìn)展綜述分析;最后,文章對研究中面臨的主要挑戰(zhàn)和發(fā)展趨勢進(jìn)行了討論和展望。
關(guān)鍵詞:網(wǎng)頁分類;網(wǎng)頁模型;特征提??;分類算法;評估指標(biāo)