數(shù)據(jù)挖掘旨在利用智能數(shù)據(jù)分析技術,從海量數(shù)據(jù)中提取或挖掘潛在的知識和規(guī)律,為決策任務提供有效支撐.在大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術已在工業(yè)、金融、醫(yī)療、教育、交通、媒體等領域取得廣泛應用.然而,大數(shù)據(jù)的復雜多樣性也為數(shù)據(jù)挖掘研究在理論、方法、應用等多個層面提出了新的挑戰(zhàn).
為及時反映國內同行在數(shù)據(jù)挖掘方面的研究進展,促進該領域的學術交流,并推動我國數(shù)據(jù)挖掘領域的創(chuàng)新發(fā)展,《計算機研究與發(fā)展》本次推出“數(shù)據(jù)挖掘前沿進展”專題.本專題得到了國內同行的廣泛關注,經公開征文共收到投稿65篇,審稿過程歷經2個月,每篇投稿由數(shù)據(jù)挖掘及相關領域的2位專家進行評審,3位特約編輯參考初審意見進行復審,最終有10篇優(yōu)秀稿件入選本專題.此外,專題與第九屆中國數(shù)據(jù)挖掘會議(CCDM 2022)合作,所有專題錄用稿件在CCDM 2022會議報告交流.
首先,基于機器學習的智能數(shù)據(jù)分析技術是數(shù)據(jù)挖掘研究的基礎,同時也是熱點.姜高霞等人的論文“面向回歸任務的數(shù)值型標簽噪聲過濾算法”證明了針對回歸任務中數(shù)值型標簽噪聲數(shù)據(jù)的泛化誤差界,由此提出一種可解釋的噪聲過濾框架,并結合相對噪聲估計方法提出一種具體的相對噪聲過濾算法RNF;在標準數(shù)據(jù)集和年齡估計數(shù)據(jù)上的實驗結果表明,RNF算法不僅能夠適應各類噪聲數(shù)據(jù),而且能夠顯著提升模型泛化能力.梁新彥等人的論文“多粒度融合驅動的超多視圖分類方法”針對現(xiàn)有融合算子在視圖數(shù)增多時面臨的諸多挑戰(zhàn),采用由易到難建模視圖特征間關系的多粒度策略,提出了一種多粒度融合的超多視圖分類方法.劉兆清等人的論文“面向特征繼承性增減的在線分類算法”針對開放動態(tài)環(huán)境,提出了一種可處理特征繼承性增減的在線分類算法OFID,從理論上證明了OFID的損失上界,并通過大量的實驗驗證其有效性.任嘉睿等人的論文“基于元圖卷積的異質網(wǎng)絡嵌入學習算法”通過基于元圖的異構鄰接矩陣融合多條元路徑上的不同語義的計算,提出了一種基于元圖卷積的異質網(wǎng)絡嵌入學習算法MGCN,能夠挖掘節(jié)點間的高階間接關系,并降低圖卷積方法的嵌入維數(shù),減少計算時間;在公開異質網(wǎng)絡數(shù)據(jù)集上的實驗表明,MGCN在節(jié)點分類、聚類任務上能獲得更好的性能且需更少的訓練時間.馬昂等人的論文“基于強化學習的知識圖譜綜述”對基于強化學習的知識圖譜相關研究進行了全面綜述,介紹了基于強化學習的知識圖譜方法如何應用于智能推薦、對話系統(tǒng)、游戲攻略、生物醫(yī)藥、金融、安全等領域,并對知識圖譜與強化學習相結合的未來發(fā)展方向進行了展望.
其次,研究特定類型數(shù)據(jù)挖掘技術在大數(shù)據(jù)時代具有重要意義.魏秀參等人的論文“面向增量分類的多示例學習”針對多示例學習下的增量數(shù)據(jù)挖掘任務,提出一種基于注意力機制和原型分類器映射的多示例增量數(shù)據(jù)挖掘方法,能夠在多示例學習下以極低的存儲代價保留模型的舊知識,有效地進行增量數(shù)據(jù)挖掘.武越等人的論文“點云配準中多維度信息融合的特征挖掘方法”針對點云配準任務,提出一種新穎的基于多維度信息融合的特征挖掘網(wǎng)絡,充分挖掘點云中的高維全局和低維局部信息,有效彌補了點云配準的全局特征提取階段局部特征的缺失;ModelNet40數(shù)據(jù)集上的大量實驗表明,該方法可獲得更高的精度,同時對噪聲具有較強的魯棒性.郭正山等人的論文“面向知識超圖鏈接預測的生成對抗負采樣方法”針對知識超圖鏈接預測任務,提出了生成對抗負采樣方法HyperGAN,無需預訓練,通過對抗訓練生成高質量負樣本以解決“零損失”問題,在性能與效率方面均優(yōu)于已有方法.范偉等人的論文“基于時空Transformer的社交網(wǎng)絡信息傳播預測”針對社交網(wǎng)絡信息傳播預測任務,提出了一種基于時空Transformer的新模型STT,首先使用圖卷積網(wǎng)絡從由社交網(wǎng)絡圖和動態(tài)傳播圖組成的異構圖中學習用戶的結構特征,然后使用Transformer融合用戶的時序特征和結構特征,從而進行信息傳播預測.姚麗等人的論文“基于校園上網(wǎng)行為感知的學生成績預測方法”收集構建了一個同時包含學生校園上網(wǎng)行為和成績數(shù)據(jù)的真實數(shù)據(jù)集,并通過分析揭示了兩者之間存在一定的關聯(lián)性,由此提出一種端到端的雙層自注意力網(wǎng)絡DEAN,并通過結合多任務學習策略解決了面向不同專業(yè)的學生成績預測問題;實驗結果表明,提出方法DEAN具有更好的預測精度.
本專題主要面數(shù)據(jù)挖掘及相關領域的研究人員,反映了我國學者在數(shù)據(jù)挖掘等領域的前沿進展.在此,我們要特別感謝《計算機研究與發(fā)展》編委會對專題工作的指導和幫助,感謝編輯部各位老師在專題征文、論文評審與意見匯總、論文定稿、修改及出版各個階段付出的辛勤工作和汗水,感謝專題評審專家及時、耐心、細致的評審工作.此外,我們還要感謝向本專題踴躍投稿的作者對《計算機研究與發(fā)展》的信任.最后,感謝專題的讀者們,希望本專題能夠對相關領域的研究工作有所促進.