吳華芹 柳靜
摘要:網(wǎng)絡(luò)數(shù)據(jù)挖掘旨在從網(wǎng)絡(luò)數(shù)據(jù)源中提取隱含的知識,借助傳統(tǒng)的數(shù)據(jù)挖掘方法很難實(shí)現(xiàn)。網(wǎng)絡(luò)數(shù)據(jù)挖掘注重事物之間的屬性及聯(lián)系,通過無數(shù)個體數(shù)據(jù)的分析和特殊算法的使用,實(shí)現(xiàn)模型的可視化和連接趨勢。網(wǎng)絡(luò)數(shù)據(jù)挖掘方法是傳統(tǒng)數(shù)據(jù)挖掘方法的補(bǔ)充,可以很好地解決復(fù)雜的自然屬性組成的問題。該文提出了社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的方法與技術(shù),提出了相關(guān)數(shù)據(jù)分析及模型設(shè)計(jì)。
關(guān)鍵詞:網(wǎng)絡(luò)數(shù)據(jù)挖掘;Harr特征;AdaBoost分類
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)24-0013-02
隨著信息技術(shù)的迅猛發(fā)展,人類社會大步邁入了網(wǎng)絡(luò)時代,網(wǎng)絡(luò)數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘中的一個重要研究課題。網(wǎng)絡(luò)數(shù)據(jù)挖掘注重事物之間的屬性及聯(lián)系,通過無數(shù)個體數(shù)據(jù)的分析和特殊算法的使用,實(shí)現(xiàn)模型的可視化和連接趨勢。運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)挖掘可以很好地解決復(fù)雜的自然屬性組成的問題。
1 數(shù)據(jù)挖掘技術(shù)
1.1概念
數(shù)據(jù)挖掘就是借助程序管理對海量數(shù)據(jù)進(jìn)行分析歸納匯總。其挖掘程序依次為應(yīng)用界面層、應(yīng)用服務(wù)層和數(shù)據(jù)庫層。三層結(jié)構(gòu)緊密聯(lián)系,互相配合完成數(shù)據(jù)挖掘任務(wù)。用戶要進(jìn)行數(shù)據(jù)挖掘,需要應(yīng)用界面層的請求響應(yīng),請求信息反映到應(yīng)用服務(wù)層后,得到允許才可以進(jìn)入數(shù)據(jù)庫訪問,提取相關(guān)數(shù)據(jù)并進(jìn)行分析。數(shù)據(jù)挖掘可以有效地對數(shù)據(jù)進(jìn)行整理與分析,使之規(guī)范化與合理化,方便匯總與管理,提高了相關(guān)數(shù)據(jù)的安全性與有序性,提高了管理效率與管理水平。
1.2傳統(tǒng)數(shù)據(jù)挖掘
1.3網(wǎng)絡(luò)數(shù)據(jù)挖掘
網(wǎng)絡(luò)數(shù)據(jù)挖掘是個新生事物,籠統(tǒng)地講析太過抽象,所以我們就以社交網(wǎng)站為例來探析下網(wǎng)絡(luò)數(shù)據(jù)挖掘。微博誕生也不過數(shù)年光景,就以之為例。微博是大家熟知的社交網(wǎng)站,通過社交網(wǎng)站的數(shù)據(jù)挖掘的管理流程,就可窺一斑而見全豹,對整個網(wǎng)絡(luò)數(shù)據(jù)挖掘的方法與技術(shù)就都可以融會貫通了。我們可以舉個例子,譬如應(yīng)用面向?qū)ο蟮南到y(tǒng)分析方法與設(shè)計(jì)等等。
2 網(wǎng)絡(luò)數(shù)據(jù)挖掘方法
2.1構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)挖掘體系
網(wǎng)絡(luò)技術(shù)的快速發(fā)展,對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行海選分析及綜合提供了便利。以社交網(wǎng)站為例,如果要進(jìn)行相關(guān)信息的數(shù)據(jù)挖掘,實(shí)現(xiàn)高質(zhì)量與高效率,就要通過對海量數(shù)據(jù)的處理與整合,使用數(shù)據(jù)倉庫技術(shù)及數(shù)據(jù)挖掘技術(shù)是個不錯的選擇。為最大限度節(jié)約時間及減少運(yùn)行成本,構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)挖掘體系是至關(guān)重要的。一般體系結(jié)構(gòu)如下圖所示(圖2)。構(gòu)建了數(shù)據(jù)倉庫體系,可以高效對數(shù)據(jù)進(jìn)行管理與匯總,對相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,最后得出自己需要的信息。
2.2 網(wǎng)絡(luò)數(shù)據(jù)挖掘分析
2.2.1 圖像內(nèi)容的信息挖掘
網(wǎng)絡(luò)用戶很多喜歡上傳分享一些照片、視頻等圖像內(nèi)容,對這類信息如何進(jìn)行挖掘呢?人們一般運(yùn)用積分圖加速Harr特征來進(jìn)行信息提取。
Harr特征一般分為邊緣特征、斜線特征、中心特征和對角線特征四個類別。將這些特征融合在一起就可以形成新的特征模板。新的特征模板內(nèi)都有白色與黑色區(qū)域,其特征值為白色像素減去黑色像素的差。
3 小結(jié)
網(wǎng)絡(luò)數(shù)據(jù)挖掘是個技術(shù)性很強(qiáng)的全新課題,需要在實(shí)際電腦操作中進(jìn)行不斷學(xué)習(xí)與實(shí)踐。本文只是簡單介紹了一些常用的方法與技術(shù),由于篇幅有限,對具體操作也只是做了簡單介紹,希望能為廣大朋友牽線搭橋,拋磚引玉,為今后在實(shí)際運(yùn)用中做個指導(dǎo)。
參考文獻(xiàn):
[1] 林秀琴.一種改進(jìn)的Snort系統(tǒng)模型[J].電腦知識與技術(shù),2011(13).
[2] 付雄.基于分布式智能代理的反網(wǎng)絡(luò)洗錢技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2011(7).
[3] 孫燕花,李杰,李建.基于CURE算法的網(wǎng)絡(luò)用戶行為分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(9).
[4] 劉夢超,肖基毅,陳榮,等.數(shù)據(jù)挖掘在用戶上網(wǎng)行為分析中的應(yīng)用研究[J].電腦知識與技術(shù),2012(31).