一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用研究

2016-07-09 08:06:51沈永梅王暉

數(shù)字技術(shù)與應(yīng)用 2016年6期

沈永梅　王暉

摘要：對于數(shù)據(jù)擁有者來講，數(shù)據(jù)挖掘服務(wù)的提供能夠?yàn)槠溟_展相關(guān)工作提供較大的便利。因此，基于這種認(rèn)識，本文對一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)進(jìn)行了分析，并且對其在網(wǎng)頁數(shù)據(jù)信息挖掘和分析上的應(yīng)用展開了探討，從而為關(guān)注這一話題的人們提供參考。

關(guān)鍵詞：Hadoop 大數(shù)據(jù)挖掘云服務(wù) 應(yīng)用

中圖分類號：TP311.5 文獻(xiàn)標(biāo)識碼：A 文章編號：1007-9416（2016）06-0000-00

1基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)

1.1云服務(wù)架構(gòu)分析

云服務(wù)WMCS是新一代基于Hadoop的數(shù)據(jù)分析和挖掘平臺，其集成了多種基于Hadoop的數(shù)據(jù)挖掘算法，能夠?yàn)檎畽C(jī)構(gòu)、企業(yè)進(jìn)行數(shù)據(jù)挖掘提供支持。而所謂的Hadoop，其實(shí)就是可以進(jìn)行穩(wěn)定且可靠的接口及數(shù)據(jù)服務(wù)提供的平臺，可以實(shí)現(xiàn)MAP/Reduce算法，并且能夠?qū)⑽谋緞澐殖煽芍貜?fù)執(zhí)行的若干個(gè)單元。在整個(gè)平臺中，MAP/Reduce算法、分布式文件系統(tǒng)（HDFS）和分布式按列存儲數(shù)據(jù)庫（HBase）將始終貫穿。利用這些算法和數(shù)據(jù)庫結(jié)構(gòu)，系統(tǒng)能夠以較高傳輸率進(jìn)行大量數(shù)據(jù)訪問，并且能夠?qū)崿F(xiàn)文本數(shù)據(jù)的分流訪問[1]。此外，Hadoop平臺也能夠?qū)崿F(xiàn)數(shù)據(jù)分解，并且完成大量數(shù)據(jù)的分析和處理。

從云服務(wù)WMCS體系結(jié)構(gòu)上來看，該平臺主要由用戶管理模塊、數(shù)據(jù)管理模塊、任務(wù)管理模塊和結(jié)果顯示模塊等幾大模塊構(gòu)成。采用分布式文件系統(tǒng)和分布式按列存儲數(shù)據(jù)庫，平臺將能進(jìn)行大量數(shù)據(jù)的存儲，并且確保用戶能夠進(jìn)行數(shù)據(jù)的快速訪問。利用Web界面，平臺則能向用戶展示數(shù)據(jù)挖掘結(jié)果。利用用戶管理模塊，平臺則能夠?qū)τ脩暨M(jìn)行權(quán)限管理，從而使用戶只能進(jìn)行有權(quán)限的數(shù)據(jù)的訪問和管理，并且進(jìn)行相應(yīng)的數(shù)據(jù)挖掘功能的使用。利用任務(wù)管理模塊，用戶則能夠進(jìn)行挖掘任務(wù)和監(jiān)控任務(wù)進(jìn)度的查看。而平臺的各個(gè)模塊需要與后臺挖掘系統(tǒng)進(jìn)行對接，才能夠?qū)崿F(xiàn)各種功能，并且最終利用圖形進(jìn)行算法分析結(jié)果的展示。

1.2數(shù)據(jù)挖掘的實(shí)現(xiàn)

從數(shù)據(jù)挖掘?qū)崿F(xiàn)角度來看，云服務(wù)WMCS是并行數(shù)據(jù)挖掘系統(tǒng)，其中含有40多種數(shù)據(jù)挖掘算法，能夠利用多種算法完成數(shù)據(jù)的預(yù)處理操作。在該系統(tǒng)中，包含有文本處理與建模系統(tǒng)、信息采集系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)和前臺接口。在系統(tǒng)運(yùn)行的過程中，信息采集系統(tǒng)會將數(shù)據(jù)存儲至分布式文件系統(tǒng)中，然后將網(wǎng)頁描述信息存儲至分布式按列存儲數(shù)據(jù)庫中。而信息采集需要以基于MAP的并行網(wǎng)絡(luò)爬蟲為主體，可以為多種采集模式提供支持。在文本預(yù)測及建模系統(tǒng)中，則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預(yù)處理模塊[2]。利用數(shù)據(jù)挖掘系統(tǒng)，則可以利用情感分析算法、關(guān)聯(lián)分析算法、摘要提取算法等多種數(shù)據(jù)挖掘算法完成海量數(shù)據(jù)的挖掘。而利用MAP，則可以使這些算法獨(dú)立運(yùn)行。此外，在并行數(shù)據(jù)挖掘系統(tǒng)中，還包含基于內(nèi)存計(jì)算框架Spark的數(shù)據(jù)挖掘算法，可以為用戶提供開放服務(wù)。

2基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)的應(yīng)用研究

2.1應(yīng)用介紹

利用Hadoop的大數(shù)據(jù)挖掘云服務(wù)WMCS，可以從網(wǎng)絡(luò)數(shù)據(jù)信息中挖掘出有效的信息，從而為政府開展相關(guān)管理工作提供便利。就目前來看，社會熱點(diǎn)和重大新聞在網(wǎng)絡(luò)上的傳播速度較快。政府管理者在開展民情調(diào)查和社會調(diào)查等工作時(shí)，可以借助互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)進(jìn)行管理決策的制定。而使用云服務(wù)WMCS，則可以利用較為簡便的數(shù)據(jù)挖掘流程進(jìn)行網(wǎng)絡(luò)事件的話題分析。同時(shí)，通過簡單的配置，系統(tǒng)分析結(jié)果也將以多維度圖形呈現(xiàn)出來，從而為用戶開展相關(guān)管理工作提供便利。

2.2應(yīng)用流程

以2015年年末的國內(nèi)熱點(diǎn)事件“習(xí)馬會”為例，如果用戶想要了解該話題的分布情況，就可以直接在系統(tǒng)界面上輸入“習(xí)馬會”這一關(guān)鍵詞。而通過修改采集網(wǎng)頁數(shù)量等參數(shù)，用戶就可以完成系統(tǒng)的簡單配置。在此基礎(chǔ)上，系統(tǒng)將開始運(yùn)行挖掘任務(wù)。具體來講，就是以關(guān)鍵詞為檢索項(xiàng)進(jìn)行搜索請求的發(fā)出。根據(jù)這一請求，搜索引擎進(jìn)進(jìn)行相關(guān)網(wǎng)頁的搜集，然后返回設(shè)定數(shù)量的網(wǎng)頁。所以，從云服務(wù)WMCS的應(yīng)用流程上來看，系統(tǒng)運(yùn)行是一種話題分析流程。在系統(tǒng)運(yùn)行的過程中，后臺將同時(shí)進(jìn)行多個(gè)子話題的并行預(yù)處理，然后利用基于單掃描增量式聚類的并行主體發(fā)現(xiàn)算法完成數(shù)據(jù)的挖掘分析。通過將半結(jié)構(gòu)化的原始網(wǎng)頁處理成稀疏詞頻向量，系統(tǒng)將能利用并行主題發(fā)現(xiàn)算法實(shí)現(xiàn)向量的主題發(fā)現(xiàn)，然后進(jìn)行網(wǎng)頁文檔群隱含話題的自動挖掘。完成挖掘流程之后，系統(tǒng)就可以利用多維度呈現(xiàn)技術(shù)進(jìn)行用戶關(guān)心熱點(diǎn)事件分析結(jié)果的呈現(xiàn)。

2.3應(yīng)用效果

從云服務(wù)WMCS的應(yīng)用效果上來看，系統(tǒng)將利用餅圖進(jìn)行“習(xí)馬會”話題分析結(jié)果的展示。在執(zhí)行的話題分析任務(wù)中，分析的網(wǎng)頁將形成7個(gè)聚類，每個(gè)聚類所占的比例也將得到顯示。而在餅圖的下方，也會出現(xiàn)用于展示聚類內(nèi)部網(wǎng)頁文檔標(biāo)題、內(nèi)部關(guān)鍵詞和相關(guān)統(tǒng)計(jì)信息的表格。針對網(wǎng)絡(luò)中大量存在的網(wǎng)頁，云服務(wù)WMCS還能夠進(jìn)行話題關(guān)鍵詞檢索服務(wù)的提供。通過對超過167萬網(wǎng)頁進(jìn)行話題分析，系統(tǒng)將完成超過100GB原始數(shù)據(jù)量的分析，并且最終形成5002個(gè)話題類。而通過將話題的關(guān)鍵詞進(jìn)行倒排索引，則能夠?yàn)橛脩籼峁╆P(guān)鍵詞檢索服務(wù)。

參考文獻(xiàn)

[1]鄧仲華，劉偉偉，陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐，2015，07：103-108.

[2]余永紅，向曉軍，高陽等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索，2012，01：46-57.