沈永梅 王暉
摘要:對于數(shù)據(jù)擁有者來講,數(shù)據(jù)挖掘服務(wù)的提供能夠?yàn)槠溟_展相關(guān)工作提供較大的便利。因此,基于這種認(rèn)識,本文對一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)進(jìn)行了分析,并且對其在網(wǎng)頁數(shù)據(jù)信息挖掘和分析上的應(yīng)用展開了探討,從而為關(guān)注這一話題的人們提供參考。
關(guān)鍵詞:Hadoop 大數(shù)據(jù)挖掘 云服務(wù) 應(yīng)用
中圖分類號:TP311.5 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)06-0000-00
1基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)
1.1云服務(wù)架構(gòu)分析
云服務(wù)WMCS是新一代基于Hadoop的數(shù)據(jù)分析和挖掘平臺,其集成了多種基于Hadoop的數(shù)據(jù)挖掘算法,能夠?yàn)檎畽C(jī)構(gòu)、企業(yè)進(jìn)行數(shù)據(jù)挖掘提供支持。而所謂的Hadoop,其實(shí)就是可以進(jìn)行穩(wěn)定且可靠的接口及數(shù)據(jù)服務(wù)提供的平臺,可以實(shí)現(xiàn)MAP/Reduce算法,并且能夠?qū)⑽谋緞澐殖煽芍貜?fù)執(zhí)行的若干個(gè)單元。在整個(gè)平臺中,MAP/Reduce算法、分布式文件系統(tǒng)(HDFS)和分布式按列存儲數(shù)據(jù)庫(HBase)將始終貫穿。利用這些算法和數(shù)據(jù)庫結(jié)構(gòu),系統(tǒng)能夠以較高傳輸率進(jìn)行大量數(shù)據(jù)訪問,并且能夠?qū)崿F(xiàn)文本數(shù)據(jù)的分流訪問[1]。此外,Hadoop平臺也能夠?qū)崿F(xiàn)數(shù)據(jù)分解,并且完成大量數(shù)據(jù)的分析和處理。
從云服務(wù)WMCS體系結(jié)構(gòu)上來看,該平臺主要由用戶管理模塊、數(shù)據(jù)管理模塊、任務(wù)管理模塊和結(jié)果顯示模塊等幾大模塊構(gòu)成。采用分布式文件系統(tǒng)和分布式按列存儲數(shù)據(jù)庫,平臺將能進(jìn)行大量數(shù)據(jù)的存儲,并且確保用戶能夠進(jìn)行數(shù)據(jù)的快速訪問。利用Web界面,平臺則能向用戶展示數(shù)據(jù)挖掘結(jié)果。利用用戶管理模塊,平臺則能夠?qū)τ脩暨M(jìn)行權(quán)限管理,從而使用戶只能進(jìn)行有權(quán)限的數(shù)據(jù)的訪問和管理,并且進(jìn)行相應(yīng)的數(shù)據(jù)挖掘功能的使用。利用任務(wù)管理模塊,用戶則能夠進(jìn)行挖掘任務(wù)和監(jiān)控任務(wù)進(jìn)度的查看。而平臺的各個(gè)模塊需要與后臺挖掘系統(tǒng)進(jìn)行對接,才能夠?qū)崿F(xiàn)各種功能,并且最終利用圖形進(jìn)行算法分析結(jié)果的展示。
1.2數(shù)據(jù)挖掘的實(shí)現(xiàn)
從數(shù)據(jù)挖掘?qū)崿F(xiàn)角度來看,云服務(wù)WMCS是并行數(shù)據(jù)挖掘系統(tǒng),其中含有40多種數(shù)據(jù)挖掘算法,能夠利用多種算法完成數(shù)據(jù)的預(yù)處理操作。在該系統(tǒng)中,包含有文本處理與建模系統(tǒng)、信息采集系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)和前臺接口。在系統(tǒng)運(yùn)行的過程中,信息采集系統(tǒng)會將數(shù)據(jù)存儲至分布式文件系統(tǒng)中,然后將網(wǎng)頁描述信息存儲至分布式按列存儲數(shù)據(jù)庫中。而信息采集需要以基于MAP的并行網(wǎng)絡(luò)爬蟲為主體,可以為多種采集模式提供支持。在文本預(yù)測及建模系統(tǒng)中,則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預(yù)處理模塊[2]。利用數(shù)據(jù)挖掘系統(tǒng),則可以利用情感分析算法、關(guān)聯(lián)分析算法、摘要提取算法等多種數(shù)據(jù)挖掘算法完成海量數(shù)據(jù)的挖掘。而利用MAP,則可以使這些算法獨(dú)立運(yùn)行。此外,在并行數(shù)據(jù)挖掘系統(tǒng)中,還包含基于內(nèi)存計(jì)算框架Spark的數(shù)據(jù)挖掘算法,可以為用戶提供開放服務(wù)。
2基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)的應(yīng)用研究
2.1應(yīng)用介紹
利用Hadoop的大數(shù)據(jù)挖掘云服務(wù)WMCS,可以從網(wǎng)絡(luò)數(shù)據(jù)信息中挖掘出有效的信息,從而為政府開展相關(guān)管理工作提供便利。就目前來看,社會熱點(diǎn)和重大新聞在網(wǎng)絡(luò)上的傳播速度較快。政府管理者在開展民情調(diào)查和社會調(diào)查等工作時(shí),可以借助互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)進(jìn)行管理決策的制定。而使用云服務(wù)WMCS,則可以利用較為簡便的數(shù)據(jù)挖掘流程進(jìn)行網(wǎng)絡(luò)事件的話題分析。同時(shí),通過簡單的配置,系統(tǒng)分析結(jié)果也將以多維度圖形呈現(xiàn)出來,從而為用戶開展相關(guān)管理工作提供便利。
2.2應(yīng)用流程
以2015年年末的國內(nèi)熱點(diǎn)事件“習(xí)馬會”為例,如果用戶想要了解該話題的分布情況,就可以直接在系統(tǒng)界面上輸入“習(xí)馬會”這一關(guān)鍵詞。而通過修改采集網(wǎng)頁數(shù)量等參數(shù),用戶就可以完成系統(tǒng)的簡單配置。在此基礎(chǔ)上,系統(tǒng)將開始運(yùn)行挖掘任務(wù)。具體來講,就是以關(guān)鍵詞為檢索項(xiàng)進(jìn)行搜索請求的發(fā)出。根據(jù)這一請求,搜索引擎進(jìn)進(jìn)行相關(guān)網(wǎng)頁的搜集,然后返回設(shè)定數(shù)量的網(wǎng)頁。所以,從云服務(wù)WMCS的應(yīng)用流程上來看,系統(tǒng)運(yùn)行是一種話題分析流程。在系統(tǒng)運(yùn)行的過程中,后臺將同時(shí)進(jìn)行多個(gè)子話題的并行預(yù)處理,然后利用基于單掃描增量式聚類的并行主體發(fā)現(xiàn)算法完成數(shù)據(jù)的挖掘分析。通過將半結(jié)構(gòu)化的原始網(wǎng)頁處理成稀疏詞頻向量,系統(tǒng)將能利用并行主題發(fā)現(xiàn)算法實(shí)現(xiàn)向量的主題發(fā)現(xiàn),然后進(jìn)行網(wǎng)頁文檔群隱含話題的自動挖掘。完成挖掘流程之后,系統(tǒng)就可以利用多維度呈現(xiàn)技術(shù)進(jìn)行用戶關(guān)心熱點(diǎn)事件分析結(jié)果的呈現(xiàn)。
2.3應(yīng)用效果
從云服務(wù)WMCS的應(yīng)用效果上來看,系統(tǒng)將利用餅圖進(jìn)行“習(xí)馬會”話題分析結(jié)果的展示。在執(zhí)行的話題分析任務(wù)中,分析的網(wǎng)頁將形成7個(gè)聚類,每個(gè)聚類所占的比例也將得到顯示。而在餅圖的下方,也會出現(xiàn)用于展示聚類內(nèi)部網(wǎng)頁文檔標(biāo)題、內(nèi)部關(guān)鍵詞和相關(guān)統(tǒng)計(jì)信息的表格。針對網(wǎng)絡(luò)中大量存在的網(wǎng)頁,云服務(wù)WMCS還能夠進(jìn)行話題關(guān)鍵詞檢索服務(wù)的提供。通過對超過167萬網(wǎng)頁進(jìn)行話題分析,系統(tǒng)將完成超過100GB原始數(shù)據(jù)量的分析,并且最終形成5002個(gè)話題類。而通過將話題的關(guān)鍵詞進(jìn)行倒排索引,則能夠?yàn)橛脩籼峁╆P(guān)鍵詞檢索服務(wù)。
參考文獻(xiàn)
[1]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,07:103-108.
[2]余永紅,向曉軍,高陽等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012,01:46-57.