• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用研究

      2016-07-09 08:06:51沈永梅王暉
      關(guān)鍵詞:云服務(wù)應(yīng)用

      沈永梅 王暉

      摘要:對于數(shù)據(jù)擁有者來講,數(shù)據(jù)挖掘服務(wù)的提供能夠?yàn)槠溟_展相關(guān)工作提供較大的便利。因此,基于這種認(rèn)識,本文對一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)進(jìn)行了分析,并且對其在網(wǎng)頁數(shù)據(jù)信息挖掘和分析上的應(yīng)用展開了探討,從而為關(guān)注這一話題的人們提供參考。

      關(guān)鍵詞:Hadoop 大數(shù)據(jù)挖掘 云服務(wù) 應(yīng)用

      中圖分類號:TP311.5 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)06-0000-00

      1基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)

      1.1云服務(wù)架構(gòu)分析

      云服務(wù)WMCS是新一代基于Hadoop的數(shù)據(jù)分析和挖掘平臺,其集成了多種基于Hadoop的數(shù)據(jù)挖掘算法,能夠?yàn)檎畽C(jī)構(gòu)、企業(yè)進(jìn)行數(shù)據(jù)挖掘提供支持。而所謂的Hadoop,其實(shí)就是可以進(jìn)行穩(wěn)定且可靠的接口及數(shù)據(jù)服務(wù)提供的平臺,可以實(shí)現(xiàn)MAP/Reduce算法,并且能夠?qū)⑽谋緞澐殖煽芍貜?fù)執(zhí)行的若干個(gè)單元。在整個(gè)平臺中,MAP/Reduce算法、分布式文件系統(tǒng)(HDFS)和分布式按列存儲數(shù)據(jù)庫(HBase)將始終貫穿。利用這些算法和數(shù)據(jù)庫結(jié)構(gòu),系統(tǒng)能夠以較高傳輸率進(jìn)行大量數(shù)據(jù)訪問,并且能夠?qū)崿F(xiàn)文本數(shù)據(jù)的分流訪問[1]。此外,Hadoop平臺也能夠?qū)崿F(xiàn)數(shù)據(jù)分解,并且完成大量數(shù)據(jù)的分析和處理。

      從云服務(wù)WMCS體系結(jié)構(gòu)上來看,該平臺主要由用戶管理模塊、數(shù)據(jù)管理模塊、任務(wù)管理模塊和結(jié)果顯示模塊等幾大模塊構(gòu)成。采用分布式文件系統(tǒng)和分布式按列存儲數(shù)據(jù)庫,平臺將能進(jìn)行大量數(shù)據(jù)的存儲,并且確保用戶能夠進(jìn)行數(shù)據(jù)的快速訪問。利用Web界面,平臺則能向用戶展示數(shù)據(jù)挖掘結(jié)果。利用用戶管理模塊,平臺則能夠?qū)τ脩暨M(jìn)行權(quán)限管理,從而使用戶只能進(jìn)行有權(quán)限的數(shù)據(jù)的訪問和管理,并且進(jìn)行相應(yīng)的數(shù)據(jù)挖掘功能的使用。利用任務(wù)管理模塊,用戶則能夠進(jìn)行挖掘任務(wù)和監(jiān)控任務(wù)進(jìn)度的查看。而平臺的各個(gè)模塊需要與后臺挖掘系統(tǒng)進(jìn)行對接,才能夠?qū)崿F(xiàn)各種功能,并且最終利用圖形進(jìn)行算法分析結(jié)果的展示。

      1.2數(shù)據(jù)挖掘的實(shí)現(xiàn)

      從數(shù)據(jù)挖掘?qū)崿F(xiàn)角度來看,云服務(wù)WMCS是并行數(shù)據(jù)挖掘系統(tǒng),其中含有40多種數(shù)據(jù)挖掘算法,能夠利用多種算法完成數(shù)據(jù)的預(yù)處理操作。在該系統(tǒng)中,包含有文本處理與建模系統(tǒng)、信息采集系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)和前臺接口。在系統(tǒng)運(yùn)行的過程中,信息采集系統(tǒng)會將數(shù)據(jù)存儲至分布式文件系統(tǒng)中,然后將網(wǎng)頁描述信息存儲至分布式按列存儲數(shù)據(jù)庫中。而信息采集需要以基于MAP的并行網(wǎng)絡(luò)爬蟲為主體,可以為多種采集模式提供支持。在文本預(yù)測及建模系統(tǒng)中,則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預(yù)處理模塊[2]。利用數(shù)據(jù)挖掘系統(tǒng),則可以利用情感分析算法、關(guān)聯(lián)分析算法、摘要提取算法等多種數(shù)據(jù)挖掘算法完成海量數(shù)據(jù)的挖掘。而利用MAP,則可以使這些算法獨(dú)立運(yùn)行。此外,在并行數(shù)據(jù)挖掘系統(tǒng)中,還包含基于內(nèi)存計(jì)算框架Spark的數(shù)據(jù)挖掘算法,可以為用戶提供開放服務(wù)。

      2基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)的應(yīng)用研究

      2.1應(yīng)用介紹

      利用Hadoop的大數(shù)據(jù)挖掘云服務(wù)WMCS,可以從網(wǎng)絡(luò)數(shù)據(jù)信息中挖掘出有效的信息,從而為政府開展相關(guān)管理工作提供便利。就目前來看,社會熱點(diǎn)和重大新聞在網(wǎng)絡(luò)上的傳播速度較快。政府管理者在開展民情調(diào)查和社會調(diào)查等工作時(shí),可以借助互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)進(jìn)行管理決策的制定。而使用云服務(wù)WMCS,則可以利用較為簡便的數(shù)據(jù)挖掘流程進(jìn)行網(wǎng)絡(luò)事件的話題分析。同時(shí),通過簡單的配置,系統(tǒng)分析結(jié)果也將以多維度圖形呈現(xiàn)出來,從而為用戶開展相關(guān)管理工作提供便利。

      2.2應(yīng)用流程

      以2015年年末的國內(nèi)熱點(diǎn)事件“習(xí)馬會”為例,如果用戶想要了解該話題的分布情況,就可以直接在系統(tǒng)界面上輸入“習(xí)馬會”這一關(guān)鍵詞。而通過修改采集網(wǎng)頁數(shù)量等參數(shù),用戶就可以完成系統(tǒng)的簡單配置。在此基礎(chǔ)上,系統(tǒng)將開始運(yùn)行挖掘任務(wù)。具體來講,就是以關(guān)鍵詞為檢索項(xiàng)進(jìn)行搜索請求的發(fā)出。根據(jù)這一請求,搜索引擎進(jìn)進(jìn)行相關(guān)網(wǎng)頁的搜集,然后返回設(shè)定數(shù)量的網(wǎng)頁。所以,從云服務(wù)WMCS的應(yīng)用流程上來看,系統(tǒng)運(yùn)行是一種話題分析流程。在系統(tǒng)運(yùn)行的過程中,后臺將同時(shí)進(jìn)行多個(gè)子話題的并行預(yù)處理,然后利用基于單掃描增量式聚類的并行主體發(fā)現(xiàn)算法完成數(shù)據(jù)的挖掘分析。通過將半結(jié)構(gòu)化的原始網(wǎng)頁處理成稀疏詞頻向量,系統(tǒng)將能利用并行主題發(fā)現(xiàn)算法實(shí)現(xiàn)向量的主題發(fā)現(xiàn),然后進(jìn)行網(wǎng)頁文檔群隱含話題的自動挖掘。完成挖掘流程之后,系統(tǒng)就可以利用多維度呈現(xiàn)技術(shù)進(jìn)行用戶關(guān)心熱點(diǎn)事件分析結(jié)果的呈現(xiàn)。

      2.3應(yīng)用效果

      從云服務(wù)WMCS的應(yīng)用效果上來看,系統(tǒng)將利用餅圖進(jìn)行“習(xí)馬會”話題分析結(jié)果的展示。在執(zhí)行的話題分析任務(wù)中,分析的網(wǎng)頁將形成7個(gè)聚類,每個(gè)聚類所占的比例也將得到顯示。而在餅圖的下方,也會出現(xiàn)用于展示聚類內(nèi)部網(wǎng)頁文檔標(biāo)題、內(nèi)部關(guān)鍵詞和相關(guān)統(tǒng)計(jì)信息的表格。針對網(wǎng)絡(luò)中大量存在的網(wǎng)頁,云服務(wù)WMCS還能夠進(jìn)行話題關(guān)鍵詞檢索服務(wù)的提供。通過對超過167萬網(wǎng)頁進(jìn)行話題分析,系統(tǒng)將完成超過100GB原始數(shù)據(jù)量的分析,并且最終形成5002個(gè)話題類。而通過將話題的關(guān)鍵詞進(jìn)行倒排索引,則能夠?yàn)橛脩籼峁╆P(guān)鍵詞檢索服務(wù)。

      參考文獻(xiàn)

      [1]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,07:103-108.

      [2]余永紅,向曉軍,高陽等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012,01:46-57.

      猜你喜歡
      云服務(wù)應(yīng)用
      互聯(lián)網(wǎng)背景下傳媒業(yè)的轉(zhuǎn)型
      云服務(wù)環(huán)境中低碳型教育信息化模式研究
      中國市場(2016年38期)2016-11-15 00:28:18
      云服務(wù)環(huán)境下的高校協(xié)同創(chuàng)新研究
      基于云服務(wù)的加密式門禁系統(tǒng)設(shè)計(jì)
      GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
      科技視界(2016年20期)2016-09-29 12:03:12
      煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
      科技視界(2016年20期)2016-09-29 11:47:01
      氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
      科技視界(2016年20期)2016-09-29 11:02:20
      會計(jì)與統(tǒng)計(jì)的比較研究
      海城市| 湖北省| 广灵县| 颍上县| 双鸭山市| 合山市| 读书| 卓尼县| 海口市| 卢龙县| 霍林郭勒市| 永城市| 西城区| 手机| 马尔康县| 茶陵县| 赣州市| 梓潼县| 栾城县| 沧州市| 洱源县| 翁源县| 宁蒗| 汉阴县| 荔浦县| 永仁县| 海淀区| 巴楚县| 铜陵市| 馆陶县| 建平县| 桐城市| 灵寿县| 钦州市| 松滋市| 兰考县| 梁河县| 萨迦县| 张家港市| 安西县| 建德市|