• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      云計(jì)算技術(shù)下海量數(shù)據(jù)挖掘的實(shí)現(xiàn)機(jī)制

      2019-08-06 13:48何燕燕
      無線互聯(lián)科技 2019年10期
      關(guān)鍵詞:信息提取云計(jì)算數(shù)據(jù)挖掘

      何燕燕

      摘? ?要:傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)無法滿足人們對(duì)信息的需求,數(shù)據(jù)挖掘技術(shù)作為一種全新的信息提取方式,可以幫助個(gè)人、企業(yè)在海量的信息內(nèi)容中找到有價(jià)值、有意義的信息。首先,文章簡要概述云計(jì)算在應(yīng)用過程中的優(yōu)缺點(diǎn);其次,針對(duì)海量數(shù)據(jù)挖掘機(jī)制的實(shí)現(xiàn)進(jìn)行分析;最后,通過實(shí)際案例進(jìn)行驗(yàn)證分析,以供參考。

      關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;信息提取

      隨著互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,人們接觸信息的渠道不斷增加,獲取量也隨之提高,在這樣的情況下,信息篩選反而成為一個(gè)難題。新時(shí)期,想要快速、高效地完成信息挖掘工作,就要對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行創(chuàng)新,云計(jì)算技術(shù)在處理數(shù)據(jù)挖掘技術(shù)方面有著良好的效果,因此,文章基于云計(jì)算技術(shù),分析了海量數(shù)據(jù)挖掘?qū)崿F(xiàn)方式。

      1? ? 云計(jì)算技術(shù)的實(shí)際應(yīng)用用處

      1.1? 云計(jì)算技術(shù)的實(shí)際應(yīng)用優(yōu)點(diǎn)

      云計(jì)算技術(shù)之所以可以在數(shù)據(jù)挖掘過程中得到廣泛使用,是因?yàn)樵朴?jì)算技術(shù)本身具有的存儲(chǔ)能力和分布式并行處理能力,可以最大程度提高信息經(jīng)濟(jì)價(jià)值和實(shí)用價(jià)值,具體的應(yīng)用優(yōu)勢(shì)包括以下幾個(gè)方面。

      1.1.1? 分布式并行數(shù)據(jù)挖掘能力

      云計(jì)算技術(shù)的分布式并行處理能力效率高、實(shí)時(shí)性強(qiáng),尤其是在當(dāng)前時(shí)代背景下,云計(jì)算技術(shù)的這種性能可以幫助個(gè)人、企業(yè)更好地實(shí)現(xiàn)海量數(shù)據(jù)挖掘工作。

      1.1.2? 低成本的高質(zhì)量服務(wù)功能

      云計(jì)算技術(shù)在實(shí)際應(yīng)用過程中,可以應(yīng)用在多種不同規(guī)模的組織結(jié)構(gòu)中,不僅數(shù)據(jù)挖掘的服務(wù)質(zhì)量高,整體計(jì)算成本也相對(duì)較低,尤其是在大型數(shù)據(jù)的快速處理業(yè)務(wù)中,云計(jì)算技術(shù)的優(yōu)勢(shì)十分明顯。

      1.1.3? 系統(tǒng)自動(dòng)化分配調(diào)節(jié)功能

      云計(jì)算技術(shù)在實(shí)現(xiàn)數(shù)據(jù)挖掘過程中,是一個(gè)分層實(shí)現(xiàn)的過程,尤其是在數(shù)據(jù)塊劃分、計(jì)算任務(wù)調(diào)度、加載節(jié)點(diǎn)等過程中,可以通過系統(tǒng)實(shí)現(xiàn)自動(dòng)分配。

      1.1.4? 數(shù)據(jù)挖掘技術(shù)的門欄較低

      很多海量數(shù)據(jù)挖掘機(jī)制的使用門欄較高,有很多中小型企業(yè)以及社會(huì)個(gè)體無法使用到數(shù)據(jù)挖掘技術(shù)。不僅如此,一部分?jǐn)?shù)據(jù)挖掘機(jī)制的操作難度較高,信息挖掘模式固化,無法滿足用戶需求。但是云計(jì)算技術(shù)下,可以從用戶的實(shí)際需求出發(fā),為用戶提供個(gè)性化信息服務(wù),最大程度保證大眾用戶的利益和需求。

      1.1.5? 并行化動(dòng)態(tài)增刪改查能力

      云計(jì)算技術(shù)具有并行化的特點(diǎn),因此也具備動(dòng)態(tài)結(jié)點(diǎn)功能,在這種狀態(tài)下,用戶只需要在原有設(shè)備上添加結(jié)點(diǎn),就可以進(jìn)行數(shù)據(jù)挖掘處理工作。讓數(shù)據(jù)處理速度、處理能力得到有效提高,讓設(shè)備生命力和使用率得到提高。

      1.2? 云計(jì)算技術(shù)的實(shí)際應(yīng)用缺點(diǎn)

      云計(jì)算技術(shù)目前尚處于初級(jí)發(fā)展階段,因此,很多地方還存在一定的問題和缺陷,具體可以從以下幾個(gè)方面進(jìn)行分析。

      首先,用戶需求問題。作為一種新型服務(wù)形式,以云計(jì)算技術(shù)為基礎(chǔ)的海量挖掘機(jī)制的多樣化、個(gè)性化水平還需要不斷提升。其次,數(shù)據(jù)容量問題。隨著信息技術(shù)的全面發(fā)展,在實(shí)際應(yīng)用的過程中,數(shù)據(jù)分析、數(shù)據(jù)處理將要面臨更大的容量,可能達(dá)到太字節(jié)(Terabyte,TB)甚至于十億字節(jié)(Gigabyte,GB)??赡苓€要同時(shí)處理多種不同的數(shù)據(jù)內(nèi)容,數(shù)據(jù)挖掘難度也會(huì)進(jìn)一步提高,如噪音數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、高維數(shù)據(jù)。再次,算法選擇問題。數(shù)據(jù)挖掘算法會(huì)對(duì)挖掘效果產(chǎn)生直接的影響,此外,算法設(shè)計(jì)、參數(shù)設(shè)置等也會(huì)對(duì)數(shù)據(jù)挖掘結(jié)果產(chǎn)生影響。最后,不確定性問題。數(shù)據(jù)挖掘過程中不確定因素較多,經(jīng)常會(huì)出現(xiàn)任務(wù)需求描述模糊、數(shù)據(jù)采集預(yù)處理不確定、算法選擇不確定等情況。

      2? ? 海量數(shù)據(jù)挖掘機(jī)制實(shí)現(xiàn)對(duì)策

      針對(duì)上文分析結(jié)構(gòu),在應(yīng)用云計(jì)算技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)挖掘機(jī)制的過程中,需要結(jié)合用戶、企業(yè)的個(gè)性化發(fā)展需求,建立起真正合適的云計(jì)算數(shù)據(jù)挖掘系統(tǒng)。

      2.1? 海量數(shù)據(jù)挖掘模型建立

      想要讓云計(jì)算技術(shù)的數(shù)據(jù)存儲(chǔ)能力和并行處理能力在海量數(shù)據(jù)挖掘機(jī)制中得到最大程度體現(xiàn),首先要建立起海量數(shù)據(jù)挖掘模型。一般情況下,數(shù)據(jù)挖掘模式性主要分為3個(gè)層面:服務(wù)層、運(yùn)算層、用戶層,每個(gè)層面負(fù)責(zé)的功能各不相同。

      服務(wù)層作為基礎(chǔ)層次,主要功能是實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)功能和并行處理功能。在建立數(shù)據(jù)挖掘模型過程中,數(shù)據(jù)實(shí)用性、安全性、可靠性,尤其是在數(shù)據(jù)存儲(chǔ)階段,需要充分利用云計(jì)算技術(shù)使用分布存儲(chǔ)方式,建立起數(shù)據(jù)副本冗余存儲(chǔ)功能,避免出現(xiàn)數(shù)據(jù)丟失的情況。從目前發(fā)展?fàn)顟B(tài)上看,云計(jì)算數(shù)據(jù)存儲(chǔ)技術(shù)的普通使用功能有兩種,分別為開源分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)、非開源可擴(kuò)展的分布式文件系統(tǒng)(Google File System,GFS),另外,為了可以及時(shí)回復(fù)用戶數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)性動(dòng)態(tài)化的數(shù)據(jù)挖掘服務(wù),采用多用戶指令。

      在運(yùn)算層主要實(shí)現(xiàn)的是數(shù)據(jù)的預(yù)處理和挖掘算法的并行處理,是數(shù)據(jù)挖掘機(jī)制的核心。通過對(duì)海量、無規(guī)則的數(shù)據(jù)進(jìn)行預(yù)先處理,結(jié)合云計(jì)算的并行運(yùn)算模式進(jìn)行數(shù)據(jù)挖掘工作,完成數(shù)據(jù)分類、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)約束、數(shù)據(jù)抽調(diào)等。通過數(shù)據(jù)預(yù)處理工作,可以為后續(xù)的數(shù)據(jù)挖掘工作奠定良好的基礎(chǔ),提高數(shù)據(jù)挖掘質(zhì)量、效率,保證數(shù)據(jù)挖掘的快速性和實(shí)時(shí)性。

      用戶層是整個(gè)數(shù)據(jù)挖掘機(jī)制的最頂層,主要功能是接收數(shù)據(jù)挖掘指令,并且對(duì)系統(tǒng)服務(wù)器中的信息進(jìn)行傳遞,通過服務(wù)器發(fā)出的信息指令,調(diào)動(dòng)數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容,并且結(jié)合最優(yōu)算法,將最滿足用戶查找需求的信息傳遞給用戶。這一階段也是對(duì)信息的深入挖掘階段,讓挖掘結(jié)果實(shí)現(xiàn)可視化,便于用戶查看和了解。

      2.2? 海量數(shù)據(jù)挖掘算法實(shí)現(xiàn)

      在明確海量數(shù)據(jù)挖掘模型的基礎(chǔ)上,還要進(jìn)一步確定海量數(shù)據(jù)挖掘的實(shí)現(xiàn)算法,常見的算法為sprint,這種算法可以實(shí)現(xiàn)多次數(shù)據(jù)遍歷,將數(shù)據(jù)的特征充分展現(xiàn)出來,一般使用直方圖、屬性表兩種數(shù)據(jù)結(jié)構(gòu)?;趕print算法進(jìn)行并行設(shè)計(jì),使用多種不同的表示方式,實(shí)現(xiàn)算法的最優(yōu)化,讓函數(shù)發(fā)展工作得到有效開展。在完成以上處理工作過程中,海量數(shù)據(jù)挖掘機(jī)已經(jīng)全部結(jié)束,為了驗(yàn)證海量數(shù)據(jù)挖掘機(jī)制的效果,使用了某數(shù)據(jù)作為訓(xùn)練集,驗(yàn)證分析該挖掘機(jī)制的有效性。在實(shí)際操作過程中,將所有的樣本集分隔成了5個(gè)沒有交集的小組,通過實(shí)際驗(yàn)證情況來看,算法的精準(zhǔn)率達(dá)到了89.25%,精準(zhǔn)性較高,可以實(shí)現(xiàn)有效分類挖掘。目前,數(shù)據(jù)量依然在不斷增加的過程中,數(shù)據(jù)挖掘工作也要不斷地發(fā)展,在這樣的狀態(tài)下,想要對(duì)數(shù)據(jù)進(jìn)行有效處理,就要結(jié)合不同行業(yè)特色,設(shè)計(jì)出更具個(gè)性化的數(shù)據(jù)挖掘算法機(jī)制,讓數(shù)據(jù)性和安全性得到進(jìn)一步提高[1]。

      3? ? 海量數(shù)據(jù)挖掘機(jī)制實(shí)際案例

      為了進(jìn)一步驗(yàn)證上文中提出的海量數(shù)據(jù)挖掘機(jī)制實(shí)際應(yīng)用效果,本文以某電商業(yè)務(wù)貿(mào)易公司為例,借助云計(jì)算技術(shù),建立了電子商務(wù)海量數(shù)據(jù)挖掘系統(tǒng)。

      3.1? 云計(jì)算集群的搭建

      考慮到云計(jì)算技術(shù)的應(yīng)用環(huán)境,采用了六路四核刀片的形式,借助Linux操作系統(tǒng)中的Redhat 5.5系統(tǒng)結(jié)構(gòu),啟動(dòng)后臺(tái)進(jìn)程、相關(guān)例程以及云計(jì)算集群,從而實(shí)現(xiàn)整個(gè)計(jì)算過程,為海量數(shù)據(jù)挖掘控制奠定良好的基礎(chǔ)。

      3.2? 數(shù)據(jù)挖掘體系架構(gòu)

      首先,建立起一個(gè)海量數(shù)據(jù)挖掘系統(tǒng)體系架構(gòu);其次,對(duì)分布式文件系統(tǒng)層、計(jì)算層進(jìn)行全面的分析;最后,就可以通過實(shí)際應(yīng)用查看具體的效果。

      在Hadoop HDFS下,不僅可以實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ)功能,還能夠最大程度保證功能的高可靠性[2]。因?yàn)楸疚慕⒌氖请娮由虅?wù)海量數(shù)據(jù)挖掘平臺(tái),電子商務(wù)的信息分布存儲(chǔ)過程中,需要實(shí)現(xiàn)文件的分塊存儲(chǔ),根據(jù)文件的主要內(nèi)容,利用多臺(tái)計(jì)算機(jī)進(jìn)行集群處理,在保證文件有效性的基礎(chǔ)上,對(duì)文件進(jìn)行容錯(cuò)自動(dòng)分塊復(fù)制。在這一平臺(tái)中HDFS主要作用在于對(duì)文件的節(jié)點(diǎn)進(jìn)行管理,負(fù)責(zé)文件系統(tǒng)內(nèi)的名字空間分配。不僅如此,HDFS還要在客戶端文件訪問數(shù)據(jù)平臺(tái)時(shí),及時(shí)處理客戶端的讀寫請(qǐng)求,完成數(shù)據(jù)塊的增、刪、改、查功能,讓數(shù)據(jù)塊可以有效性創(chuàng)建、刪除、復(fù)制。而在上層分布式計(jì)算層中,HDFS的主要作用是提供數(shù)據(jù)的輸入、數(shù)據(jù)載體、中間結(jié)果,充分發(fā)揮云計(jì)算技術(shù)中的可伸縮性優(yōu)勢(shì),在業(yè)務(wù)系統(tǒng)的聯(lián)系階段,對(duì)該電商企業(yè)的分布式文件系統(tǒng)進(jìn)行有效的管理,保證客戶端的正常訪問。分布式計(jì)算層作為海量數(shù)據(jù)挖掘平臺(tái)中的重要結(jié)構(gòu),主要應(yīng)用的是MapReduce相關(guān)模式,在這種模式下,結(jié)合分布式并行計(jì)算模型,可以最大程度加強(qiáng)數(shù)據(jù)的有效性挖掘。通過MapReduce模式不僅可以對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行合理的調(diào)度計(jì)算,也能夠?qū)A繑?shù)據(jù)進(jìn)行有效性處理和分析[3]。此外,在數(shù)據(jù)分析中間層,要建立起協(xié)同過濾數(shù)據(jù)挖掘算法,這種算法在應(yīng)用過程中,可以根據(jù)實(shí)際情況進(jìn)行擴(kuò)展應(yīng)用,通過Mahout算法庫進(jìn)行定制,從而讓電商平臺(tái)中的應(yīng)用層業(yè)務(wù)得到更好的開展,最大限度滿足電商平臺(tái)的運(yùn)行需求。

      經(jīng)過對(duì)云計(jì)算技術(shù)下海量數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)的詳細(xì)分析和實(shí)際應(yīng)用,可知本文研發(fā)出來的海量數(shù)據(jù)挖掘?qū)崿F(xiàn)機(jī)制可以根據(jù)企業(yè)的服務(wù)形式,實(shí)現(xiàn)智能信息檢索、信息分析、客戶聚焦、決策支持等多種電商平臺(tái)應(yīng)用層需求。不僅如此,基于云計(jì)算技術(shù)下,信息材料分析模式實(shí)現(xiàn)了競價(jià)參考形式,讓該企業(yè)可以進(jìn)行智能分析,滿足企業(yè)實(shí)際運(yùn)行過程中的業(yè)務(wù)需求。

      4? ? 結(jié)語

      “互聯(lián)網(wǎng)+”時(shí)代下,社會(huì)各界對(duì)數(shù)據(jù)挖掘精準(zhǔn)度、數(shù)據(jù)挖掘成本提出了全新的要求,建立科學(xué)的海量數(shù)據(jù)挖掘體系,讓海量數(shù)據(jù)挖掘工作穩(wěn)定開展,是現(xiàn)階段的重點(diǎn)內(nèi)容。通過本文的分析對(duì)海量數(shù)據(jù)挖掘?qū)崿F(xiàn)機(jī)制有了認(rèn)識(shí),存儲(chǔ)、變化、處理等能力都得到提高,用戶數(shù)據(jù)的安全有效性也得到進(jìn)一步加強(qiáng)。

      [參考文獻(xiàn)]

      [1]崔辰.云計(jì)算技術(shù)下海量數(shù)據(jù)挖掘的實(shí)現(xiàn)機(jī)制[J].微型電腦應(yīng)用,2019(4):129-131.

      [2]朱娜.基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].信息記錄材料,2018(6):79-81.

      [3]張菁.云計(jì)算技術(shù)下海量數(shù)據(jù)挖掘的實(shí)現(xiàn)機(jī)制[J].安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2018(1):62-64.

      猜你喜歡
      信息提取云計(jì)算數(shù)據(jù)挖掘
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      麟游县| 隆昌县| 闸北区| 原平市| 桃源县| 瓦房店市| 河池市| 海伦市| 锡林郭勒盟| 开原市| 平舆县| 郴州市| 德格县| 北辰区| 兴化市| 潼南县| 东阳市| 海盐县| 渑池县| 天全县| 呈贡县| 会东县| 磴口县| 抚松县| 化州市| 江门市| 海宁市| 石渠县| 铜鼓县| 綦江县| 和平县| 星子县| 宁化县| 平阳县| 嘉义县| 彭山县| 神木县| 静安区| 赫章县| 镇康县| 托克托县|