• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向云計算環(huán)境下Web數(shù)據(jù)挖掘技術(shù)

      2021-07-11 19:42:03曾展挺
      智能計算機與應(yīng)用 2021年1期
      關(guān)鍵詞:技術(shù)應(yīng)用云計算數(shù)據(jù)挖掘

      曾展挺

      摘?要:在云計算環(huán)境下,Web數(shù)據(jù)挖掘技術(shù)得到了快速發(fā)展。由于云計算的應(yīng)用,Web數(shù)據(jù)挖掘體系已體現(xiàn)出新的特點。分析云計算環(huán)境下Web數(shù)據(jù)挖掘技術(shù)的特點,可以明確應(yīng)用要點,可以實現(xiàn)云計算在數(shù)據(jù)存儲中的突破,實現(xiàn)存儲的能力與安全性的提高。從海量數(shù)據(jù)中高效挖掘有價值的資源,屬于信息技術(shù)要解決的關(guān)鍵問題。云計算技術(shù)支持下的數(shù)據(jù)挖掘?qū)崿F(xiàn)了資源的優(yōu)化配置,體現(xiàn)出實用性、虛擬性的特點,可以保證數(shù)據(jù)挖掘的高效、精準。因此,有必要構(gòu)建基于云計算的數(shù)據(jù)挖掘模式,保證數(shù)據(jù)挖掘具有更高的精準度,并實現(xiàn)挖掘成本的降低。

      關(guān)鍵詞: 云計算;技術(shù)應(yīng)用;數(shù)據(jù)挖掘;Web數(shù)據(jù)

      文章編號: 2095-2163(2021)01-0167-03 中圖分類號:TP311 文獻標志碼:A

      【Abstract】In the cloud computing environment, Web data mining technology has been developed. Due to the application of cloud computing, Web data mining system has new characteristics. By analyzing the characteristics of Web data mining technology in the cloud computing environment, the application points can be clarified, the breakthrough of cloud computing in data storage can be realized, and the storage capacity and security can be improved. Mining valuable resources efficiently from massive data is the key problem to be solved in information technology. Data mining supported by cloud computing technology realizes the optimal allocation of resources, reflects the characteristics of practicality and virtuality, which could guarantee the efficiency and accuracy of data mining. Therefore, it is necessary to build a data mining model based on cloud computing for ensuring higher accuracy of data mining and reducing mining cost.

      【Key words】cloud computing; technical application; data mining; Web data

      當前互聯(lián)網(wǎng)技術(shù)發(fā)展迅猛,互聯(lián)網(wǎng)信息也呈現(xiàn)持續(xù)高速增長態(tài)勢,如何由海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息即已成為數(shù)據(jù)挖掘技術(shù)的研究熱點。研究可知,Web數(shù)據(jù)挖掘是對Web海量數(shù)據(jù)加以分析,借助數(shù)據(jù)挖掘算法篩查出有價值的信息,而這些信息對于諸如趨勢走向預(yù)測和商業(yè)行為決策等是十分有用的。對此擬展開如下研究論述。

      1 基于云計算的Web數(shù)據(jù)挖掘體系

      在互聯(lián)網(wǎng)中,運用數(shù)據(jù)挖掘可以將Web劃分為不同的節(jié)點,借助云計算技術(shù)實現(xiàn)Web中不同節(jié)點的關(guān)聯(lián),建立起數(shù)據(jù)挖掘體系。在應(yīng)用實踐中,主控節(jié)點要實現(xiàn)客戶端與不同節(jié)點的網(wǎng)絡(luò)連接;算法節(jié)點可以為數(shù)據(jù)挖掘的應(yīng)用提供算法支持,對其可理解為算法倉庫;數(shù)據(jù)節(jié)點作為數(shù)據(jù)存儲的數(shù)據(jù)庫;服務(wù)節(jié)點是執(zhí)行系統(tǒng)下達的指令,并對計算結(jié)果加以反饋。針對Web數(shù)據(jù)挖掘的設(shè)計實現(xiàn),本次研究中是將體系分為4個層面,詳見圖1。該體系中,每個層面的定制功能可做闡釋分述如下。

      (1)服務(wù)層。借助Web數(shù)據(jù)挖掘來提取數(shù)據(jù),將信息傳送給用戶。

      (2)控制層。通過主控節(jié)點對返回的結(jié)果進行分析,同時確定算法的有效性,用來實現(xiàn)更深層次的數(shù)據(jù)挖掘。

      (3)算法和數(shù)據(jù)存儲層。存儲反饋的數(shù)據(jù),包括初始數(shù)據(jù)、挖掘后數(shù)據(jù),避免數(shù)據(jù)、算法發(fā)生丟失,造成損失。一旦發(fā)生意外,系統(tǒng)還可從數(shù)據(jù)存儲區(qū)中重新找回數(shù)據(jù)進行恢復(fù)。

      (4)業(yè)務(wù)處理層。借助程序重新對存儲層數(shù)據(jù)加以分配,并借助服務(wù)節(jié)點將信息反饋到主要控制節(jié)點。

      2 云計算的Web數(shù)據(jù)挖掘

      2.1 云計算的數(shù)據(jù)挖掘概述

      在網(wǎng)絡(luò)技術(shù)快速發(fā)展,以及在多領(lǐng)域應(yīng)用普及的背景下,就產(chǎn)生了海量的數(shù)據(jù),Web數(shù)據(jù)挖掘技術(shù)也隨即獲得了廣泛的應(yīng)用。當前Web數(shù)據(jù)技術(shù)已趨于成熟,并與云計算技術(shù)的應(yīng)用密切相關(guān)。借助云計算技術(shù),數(shù)據(jù)信息的高效處理、分析已然成為可能,數(shù)據(jù)挖掘的服務(wù)性和時效性也變得更好,數(shù)據(jù)的利用價值也更加突顯。數(shù)據(jù)挖掘過程中,先要對數(shù)據(jù)加以處理,再借助數(shù)據(jù)分析,通過算法得到數(shù)據(jù)的評價和表達,成功提取到有價值的信息。

      云計算環(huán)境下Web數(shù)據(jù)挖掘技術(shù)采用分布并行處理方式,具體特點可做分析闡述如下。

      (1)云計算環(huán)境下的Web數(shù)據(jù)挖掘可以保證更高的效率,過程中應(yīng)用了并行處理方式,提升了海量數(shù)據(jù)的挖掘速度。在云計算環(huán)境下,可以為不同要求的客戶提供個性化服務(wù),且服務(wù)成本也會更低,有利于數(shù)據(jù)挖掘的快速實現(xiàn)。對于中小客戶,可以無需考慮使用大型高端服務(wù)器。

      (2)云計算環(huán)境下的數(shù)據(jù)挖掘通過塊劃分自動分配計算任務(wù),保證節(jié)點加載的靈活性。

      (3)云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)有著良好的用戶體驗。普通用戶只需登錄云服務(wù)平臺即可,而特殊的用戶則可以通過個性化的數(shù)據(jù)服務(wù)來滿足其實際需求。

      (4)云計算環(huán)境下的數(shù)據(jù)挖掘可進行動態(tài)增刪,還可自由添加結(jié)點,這就提升了海量數(shù)據(jù)的處理速度,設(shè)備的利用率也得到了同步提升。

      2.2 云計算環(huán)境下的數(shù)據(jù)挖掘?qū)崿F(xiàn)方式

      2.2.1 建立數(shù)據(jù)挖掘模型

      數(shù)據(jù)挖掘模型的建立要結(jié)合客戶的實際需求。針對商業(yè)客戶而言,則需要借助技術(shù)優(yōu)化模式從海量Web數(shù)據(jù)中挖掘出具有商業(yè)價值的實用數(shù)據(jù)。因此數(shù)據(jù)挖掘模型建立時要確保真實性、合理性。尤需指出的是,云計算技術(shù)的大范圍應(yīng)用,實現(xiàn)了大容量存儲,提升了并行處理能力,有效解決了常規(guī)模式下數(shù)據(jù)挖掘存在的制約問題。

      建立數(shù)據(jù)挖掘模型,還要結(jié)合Web挖掘建立流程。數(shù)據(jù)挖掘存在多種影響因素,這種方式有別于傳統(tǒng)的挖掘模式。Web數(shù)據(jù)挖掘流程的設(shè)計要考慮到諸多不利因素:Web數(shù)據(jù)挖掘技術(shù)融合Web網(wǎng)頁并不是各類技術(shù)的簡單疊加,而是包含對信息檢索、選擇并初步處理信息、找到模式且加以分析等在內(nèi)的一系列步驟。對于Web信息的檢索,就是通過爬取網(wǎng)站新聞、日志等數(shù)據(jù)信息,對其加以甄別和篩選,濾除無價值的信息,并初步處理有價值的數(shù)據(jù)。再對處理后數(shù)據(jù)進行篩選和驗證,完成有價值的數(shù)據(jù)提取。研究發(fā)現(xiàn)在云計算技術(shù)的支持下,數(shù)據(jù)挖掘時可以采用流程化的模式:向模塊依據(jù)用戶需求發(fā)出指令,指令上傳到云服務(wù)器,服務(wù)器會自動識別出該指令,調(diào)取已存儲的數(shù)據(jù),引用最優(yōu)算法,對數(shù)據(jù)進行預(yù)處理,在此基礎(chǔ)上反饋到云平臺,運行結(jié)果則將采用可視化的方式來呈現(xiàn)給用戶。云計算環(huán)境下,若要提升基礎(chǔ)架構(gòu)庫的可靠性,則亟需建立安全可靠的流程,從而保證最終的服務(wù)效果。服務(wù)流程的設(shè)計要有利于規(guī)范數(shù)據(jù)挖掘,流程要結(jié)合差異化的用戶需求,同時結(jié)合數(shù)據(jù)挖掘的目標,體現(xiàn)出技術(shù)基礎(chǔ)架構(gòu)庫的優(yōu)勢,降低對人的依賴性。

      2.2.2 算法的設(shè)計方式

      在云計算環(huán)境下,挖掘數(shù)據(jù)可運用SPRINT算法,依據(jù)設(shè)置流程,先創(chuàng)建決策樹,然后剪枝。創(chuàng)建決策樹時,要對數(shù)據(jù)加以篩分,剪枝時則是去除無用的數(shù)據(jù)。SPRINT算法設(shè)計時也融入了不同數(shù)據(jù)的特征。劃分屬性表后,節(jié)點分裂了,可以確定屬性表。屬性表包含了索引、類,放置于內(nèi)存空間外,表明了節(jié)點屬性。對于數(shù)據(jù)處理,不間斷的刷新即可獲得最有效的分裂點。如果采用離散型,可以借助直方圖來表達屬性值的分布特點。算法設(shè)計中的并行處理則可保證算法的運行效率。引入哈希表,存儲中不同節(jié)點發(fā)生分裂后子節(jié)點的數(shù)據(jù)變化也可以直觀呈現(xiàn)出來,即使得對節(jié)點實施的并行處理就具備了分割依據(jù)。應(yīng)用哈希表體現(xiàn)出決策節(jié)點號碼的信息以及樹節(jié)點子信息。算法移植后,通過MapReduce算法可以進行優(yōu)化,算法的應(yīng)用可以快速創(chuàng)建出決策樹,這樣就提升了算法執(zhí)行效率。

      2.2.3 數(shù)據(jù)挖掘算法的應(yīng)用

      在Web數(shù)據(jù)挖掘技術(shù)中,至關(guān)重要的數(shù)據(jù)結(jié)構(gòu)是Web-Graph。該技術(shù)可以描述Web信息,并可廣泛應(yīng)用于社交網(wǎng)絡(luò)、搜索結(jié)果排序、網(wǎng)絡(luò)爬蟲等場合。Web-Graph對Web鏈接進行分析是基于圖論算法的應(yīng)用,因此為數(shù)據(jù)處理分析提供了有利條件。對于算法數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù),采用Web-Graph算法分析數(shù)據(jù)時,先要明確數(shù)據(jù)描述算法,通常可以采用矩陣法來描述數(shù)據(jù),還要結(jié)合行列特點,排列節(jié)點數(shù)據(jù),

      從而形成網(wǎng)絡(luò)矩陣。網(wǎng)絡(luò)中的矩陣階數(shù)可用節(jié)點數(shù)進行表示。算法體現(xiàn)了網(wǎng)頁的鏈接關(guān)系,其關(guān)系則借助矩陣來進行描述。對于矩陣的創(chuàng)建,數(shù)據(jù)表達出行、列節(jié)點之間的聯(lián)系。對于取值,數(shù)據(jù)的矩陣元素可表達出一定的差異,可以表達各個節(jié)點Graph。利用Graph的差異,體現(xiàn)出社交平臺中的用戶關(guān)系。在社交網(wǎng)絡(luò)中,用戶信息交換存在雙向關(guān)系。用戶在得到相互認可后,才會確認為好友,因此利用數(shù)據(jù)結(jié)構(gòu),就可采用對稱矩陣的形式來描述用戶的關(guān)系。在數(shù)據(jù)應(yīng)用中,借助二維數(shù)組來表達矩陣,如果應(yīng)用高級語言去處理Graph,矩陣采用的就是數(shù)據(jù)結(jié)構(gòu)。

      GraphML應(yīng)用存儲具有可靠性、長期性的特點。GraphML作為通用文件格式借助XML語言對圖形特征加以描述。目前,許多開發(fā)語言都能夠解析GraphML,因此Graph的生成、處理、存儲等在很多場景中都可以成功得到運用。GraphML還表現(xiàn)出簡單、直觀等優(yōu)勢,為開發(fā)人員提供了多方面的便利。不僅降低了數(shù)據(jù)挖掘難度,有利于開發(fā)人員的后續(xù)修改,而且為程序應(yīng)用創(chuàng)建了良好的數(shù)據(jù)條件。Graph數(shù)據(jù)常用結(jié)構(gòu)包括分級圖、超圖、無向圖等。在數(shù)據(jù)挖掘過程中,就是通過爬取得到頁面信息來詳細分析Web連接,從而形成Graph結(jié)構(gòu)。此類挖掘算法的優(yōu)勢就是易于實現(xiàn)。而在分析文本的頁面鏈接時,會消耗計算資源,除Web關(guān)聯(lián)外,利用Graph結(jié)構(gòu),還可以描述常見事物的關(guān)聯(lián)。

      針對數(shù)據(jù)收集,傳統(tǒng)的方式是直接收集互聯(lián)網(wǎng)上的數(shù)據(jù),存儲于數(shù)據(jù)倉庫中。但是數(shù)據(jù)倉庫中的數(shù)據(jù)卻可能發(fā)生丟失。在云計算技術(shù)下,數(shù)據(jù)收集時會首先篩選互聯(lián)網(wǎng)上的海量信息數(shù)據(jù),經(jīng)數(shù)據(jù)轉(zhuǎn)化生成半結(jié)構(gòu)化的文件,再將其保存于分布式系統(tǒng)中。針對數(shù)據(jù)處理,是由云計算中的任務(wù)主節(jié)點來實現(xiàn)整體的統(tǒng)籌控制。任務(wù)主節(jié)點會對任務(wù)進行分類細化,并將其有針對性地分配到互聯(lián)網(wǎng)上的空閑計算機加以處理。接下來再將網(wǎng)絡(luò)中分散中心處理后的信息在集結(jié)匯總后,一并傳送到主節(jié)點。這種方式高效地利用了計算機資源,并且保證了數(shù)據(jù)處理效率。

      3 結(jié)束語

      面對海量的網(wǎng)絡(luò)信息,Web數(shù)據(jù)挖掘體現(xiàn)出極高應(yīng)用價值。云計算的應(yīng)用為Web數(shù)據(jù)挖掘的實現(xiàn)創(chuàng)造了有利條件。云計算下的Web數(shù)據(jù)挖掘保證了網(wǎng)絡(luò)資源的實時分析與處理,數(shù)據(jù)挖掘的效率也得到提升。

      參考文獻

      [1]朱娜.基于云計算技術(shù)的數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn)[J].信息記錄材料,2018,19(6):79-81.

      [2]葛曉玢,劉杰.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究[J].景德鎮(zhèn)學(xué)院學(xué)報,2017,32(3):26-29.

      [3]薛醫(yī)貴.云計算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用研究[J].自動化與儀器儀表,2017(5):156-157,161.

      [4]熊伯安.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子世界,2016(20):121,123.

      猜你喜歡
      技術(shù)應(yīng)用云計算數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      低碳環(huán)保技術(shù)在環(huán)境治理中的應(yīng)用分析及闡述
      淺析林業(yè)整地造林的技術(shù)應(yīng)用
      基于高職院校物聯(lián)網(wǎng)技術(shù)應(yīng)用人才培養(yǎng)的思考分析
      基于云計算的移動學(xué)習(xí)平臺的設(shè)計
      現(xiàn)代煙草工業(yè)發(fā)展趨勢及降焦減害技術(shù)應(yīng)用研究
      實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
      云計算中的存儲虛擬化技術(shù)應(yīng)用
      科技視界(2016年20期)2016-09-29 13:34:06
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      赞皇县| 舒兰市| 平果县| 乌拉特前旗| 福安市| 凌源市| 南华县| 辰溪县| 库伦旗| 蓬安县| 营口市| 炉霍县| 莱芜市| 资源县| 尉犁县| 介休市| 阳山县| 抚松县| 罗定市| 呼玛县| 黄梅县| 呼伦贝尔市| 永靖县| 石河子市| 佛教| 泰兴市| 鲁山县| 桑植县| 灵宝市| 广丰县| 桑植县| 温州市| 安泽县| 元谋县| 吉林省| 宁陕县| 闻喜县| 临高县| 邢台市| 中江县| 黄浦区|