• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      云計(jì)算環(huán)境下對(duì)Web數(shù)據(jù)挖掘技術(shù)的分析與探究

      2019-09-10 07:22:44古險(xiǎn)峰王志
      關(guān)鍵詞:云計(jì)算環(huán)境云計(jì)算技術(shù)數(shù)據(jù)挖掘

      古險(xiǎn)峰 王志

      摘要:Web數(shù)據(jù)挖掘技術(shù)隨著互聯(lián)網(wǎng)的發(fā)展而不斷進(jìn)步,并獲得了廣泛運(yùn)用,而云計(jì)算技術(shù)則能夠促進(jìn)數(shù)據(jù)存儲(chǔ)安全性與效率的提升.因此,本文將對(duì)云計(jì)算技術(shù)進(jìn)行分析,并詳細(xì)探究云計(jì)算環(huán)境下的Web數(shù)據(jù)挖掘技術(shù),希望可以為相關(guān)工作者的研究提供一些幫助.

      關(guān)鍵詞:云計(jì)算環(huán)境;Web;數(shù)據(jù)挖掘;云計(jì)算技術(shù)

      中圖分類號(hào):TP311.14? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2019)09-0056-03

      進(jìn)入新時(shí)代后,隨著科學(xué)技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量逐漸增加,有效提取出海量數(shù)據(jù)中蘊(yùn)含的有價(jià)值數(shù)據(jù)并運(yùn)用于實(shí)際生活中具有重要意義,在這一過程中,Web數(shù)據(jù)挖掘技術(shù)發(fā)揮著關(guān)鍵作用.因此,必須了解云計(jì)算技術(shù)與數(shù)據(jù)挖掘特點(diǎn)、分類,并在云計(jì)算環(huán)境下,詳細(xì)分析Web數(shù)據(jù)挖掘算法,提高數(shù)據(jù)挖掘的準(zhǔn)確性、有效性,從而為我國互聯(lián)網(wǎng)健康發(fā)展奠定基礎(chǔ).

      1 云計(jì)算技術(shù)分析

      云計(jì)算是指以互聯(lián)網(wǎng)為基礎(chǔ)的服務(wù)增加、運(yùn)用以及交互模式,一般會(huì)涉及通過互聯(lián)網(wǎng)來對(duì)具有動(dòng)態(tài)、虛擬化以及易擴(kuò)展等特點(diǎn)的資源進(jìn)行提供[1].通常情況下,云計(jì)算主要包含兩種技術(shù),即虛擬技術(shù)與并行編程技術(shù).一方面,虛擬技術(shù).對(duì)云計(jì)算而言,虛擬技術(shù)屬于一種重要技術(shù),其能夠促進(jìn)計(jì)算機(jī)資源抽象化邏輯與統(tǒng)一化表達(dá)的實(shí)現(xiàn),并且有利于信息利用率的提升,即不但能夠加大存儲(chǔ)容量,還可以對(duì)資源分配流程進(jìn)行簡化,實(shí)現(xiàn)資源靈活分配.同時(shí),這一技術(shù)還能夠?yàn)閱蝹€(gè)CPU對(duì)多個(gè)CPU并行處理進(jìn)行模擬提供幫助,也就是可以通過一個(gè)服務(wù)器在同時(shí)間處理眾多任務(wù),并且軟件程序還能夠在空間中運(yùn)行,有利于計(jì)算機(jī)運(yùn)行效率的提升.另一方面,并行編程技術(shù).這一技術(shù)屬于同時(shí)編程新技術(shù),相較于串行編程,主要區(qū)別就是在實(shí)際運(yùn)用過程時(shí)選擇的是結(jié)構(gòu)編程還是過程編程.并行編程技術(shù)就是在對(duì)程序進(jìn)行編寫時(shí),開發(fā)人員在實(shí)現(xiàn)程序并行運(yùn)行的基礎(chǔ)上,促進(jìn)各模塊通訊的實(shí)現(xiàn),在一定程度上能夠促進(jìn)Web數(shù)據(jù)挖掘效率的提高.在云計(jì)算環(huán)境下,這一技術(shù)針對(duì)的是網(wǎng)絡(luò)信息較為密集的程序,也就是需要在各個(gè)節(jié)點(diǎn)中分布海量數(shù)據(jù),促進(jìn)計(jì)算機(jī)并行處理的實(shí)現(xiàn),并利用眾多計(jì)算機(jī),以此來提高數(shù)據(jù)挖掘質(zhì)量與效率.

      2 云計(jì)算環(huán)境下的Web數(shù)據(jù)挖掘技術(shù)

      2.1 Web數(shù)據(jù)挖掘特點(diǎn)與分類

      2.1.1 特點(diǎn)

      通過分析可知,Web數(shù)據(jù)的特點(diǎn)主要表現(xiàn)雜以下幾方面:首先,異構(gòu)性.Web相當(dāng)于數(shù)據(jù)源,其中全部節(jié)點(diǎn)都可以產(chǎn)生數(shù)據(jù),并且信息在結(jié)構(gòu)與內(nèi)容方面都存在一定不同,并最終促進(jìn)數(shù)據(jù)庫異構(gòu)環(huán)境的形成.其次,動(dòng)態(tài)靈活.對(duì)Web而言,其各節(jié)點(diǎn)的數(shù)據(jù)都呈現(xiàn)出動(dòng)態(tài)靈活特點(diǎn),并且節(jié)點(diǎn)信息的更新速度十分頻繁.同時(shí),Web數(shù)據(jù)還表現(xiàn)出了復(fù)雜性特點(diǎn),即其數(shù)據(jù)形式十分多元,主要涉及超鏈接、視頻、圖像以及文本等多種類型信息.再次,半結(jié)構(gòu)化.由于Web數(shù)據(jù)有著較大復(fù)雜性,并且不具備統(tǒng)一描述模型,因此,整體結(jié)構(gòu)主要呈現(xiàn)出來的是半結(jié)構(gòu)化狀態(tài).最后,分布存儲(chǔ).對(duì)Web而言,其是以網(wǎng)絡(luò)為基礎(chǔ)的,并且頁面能夠在各種計(jì)算機(jī)服務(wù)器中分布存儲(chǔ),有利于數(shù)據(jù)分布存儲(chǔ)的實(shí)現(xiàn)[2].

      2.1.2 分類

      Web數(shù)據(jù)挖掘主要存在三種類型:首先,結(jié)構(gòu)挖掘.這一挖掘是指對(duì)頁面結(jié)構(gòu)中價(jià)值較高的信息進(jìn)行挖掘,具體能夠被分成鏈接關(guān)系結(jié)構(gòu)、內(nèi)容結(jié)構(gòu)以及組織結(jié)構(gòu)等.總而言之,結(jié)構(gòu)挖掘主要流程就是在對(duì)Web結(jié)構(gòu)進(jìn)行挖掘時(shí),詳細(xì)分析鏈接關(guān)系與頁面結(jié)構(gòu),找出其中有用信息,并做好鏈接及關(guān)系分類工作,從而明確權(quán)威頁面.其次,內(nèi)容挖掘.這一挖掘就是在海量的網(wǎng)頁或者是鏈接數(shù)據(jù)庫中對(duì)有價(jià)值信息進(jìn)行提取的一個(gè)過程.在內(nèi)容類型方面,這一挖掘可以被分成兩種,即多媒體挖掘與文本挖掘,而二者之間最突出的不同就是數(shù)據(jù)提取特點(diǎn);而在數(shù)據(jù)挖掘方式方面,內(nèi)容挖掘則可以被細(xì)分成數(shù)據(jù)庫挖掘與數(shù)據(jù)抽取挖掘,其中,數(shù)據(jù)庫挖掘是指在數(shù)據(jù)庫中對(duì)有價(jià)值信息進(jìn)行挖掘,而抽取挖掘則針對(duì)的是已經(jīng)挖掘過的信息,通過抽取方式進(jìn)一步挖掘價(jià)值較高的信息.最后,利用挖掘.這一挖掘主要就是挖掘分析用戶登錄訪問,即利用數(shù)據(jù)挖掘技術(shù),促進(jìn)網(wǎng)絡(luò)信息服務(wù)質(zhì)量與效率的大幅度提升,在Web服務(wù)器的性能參數(shù)完善方面發(fā)揮著重要作用.

      2.2 以云計(jì)算為基礎(chǔ)的Web數(shù)據(jù)挖掘

      2.2.1 數(shù)據(jù)挖掘體系

      Web數(shù)據(jù)挖掘能夠被分成眾多節(jié)點(diǎn),并且通過對(duì)云計(jì)算技術(shù)的利用,能夠進(jìn)一步加強(qiáng)這一體系中各節(jié)點(diǎn)聯(lián)系,促進(jìn)完善數(shù)據(jù)挖掘體系的形成.其中,主控節(jié)點(diǎn)主要是對(duì)各節(jié)點(diǎn)和客戶端進(jìn)行連接;數(shù)據(jù)節(jié)點(diǎn)的作用是存儲(chǔ)數(shù)據(jù);算法節(jié)點(diǎn)則可以將有效算法支撐提供給數(shù)據(jù)挖掘,在一定程度上,能夠把其當(dāng)作算法倉庫;而服務(wù)節(jié)點(diǎn)的作用就是對(duì)主控發(fā)布的任務(wù)進(jìn)行執(zhí)行,并把計(jì)算結(jié)果反饋出來.基于這一挖掘體系功能,可以詳細(xì)劃分體系層面,即服務(wù)層、控制層、數(shù)據(jù)存儲(chǔ)層以及業(yè)務(wù)處理層等.首先,服務(wù)層就是利用這一體系對(duì)數(shù)據(jù)進(jìn)行詳細(xì)挖掘,并向用戶呈現(xiàn)具體結(jié)果;其次,控制層中的主控節(jié)點(diǎn)需要做好用戶反饋結(jié)果的分析工作,明確最佳算法,以此來促進(jìn)高效數(shù)據(jù)挖掘的實(shí)現(xiàn);再次,算法與存儲(chǔ)層主要工作就是對(duì)反饋回來的數(shù)據(jù)與算法進(jìn)行存儲(chǔ),其存儲(chǔ)的數(shù)據(jù)不但包含原始數(shù)據(jù),還涉及挖掘結(jié)果,有利于避免出現(xiàn)算法或者是數(shù)據(jù)丟失問題,即使系統(tǒng)發(fā)生了故障,也能夠通過對(duì)存儲(chǔ)區(qū)的利用及時(shí)獲得丟失數(shù)據(jù),并展開數(shù)據(jù)恢復(fù)工作;最后,業(yè)務(wù)處理層的作用就是挖掘存儲(chǔ)層中的數(shù)據(jù),并經(jīng)由主控點(diǎn)重新分配數(shù)據(jù),之后再通過服務(wù)節(jié)點(diǎn)重新回到主控節(jié)點(diǎn)中[3].

      2.2.2 數(shù)據(jù)挖掘算法

      Web數(shù)據(jù)挖掘技術(shù)就是在連接、網(wǎng)頁以及日志中對(duì)需要數(shù)據(jù)信息進(jìn)行尋找的一種技術(shù),而WebGraph則是重要數(shù)據(jù)結(jié)構(gòu)之一,其能夠有效描述Web信息,在社交網(wǎng)絡(luò)、搜索結(jié)果排序以及網(wǎng)絡(luò)爬蟲等方面得到了廣泛運(yùn)用,并發(fā)揮著重要作用.因此,本文研究的重點(diǎn)就是Graph算法,詳細(xì)探究了其數(shù)據(jù)結(jié)構(gòu),并分析了以云計(jì)算為基礎(chǔ)的Graph數(shù)據(jù)獲取方案,即加強(qiáng)對(duì)Hadoop這一份不是基礎(chǔ)框架的利用.Java是這一框架主要的語言,因此,本文將通過這一語言來對(duì)挖掘算法進(jìn)行描述,這也就使得必須選擇相應(yīng)數(shù)據(jù)模型,做好真實(shí)網(wǎng)絡(luò)鏈接關(guān)系的抽象描述.同時(shí),由于WebGraph與Web鏈接分析都是以圖論算法為基礎(chǔ)的,因此,把其抽象成圖形分析能夠?yàn)閿?shù)據(jù)處理分析提供較大便利[4].

      首先,算法數(shù)據(jù)結(jié)構(gòu).Webgraph算法在分析數(shù)據(jù)時(shí),必須借助相應(yīng)數(shù)據(jù)描述方法.本文研究主要采取的是矩陣法來對(duì)數(shù)據(jù)進(jìn)行描述,只需要嚴(yán)格遵循行列方式,做好各節(jié)點(diǎn)數(shù)據(jù)排列工作,就能夠促進(jìn)網(wǎng)絡(luò)矩陣的形成,而矩陣階數(shù)則是網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù).若這一算法是對(duì)網(wǎng)頁的鏈接關(guān)系模型進(jìn)行描述,那么其邏輯關(guān)系則可以通過矩陣描述出來.對(duì)矩陣而言,其元素的作用就是判斷并表示出行、列標(biāo)號(hào)節(jié)點(diǎn)之間是不是存在相應(yīng)聯(lián)系.在取值方面,矩陣元素可以出現(xiàn)差異,主要目的就是對(duì)和各個(gè)節(jié)點(diǎn)存在各種程度的Graph進(jìn)行表述,還可以通過對(duì)Graph的利用,將社交網(wǎng)絡(luò)中用戶關(guān)系充分表現(xiàn)出來.通常情況下,在社交網(wǎng)絡(luò)中,用戶關(guān)系屬于雙向的,也就是用戶只有互相認(rèn)可,才能加為好友,這也就為通過對(duì)稱矩陣的利用來表述用戶關(guān)系數(shù)據(jù)結(jié)構(gòu)提供了可能.另外,在高級(jí)語言中,還能夠通過二維數(shù)組對(duì)矩陣進(jìn)行表述,因此,若需要采取高級(jí)語言來促進(jìn)Graph處理算法的實(shí)現(xiàn),則可以把矩陣當(dāng)作數(shù)據(jù)結(jié)構(gòu).

      其次,數(shù)據(jù)存儲(chǔ)方式.本文分析的GraphML屬于具有穩(wěn)定性、長期性特點(diǎn)的信息存儲(chǔ)方案,并且以XML語言為基礎(chǔ)的GraphML則是對(duì)圖進(jìn)行描述的一種通用文件格式.相較于其他專有文件格式,這一格式能夠完全由XML表示出來,并且大部分開發(fā)語言都可以對(duì)GraphML進(jìn)行解析.在這一背景下,其在Graph生成、處理以及存儲(chǔ)等方面得到了廣泛運(yùn)用.同時(shí),GraphML還具有簡便、直觀等特點(diǎn),可以為開發(fā)人員理解提供便利,并且在數(shù)據(jù)修改與分析方面,其還降低了一定難度,不但可以幫助開發(fā)人員修改,還能夠?yàn)槌绦蜷_發(fā)奠定良好基礎(chǔ)[5].當(dāng)前,常見Graph數(shù)據(jù)結(jié)構(gòu)主要有分級(jí)圖、有向圖、圖形顯示、輕量級(jí)的語法分析器、超圖、有向無向共存圖、特定屬性數(shù)據(jù)以及無向圖等,而上述數(shù)據(jù)結(jié)構(gòu)都能夠做好描述工作.

      最后,數(shù)據(jù)抓取.以WebGraph算法為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù)主要是利用頁面爬取方式來得到需要的頁面信息,之后再詳細(xì)分析其中的Web連接,并最終促進(jìn)Graph結(jié)構(gòu)的形成.運(yùn)算量大是這一挖掘算法的突出特點(diǎn),尤其是在對(duì)以文本為基礎(chǔ)的頁面鏈接任務(wù)進(jìn)行分析時(shí),必須會(huì)消耗眾多計(jì)算資源,而除Web頁面關(guān)聯(lián)之外,還可以通過對(duì)Graph結(jié)構(gòu)的利用,完成顯示常見事物關(guān)聯(lián)的描述,也就是社交網(wǎng)絡(luò)用戶.在當(dāng)前技術(shù)快速發(fā)展情況下,多樣化在線社交網(wǎng)絡(luò)得到了人們的重視,并滲入其日常生活.以Facebook為例,其注冊(cè)用戶遠(yuǎn)遠(yuǎn)大于20億,這也就使得其中蘊(yùn)含著大量用戶關(guān)系,與挖掘算法研究對(duì)象需求相符.因此,本文研究將把Facebook用戶關(guān)系數(shù)據(jù)當(dāng)作研究對(duì)象,詳細(xì)分析以云計(jì)算為基礎(chǔ)的Web數(shù)據(jù)挖掘技術(shù).

      一方面,應(yīng)用程序創(chuàng)建.本文研究設(shè)計(jì)出了以Facebook為基礎(chǔ)的應(yīng)用,其目的就是獲得相應(yīng)的用戶關(guān)系.這一社交網(wǎng)站可以對(duì)程序編程的接口進(jìn)行提供,能夠?yàn)檠芯咳藛T程序開發(fā)提供便利,并使程序在Facebook上更好運(yùn)行.而要想實(shí)現(xiàn)這一目的,則必須先獲得相應(yīng)接口密鑰,即研發(fā)人員應(yīng)該在Get Started這一站點(diǎn)得到相應(yīng)開發(fā)資料,做好資料填寫與申請(qǐng)等流程,這樣,就能夠獲得相應(yīng)的ID與密鑰,而在后續(xù)程序開發(fā)中,這些密鑰則占據(jù)著核心地位,發(fā)揮著重要作用.目前,F(xiàn)acebook官方已經(jīng)不再支持Java開發(fā)接口,這使得開發(fā)人員必須選擇第三方接口,但Google Code則創(chuàng)建了相應(yīng)項(xiàng)目,其目的就是為失去支持的代碼庫提供維護(hù)與擴(kuò)展,并將優(yōu)秀API提供給開發(fā)人員,從而進(jìn)一步開發(fā)應(yīng)用程序.另一方面,用戶關(guān)系獲取.要想促進(jìn)用戶交互的實(shí)現(xiàn),就必須加強(qiáng)對(duì)Java Servlet的利用,完成和瀏覽器之間的通信.這也就意味著需要對(duì)Servlet類進(jìn)行自定義,通常情況下,其與常規(guī)Web項(xiàng)目之間沒有不同,只需要將初始化的參數(shù)添加到相應(yīng)的文件中.同時(shí),為了準(zhǔn)確獲取用戶關(guān)系數(shù)據(jù),必須先得到其好友數(shù)據(jù),當(dāng)前,API將三種用戶好友列表登錄方式提供給了開發(fā)者,這三種方式的作用相同,僅在返回格式方式存在差異,主要有XML、JSON以及JAXB.因此,在具體研究過程中,本文只需要通過對(duì)堆棧結(jié)構(gòu)的利用,做好大量用戶訪問工作,得到其關(guān)聯(lián)并存儲(chǔ),就可以促進(jìn)數(shù)據(jù)挖掘的實(shí)現(xiàn)[6].

      3 結(jié)論

      綜上所述,做好基于云計(jì)算環(huán)境的Web數(shù)據(jù)挖掘技術(shù)分析已經(jīng)成為一項(xiàng)重要工作.因此,必須掌握虛擬技術(shù)與并行編程技術(shù)等云計(jì)算技術(shù),了解Web數(shù)據(jù)挖掘的異構(gòu)性、動(dòng)態(tài)靈活、分布存儲(chǔ)等特點(diǎn)與結(jié)構(gòu)、內(nèi)容以及利用等類型,建立健全數(shù)據(jù)挖掘體系,并從算法數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)方式以及數(shù)據(jù)抓取等方面入手,促進(jìn)數(shù)據(jù)挖掘質(zhì)量與效率的提升.

      ——————————

      參考文獻(xiàn):

      〔1〕朱娜.基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].信息記錄材料,2018,19(06):79-81.

      〔2〕葛曉玢,劉杰.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2017,32(03):26-29.

      〔3〕薛醫(yī)貴.云計(jì)算在WEB數(shù)據(jù)挖掘技術(shù)中的應(yīng)用研究[J].自動(dòng)化與儀器儀表,2017(05):156-157+161.

      〔4〕張耀東,張嫻靜.數(shù)據(jù)加密技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)通信安全中的應(yīng)用分析[J].赤峰學(xué)院學(xué)報(bào),2018(05):42-43.

      〔5〕葛曉玢,劉杰.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2017(03):26-29.

      〔6〕陳磊.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].電腦編程技巧與維護(hù),2017(06):64-65.

      猜你喜歡
      云計(jì)算環(huán)境云計(jì)算技術(shù)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于云計(jì)算環(huán)境的軟件檢測探討
      云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)
      云計(jì)算技術(shù)的應(yīng)用與發(fā)展
      云計(jì)算環(huán)境下分布存儲(chǔ)關(guān)鍵技術(shù)研究
      企業(yè)信息化建設(shè)中云計(jì)算的運(yùn)用
      淺談云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)
      科技視界(2016年14期)2016-06-08 21:43:56
      科技期刊編輯出版工作中云計(jì)算技術(shù)的應(yīng)用
      今傳媒(2016年5期)2016-06-01 00:34:28
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      武宁县| 万州区| 本溪市| 英德市| 延寿县| 县级市| 图们市| 普宁市| 定日县| 巴楚县| 永胜县| 九寨沟县| 罗江县| 永川市| 平昌县| 苍梧县| 凤山县| 津市市| 沅陵县| 佛山市| 鹤壁市| 乐清市| 衡水市| 米泉市| 北流市| 清流县| 芮城县| 镇雄县| 鹿邑县| 绥中县| 台东市| 当阳市| 邯郸县| 远安县| 云南省| 汉源县| SHOW| 分宜县| 丹棱县| 沁源县| 乳山市|