• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      XML技術(shù)在大數(shù)據(jù)環(huán)境下的運用探討

      2018-06-17 11:16馬孝賀李莎
      無線互聯(lián)科技 2018年2期
      關(guān)鍵詞:大數(shù)據(jù)環(huán)境

      馬孝賀 李莎

      摘 要:隨著信息化時代的不斷發(fā)展,網(wǎng)絡技術(shù)的不斷成熟使得網(wǎng)上的信息也越來越豐富。在現(xiàn)階段的數(shù)據(jù)庫研究中也逐漸將關(guān)注點放在對網(wǎng)絡中海量的信息的深度運用上面。文章對現(xiàn)在普遍流行的XML技術(shù)在大數(shù)據(jù)環(huán)境下的運用進行探討,以其對Web數(shù)據(jù)信息收集、數(shù)據(jù)挖掘以及數(shù)據(jù)交換中的技術(shù)運用進行具體分析,希望能夠借此加深對于XML技術(shù)的印象。

      關(guān)鍵詞:大數(shù)據(jù)環(huán)境;XML技術(shù);Web數(shù)據(jù)挖掘

      隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)問題便從技術(shù)層面上升到了國家戰(zhàn)略層面的最高層,研究大數(shù)據(jù)環(huán)境下的具體運用已經(jīng)成為當前的一個比較重要的課題。在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)收集、數(shù)據(jù)挖掘以及數(shù)據(jù)交換上都迫切地需要進行創(chuàng)新和變革,可擴展的標記語言( Extensible MarkupLanguage,XML)技術(shù)在大數(shù)據(jù)環(huán)境下的運用,可以幫助我們更好地應對大數(shù)據(jù)環(huán)境所帶來的機遇和挑戰(zhàn),促進我國科學技術(shù)創(chuàng)新能力的不斷發(fā)展。

      1 XML技術(shù)介紹

      1.1 XML概念

      XML作為一種描述性的標記語言,它也是標準通用標記語言。它是一套定義語義標記的規(guī)范,旨在能夠?qū)?shù)據(jù)類型進行定義,便于人和計算機將其進行識別。它也是簡單的數(shù)據(jù)存儲語言,用來表述數(shù)據(jù)結(jié)構(gòu)化的通用語言,是便于用戶對自己的標記語言進行定義的元語言,其建立過程的方便性給用戶的使用體驗帶來了很大的便利,成為當前大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的有力工具。

      1.2 XML的核心技術(shù)

      XML文檔主要是由3個元素構(gòu)成:文檔類型定義DTD,可擴展樣式表語言XSL以及可擴展鏈接語言XLL。在這3個元素具體的功能劃分上,DTD是一套關(guān)于標記符的語法規(guī)則,對XML的文檔起到了很好的描述作用,定義XML中相關(guān)元素及元素屬性的關(guān)系;XSL控制XML文檔顯示時的版面以及對文字的顯示進行處理;XLL是對XML的語言進行鏈接,使得不同用戶根據(jù)自身的需求選取合適的使用方法‘1]。

      1.3 XML技術(shù)的特點

      XML設計的主要目的是為了傳輸和存儲數(shù)據(jù),其關(guān)注的焦點是數(shù)據(jù)的內(nèi)容。在存儲方面,它是以純文本的格式進行存儲的,不同于所有不兼容的軟、硬件的數(shù)據(jù)存儲方法,可以在各種不兼容的軟、硬件中進行數(shù)據(jù)的存儲,降低了數(shù)據(jù)交換的復雜性。XML具有擴展性的特點,它突破了HTML在擴展性上面的局限性,允許用戶在定義標記時不受數(shù)量的限制,可以根據(jù)自身的需求對信息結(jié)構(gòu)進行嵌套,方便用戶的使用。在數(shù)據(jù)的搜索上它具有智能化的特征,借助于對各種信息所含元素的定義,它可以很好地對信息進行描述。同時XML技術(shù)還改變了傳統(tǒng)的信息構(gòu)造方式,使得互聯(lián)網(wǎng)數(shù)據(jù)在傳輸上面更加快捷準確。由于在內(nèi)容和應用上的分開,加上文檔定義類型DTD只是對數(shù)據(jù)的結(jié)構(gòu)、語義和存放等方式進行描述,沒有涉及數(shù)據(jù)被顯示等方面的問題,XML數(shù)據(jù)就可以被不同的程序進行運用,其又具有很好的復用性。XML還具有國際化的特點,由于其統(tǒng)一代碼的編碼標準,它支持世界上的大多數(shù)文字,便于計算機系統(tǒng)之間進行信息數(shù)據(jù)的交換,可以最大化地突破國際和不同文化疆界的信息交換的限制。

      2 Web數(shù)據(jù)

      2.1 Web上的數(shù)據(jù)特點

      World Wide Web是由巨大的、異構(gòu)的以及半結(jié)構(gòu)化和動態(tài)的基于超鏈接的超媒體文檔所構(gòu)成的數(shù)據(jù)庫,從數(shù)據(jù)庫的角度出發(fā),Web網(wǎng)站上的信息具有多元化、半結(jié)構(gòu)化、動態(tài)化以及分散性等特點,使得信息的處理更加的復雜和龐大。對于Web數(shù)據(jù)的使用來說,盡管現(xiàn)階段已經(jīng)取得了一些成果,但是在異構(gòu)數(shù)據(jù)環(huán)境、半結(jié)構(gòu)化數(shù)據(jù)環(huán)境以及較強動態(tài)性數(shù)據(jù)源上還是存在著較多的不足。例如,從用戶的角度出發(fā),由于每個用戶群體的背景及使用目的的不同,使得Web上的信息量的使用較為復雜,加大了相關(guān)工作的難度[2]。

      2.2 XML技術(shù)運用在Web數(shù)據(jù)中的優(yōu)勢

      雖然HTML和XML都是對Web文檔的語言進行描述的工具,但是XML的靈活性較高,能夠?qū)?shù)據(jù)本身進行很細致的描述,使得它很容易與數(shù)據(jù)庫中的屬性一一對應,憑借其在增加結(jié)構(gòu)及語義信息上的優(yōu)勢,解決了Internet發(fā)展速度快而接入速度慢等問題,擴大了服務器處理信息的容量。在現(xiàn)階段的Web數(shù)據(jù)應用中,XML已經(jīng)成為正式的規(guī)范,開發(fā)人員借助XML在相關(guān)技術(shù)上的優(yōu)勢,進行數(shù)據(jù)交換和格式的處理。XML具有可升級的3層模型,可以幫助其從存在的數(shù)據(jù)中分離出來,并且其結(jié)構(gòu)化的數(shù)據(jù)可以從商業(yè)規(guī)范和表現(xiàn)的形式中進行分離。在異構(gòu)數(shù)據(jù)的集成的實現(xiàn)上,基于Web數(shù)據(jù)的多樣性和非結(jié)構(gòu)化,傳統(tǒng)的文檔的查詢和分析方法效率較低,正確性較低;但是運用XML技術(shù),可以大大提高文檔的結(jié)構(gòu)化程度,便于分析性的內(nèi)容數(shù)據(jù)庫的建立。XML的中間層技術(shù),可以在改進站點設計、提供個性化服務等方面起到良好的作用。XML的中間層技術(shù)可以將數(shù)據(jù)進行結(jié)構(gòu)化,且同一個XML文件的內(nèi)容可以變成多個文件傳給不同的用戶,實現(xiàn)網(wǎng)頁傳輸?shù)膭討B(tài)化特征。3XML在大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)中的運用

      3.1在Web數(shù)據(jù)收集中

      Web的信息收集是指從互聯(lián)網(wǎng)中收集出用戶感興趣的信息,并以清晰各格式化的方式進行輸出。在Web的信息收集中,可以將互聯(lián)網(wǎng)比作是信息源,根據(jù)用戶需求的不同,對信息進行篩選,以達到給用戶提供具有針對性的數(shù)據(jù)信息。

      XML技術(shù)的出現(xiàn),有利于Web信息的抽取和應用。在信息收集時,可以將頁面文檔解析成為DOM數(shù)的結(jié)構(gòu),將頁面的操作處理轉(zhuǎn)化成為對DOM樹的處理,并通過XML的轉(zhuǎn)換語言XSLT對文檔的編寫規(guī)則進行抽取,實現(xiàn)XML與Web間數(shù)據(jù)的轉(zhuǎn)換。Web的信息收集可以按照收集對象的不同,將其分為3個類型:自由文本、結(jié)構(gòu)化的文本以及半結(jié)構(gòu)化的文本。XML憑借其自身的優(yōu)勢,可以將Web頁面中的特定信息收集出來,并使之成為結(jié)構(gòu)化的、具有很強擴展性的文檔,為數(shù)據(jù)的分析和重新組合提供支持。例如,在數(shù)據(jù)收集的過程中,可以將每個站點作為研究的基本單位,根據(jù)用戶感興趣的信息,將信息收集起來,并生成結(jié)構(gòu)化的文檔。之后,便為每個站點建立一個待收集信息路徑表,當出現(xiàn)頻繁的操作以及并沒有清晰的路徑記錄寫入時,可以從信息路徑表中歸納出最小DOM樹的路徑,根據(jù)其中的路徑信息和信息模型生產(chǎn)收集規(guī)則,把收集結(jié)果存入XML文檔中,便完成了對信息的收集規(guī)則。

      3.2在Web數(shù)據(jù)挖掘中

      所謂Web數(shù)據(jù)挖掘,是指在萬維網(wǎng)上挖掘出有趣的、潛在的、有用的信息及其模式。XML在Web數(shù)據(jù)挖掘中的運用主要是以下4個方面:(1)借助Web客戶端在兩個或多個異質(zhì)數(shù)據(jù)庫之間進行通信。(2)將多個處理負載從Web服務器轉(zhuǎn)到客戶端的應用。(3) Web利用其智能化的特征為用戶提供具體所需要的信息的應用。(4) Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶使用的應用。

      在Web的挖掘的處理過程上面來看,基于XML技術(shù)可以使Web文檔結(jié)構(gòu)化,在Web的結(jié)構(gòu)挖掘上可以節(jié)約很多的數(shù)據(jù)處理時間。特別的是,由于XML中文檔的拓撲結(jié)構(gòu)較為明顯,在分析網(wǎng)站中的層次關(guān)系以及鏈接關(guān)系上具有明顯的優(yōu)勢,可以對信息流的方向進行辨別。在數(shù)據(jù)的統(tǒng)一接口的問題的處理上,借助于XML技術(shù),數(shù)據(jù)挖掘軟件可以不用仔細了解每個數(shù)據(jù)庫是如何構(gòu)建起來的,便于對分布式數(shù)據(jù)挖掘進行處理,不用受到不同數(shù)據(jù)庫、不同數(shù)據(jù)源的限制。XML技術(shù)可以快速地使來自不同源的結(jié)構(gòu)化的數(shù)據(jù)進行融合,其主要是經(jīng)過以下步驟來實現(xiàn)的:首先,用XML技術(shù)將從來源于后端數(shù)據(jù)庫以及其他Web來源的數(shù)據(jù)在中間層的服務器上進行集成;其次,XML所具有的可擴展性,可以充分地對不同數(shù)據(jù)進行定義和表達,按照不同用戶的不同需求,將數(shù)據(jù)進行深層次的處理和加工,并發(fā)送到不同的用戶手中。

      3.3在數(shù)據(jù)交換中

      對于現(xiàn)階段的數(shù)據(jù)交換來說,可以以XML在電子商務數(shù)據(jù)交換模型為例。電子商務數(shù)據(jù)主要存儲在關(guān)系數(shù)據(jù)庫中,XML與關(guān)系數(shù)據(jù)庫的映射是電子商務數(shù)據(jù)交換平臺開發(fā)的重要工作。XML作為結(jié)構(gòu)與數(shù)據(jù)的統(tǒng)一體,在數(shù)據(jù)的轉(zhuǎn)換過程中又被分為關(guān)系模式和關(guān)系數(shù)據(jù)兩個方面。在這個過程中,是以XML服務器為核心,來實現(xiàn)客戶端與服務器的交互,客戶端既可以直接讀取服務器的各類信息,又可以在服務器中存儲信息。其中,XML處理器是作為模型的核心,它主要負責完成數(shù)據(jù)的解析和反解析兩個過程,將業(yè)務數(shù)據(jù)與電子報文進行相互的轉(zhuǎn)換;之后便對解析后的數(shù)據(jù)進行分析和加工,使之便于用戶瀏覽和存儲,用戶借助于Web服務器進行相應的業(yè)務處理,Web在這個過程中起到一個中間媒介的作用.一方面接收客戶端的請求,給其提供常規(guī)的訪問信息;同時其又將生成的動態(tài)文件發(fā)送給客戶端,實現(xiàn)數(shù)據(jù)信息的有效交流。在電子商務的運用當中,企業(yè)可以借助XML在Web數(shù)據(jù)交換中的有利優(yōu)勢,實現(xiàn)業(yè)務訂單的接收與處理[3]。

      4結(jié)語

      本文主要介紹了XML技術(shù)在大數(shù)據(jù)環(huán)境下的處理優(yōu)勢,對其概念、特點等進行了介紹。并就其在Web數(shù)據(jù)收集、數(shù)據(jù)挖掘和數(shù)據(jù)交換中的具體運用進行了闡述。XML技術(shù)的發(fā)展,為大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)的分析和處理提供了有力的支持。要加強對相關(guān)技術(shù)的研發(fā)和使用,適應現(xiàn)代化社會對海量數(shù)據(jù)信息的需求的趨勢,不斷提高我國的科技競爭力。

      [參考文獻]

      [1]江文斌,張仁津,張方霞基于WebServices的電子商務系統(tǒng)的研究與架構(gòu)[J]電腦知識與技術(shù),2010 (10):2392-2394

      [2]倪興旺.基于XML的異構(gòu)數(shù)據(jù)交換研究與實現(xiàn)[J]石家莊學院學報,2014 (3):35-38

      [3]劉媛媛.基于XML和WebServices的電子政務數(shù)據(jù)交換平臺的實現(xiàn)[J]龜子技術(shù)與軟件工程,2015 (13):97

      猜你喜歡
      大數(shù)據(jù)環(huán)境
      淺談在大數(shù)據(jù)環(huán)境下的民生審計思路
      基于大數(shù)據(jù)環(huán)境下傳統(tǒng)媒體廣告經(jīng)營創(chuàng)新分析
      大數(shù)據(jù)環(huán)境下高校圖書館個性化信息服務研究
      基于大數(shù)據(jù)環(huán)境的新聞編輯理念變革創(chuàng)新機制
      上杭县| 青岛市| 华安县| 五寨县| 肥东县| 桃园县| 恩平市| 澜沧| 双峰县| 平阳县| 仁布县| 古丈县| 平乐县| 岫岩| 调兵山市| 仪陇县| 芷江| 蒙自县| 仙居县| 寻乌县| 青冈县| 宜都市| 宁陵县| 晋宁县| 甘德县| 马公市| 博湖县| 凤山市| 湟源县| 关岭| 清远市| 新密市| 奉节县| 钟祥市| 福泉市| 易门县| 海兴县| 湟源县| 犍为县| 灵丘县| 玉门市|