• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于云計算平臺的HTML解析系統的設計與實現

      2015-05-15 10:10:48夏飛丁勝孟振南湯葉舟謝景文
      現代計算機 2015年1期
      關鍵詞:服務器端結構化數據處理

      夏飛,丁勝,孟振南,湯葉舟,謝景文

      (武漢科技大學計算機科學與技術學院,武漢 430065)

      基于云計算平臺的HTML解析系統的設計與實現

      夏飛,丁勝,孟振南,湯葉舟,謝景文

      (武漢科技大學計算機科學與技術學院,武漢 430065)

      HTML解析技術能夠實現非結構化數據轉變?yōu)榻Y構化的數據,傳統的HTML解析技術大多被直接使用到App中,其性能往往會受到運行環(huán)境限制,而且缺乏靈活性,難以維護。針對這些不足之處,設計一種基于云計算的HTML解析系統,將HTML解析放在云上。利用云平臺的超強計算性能,將非結構化的HTML數據結構化,提高移動智能終端的數據處理效率。

      HTML解析;云計算;jsoup

      0 引言

      如今,互聯網上的信息越來越多,互聯網的信息已經成為一個越來越大的礦山,這個里面有黃金也有垃圾,我們坐在這個礦山上,如何挖掘其中的金子,已經越來越受到重視,而這個挖掘過程的第一步就是需要將這些非結構化的數據轉變?yōu)榻Y構化的數據。最簡單的搜索爬蟲需要這種轉變,由Web到WAP的轉碼需要這種轉變,Web數據的應用也需要這種轉變。而HTML解析技術便可輕松實現這種轉變。

      實際中很多應用正是基于HTML解析技術實現的,而且越來越多的移動智能終端應用也在采用這種方式。但移動智能終端的計算性能有限,因而問題便出現了,即便HTML解析算法效率很高,但直接將這種技術運用到App上,App的性能也將會受到運行環(huán)境的限制,進而不能發(fā)揮其最大能力。

      與此同時,隨著科技的飛速發(fā)展,云計算技術得以推廣普及,云計算平臺允許我們將大量的數據處理邏輯放在云端,借助云平臺計算性能和數據處理能力,對大量非結構化的數據進行結構化。

      針對這些特點,我們可以利用云計算平臺優(yōu)秀的性能,輕松完成大量非結構化的HTML數據的解析,緊接著將其中有價值的數據提取出來重新打包封裝,然后回傳給發(fā)起請求的移動智能終端。此時移動智能終端App接收到的是結構化的數據,處理時可以大大降低終端的壓力,獲得更快的響應,進而也就能給用戶帶來更好的操作體驗。

      1 云計算平臺Servlet簡介

      云計算平臺也稱為云平臺。云計算平臺可以劃分為3類:以數據存儲為主的存儲型云平臺,以數據處理為主的計算型云平臺以及計算和數據存儲處理兼顧的綜合云計算平臺。這里用到的是第二種,即以數據處理為主的計算型云平臺。而可以部署在云平臺上服務器又分為多種,這里為了更好地發(fā)揮HTML解析工具的性能,我們采用了Tomcat+Servlet技術。下面將對Tomcat、Servlet進行簡單的介紹。

      Tomcat是一個免費的開放源代碼的Web應用服務器,具有開源免費、容易安裝使用、占用資源小、易于和其他軟件集成等優(yōu)點,其因技術先進、性能穩(wěn)定,而且免費,而深受Java愛好者的喜愛并得到了部分軟件開發(fā)商的認可,成為目前比較流行的Web應用服務器。這里我們將其用作Servlet的容器,負責管理Servlet,同時充當請求調度器,將客戶端的請求傳遞到Servlet,同時將Servlet的響應返回給客戶端。

      圖1 Tomcat容器模型

      Servlet是一種獨立于操作系統平臺和網絡傳輸協議的服務端的Java應用程序,它通過動態(tài)響應客戶端請求來擴展服務器的功能。它可以處理HTTP請求,并回送一個響應;它還可以方便并且靈活地使用第三方的開源工具jar包,同時Servlet還有優(yōu)秀的互聯網訪問性能。Servlet有著十分廣泛的應用,不僅能簡單地處理客戶端的請求,借助Java強大的功能還可以實現并發(fā)處理多個請求的功能。在啟用了Servlet的Web服務器中,默認情況下,Servlet采用一種無狀態(tài)的請求-響應處理方式。Servlet被加載、初始化、準備響應客戶請求的過程如圖2所示。

      圖2 Servlet實例化、初始化及處理請求

      基于這些特點,我們可以利用Servlet來編寫運行于云計算平臺上的Tomcat中的用戶處理用戶請求,抓取并解析HTML數據,然后回傳數據的業(yè)務處理邏輯。

      2 系統的設計與實現

      2.1 服務器端設計與實現

      服務器端是本系統的核心部分,其主要用來接收客戶端的請求,并根據請求內容到互聯網上抓取相關HTML數據,然后將數據解析打包并回傳給客戶端。其主要完成:①接收并識別客戶端發(fā)送過來的請求;②根據請求內容,自動從互聯網這座數據大礦山中匹配出相關HTML數據;③將這些相關的HTML數據抓取到云計算平臺上;④對抓取回來的HTML數據進行解析;⑤將解析出的有價值的信息重新封裝打包;⑥將數據回傳給發(fā)起請求的客戶端。

      服務器端的處理流程如圖3所示。

      圖3 服務器端處理流程

      其中,對HTML數據進行解析時,用到了開源的第三方工具jar包——jsoup。在眾多HTML解析工具中,jsoup有其獨特的類似于jQuery的select選擇器,因而其對HTML的解析效率非常高,而且使用很方便、靈活。

      例如,對下面的字符串進行解析,并提取title標簽下的文本節(jié)點(First parse):

      2.2 客戶端設計與實現

      客戶端部分主要用于與用戶進行交互,接收用戶的輸入并顯示服務器端返回的數據。其主要完成:①接收用戶輸入請求;②將請求以HTTP post/get方式傳遞給云計算平臺上Tomcat中的Servlet程序;③接收云計算平臺回傳的數據;④將接收到的數據拆包,以用戶可閱讀的形式呈現給用戶??蛻舳顺绦虼笾铝鞒虉D如圖4所示。

      圖4 客戶端處理流程

      其中,客戶端不依賴于特定的平臺,可以是PC上的應用軟件,也可以是移動智能終端上的軟件,并且其用于與用戶進行交互的界面也是靈活多變的。

      2.3 數據交換的格式

      本系統服務器端和客戶端之間的數據交換格式采用JSON格式,JSON是一種輕量級的數據交換格式,它采用完全獨立于語言的文本格式,也使用了類似于C語言家族的習慣。因此其易于人閱讀和編寫,同時也易于機器解析和生成,這些特性使JSON成為理想的數據交換語言。本系統為了減輕移動終端的數據處理壓力,同時節(jié)省數據流量,而采用了這種數據格式。

      例如:"firstName":"John",表示鍵為“firstName”的字段的值是“John”。

      3 結語

      互聯網的迅速發(fā)展,帶來一個嶄新的時代。如今互聯網上的信息越來越多,如何去利用好這座礦山的資源,將其中的有價值的數據挖掘出來,將沒有價值的垃圾數據過濾掉,并實現非結構化數據到結構化數據的轉變,已受到越來越多的人的關注。傳統的HTML數據處理的方式不夠靈活,且難以維護,因此亟需一種新的處理方法,以此實現資源的最大化利用。本文設計的HTML處理系統,將數據的處理與數據的呈現分離開來,將數據處理放到云計算平臺上,開發(fā)人員只需要維護云計算平臺上的代碼即可,因此大大提高了系統的可維護性,同時本系統使用優(yōu)秀的jsoup工具來處理HTML數據,其靈活性得以大大提升。經實驗運行驗證,本系統能正常地工作,但還可繼續(xù)完善,例如實現語義分析、數據挖掘、智能信息處理等功能。

      [1] (美)Reto Meier.Android 4高級編程(第3版),2013:83~139

      [2] Jsoup Cookbook(中文版).http://www.open-open.com/jsoup/

      [3] 郝玉龍.Java EE編程技術,2011:18~74

      [4] JSON中國.http://www.json.org.cn/

      Design and Implementation of HTML Parsing System Based on Cloud Computing Platform

      XIA Fei,DING Sheng,MENG Zhen-nan,TANG Ye-zhou,XIE Jing-wen
      (Wuhan University of Science and Technology,Wuhan 430065)

      HTML parsing technique can change the unstructured data into structured data.The traditional HTML parsing technology tends to be used directly to the App,its performance is often constrained by running environment,and lacks of flexibility,so it is difficult to maintain. Aiming at these deficiencies,designs a kind of HTML parsing system based on cloud computing,puts the HTML parsing on the cloud. Using cloud platform super computing performance,makes the unstructured HTML into structured data again,this will greatly improve the efficiency of data processing of mobile intelligent terminal.

      HTML Parsing;Cloud Computing;jsoup

      1007-1423(2014)01-0042-04

      10.3969/j.issn.1007-1423.2014.01.010

      夏飛(1992-),男,湖北荊州人,在讀本科,研究方向為移動智能終端應用開發(fā)

      丁勝(1975-),男,湖北武漢人,博士,副教授,研究生導師,研究方向為圖像分析

      孟振南(1994-),男,湖北鐘祥人,在讀本科,研究方向為移動智能終端應用開發(fā)

      湯葉舟(1995-),男,江蘇常州人,在讀本科,研究方向為移動智能終端應用開發(fā)

      謝景文(1995-),男,湖北天門人,在讀本科,研究方向為移動智能終端應用開發(fā)

      2014-11-25

      2014-12-04

      武漢科技大學大學生科技創(chuàng)新基金研究項目(No.13ZRA067)

      猜你喜歡
      服務器端結構化數據處理
      認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
      心理學報(2022年4期)2022-04-12 07:38:02
      ILWT-EEMD數據處理的ELM滾動軸承故障診斷
      水泵技術(2021年3期)2021-08-14 02:09:20
      促進知識結構化的主題式復習初探
      結構化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      淺析異步通信層的架構在ASP.NET 程序中的應用
      成功(2018年10期)2018-03-26 02:56:14
      基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
      在Windows中安裝OpenVPN
      基于圖模型的通用半結構化數據檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      基于軟信息的結構化轉換
      基于POS AV610與PPP的車輛導航數據處理
      璧山县| 西乌珠穆沁旗| 连南| 原平市| 通化县| 乐东| 大埔区| 积石山| 镇平县| 张掖市| 万源市| 巴林右旗| 怀来县| 夏津县| 上蔡县| 新巴尔虎右旗| 邳州市| 金山区| 福建省| 扎兰屯市| 泰安市| 高清| 红安县| 中牟县| 宜君县| 曲沃县| 沽源县| 仙桃市| 竹山县| 县级市| 郸城县| 龙州县| 富锦市| 岫岩| 申扎县| 安丘市| 类乌齐县| 祁东县| 海兴县| 瑞丽市| 若羌县|