• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      區(qū)域性多機構海洋預報產品集成的初步研究

      2013-10-20 06:43:18
      海洋信息技術與應用 2013年1期
      關鍵詞:頁面解析機構

      李 璟 , 吳 萍

      (1.中國海洋大學 青島 266100;2.國家海洋局東海預報中心 上海 200081)

      隨著海洋經(jīng)濟的高速發(fā)展,各級部門、各涉海行業(yè)以及社會公眾對預報服務質量越發(fā)重視。區(qū)域范圍內海洋預報質量評估是提升各機構的預警報能力和服務水平的有效途徑,同時還有助于預報減災部門有效管理預報服務質量,對防災減災具有積極的意義。

      海洋預報質量評估最直接的方法是將海洋預報數(shù)據(jù)與海洋觀測實況數(shù)據(jù)進行比較。海洋觀測數(shù)據(jù)來源廣泛,如岸基站、浮標、雷達等。隨著通訊技術的發(fā)展和數(shù)據(jù)處理技術的廣泛應用,實況觀測數(shù)據(jù)通過傳輸和處理后實時錄入到數(shù)據(jù)庫中,為預報和實況數(shù)據(jù)的比對提供及時有效的數(shù)據(jù)。但如何集中、有效地獲取區(qū)域內各預報機構的海洋預報產品是當前亟待解決的問題。

      本文旨在通過分析區(qū)域內各機構海洋預報產品的數(shù)據(jù)源和提供方式,采用數(shù)據(jù)同步、Web service和數(shù)據(jù)抓取3種方式獲取預報產品,經(jīng)抽取和清洗等處理后將預報區(qū)域、預報要素、預報值、預報時效等信息錄入數(shù)據(jù)庫中,為預報質量評估提供數(shù)據(jù)。

      1 研究對象分析

      本研究的對象為東海區(qū)7家預報機構在網(wǎng)站上發(fā)布的海洋預報產品。從各預報產品涉及的要素以及是否有符合比對條件的實況資料兩方面進行分析。例如:預報產品有預報要素(如水溫),但可供對比的測點的實況數(shù)據(jù)里沒有該要素或是數(shù)據(jù)的連續(xù)性較差,無法進行比對,因此,不選取該產品的此項要素作為提取對象。同時,綜合考慮預報產品多要素提取的復雜性,此次研究僅選取浪高作為提取對象,由此確定從各機構提取的預報產品的預報區(qū)域和預報時效如表1所示。

      表1 預報產品提取列表

      綜合表1分析結果,本次研究提取的對象符合下述條件:預報區(qū)域為各機構轄區(qū)內1個以上的預報區(qū)域,預報要素為浪高,預報時效為24 h。

      2 研究方法

      根據(jù)確定的研究對象,分析其所在網(wǎng)站發(fā)布預報產品的數(shù)據(jù)來源和提供方式,從而得出數(shù)據(jù)提取的方法。

      通常情況下,網(wǎng)站發(fā)布數(shù)據(jù)的來源主要有兩類:(1)后臺有數(shù)據(jù)庫服務,發(fā)布頁面直接從數(shù)據(jù)庫讀取數(shù)據(jù)并顯示在頁面上;(2)后臺通過對指定文件內容進行解析并在頁面發(fā)布所得的預報數(shù)據(jù),或是通過頁面編輯器直接將數(shù)據(jù)寫入頁面相應位置實現(xiàn)預報發(fā)布。

      對于通過數(shù)據(jù)庫發(fā)布預報產品的,如果開放數(shù)據(jù)庫或是提供Web service接口,則可根據(jù)訪問說明文檔,直接讀取數(shù)據(jù)并寫入本地數(shù)據(jù)庫。對于通過文檔上傳或網(wǎng)頁編輯器方式發(fā)布預報產品的,由于后臺不具備數(shù)據(jù)庫,無法通過直接訪問的方式獲取數(shù)據(jù)。因此,需要研究其他的數(shù)據(jù)提取方法,能夠既不增加預報機構工作量同時又不影響預報發(fā)布。數(shù)據(jù)抓取在數(shù)據(jù)提取方面是一種常見的方法,技術也較為成熟,不需要發(fā)布端提供額外的數(shù)據(jù)服務,可以有效地解決如何從無數(shù)據(jù)庫的頁面獲取數(shù)據(jù)的問題。

      綜上所述,結合數(shù)據(jù)來源和技術實現(xiàn)兩方面因素,本研究采用數(shù)據(jù)同步、Web service、數(shù)據(jù)抓取3種方式,分別針對提供數(shù)據(jù)庫開放、提供數(shù)據(jù)接口和上述兩者均不提供的3種情況,實現(xiàn)提取預報產品中的預報要素值。各機構預報產品的數(shù)據(jù)來源和本次研究的數(shù)據(jù)獲取方式如表2所示。

      表2 預報產品的數(shù)據(jù)來源和獲取方式列表

      3 實現(xiàn)過程

      本研究通過搭建一個預報產品集成系統(tǒng)(包含一組程序和服務以及一個集成數(shù)據(jù)庫)實現(xiàn)預報數(shù)據(jù)的自動化提取和入庫,如圖1所示。其中,程序和服務用于實現(xiàn)數(shù)據(jù)的同步、訪問、抓取以及錄入動作的周期性和自動化;數(shù)據(jù)庫則接收和存儲經(jīng)由程序處理過的各類數(shù)據(jù)。

      3.1 集成數(shù)據(jù)庫

      本研究采用主流的關系型數(shù)據(jù)庫管理系統(tǒng)Microsoft SQL Server搭建數(shù)據(jù)庫,用于存儲各機構的預報數(shù)據(jù)。數(shù)據(jù)庫主要包含兩張數(shù)據(jù)表:基礎信息表和預報信息表。前者用于存儲各機構預報產品的基本信息,關鍵字段包括:基礎信息編號、預報機構名稱、預報名稱、預報區(qū)域、預報要素、預報時效。后者用于存儲通過程序提取的所有預報數(shù)據(jù),關鍵字段包括:記錄編號、預報產品編號、發(fā)布時間、預報值。兩者通過基礎信息表的基礎信息編號進行關聯(lián),如圖2所示。

      圖2 預報產品集成數(shù)據(jù)庫示意圖

      3.2 數(shù)據(jù)提取程序

      根據(jù)各機構提供預報數(shù)據(jù)的方式,本研究采用數(shù)據(jù)同步、Web service、數(shù)據(jù)抓取3種方式,分別開發(fā)數(shù)據(jù)提取和入庫程序,并通過建立對應的Windows服務進行周期性運行,實現(xiàn)自動化和長期化的效果。

      3.2.1 數(shù)據(jù)同步方式

      根據(jù)對廈門預報機構網(wǎng)站發(fā)布的預報產品的數(shù)據(jù)來源進行分析可知,其后臺具備數(shù)據(jù)庫,并且開放數(shù)據(jù)庫訪問,因而采取數(shù)據(jù)同步的方式就可提取所需預報數(shù)據(jù),過程如下:

      1) 根據(jù)源數(shù)據(jù)庫和目標數(shù)據(jù)庫的地址、用戶名、密碼、數(shù)據(jù)庫名分別建立與兩者的連接。

      2) 使用SQL語句從源數(shù)據(jù)庫表中查詢得出預報日期、發(fā)布時間、預報時效、預報區(qū)域、要素值的數(shù)據(jù)集。

      3) 根據(jù)數(shù)據(jù)集中的預報時效、預報區(qū)域連同預報機構在目標數(shù)據(jù)庫中的基礎信息表得出預報產品編號,連同數(shù)據(jù)集中的發(fā)布時間和要素值寫入預報信息表。

      程序采用的是ADO.NET實現(xiàn)數(shù)據(jù)庫讀、寫操作編程。

      3.2.2 Web service方式

      根據(jù)對福建和溫州兩家預報機構網(wǎng)站發(fā)布的預報產品的數(shù)據(jù)來源進行分析可知,兩者均具備數(shù)據(jù)庫基礎,且均提供Web service接口。因此,可以通過采用Web service方式,分別訪問兩個機構的數(shù)據(jù)接口提取到的所需預報數(shù)據(jù)。

      Web service技術目前已廣泛地應用于各類信息系統(tǒng)開發(fā)的數(shù)據(jù)集成環(huán)節(jié)。Web service是一個可編程的Web應用程序,直觀地表現(xiàn)為向外部提供出一個可以被調用的API[1]。Web service的協(xié)議、接口和注冊服務可以使用松散耦合的方式協(xié)調工作[2]。服務描述自身接口的特性、參數(shù)、數(shù)據(jù)類型等但對于服務用戶而言,隱藏了實現(xiàn)服務的細節(jié)[2],便于程序語言、中間層組件或平臺的整合[3]。因此,Web service的實現(xiàn)和其所需的軟硬件平臺以及編寫服務所用的編程語言是相對獨立的。

      由于本研究涉及的網(wǎng)站的開發(fā)語言、數(shù)據(jù)庫環(huán)境不盡相同,因此,在確定數(shù)據(jù)獲取方式時需要考慮如何規(guī)避由于網(wǎng)站異構造成的復雜性。Web service的應用程序具有松散耦合的特性[4],支持跨平臺和跨語言。同時,該技術具有很好的封裝性、集成性,傳輸透明,框架穩(wěn)定,且發(fā)展也比較成熟。因此,采用Web service方式既可以穩(wěn)定地從福建和溫州發(fā)布的數(shù)據(jù)服務中獲取到預報產品,又能夠規(guī)避由于網(wǎng)站異構造成的復雜性。

      通過Web service方式提取產品的實現(xiàn)過程包括:根據(jù)兩家機構提供的接口說明文檔對訪問方法的描述,編寫程序實現(xiàn)預報數(shù)據(jù)集提取和對原始數(shù)據(jù)進行抽取、清理、轉換后寫入本地數(shù)據(jù)庫,流程如3所示。

      圖3 Web Service方式提取數(shù)據(jù)流程圖

      上述過程主要包括4個步驟:

      1)獲取原始數(shù)據(jù)集:創(chuàng)建訪問Web service接口的實例,通過循環(huán)得到某預報單的包含所有預報區(qū)域的數(shù)據(jù)集。

      2)篩選數(shù)據(jù)集:在原始數(shù)據(jù)集范圍內通過匹配預報區(qū)域關鍵字,提取目標區(qū)域的數(shù)據(jù)子集。

      3)解析數(shù)據(jù)集:依次將預報區(qū)域、預報時間、預報時效、預報要素值、預報單信息等值綁定到實體并追加入目標數(shù)據(jù)集。其中預報要素值提取時需要使用正規(guī)表達式將要素數(shù)值從數(shù)據(jù)子集中解析出來。

      4)寫入數(shù)據(jù)庫:將目標數(shù)據(jù)集寫入本地數(shù)據(jù)庫的預報信息表內。

      3.2.3 數(shù)據(jù)抓取方式

      根據(jù)對浙江、江蘇、閩東、寧波4家預報機構網(wǎng)站發(fā)布的預報產品的數(shù)據(jù)來源進行分析可知,其發(fā)布后臺均不具備數(shù)據(jù)庫。對于上述4家機構采用的數(shù)據(jù)獲取方式需綜合考慮對預報工作量和數(shù)據(jù)安全兩方面的影響。本研究采用的數(shù)據(jù)抓取技術可以解決此類問題。

      數(shù)據(jù)抓取是搜索引擎常用的一種技術,可以智能地從網(wǎng)絡資源上提取可用的數(shù)據(jù)[6],為從海量的互聯(lián)網(wǎng)數(shù)據(jù)中獲取有用信息提供了一種便捷的途徑。數(shù)據(jù)抓取程序的基本原理是分析網(wǎng)頁的內容和屬性,并建立一個內容索引用于提供搜索查詢服務。程序運行過程中,逐一對網(wǎng)頁分析文檔內容進行信息抽取的同時,將發(fā)現(xiàn)的新鏈接歸入待分析隊列中,迭代遍歷預設范圍內的所有頁面[7]。抓取過程一般包括:確定抓取目標網(wǎng)址、分析頁面內容和結構并確定抓取規(guī)則以及借助爬網(wǎng)程序根據(jù)規(guī)則抓取數(shù)據(jù)3個步驟[5]。

      由于數(shù)據(jù)抓取技術可以直接解析發(fā)布頁面進而獲得預報信息,不需發(fā)布方提供額外的接口或產品,因此,不會影響工作量和后臺數(shù)據(jù)安全。

      通過分析4家機構預報頁面的結構和內容,確定需要抓取的發(fā)布頁面的地址形式(即固定的還是動態(tài)的)以及需要抓取的預報信息所在位置的標記特點,然后通過編程實現(xiàn)抓取動作,流程如圖4所示。

      圖4 數(shù)據(jù)抓取方式提取數(shù)據(jù)流程圖

      要實現(xiàn)數(shù)據(jù)抓取需要對各個頁面進行不同的數(shù)據(jù)匹配,主要包括3個步驟:

      1)確定發(fā)布地址:如果地址是固定的(如:江蘇預報發(fā)布頁面),直接利用該地址進行請求解析;如果地址不是固定的(如:浙江預報發(fā)布頁面),就通過解析該頁面的上一層地址。根據(jù)時間或其他關鍵字確定當天是否有最新預報單發(fā)布,如果存在則將該地址確定為最新發(fā)布地址。

      2) 獲取發(fā)布內容:為了方便數(shù)據(jù)的解析,以及保證其準確性,使用AJAX的請求方式,直接對發(fā)布地址進行請求,再將反饋內容動態(tài)寫入指定的容器內,讓瀏覽器自動進行解析,從而得到標準的文件內容,即像操作本地源代碼一樣對其解析的內容進行操作。

      3)寫入數(shù)據(jù)庫:將解析后的數(shù)據(jù)集寫入本地數(shù)據(jù)庫的預報信息表內。

      4 研究應用

      隨機選取2012年5月10日至6月28日為統(tǒng)計日期區(qū)間,對東海區(qū)7家機構的預報產品分別連續(xù)獲取49次。統(tǒng)計通過數(shù)據(jù)同步、Web service接口、數(shù)據(jù)抓取3種方式獲取產品的平均成功率如表3所示。

      表3 預報產品獲取情況統(tǒng)計表

      結果分析:

      1)可能造成Web service接口獲取數(shù)據(jù)失敗的原因主要是被訪的服務發(fā)布不穩(wěn)定或是網(wǎng)絡擁堵。

      2)可能造成頁面數(shù)據(jù)抓取失敗的原因包括:a)被訪網(wǎng)站服務繁忙,引起頁面訪問超時,程序無法獲取地址或無法解析頁面,導致抓取失敗。b) 頁面文本的格式不規(guī)范或結構有變動,程序無法按原定的規(guī)則解析頁面,導致抓取失敗。

      3) 3種方式各有特點:a) 數(shù)據(jù)庫直接讀取方式雖能穩(wěn)定地獲取數(shù)據(jù),但開放數(shù)據(jù)庫存在數(shù)據(jù)安全隱患。b)頁面數(shù)據(jù)抓取雖然不影響數(shù)據(jù)安全性,但欠缺靈活性,不僅要求頁面發(fā)布的格式必須規(guī)范,而且如果頁面結構改變,需要對程序進行相應調整,否則無法得到正確的數(shù)據(jù)。c) Web service接口方式既可以較穩(wěn)定地獲取數(shù)據(jù),同時也能保證數(shù)據(jù)傳輸?shù)陌踩?/p>

      5 結論與展望

      通過使用數(shù)據(jù)同步、Web service接口、數(shù)據(jù)抓取技術可以初步實現(xiàn)對東海區(qū)范圍內多家機構的海洋預報產品的集成,為今后預報質量評估所需的預報和實況集成數(shù)據(jù)庫提供預報數(shù)據(jù)來源。

      數(shù)據(jù)同步和數(shù)據(jù)抓取2種方式存在一定的局限性。在今后的預報制作和發(fā)布平臺建設過程中,如果采用統(tǒng)一的預報發(fā)布規(guī)范和數(shù)據(jù)接口規(guī)范,既有利于域內各預報機構海洋預報產品的集成與共享,又能為海洋預報質量評估提供穩(wěn)定可靠的數(shù)據(jù)來源。

      [1]尹建鋒,胡宏濤.基于Web Services的數(shù)據(jù)整合在企業(yè)中的應用[J].電腦開發(fā)與應用,2010,23(1):23-24,27.

      [2]龔玲,張云濤.Web服務:原理和技術[M].北京:機械工業(yè)出版社,2010.

      [3]周長勝.J2EE與.NET在建置XML Web Services方面的比較[J].黑龍江信息,2008,23(3):69.

      [4]文求實,陳光忠.基于Web Services的數(shù)據(jù)庫中間件在電網(wǎng)信息管理系統(tǒng)數(shù)據(jù)庫中的應用 [J].自動化技術與應用,2007,(2):71-73.

      [5]蘭秋軍.互聯(lián)網(wǎng)金融數(shù)據(jù)抓取方法研究 [J].計算機工程與設計,2011,(5):1 829-1 832.

      [6]劉志輝,許捍衛(wèi).基于Google Maps API和網(wǎng)絡數(shù)據(jù)抓取技術的 Web GIS 開發(fā)[J].測繪通報,2009,(3):68-70.

      [7]劉繼紅,吳軍華,任明鑫.基于改進的網(wǎng)絡蜘蛛算法抽取Web站點結構的方法[J].江南大學學報(自然科學版),2009,(5):555-559.

      猜你喜歡
      頁面解析機構
      大狗熊在睡覺
      刷新生活的頁面
      三角函數(shù)解析式中ω的幾種求法
      睡夢解析儀
      電競初解析
      商周刊(2017年12期)2017-06-22 12:02:01
      一周機構凈增(減)倉股前20名
      一周機構凈增(減)倉股前20名
      一周機構凈增倉股前20名
      相機解析
      一周機構凈減倉股前20名
      安乡县| 景泰县| 凌云县| 东方市| 鹤峰县| 惠水县| 乌拉特中旗| 宣恩县| 榆林市| 界首市| 宁化县| 卓尼县| 玉环县| 康平县| 长兴县| 林周县| 屏南县| 嫩江县| 昔阳县| 渑池县| 乐平市| 洛浦县| 南皮县| 洛隆县| 赤峰市| 霍州市| 马龙县| 平果县| 永仁县| 鱼台县| 永丰县| 兴城市| 东莞市| 封丘县| 郸城县| 栖霞市| 成武县| 晴隆县| 石阡县| 乐都县| 克什克腾旗|