• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      2017年我國沿海漁港地理分布數據集

      2018-11-17 06:53:02陳孟婕徐碩劉慧媛蔣慶朝
      關鍵詞:漁港漁業(yè)用戶

      陳孟婕,徐碩*,劉慧媛,蔣慶朝

      1.中國水產科學研究院漁業(yè)工程研究所,中國水產科學研究院漁業(yè)信息工程研究中心,漁業(yè)信息工程功能實驗室,北京 100141

      數據庫(集)基本信息簡介

      數據庫(集)名稱 2017年我國沿海漁港地理分布數據集數據作者 陳孟婕、徐碩、劉慧媛、蔣慶朝數據通信作者 徐碩(xushuo19850718@126.com)數據時間范圍 2017年地理區(qū)域 地理范圍包括北緯18°15'28"~48°17'53"、東經108°15'23"~130°14'51",涉及中國沿海各省??臻g分辨率 1000 m數據量 657條數據格式 *.xlsx數據服務系統(tǒng)網址 http://www.sciencedb.cn/dataSet/handle/542基金項目國家科技基礎條件平臺專項“農業(yè)科學數據共享中心”(2005DKA31800);國家科技基礎條件平臺專項“漁業(yè)科學數據平臺”(2005DKA31800-03);中國水產科學研究院基本科研業(yè)務費專項(2017年),國家漁業(yè)科學數據中心數據匯聚與分析項目,2016HY-ZC10;中國水產科學研究院基本科研業(yè)務費專項(2016年),漁工所漁業(yè)工程學科數據體系結構研究,2016JC0110數據庫(集)組成 數據集由657條漁港地理信息數據組成,主要采集了沿海地區(qū)的漁港分布地理信息。

      引 言

      在移動互聯(lián)網時代,地理信息應用,尤其是基于位置的應用,在交通、購物、餐飲等領域開始廣泛發(fā)展和嘗試,并極大地改變了人們的生活方式。人們對于地理上下文信息的需求進一步驅動了該技術的發(fā)展[1-5]。在漁業(yè)科學數據資源中,地理屬性信息隱含在數據屬性、數據細節(jié)里。開展數據的地理屬性分析以及應用研究,促進用戶對數據的理解,是漁業(yè)科學數據的重要研究方向。漁業(yè)科學數據平臺[6]匯聚了豐富的漁業(yè)科學數據集,并在平臺上開放給用戶獲取和使用。不足是用戶對數據集的訪問量與數據集在平臺上的展示位置直接相關,并且由于數據間關系、數據與用戶的關系不明顯,因此,數據主動服務能力較弱。為了提高用戶對數據的興趣,解決位置帶來的數據訪問量偏差,目前,較常見的技術方法是研究數據的個性化服務、數據挖掘、機器學習等[7-8]。對于該問題的另一種解決思路是,挖掘數據中的地理屬性信息,便于為數據、用戶建立地理上、位置上的上下文相關環(huán)境,以最直觀的地圖方式為用戶展示數據,促進用戶對關聯(lián)數據的訪問和使用。因此,本文選取具有代表性的數據集,采集地理屬性信息,形成新的數據集,為今后的數據科研以及支撐工作奠定基礎。

      “漁港數量、分布、功能與現狀數據庫”[9]中,提供了全國1300多個漁港的避風等級、碼頭長度等參數的數據屬性,同時還提供了文本結構的“地理位置”屬性,例如大連市大連灣、東港市前陽鎮(zhèn)等描述信息,表明該數據集具有鮮明的地理屬性特點,可以通過相關技術手段,將數據轉換成便于地理位置標記的格式。本文通過運用字符串處理工具、位置解析工具、JS腳本語言等相關技術,對“漁港數量、分布、功能與現狀數據庫”數據進行解析,得到量化的地理屬性信息,為地理相關的漁港研究與實施工作提供基礎數據支持。

      1 數據采集和處理方法

      1.1 數據來源與數據概況

      本數據集由“漁港數量、分布、功能與現狀數據庫”通過一定的計算方法獲取,因此,這兩個數據集的關系是因果關系?!皾O港數量、分布、功能與現狀數據庫”的數據來源于農業(yè)部1990年公布的我國大陸沿海的漁業(yè)港口數據,屬于漁業(yè)科技基礎數據,數據詳細內容在漁業(yè)科學數據共享平臺中提供,其在線鏈接地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040361。該數據集的數據飽滿度為85.5%,根據字段缺失數量與所有記錄總字段數量的比值計算得到,其中地理位置的飽滿度為99.2%,相對完整。因此,選取該數據集進行加工處理。

      本數據集目前完成了數據采集、處理與存儲過程,并已發(fā)布在漁業(yè)科學數據平臺網站上,其訪問地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040364。

      1.2 數據采集與處理

      1.2.1 總體流程圖

      數據采集及處理流程包括五個階段:原始數據預處理、地理數據采集、數據加工處理、數據關聯(lián)、數據校驗。數據采集及處理總流程如圖1所示。后續(xù)章節(jié)將展開介紹各個階段的處理方法。

      圖1 數據處理總流程

      1.2.2 原始數據預處理

      在原始數據集中,每條數據由漁港名稱、地理位置、避風等級、碼頭長度、護岸長度、防波堤長度、數據提供單位、更新日期、更新時間組成。查看數據詳情,地理信息包含在漁港名稱、地理位置2個屬性中,而其他字段只與漁港本身的特性相關。原始漁港數據集中,有11條數據的地理位置屬性未填寫。對于這些漁港數據,只能通過漁港名稱進行地理信息辨別。對于其他記錄完整的情況,增加“地理位置漁港名稱”字段,其內容為漁港名稱、地理位置2個屬性的拼接,得到完整的地理屬性信息,作為數據加工處理的原材料。根據地址解析工具的輸入數據要求,將數據集所有的“地理位置漁港名稱”字段拼接成字符串數組格式,如圖2所示。

      圖2 數據輸入格式

      1.2.3 地理數據采集

      在數據預處理后,數據采集的任務是對漁港地理屬性信息的進一步處理,實現定性的自然地理位置屬性與定量的地理坐標信息的轉換。

      國際經緯度坐標標準為WGS-84,稱作大地坐標,是目前廣泛使用的GPS全球衛(wèi)星定位系統(tǒng)使用的坐標系。國內必須使用國測局制定的GCJ-02坐標系(也稱火星坐標系),對地理位置進行首次加密。通過常用的在線地圖應用,如百度地圖、高德地圖、騰訊地圖等,都提供了地理坐標拾取技術,即通過提供自然地理位置信息,得到絕對的經緯度坐標信息。出于安全考慮,各個服務提供商并不提供真實的坐標,而是對數據進行不同加密技術的處理后再提供給用戶。因此,其經緯度數值與真實值之間有一定偏差,而對于數據的位置關系分析、用戶與數據關系分析并不影響。在我國信息安全允許范圍內,本文采集了經加密處理的地理坐標信息。

      本文選取百度坐標系作為數據標準,以百度開放平臺的在線源代碼編輯器作為工具采集地理坐標信息。首先,百度坐標在火星坐標系的基礎上,進行了BD-09二次加密措施,更加保護了個人隱私。其次,百度在坐標轉換技術上提供了批量的坐標轉換的接口,包括地址解析和不同坐標系坐標的轉換,具有更高的坐標轉換效率。第三,工具對于輸入的數據具有一定的容錯性,并可以自動補全地址描述信息。第四,開放平臺還提供了完整的文檔,尤其是完整的演示Demo,使工具的使用簡單易懂,并支持多種技術二次開發(fā),如Android開發(fā)、IOS開發(fā)、Web開發(fā)、服務接口調用。針對本文中數據集采集需求,選擇JavaScript接口的批量地址解析工具,其訪問地址為http://lbsyun.baidu.com/jsdemo.htm?a#i7_3。

      批量地址解析工具的輸入是地理位置組成的字符串數組,輸出是序號、地理位置、經度值、緯度值組成的地址信息。將預處理好的數據,代入該工具源代碼中運行,得到輸出結果A,執(zhí)行時間約為10分鐘,包含了網絡延遲以及每條數據處理的等待時間,得到的輸出結果1046條,其輸出片段如圖3所示。

      為了后期對結果校驗,將地理位置和漁港名稱分別作為輸入數據,利用工具得到另外兩組輸出結果,分別為輸入結果B約900條、輸出結果C約200條。對于原數據集的漁港數據,有11.11%漁港數據在3組輸出結果中都沒有獲取地理坐標信息,需要運用其他的地理信息轉換方法進行坐標轉換。這些數據可以作為漁港地理分布數據集今后的增補數據來源。而3組輸出結果中,A通過詳細的輸入信息獲??;B的輸入數據在語義上地理覆蓋面更廣,得到的結果相對粗略,而且有很多重復的數據;C的位置較精細,查詢的結果也較少。

      1.2.4 數據加工處理

      地址解析工具的輸出結果是非結構化的文本存儲格式。優(yōu)點是體積較小,查看方便,適用于少量數據的存儲。當數據量增多,數據查詢、處理需求越來越復雜,需要將文本格式轉換為結構化數據存儲格式。常見的方法是用程序逐行讀取數據并轉換成結構化存儲格式,另一種更為簡單有效的方法是利用Excel電子表格豐富的數據函數來處理。通過結構化處理,新的數據集與原始數據集可以建立更加清晰的對應關系,例如以漁港名稱作為關聯(lián)字段。

      對于規(guī)范化的輸出結果A,采用Excel處理。Excel有多種處理技巧,其一,直接書寫公式,截取漁港名稱、兩個地理坐標,涉及的函數為字符串截取函數 MID、字符位置查找函數FIND。例如,截取漁港名稱的公式為:MID(A1,FIND("、",A1)+1,FIND(":",A1)-1-FIND("、",A1)),A1即輸出結果A的一條記錄。其二,Excel預定義了便捷操作,可以直接利用數據分列工具,以預定義分隔符或者指定特殊的分隔符,對數據進行切割,分成多列,分割過程如圖4所示。通過分列得到的數據結果可以直接存儲為結構化數據。

      1.2.5 數據關聯(lián)

      數據基本轉換為結構化數據存儲格式后,初步形成了本數據集的主要內容。但由于該數據集關注點為地理分布,并不涉及漁港的其他參數信息,因此需要將新的數據集與原數據集“漁港數量、分布、功能與現狀數據庫”進行關聯(lián)。

      通過解析原數據集所在的發(fā)布平臺“漁業(yè)科學數據平臺”的鏈接地址,可以得到新數據在原數據集中的唯一標識。例如,漁港名稱為“丹東市海洋紅中心漁港”的數據記錄,其唯一標識符id為2,如圖5所示。

      圖4 數據格式化轉換

      圖5 原數據URL解析

      因此,漁港地理分布數據集需要對每一條數據增加關聯(lián)信息,即原數據集編碼和原id。數據集編碼為統(tǒng)一的 A040360,id則需要通過兩個數據集的漁港名稱、地理位置的比對查找。利用Excel中VLOOKUP函數,逐一查找新數據集中名稱在原數據集中的位置,并獲取數據id編號,如圖6所示。漁港地理分布數據集的采集工作基本完成。

      圖6 數據索引方法示意圖

      1.2.6 數據校驗

      輸出結果A是數據集的主要數據,其輸入數據是地理位置和漁港名稱的連接,數據描述更加準確,然而會有冗余、重復的信息。這樣的信息輸入到工具中,便可能得到不準確甚至錯誤的結果。當誤差過大直至錯誤時,則需要進行處理。

      以A數據集作為漁港地理分布數據集的主要數據,通過A、B的對比檢驗數據的合理性,C從一定程度上補充A、B所采集數據的不足。

      (1)三組輸出結果數據對比

      輸出結果A、B、C中,其地理分布數值的歐氏距離從0~25不等,圖7為A和B的數值分布情況。

      圖7 A和B數據分布圖

      數值歐氏距離的概念比較抽象,需要轉換成實際距離?;诎俣鹊貓D開放平臺,利用其中距離計算函數map.getDistance(pointA,pointB)計算距離。對A、B、C數據進行兩兩距離計算,可以得到3組距離,如圖8所示。其中,有些距離為空,其原因是地址解析工具沒有解析出相應的坐標點。通過對比距離,設定誤差值為1公里距離進行討論。當AB組距離在1公里誤差范圍以內時,認為該數據可以進入最終的漁港地理分布數據集;當AB組距離超過1公里時,參考C組數據,若C組數據接近A,則采用A輸出結果,否則采用B輸出結果。

      圖8 三組數據距離計算結果示意圖

      (2)漁港屬性校驗數據

      在原數據集“漁港數量、分布、功能與現狀數據庫”中,碼頭長度、護岸長度、防波堤長度的數據單位為長度單位,體現漁港實際建設規(guī)模和大小。這些屬性對于漁港地理分布數據集的意義是對于有些數據,可以適當放大誤差范圍。例如,數據集AB的距離為2公里,而漁港規(guī)模有3公里,則所采集的地理信息數據是合理的,可以進入漁港地理分布數據集。漁港屬性提供的校驗方法補充了部分數據記錄。通過以上兩步數據校驗,最終形成漁港地理分布數據集,合理數據量657條。

      2 數據樣本描述

      本數據集由657條數據記錄組成,每一條數據記錄包含id、name、x、y、dbcode、preid五個屬性信息。Id為數據記錄的唯一編號,一般是整型。Name是包含地理位置描述信息和漁港名稱的文本字段,為原數據集的地理位置與漁港名稱的連接。漁港在坐標系中的經度信息用x記錄,緯度信息用y記錄。Dbcode和preid指向原數據集代碼和數據編號。

      以數據集第2條記錄為例(圖9)。該數據對應的漁港名稱即name字段的內容,是石塘車關村車關漁港,該漁港的經度屬性取值為117.641872,緯度屬性取值為31.93985,其引用的數據來源是漁業(yè)科學數據平臺中A040360(decode)中第737(preid)條記錄。

      3 數據質量控制和評估

      數據質量依賴于“漁港數量、分布、功能與現狀數據庫”的數據內容完整性、準確性以及地理信息解析工具的準確性。

      對于“漁港數量、分布、功能與現狀數據庫”,主要來源于農業(yè)部1990年公布的我國大陸沿海的漁業(yè)港口數據,數據的可信度和準確性較高。

      圖9 數據樣本

      對于地理信息解析工具,獲取的地理信息坐標允許一定的誤差,其誤差主要來自地理描述信息的精度問題,另一方面是服務提供商對地理信息坐標的加密,以符合相關法律法規(guī)。但誤差范圍必須符合人們的常規(guī)認識。將數據集依次輸入百度地圖在線經緯度拾取工具(http://api.map.baidu.com/lbsapi/getpoint/index.html),對數據集中漁港位置進行定位對比,其中,有20條數據所在位置與實際偏差較大,數據的準確率為96.97%。

      通過數據加工處理過程中數據校驗方法的應用,設置誤差范圍,得到相對準確的漁港地理分布數據集。

      4 數據使用方法和建議

      數據集通過定量的數值對地理位置進行量化,使數據之間的關系更加易于分析和利用。(1)數據關聯(lián)關系分析。通過利用數據挖掘、數據統(tǒng)計、機器學習等算法工具,對數據自身的特性進行分析,例如分析漁港位置與漁港屬性的關系,對漁港聚類后分析其共同特點等。(2)用戶與數據關系分析。根據用戶的訪問位置,可以得到用戶與數據之間的位置關系,并據此進一步提供相關的應用服務,如數據主動推薦、個性化服務,例如將用戶感興趣的數據推送給用戶,將用戶周邊熱點數據進行推薦等。

      數據應用的一個實例如圖10所示?;谟脩粼L問位置,將閾值范圍內的漁港在百度地圖中標記。位置遠近、數據訪問熱度等都可以作為閾值的指標,據此,可以進一步為用戶規(guī)劃其感興趣的內容進行推薦。

      圖10 應用實例

      猜你喜歡
      漁港漁業(yè)用戶
      漁港
      歡迎訂閱2020年度《河北漁業(yè)》
      世界農藥(2019年4期)2019-12-30 06:25:06
      開漁后的博賀漁港總是忙碌而又充滿生機
      相聚在王浩兒漁港
      黃河之聲(2017年1期)2017-04-27 13:21:56
      中菲漁業(yè)合作重啟 菲漁業(yè)代表團來華培訓交流
      中國水產(2017年2期)2017-02-25 07:56:08
      關注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      湖南省漁業(yè)協(xié)會成立
      關注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      如何獲取一億海外用戶
      明溪县| 汝南县| 福鼎市| 皋兰县| 嘉峪关市| 平塘县| 新昌县| 道真| 台中县| 三原县| 长子县| 聂拉木县| 乳山市| 巴林右旗| 阿拉尔市| 重庆市| 宿松县| 黔西县| 宝山区| 金堂县| 临汾市| 仪征市| 青铜峡市| 康平县| 高要市| 出国| 顺昌县| 昂仁县| 哈密市| 万源市| 盘锦市| 广河县| 五峰| 漳州市| 通渭县| 来宾市| 佛山市| 扶余县| 平原县| 夹江县| 都江堰市|