• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      空難事故跨媒體信息采集與檢索方法的研究

      2016-06-14 19:10葛煒琦賀蜀川林海舟蔡蕤王紅
      電腦知識(shí)與技術(shù) 2016年12期
      關(guān)鍵詞:數(shù)據(jù)存儲(chǔ)信息檢索

      葛煒琦+賀蜀川+林海舟+蔡蕤+王紅

      摘要:針對(duì)民航空難事故信息來源廣泛,數(shù)據(jù)形式呈現(xiàn)多樣性,信息檢索不方便的問題,提出了基于J2EE的空難事故跨媒體信息管理的設(shè)計(jì)思路。采用webmagic實(shí)現(xiàn)了跨媒體數(shù)據(jù)的采集,運(yùn)用Maven與Java開發(fā)工具,實(shí)現(xiàn)了空難事故信息從數(shù)據(jù)層到應(yīng)用層的存儲(chǔ)與檢索,有效解決了以文本、圖像和視頻等單一媒體表現(xiàn)形式描述民航空難事故信息的不足,為航空安全事故的關(guān)聯(lián)分析提供了技術(shù)支持。

      關(guān)鍵詞:民航空難事故;跨媒體信息采集;數(shù)據(jù)存儲(chǔ);信息檢索

      中圖分類號(hào):TP315 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)12-0006-04

      Abstract :According to the problems of the wide range of information sources, the diversity of data forms and the inconvenience of information retrieval, the design ideas of cross media information management based on J2EE is put forward.Using webmagic to achieve cross-media data acquisition,using Maven and Java development tools,storage and retrieval of information from data layer to application layer is realized, effectively solve the insufficient description of civil aviation accident accident information in single media forms like text, image and video and so on, provide technical support for the analysis of the relationship of aviation safety accidents.

      Key words : civil aviation accident; Cross-media information collection;data storage;Information retrieval

      1 概述

      航空安全一直以來都是人們關(guān)注的焦點(diǎn)。隨著信息獲取、存儲(chǔ)和傳播技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)多媒體資源迅猛增長、多媒體類型及結(jié)構(gòu)日趨復(fù)雜化,民航空難信息呈現(xiàn)出多源異構(gòu)、關(guān)聯(lián)性高、時(shí)效性等復(fù)雜特征,其內(nèi)容跨越了文本、視頻、圖像等多種信息形態(tài),并涉及不同信息源對(duì)事件的不同評(píng)論等多種屬性?!?.11”恐怖事件以來,特別是2014年馬航MH370等一系列航空不安全事件引起了全球公眾對(duì)航空安全更高的要求?;诳缑襟w的民航空難事故數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與檢索方法的研究成為了民航空難信息管理與應(yīng)用研究的熱點(diǎn)問題。

      2 系統(tǒng)設(shè)計(jì)

      2.1系統(tǒng)架構(gòu)設(shè)計(jì)

      系統(tǒng)設(shè)計(jì)分為數(shù)據(jù)層和應(yīng)用層。數(shù)據(jù)層作為最低端為整個(gè)管理系統(tǒng)提供數(shù)據(jù)信息的服務(wù),以JBoss網(wǎng)絡(luò)服務(wù)器為基礎(chǔ),使用網(wǎng)絡(luò)爬蟲的技術(shù)把在各個(gè)主流民航類網(wǎng)頁上的空難事故信息采集下來,以編碼的方式對(duì)數(shù)據(jù)進(jìn)行組織,并存儲(chǔ)在數(shù)據(jù)庫中,以便為應(yīng)用層的信息檢索提供服務(wù);應(yīng)用層作為整個(gè)架構(gòu)的核心層次,在Web服務(wù)器上利用webmagic技術(shù)采集信息,并對(duì)信息進(jìn)行加工處理;為各種角色的用戶提供服務(wù),用戶可更加快速準(zhǔn)確地查找自己需要的信息。整體框架圖如圖1所示。

      3 信息采集與存儲(chǔ)

      3.1跨媒體數(shù)據(jù)的分析與組織

      根據(jù)民航局對(duì)突發(fā)事件采取應(yīng)急措施的相關(guān)規(guī)定,在對(duì)跨媒體空難事故信息的構(gòu)成進(jìn)行了詳細(xì)分析的基礎(chǔ)上,采用了信息編碼的方法描述跨媒體基本信息,編碼設(shè)計(jì)如圖2。

      其中:

      1) 第 0-7 位,表示事故發(fā)生日期 。

      2) 第 8-10 位,表示事故發(fā)生地,編號(hào)方式按照中國居民身份證的編號(hào)方式設(shè)計(jì),如北京為101,天津?yàn)?02。

      3) 第 11-12 位,表示事故類型,編碼方式根據(jù)《民用運(yùn)輸機(jī)場(chǎng)突發(fā)事件應(yīng)急救援管理規(guī)則》的相關(guān)規(guī)章制度設(shè)計(jì),一共13類,如01表示航空器失事,13表示航空器空中出現(xiàn)故障。

      4) 第 13 位,表示傷亡程度,從1到6的傷亡程度逐漸加重,如1表示輕傷事故,2表示重傷事故。

      5) 第 14 位,表示跨媒體信息屬性,其中1表示文本信息,2表示圖片信息,3表示視頻信息,4表示鏈接信息。

      依照此數(shù)據(jù)組織形式編寫事件id,作為空難事件的唯一標(biāo)識(shí),根據(jù)各事件的基本屬性,建立空難事故信息表。

      對(duì)已保存在本地磁盤上的多類型數(shù)據(jù),上傳至服務(wù)器指定的存儲(chǔ)路徑,統(tǒng)一進(jìn)行分類管理。對(duì)非本地?cái)?shù)據(jù)文件采取鏈接調(diào)取的存儲(chǔ)模式,即在數(shù)據(jù)庫內(nèi)保留其網(wǎng)絡(luò)鏈接地址,通過互聯(lián)網(wǎng)進(jìn)行更廣泛的搜索。

      3.2 數(shù)據(jù)庫的設(shè)計(jì)

      數(shù)據(jù)存儲(chǔ)使用MySQL數(shù)據(jù)庫,E-R圖如圖3所示。

      3.3 數(shù)據(jù)的下載與存儲(chǔ)

      1)基于webmagic的數(shù)據(jù)采集

      在信息采集與存儲(chǔ)模塊,先進(jìn)行網(wǎng)頁信息的采集,為提取和存儲(chǔ)多類型的數(shù)據(jù)提供基礎(chǔ)。

      webmagic是一個(gè)無須配置、便于二次開發(fā)的垂直爬蟲框架。本系統(tǒng)使用webmagic結(jié)合Java的方式進(jìn)行信息采集,使用Page對(duì)象的addTargetRequests()方法添加URL到抓取隊(duì)列,getHtml()方法獲取網(wǎng)頁信息,實(shí)現(xiàn)Page對(duì)象的操作實(shí)現(xiàn)爬蟲邏輯;Site對(duì)象可以定義爬蟲的域名、起始地址、抓取間隔、編碼等信息。在需要采集的頁面中,針對(duì)鏈接地址的不完整,或者是不符合主題,需要使用XPath提取關(guān)鍵信息和正則表達(dá)式進(jìn)行匹配。利用正則表達(dá)式進(jìn)行頁面篩選,URL過濾,減少對(duì)不必要網(wǎng)頁的保存,提高網(wǎng)頁內(nèi)容分析和信息分類存儲(chǔ)的效率。

      進(jìn)行信息采集的數(shù)據(jù)源包括主流的新聞媒體網(wǎng)站如中國新聞網(wǎng)、環(huán)球網(wǎng)等,從這些網(wǎng)站體現(xiàn)跨媒體的跨源特性,以及與民航相關(guān)的國內(nèi)外網(wǎng)站如中國民用航空安全信息網(wǎng)、民航網(wǎng)等,從這些網(wǎng)站來獲取空難事件的基本信息。

      在信息采集模塊,先選取了三個(gè)網(wǎng)站(中國民用航空安全信息網(wǎng)、民航網(wǎng)、民航安全科學(xué)研究所網(wǎng)站)進(jìn)行空難事件基本信息的采集(包括文本、圖片、視頻信息),之后再擴(kuò)展主流媒體網(wǎng)站進(jìn)行信息采集。這個(gè)模塊屬于基于固定主題的web信息采集,使用MySQL數(shù)據(jù)庫進(jìn)行網(wǎng)頁信息的存儲(chǔ)。采集過程比較簡化,使用與主題符合程度非常高的種子URL集,從而削弱了計(jì)算優(yōu)先級(jí)的策略的使用問題。首頁展示部分使用基于源搜索的信息采集方法,得到的信息豐富綜合并來源較廣。采用深度采集策略,通過URL重度檢測(cè)服務(wù),從網(wǎng)址列表里選取未被訪問的網(wǎng)址作為爬蟲的起始地址,開始爬蟲后,保存當(dāng)前網(wǎng)頁,獲取當(dāng)前網(wǎng)頁上符合條件的鏈接,然后根據(jù)這些鏈接進(jìn)一步爬取,直到最后一層。采集過程流程圖如圖4。

      2)文本信息的存儲(chǔ)

      在數(shù)據(jù)庫中根據(jù)提取的關(guān)鍵信息設(shè)定表格字段。對(duì)于爬取到的頁面,根據(jù)關(guān)鍵字進(jìn)行正則匹配,提取關(guān)鍵信息并存入數(shù)據(jù)庫。

      3)圖片信息的存儲(chǔ)

      根據(jù)爬取頁面的URL,獲取圖片地址。在具體圖片頁面,下載其HTML頁面,根據(jù)圖片地址下載圖片到本地。

      4 信息檢索

      4.1 檢索方法與實(shí)現(xiàn)過程

      通過對(duì)字符編碼中不同位置的數(shù)字的提取,掃描匹配相應(yīng)數(shù)據(jù)庫中內(nèi)容進(jìn)行解析,來獲取空難事故的基本信息描述。系統(tǒng)接收用戶輸入的檢索關(guān)鍵字段放入session緩存機(jī)制中緩存,再掃描數(shù)據(jù)庫中空難事故信息表,通過關(guān)鍵字段進(jìn)行匹配檢索找到空難事故的事故編碼ID。將獲取到的空難事故的事故編碼ID提出進(jìn)行緩存,從空難事故編碼字符串中提取指定位置的字符子串,分別截取 14 位數(shù)字編碼中的對(duì)應(yīng)位置的字符編碼進(jìn)行解析,再到對(duì)應(yīng)的表中獲取相關(guān)基本信息。

      在同一個(gè)檢索結(jié)果顯示的界面上,不同的位置綁定不同的媒體信息數(shù)據(jù)源,將所有與檢索的某個(gè)空難事故相關(guān)的信息整合到一起,從而顯示不同媒體不同類型的關(guān)于同一個(gè)空難事故的所有信息。

      4.2實(shí)現(xiàn)效果與分析

      將空難事故發(fā)生的時(shí)間和原因等屬性做了分析統(tǒng)計(jì),以柱狀圖顯示,直觀明了,為后續(xù)的空難事故間的關(guān)聯(lián)性分析提供直觀清晰的數(shù)據(jù)依據(jù)??针y事故信息的統(tǒng)計(jì)分析過程:

      SelectCommand="SELECT convert(varchar(4) , accidentdate , 23) as year,count(id) AS count FROM AircraftInformationSearch_accident group by convert(varchar(4), accidentdate , 23);

      空難信息的統(tǒng)計(jì)分析界面如圖7、圖8所示。

      5 結(jié)論

      本文論述了空難事故跨媒體信息采集與檢索方法的研究過程,提供了在信息采集和檢索中運(yùn)用的相關(guān)技術(shù)和方法。采用J2EE技術(shù)平臺(tái),運(yùn)用Maven和Java開發(fā)工具,實(shí)現(xiàn)了將空難事故結(jié)合跨媒體進(jìn)行管理,擺脫了單一媒體信息的局限性和片面性,為實(shí)現(xiàn)空難信息的關(guān)聯(lián)分析提供了有效的數(shù)據(jù)支持。

      參考文獻(xiàn):

      [1] 楊毅,王勝開,陳國順,徐為群,黃鶴云.跨媒體信息技術(shù)與應(yīng)用[Z].電子工業(yè)出版社,2014.

      [2] 王錦超. 跨媒體檢索技術(shù)的研究[D].山東農(nóng)業(yè)大學(xué),2013.

      [3] 中國民航科學(xué)技術(shù)研究院. 2011 中國民航不安全事件統(tǒng)計(jì)分析報(bào)告[Z].北京:中國民用航空局航空安全辦公室,2012.

      [4] CCAR-139-II-R1,民用運(yùn)輸機(jī)場(chǎng)突發(fā)事件應(yīng)急救援管理規(guī)則[S].北京:中國民用航空局,2011.

      [5] 張鴻. 基于相關(guān)性挖掘的跨媒體檢索研究[D].浙江大學(xué),2007.

      [6] 寧曉. 突發(fā)事件跨媒體信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.

      [7] 張鴻,吳飛,莊越挺,陳建勛.一種基于內(nèi)容相關(guān)性的跨媒體檢索方法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(5).

      [8] Buning M D C. Towards a Future-Proof Framework for the Protection of Minors in European Audiovisual Media[J]. Social Science Electronic Publishing, 2014, 10(5).

      猜你喜歡
      數(shù)據(jù)存儲(chǔ)信息檢索
      大數(shù)據(jù)時(shí)代檔案信息建設(shè)的認(rèn)識(shí)和實(shí)踐
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
      基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
      地理信息檢索中空間相似性度量的一種模糊方法
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
      公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
      瓦房店市| 宣威市| 时尚| 温宿县| 长寿区| 遵化市| 长兴县| 南安市| 鹤岗市| 南江县| 额尔古纳市| 辽阳县| 泰州市| 临西县| 博白县| 伊春市| 腾冲县| 旬阳县| 孟州市| 庄河市| 东丰县| 大庆市| 米易县| 宾川县| 福建省| 额济纳旗| 芦山县| 万年县| 沙田区| 韶山市| 大港区| 堆龙德庆县| 武宁县| 海晏县| 河东区| 谷城县| 舟山市| 固阳县| 六枝特区| 深水埗区| 太康县|