• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      航班數(shù)據(jù)展示系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2018-03-07 06:15:44蔣理陸春燕夏洋章嘯可
      無線互聯(lián)科技 2018年21期
      關(guān)鍵詞:可視化

      蔣理 陸春燕 夏洋 章嘯可

      摘 要:航班數(shù)據(jù)是航空公司運(yùn)行的重要組成部分,將繁雜的數(shù)據(jù)高效地展示出來,可以有效地提升航空公司運(yùn)行效率,也可以使客戶更有效地了解相關(guān)信息。文章介紹了一種航班數(shù)據(jù)可視化展示的軟件系統(tǒng),詳細(xì)介紹了從數(shù)據(jù)獲取到展示的過程。

      關(guān)鍵詞:航班數(shù)據(jù);可視化;數(shù)據(jù)展示

      隨著互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,各種大數(shù)據(jù)的分析對各行業(yè)都產(chǎn)生了不同程度的影響。網(wǎng)站數(shù)據(jù)等是互聯(lián)網(wǎng)的重要組成部分。對于民航業(yè)領(lǐng)域,社會(huì)事件的發(fā)生,會(huì)很大程度影響旅客的出行需求變化,從而影響航空公司飛機(jī)運(yùn)力投放、航班編排、票價(jià)策略等,對互聯(lián)網(wǎng)事件的準(zhǔn)確抓取和分析,能夠幫助航空公司更好地服務(wù)市場,服務(wù)旅客,提升收益。

      對于航空公司來說,能否預(yù)先判斷旅客的出行需求,可用于航空公司及行業(yè)管理部門決定行業(yè)運(yùn)力投放的合理性,從而提高旅客服務(wù)水平,提高航空公司航班收益水平,從互聯(lián)網(wǎng)獲取大量的影響民航領(lǐng)域的信息,能夠幫助航空公司制定銷售策略。但是互聯(lián)網(wǎng)上的數(shù)據(jù)復(fù)雜性非常高,一是事件數(shù)據(jù)來源多;二是各數(shù)據(jù)源對事件的描述非常復(fù)雜,來自不同數(shù)據(jù)源的同一事件,可能差別較大;三是事件數(shù)據(jù)一般為非結(jié)構(gòu)化數(shù)據(jù),其處理能力有一定的難度。

      傳統(tǒng)做法需要投入大量人工進(jìn)行標(biāo)注。因此,需要系統(tǒng)具有抓取數(shù)據(jù)的技術(shù)和一定的自然語言處理能力,實(shí)現(xiàn)自動(dòng)化[1]。

      本系統(tǒng)能夠從數(shù)據(jù)源智能實(shí)時(shí)抓取航班數(shù)據(jù),并分類可視化與地圖上的產(chǎn)品,主要功能是實(shí)現(xiàn)互聯(lián)網(wǎng)信息采集,事件畫像建模,可視化展示。

      1 主要技術(shù)介紹

      網(wǎng)絡(luò)爬蟲是一種用來自動(dòng)瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機(jī)器人。網(wǎng)絡(luò)搜索引擎等站點(diǎn)通過爬蟲軟件更新自身的網(wǎng)站內(nèi)容或其對其他網(wǎng)站的索引。網(wǎng)絡(luò)爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事后生成索引供用戶搜索。

      爬蟲訪問網(wǎng)站的過程會(huì)消耗目標(biāo)系統(tǒng)資源,不少網(wǎng)絡(luò)系統(tǒng)并不默許爬蟲工作。因此,在訪問大量頁面時(shí),爬蟲需要考慮到規(guī)劃、負(fù)載,還需要講“禮貌”。不愿意被爬蟲訪問、被爬蟲主人知曉的公開站點(diǎn)可以使用robots.txt文件之類的方法避免訪問。這個(gè)文件可以要求機(jī)器人只對網(wǎng)站的一部分進(jìn)行索引,或完全不作處理。

      互聯(lián)網(wǎng)資源數(shù)據(jù)量巨大,這意味著網(wǎng)絡(luò)爬蟲在一定時(shí)間內(nèi)只能下載有限數(shù)量的網(wǎng)頁,因此它需要優(yōu)化它的下載方式?;ヂ?lián)網(wǎng)資源瞬息萬變,這也意味著網(wǎng)絡(luò)爬蟲下載的網(wǎng)頁在使用前就已經(jīng)被修改甚至是刪除了。服務(wù)器端軟件所生成的統(tǒng)一資源地址數(shù)量龐大,以致于網(wǎng)絡(luò)爬蟲難以避免地采集到重復(fù)內(nèi)容。根據(jù)超文本協(xié)議“顯示請求”(HTTP GET)的參數(shù)的無盡組合所返回的頁面中,只有很少一部分確實(shí)傳回唯一的內(nèi)容。

      2 系統(tǒng)整體設(shè)計(jì)

      本系統(tǒng)分為前端與后端。前端主要負(fù)責(zé)數(shù)據(jù)可視化由以下4個(gè)模塊構(gòu)成:地理位置、事件建模、航班信息和統(tǒng)計(jì)視圖。后端主要負(fù)責(zé)信息采集,采用多線程爬蟲處理,使用定時(shí)爬取。

      系統(tǒng)總體結(jié)構(gòu)如圖1所示。

      3 算法設(shè)計(jì)

      基于線性回歸預(yù)測航班降落時(shí)間:

      線性回歸(Linear Regression)算法。在統(tǒng)計(jì)學(xué)中,線性回歸是利用稱為線性回歸方程的最小平方函數(shù)對一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。

      回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析[2]。

      多元線性方程格式:

      (1)

      從一堆看起來沒有聯(lián)系的樣本點(diǎn)中找到一個(gè)直線方程,能讓數(shù)據(jù)盡可能擬合這條直線,從而對未知數(shù)據(jù)進(jìn)行預(yù)測。

      代價(jià)損失函數(shù)(cost fuction):

      (2)

      用spark來對航班歷史數(shù)據(jù)進(jìn)行分析,把每個(gè)航班的歷史數(shù)據(jù)分為訓(xùn)練集和測試集通過spark ml對訓(xùn)練集進(jìn)行訓(xùn)練得到weights和intercept。再對測試集進(jìn)行測試,進(jìn)行權(quán)重優(yōu)化,采用隨機(jī)梯度下降。觀察得到的函數(shù)是否足夠擬合訓(xùn)練集數(shù)據(jù),挑出最好的函數(shù)(cost function最?。纯砂褜?yīng)航班的weights和intercept存入mysql中,獲取當(dāng)前航班的起飛時(shí)間和計(jì)劃起飛時(shí)間預(yù)測降落時(shí)間。

      4 其他關(guān)鍵模塊

      重新訪問策略,網(wǎng)站的屬性之一就是經(jīng)常動(dòng)態(tài)變化,而爬取網(wǎng)站的一小部分往往需要花費(fèi)幾個(gè)星期或者幾個(gè)月。等到網(wǎng)站爬蟲完成它的爬取,很多事件也已經(jīng)發(fā)生了,包括增加、更新和刪除。在搜索引擎的角度,因?yàn)闆]有檢測這些變化,會(huì)導(dǎo)致存儲(chǔ)了過期資源的代價(jià)。最常用的估價(jià)函數(shù)是新鮮度和過時(shí)性。新鮮度:這是一個(gè)衡量抓取內(nèi)容是不是準(zhǔn)確的二元值。在時(shí)間t內(nèi),倉庫中頁面p的新鮮度是這樣定義的:

      (3)

      過時(shí)性是一個(gè)衡量本地已抓取的內(nèi)容過時(shí)程度的指標(biāo)。在時(shí)間t時(shí),倉庫中頁面p的時(shí)效性的定義如下:

      (4)

      準(zhǔn)點(diǎn)率的計(jì)算是根據(jù)爬取到的歷史航班數(shù)據(jù)計(jì)算每個(gè)飛機(jī)所有實(shí)際飛行時(shí)間和預(yù)計(jì)飛行時(shí)間的誤差之和,最后計(jì)算平均值,得到準(zhǔn)點(diǎn)率。

      從定時(shí)爬蟲模塊中獲取所有minLon,minLat,maxLon,maxLat和token參數(shù),然后重新構(gòu)建url,放入ThreadPool中,合并所有線程返回的結(jié)果集,并將結(jié)果集存入redis的db0中。Read time out /connect time out,減少線程數(shù)目,或增加線程睡眠時(shí)間,或換用大帶寬網(wǎng)絡(luò),或高質(zhì)量網(wǎng)絡(luò)IP被網(wǎng)站ban,增加線程睡眠時(shí)間,或減少長時(shí)間持續(xù)高密度爬蟲,或設(shè)置userAgent偽裝和輪換,或設(shè)置代理IP或者設(shè)置代理IP池。

      猜你喜歡
      可視化
      無錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
      基于CiteSpace的足三里穴研究可視化分析
      自然資源可視化決策系統(tǒng)
      北京測繪(2022年6期)2022-08-01 09:19:06
      三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
      思維可視化
      師道·教研(2022年1期)2022-03-12 05:46:47
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      自然資源可視化決策系統(tǒng)
      北京測繪(2021年7期)2021-07-28 07:01:18
      基于CGAL和OpenGL的海底地形三維可視化
      可視化閱讀:新媒體語境下信息可視化新趨勢
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      远安县| 象山县| 靖宇县| 沾化县| 南乐县| 老河口市| 浠水县| 承德县| 炉霍县| 普宁市| 合江县| 社会| 二连浩特市| 壶关县| 桓台县| 绩溪县| 鄂尔多斯市| 定南县| 含山县| 乌什县| 普兰店市| 甘洛县| 灯塔市| 佛山市| 万荣县| 平原县| 格尔木市| 江西省| 同德县| 常熟市| 辉县市| 礼泉县| 页游| 西丰县| 津市市| 靖西县| 伊宁市| 馆陶县| 平定县| 高州市| 阳西县|