• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談大數(shù)據(jù)時代實時流計算在石油企業(yè)中的應(yīng)用前景展望

      2022-12-28 12:42:06王琪
      關(guān)鍵詞:批處理流式數(shù)據(jù)流

      ◆王琪

      淺談大數(shù)據(jù)時代實時流計算在石油企業(yè)中的應(yīng)用前景展望

      ◆王琪

      (大慶油田有限責任公司第七采油廠數(shù)字化運維中心 黑龍江 163000)

      隨著數(shù)字化油田和企業(yè)信息化的發(fā)展,海量數(shù)據(jù)激增,現(xiàn)有的大數(shù)據(jù)處理方式不能滿足日益增長的生產(chǎn)、分析需求,面對無窮無盡的數(shù)據(jù)洪流,需要一種手段來抓住并思考那些一閃而逝的瞬間。

      大數(shù)據(jù);石油行業(yè);實時流計算

      隨著油田信息化的發(fā)展,數(shù)字油田迅速建立,大數(shù)據(jù)、實時數(shù)據(jù)、流式計算等概念廣受關(guān)注。本文對目前各類實時流計算架構(gòu)進行對比,找出適用于油田數(shù)字化建設(shè)的架構(gòu),并分析其應(yīng)用前景,為油田數(shù)字化建設(shè)提供思路。

      1 研究現(xiàn)狀

      目前石油企業(yè)每天都產(chǎn)生海量生產(chǎn)數(shù)據(jù)、工作數(shù)據(jù),不同用戶對數(shù)據(jù)的需求也顯著不同?,F(xiàn)階段針對不同需求進行數(shù)據(jù)推薦,可能要十幾分鐘、一小時,甚至更久,這遠遠不能滿足需要更快完成對數(shù)據(jù)的處理,而不是進行離線的批處理。而實時流計算技術(shù)能夠抓住數(shù)據(jù)流的瞬間,分析并挖掘出數(shù)據(jù)的實時價值。

      1.1 實時流式計算的概念

      實時流式計算,就是RealTime Streaming Analyse,也稱之為實時計算,或者是流式計算,可以理解為只要數(shù)據(jù)一直在產(chǎn)生,計算就持續(xù)地進行。實時流式計算被廣泛應(yīng)用于各個領(lǐng)域,并在大數(shù)據(jù)領(lǐng)域有了長足發(fā)展。

      實時流式計算作為一種新型計算方式,具有以下三個特點:

      (1)無限數(shù)據(jù)。是指持續(xù)增長并且基本上無限的數(shù)據(jù)集。這些通常被稱為“流數(shù)據(jù)”,而與之相對的是有限的數(shù)據(jù)集。

      (2)無界數(shù)據(jù)處理。是一種持續(xù)的數(shù)據(jù)處理模式,能夠通過處理引擎重復(fù)處理上面的無限數(shù)據(jù),是能夠突破有限數(shù)據(jù)處理引擎瓶頸的。

      (3)低延遲。并沒有明確地定義延遲是多少,但我們都知道數(shù)據(jù)的價值將隨著時間的流逝降低,時效性將是需要持續(xù)解決的問題。

      1.2 實時流式計算的現(xiàn)狀與發(fā)展

      目前在大數(shù)據(jù)應(yīng)用的各種熱門領(lǐng)域,比如推薦系統(tǒng)在實踐之初,受技術(shù)所限推薦時間較長,遠遠不能滿足需要。在進行數(shù)據(jù)建模時,得到的會是一條條的數(shù)據(jù),并隨著時間流逝不斷增長,需要進行實時的數(shù)據(jù)分析,解決大數(shù)據(jù)量、災(zāi)備、時序、時間窗口、性能等問題[1]。

      不同于批量計算,需等待數(shù)據(jù)計算結(jié)果完成后,批量將數(shù)據(jù)傳輸?shù)皆诰€系統(tǒng);流式計算作業(yè)在每次小批量數(shù)據(jù)計算后可以立刻將數(shù)據(jù)寫入在線/批量系統(tǒng),無需等待整體數(shù)據(jù)的計算結(jié)果,進一步做到實時計算結(jié)果的實時化展現(xiàn)。

      流計算是一種持續(xù)、低時延、事件觸發(fā)的計算作業(yè)。用戶使用流計算的順序是:提交流計算作業(yè),等待流式數(shù)據(jù)觸發(fā)流計算作業(yè),計算結(jié)果持續(xù)不斷對外寫出[2]。

      指標批量計算流式計算數(shù)據(jù)集成方式預(yù)先加載數(shù)據(jù),實時加載數(shù)據(jù),并且實時計算使用方式,業(yè)務(wù)邏輯可以修改,數(shù)據(jù)也可重新計算。但是業(yè)務(wù)邏輯一旦修改,之前的數(shù)據(jù)不可重新計算(流數(shù)據(jù)易逝性)。在大部分大數(shù)據(jù)處理場景下,受限于當前流計算的整個計算模型較為簡單。流計算是批量計算的有效增強,特別在于對事件流處理時效性上,流計算對于大數(shù)據(jù)計算是一個不可或缺的增值服務(wù)。

      流式計算正是蓬勃發(fā)展的時期。為了反映現(xiàn)實世界事件驅(qū)動的特性,為了對接消息隊列事件驅(qū)動的設(shè)計,還為了獲得更好的時延,越來越多的業(yè)務(wù)采用流式計算系統(tǒng)來處理它們的數(shù)據(jù)。在批流統(tǒng)一的理論指導(dǎo)下,可想而知,未來的計算是屬于流式計算的天下。

      2 技術(shù)選擇

      2.1 流式計算框架的技術(shù)選型

      隨著這些年大數(shù)據(jù)的飛速發(fā)展,出現(xiàn)了不少流計算的框架、引擎。實時數(shù)據(jù)流計算主要是Storm和Spark以及Apache Flink。三大類數(shù)據(jù)的實時處理邏輯在全鏈路上保證了流式計算的低時延。

      在過去幾年,業(yè)界的主流計算引擎大多采用Spark Streaming,隨著近兩年Flink的快速發(fā)展,F(xiàn)link的使用也越來越廣泛。

      Spark Streaming是Spark最早推出的流處理組件,它基于流式批處理引擎,基本原理是將輸入數(shù)據(jù)按一定時間間隔進行微批次批處理,隨著處理時間縮短至秒級,便可以用于實時數(shù)據(jù)流。它是以批處理引擎為基礎(chǔ)產(chǎn)生的,所以它的處理存在延時較大的問題,一般為秒級延遲[3]。

      Storm提供了At Least Once消息保障機制。主要分為以下三種:第一個就是一次性最大值(At Most Once),但不能保證消息不丟失。第二個就是至少會收到一次(重復(fù))信息(At Least Once)。第三個是只有一次(At Exactly Once),精準傳輸。如果你采用了Storm的Low Level實現(xiàn),根據(jù)業(yè)務(wù)場景,可能需要去處理重復(fù)消息。

      Storm要先設(shè)計一個針對實時計算的拓撲。拓撲將被提交到集群中,由主控節(jié)點分發(fā)代碼并將任務(wù)分配給工作節(jié)點執(zhí)行。一種拓撲結(jié)構(gòu)包括兩種角色:分別是Spout角色和Bolt角色,前者在其中發(fā)送信息并負責以元組形式發(fā)送數(shù)據(jù)流。后者負責數(shù)據(jù)流的轉(zhuǎn)換,完成計算、過濾等。由Spout發(fā)出的Tuple是一個不可變數(shù)組,有固定的鍵值對相互對應(yīng)。

      2014年12月,Apache Flink作為Apache的頂級項目誕生,歷經(jīng)數(shù)年發(fā)展,在這兩年逐漸出現(xiàn)在大眾面前。Apache Flink作為一個框架和分布式處理引擎,具有毫秒級的流處理引擎,可以對有界數(shù)據(jù)流和無界進行狀態(tài)計算。Apache Flink是新的Stream計算引擎,用Java實現(xiàn),既可以處理Stream Data也可以處理Batch Data,可以同時兼顧Spark以及Spark Streaming的功能。與Spark不同的是,Apache Flink本質(zhì)上只有Stream的概念,Batch被認為是Special Stream。Apache Flink在運行中主要由三個組件組成,JobClient,JobManager 和TaskManager。

      Apache Flink是真正的流式計算,和Spark Streaming相反。Apache Flink把離散的數(shù)據(jù),當成流式數(shù)據(jù)來處理。Apache Flink是一個面向分布式數(shù)據(jù)流處理和批量數(shù)據(jù)處理的開源計算平臺,它能夠基于同一個Flink運行時(Flink Runtime),提供支持流處理和批處理兩種類型應(yīng)用的功能。Apache Flink在實現(xiàn)流處理和批處理時,與傳統(tǒng)的一些方案完全不同,它從另一個視角看待流處理和批處理,將二者統(tǒng)一起來:Apache Flink完全支持流處理,也就是說作為流處理看待時輸入數(shù)據(jù)流是無界的;批處理被作為一種特殊的流處理,只是它的輸入數(shù)據(jù)流被定義為有界的?;谕粋€Apache Flink運行時(Flink Runtime),分別提供了流處理和批處理API,而這兩種API也是實現(xiàn)上層面向流處理、批處理類型應(yīng)用框架的基礎(chǔ)[4]。

      Flink支持增量迭代,具有對迭代自動優(yōu)化的功能,在迭代式數(shù)據(jù)處理上,比Spark更突出,F(xiàn)link基于每個事件一行一行地流式處理,是真正的流式計算,其本質(zhì)與Storm性能差不多,支持毫秒級計算,而Spark則只能支持秒級計算。基于石油行業(yè)的迅速發(fā)展,智慧油田的建設(shè)日新月異,F(xiàn)link顯然更適應(yīng)當前油田發(fā)展的需要。

      3 應(yīng)用前景展望

      隨著智慧油田、智能油田的建設(shè),實時數(shù)據(jù)流計算將更廣泛地應(yīng)用于以下場景。

      3.1 日志分析

      比如對網(wǎng)站的用戶訪問日志進行實時的分析,計算訪問量、用戶畫像、頓率、延遲、丟包、存率等等,幫助企業(yè)進行決策部署。

      3.2 出行、生產(chǎn)監(jiān)控聯(lián)網(wǎng)

      如今的油田聯(lián)網(wǎng)是已不限于物聯(lián)網(wǎng),還包括對用戶、交通等進行分析的一個龐大的系統(tǒng),改善用戶出行,規(guī)劃路線巡檢,以及油田安保問題監(jiān)控。并針對監(jiān)測結(jié)果反饋實時分析,遠程調(diào)控,實時跟蹤并顯示設(shè)備(比如汽車)的位置。

      3.3 油田物聯(lián)網(wǎng)

      比如對油水井采集系統(tǒng)進行實時的數(shù)據(jù)檢測、報警、實時的顯示,或根據(jù)歷史數(shù)據(jù)進行實時的分析、預(yù)測。設(shè)備故障報警:極快感知、識別到故障的發(fā)生,并及時發(fā)出警示通知。

      3.4 實時數(shù)倉

      實時數(shù)倉是在當下流行的數(shù)倉、它綜合了Stream Analytics和Pipeline。它與傳統(tǒng)數(shù)倉最大的區(qū)別是,它能夠把前方的業(yè)務(wù)數(shù)據(jù)實時進行清洗、匯聚、加工,最后寫入實時服務(wù)這一層。實時數(shù)倉最核心的是把業(yè)務(wù)的整個鏈路進行實時化了,這就極大滿足了一些需要實時看數(shù)據(jù)的業(yè)務(wù)需求。

      3.5 在線培訓行業(yè)應(yīng)用

      由于近兩年疫情的關(guān)系,在線培訓應(yīng)用廣泛,倒逼傳統(tǒng)教育向在線教育的轉(zhuǎn)型。在線教育行業(yè)面臨著很大的實時自動化的需求,對實時化有強烈的訴求,實時流計算在在線教育方面有著廣闊的應(yīng)用前景。

      此外,還有更多的領(lǐng)域需要應(yīng)用到實時流計算。在這個過程中具體的業(yè)務(wù),以及與技術(shù)結(jié)合能產(chǎn)生什么樣的價值,還需要不斷地探索。

      4 結(jié)論與認識

      隨著大數(shù)據(jù)時代的到來,在油田開發(fā)的過程中,油田數(shù)字化建設(shè)不斷深入,積累了大量數(shù)據(jù)資源,數(shù)據(jù)發(fā)展已經(jīng)到了變革時代,這迫使工作者們必須具備處理海量數(shù)據(jù)的能力。隨后,大數(shù)據(jù)技術(shù)日趨完善、逐漸發(fā)展的過程又進一步促進社會產(chǎn)生更多、更豐富的數(shù)據(jù)資源。同時,隨著數(shù)據(jù)實時價值日益提升,工業(yè)生產(chǎn)、企業(yè)發(fā)展對數(shù)據(jù)時效性要求也更加強烈,石油企業(yè)對實時數(shù)據(jù)的管理需求也日益迫切。實時流計算作為一種前沿的技術(shù),能夠很大程度地支撐油田企業(yè)信息化、數(shù)字化的發(fā)展需求。

      [1]陳杰.本地文件系統(tǒng)數(shù)據(jù)更新模式研究[D].華中科技大學,2014.

      [2]劉洋.層次混合存儲系統(tǒng)中緩存和預(yù)取技術(shù)研究[D].華中科技大學,2013.

      [3]李懷陽.進化存儲系統(tǒng)數(shù)據(jù)組織模式研究[D].華中科技大學,2006.

      [4]鄧勇強,朱光喜,劉文明.LDPC碼的低復(fù)雜度譯碼算法研究[J].計算機科學,2006(07).

      猜你喜歡
      批處理流式數(shù)據(jù)流
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      輻流式二沉池的結(jié)構(gòu)優(yōu)化研究
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
      微球測速聚類分析的流式液路穩(wěn)定性評估
      基于數(shù)據(jù)流聚類的多目標跟蹤算法
      自調(diào)流式噴管型ICD的設(shè)計與數(shù)值驗證
      流式在線直播視頻的采集
      河南科技(2015年8期)2015-03-11 16:23:41
      北醫(yī)三院 數(shù)據(jù)流疏通就診量
      基于PSD-BPA的暫態(tài)穩(wěn)定控制批處理計算方法的實現(xiàn)
      批處理天地.文件分類超輕松
      饶河县| 丁青县| 垣曲县| 新竹县| 许昌市| 米脂县| 偏关县| 合川市| 绍兴县| 西畴县| 马山县| 利津县| 湘西| 安康市| 于田县| 呼玛县| 丹棱县| 五台县| 城口县| 承德市| 唐河县| 博乐市| 基隆市| 巧家县| 东丽区| 呼伦贝尔市| 岳池县| 响水县| 嘉禾县| 通城县| 普格县| 新干县| 县级市| 射洪县| 全椒县| 个旧市| 阜南县| 大渡口区| 曲周县| 大埔县| 潜江市|