孫茜 江勝月
摘要:大數(shù)據(jù)系統(tǒng)根據(jù)時(shí)效性特點(diǎn)分為批式大數(shù)據(jù)和流式大數(shù)據(jù)。在一定程度上流式大數(shù)據(jù)(文章出現(xiàn)均用“流式數(shù)據(jù)”代替)實(shí)時(shí)處理技術(shù)可以實(shí)現(xiàn)及時(shí)向客戶實(shí)時(shí)反饋,所以相較于批式大數(shù)據(jù),流式數(shù)據(jù)受到更多的關(guān)注和探究。根據(jù)這種情況,以流式數(shù)據(jù)實(shí)時(shí)處理為技術(shù)平臺(tái),對(duì)流式數(shù)據(jù)進(jìn)行分析,對(duì)該平臺(tái)設(shè)計(jì)、優(yōu)點(diǎn)進(jìn)行詳細(xì)說明,解析了流式數(shù)據(jù)實(shí)時(shí)處理技術(shù)平臺(tái)的應(yīng)用。
關(guān)鍵詞:流式大數(shù)據(jù);實(shí)時(shí)處理技術(shù);平臺(tái);應(yīng)用
當(dāng)前大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,促進(jìn)了很多行業(yè)技術(shù)進(jìn)步,是增長效益的關(guān)鍵技術(shù)支撐。大數(shù)據(jù)系統(tǒng)根據(jù)時(shí)效性分為批式大數(shù)據(jù)和流式大數(shù)據(jù)(批式大數(shù)據(jù)稱為“歷史大數(shù)據(jù)”,流式數(shù)據(jù)稱為“實(shí)時(shí)大數(shù)據(jù)”)。在互聯(lián)網(wǎng)等應(yīng)用場景中,有很多方面對(duì)大數(shù)據(jù)技術(shù)處理提出了更嚴(yán)格的要求例如:個(gè)性化服務(wù)方面、用戶體驗(yàn)方面、智能分析等方面為了盡可能滿足這些需求,大數(shù)據(jù)處理必須具備在毫秒甚至微秒級(jí)返回處理區(qū)的能力。本文對(duì)流式數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)進(jìn)行解析,對(duì)流式數(shù)據(jù)平臺(tái)的應(yīng)用進(jìn)行深入探究。
一、流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)解析
可以將現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)分成兩個(gè)方面:1.是批處理大數(shù)據(jù)系統(tǒng);2.是流處理大數(shù)據(jù)系統(tǒng)。以hadoop為主要代表的批處理大數(shù)據(jù)系統(tǒng)把數(shù)據(jù)匯集,經(jīng)過批量處理后加載到分析性數(shù)據(jù)當(dāng)中,能夠用來進(jìn)行高性能隨時(shí)查看。雖然批處理大數(shù)據(jù)系統(tǒng)可以能夠?qū)崿F(xiàn)高效率的隨時(shí)查看,但是它也存在缺點(diǎn),那就是無法查看到最新數(shù)據(jù),存在數(shù)據(jù)滯后等不足問題。相比于批處理大數(shù)據(jù)系統(tǒng),以Spark、Storm為主要代表的流出數(shù)據(jù)把實(shí)時(shí)數(shù)據(jù)通過流處理方式,把每條有效數(shù)據(jù)都加載到高性能數(shù)據(jù)庫中進(jìn)行查詢。流式數(shù)據(jù)系統(tǒng)能夠?qū)ψ钚聰?shù)據(jù)實(shí)現(xiàn)高效率查詢,具有數(shù)據(jù)滯后較低的可能性。但是由于占用內(nèi)存容量比較大,所以必須要丟棄部分原始數(shù)據(jù)。結(jié)合實(shí)際情況相關(guān)技術(shù)人員要研發(fā)出快速、內(nèi)存大、智能、自主可控的流式數(shù)據(jù),能夠有效處理數(shù)據(jù)和平臺(tái)不足是當(dāng)前必須解決的問題之一。而要想實(shí)現(xiàn)批處理和流處理相結(jié)合的系統(tǒng)方案,目前正在面臨以下三方面難點(diǎn)。
(一)復(fù)雜指標(biāo)增量、分布式內(nèi)存的并行計(jì)算
實(shí)際上計(jì)數(shù)、求和、平均值等簡單指標(biāo)可以依靠查詢結(jié)果完成,但是存在方差、標(biāo)準(zhǔn)差等復(fù)雜指標(biāo)問題均不能通過簡單合并對(duì)查詢結(jié)果實(shí)現(xiàn)有效融合。又或者是,當(dāng)查詢到涉及時(shí)事熱點(diǎn)或周期間窗口等復(fù)雜指標(biāo)問題時(shí),每增加一遍計(jì)算量就會(huì)花費(fèi)大量財(cái)力物力。而分布式內(nèi)存的并行計(jì)算應(yīng)用的調(diào)整策略又極易造成內(nèi)部資源浪費(fèi),正因此亟須研究的出現(xiàn)實(shí)現(xiàn)了細(xì)粒度基于進(jìn)度實(shí)時(shí)感知的有機(jī)融合策略,優(yōu)化、大大提升了融合系統(tǒng)內(nèi)存使用率。
(二)動(dòng)態(tài)數(shù)據(jù)處理
業(yè)務(wù)系統(tǒng)的實(shí)時(shí)數(shù)據(jù)查詢請(qǐng)求會(huì)涉及到多尺度時(shí)間窗口,例如:最近3筆刷卡交易金額;最近10分鐘內(nèi)輸入密碼次數(shù);一個(gè)月neural交易金額等等。實(shí)際上每一次查詢請(qǐng)求都會(huì)對(duì)系統(tǒng)帶來很大的影響,就此情況亟須研究實(shí)現(xiàn)了支持時(shí)間窗口、多種窗口漂移實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)處理方法,亟須研究以極快的速度完成實(shí)時(shí)查詢請(qǐng)求。
(三)高可用、可擴(kuò)展的內(nèi)存計(jì)算
當(dāng)集群的內(nèi)存不足過時(shí)節(jié)點(diǎn)失效,如何讓集群在提供服務(wù)時(shí)重新平衡是一個(gè)正在等待解決的技術(shù)性難題。亟須研究分布方式的協(xié)議和自平衡的只能分區(qū)算法,可以進(jìn)一步提升流處理可用性。“流立方”流式數(shù)據(jù)實(shí)時(shí)處理技術(shù)在時(shí)間窗口漂移的數(shù)據(jù)基礎(chǔ)上快速處理,支持標(biāo)準(zhǔn)差、求和、最大、最小、等多種分布來具體統(tǒng)計(jì)計(jì)算模型,實(shí)現(xiàn)了對(duì)復(fù)雜事件等實(shí)時(shí)分析的有效管理技術(shù)。
二、流式大數(shù)據(jù)實(shí)時(shí)平臺(tái)
“流立方”流式數(shù)據(jù)實(shí)時(shí)處理平臺(tái)。流立方平臺(tái)具有靈活性、適應(yīng)性的特點(diǎn)。當(dāng)“流立方”收到系統(tǒng)發(fā)出的具體實(shí)時(shí)請(qǐng)求時(shí),能夠根據(jù)處理模塊在大數(shù)據(jù)中分析計(jì)算出相應(yīng)指標(biāo),最后將結(jié)果反饋給業(yè)務(wù)系統(tǒng)?!傲髁⒎健逼脚_(tái)在解決批式大數(shù)據(jù)和流式大數(shù)據(jù)融合的技術(shù)難題,除了實(shí)現(xiàn)優(yōu)異的性能還解決了流式數(shù)據(jù)處理平臺(tái)面臨的問題:1.是作業(yè)具體編排效率。代碼編寫、功能測試、等環(huán)節(jié)是開源流處理平臺(tái)完成流處理編排的重點(diǎn),完成這些環(huán)節(jié)也需要大約一周時(shí)間?!傲髁⒎健逼脚_(tái)在進(jìn)行在線編排時(shí),把上線任務(wù)耗時(shí)降到分鐘,有效地提高了流處理作業(yè)編排效率;2.流處理作業(yè)靈活變更。流處理平臺(tái)擅長增量計(jì)算事先定義,雖然計(jì)算效率高,但是實(shí)際計(jì)算靈活性受到極大限制。比如:一個(gè)業(yè)務(wù)需要統(tǒng)計(jì)未來半年內(nèi)的數(shù)據(jù),而現(xiàn)有的流處理平臺(tái)在業(yè)務(wù)上線三個(gè)月之后才能有效,這種工作方式讓流處理在實(shí)際應(yīng)用中受到很大的影響?!傲髁⒎健逼脚_(tái)在性能、可用性等多層次進(jìn)行創(chuàng)新,不僅提高了流處理平臺(tái)業(yè)務(wù)能力,充分滿足了金融領(lǐng)域內(nèi)業(yè)務(wù)運(yùn)營需要。
三、流式大數(shù)據(jù)實(shí)時(shí)應(yīng)用
流式大數(shù)據(jù)憑借其靈活性及可用性在諸多領(lǐng)域不斷開展應(yīng)用,以交通領(lǐng)域?yàn)槔?。通過全國攝像頭采集到的車牌信息進(jìn)行實(shí)時(shí)數(shù)據(jù)分析,可以通過地理位置信息和地理信息系統(tǒng)更好計(jì)算出最短交通距離。在智慧交通領(lǐng)域,“流立方”的流式數(shù)據(jù)可以獲取套牌車信息,為公安打擊犯罪提供有效幫助;通過實(shí)時(shí)分析交叉路口的車輛信息,控制每一個(gè)路口路燈的智能轉(zhuǎn)變,進(jìn)而極大地提升城市交通秩序?!傲髁⒎健苯鹑陲L(fēng)控反欺詐技術(shù)體系主要包括技術(shù)、知識(shí)、數(shù)據(jù)三大板塊。(其中技術(shù)主要包括:設(shè)備指紋、生物識(shí)別、機(jī)器學(xué)習(xí)等;知識(shí)包括:盜卡反欺詐、信用卡套現(xiàn)、營銷反欺詐等;數(shù)據(jù)方面包括:虛假手機(jī)數(shù)據(jù)、IP數(shù)據(jù)代理等方面)??陀^講“熱數(shù)據(jù)”發(fā)揮了重要意義,從產(chǎn)生數(shù)據(jù)開始,它的實(shí)際應(yīng)用價(jià)值隨著時(shí)間飛逝呈現(xiàn)出逐漸下降的趨勢,而未來如何應(yīng)用“熱數(shù)據(jù)”是一個(gè)任務(wù)重、責(zé)任大的項(xiàng)目?!傲髁⒎健?流式數(shù)據(jù)實(shí)時(shí)技術(shù)處理及平臺(tái)無論在金融、電信、公安還是在海關(guān)、網(wǎng)絡(luò)安全等行業(yè)中都擁有更廣闊的發(fā)展前景。
四、結(jié)語
通過實(shí)踐經(jīng)驗(yàn)及理論研究證明,流式數(shù)據(jù)在技術(shù)處理與平臺(tái)應(yīng)用上有更大上升空間?;诖朔N情況,流式數(shù)據(jù)更具有向大眾推廣的價(jià)值。流式數(shù)據(jù)采用事前或事中模式來實(shí)現(xiàn)感知、判斷等功能,需要以流式數(shù)據(jù)為支撐點(diǎn)。另外,流式數(shù)據(jù)實(shí)時(shí)處理還可以為深度學(xué)習(xí)大數(shù)據(jù)提供計(jì)算保障?!傲髁⒎健绷魇綌?shù)據(jù)實(shí)時(shí)處理平臺(tái)為概率、統(tǒng)計(jì)、網(wǎng)絡(luò)等眾多形態(tài)的人工智能計(jì)算框架提供更多支持。利用流式數(shù)據(jù)實(shí)時(shí)處理技術(shù)的平臺(tái)系統(tǒng),充分實(shí)現(xiàn)對(duì)數(shù)據(jù)的準(zhǔn)確分析、提高流式處理平臺(tái)數(shù)據(jù)處理能力的延展性、科學(xué)性、能夠充分保證需求量。
參考文獻(xiàn):
[1]邢黎聞,陳純.大數(shù)據(jù)需要實(shí)時(shí)智能分析,流式數(shù)據(jù)的實(shí)時(shí)分析,一定是有規(guī)則、模型的東西[J].信息化建設(shè),2017(04).
[2]吳秋莉,郭麗娟,呂澤承.基于大數(shù)據(jù)的井噴式狀態(tài)監(jiān)測數(shù)據(jù)實(shí)時(shí)處理研究[J].電力信息與通信技術(shù),2017(03).
[3]彭曉平,段琳,程旭明.基于電力大數(shù)據(jù)的實(shí)時(shí)流數(shù)據(jù)處理技術(shù)研究[J].電力大數(shù)據(jù),2017(08).
[4]李鵬飛,劉春宇,海軍.云計(jì)算環(huán)境下關(guān)聯(lián)性大數(shù)據(jù)實(shí)時(shí)流式可控聚類算法[J].科學(xué)技術(shù)與工程,2018(07).
[5]曹旭峰,江國華.一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法[J].計(jì)算技術(shù)與自動(dòng)化,2017(03).
[6]高尚.從金融科技創(chuàng)新到金融模式變革——流式計(jì)算在信用卡實(shí)時(shí)大數(shù)據(jù)應(yīng)用領(lǐng)域的研究[J].國際金融,2018(06).
[7]付琳.大數(shù)據(jù)處理系統(tǒng)模式及其應(yīng)用分析[J].集成電路應(yīng)用,2018(12).
*基金項(xiàng)目:多場景主動(dòng)式實(shí)時(shí)大數(shù)據(jù)擁堵治理關(guān)鍵技術(shù)及應(yīng)用(編號(hào)yjt17001)。
(作者單位:安徽三聯(lián)學(xué)院)