莫曉楠
(廣東省電信規(guī)劃設(shè)計(jì)院有限公司,廣東廣州,510630)
近年來(lái),時(shí)代呈快速發(fā)展趨勢(shì),在日常生活中可以發(fā)現(xiàn)各式各樣的互聯(lián)網(wǎng)設(shè)備,此現(xiàn)象表示大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。同時(shí)這也說(shuō)明了,不同類(lèi)型的數(shù)據(jù)將長(zhǎng)期是增長(zhǎng)的趨勢(shì),在眾多數(shù)據(jù)中,流數(shù)據(jù)由于具備實(shí)時(shí)性的特點(diǎn),來(lái)自不同類(lèi)型的設(shè)備傳輸,在其數(shù)據(jù)系統(tǒng)中發(fā)揮著越來(lái)越重要的作用。
流量數(shù)據(jù)指的是隨時(shí)間變化、無(wú)邊界且即時(shí)確定的數(shù)據(jù)元素的排列。進(jìn)而可以表明,流量數(shù)據(jù)排列狀況一般情況下都會(huì)按照時(shí)間序列來(lái)進(jìn)行排序,存在一定的實(shí)效性。它的處理與集成包括通過(guò)數(shù)據(jù)流連接“操作員”和“處理單元”。大多數(shù)數(shù)據(jù)處理過(guò)程都是通過(guò)操作員對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和處理。接受算子后,數(shù)據(jù)源將向下個(gè)算子發(fā)送新的數(shù)據(jù)處理,這種方式可以使數(shù)據(jù)處理完成的結(jié)果正常輸送到設(shè)備或者是應(yīng)用中[1]。
圖1 流數(shù)據(jù)集成處理抽象模型
時(shí)代飛速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),數(shù)據(jù)的計(jì)算、儲(chǔ)存與工作,大部分平臺(tái)都采取了云計(jì)算。從這點(diǎn)我們可以看出來(lái),第三代數(shù)據(jù)處理的開(kāi)發(fā)是數(shù)據(jù)處理系統(tǒng)的發(fā)展階段。云計(jì)算的大力推廣是一個(gè)非常重要的原因,對(duì)于這些數(shù)據(jù)也有展開(kāi)充分研究,結(jié)果表明,云計(jì)算環(huán)境中的數(shù)據(jù)流和服務(wù)集成一般具備完全支持多個(gè)用戶共享和使用并隨時(shí)可用的功能。同時(shí),它們還具備有實(shí)時(shí)可擴(kuò)展性、容錯(cuò)性與動(dòng)態(tài)性等較多特點(diǎn),此類(lèi)特點(diǎn)的意義非常明確。具體分析來(lái)看,是能保證在云計(jì)算的真實(shí)環(huán)境下,流數(shù)據(jù)的實(shí)際操作和服務(wù)不再簡(jiǎn)單地反映低性能的方式,而且實(shí)際上可以讓大量不同的用戶在共享數(shù)據(jù)流處理結(jié)果的同時(shí),數(shù)據(jù)處理的速度也可以達(dá)成非常高的處理速度。例如,對(duì)某項(xiàng)數(shù)據(jù)的處理可以獲得每秒10000條數(shù)據(jù)的處理狀態(tài),這保證了整個(gè)服務(wù)的效率[2]。另一方面,當(dāng)它使用到實(shí)際工作中時(shí),要保證處在不用的負(fù)載情況下,整個(gè)流量數(shù)據(jù)依舊可以保證很好的性能,這樣肯定可以更好的使資源得到更加合理化的控制分配。另外,還需注重的是對(duì)數(shù)據(jù)展開(kāi)解決時(shí),云計(jì)算是可以很好的保證解決工作的容錯(cuò)率,而且容錯(cuò)的開(kāi)銷(xiāo)也很小。這種形式,可以從根本上解決因?yàn)閬G失數(shù)據(jù)或者是數(shù)據(jù)不完善所產(chǎn)生的損失,所以對(duì)于相應(yīng)流數(shù)據(jù)服務(wù)角度來(lái)看,可靠性一直是最重要的考慮因素。
流數(shù)據(jù)集成的問(wèn)題各式各樣,總結(jié)為四個(gè)方面,分別是流處理引擎間的集成、多個(gè)流數(shù)據(jù)源的集成和流處理引擎和傳統(tǒng)數(shù)據(jù)庫(kù)的集成。其目的是促進(jìn)更快地分析和處理數(shù)據(jù),特別是規(guī)劃和分析許多數(shù)據(jù)源。這也表明,在大數(shù)據(jù)時(shí)代,眾多數(shù)據(jù)源的協(xié)助計(jì)算也是分析數(shù)據(jù)的有效方法。流數(shù)據(jù)的處理將不單單集中在動(dòng)態(tài)化的流數(shù)據(jù)處理上,還會(huì)更加集中在,傳統(tǒng)數(shù)據(jù)庫(kù)靜態(tài)化數(shù)據(jù)搜索上,由于云計(jì)算環(huán)境下的流數(shù)據(jù)處理實(shí)際過(guò)程中需要考慮的問(wèn)題非常多,這就導(dǎo)致具體工作難免會(huì)面臨一定的挑戰(zhàn)。因此,為了科學(xué)地整合好流數(shù)據(jù)的集成工作,就要選取更有針對(duì)性的措施進(jìn)行解決,只有這樣才能更真實(shí)廣泛地反映出數(shù)據(jù)的可靠性和真實(shí)性[3]。
云計(jì)算環(huán)境下的數(shù)據(jù)流查詢操作是一種流行的應(yīng)用。聚焦和選擇是流數(shù)據(jù)的基本操作。連接和聚焦的操作比選擇和投影的耗時(shí),問(wèn)題也更多。而怎么才可以從傳統(tǒng)數(shù)據(jù)操作中創(chuàng)新這兩個(gè)方面的操作是一個(gè)非常值得思考的問(wèn)題,也是當(dāng)下關(guān)注的重點(diǎn)。在流數(shù)據(jù)的探究中,它真實(shí)時(shí)效的特點(diǎn),會(huì)給云計(jì)算帶來(lái)新的挑戰(zhàn)。流數(shù)據(jù)集成和服務(wù)的運(yùn)行框架如圖2所示。運(yùn)行時(shí)框架由客戶端和云端的軟件模塊組成。
圖2 流程數(shù)據(jù)集成服務(wù)框架
有關(guān)流數(shù)據(jù)處理人員在進(jìn)行高速數(shù)據(jù)展開(kāi)、高速吸納和大規(guī)模數(shù)據(jù)輸出工作時(shí),這其中最重要的一點(diǎn)應(yīng)該是盡可能減少數(shù)據(jù)處理的延遲,這一點(diǎn)是當(dāng)前數(shù)據(jù)集成和服務(wù)工作中最主要的困難[4]。在云計(jì)算的特定背景下,想要真實(shí)的把數(shù)據(jù)的延遲性和數(shù)據(jù)的吞吐量限制在合理范圍內(nèi),這就需要相關(guān)人員依據(jù)流數(shù)據(jù)工作的情況,設(shè)計(jì)出一種較為獨(dú)一無(wú)二并且與定向數(shù)據(jù)不存在任何關(guān)系的系統(tǒng)優(yōu)化模式。采取這種模式就可以保證流數(shù)據(jù)在工作過(guò)程中,可以平穩(wěn)進(jìn)行不會(huì)產(chǎn)生較多外來(lái)因素,為此流數(shù)據(jù)處理就得到最為可靠的保證。并且,數(shù)據(jù)管理人員必須對(duì)流數(shù)據(jù)操作階段,設(shè)計(jì)出科學(xué)的優(yōu)化方式,進(jìn)而完成針對(duì)性較強(qiáng)的較好的處理方案。
從目前的情況來(lái)看,可以直接看出來(lái)在實(shí)際處理流量數(shù)據(jù)時(shí),當(dāng)前數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)之間仍有著許多的差異。因此,在數(shù)據(jù)處理方面,工作人員也需要科學(xué)地改變他們對(duì)數(shù)據(jù)處理的思想觀念,但是必須要注重問(wèn)題就是,想要將科學(xué)化發(fā)展轉(zhuǎn)變?yōu)槎ㄖ品?wù),雖存在一定優(yōu)點(diǎn),此后需解決的難題則會(huì)更多。通過(guò)對(duì)于目前存在的模型進(jìn)行抽象分析,結(jié)果表明,這期間最為重要的一個(gè)問(wèn)題依舊出現(xiàn)在流數(shù)據(jù)處理方面,這一點(diǎn)還未完全成熟。如果想阻止這一問(wèn)題繼續(xù)產(chǎn)生,可以在伺候流數(shù)據(jù)模型分析時(shí),比如設(shè)計(jì)在媒體數(shù)據(jù)服務(wù)模型時(shí),盡最大可能性降低流數(shù)據(jù)處理方法的條件,使處理方式較為簡(jiǎn)單。另一方面,注意流數(shù)據(jù)的解決形式,我們亦必須盡力增強(qiáng)服務(wù)的靈活性,使流數(shù)據(jù)更加快捷不停歇的計(jì)算和查詢工作,為了更好的便于服務(wù)和便于使用,科學(xué)地關(guān)注線性流量數(shù)據(jù)模型編程問(wèn)題,在下一步的研究過(guò)程中,以流量數(shù)據(jù)服務(wù)模型為基礎(chǔ),從而在優(yōu)化業(yè)務(wù)運(yùn)營(yíng)和操作優(yōu)化角度科學(xué)改進(jìn)實(shí)際的編程方法,必將使整個(gè)流數(shù)據(jù)服務(wù)做得更好,讓流數(shù)據(jù)服務(wù)工作的發(fā)展越發(fā)具備優(yōu)化性的特色。
為了基于云計(jì)算環(huán)境下實(shí)現(xiàn)流數(shù)據(jù)的集成與服務(wù),需要針對(duì)流數(shù)據(jù)自身特點(diǎn)選取有效對(duì)策。流數(shù)據(jù)一般都具有較多特點(diǎn),例如變化大、流動(dòng)性較強(qiáng)。進(jìn)而,如果想設(shè)計(jì)一套覆蓋率更高的有效基準(zhǔn)計(jì)劃,總體可能概率是很低的。這就表明動(dòng)態(tài)人格數(shù)據(jù)將難以應(yīng)用于普遍共存的計(jì)劃。應(yīng)當(dāng)指出的是,相關(guān)人員應(yīng)最大可能裝備好流數(shù)據(jù)負(fù)荷,以提高動(dòng)態(tài)過(guò)程中的適應(yīng)性,這無(wú)疑可以使其它程序其中的急轉(zhuǎn)程序得到更加徹底的運(yùn)用[5]。利用相對(duì)實(shí)例的詳細(xì)敘述,流數(shù)據(jù)處理工作在云計(jì)算環(huán)境下,可以科學(xué)地選擇一種多租戶形式進(jìn)行對(duì)應(yīng)的實(shí)驗(yàn)探究,還可以對(duì)流數(shù)據(jù)處理過(guò)程中與對(duì)實(shí)際共同需求以及流數(shù)據(jù)處理過(guò)程中所形成的數(shù)據(jù)載荷進(jìn)行有目的性的解析概括,從而可以實(shí)現(xiàn)相關(guān)領(lǐng)域的流數(shù)據(jù),還需要著重的是,參與流數(shù)據(jù)處理的人員要自覺(jué)提高整體素質(zhì),因?yàn)橥ㄟ^(guò)這種方式,才可以在處理流數(shù)據(jù)的工作中更好地理解數(shù)據(jù)的特征,從而更好地執(zhí)行數(shù)據(jù)處理工作。
由于當(dāng)前的服務(wù)抽象模型不具有實(shí)時(shí)、不間斷和不斷變化地高效處理方法,進(jìn)而流數(shù)據(jù)服務(wù)進(jìn)程中在服務(wù)編程于建模方向都面臨著很多的困難。從數(shù)據(jù)傳輸服務(wù)自身特點(diǎn),找到可以滿足數(shù)據(jù)流應(yīng)用的特殊條件。
在現(xiàn)代數(shù)據(jù)時(shí)代,數(shù)據(jù)服務(wù)在人們生活中存在較高地位。伴隨著流數(shù)據(jù)飛速發(fā)展,高吞吐與延遲是大規(guī)模流數(shù)據(jù)面對(duì)的一個(gè)重大問(wèn)題。這些問(wèn)題可以根據(jù)負(fù)載條件進(jìn)行組合或是獨(dú)自進(jìn)行。比如:實(shí)行算子資源的分派、動(dòng)態(tài)分區(qū)數(shù)量等。
文簡(jiǎn)單闡述了數(shù)據(jù)發(fā)展的方向,大數(shù)據(jù)時(shí)代的應(yīng)用和發(fā)展問(wèn)題,以及未來(lái)大量數(shù)據(jù)集成與處理必須面臨的問(wèn)題和挑戰(zhàn)。其研究成果在日常物流、通信、互聯(lián)網(wǎng)等范疇都有極高的研究?jī)r(jià)值。