汪小霞
摘 要:當下,互聯(lián)網(wǎng)技術已經(jīng)廣泛地應用于企業(yè)辦公系統(tǒng)。企業(yè)在需要對業(yè)務進行處理時,對互聯(lián)網(wǎng)有著較高的需求。在利用網(wǎng)絡技術的基礎上,工作人員可以有效地借助飛快的信息傳播速度,降低工作的成本,同時也可以進一步提升辦公的整體效能。因此,文章針對Spark的網(wǎng)絡日志,進行系統(tǒng)設計、分析以及闡述,以此為相關領域的研究人員提供參考。
關鍵詞:Spark;網(wǎng)絡日志;系統(tǒng)構建;邏輯處理;網(wǎng)頁展示
0? ? 引言
現(xiàn)階段,大多數(shù)用戶以及行業(yè)都在使用互聯(lián)網(wǎng)技術,但卻沒有良好的信息安全意識。而當下的網(wǎng)絡環(huán)境也越發(fā)復雜和危險,使得信息安全風險管理工作日漸成為企業(yè)日常風險管理的重要內(nèi)容。企業(yè)需要有效地分析以及處理網(wǎng)絡日志,以此充分保障企業(yè)不會受到網(wǎng)絡威脅。本研究為整個系統(tǒng)的優(yōu)化以及維護提供一定的數(shù)據(jù)參考。
1? ? 網(wǎng)絡環(huán)境
在互聯(lián)網(wǎng)發(fā)展的背景下,網(wǎng)絡應用于政務辦公系統(tǒng)中。各行各業(yè)不斷地利用網(wǎng)絡,確保能夠獲得更多的信息以及數(shù)據(jù)。這使得辦公事務也可以順利地利用互聯(lián)網(wǎng)實現(xiàn)高效率的工作。一項調(diào)查顯示,我國四成以上企業(yè)員工在辦公的過程中,使用網(wǎng)絡的時間與工作未產(chǎn)生必然的聯(lián)系,甚至是訪問一些惡意的網(wǎng)站,因此影響了工作效率。企業(yè)在未來的發(fā)展過程中,須改進網(wǎng)絡日志方面的分析系統(tǒng),保障在運用互聯(lián)網(wǎng)的過程中,有著較高的安全性。
2? ? 基于Spark的網(wǎng)絡日志分析系統(tǒng)的設計
2.1? Spark
Spark是UC Berkeley AMP lab研發(fā)的一種開源集群計算框架,并使用Scala,是基于Hadoop所實現(xiàn)的一種分布式的文件系統(tǒng)類型。最開始研發(fā)的目的是為了有效地在一個開源軟件平臺上進行工具的執(zhí)行,但是最后經(jīng)過長期的研發(fā),形成了一個較為完整的系統(tǒng)類型。Spark可以有效地提供內(nèi)存集群計算的效果。在數(shù)據(jù)信息的處理過程中,其可以將一些中間輸出以及結果完整地保留在內(nèi)存中,不需要再次進行讀寫處理。這種信息處理方式可以有效地順應機器的學習,同時也可以有效地進行數(shù)據(jù)方面的深度挖掘。而在進行迭代計算的過程中,相較于Hadoop,Spark有著更高的效率性[1]。
2.2? 總體結構
2.2.1? 節(jié)點層
節(jié)點層的設計處于最底層。它是由多種機器節(jié)點構成的互聯(lián)集群環(huán)境,同時也是現(xiàn)階段網(wǎng)絡日志在分析系統(tǒng)中的一種物理層。
2.2.2? 任務管理模塊
任務管理模塊主要是針對不同的Spark集群任務,所開展的管理調(diào)度。而在系統(tǒng)進行配置方面的管理過程中,設計人員還可以有效地實現(xiàn)人物配置、任務狀態(tài)監(jiān)控以及任務調(diào)度。系統(tǒng)在使用的過程中,能夠有效地定時執(zhí)行每日任務。而該模塊還包含兩個不同的部門,由Spark框架以及分布式管理系統(tǒng)構成。
2.2.3? Spark
Spark是一種基于MapReduce的并行計算框架,但是與MapReduce不同的是,在使用的過程中,其產(chǎn)生的計算結果可以保存在內(nèi)存中,以此就可以在計算的過程中有效降低延遲性,進一步提升交互效果。另一方面,設計人員還需要在Spark的使用過程中,實現(xiàn)更加廣泛的數(shù)據(jù)集操作,保障數(shù)據(jù)庫、流處理以及圖計算滿足各種方面的需求。雖然Spark是一種較為獨立的項目,但是依然可以在設計的過程中,實現(xiàn)與分布式文件系統(tǒng)共同運作。同時,也可以直接在HDFS上利用YARN,在MapReduce上一同進行作業(yè)[2]。
2.2.4? HDFS
HDFS是一種分布式文件系統(tǒng),主要為計算機存儲功能提供一定的底層支持。在設計的過程中,HDFS可以有效地作用于一些廉價的硬件上,并且可以有著較高的容錯性,另一方面,還可以成為一個較為流行的海量數(shù)據(jù)存儲。
2.2.5? 日志采集模塊
該模塊主要是為了能夠?qū)ι嫌蔚囊恍Ы馕龅娜罩緮?shù)據(jù)位置進行詳細的解析,以此在自動收集的過程中,對于企業(yè)的內(nèi)部網(wǎng)絡進行Squid服務器的日志數(shù)據(jù)分析。在全部收集之后,使用者便可以對數(shù)據(jù)進行預處理,之后依據(jù)數(shù)據(jù)的實際要求,進行加工。在處理的過程中,日志采集模塊可以實現(xiàn)對于數(shù)據(jù)的一致性、完整性、丟失性等方面的操作。而子模塊還可以針對性地篩選日志數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換成可以分析的數(shù)據(jù)形式,之后將其采集到日志數(shù)據(jù)中。Spark進行集群節(jié)點方面的儲存。
2.2.6? 邏輯處理模塊
該模塊主要與Spark進行集群方面的交互。而對于用戶而言,該模塊可以有效地在網(wǎng)頁端進行相應的操作,之后對業(yè)務數(shù)據(jù)進行查詢,對HQL進行語句方面的定制。
2.2.7? 網(wǎng)頁展示模塊
該系統(tǒng)主要基于Web。在查詢之后,該模塊就可以返回到結果數(shù)據(jù),之后對不同的搜索進行分析,保障在分析的過程中,能夠形成信息數(shù)量較多的網(wǎng)頁。
3? ? 基于Spark的網(wǎng)絡日志分析系統(tǒng)的實現(xiàn)
在上述的結構設計下,為了檢驗系統(tǒng)的合理性,設計人員可以進行研究和分析。
3.1? 系統(tǒng)部署
如圖1所示,本系統(tǒng)的實現(xiàn),需要依靠CICS交易服務器、Hive數(shù)據(jù)倉庫、客戶端、Liberty服務器、Spark集群,對腳本進行上傳,對日志進行存儲、提取與分析、生成報告等。
3.2? 任務調(diào)度
Spark分析模塊是Scheduler最重要的核心組成部分,需要在應用的過程中,運用Hadoop MapReduce。而在資源管理以及調(diào)度的過程中,Spark使用的方式基本上基于YARN。這種資源調(diào)度器可以有效地在使用的過程中,起到資源調(diào)度分配的作用。在不同的應用當中,它都能夠?qū)崿F(xiàn)任務調(diào)度器的作用,以此對于任務進行調(diào)度以及協(xié)調(diào)。對于這種上層資源調(diào)度而言,應用內(nèi)部的任務調(diào)度較為獨立[3]。
3.3? 用戶需求數(shù)據(jù)分析
在實現(xiàn)的過程中,首先基于用戶的實際需求,將請求的數(shù)據(jù)進行分析以及計算,之后再將分析的結果進行返回。返回基本上可以分為圖片以及純數(shù)據(jù)這兩種不同的類型。在使用的過程中,工作人員有效地利用getData進行數(shù)據(jù)信息的調(diào)用以及分析。在前臺的信息處理過程中,技術人員可以有效地利用前臺調(diào)用JFreeChart工具,進行相應的分析。
在現(xiàn)階段的發(fā)展過程中,Spark已經(jīng)成為十分熱門的一種開源項目,并廣泛地應用到各種企業(yè)中。在研究中,該技術也能夠起到十分有效的作用,足以幫助企業(yè)在日常的網(wǎng)絡日志的管理過程中,實現(xiàn)安全性以及質(zhì)量性的管理目標。另外,這項技術還可以定期優(yōu)化以及改進。
3.4? 日志處理
為確?;赟park的網(wǎng)絡日志分析系統(tǒng)能夠有效實現(xiàn),工作人員對日志進行處理非常重要,具體方法如下:(1)日志上傳:系統(tǒng)中日志的上傳方式包括兩種:手動與自動。手動上傳需要依靠CICS交易服務器的部署功能,自動上傳則需要依靠Web來實現(xiàn)。(2)日志處理:工作人員可通過日志分析系統(tǒng)對日志進行處理,利用系統(tǒng)部署中的Spark集群功能進行計算,并實現(xiàn)對不同節(jié)點日志的分析,經(jīng)分析后的數(shù)據(jù)可被返回并自動匯總,以備使用。
4? ? 結語
綜上所述,文章主要基于Spark的構建,分析了企業(yè)網(wǎng)絡日志分析技術。為了進一步提升企業(yè)的網(wǎng)絡安全性,技術人員還需要在日后的發(fā)展過程中,對網(wǎng)絡系統(tǒng)的進行優(yōu)化。
[參考文獻]
[1]李言飛,張鵬,戚曉鵬,等.中國疾病預防控制信息系統(tǒng)網(wǎng)絡日志大數(shù)據(jù)分析[J].中國衛(wèi)生信息管理,2018(6):625-628.
[2]李亞紅,胡前忠.分布式網(wǎng)絡日志分析系統(tǒng)的設計與實現(xiàn)[J].信息與電腦(理論版),2018(21):163-165.
[3]張揚.基于大數(shù)據(jù)技術的網(wǎng)絡日志分析系統(tǒng)[J].電子技術與軟件工程,2018(17):175.
(編輯 王永超)