• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Spark 計算框架在敏感地理信息檢測中的應(yīng)用研究

      2021-04-29 01:02:26嚴(yán)哲周斌雄張祥燊吳君雄
      江西測繪 2021年1期
      關(guān)鍵詞:任務(wù)調(diào)度敏感度框架

      嚴(yán)哲 周斌雄 張祥燊 吳君雄

      (海南集思勘測規(guī)劃設(shè)計有限公司 海南???70203)

      1 引言

      地理信息是用于描述地理位置、時空分布以及其它相關(guān)自然屬性的信息資源,對于社會經(jīng)濟的發(fā)展具有重要推動作用。隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,我國的互聯(lián)網(wǎng)普及率已接近60%,由于地理信息在互聯(lián)網(wǎng)中以多種形式廣泛傳播,使得具有特殊敏感地理信息(如軍事基地、重要基礎(chǔ)設(shè)施等的)的保密工作成為一項重要工作[1-4]。

      為了加強敏感地理信息的保密工作,需要對地圖中的敏感要素進行準(zhǔn)確識別。傳統(tǒng)的通過人工檢測的方法不僅效率低下,而且在準(zhǔn)確性和召回率上都較低,這對于國家涉密敏感地理信息的保護極為不利[5]。為此,李安波等提出基于多屬性決策及污點跟蹤的敏感地理信息識別方法,該方法基于灰色關(guān)聯(lián)分析及理想優(yōu)基點法對敏感度進行計算分析[6];翟東海等提出了基于條件隨機場的敏感信息檢測模型,并從準(zhǔn)確率、召回率和F 度量值三個方面證實該模型的可靠性[7]。

      Spark 是當(dāng)前十分流行的大數(shù)據(jù)分析框架,具有運行速度快、通用性強、易用性好等諸多優(yōu)點,已被廣泛應(yīng)用于人臉圖像檢索、路網(wǎng)核密度檢測等領(lǐng)域,并取得了較好的應(yīng)用效果[8-9]。將Spark 框架運用于敏感地理信息檢測,同時進行并行化優(yōu)化[10-11],不僅可以提高檢測運行效率,而且還可以大大提升檢測各項指標(biāo),保護國家的信息安全與利益。

      2 Spark 計算框架

      2.1 Spark 核心RDD

      Spark 核心RDD 是指彈性分布式數(shù)據(jù)集,包括內(nèi)存存儲、只讀以及分區(qū)記錄等三個集合,其依賴關(guān)系包括寬依賴和窄依賴,通過RDD 的依賴關(guān)系可以形成Spark 計算框架的任務(wù)調(diào)度及操作模式,而Spark 的操作模式又分為轉(zhuǎn)換操作和運行操作,轉(zhuǎn)換操作不會被執(zhí)行,而運行操作會觸發(fā)Spark 提交任務(wù)然后執(zhí)行。

      2.2 Spark 任務(wù)調(diào)度

      當(dāng)運行操作提交任務(wù)后,就會促使Spark 進行執(zhí)行操作。 Spark 的任務(wù)調(diào)度系統(tǒng)包括DAGScheduler 和Task Scheduler,前者主要負(fù)責(zé)對用戶的交付應(yīng)用進行分析,并根據(jù)不同的依賴關(guān)系建立起不同的分析步驟;而Task Scheduler 的主要作用為任務(wù)調(diào)度運行,即將任務(wù)分配至工作節(jié)點中。任務(wù)調(diào)度過程主要為:

      (1)通過RDD 的依賴關(guān)系構(gòu)建DAG 圖;

      (2)系統(tǒng)將DAG 圖交由DAGScheduler 進行解析,并分解為相互依賴的stage,形成任務(wù)集Task Set;

      (3)DAGScheduler 將 任 務(wù) 集 發(fā) 送 至 Task Scheduler,并通過集管理器將任務(wù)再次分發(fā)至各個對應(yīng)的工作節(jié)點;

      (4)各工作節(jié)點根據(jù)任務(wù)分配進行執(zhí)行,然后保存和返回執(zhí)行結(jié)果(見圖1)。

      圖1 Spark 任務(wù)調(diào)度流程

      2.3 Spark 運行模式

      Spark 運行模式包括local 運行模式、Standalone運行模式、YARN-Client 運行模式和YARN-Cluster運行模式。不管是在何種運行模式下,其都要經(jīng)過Spark 應(yīng)用程序的整體運行。Spark 應(yīng)用程序框架包括驅(qū)動程序、集群資源管理器和任務(wù)執(zhí)行進程;其中,集群管理器會根據(jù)不同運行模式?jīng)Q定由誰提供資源分配與管理,如在local 運行模式和Standalone運行模式下,主要由Master 提供,在YARN-Client運行模式和YARN-Cluster 運行模式下,則由Resource Manager 提供,見圖2。

      圖2 Spark 運行程序

      2.4 敏感度計算

      Spark 大數(shù)據(jù)分析框架的基本前提是對圖像進行敏感度計算,敏感度檢測計算流程主要分為四個部分,即詞法分析提取特征詞集、取特征詞集中敏感詞、文本特征提取和地圖文件敏感度計算,見圖3。地圖文件的敏感度為地點標(biāo)注信息敏感值與地圖附屬信息的敏感值之和,即:

      式中:MS(M)表示地圖敏感度;MS(P)表示地點標(biāo)注信息敏感度;MS(F)表示地圖附屬信息的敏感度;α和β 分別為對應(yīng)的計算系數(shù),文中分別取值0.4 和0.6。

      式中:ωi表示ci在文本中的TF-IDF 權(quán)重值;Vsj表示sj對應(yīng)的地理信息敏感系數(shù)值;Lsi表示ci在地點標(biāo)注POI 中的位置屬性;Mij表示ci與sj的相似度值。

      3 算法性能實驗

      圖3 敏感地理信息敏感度計算

      為了驗證Spark 算法的合理性,采用仿真模擬手段,對比分析了Spark 算法、SCRFs 算法以及SW算法的檢測結(jié)果。在分析過程中數(shù)據(jù)集大小為200~1800 個,呈200 等間距遞增,并選取10 次實驗結(jié)果的平均值作為分析結(jié)果,見圖4。從圖中可以看到:隨著數(shù)據(jù)集大小的逐漸增加,所有算法的準(zhǔn)確率、召回率以及F 度量值基本呈先增加后逐步穩(wěn)定的變化趨勢;同一數(shù)據(jù)集下,Spark 算法的準(zhǔn)確率、召回率以及F 度量值最大,其次為SCRFs 算法,最小的為SW算法,這是因為Spark 算法不僅考慮了特征詞與敏感詞之間的直接匹配度,而且還考慮了兩者之間的相似性敏感信息以及特征詞在文本中的位置屬性和權(quán)值情況等。因此從提取信息完整度來講,Spark 算法更全面,對敏感詞的檢測覆蓋程度高于SCRFs 算法以及SW 算法,故準(zhǔn)確率和召回率有較大提升。

      圖4 不同算法仿真結(jié)果對比

      4 并行化優(yōu)化

      4.1 結(jié)構(gòu)設(shè)計

      由于Spark 算法需要提取大量的信息,因此,對于運行內(nèi)存和效率有較高的要求。參考Spark 算法在其它領(lǐng)域的應(yīng)用,對其進行并行化優(yōu)化處理。為了提升運行效率,基于Hadoop 和Spark 計算框架,采用HDFS 分布式文件系統(tǒng)和Hbase 數(shù)據(jù)庫,建立包括數(shù)據(jù)處理層、計算框架控制層、數(shù)據(jù)預(yù)處理層、文本特征提取層以及地圖敏感度計算層的由下到上的統(tǒng)一處理結(jié)構(gòu),見圖5。

      圖5 并行化結(jié)構(gòu)設(shè)計

      4.2 并行化算法流程

      根據(jù)并行化框架處理結(jié)構(gòu),將并行化算法流程分為六個步驟:一、將HDFS 的數(shù)據(jù)文件轉(zhuǎn)化為RDD格式并將其讀入Spark 計算框架;二、對讀入的數(shù)據(jù)進行重新分區(qū);三、將重新分區(qū)后的數(shù)據(jù)進行mpa 操作,即進行數(shù)據(jù)的預(yù)處理;四、使用fiter 算子對敏感詞進行過濾,生成新的敏感詞RDD,并進行詞語相似度分析;五、對位置權(quán)重、文本權(quán)重以及敏感系數(shù)等信息進行特征提?。涣?、計算得到地理信息敏感度,并存儲在分布式文件系統(tǒng)中,見圖6。

      圖6 并行化算法流程示意

      4.3 并行優(yōu)化效果

      對不同模式下的運行時間效率、加速比以及性能指標(biāo)進行了仿真分析,結(jié)果見圖7。從圖7 中可以看到:隨著數(shù)據(jù)集個數(shù)的增加,在單機模式下,運行時間呈指數(shù)型增大,在mapreduce 和Spark 模式下,運行時間近似呈線性增大,隨著數(shù)據(jù)集的增大,Spark 模式下的運行時間與其它兩種模式下的運行時間差值逐漸加大,當(dāng)數(shù)據(jù)集為4000 個時,Spark 模式的運行時間僅為單機模式的42%;加速比與節(jié)點個數(shù)呈對數(shù)型函數(shù)關(guān)系變化,當(dāng)節(jié)點數(shù)大于6 后,加速比基本達到穩(wěn)定狀態(tài),相同節(jié)點數(shù)下,Spark 模式的加速比明顯大于mapreduce 模式,當(dāng)節(jié)點數(shù)為8時,前者加速比為后者的1.6 倍;同理,對并行化優(yōu)化過后的算法性能指標(biāo)進行了對比,相比于單機運行模式下,Spark 集群模式下的準(zhǔn)確率、召回率和F度量值均有一定程度提高,表明并行優(yōu)化過后,不僅提高了檢測算法的運行效率,而且并未對算法精確度造成影響。

      圖7 并行優(yōu)化后仿真結(jié)果

      5 結(jié)束語

      本文以互聯(lián)網(wǎng)地理敏感信息安全為研究背景,將spark 框架運用到敏感地理信息檢測中,該算法與其它檢測法相比具有更高的準(zhǔn)確率、召回率和F 度量值,通過并行優(yōu)化處理后,其運行效率明顯提高,同時不影響算法精確度,可為涉密地理信息的高效、準(zhǔn)確檢測提供借鑒。

      猜你喜歡
      任務(wù)調(diào)度敏感度框架
      框架
      廣義框架的不相交性
      全體外預(yù)應(yīng)力節(jié)段梁動力特性對于接縫的敏感度研究
      基于改進NSGA-Ⅱ算法的協(xié)同制造任務(wù)調(diào)度研究
      基于時間負(fù)載均衡蟻群算法的云任務(wù)調(diào)度優(yōu)化
      電視臺記者新聞敏感度培養(yǎng)策略
      新聞傳播(2018年10期)2018-08-16 02:10:16
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      在京韓國留學(xué)生跨文化敏感度實證研究
      云計算環(huán)境中任務(wù)調(diào)度策略
      云計算中基于進化算法的任務(wù)調(diào)度策略
      巧家县| 井冈山市| 林甸县| 西盟| 中西区| 淅川县| 彩票| 永顺县| 万全县| 台南县| 封丘县| 伊宁市| 永定县| 石景山区| 宁安市| 陆丰市| 贵德县| 灵璧县| 清远市| 白水县| 蒙城县| 秭归县| 贵定县| 青海省| 务川| 积石山| 高平市| 冀州市| 外汇| 渭源县| 永善县| 德庆县| 松滋市| 高州市| 孟州市| 昆山市| 民和| 绥宁县| 林州市| 友谊县| 万山特区|