• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Spark平臺的資源調(diào)度策略研究現(xiàn)狀

      2019-03-14 12:42:40翁利國陳杰汪宇杰吳亦靈
      電腦知識與技術(shù) 2019年1期
      關(guān)鍵詞:性能優(yōu)化分布式大數(shù)據(jù)

      翁利國 陳杰 汪宇杰 吳亦靈

      摘要:近年來,隨著物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)等網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,全球總數(shù)據(jù)量呈現(xiàn)爆炸式增長,大數(shù)據(jù)平臺興起,例如 Hadoop, Spark, Storm等優(yōu)異的大數(shù)據(jù)處理平臺,其中 Spark是基于內(nèi)存處理的分布式計算平臺,較為受歡迎。但是資源管理仍是大數(shù)據(jù)平臺性能優(yōu)化的核心研究,有效的資源管理對于調(diào)度的優(yōu)化是非常重要。他們總結(jié)分析了目前國內(nèi)外Spark平臺資源調(diào)度策略的研究現(xiàn)狀。

      關(guān)鍵詞:大數(shù)據(jù);Spark;資源調(diào)度;性能優(yōu)化;分布式

      中圖分類號:TP302? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2019)01-0014-03

      Research Status of Resource Scheduling Strategy Based on Spark Platform

      WENG Li-guo, CHEN Jie, WANG Yu-jie, WU Yi-ling

      (State Grid Zhejiang Hangzhou Xiaoshan District Power Supply Co., Ltd., Hangzhou 311200,China)

      Abstract:In recent years, with the rapid development of network technologies such as the Internet of Things and social networks, the total amount of data in the world has exploded, and big data platforms have emerged, such as Hadoop, Spark, Storm and other excellent big data processing platforms, of which Spark is based on memory processing. The distributed computing platform is more popular. However, resource management is still the core research of big data platform performance optimization. Effective resource management is very important for scheduling optimization. They summarizes and analyzes the current research status of Spark platform resource scheduling strategies at home and abroad.

      Key words:big data; Spark; resource scheduling; performance optimization; distributed

      1 引言

      由于大數(shù)據(jù)計算方面的需求較大,通常集群會訪問數(shù)百甚至上千臺的機器,節(jié)約成本和有效的管理各種計算框架,并且提高集群資源利用率等等這些問題迫在眉睫。資源管理器Mesos[1],YARN因而被提出來,但是它們主要管理集群的計算和存儲兩個方面資源,而在大數(shù)據(jù)平臺往往還有其他的資源例如網(wǎng)絡(luò)資源,節(jié)點等需要權(quán)衡,這些都可能會成為調(diào)度的瓶頸。 當(dāng)前,隨著云計算和物聯(lián)網(wǎng)的不斷發(fā)展,基于地理分布的數(shù)據(jù)中心的大數(shù)據(jù)分析平臺已逐漸普及。特別是大數(shù)據(jù)的爆炸性增長超過了單個數(shù)據(jù)中心內(nèi)的處理能力。不同網(wǎng)絡(luò)中心在傳輸數(shù)據(jù)時會有很大的網(wǎng)絡(luò)延遲,以及大數(shù)據(jù)可能出現(xiàn)帶寬不足等網(wǎng)絡(luò)資源瓶頸。另外,不同的物理節(jié)點處理數(shù)據(jù)的性能是不一樣的,因此節(jié)點自身的特點也會成為影響調(diào)度性能的瓶頸。

      當(dāng)前很多國內(nèi)外學(xué)者從很多方面進(jìn)行大數(shù)據(jù)平臺的調(diào)度優(yōu)化,例如基于數(shù)據(jù)本地 性研究與改進(jìn)、基于集群異構(gòu)性以及負(fù)載均衡、基于作業(yè)優(yōu)先級等等。文獻(xiàn)[2]所提出的算法通過比較任務(wù)傳輸所花時間與其等待執(zhí)行的時間進(jìn)行比較選擇來決定是否進(jìn)行本地執(zhí)行。此外,一個好的負(fù)載平衡算法通過權(quán)衡任務(wù)來為負(fù)載重新分配,以此來優(yōu)化系統(tǒng)資源利用率和任務(wù)響應(yīng)時間。[3]提出了一種基于負(fù)載均衡的動態(tài)延遲調(diào)度機制,該機制能夠防止節(jié)點過載而導(dǎo)致任務(wù)緩慢執(zhí)行或者執(zhí)行失敗,這樣就減少了作業(yè)的運行時間。在文獻(xiàn)[4]中,考慮公平調(diào)度算法的不足,該文獻(xiàn)提出了對其改進(jìn),即基于優(yōu)先級的延遲公平調(diào)度算法。 對于資源調(diào)度優(yōu)化也進(jìn)行了很研究,當(dāng)前SDN(Software Defined Network)架構(gòu)被提出,很多文獻(xiàn)針對網(wǎng)絡(luò)資源使用SDN控制器來優(yōu)化調(diào)度。 另外,近來強化學(xué)習(xí)越來越受到廣大業(yè)界學(xué)者的喜歡,已經(jīng)有學(xué)者使用強化學(xué)習(xí)在調(diào)度上進(jìn)行了優(yōu)化。

      資源調(diào)度優(yōu)化對大數(shù)據(jù)平臺系統(tǒng)性能具有重要意義。 盡管Mesos、YARN等集群資源管理框架被提出,但是資源分配不合理,負(fù)載不均衡,網(wǎng)絡(luò)擁塞等都會成為調(diào)度的瓶頸。 因此優(yōu)化資源調(diào)度能夠緩解資源分配,減緩網(wǎng)絡(luò)擁塞等等,使得大數(shù)據(jù)平臺作業(yè)運行時間減少,處理速率變得更高,資源利用率增加,整體系統(tǒng)性能提高。 因此研究資源調(diào)度優(yōu)化對大數(shù)據(jù)平臺非常重要。

      2 研究現(xiàn)狀

      Spark大數(shù)據(jù)平臺的普及應(yīng)用,例如騰訊、 Yahoo、淘寶等電子供應(yīng)商使用Spark大數(shù)據(jù)分析平臺進(jìn)行大數(shù)據(jù)分析和大數(shù)據(jù)量計算, 主要在市場推薦、機器學(xué)習(xí)、圖像處理、日志存儲等領(lǐng)域都得到了深入而廣泛的研究和成功的應(yīng)用。當(dāng)前的各個數(shù)據(jù)中心通常部署多個集群計算框架,并且由統(tǒng)一的集群資源管理器進(jìn)行管理。 本章主要從網(wǎng)絡(luò)資源和節(jié)點資源進(jìn)行研究。

      2.1 基于網(wǎng)絡(luò)資源調(diào)度策略研究現(xiàn)狀

      當(dāng)前資源管理大多只集中在計算資源和存儲資源,例如Mesos等資源管理都集中在管理計算和存儲資源。但研究表明,網(wǎng)絡(luò)資源管理更加合理化對于優(yōu)化作業(yè)非常重要。 基于已有的研究表明,在作業(yè)運行中,網(wǎng)絡(luò)運輸需要的時間占完成總時間的33%,甚至超過50%。 所以基于網(wǎng)絡(luò)資源調(diào)度的研究也逐漸增加。

      在國內(nèi),文獻(xiàn)[5]提出了一種基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)資源調(diào)度機制,它是一種基于管理員預(yù)設(shè)的網(wǎng)絡(luò)資源分配策略,為了優(yōu)化性能,文中使用加權(quán)網(wǎng)絡(luò)資源調(diào)度,將更多網(wǎng)絡(luò)資源分配給優(yōu)先級高的這類作業(yè)。文獻(xiàn)[6]提出了一種基于能量評估的均衡大數(shù)據(jù)網(wǎng)絡(luò)的調(diào)度平臺。它綜合分析了大數(shù)據(jù)平臺中資源調(diào)度的能量評估問題,使用調(diào)度平臺來收集數(shù)據(jù)。

      國外,F(xiàn)ireBird [7],本文改進(jìn)了基于傳統(tǒng)調(diào)度的調(diào)度算法,使用SDN來獲取全局網(wǎng)絡(luò)情況,綜合考慮了網(wǎng)絡(luò)資源的情況來進(jìn)一步資源綜合調(diào)度。 FlowComb [8]: 掃描數(shù)據(jù)日志并獲得應(yīng)用程序需求進(jìn)行預(yù)測,其使用SDN控制器檢測網(wǎng)絡(luò)擁塞并對產(chǎn)生擁塞的數(shù)據(jù)流重新選擇合適的路徑。

      國內(nèi)外從網(wǎng)絡(luò)資源的角度,針對帶寬分配、網(wǎng)絡(luò)擁塞等做出相應(yīng)的調(diào)度策略研究來達(dá)到調(diào)度優(yōu)化目的,進(jìn)而提高整個系統(tǒng)的性能。

      2.2 基于節(jié)點資源調(diào)度策略研究現(xiàn)狀

      正文內(nèi)容?;赟park平臺,節(jié)點資源性能的研究是調(diào)度中需要考慮的核心因素之一。 很多針對借點資源與任務(wù)進(jìn)行匹配,以運行時間最小為目標(biāo)函數(shù),通過最小化運行時間,以提高了節(jié)點利用率,增大了系統(tǒng)整體性能。

      在國內(nèi),文獻(xiàn)[9]基于異構(gòu)集群結(jié)點固有性能,給出了一種基于任務(wù)特征和機架之間節(jié)點計算能力的資源分配策略。文獻(xiàn)[10]考慮了節(jié)點之間的異質(zhì)性問題,并提出了量化異構(gòu)集群數(shù)據(jù)負(fù)載平衡的數(shù)學(xué)模型。由于原有的算法沒有考慮到系統(tǒng)的負(fù)載水平,這樣不能充分的利用集群中節(jié)點的處理能力,文獻(xiàn)[11]提出了一種改進(jìn)的基于優(yōu)先級的多尺度算法。該算法根據(jù)計算能力進(jìn)行排序,另外充分考慮了系統(tǒng)的負(fù)載水平,能夠分配具有良好計算能力的節(jié)點給更高優(yōu)先級作業(yè)中的任務(wù)。文獻(xiàn)[12]提出了一種負(fù)載均衡算法,它充分地利用了節(jié)點性能和當(dāng)前計算資源,并且根據(jù)集群負(fù)載均衡指標(biāo)來分配任務(wù)。將任務(wù)分配給適當(dāng)?shù)墓?jié)點以逐步平衡群集負(fù)載以提高群集節(jié)點利用率。在文獻(xiàn)[13]中,研究了基于Hadoop平臺的任務(wù)調(diào)度機制,設(shè)計一種了基于節(jié)點負(fù)載容量和動態(tài)優(yōu)先級的計算方法。

      國外, Xie J[14]等人提出的算法將節(jié)點的計算能力與其存儲的數(shù)據(jù)量進(jìn)行關(guān)聯(lián),將更多的數(shù)據(jù)存儲在處理速度更快的節(jié)點上, 在提高數(shù)據(jù)的處理速度的同時,也達(dá)到了負(fù)載平衡的效果。 Polo[15]創(chuàng)新性的將每個節(jié)點的任務(wù)槽進(jìn)行動態(tài)調(diào)整,使得硬件環(huán)境不同的節(jié)點能有不同的計算負(fù)載,并根據(jù)實時情況調(diào)整自身任務(wù)槽數(shù)量。

      國內(nèi)外針對節(jié)點性能例如計算能力、節(jié)點大小等調(diào)度策略研究來達(dá)到負(fù)載均衡的目的,提高節(jié)點利用率,進(jìn)而提高整個系統(tǒng)的運行效率。

      3 Spark資源調(diào)度原理

      Spark調(diào)度主要兩種:任務(wù)調(diào)度和資源調(diào)度。任務(wù)調(diào)度主要是通過一系列的調(diào)度器進(jìn)行的作業(yè)調(diào)度,資源調(diào)度指的是實際的應(yīng)用程序是如何來獲取資源的。因此任務(wù)調(diào)度是在資源調(diào)度的基礎(chǔ)上執(zhí)行的。

      在Spark平臺上進(jìn)行資源調(diào)度和任務(wù)調(diào)度時,SparkContext是調(diào)度的入口,在調(diào)度中起著重要作用,它負(fù)責(zé)與主節(jié)點通信,然后完成申請資源的任務(wù),進(jìn)入應(yīng)用程序后,它還創(chuàng)建高級調(diào)度對象和底層調(diào)度對象。之后,對所有任務(wù)進(jìn)行分片,并且將任務(wù)集并行化,并發(fā)送給已經(jīng)獲取了資源的任務(wù)執(zhí)行,循環(huán)執(zhí)行結(jié)果。

      而其中DAG調(diào)度器和任務(wù)調(diào)度器的工作即Spark核心工作分片Stage的劃分。對于工作分片劃分最基本的思想:

      (1)每個任務(wù)是由多個分片構(gòu)成,并且它可以有一個或多個分片。

      (2)根據(jù)依賴性,從標(biāo)題開始按順序執(zhí)行多個階段。

      Spark應(yīng)用程序中可由不同的動作觸發(fā)多個任務(wù),即說一個應(yīng)用程序中可以有多個的作業(yè),每個作業(yè)可以由一個或者很多分片構(gòu)成,當(dāng)位置靠前的分片完成計算,接著才會后面的分片才會執(zhí)行。

      (3)Stage有惰性特性。由作業(yè)生成的分片會形成一個有向無環(huán)圖,分片有懶惰的特性,當(dāng)動作函數(shù)發(fā)生時,才會觸發(fā)實際發(fā)生作業(yè)的執(zhí)行,在采取動作之前,所要做的是將進(jìn)行中的計算標(biāo)記下來,事實上沒有真的執(zhí)行。兩個動作導(dǎo)致作業(yè)執(zhí)行,一個是觸發(fā)作業(yè),一個是發(fā)送消息。Spark平臺中使用遞歸創(chuàng)建有向無環(huán)圖,若創(chuàng)建位置靠后的一個分片時,一定要保證跟它之間是直系父親分片已經(jīng)被創(chuàng)建(如果直系的父分片未創(chuàng)建,就會遞調(diào)用getParent()函數(shù)來創(chuàng)建該直系父親的分片),直到遇到了有向無環(huán)圖中的第一個RDD片段(Resilient Distributed Datasets),這個時候Spark會為當(dāng)前的依賴創(chuàng)建分片,然后作業(yè)生成的分片就會跳出函數(shù)底層遞歸,然后一步一步創(chuàng)建每一個分片,直到最后到達(dá)頂層,創(chuàng)建最終的結(jié)果分片,完成有向無環(huán)圖的創(chuàng)建,此時分片也就完成了。

      以上就是Spark資源調(diào)度原理的總結(jié),資源調(diào)度的核心就是對任務(wù)進(jìn)行分片,經(jīng)過的尋找窄依賴來形成又向無環(huán)圖。Spark的處理速度快其中一個原因就是又向無環(huán)圖的存在。

      4 總結(jié)

      本文針對國內(nèi)外學(xué)者從網(wǎng)絡(luò)資源和節(jié)點資源詳細(xì)進(jìn)行了研究,當(dāng)前網(wǎng)絡(luò)資源方向的主要研究是基于SDN集中控制,收集網(wǎng)絡(luò)資源,進(jìn)而全局考慮網(wǎng)絡(luò)資源進(jìn)行調(diào)度優(yōu)化。針對結(jié)點資源分配是否合理,當(dāng)前的主要研究方向是只用強化學(xué)習(xí)自適應(yīng)地對任務(wù)和節(jié)點進(jìn)行匹配,減少運行時間。資源調(diào)度優(yōu)化將會一直是大數(shù)據(jù)平臺性能優(yōu)化的熱點問題,對于Spark整個系統(tǒng)性能有很大的影響。

      參考文獻(xiàn):

      [1] 劉文斌. 基于Mesos的數(shù)據(jù)中心資源調(diào)度和存儲性能優(yōu)化技術(shù)研究[D].廣西大學(xué),2018.

      [2] Zhang X, Feng Y, Feng S, et al. An effective data locality aware task scheduling method for MapReduce framework in heterogeneous environments[C]l/Cloud and Service Computing (CSC},2011 International Conference on. IEEE, 2011:235-242.

      [3] 陶永才,李文潔,石磊,劉磊,衛(wèi)琳,曹仰杰.基于負(fù)載均衡的Hadoop動態(tài)延遲調(diào)度機制[J].小型微型計算機系統(tǒng),2015,36(03):445-449.

      [4] 吳濤. 基于Hadoop平臺的作業(yè)調(diào)度算法優(yōu)化研究[D].華北電力大學(xué),2016.

      [5] Sandeep Chinchali, Pan Hu, Tianshu Chu, Manu Sharma, Manu Bansal, Rakesh Misra, Marco Pavone, Sachin Katti. Cellular Network Traffic Scheduling With Deep Reinforcement Learning[M]// Proceedings of the Thirty-Second {AAAI} Conference on Artificial Intelligence, New Orleans, Louisiana, USA, February 2-7, 2018.

      [6]汪正康,周鵬,肖俊超,武延軍.基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)資源調(diào)度機制[J].計算機系統(tǒng)應(yīng)用,2015,24(08):212-218.

      [7] Xin He and Prashant Shenoy. Firebird: Network-aware task scheduling for spark using sdns. In International Conference on Computer Communication and Networks, pages 1–10, 2016.

      [8] Rajat Chaudhary, Gagangeet Singh Aujla, Neeraj Kumar, and Joel J. P. C. Rodrigues. Optimized big data management across multicloud data centers: Software-defined-network-based analysis. IEEE Communications Magazine, 56(2):118–126, 2018.

      [9] 林常航,郭文忠,陳煌寧.針對Hadoop異構(gòu)集群節(jié)點性能的數(shù)據(jù)分配策略[J].小型微型計算機系統(tǒng),2015,36(01):83-88.

      [10] 張松,杜慶偉,孫靜,孫振.Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究[J].計算機應(yīng)用與軟件,2016,33(05):31-34.

      [11] 谷連軍. 云計算環(huán)境下基于優(yōu)先級與可靠度的Hadoop作業(yè)調(diào)度研究[D].湖南大學(xué),2013.

      [12] 秦軍,馮亮亮,孫蒙.基于異構(gòu)Hadoop集群的負(fù)載均衡策略研究[J].計算機技術(shù)與發(fā)展,2017,27(06):110-113.

      [13] 唐瑋峰,趙振戟.Hadoop的負(fù)載均衡調(diào)度算法研究[J].軟件導(dǎo)刊,2016,15(05):47-49.

      [14] Xie J, Yin S, Ruan X, et al. Improving mapreduce performance through data placement in heterogeneous hadoop clusters[C]//Parallel&Distributed Processing, Workshops and Phd Forum.

      [15] Polo J, Castillo C, Camera D, et al.? Resource-aw-are adaptive scheduling for mapreduce clusters[M]//M序號dleware 201].Springer Berlin He序號elberg, 2011.

      猜你喜歡
      性能優(yōu)化分布式大數(shù)據(jù)
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      SQL Server數(shù)據(jù)庫性能優(yōu)化的幾點分析
      Web應(yīng)用的前端性能優(yōu)化
      660MW超超臨界火電機組RB性能優(yōu)化
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      Oracle數(shù)據(jù)庫性能調(diào)整與優(yōu)化分析
      科技視界(2016年1期)2016-03-30 14:27:50
      基于DDS的分布式三維協(xié)同仿真研究
      西門子 分布式I/O Simatic ET 200AL
      深水埗区| 彰化市| 达日县| 淮阳县| 新宁县| 樟树市| 平江县| 福鼎市| 满城县| 亚东县| 龙南县| 固安县| 大邑县| 家居| 武夷山市| 隆林| 岳普湖县| 定州市| 延川县| 福贡县| 台江县| 巫溪县| 晴隆县| 南溪县| 南澳县| 会东县| 昌宁县| 延川县| 景德镇市| 临澧县| 古交市| 滁州市| 铜梁县| 宁都县| 弥渡县| 定南县| 祥云县| 沙湾县| 宜黄县| 呼伦贝尔市| 如东县|