趙季紅,張 彬,王 力,曲 樺,鄭 浪
( 1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710061;2.西安交通大學(xué) 電子信息學(xué)院,陜西 西安 710049)
SDN中基于Q-learning的動態(tài)交換機(jī)遷移算法
趙季紅1,2,張彬1,王力2,曲樺2,鄭浪1
( 1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710061;2.西安交通大學(xué) 電子信息學(xué)院,陜西 西安 710049)
摘要:由于網(wǎng)絡(luò)流量動態(tài)變化,控制器負(fù)載均衡成為大規(guī)模部署軟件定義網(wǎng)絡(luò)研究的重點(diǎn)。提出基于Q-learning的動態(tài)交換機(jī)遷移算法,首先對軟件定義網(wǎng)絡(luò)中的控制器部署問題建模,再應(yīng)用Q-learning反饋機(jī)制學(xué)習(xí)實(shí)時(shí)網(wǎng)絡(luò)流量,最后根據(jù)Q表格將交換機(jī)從高負(fù)載控制器動態(tài)遷移到低負(fù)載控制器上,實(shí)現(xiàn)控制器的負(fù)載均衡。仿真結(jié)果表明,所提算法能夠獲得較低的控制器負(fù)載標(biāo)準(zhǔn)方差。
關(guān)鍵詞:軟件定義網(wǎng)絡(luò);OpenFlow;控制器;Q學(xué)習(xí)
軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)[1]具有控制與傳輸分離、集中式控制、軟件可編程特征,能夠使網(wǎng)絡(luò)控制與管理的成本降低,便于新業(yè)務(wù)的快速開發(fā)和部署,從而為網(wǎng)絡(luò)設(shè)計(jì)規(guī)劃與管理帶來了極大的靈活性,解決網(wǎng)絡(luò)結(jié)構(gòu)的僵化問題成為了目前網(wǎng)絡(luò)技術(shù)研究的重點(diǎn)之一[2]。
SDN雖然能夠解決目前網(wǎng)絡(luò)中存在的問題,但是當(dāng)SDN部署在大規(guī)模網(wǎng)絡(luò)中,其集中式控制平面的可擴(kuò)展性和性能將會遇到極大的挑戰(zhàn)[3-4],onix[5]、HyperFlow[6]等項(xiàng)目通過在網(wǎng)絡(luò)中部署多個(gè)相互連接的控制器,構(gòu)建分布式控制平面成為解決上述問題的途徑。文獻(xiàn)[7]研究了SDN分布式控制平面中控制器的靜態(tài)部署問題,該方法使得交換機(jī)到控制器的時(shí)延最短,并保證控制器的處理能力能夠滿足其上所連接交換機(jī)上承載的業(yè)務(wù)需求。但是,在多控制器部署環(huán)境下,由于網(wǎng)絡(luò)負(fù)載動態(tài)變化,需要將交換機(jī)從負(fù)載較重的控制器動態(tài)遷移到負(fù)載較輕的控制器下,為了避免個(gè)別控制器因負(fù)載過重造成控制器宕機(jī),要求實(shí)現(xiàn)控制器之間的負(fù)載均衡。文獻(xiàn)[8]提出了彈性控制平面的概念,知識架構(gòu)以及遷移過程的簡述,但文章中并沒有給出具體的算法;文獻(xiàn)[9]定義了負(fù)載和時(shí)延等指標(biāo),但是控制器的狀態(tài)仍是處于靜態(tài);文獻(xiàn)[10]提出高可靠性控制器部署,但也是靜態(tài)情況下,且沒有考慮負(fù)載的變化情況;文獻(xiàn)[11]通過分析控制器和轉(zhuǎn)發(fā)平面之間的彈性控制關(guān)系,提出通過感知控制器部署和控制流量路由達(dá)到最大化快速故障切換率來提高控制平面彈性的機(jī)制。總之,交換機(jī)的動態(tài)遷移算法是目前研究的重點(diǎn)。
本文提出軟件定義網(wǎng)絡(luò)中基于Q-learning的動態(tài)交換機(jī)遷移算法,首先基于Q-learning算法對SDN網(wǎng)絡(luò)中交換機(jī)動態(tài)遷移問題進(jìn)行數(shù)學(xué)建模,定義狀態(tài)空間、動作空間、即時(shí)回報(bào)函數(shù)、Q值更新函數(shù)、動作選擇策略,再提出基于Q-learning的動態(tài)交換機(jī)遷移算法,給出交換機(jī)遷移算法的流程,根據(jù)網(wǎng)絡(luò)負(fù)載的動態(tài)變化,應(yīng)用Q-learning算法確定交換機(jī)遷移方案,保證控制器負(fù)載均衡。
1交換機(jī)遷移問題建模
SDN網(wǎng)絡(luò)具有交換與傳輸分離的特征,用戶可以在控制平面上自定義網(wǎng)絡(luò)控制與管理策略,數(shù)據(jù)平面由只負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)發(fā)的交換機(jī)互聯(lián)組成。在大規(guī)模部署的SDN網(wǎng)絡(luò)中,多個(gè)控制器相互連接構(gòu)成集中式控制平面,交換機(jī)連接在控制器上,數(shù)據(jù)包的轉(zhuǎn)發(fā)策略是由控制器下發(fā)給交換機(jī)的,而交換機(jī)只做數(shù)據(jù)交換。表1是交換機(jī)遷移的相關(guān)標(biāo)號。
表1交換機(jī)遷移的相關(guān)標(biāo)號
變量含義ci核心控制節(jié)點(diǎn)或者控制器si普通交換機(jī)連接si的外設(shè)普通交換機(jī)或者其他網(wǎng)絡(luò)設(shè)備
s2從控制域1劃分到控制域2。交換機(jī)的遷移過程如圖1、圖2所示。
圖1 交換機(jī)s1處于切片1中的c1控制器
圖2 交換機(jī)處于切片1中的控制器
si→cj表示交換機(jī)si連接在控制器cj上,si→ci?si→cj表示交換機(jī)si從控制器ci遷移到控制器cj上。如圖1~圖2所示,控制器c1上連接的交換機(jī)s1,s2等,s1上的總流量較多,控制器c2上連接的其他交換機(jī),其總負(fù)載較少,將交換機(jī)s1從控制器c1上遷移到控制器c2上,保證控制器的負(fù)載均衡,提高SDN網(wǎng)絡(luò)對用戶業(yè)務(wù)與應(yīng)用的響應(yīng)速度,進(jìn)而提升SDN網(wǎng)絡(luò)的性能和可擴(kuò)展性。
2基于Q-learning的動態(tài)交換機(jī)遷
移算法
2.1基于Q-learning動態(tài)交換機(jī)遷移算法相關(guān)
元素定義
應(yīng)用Q-learning算法的感知管理特性,需要對相關(guān)的一些要素進(jìn)行確定,并動態(tài)選擇系統(tǒng)性能指標(biāo)的最優(yōu)化動作。基于Q-learning彈性控制器系統(tǒng)模塊與環(huán)境的交互示意圖如圖3所示。
圖3 基于Q-learning彈性控制器系統(tǒng)模塊與環(huán)境的交互
下面對應(yīng)用Q-learning算法所要確定的幾個(gè)重要因素進(jìn)行說明。
1)狀態(tài)空間定義
智能體合理選擇動作的基礎(chǔ)是先劃分狀態(tài)空間s={C1,C2,C3,C4},合理的狀態(tài)變量s應(yīng)具備兩個(gè)特性:(1)可知性,只有智能體可以提取和處理的信息才能作為狀態(tài)輸入;(2)無后效性,每一個(gè)狀態(tài)都與它的前一狀態(tài)有關(guān)系。
2)動作空間定義
由于系統(tǒng)中可采取的動作大于狀態(tài)空間(核心控制器的個(gè)數(shù)),而對于Q-learning,每個(gè)狀態(tài)只能選擇一個(gè)動作。所以在彈性控制器結(jié)構(gòu)中,本著就近原則,預(yù)先隨機(jī)把其余n個(gè)交換機(jī)分配給m個(gè)核心控制器管理。同時(shí),引入遷移代價(jià)的概念,即當(dāng)需要遷移的時(shí)候,采用dijkstra算法,交換機(jī)負(fù)載很小的時(shí)候,它也并不會遷移到較遠(yuǎn)的核心控制器的管理之下。
3)即時(shí)回報(bào)函數(shù)
回報(bào)函數(shù)r(s,a)設(shè)計(jì)是基于系統(tǒng)的性能指標(biāo)的,希望分配給核心交換機(jī)的slaver交換機(jī)在遷移代價(jià)是最小的,規(guī)定回報(bào)函數(shù)為正值,回報(bào)函數(shù)
(1)
4)搜索策略
搜索策略用來平衡“探索”和“利用”?!疤剿鳌?explore)和“利用”(exploit)是Q-learning搜索策略的兩個(gè)重要方面。本文采用最常見的ε貪婪算法
(2)
式中:a表示選取在狀態(tài)s下以1-ε選擇具有最大Q值的動作。在系統(tǒng)運(yùn)行之前,根據(jù)就近原則把30個(gè)交換機(jī)連接到4個(gè)核心控制器,并由當(dāng)前核心控制器控制下一步遷移。
5)Q值更新
預(yù)先設(shè)置了一個(gè)m×n的Q矩陣,并把所有的初始值都設(shè)定為相同值,當(dāng)Q-learning運(yùn)行第一次的時(shí)候,根據(jù)dijkstra算法,計(jì)算出每個(gè)交換機(jī)分別到核心交換機(jī)的最短距離Lx={lx1,lx2,lx3,lx4}(其中l(wèi)x1表示標(biāo)號為x的交換機(jī)到標(biāo)號為1的核心交換機(jī)的最短距離,依次類推)。智能算法的控制策略即是選擇哪種學(xué)習(xí)策略,當(dāng)把累積回報(bào)值作為策略優(yōu)劣的評估函數(shù)時(shí),較好的控制策略對學(xué)習(xí)體產(chǎn)生盡可能大的累積回報(bào)值。 在此狀態(tài)下,此時(shí)的回報(bào)函數(shù)值以及所知的之前回報(bào)值都可以確定,后續(xù)狀態(tài)的回報(bào)值無法確定,因此,累積回報(bào)值計(jì)算將是個(gè)重要的問題。評估函數(shù)采用Q函數(shù)累計(jì)迭代運(yùn)算方程為
(3)
在當(dāng)前狀態(tài)s和當(dāng)前動作a下:r(s,a)為在智能體獲得的即時(shí)回報(bào)(reward);Snext∈S為系統(tǒng)將會轉(zhuǎn)入的下一狀態(tài);γ為折扣系數(shù)取值[0,1];b為Snext下可采取的動作;Q(s,a)為智能體總計(jì)期望回報(bào)的預(yù)計(jì)。
2.2基于Q-learning的動態(tài)交換機(jī)遷移算法
將Q-learning算法思想應(yīng)用于SDN控制器的動態(tài)遷移問題,建立基于Q-learning的控制器負(fù)載的動態(tài)感知,并能自適應(yīng)控制器的協(xié)調(diào)分配。
基于Q-learning的遷移管理流程如下:
1)初始化Q值矩陣[Q(s,a)]m×n,初始化矩陣所有的值全為1。
2)對接下來的每個(gè)后續(xù)觸發(fā)搜索周期,自動重復(fù)以下動作:
(1)局部控制域內(nèi),流量得不到處理或者處理能力嚴(yán)重過剩。系統(tǒng)自動查找Q陣,在Q表,每一個(gè)豎列有4個(gè)Q值。根據(jù)dijkstra算法得出相近的兩個(gè)核心控制器,并選取具有最大Q值的狀態(tài)作為當(dāng)前的激活狀態(tài)s;
(2)根據(jù)ε貪婪算法,針對每一個(gè)slaver交換機(jī),在每一豎列中以1-ε機(jī)的概率選擇最大Q值的動作,并將該slaver交換機(jī)遷移到與相應(yīng)的核心控制的管理下;并記錄在每個(gè)周期內(nèi)發(fā)生遷移的交換機(jī)總個(gè)數(shù),設(shè)為Mi;
(3)對于處于一個(gè)周期內(nèi)的slaver交換機(jī)的負(fù)載,用每個(gè)slaver交換機(jī)的負(fù)載除以在該周期內(nèi)每個(gè)核心控制器的總負(fù)載,得出r(s,a);
(4)當(dāng)在狀態(tài)s下,選擇動作a后得到的Q值,如果在此狀態(tài)下Q值比原二維矩陣中的相應(yīng)位置Q值大,則更新,反之則不進(jìn)行更新,由于此列中相應(yīng)位置對應(yīng)得到的Q值已經(jīng)比此時(shí)得到的Q值小,所以就沒必要進(jìn)行更新;
(5)選擇Q陣中每列具有最大Q值的狀態(tài)作為下一個(gè)狀態(tài),如果最大的Q值還是當(dāng)前位置的Q,則交換機(jī)不發(fā)生遷移,反之則遷移;同時(shí)更新狀態(tài)s的Snext;
(6)回到步驟(2)運(yùn)行到狀態(tài)s,并依次循環(huán)。
3仿真結(jié)果及分析
3.1仿真環(huán)境
考慮到目前還沒有類似Q-learning的自學(xué)習(xí)算法被用于解決交換機(jī)的動態(tài)遷移問題,本文只對參數(shù)進(jìn)行仿真,分析所提算法的收斂性,以及保證控制器負(fù)載均衡的能力。
假定每個(gè)核心控制器所能承受的負(fù)載是有限的,當(dāng)負(fù)載變化超過核心控制器的控制范圍時(shí),根據(jù)Q學(xué)習(xí)算法和dijkstra算法,讓與其控制范圍相近周圍的其他核心交換機(jī)所控制的交換機(jī)遷移到它的控制范圍,讓其有能力處理短時(shí)的超負(fù)荷的負(fù)載。并且,當(dāng)其他核心交換機(jī)出現(xiàn)過載時(shí),此slaver交換機(jī)也可以遷移到其他的核心控制器的管理范圍之下。
通過仿真,對一個(gè)核心交換機(jī)每個(gè)周期所管理交換機(jī)的負(fù)載之和與任一個(gè)slaver交換機(jī)的負(fù)載進(jìn)行分析,多次測試后發(fā)現(xiàn),此和的方差總是在經(jīng)過一段時(shí)間后趨于穩(wěn)定,并圍繞著某個(gè)值鋸齒形波動。而且隨著程序的進(jìn)行,每個(gè)周期內(nèi)遷移的交換機(jī)個(gè)數(shù)也趨于穩(wěn)定,最后也是圍繞某個(gè)值作鋸齒形波動,遷移代價(jià)越來越小。
在本文中,設(shè)置該網(wǎng)絡(luò)拓?fù)浒?個(gè)核心控制器和30個(gè)普通交換機(jī),即前面m和n的值分別取值為4和30。仿真環(huán)境是以北美interent2為參照,共有34個(gè)總交換機(jī),在其中選出4個(gè)為核心控制器,其余30個(gè)交換機(jī)在仿真運(yùn)行開始之前就近劃分到4個(gè)核心控制器的控制域范圍中,控制器與交換機(jī)部署在統(tǒng)一物理位置,并且控制器的位置保持不變。交換機(jī)的流量服從μ=50,σ=0.15的正態(tài)分布。設(shè)定仿真環(huán)境中Q-learning為1 s的刷新周期.
3.2算法仿真結(jié)果及性能分析
在本文中,以文獻(xiàn)[7]中北美interent2(如圖4)為仿真架構(gòu),通過上面狀態(tài)、動作、遷移選擇等要素的選取可以看出,本文中的遷移管理算法實(shí)際上是通過回報(bào)值的設(shè)計(jì)和Q表值來指導(dǎo)控制器遷移調(diào)度策略的,盡管被遷移的普通控制器的負(fù)載、距離等屬性(遷移代價(jià))作為狀態(tài)空間沒有直接體現(xiàn)到整個(gè)拓?fù)浣Y(jié)構(gòu)中,但每個(gè)被遷移的控制器對當(dāng)個(gè)控制域的流量負(fù)載處理過程起到了良好的補(bǔ)充協(xié)助作用,且負(fù)載對遷移過程的影響是直接通過及時(shí)回報(bào)值來體現(xiàn)的。
圖4 北美interent2網(wǎng)絡(luò)拓?fù)?/p>
并且,Q-learning中的搜索策略使核心控制器不會總是選擇一個(gè)回報(bào)值最大的交換機(jī),而是以一定概率選擇,那么當(dāng)當(dāng)前回報(bào)值最大的控制器不在核心控制器的選擇范圍中,就有可能在其他核心控制器的選擇范圍之內(nèi),這種選擇機(jī)制就保證了核心控制器能夠在不同的選擇策略上積累經(jīng)驗(yàn),這也就支持了遷移任務(wù)的動態(tài)管理。
3.3控制器負(fù)載分析
單個(gè)核心控制器在運(yùn)行和不運(yùn)行Q-learning機(jī)制的負(fù)載均衡度(方差)如圖5所示。由圖5可以看出,當(dāng)剛開始運(yùn)行控制器系統(tǒng)時(shí),每個(gè)核心控制器所控制的交換機(jī)都是預(yù)先隨機(jī)分配的,因此系統(tǒng)并不認(rèn)為是理想的,所以每個(gè)周期剛開始運(yùn)行時(shí),每個(gè)周期都會有交換機(jī)的遷移(也包括由于受到遷移代價(jià)的影響,選擇次優(yōu)的核心交換機(jī)而引起的非最佳選擇遷移次數(shù))。此時(shí)遷移的交換機(jī)數(shù)很多,開始時(shí)遷移個(gè)數(shù)都基本在13左右,但是隨著時(shí)間的推移,程序會使整個(gè)系統(tǒng)越來越處于一個(gè)優(yōu)化狀態(tài),遷移次數(shù)或者頻率會越來越趨于平穩(wěn)。最后基本都處于每次只遷移4個(gè)交換機(jī)。由于程序存在缺陷,沒有記錄在此優(yōu)化過程中流量狀況不促發(fā)彈性控制器系統(tǒng)時(shí)的非核心交換機(jī)和核心交換機(jī)的狀態(tài)。
圖5 是否采用Q-learning機(jī)制負(fù)載均衡度
但是,而在此狀態(tài)下,系統(tǒng)整體也處于一個(gè)較為平穩(wěn)的狀態(tài),對于需要的系統(tǒng)何時(shí)運(yùn)行到一個(gè)較為平穩(wěn)的狀態(tài),可以根據(jù)單個(gè)核心控制器的方差平穩(wěn)狀態(tài)看出,交換機(jī)遷移的頻率達(dá)到較為穩(wěn)定的時(shí)間和單個(gè)核心交換機(jī)方差函數(shù)趨于平穩(wěn)的時(shí)間應(yīng)該是相對的。
3.4Q-leaning參數(shù)對算法的影響
通過對以往關(guān)于貪婪算法的研究,在一定范圍內(nèi)隨機(jī)賦給γ,ε,一定的值。并根據(jù)以往的經(jīng)驗(yàn),發(fā)現(xiàn)在給定某個(gè)ε后,隨著感知周期的運(yùn)行,對于單個(gè)核心控制節(jié)點(diǎn)的方差,γ越大,其方差收斂越慢,且其后續(xù)方差波動也越來越大。同時(shí),當(dāng)ε的值越大,系統(tǒng)對Q表值的選擇隨機(jī)性變大,當(dāng)其越小時(shí),又不能體現(xiàn)其選擇公平性。當(dāng)γ=0.25時(shí),單個(gè)核心控制器的方差總是收斂相對較快,后續(xù)也最穩(wěn)定。雖然當(dāng)γ=0.25,ε=0.3時(shí)收斂速度和負(fù)載均衡度也比較理想,但當(dāng)其平穩(wěn)后負(fù)載均衡度比γ=0.25,ε=0.2波動更大,所以最后認(rèn)定γ=0.25,ε=0.2的效果最理想。因數(shù)據(jù)量和篇幅的原因只錄入100個(gè)周期的數(shù)據(jù),同時(shí)當(dāng)γ=0.25,ε=0.2后續(xù)曲線相對平穩(wěn)。圖6給出了γ=0.15,ε=0.2;γ=0.15,ε=0.3;γ=0.25,ε=0.2;γ=0.25,ε=0.3的方差曲線??梢钥闯龌赒-learning的彈性控制器系統(tǒng)對于系統(tǒng)流量起到了很合理的調(diào)節(jié)分配作用,由此減少網(wǎng)絡(luò)中不必要的丟包而造成的網(wǎng)絡(luò)擁塞等。
圖6 不同值下的網(wǎng)絡(luò)負(fù)載均衡度
另一方面,在彈性控制器系統(tǒng)被觸發(fā)的周期內(nèi)會有交換機(jī)的來回遷移,整個(gè)網(wǎng)絡(luò)較多時(shí)候處于能夠處理負(fù)載的狀態(tài),只記錄了在觸發(fā)階段遷移的個(gè)數(shù),并且當(dāng)單個(gè)核心控制器處于穩(wěn)定狀態(tài)后,系統(tǒng)再次被觸發(fā)后,每次遷移的個(gè)數(shù)總是在3左右波動。由此確定,整個(gè)系統(tǒng)已達(dá)到比較穩(wěn)定的狀態(tài),處于收斂。
4結(jié)束語
本文在軟件定義網(wǎng)絡(luò)系統(tǒng)中應(yīng)用了智能控制理論中的Q-learning算法,在每個(gè)感知周期內(nèi),Q-learning算法中的狀態(tài)選擇是選擇每個(gè)核心控制范圍內(nèi)有額外負(fù)載處理能力的交換機(jī)與核心控制器的鏈接狀態(tài),將每個(gè)有額外處理能力的交換機(jī)調(diào)配到處理能力不夠的核心控制器下并受其管理作為在每個(gè)狀態(tài)下所采取的動作,收集到的流量來確定回報(bào),在感知活動中學(xué)習(xí)經(jīng)驗(yàn),從而提高優(yōu)化學(xué)習(xí)效率。
參考文獻(xiàn):
[1]QIN Z,DENKER G,GIANNELLI C,et al. A software defined networking architecture for the internet-of-things[C]. IEEE network operations & management symposium.[S.l.]:IEEE,2014:1-9.
[2]The openflow switch[EB/OL].[2015-10-10].http://www.open-flowswitch.org.
[3]LEVIN D,WUNDSAM A,HELLER B,et al. Logically centralized? state distribution trade-offs in software defined networks[C]//Proc. HotSDN’12 of ACM SICGCOMM. Helsinki,F(xiàn)inland:[s.n.],2012:1-6. DOI:10.1145/2342441. 2342443.
[4]左青云,陳鳴,趙廣松,等. 基于OpenFlow的SDN技術(shù)研究[J]. 軟件學(xué)報(bào),2013,24(5):1078—1097. DOI:10.3724/SP.J.1001.2013.04390.
[5]KOPONEN T,CASADO M,GUDE N,et al. Onix: a distributed control platform for large-scale production networks[C]//Proc. 9th USENIX conference on operating systems design and implementation.[S.l.]:ACM,2010:351-364.
[6]TOOTOONCHIAN A,GANJALI Y. HyperFlow: a distributed control plane for OpenFlow[C]// Internet Network Management Conference on Research on Enterprise Networking.[S.l.]:ACM,2010:3-5.
[7]HELLER B,SHERWOOD R,MCKEOWN N. The controller Placement problem[C]//Proceedings of the first workshop on Hot topics in software defined networks.[S.l.]:ACM,2012:7-12.
[8]DIXIT A,HAO F,MUKHERJEE S,et al. Towards an elastic distributed SDN controller[J].ACM sigcomm computer communication review,2013,43(4):7-12.DOI:10.1145/2491185.2491193.
[9]YAO G,BI J,LI Y.On the capacitated controller placement problem in software defined networks[J]. IEEE communications letters,2014,18(8):1339-1342.DOI:10.1109/LCOMM.2014.2332341.
[10]HOCK D,HARTMANN M,GEBERT S,et al. Pareto-optimal resilient controller placement in SDN-based core networks[C]// International Teletraffic Congress.[S.l.]:IEEE,2013:1-2.DOI:10.1109/ITC.2013.6662939.
[11]BEHESHTI N,ZHANG Y. Fast failover for control traffic in Software-defined NetWorks[C]// IEEE Global Communications Conference (GLOBECOM).Anaheim,CA:IEEE. 1930-529X .DOI:10.1109/GLOCOM.2012.6503519.
趙季紅(1963— ),女,教授,博士生導(dǎo)師,研究方向?yàn)閿?shù)寬帶通信網(wǎng)、新一代網(wǎng)絡(luò)的管理與控制;
張彬(1990— ),碩士生,研究方向?yàn)橐苿踊ヂ?lián)網(wǎng);
王力(1985— ),博士研究生,研究方向?yàn)榫W(wǎng)絡(luò)控制與管理、SDN、未來網(wǎng)絡(luò);
曲樺(1961— ),教授、博士生導(dǎo)師,主研領(lǐng)域?yàn)楝F(xiàn)代通信網(wǎng)、計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu);
鄭浪(1985— ),碩士生,研究方向?yàn)橐苿踊ヂ?lián)網(wǎng)。
責(zé)任編輯:許盈
Dynamic switch migration algorithm in software defined networks based on Q-learning
ZHAO Jihong1,2, ZHANG Bin1, WANG Li2, QU Hua2, ZHENG Lang1
(1.SchoolofTelecommunicationandInformationEngineering,Xi’anUniversityofPosts&Telecommunications,Xi’an710061,China;2.SchoolofElectronicandInformationEngineering,Xi’anJiaotongUniversity,Xi’an710049,China)
Abstract:Load balance for controllers becomes an important research issue for large-scale deployed Software Defined Networks (SDN) with the dynamic network load. A dynamic switch migration algorithm based on Q-learning is proposed in this paper, which models controller placement problem firstly, then uses feedback scheme of Q-learning to learn the real time network load, and migrates switches from high-load controllers to low-load controllers on the bias of Q table lastly, to realize load balance of controllers. Simulation results show that the proposed algorithm gets low standard deviation of load born on controllers.
Key words:software defined networks;OpenFlow;controller;Q-learning
中圖分類號:TP393.0
文獻(xiàn)標(biāo)志碼:A
DOI:10.16280/j.videoe.2016.06.013
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61371087);國家“863”計(jì)劃項(xiàng)目(2015AA015702)
作者簡介:
收稿日期:2015-12-09
文獻(xiàn)引用格式:趙季紅,張彬,王力,等. SDN中基于Q-learning的動態(tài)交換機(jī)遷移算法[J].電視技術(shù),2016,40(6):68-72.
ZHAO J H,ZHANG B,WANG L,et al. Dynamic switch migration algorithm in software defined networks based on Q-learning[J].Video engineering,2016,40(6):68-72.
專題SDN技術(shù)與應(yīng)用