SDN中基于Q-learning的動態(tài)交換機(jī)遷移算法

2016-07-06 01:33:36趙季紅

電視技術(shù) 2016年6期

關(guān)鍵詞：軟件定義網(wǎng)絡(luò)控制器

趙季紅，張　彬，王　力，曲　樺，鄭　浪

( 1.西安郵電大學(xué) 通信與信息工程學(xué)院，西安 710061;2.西安交通大學(xué) 電子信息學(xué)院，陜西西安 710049)

SDN中基于Q-learning的動態(tài)交換機(jī)遷移算法

趙季紅1，2，張彬1，王力2，曲樺2，鄭浪1

( 1.西安郵電大學(xué) 通信與信息工程學(xué)院，西安 710061;2.西安交通大學(xué) 電子信息學(xué)院，陜西西安 710049)

摘要:由于網(wǎng)絡(luò)流量動態(tài)變化，控制器負(fù)載均衡成為大規(guī)模部署軟件定義網(wǎng)絡(luò)研究的重點(diǎn)。提出基于Q-learning的動態(tài)交換機(jī)遷移算法，首先對軟件定義網(wǎng)絡(luò)中的控制器部署問題建模，再應(yīng)用Q-learning反饋機(jī)制學(xué)習(xí)實(shí)時(shí)網(wǎng)絡(luò)流量，最后根據(jù)Q表格將交換機(jī)從高負(fù)載控制器動態(tài)遷移到低負(fù)載控制器上，實(shí)現(xiàn)控制器的負(fù)載均衡。仿真結(jié)果表明，所提算法能夠獲得較低的控制器負(fù)載標(biāo)準(zhǔn)方差。

關(guān)鍵詞:軟件定義網(wǎng)絡(luò)；OpenFlow；控制器；Q學(xué)習(xí)

軟件定義網(wǎng)絡(luò)(Software Defined Network，SDN)[1]具有控制與傳輸分離、集中式控制、軟件可編程特征，能夠使網(wǎng)絡(luò)控制與管理的成本降低,便于新業(yè)務(wù)的快速開發(fā)和部署，從而為網(wǎng)絡(luò)設(shè)計(jì)規(guī)劃與管理帶來了極大的靈活性，解決網(wǎng)絡(luò)結(jié)構(gòu)的僵化問題成為了目前網(wǎng)絡(luò)技術(shù)研究的重點(diǎn)之一[2]。

SDN雖然能夠解決目前網(wǎng)絡(luò)中存在的問題，但是當(dāng)SDN部署在大規(guī)模網(wǎng)絡(luò)中，其集中式控制平面的可擴(kuò)展性和性能將會遇到極大的挑戰(zhàn)[3-4]，onix[5]、HyperFlow[6]等項(xiàng)目通過在網(wǎng)絡(luò)中部署多個(gè)相互連接的控制器，構(gòu)建分布式控制平面成為解決上述問題的途徑。文獻(xiàn)[7]研究了SDN分布式控制平面中控制器的靜態(tài)部署問題，該方法使得交換機(jī)到控制器的時(shí)延最短，并保證控制器的處理能力能夠滿足其上所連接交換機(jī)上承載的業(yè)務(wù)需求。但是，在多控制器部署環(huán)境下，由于網(wǎng)絡(luò)負(fù)載動態(tài)變化，需要將交換機(jī)從負(fù)載較重的控制器動態(tài)遷移到負(fù)載較輕的控制器下，為了避免個(gè)別控制器因負(fù)載過重造成控制器宕機(jī)，要求實(shí)現(xiàn)控制器之間的負(fù)載均衡。文獻(xiàn)[8]提出了彈性控制平面的概念，知識架構(gòu)以及遷移過程的簡述，但文章中并沒有給出具體的算法；文獻(xiàn)[9]定義了負(fù)載和時(shí)延等指標(biāo)，但是控制器的狀態(tài)仍是處于靜態(tài)；文獻(xiàn)[10]提出高可靠性控制器部署，但也是靜態(tài)情況下，且沒有考慮負(fù)載的變化情況;文獻(xiàn)[11]通過分析控制器和轉(zhuǎn)發(fā)平面之間的彈性控制關(guān)系，提出通過感知控制器部署和控制流量路由達(dá)到最大化快速故障切換率來提高控制平面彈性的機(jī)制。總之，交換機(jī)的動態(tài)遷移算法是目前研究的重點(diǎn)。

本文提出軟件定義網(wǎng)絡(luò)中基于Q-learning的動態(tài)交換機(jī)遷移算法，首先基于Q-learning算法對SDN網(wǎng)絡(luò)中交換機(jī)動態(tài)遷移問題進(jìn)行數(shù)學(xué)建模，定義狀態(tài)空間、動作空間、即時(shí)回報(bào)函數(shù)、Q值更新函數(shù)、動作選擇策略，再提出基于Q-learning的動態(tài)交換機(jī)遷移算法，給出交換機(jī)遷移算法的流程，根據(jù)網(wǎng)絡(luò)負(fù)載的動態(tài)變化，應(yīng)用Q-learning算法確定交換機(jī)遷移方案，保證控制器負(fù)載均衡。

1交換機(jī)遷移問題建模

SDN網(wǎng)絡(luò)具有交換與傳輸分離的特征，用戶可以在控制平面上自定義網(wǎng)絡(luò)控制與管理策略，數(shù)據(jù)平面由只負(fù)責(zé)數(shù)據(jù)轉(zhuǎn)發(fā)的交換機(jī)互聯(lián)組成。在大規(guī)模部署的SDN網(wǎng)絡(luò)中，多個(gè)控制器相互連接構(gòu)成集中式控制平面，交換機(jī)連接在控制器上，數(shù)據(jù)包的轉(zhuǎn)發(fā)策略是由控制器下發(fā)給交換機(jī)的，而交換機(jī)只做數(shù)據(jù)交換。表1是交換機(jī)遷移的相關(guān)標(biāo)號。

表1交換機(jī)遷移的相關(guān)標(biāo)號

變量含義ci核心控制節(jié)點(diǎn)或者控制器si普通交換機(jī)連接si的外設(shè)普通交換機(jī)或者其他網(wǎng)絡(luò)設(shè)備

s2從控制域1劃分到控制域2。交換機(jī)的遷移過程如圖1、圖2所示。

圖1　交換機(jī)s1處于切片1中的c1控制器

圖2　交換機(jī)處于切片1中的控制器

si→cj表示交換機(jī)si連接在控制器cj上，si→ci?si→cj表示交換機(jī)si從控制器ci遷移到控制器cj上。如圖1～圖2所示，控制器c1上連接的交換機(jī)s1，s2等，s1上的總流量較多，控制器c2上連接的其他交換機(jī)，其總負(fù)載較少，將交換機(jī)s1從控制器c1上遷移到控制器c2上，保證控制器的負(fù)載均衡，提高SDN網(wǎng)絡(luò)對用戶業(yè)務(wù)與應(yīng)用的響應(yīng)速度，進(jìn)而提升SDN網(wǎng)絡(luò)的性能和可擴(kuò)展性。

2基于Q-learning的動態(tài)交換機(jī)遷

移算法

2.1基于Q-learning動態(tài)交換機(jī)遷移算法相關(guān)

元素定義

應(yīng)用Q-learning算法的感知管理特性，需要對相關(guān)的一些要素進(jìn)行確定，并動態(tài)選擇系統(tǒng)性能指標(biāo)的最優(yōu)化動作。基于Q-learning彈性控制器系統(tǒng)模塊與環(huán)境的交互示意圖如圖3所示。

圖3　基于Q-learning彈性控制器系統(tǒng)模塊與環(huán)境的交互

下面對應(yīng)用Q-learning算法所要確定的幾個(gè)重要因素進(jìn)行說明。

1)狀態(tài)空間定義

智能體合理選擇動作的基礎(chǔ)是先劃分狀態(tài)空間s={C1,C2,C3,C4}，合理的狀態(tài)變量s應(yīng)具備兩個(gè)特性：(1)可知性，只有智能體可以提取和處理的信息才能作為狀態(tài)輸入；(2)無后效性，每一個(gè)狀態(tài)都與它的前一狀態(tài)有關(guān)系。

2)動作空間定義

由于系統(tǒng)中可采取的動作大于狀態(tài)空間(核心控制器的個(gè)數(shù))，而對于Q-learning，每個(gè)狀態(tài)只能選擇一個(gè)動作。所以在彈性控制器結(jié)構(gòu)中，本著就近原則，預(yù)先隨機(jī)把其余n個(gè)交換機(jī)分配給m個(gè)核心控制器管理。同時(shí)，引入遷移代價(jià)的概念，即當(dāng)需要遷移的時(shí)候，采用dijkstra算法，交換機(jī)負(fù)載很小的時(shí)候，它也并不會遷移到較遠(yuǎn)的核心控制器的管理之下。

3)即時(shí)回報(bào)函數(shù)

回報(bào)函數(shù)r(s,a)設(shè)計(jì)是基于系統(tǒng)的性能指標(biāo)的，希望分配給核心交換機(jī)的slaver交換機(jī)在遷移代價(jià)是最小的，規(guī)定回報(bào)函數(shù)為正值，回報(bào)函數(shù)

(1)

4)搜索策略

搜索策略用來平衡“探索”和“利用”?！疤剿鳌?explore)和“利用”(exploit)是Q-learning搜索策略的兩個(gè)重要方面。本文采用最常見的ε貪婪算法

(2)

式中：a表示選取在狀態(tài)s下以1-ε選擇具有最大Q值的動作。在系統(tǒng)運(yùn)行之前，根據(jù)就近原則把30個(gè)交換機(jī)連接到4個(gè)核心控制器，并由當(dāng)前核心控制器控制下一步遷移。

5)Q值更新

預(yù)先設(shè)置了一個(gè)m×n的Q矩陣，并把所有的初始值都設(shè)定為相同值，當(dāng)Q-learning運(yùn)行第一次的時(shí)候，根據(jù)dijkstra算法，計(jì)算出每個(gè)交換機(jī)分別到核心交換機(jī)的最短距離Lx={lx1,lx2,lx3,lx4}(其中l(wèi)x1表示標(biāo)號為x的交換機(jī)到標(biāo)號為1的核心交換機(jī)的最短距離，依次類推)。智能算法的控制策略即是選擇哪種學(xué)習(xí)策略，當(dāng)把累積回報(bào)值作為策略優(yōu)劣的評估函數(shù)時(shí)，較好的控制策略對學(xué)習(xí)體產(chǎn)生盡可能大的累積回報(bào)值。在此狀態(tài)下，此時(shí)的回報(bào)函數(shù)值以及所知的之前回報(bào)值都可以確定，后續(xù)狀態(tài)的回報(bào)值無法確定，因此，累積回報(bào)值計(jì)算將是個(gè)重要的問題。評估函數(shù)采用Q函數(shù)累計(jì)迭代運(yùn)算方程為

(3)

在當(dāng)前狀態(tài)s和當(dāng)前動作a下：r(s,a)為在智能體獲得的即時(shí)回報(bào)(reward)；Snext∈S為系統(tǒng)將會轉(zhuǎn)入的下一狀態(tài)；γ為折扣系數(shù)取值[0,1]；b為Snext下可采取的動作；Q(s,a)為智能體總計(jì)期望回報(bào)的預(yù)計(jì)。

2.2基于Q-learning的動態(tài)交換機(jī)遷移算法

將Q-learning算法思想應(yīng)用于SDN控制器的動態(tài)遷移問題，建立基于Q-learning的控制器負(fù)載的動態(tài)感知，并能自適應(yīng)控制器的協(xié)調(diào)分配。

基于Q-learning的遷移管理流程如下：

1)初始化Q值矩陣[Q(s,a)]m×n，初始化矩陣所有的值全為1。

2)對接下來的每個(gè)后續(xù)觸發(fā)搜索周期，自動重復(fù)以下動作：

(1)局部控制域內(nèi)，流量得不到處理或者處理能力嚴(yán)重過剩。系統(tǒng)自動查找Q陣，在Q表，每一個(gè)豎列有4個(gè)Q值。根據(jù)dijkstra算法得出相近的兩個(gè)核心控制器，并選取具有最大Q值的狀態(tài)作為當(dāng)前的激活狀態(tài)s；

(2)根據(jù)ε貪婪算法，針對每一個(gè)slaver交換機(jī)，在每一豎列中以1-ε機(jī)的概率選擇最大Q值的動作，并將該slaver交換機(jī)遷移到與相應(yīng)的核心控制的管理下；并記錄在每個(gè)周期內(nèi)發(fā)生遷移的交換機(jī)總個(gè)數(shù)，設(shè)為Mi；

(3)對于處于一個(gè)周期內(nèi)的slaver交換機(jī)的負(fù)載，用每個(gè)slaver交換機(jī)的負(fù)載除以在該周期內(nèi)每個(gè)核心控制器的總負(fù)載，得出r(s,a)；

(4)當(dāng)在狀態(tài)s下，選擇動作a后得到的Q值，如果在此狀態(tài)下Q值比原二維矩陣中的相應(yīng)位置Q值大，則更新，反之則不進(jìn)行更新，由于此列中相應(yīng)位置對應(yīng)得到的Q值已經(jīng)比此時(shí)得到的Q值小，所以就沒必要進(jìn)行更新；

(5)選擇Q陣中每列具有最大Q值的狀態(tài)作為下一個(gè)狀態(tài)，如果最大的Q值還是當(dāng)前位置的Q，則交換機(jī)不發(fā)生遷移，反之則遷移；同時(shí)更新狀態(tài)s的Snext；

(6)回到步驟(2)運(yùn)行到狀態(tài)s，并依次循環(huán)。

3仿真結(jié)果及分析

3.1仿真環(huán)境

考慮到目前還沒有類似Q-learning的自學(xué)習(xí)算法被用于解決交換機(jī)的動態(tài)遷移問題，本文只對參數(shù)進(jìn)行仿真，分析所提算法的收斂性，以及保證控制器負(fù)載均衡的能力。

假定每個(gè)核心控制器所能承受的負(fù)載是有限的，當(dāng)負(fù)載變化超過核心控制器的控制范圍時(shí)，根據(jù)Q學(xué)習(xí)算法和dijkstra算法，讓與其控制范圍相近周圍的其他核心交換機(jī)所控制的交換機(jī)遷移到它的控制范圍，讓其有能力處理短時(shí)的超負(fù)荷的負(fù)載。并且，當(dāng)其他核心交換機(jī)出現(xiàn)過載時(shí)，此slaver交換機(jī)也可以遷移到其他的核心控制器的管理范圍之下。

通過仿真，對一個(gè)核心交換機(jī)每個(gè)周期所管理交換機(jī)的負(fù)載之和與任一個(gè)slaver交換機(jī)的負(fù)載進(jìn)行分析，多次測試后發(fā)現(xiàn)，此和的方差總是在經(jīng)過一段時(shí)間后趨于穩(wěn)定，并圍繞著某個(gè)值鋸齒形波動。而且隨著程序的進(jìn)行，每個(gè)周期內(nèi)遷移的交換機(jī)個(gè)數(shù)也趨于穩(wěn)定，最后也是圍繞某個(gè)值作鋸齒形波動，遷移代價(jià)越來越小。

在本文中，設(shè)置該網(wǎng)絡(luò)拓?fù)浒?個(gè)核心控制器和30個(gè)普通交換機(jī)，即前面m和n的值分別取值為4和30。仿真環(huán)境是以北美interent2為參照，共有34個(gè)總交換機(jī)，在其中選出4個(gè)為核心控制器，其余30個(gè)交換機(jī)在仿真運(yùn)行開始之前就近劃分到4個(gè)核心控制器的控制域范圍中，控制器與交換機(jī)部署在統(tǒng)一物理位置，并且控制器的位置保持不變。交換機(jī)的流量服從μ=50,σ=0.15的正態(tài)分布。設(shè)定仿真環(huán)境中Q-learning為1 s的刷新周期.

3.2算法仿真結(jié)果及性能分析

在本文中，以文獻(xiàn)[7]中北美interent2(如圖4)為仿真架構(gòu)，通過上面狀態(tài)、動作、遷移選擇等要素的選取可以看出，本文中的遷移管理算法實(shí)際上是通過回報(bào)值的設(shè)計(jì)和Q表值來指導(dǎo)控制器遷移調(diào)度策略的，盡管被遷移的普通控制器的負(fù)載、距離等屬性(遷移代價(jià))作為狀態(tài)空間沒有直接體現(xiàn)到整個(gè)拓?fù)浣Y(jié)構(gòu)中，但每個(gè)被遷移的控制器對當(dāng)個(gè)控制域的流量負(fù)載處理過程起到了良好的補(bǔ)充協(xié)助作用，且負(fù)載對遷移過程的影響是直接通過及時(shí)回報(bào)值來體現(xiàn)的。

圖4　北美interent2網(wǎng)絡(luò)拓?fù)?/p>

并且，Q-learning中的搜索策略使核心控制器不會總是選擇一個(gè)回報(bào)值最大的交換機(jī)，而是以一定概率選擇，那么當(dāng)當(dāng)前回報(bào)值最大的控制器不在核心控制器的選擇范圍中，就有可能在其他核心控制器的選擇范圍之內(nèi)，這種選擇機(jī)制就保證了核心控制器能夠在不同的選擇策略上積累經(jīng)驗(yàn)，這也就支持了遷移任務(wù)的動態(tài)管理。

3.3控制器負(fù)載分析

單個(gè)核心控制器在運(yùn)行和不運(yùn)行Q-learning機(jī)制的負(fù)載均衡度(方差)如圖5所示。由圖5可以看出，當(dāng)剛開始運(yùn)行控制器系統(tǒng)時(shí)，每個(gè)核心控制器所控制的交換機(jī)都是預(yù)先隨機(jī)分配的，因此系統(tǒng)并不認(rèn)為是理想的，所以每個(gè)周期剛開始運(yùn)行時(shí)，每個(gè)周期都會有交換機(jī)的遷移(也包括由于受到遷移代價(jià)的影響，選擇次優(yōu)的核心交換機(jī)而引起的非最佳選擇遷移次數(shù))。此時(shí)遷移的交換機(jī)數(shù)很多，開始時(shí)遷移個(gè)數(shù)都基本在13左右，但是隨著時(shí)間的推移，程序會使整個(gè)系統(tǒng)越來越處于一個(gè)優(yōu)化狀態(tài)，遷移次數(shù)或者頻率會越來越趨于平穩(wěn)。最后基本都處于每次只遷移4個(gè)交換機(jī)。由于程序存在缺陷，沒有記錄在此優(yōu)化過程中流量狀況不促發(fā)彈性控制器系統(tǒng)時(shí)的非核心交換機(jī)和核心交換機(jī)的狀態(tài)。

圖5　是否采用Q-learning機(jī)制負(fù)載均衡度

但是，而在此狀態(tài)下，系統(tǒng)整體也處于一個(gè)較為平穩(wěn)的狀態(tài)，對于需要的系統(tǒng)何時(shí)運(yùn)行到一個(gè)較為平穩(wěn)的狀態(tài)，可以根據(jù)單個(gè)核心控制器的方差平穩(wěn)狀態(tài)看出，交換機(jī)遷移的頻率達(dá)到較為穩(wěn)定的時(shí)間和單個(gè)核心交換機(jī)方差函數(shù)趨于平穩(wěn)的時(shí)間應(yīng)該是相對的。

3.4Q-leaning參數(shù)對算法的影響

通過對以往關(guān)于貪婪算法的研究，在一定范圍內(nèi)隨機(jī)賦給γ,ε，一定的值。并根據(jù)以往的經(jīng)驗(yàn)，發(fā)現(xiàn)在給定某個(gè)ε后，隨著感知周期的運(yùn)行，對于單個(gè)核心控制節(jié)點(diǎn)的方差，γ越大，其方差收斂越慢，且其后續(xù)方差波動也越來越大。同時(shí)，當(dāng)ε的值越大，系統(tǒng)對Q表值的選擇隨機(jī)性變大，當(dāng)其越小時(shí)，又不能體現(xiàn)其選擇公平性。當(dāng)γ=0.25時(shí)，單個(gè)核心控制器的方差總是收斂相對較快，后續(xù)也最穩(wěn)定。雖然當(dāng)γ=0.25，ε=0.3時(shí)收斂速度和負(fù)載均衡度也比較理想，但當(dāng)其平穩(wěn)后負(fù)載均衡度比γ=0.25，ε=0.2波動更大，所以最后認(rèn)定γ=0.25，ε=0.2的效果最理想。因數(shù)據(jù)量和篇幅的原因只錄入100個(gè)周期的數(shù)據(jù)，同時(shí)當(dāng)γ=0.25，ε=0.2后續(xù)曲線相對平穩(wěn)。圖6給出了γ=0.15，ε=0.2；γ=0.15，ε=0.3；γ=0.25，ε=0.2；γ=0.25，ε=0.3的方差曲線?？梢钥闯龌赒-learning的彈性控制器系統(tǒng)對于系統(tǒng)流量起到了很合理的調(diào)節(jié)分配作用，由此減少網(wǎng)絡(luò)中不必要的丟包而造成的網(wǎng)絡(luò)擁塞等。

圖6　不同值下的網(wǎng)絡(luò)負(fù)載均衡度

另一方面，在彈性控制器系統(tǒng)被觸發(fā)的周期內(nèi)會有交換機(jī)的來回遷移，整個(gè)網(wǎng)絡(luò)較多時(shí)候處于能夠處理負(fù)載的狀態(tài)，只記錄了在觸發(fā)階段遷移的個(gè)數(shù)，并且當(dāng)單個(gè)核心控制器處于穩(wěn)定狀態(tài)后，系統(tǒng)再次被觸發(fā)后，每次遷移的個(gè)數(shù)總是在3左右波動。由此確定，整個(gè)系統(tǒng)已達(dá)到比較穩(wěn)定的狀態(tài)，處于收斂。

4結(jié)束語

本文在軟件定義網(wǎng)絡(luò)系統(tǒng)中應(yīng)用了智能控制理論中的Q-learning算法，在每個(gè)感知周期內(nèi)，Q-learning算法中的狀態(tài)選擇是選擇每個(gè)核心控制范圍內(nèi)有額外負(fù)載處理能力的交換機(jī)與核心控制器的鏈接狀態(tài)，將每個(gè)有額外處理能力的交換機(jī)調(diào)配到處理能力不夠的核心控制器下并受其管理作為在每個(gè)狀態(tài)下所采取的動作，收集到的流量來確定回報(bào)，在感知活動中學(xué)習(xí)經(jīng)驗(yàn)，從而提高優(yōu)化學(xué)習(xí)效率。

參考文獻(xiàn)：

[1]QIN Z，DENKER G，GIANNELLI C，et al. A software defined networking architecture for the internet-of-things[C]. IEEE network operations & management symposium.[S.l.]:IEEE，2014：1-9.

[2]The openflow switch[EB/OL].[2015-10-10].http://www.open-flowswitch.org.

[3]LEVIN D，WUNDSAM A，HELLER B，et al. Logically centralized? state distribution trade-offs in software defined networks[C]//Proc. HotSDN’12 of ACM SICGCOMM. Helsinki，F(xiàn)inland：[s.n.]，2012：1-6. DOI：10.1145/2342441. 2342443.

[4]左青云，陳鳴，趙廣松，等. 基于OpenFlow的SDN技術(shù)研究[J]. 軟件學(xué)報(bào)，2013，24(5)：1078—1097. DOI：10.3724/SP.J.1001.2013.04390.

[5]KOPONEN T，CASADO M，GUDE N，et al. Onix: a distributed control platform for large-scale production networks[C]//Proc. 9th USENIX conference on operating systems design and implementation.[S.l.]：ACM，2010：351-364.

[6]TOOTOONCHIAN A,GANJALI Y. HyperFlow: a distributed control plane for OpenFlow[C]// Internet Network Management Conference on Research on Enterprise Networking.[S.l.]：ACM，2010：3-5.

[7]HELLER B，SHERWOOD R，MCKEOWN N. The controller Placement problem[C]//Proceedings of the first workshop on Hot topics in software defined networks.[S.l.]:ACM，2012:7-12.

[8]DIXIT A，HAO F，MUKHERJEE S，et al. Towards an elastic distributed SDN controller[J].ACM sigcomm computer communication review，2013，43(4)：7-12.DOI：10.1145/2491185.2491193.

[9]YAO G，BI J，LI Y.On the capacitated controller placement problem in software defined networks[J]. IEEE communications letters，2014，18(8)：1339-1342.DOI：10.1109/LCOMM.2014.2332341.

[10]HOCK D，HARTMANN M，GEBERT S，et al. Pareto-optimal resilient controller placement in SDN-based core networks[C]// International Teletraffic Congress.[S.l.]：IEEE，2013：1-2.DOI：10.1109/ITC.2013.6662939.

[11]BEHESHTI N,ZHANG Y. Fast failover for control traffic in Software-defined NetWorks[C]// IEEE Global Communications Conference (GLOBECOM).Anaheim，CA：IEEE. 1930-529X .DOI:10.1109/GLOCOM.2012.6503519.

趙季紅(1963— )，女，教授，博士生導(dǎo)師，研究方向?yàn)閿?shù)寬帶通信網(wǎng)、新一代網(wǎng)絡(luò)的管理與控制；

張彬(1990— )，碩士生，研究方向?yàn)橐苿踊ヂ?lián)網(wǎng)；

王力(1985— )，博士研究生，研究方向?yàn)榫W(wǎng)絡(luò)控制與管理、SDN、未來網(wǎng)絡(luò)；

曲樺(1961— )，教授、博士生導(dǎo)師，主研領(lǐng)域?yàn)楝F(xiàn)代通信網(wǎng)、計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)；

鄭浪(1985— )，碩士生，研究方向?yàn)橐苿踊ヂ?lián)網(wǎng)。

責(zé)任編輯：許盈

Dynamic switch migration algorithm in software defined networks based on Q-learning

ZHAO Jihong1，2, ZHANG Bin1, WANG Li2, QU Hua2, ZHENG Lang1

(1.SchoolofTelecommunicationandInformationEngineering,Xi’anUniversityofPosts&Telecommunications,Xi’an710061,China;2.SchoolofElectronicandInformationEngineering,Xi’anJiaotongUniversity,Xi’an710049,China)

Abstract:Load balance for controllers becomes an important research issue for large-scale deployed Software Defined Networks (SDN) with the dynamic network load. A dynamic switch migration algorithm based on Q-learning is proposed in this paper, which models controller placement problem firstly, then uses feedback scheme of Q-learning to learn the real time network load, and migrates switches from high-load controllers to low-load controllers on the bias of Q table lastly, to realize load balance of controllers. Simulation results show that the proposed algorithm gets low standard deviation of load born on controllers.

Key words:software defined networks;OpenFlow;controller;Q-learning

中圖分類號:TP393.0

文獻(xiàn)標(biāo)志碼:A

DOI：10.16280/j.videoe.2016.06.013

基金項(xiàng)目：國家自然科學(xué)基金項(xiàng)目(61371087)；國家“863”計(jì)劃項(xiàng)目(2015AA015702)

作者簡介：

收稿日期：2015-12-09

文獻(xiàn)引用格式：趙季紅，張彬，王力，等. SDN中基于Q-learning的動態(tài)交換機(jī)遷移算法[J].電視技術(shù)，2016，40(6)：68-72.

ZHAO J H，ZHANG B，WANG L，et al. Dynamic switch migration algorithm in software defined networks based on Q-learning[J].Video engineering，2016，40(6)：68-72.

專題SDN技術(shù)與應(yīng)用