柴新新劉 建
(中國船舶集團有限公司第八研究院,江蘇 揚州 225101)
以用戶為中心的大規(guī)模多輸入多輸出(UCMMIMO)系統(tǒng)被視為能夠應對5G 時代移動通信的龐大移動流量、低延時、高能效和高成本效率需求的關鍵技術。由于接入點天線數(shù)量大幅增加,傳統(tǒng)天線選擇算法不再能夠應對。由此,研究人員對天線選擇問題展開了廣泛研究。
針對天線選擇問題,實驗證明,信號強度隨著信號傳播距離的增大而減小。所以根據(jù)用戶分布的時間特性、不平衡性,對通信質量的需求不同等原因,系統(tǒng)內(nèi)的天線不需要全部都處于工作狀態(tài),而僅是選擇出部分天線執(zhí)行信號收發(fā)任務即可。對于多輸入多輸出(MIMO)系統(tǒng),基于窮搜的天線選擇方法被廣泛使用,但是在Massive MIMO 中,窮搜方法的計算復雜度就會達到不可忍受的地步。
基于凸優(yōu)化和優(yōu)勢子矩陣搜索的方法計算復雜度也會隨著天線數(shù)量的增多而增大。為了降低計算復雜度,一個貪婪搜索算法被提出,雖然計算復雜度較低,但此方法只能獲得次優(yōu)解。
對于Massive MIMO系統(tǒng),基于信道矩陣的范數(shù)和相關性的兩步選擇方法也被提出,取得了較好的效果,但是這個方法是基于完備信道狀態(tài)信息(CSI)的。不依賴于完備CSI的天線選擇方法會造成較大的容量損失。研究人員也嘗試使用機器學習算法解決天線選擇問題,他們將天線選擇問題建模為一個分類問題,但此做法不適用于UC-MMIMO。
綜上,大多數(shù)傳統(tǒng)天線選擇算法都依賴完備CSI的獲取,不依賴完備CSI的算法會導致較大的容量損失。而現(xiàn)實問題是,超大型天線陣列的完備CSI通常是不可得的。所以,如何在非完備CSI情況下進行天線選擇成為了亟待解決的問題。
近年來,機器學習技術蓬勃發(fā)展,強化學習作為機器學習技術的一部分,對解決通信系統(tǒng)的自動探索、自決策、自組織、自優(yōu)化問題都有著極大的幫助。本文率先將強化學習引入到天線選擇問題中,與基于常規(guī)機器學習方法的工作不同的是,本文將天線選擇問題建立了一個新的問題模型,仿真結果表明所提算法在非完備CSI情況下依然表現(xiàn)良好,并且在復雜度上也優(yōu)于傳統(tǒng)算法。
本文考慮一個UC-MMIMO 場景如圖1所示,其中天線數(shù)量為,用戶數(shù)量為。?,則接入點天線和用戶的信道系數(shù)g ,可以表示為:
圖1 UC-MMIMO 系統(tǒng)拓撲圖
式中:,為接入點天線和用戶的大尺度衰落系數(shù),考慮了路徑損耗和陰影效應,而且變化緩慢;h 為接入點天線和用戶的小尺度衰落系數(shù)。
本文采用COST Hata模型,對大尺度衰落系數(shù)可以被表示為:
式中:σ=8 d B,表示陰影衰減偏差;z ~N(0,1);d 表示第個接入點天線與第個用戶之間的距離;常有,是固定值,會在參數(shù)中提到;為子載波頻率,單位表示為MHz;h 表示接入點天線高度,單位為m;h 表示用戶天線高度,單位為m。
經(jīng)分析,分布式Massive MIMO 系統(tǒng)中收發(fā)天線之間有直射路徑,是萊斯信道。第個用戶與第個接入點天線之間的小尺度衰落信道元素可以表示為:
式中:K 表示第個用戶與第個接入點天線之間的萊斯因子;h~CN(0,)表示信道的非直射徑分量;h表示直射徑分量,可以表示為:
式中:表示接入點天線間距;表示波長;θ∈(-π/2,π/2),表示第個用戶與第個接入點天線之間的到達角。
為了便于分析且不失一般性,天線間距假設為波長的一半,即/2。為了方便起見,本文將萊斯因子設定為6。
本文使用共軛波束成形技術將信號發(fā)送給用戶,可知第個接入點天線傳輸?shù)男盘柨梢员硎緸?
式中:φ,1,…,為發(fā)射信號,{|φ|}1;為每個傳輸信號的正則化后的信噪比(SNR);η為能量分配系數(shù)。
則第個用戶接收到的信號被表述為:
式中:z 代表第個用戶的高斯白噪聲。
而第個用戶的可到達率可被表示為:
式中:h 為與第個用戶相連的所有天線信道系數(shù)組成的向量;g 為第個用戶和所有個接入點天線的信道系數(shù)組成的信道向量;a 為第個用戶和所有個接入點天線的連接狀態(tài),元素為1表示兩者處于連接狀態(tài),為0表示兩者處于斷開狀態(tài)。
第個用戶的信干噪比(SINR)為:
在移動通信系統(tǒng)中,當用戶設備在通信過程中從一個基站覆蓋區(qū)移動到另一個基站覆蓋區(qū),或者由于外界干擾而造成通信質量下降時,必須改變原有信道而轉接到空閑信道上去,以繼續(xù)保持通信的過程。但是由于分布式Massive MIMO 系統(tǒng)特點導致移動中的用戶頻繁切換接入點天線。在切換過程中,系統(tǒng)中海量數(shù)據(jù)的傳輸與處理工作以及信令開銷均大幅增加,導致較大的傳輸能耗和計算能耗。但是假如當前接入點天線能夠滿足新位置的通信需求,則沒必要被重新分配接入點天線的。
為此,本文設定了用戶容量閾值。只有當前連接的接入點天線帶來的容量γ小于時,系統(tǒng)才會為用戶重新選擇接入點天線,適當增大或減小容量閾值γ可以調(diào)整容量和能耗之間的tradeoff關系。為了不失一般性,規(guī)定了每個用戶最多只能連接個接入點天線。
由于接入點天線能量的有限性,設置了每個接入點天線的最大用戶連接數(shù)為,當天線服務用戶人數(shù)等于時就不能為額外用戶服務了,此類接入點天線被稱為“滿載天線”。則整個優(yōu)化問題可被整理為:
式中:第1個約束表示當前容量和容量閾值之間的大小關系,第2個約束表示為每個接入點天線用戶連接數(shù)目限制,第3個約束表示每個用戶的接入點天線連接數(shù)限制,第4個約束表示每個接入點天線的用戶連接數(shù),第5個約束表示每個用戶的接入點天線連接數(shù),第6個約束表示第個接入點天線和第個用戶之間的連接狀態(tài)。
由于優(yōu)化問題是個NP-hard問題,強化學習方法作為求解NP-hard問題的有力工具,被很多研究人員廣泛采用,本文也采用此方法求解NP-hard問題。
強化學習方法是以馬爾可夫決策過程為基礎的。在本文中,使用A3C算法解決UC-MMIMO 系統(tǒng)中的天線選擇問題。A3C(multi-threaded asynchronous advantage actor-critic)被稱為策略-評論家算法中的一種,可以有效地利用計算機資源,提升訓練效用,成倍提高運行速度,并且有利于減少數(shù)據(jù)之間的相關性,有利于程序收斂。首先需要將其轉化為馬爾科夫決策過程,需要定義狀態(tài)空間、動作空間和獎勵機制。
狀態(tài)空間:為了降低對CSI的依賴,本文采用用戶位置作為輸入,為了避免產(chǎn)生過大的狀態(tài)空間,本文將區(qū)域進行柵格化劃分,將每個柵格的坐標視為其重心坐標,用戶的坐標被視為柵格坐標。則狀態(tài)空間元素可被表示如下:
式中:l []為此用戶在第個時間節(jié)點的軸坐標;l []為此用戶在第個時間節(jié)點的軸坐標。
動作空間:因為解決的是天線選擇問題,所以本文定義的動作空間的每個元素都是一個天線組合。根據(jù)用戶連接接入點天線數(shù)量限制,系統(tǒng)需要為每個用戶選擇個天線,則本文將動作空間設定為一個列的行向量,向量元素由0或者1組成,元素為1的數(shù)量等于。元素等于1表示此用戶與該天線連接,否則表示斷開。則動作空間的每個元素可被表示如下:
獎勵機制:本文的優(yōu)化目標是最大化一段時間內(nèi)用戶總容量,因此獎勵機制應被設置為所選天線為用戶帶來的瞬時容量。但瞬時容量的計算和被選擇天線組合中的滿載天線相關。當被選擇的接入點天線都不滿載時,將此時的容量設定為即時獎勵,即時獎勵可被表示為:
式中:[]表示用戶在第個時間節(jié)點的即時獎勵;σ表示用戶在第個時間節(jié)點的信干噪比。
當選擇到滿載天線時,將給予懲罰,懲罰被設定為一個負值。因為本文設定的目標函數(shù)是長期時間內(nèi)的容量最大化,則長期獎勵被表示為:
式中:為折扣因子,表示對未來獎勵的重視程度。
根據(jù)定義的狀態(tài)空間、動作空間和獎勵機制,優(yōu)化問題被轉化為了馬爾可夫決策問題,它可以被強化學習算法求解。被轉化后的問題可以表示為:
然而,在某些情形下,模型不可避免地會選擇到滿載天線,滿載天線并不能為用戶提供通信服務,需要對選擇的天線進行調(diào)整。為此,本文基于最近距離原則設計了天線調(diào)整機制。其設計思想是當滿載天線被選擇后,系統(tǒng)根據(jù)用戶的位置選擇距其最近的幾條非滿載天線替換掉滿載天線,替換天線的數(shù)目等于為此用戶分配的滿載天線數(shù)量。
本文采用最大歐幾里得范數(shù)天線選擇算法和兩步選擇算法作為對照算法。為了公平性,所提算法和對照算法均采用相同的系統(tǒng)模型、環(huán)境配置和參數(shù)設置,并且也將其改成以用戶為中心的形式。下面對對照算法進行簡要概述。
(1) 兩步選擇算法:顧名思義,此算法是根據(jù)其原理經(jīng)過兩次篩選才最終選定服務天線的天線選擇算法。在第1步選擇中,此算法根據(jù)空間相關性從全體天線中選出N 個備選天線;在第2步中,通過最大化奇異值從N 個備選天線中選擇出N 個天線作為最終選定的天線。
(2) 最大歐幾里得范數(shù)選擇算法:對于每個用戶,此算法通過對所有天線對此用戶的信道系數(shù)求解歐幾里得范數(shù)并排序,選擇最大的幾根天線。的配置如表1所示。
表1 仿真參數(shù)表
首先,本文對比了所提算法和2個對照算法的算法復雜度。所提算法由選擇階段和調(diào)整階段組成,則算法復雜度也由兩部分構成。選擇階段的復雜度可被表示為(),第二階段的復雜度為(),因此所提算法的總算法復雜度為((1))。最大歐幾里得范數(shù)選擇方法的復雜度為()。所提算法和最大歐幾里得范數(shù)選擇算法的復雜度大小僅與用戶數(shù)和天線數(shù)量相關,當用戶數(shù)量和接入點天線數(shù)量都確定后,其復雜度也隨之確定。
本文考慮了一個1 km×1 km 的正方形區(qū)域,個用戶和個接入點天線隨機分布,區(qū)域被劃分為多個20 m×20 m 的子區(qū)域。本文仿真時各參數(shù)因此,隨著N 的增長,兩步選擇算法的復雜度會急劇增長,當N 增加時,算法復雜度緩慢增加,達到最高點時,如果N 繼續(xù)增加,算法復雜度會以同樣的速度緩慢下降。而N 才是影響兩步選擇算法復雜度的主要因素,因為在第2步選擇中,算法需要遍歷所有天線組合的奇異值。當N 增大時,天線組合數(shù)量會急劇增加,導致算法復雜度同樣急劇增加。
值得一提的是,因為兩步選擇算法有2個自變量,分別是第1步選擇天線數(shù)量和第2步選擇天線數(shù)量。對算法復雜度產(chǎn)生最大影響的是第1步選擇的天線數(shù)量,所以不能將3個算法的復雜度用1 張圖表示,而是需要用2 張圖進行表示。對比圖如圖2所示,本文設定用戶人數(shù)=6,接入點天線數(shù)目=105,第1步選擇出的備選接入點天線數(shù)目N =10,第2 步選擇出的接入點天線數(shù)目N =5。
圖2中,最大歐幾里得范數(shù)算法的復雜度略微小于兩步選擇算法,兩步選擇算法的復雜度隨著第1步選擇數(shù)目的增加而呈指數(shù)增長,并且其單位的數(shù)量級遠遠大于所提算法和最大歐幾里得范數(shù)算法的復雜度的數(shù)量級??芍?所提算法在計算復雜度上相較于傳統(tǒng)算法占有優(yōu)勢。
圖2 算法復雜度對比圖
在表2中,本文給出了3 種算法的運行時間。兩步選擇算法運行時間是最長的,且遠高于其他2個算法。兩步選擇算法和最大歐幾里得范數(shù)天線選擇算法均不需要事先訓練,而所提算法需要事先進行30 min的訓練,但這個訓練時長是可接受的。
表2 算法運行時間表
當完備的CSI可以獲得時,設定第1次選擇出的備選接入點天線N 數(shù)量為10,變化最后選擇出的接入點天線數(shù)量、系統(tǒng)容量對比圖如圖3 所示。兩步選擇算法取得了最高的系統(tǒng)容量,最大歐幾里得范數(shù)算法的取得效果總體弱于兩步選擇算法,但是相差無幾,所提算法略低于2個對照算法。
圖3 系統(tǒng)容量在完備CSI下的影響圖
一個可信的解釋是本文提出的基于強化學習的天線選擇算法不能利用CSI信息,從環(huán)境中獲得的信息最少,所以性能差于2種對照方案;3種算法隨著選擇的接入點天線數(shù)量的增大而先增大后減小,這可以解釋為干擾信號的增長速度超過了有用信號的增長速度。
在傳輸端僅可知大尺度CSI,一個天線選擇和波束成形算法被提出用以最小化能量損耗。受此論文啟發(fā),本文采用類似方法,探索小尺度衰落信息不能獲取時的系統(tǒng)容量變化,如圖4所示。
圖4 系統(tǒng)容量在非完備CSI下的影響圖
同樣,設置N =10,可以看出,依賴于CSI信息的兩步選擇算法和最大歐幾里得算法的容量下降劇烈。當CSI信息不完備時,此算法已經(jīng)不能有效地解決天線選擇問題了。而本文所提出的算法由于不依賴于CSI,所以性能沒有變化??梢缘贸鼋Y論,本文所提算法在CSI不可得時,依然表現(xiàn)良好。
本文提出了一種基于A3C 算法的天線選擇算法,為了進一步提高算法性能,提出了基于最近距離算法的天線調(diào)整機制。為了證明所提算法在性能方面的優(yōu)勢,選擇了2個傳統(tǒng)天線選擇算法作為對照方案。
通過此3種算法仿真結果表明:在完備CSI情況下,所提算法性能劣于傳統(tǒng)算法,但性能差距不大;在非完備CSI情況下,傳統(tǒng)算法的性能大幅下降,而所提算法性能變化不大,且遠優(yōu)于傳統(tǒng)算法。除此之外,所提算法在算法復雜度上也有較大優(yōu)勢。證明所提算法可以在UC-MMIMO 系統(tǒng)中有效解決天線選擇問題。