基于深度強(qiáng)化學(xué)習(xí)的置信傳播譯碼算法

2021-05-07 23:22:23高源浩劉乃金魯淵明

現(xiàn)代信息科技 2021年21期

高源浩劉乃金魯淵明

摘 ?要：文章通過深度強(qiáng)化學(xué)習(xí)的方法來尋求二進(jìn)制線性編碼的有效解碼策略。在加性高斯白噪聲的條件下，將置信傳播（BP）解碼算法中軟信息的迭代看作是對軟信息的連續(xù)決策，并將其映射到馬爾可夫決策過程，用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)譯碼器，擴(kuò)大探索空間以提高譯碼性能，從而實現(xiàn)對數(shù)據(jù)驅(qū)動的最佳決策策略的學(xué)習(xí)。結(jié)果表明，相較于傳統(tǒng)BP解碼器，在誤碼率=10-5時，學(xué)習(xí)型BP解碼器在BCH碼上取得大約0.75 dB的優(yōu)勢，這在一定程度上解決了以往研究中過于依賴數(shù)據(jù)的問題。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí);置信傳播譯碼;馬爾可夫決策;最佳決策

中圖分類號：TP18 ? ?文獻(xiàn)標(biāo)識碼：A文章編號：2096-4706（2021）21-0098-05

Abstracts： This paper uses a deep reinforcement learning approach to find an efficient decoding strategy for binary linear codes. Under the condition of additive Gaussian white noise， the iteration of soft information in the belief propagation （BP） decoding algorithm is regarded as a continuous decision-making of soft information， which is mapped to the Markov decision-making process. The deep reinforcement learning network is used to replace the traditional decoder， expand the exploration space to improve the decoding performance， so as to realize the learning of the best data-driven decision-making strategy. The results show that compared with the traditional BP decoder， when the bit error rate is 10-5， the learning BP decoder has an advantage of about 0.75 dB in BCH code， which solves the problem of relying too much on data in previous research to a certain extent.

Keywords： deep reinforcement learning; belief propagation decoding; Markov decision-making; best decision-making

0 ?引 ?言

數(shù)字信號在傳輸過程中，由于受到各種干擾的影響，碼元波形將變壞，接收端收到后可能發(fā)生錯誤判決。由乘性干擾引起的碼間串?dāng)_，可以采用均衡的方法進(jìn)行糾正。而加性干擾的影響則需要通過其他方法解決。在設(shè)計數(shù)字通信系統(tǒng)的時候，應(yīng)該首先從合理選擇調(diào)制制度、解調(diào)方法以及發(fā)送功率等方面考慮，使得加性干擾不足以影響到誤碼率要求。在仍不能滿足要求時，就要考慮采用信道編碼方法了。

為了改善通信的質(zhì)量，研究者們嘗試了很多辦法。信道編碼是人們在改善通信質(zhì)量方面最早采用的方法之一，通過給原數(shù)據(jù)添加相關(guān)的冗余信息來對抗傳輸過程中的干擾。信道編碼中以線性分組碼應(yīng)用最廣，廣泛應(yīng)用于衛(wèi)星通信、移動通信、存儲設(shè)備、數(shù)字視頻廣播等領(lǐng)域，此外，線性分組碼可以在傳輸效率與糾錯能力之間進(jìn)行權(quán)衡，允許其在更低的發(fā)射功率下保持同質(zhì)量的服務(wù)。因此，提高線性分組碼性能具有極其重要的意義。

糾錯碼的解碼可以看作是一個分類問題，能夠通過監(jiān)督機(jī)器學(xué)習(xí)的方式得以解決。一般的想法是將解碼器視為一個參數(shù)化的函數(shù)（比如，一個神經(jīng)網(wǎng)絡(luò)），通過數(shù)據(jù)驅(qū)動的優(yōu)化來學(xué)習(xí)良好的參數(shù)配置。如果沒有對編碼方法的進(jìn)一步限制，深度學(xué)習(xí)方法通常只對短碼字有較好的效果，不適用于超過幾百個碼字長度的非結(jié)構(gòu)化代碼。對線性分組碼來說，這個問題就大大簡化了。人們只需學(xué)習(xí)一個決策區(qū)域即可，而無需學(xué)習(xí)每個碼字所在的各個區(qū)域，然而，這仍然是一個極具挑戰(zhàn)性的問題，因為一個好的編碼方案通常具有復(fù)雜的決策區(qū)域，每一個碼字都有大量相鄰的碼字。Tobias Gruber認(rèn)為可以通過深度神經(jīng)網(wǎng)絡(luò)對隨機(jī)碼和結(jié)構(gòu)化碼（如polar碼）進(jìn)行一次性解碼[1]。通過學(xué)習(xí)，發(fā)現(xiàn)結(jié)構(gòu)化編碼更容易學(xué)習(xí)。對于結(jié)構(gòu)化編碼，神經(jīng)網(wǎng)絡(luò)能夠泛化到它在訓(xùn)練期間從未見過的碼字。Tim OShea提出并討論了深度學(xué)習(xí)（DL）在物理層面的幾個新應(yīng)用[2]。通過將通信系統(tǒng)解釋為一個自動編碼器，將通信系統(tǒng)設(shè)計視為一個端到端的重建任務(wù)，尋求在單一過程中同時優(yōu)化發(fā)射器和接收器組件。EliyaNachmani提出一種基于改進(jìn)信念傳播算法的新型深度學(xué)習(xí)方法[3]。該方法通過給Tanner圖的邊分配權(quán)重的方式來概括標(biāo)準(zhǔn)的信念傳播算法，然后使用深度學(xué)習(xí)技術(shù)對這些邊進(jìn)行訓(xùn)練。信念傳播算法的一個眾所周知的特性是對所傳輸碼字性能的獨立性。Amir Bennatan提出一個新的框架，將深度神經(jīng)網(wǎng)絡(luò)（DNN）應(yīng)用于任意塊長度的線性編碼的軟解碼[4]。他們所提出的框架允許無約束的DNN設(shè)計，能夠自由靈活地應(yīng)用在其他背景下開發(fā)的強(qiáng)大設(shè)計，對抑制許多競爭性方法的過擬合具有魯棒性，這源于其訓(xùn)練所需呈指數(shù)級增長的大量編碼。結(jié)果表明，其性能有時接近有序統(tǒng)計解碼（OSD）算法的性能。EliyaNachmani介紹了一個基于逐次松弛方法的循環(huán)神經(jīng)解碼器架構(gòu)，在較稀疏的Tanner圖表示的編碼上也觀察到了比標(biāo)準(zhǔn)信念傳播得更好的性能改進(jìn)。此外，他們還證明了神經(jīng)信念傳播解碼器可以用來提高短BCH碼的性能，或者是降低接近最佳解碼器的計算復(fù)雜性。

本文中，我們從機(jī)器學(xué)習(xí)的角度研究了二進(jìn)制線性碼的解碼。置信傳播算法利用節(jié)點與節(jié)點之間相互傳遞信息來更新當(dāng)前所有節(jié)點的狀態(tài)。通過消息傳播，將該節(jié)點的概率分布狀態(tài)傳遞給相鄰的節(jié)點，從而影響相鄰節(jié)點的概率分布狀態(tài)，經(jīng)過一定次數(shù)的迭代，每個節(jié)點的概率分布將收斂于一個穩(wěn)態(tài)。在實際的置信傳播譯碼過程中，校驗節(jié)點和變量節(jié)點之間的消息傳遞雖然存在重復(fù)信息，但是重復(fù)信息比較少，因此可以近似地認(rèn)為每一次的迭代譯碼都只用上一次迭代后的對數(shù)似然比值進(jìn)行計算，這滿足于馬爾可夫決策中狀態(tài)的改變只與上一個狀態(tài)有關(guān)，而與上一個狀態(tài)之前的狀態(tài)無關(guān)的特點。因此，可以將置信傳播譯碼中軟信息的迭代看作是對軟信息的連續(xù)決策，并將其映射到馬爾可夫決策過程。利用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)解決譯碼問題，通過自主探索逼近最佳性能。當(dāng)前，BP解碼已經(jīng)得到了廣泛的研究，例如文獻(xiàn)[5-7]等。據(jù)調(diào)研，本文提出的BP解碼方法仍然是較為新穎的。事實上，研究和探討RL解碼的參考文獻(xiàn)很少[8，9]，只是涉及一些比較典型的工作。簡單回顧一下迭代譯碼算法，它們都是基于連續(xù)的決策步驟，因此RL適用于這些算法。

1 ?信道解碼原理

假設(shè)C是一個由M×N的奇偶校驗矩陣H定義的一個（N，K）二進(jìn)制線性分組碼，其中N為碼長，K為碼的維度。該碼字用于將信息編碼成碼字c=（c1，...，cN）T，然后在加性高斯白噪聲（AWGN）信道上傳輸，傳輸碼字經(jīng)過信道得到接收碼字y，y的每一個分量yn=（-1）Cn+ωn，ωn～N（0，（2REb/N0）-1），R=K/N稱作碼率，將Eb/N0稱為信噪比，用SNR表示。接收到的碼字y經(jīng)過硬判決得到結(jié)果z=（z1，...，zN）T， zN是通過對yN的符號進(jìn)行映射得到的，映射規(guī)則為+1→0，-1→1。

當(dāng)前，常用的高效迭代解碼算法有兩種，這兩種算法的每一步都涉及決策過程：

（1）比特翻轉(zhuǎn)解碼算法。BF解碼的一般思路是構(gòu)建一個合適的度量，允許解碼器根據(jù)編碼約束條件下的可靠性對比特進(jìn)行排序[10]。在其最簡單的形式中，BF使用硬判決輸出z，并在迭代地尋找翻轉(zhuǎn)之后，找出能最大限度減少當(dāng)前違反PC方程數(shù)量的位置。當(dāng)前，BF解碼在學(xué)術(shù)界得到了廣泛的研究，在許多現(xiàn)代編碼理論的文獻(xiàn)中都有涉及，比如[11-14]。

（2）置信傳播譯碼算法。BP算法是一種迭代算法，消息沿著由編碼的tanner圖表示的邊進(jìn)行傳播。BP算法的大概流程為：

首先是初始化，可由式（1）（2）實現(xiàn)：

其中，Ki為校正因子，保證成立。如果大于0.5則為當(dāng)前碼字判決為0，反之判決為1，從而得到判決結(jié)果r。

4）校正子計算方法為s′=Hr=[s0，s1，s2，...，sn]，然后將smod 2得到校正子s。如果s不為0向量，則轉(zhuǎn)至1）繼續(xù)迭代過程直到譯碼成功或者達(dá)到譯碼最大次數(shù)上限。

2 ?馬爾可夫決策過程

馬爾可夫決策過程，為確定或隨機(jī)環(huán)境下的決策建模提供了一個數(shù)學(xué)框架。馬爾可夫決策過程可以用來獲得最優(yōu)的決策策略，用數(shù)據(jù)驅(qū)動的最優(yōu)度量的學(xué)習(xí)來替代啟發(fā)式學(xué)習(xí)。

一個時不變的馬爾可夫隨機(jī)過程S0，S1，…，其狀態(tài)轉(zhuǎn)移概率僅受代理根據(jù)對過去狀態(tài)的了解而采取的行動At影響。其中，s、s′∈S，a∈A，S和A是包含所有可能狀態(tài)與動作的有限集合。代理同樣會接收到一個獎勵Rt=R（St，At，St+1），并且獎勵只取決于狀態(tài)St，St+1和動作At。這個代理的決策過程被描述為一個策略π：S→A，表示將觀察到的狀態(tài)映射到動作。我們的目標(biāo)是找到一個最佳決策π*，使使得在每個可能的狀態(tài)下以預(yù)期獎勵返回一個最佳動作，其中，0<γ<1是未來獎勵的衰減因子。

過渡和獎勵概率已知的情況下，可以采用動態(tài)編程來計算最優(yōu)策略;概率未知的情況下，如果假設(shè)狀態(tài)和獎勵是可觀察的，則仍可以通過與環(huán)境的反復(fù)交互發(fā)現(xiàn)最優(yōu)策略，這就是所謂的強(qiáng)化學(xué)習(xí)（RL）。下面介紹兩種文獻(xiàn)中最常用的RL方法：

（1）Q-learning。最直接的RL實例被稱為Q-learning。其最優(yōu)策略根據(jù)Q函數(shù)Q：S×A→R，通過式子：得到。Q函數(shù)用于衡量行動的質(zhì)量，正式定義為當(dāng)智能體處于狀態(tài)s，采取行動a，然后采取最佳行動時的預(yù)期折現(xiàn)的未來獎勵。Q函數(shù)的主要優(yōu)點是，它可以從任何“足夠隨機(jī)”的代理的觀察中反復(fù)估計。下文給出了Q-learning的偽代碼，其中第5行中生成行動的一個探索策略為：

Input： learning rate α， discount factor γ

Output： estimated Q-function

Initialize Q（s， a） ← 0 for all s ∈ S， a ∈ A

Fori = 1， 2， … do

initialize starting state s ? ? ? ? ?// restart the MDP

while s is not terminal do

choose action a ? ? ? ? ? ? // ε-greedy

execute a， observe reward r and next state s

Q（s， a） ← （1-α）Q（s，a）+α（r+ γmaxa∈AQ（s， a））

s ←s

由此，我們發(fā)現(xiàn)Q函數(shù)能用式（9）遞歸的表示為：

這個表達(dá)式構(gòu)成了Q-learning的理論基礎(chǔ)，它在一定條件下收斂于真正的Q-函數(shù)。

（2）帶有函數(shù)近似值的擬合Q-學(xué)習(xí)。對于標(biāo)準(zhǔn)的Q-learning，人們必須存儲一個|S|×|A|的實值表。如果其中一個集合非常大，那么標(biāo)準(zhǔn)的Q-learning將難以實現(xiàn)。擬合Q-learning的想法是學(xué)習(xí)Q（s，a）的低復(fù)雜度近似值。將Qθ（s，a）作為Q函數(shù)的近似值，以θ為參數(shù)。擬合Q-learning在模擬MDP和更新當(dāng)前參數(shù)之間交替進(jìn)行，以獲得對Q-函數(shù)的更好估計。假設(shè)我們已經(jīng)模擬并存儲了一個集合D中B個過往經(jīng)驗（s，a，r，s′）。更新參數(shù)θ是為了減少經(jīng)驗損失，可由式（10）表示：

下面給出擬合Q-learning的偽代碼：

Input： learning rate α， batch size B

Output： parameterized estimate of the Q-function

Initialize parameters θ and D←?

Fori = 1， 2， … do

initialize starting state s ? ? ? ? ?// restart the MDP

while s is not terminal do

choose action a ? ? ? ? ? ? // ε-greedy

execute a， observe reward r and next state s

store transition（s， a， r，） in D

s←

if |D| = B then

θ←θ-α▽θLD（θ）

empty D

其中，梯度下降是用來根據(jù)損失（1）更新參數(shù)θ的。通常選擇Qθ（s，a）作為一個（深度）神經(jīng)網(wǎng)絡(luò)（NN），在這種情況下，θ是網(wǎng)絡(luò)的權(quán)重，擬合Q-learning被稱為深度Q-learning。深度Q-learning所采用的主要技巧是經(jīng)驗回放（experience replay），即將每次和環(huán)境交互得到的獎勵與狀態(tài)更新情況都保存起來，用于后面目標(biāo)Q值的更新。通過經(jīng)驗回放得到的目標(biāo)Q值與通過Q網(wǎng)絡(luò)計算得到的Q值，二者之間肯定是存在一定誤差的，我們可以通過梯度的反向傳播來更新神經(jīng)網(wǎng)絡(luò)的參數(shù)w。我們使用了兩個Q網(wǎng)絡(luò)，一個當(dāng)前Q網(wǎng)絡(luò)Q用于選擇動作，更新模型參數(shù)。另一個目標(biāo)Q網(wǎng)絡(luò)Q′用于計算目標(biāo)Q值。目標(biāo)Q網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)不需要迭代更新，而是每隔一段時間從當(dāng)前Q網(wǎng)絡(luò)Q復(fù)制過來（即延時更新），這樣可以減少目標(biāo)Q值與當(dāng)前Q值的相關(guān)性。

3 ?基于深度強(qiáng)化學(xué)習(xí)的置信傳播算法

我們提出了一種利用深度強(qiáng)化學(xué)習(xí)來改善置信傳播算法的方案。利用軟信息進(jìn)行譯碼簡單來說就是通過每一次的迭代去更新各個信息節(jié)點的對數(shù)似然比值，然后進(jìn)行判決，判斷譯碼是否正確。當(dāng)前對數(shù)似然比值僅與上次迭代過程中的對數(shù)似然比值有關(guān)，而與之前的狀態(tài)無關(guān)（即在tanner圖上進(jìn)行數(shù)據(jù)傳遞），tanner圖如圖1所示。因此，可以將利用軟信息進(jìn)行譯碼的過程與馬爾科夫決策過程相類比，將軟判決譯碼映射到馬爾科夫決策過程中去（有些文獻(xiàn)里也用c表示校驗節(jié)點，即圖1中的s節(jié)點）。

?本方案的基本流程為：

（1）利用接收碼字初始化各個信息節(jié)點的對數(shù)似然比值，作為初始狀態(tài)S0。

（2）根據(jù)既定的探索策略選擇一個動作At，更新變量節(jié)點的對數(shù)似然比值。

（3）根據(jù)動作選擇，變量節(jié)點轉(zhuǎn)變?yōu)樾碌臓顟B(tài)s′和反饋獎勵r。

（4）利用神經(jīng)網(wǎng)絡(luò)生成擬合的Q值并更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

（5）根據(jù)新的狀態(tài)s′生成判決結(jié)果x，判決HTx是否為0（或者是否到最大迭代步數(shù)），是則結(jié)束，否則轉(zhuǎn)步驟（2）。

本方案的基本參數(shù)設(shè)定為：

（1）狀態(tài)空間S。取所有變量節(jié)點的對數(shù)似然比值作為狀態(tài)，由于對數(shù)似然比值是一個連續(xù)值，因此狀態(tài)空間是一個連續(xù)的狀態(tài)空間，我們需要引入神經(jīng)網(wǎng)絡(luò)來擬合Q-學(xué)習(xí)中的Q值。

（2）動作空間A。任選其中一個變量節(jié)點，取一個改變值Δ（V ），選擇在原來對數(shù)似然比的基礎(chǔ)上+Δ（V ）/-Δ（V ）兩種動作，則At一共有2N種動作。本方案中取Δ（V ）= 0.01。

（3）信道選擇。AWGN信道，信噪比SNR滿足SNR=10lg（10Eb/N0），白噪聲服從高斯分布，且均值為0，方差為噪聲平均功率。因為假定的AWGN信道只有高斯白噪聲，所以在信噪比SNR設(shè)定完成后就能直接在傳輸碼字上添加確定的噪聲，之后獲得接收碼字。

4 ?仿真結(jié)果

本方案所采用的開發(fā)工具是PyCharm和MATLABR2020a。傳統(tǒng)的置信傳播方法采用MATLAB語言實現(xiàn)，而基于深度強(qiáng)化學(xué)習(xí)的置信傳播算法則采用Python語言開發(fā)，開發(fā)環(huán)境為Python3.8，主要使用了torch庫（用于引入神經(jīng)網(wǎng)絡(luò)）和matplotlib庫（用于繪圖）。編碼方案為BCH（63，45），其中，輸入為63維，輸出為126維，所以該神經(jīng)網(wǎng)絡(luò)是非常復(fù)雜的，其探索空間也是比較大的。該網(wǎng)絡(luò)一共有三層：輸入層（63，64）、中間層（64，64）、輸出層（64，126），激活函數(shù)為relu，探索率下限設(shè)置為0.1。

圖2展示了采取三種不同探索率下限來對比誤碼率的結(jié)果，其中x軸為SNR（即信噪比Eb/N0取對數(shù)后的結(jié)果），單位為dB，y軸為誤碼率BER（之后的圖表x，y軸也相同）。如果神經(jīng)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定之后，誤碼率會隨著神經(jīng)網(wǎng)絡(luò)探索率下限的降低而升高，在SNR小于10 dB的范圍內(nèi)，SNR-BER曲線符合我們的預(yù)期。同時，我們采取不同的網(wǎng)絡(luò)結(jié)構(gòu)來對比誤碼率的結(jié)果，例如去掉中間層（64，64），如圖3所示。可以看到，神經(jīng)網(wǎng)絡(luò)層數(shù)越多，誤碼率越低，在SNR<10 dB的區(qū)間內(nèi)，SNR-BER基本符合預(yù)期。

?同時，我們也完成了基于深度強(qiáng)化學(xué)習(xí)的BCH（63，45）譯碼，并用訓(xùn)練結(jié)果（BF_RL）與用BP方法實現(xiàn)的BCH（63，45）碼字解碼（BP）相對比，如圖4所示，從圖中可以看出基于深度強(qiáng)化學(xué)習(xí)的BCH（63，45）譯碼明顯優(yōu)于傳統(tǒng)的BP算法，在BER為10-5時有大約0.75 dB的優(yōu)勢。

?最后，我們針對比特翻轉(zhuǎn)譯碼使用強(qiáng)化學(xué)習(xí)方法對文獻(xiàn)[14]進(jìn)行了簡單復(fù)現(xiàn)（BF_RL），并將本文使用的基于深度強(qiáng)化學(xué)習(xí)的置信傳播譯碼方法進(jìn)行了對比，如圖5所示，結(jié)果顯示在（7，3）線性分組碼中優(yōu)勢比較明顯，在BER為10-5時大約有2 dB增益。

?5 ?結(jié) ?論

在本文中，我們提出了一個新穎的二進(jìn)制線性碼BP解碼的RL框架。研究表明，如果適當(dāng)選擇狀態(tài)和行動空間，BP解碼可以映射到馬爾科夫決策過程。原則上，這可以實現(xiàn)數(shù)據(jù)驅(qū)動的最佳BP決策策略的學(xué)習(xí)。標(biāo)準(zhǔn)的（基于表格的）和裝有NN函數(shù)近似器的Q-learning都被用來從數(shù)據(jù)中學(xué)習(xí)好的決策策略。結(jié)果表明，我們所提出的學(xué)習(xí)型BP解碼器具有一定的優(yōu)勢，然而，優(yōu)勢僅僅局限在中短碼字上，長碼字始終面臨狀態(tài)空間和動作空間過大的問題。因此，利用強(qiáng)化學(xué)習(xí)進(jìn)行長碼字的解碼仍然是一個極具挑戰(zhàn)性的問題，這將是我們之后的研究方向。

參考文獻(xiàn)：

[1] GRUBER T，CAMMERER S，HOYDIS J，et al. On deep learning-based channel decoding [C]//2017 51st Annual Conference on Information Sciences and Systems （CISS）.Baltimore：IEEE，2017：1-6.

[2] OSHEA T，HOYDIS J. An introduction to deep learning for the physical layer [J].IEEE Transactions on Cognitive Communications and Networking，2017，3（4）：563-575.

[3] NACHMANI E，BEERY Y，BURSHTEIN D. Learning to decode linear codes using deep learning [C]// 2016 54th Annual Allerton Conference on Communication， Control， and Computing （Allerton）.Monticello：IEEE，2016：341-346.

[4] BENNATAN A，CHOUKROUN Y，KISILEV P. Deep learning for decoding of linear codes-a syndrome-based approach [C]//2018 IEEE International Symposium on Information Theory （ISIT）.Vail：IEEE，2018：1595-1599.

[5] NACHMANI E，MARCIANO E，LUGOSCH L，et al. Deep learning methods for improved decoding of linear codes [J].IEEE Journal of Selected Topics in Signal Processing 2018，12（1）：119-131.

[6] NACHMANI E，BEERY Y，Burshtein D. Learning to decode linear codes using deep learning [C]//2016 54th Annual Allerton Conference on Communication， Control， and Computing （Allerton）. Monticello：IEEE，2016：341-346.

[7] LIANG F，SHEN C，WU F. An iterative BP-CNN architecture for channel decoding [J]. IEEE Journal of Selected Topics in Signal Processing，2018，12（1）：144-159.

[8] Wang X B，Zhang H Z，Li R，et al. Learning to flip successive cancellation decoding of polar codes with LSTM networks [C]//2019 IEEE 30th Annual International Symposium on Personal， Indoor and Mobile Radio Communications （PIMRC）. Istanbul：IEEE，2019：1-5.

[9] CARPI F，H?GER C，MARTAL? M，et al. Reinforcement learning for channel coding： Learned bit-flipping decoding [C]//2019 57th Annual Allerton Conference on Communication， Control， and Computing （Allerton）. Monticello：IEEE，2019：922-929.

[10] Ryan W，Lin S. Channel codes： classical and modern [M]. Cambridge university press，2009.

[11] BOSSERT M，HERGERT F. Hard-and soft-decision decoding beyond the half minimum distance---An algorithm for linear codes （Corresp.） [J]. IEEE transactions on information theory，1986，32（5）：709-714.

[12] KOU Y，LIN S，F(xiàn)OSSORIER M P C. Low-density parity-check codes based on finite geometries： a rediscovery and new results [J].IEEE Transactions on Information theory，2001，47（7）：2711-2736.

[13] Zhang J T，F(xiàn)OSSORIER M P C. A modified weighted bit-flipping decoding of low-density parity-check codes [J].IEEE Communications Letters，2004，8（3）：165-167.

[14] JIANG M，ZHAO C M，SHI Z H，et al. An improvement on the modified weighted bit flipping decoding algorithm for LDPC codes [J].IEEE Communications Letters，2005，9（9）：814-816.

作者簡介：高源浩（1997—），男，漢族，重慶銅梁人，碩士研究生在讀，研究方向：基于強(qiáng)化學(xué)習(xí)的線性分組碼譯碼方法。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于深度強(qiáng)化學(xué)習(xí)的置信傳播譯碼算法