華敏妤,張逸彬,孫金龍,桂冠
(南京郵電大學通信與信息工程學院,江蘇 南京 210023)
在工業(yè)物聯(lián)網環(huán)境下,工業(yè)數據流呈現數據量大、實時性強、信息傳輸多樣化等特點[1-3],難以進行識別和分類,從而會影響后序應用如故障檢測,且進一步會對無線通信的安全造成威脅。由此可見,在工業(yè)物聯(lián)網環(huán)境下特定輻射源識別(SEI,Specific Emitter Identification)[4]意義重大。
近年來,包括機器學習(ML,Machine Learning)和深度學習(DL,Deep Learning)在內的人工智能方法在信號處理領域取得了巨大成就。如自動調制識別[5-6]、信道狀態(tài)信息預測與反饋[7-8]、惡意軟件流量分類[9]、航班延誤預測[10]等應用。然而,這些基于ML或DL的技術都需要強大算力的支持。因此,本文著重關注C Chen等人提出的新型寬度學習方法[11-14]。該方法利用一個單層前向傳播網絡完成信號處理,不需要反向傳播來調整網絡權重,以此實現快速高效的訓練?;谄涮厥獾募軜嫞瑢挾葘W習能夠快速高效地進行網絡訓練,為大數據驅動任務的在線學習提供了一種新的解決方案。
在SEI領域,目前還沒有建立有關射頻信號特征的體系庫,而構建這樣一種射頻信號特征知識體系庫有助于為射頻信號識別提供切實的、有價值的信息參考,使特征信號結果具有更強的可遷移性。因此,本文考慮將知識圖譜(KG,Knowledge Graph)[15-19]技術引入SEI領域,并驗證該方案的可行性。KG本質上是語義網絡的知識庫,具有將復雜的、零散的知識形式化表示的能力。該技術通過數據挖掘、信息處理、知識計量和圖形繪制,對現實世界的事物及其之間的相互關系進行表征,實現了可視化信息,能夠更加清晰地調用獲取信息,提高了信息的利用效率與可解釋性。
綜上所述,在工業(yè)物聯(lián)網復雜的環(huán)境下,對數據量大、實時性強的多源信號,本文旨在提出一種基于信號特征知識圖譜與寬度學習架構的SEI方法,該方法能夠實現信號特征可視化表征存儲,同時,在識別性能和計算開銷方面相較于傳統(tǒng)的ML方法能夠有一定的提升。
本文旨在提出一種快速有效的SEI方法實現工業(yè)物聯(lián)網環(huán)境下射頻信號的識別。如圖1所示,特定輻射源識別系統(tǒng)由數據采集、KG、BLS架構以及設備識別四個部分組成。首先,利用輻射源信號采集設備采集數據,并進行數據預處理,生成可視化KG。然后,將接收到的PA信號作為KG-BLS架構的輸入,KG-BLS架構包括外部和內部信號處理節(jié)點。最后,利用KG-BLS識別不同的輻射源設備,發(fā)現未經授權的非法設備。
圖1 特定輻射源識別系統(tǒng)模型示意圖
基于上述系統(tǒng)模型,本文利用所采集的6個PA數據作為模擬信號數據集。接收到的射頻信號可以表示為:
由于SEI技術本質上是為了解決接收到的射頻信號與對應的PA標簽之間的匹配問題。本文假設數據集定義為,其中是對應不同輻射源設備的標簽,則需要解決的問題可以定義為:
式中,fSEI(·)表示用于識別接收信號的映射函數,代表xi的預測標簽類別,代表最優(yōu)權重系數。此外,本文定義一組信號被正確識別的概率為準確率,可以表示為:
則對應的錯誤率可以表示為:ξ=1-α。因此,可以得到需要優(yōu)化的目標函數為:
通過調整最有權重系數與fSEI(·)框架實現特定輻射源識別最大準確率與最小錯誤率。
由于目前大多數SEI算法都是基于ML算法框架實現的,而主流的SVM算法針對大規(guī)模訓練樣本會消耗大量的機器內存和運算時間。為此,本文提出可以采用寬度學習架構代替ML進行輻射源設備識別。在本節(jié)中,將詳細介紹所提出的KG-BLS架構SEI算法,包括輸入KG-BLS架構的信號特征、特征映射節(jié)點、增強節(jié)點以及KG-BLS輸出識別結果。
本文選取了均值、方差、標準差、峰度、偏度、四階累積量、六階累積量、最大值、最小值、中位數、峰峰值、整流平均值、均方根、方根幅值、波形因子、峰值因子、脈沖因子、裕度因子等作為時域提取的信號特征;選取了重心頻率、均方頻率、均方根頻率、頻率方差、頻率標準差、譜峭度的均值、譜峭度的標準差、譜峭度的峰度、譜峭度的偏度等作為頻域提取的信號特征,以此構建電磁信號知識圖譜。經人工特征遴選,所提取的上述特征針對于SEI問題均為有效特征。
(1)高階累積量
特征函數是研究隨機變量分布規(guī)律的一個重要工具。設隨機變量x的概率密度函數為f(x),則x的特征函數定義為:
將特征函數φ(v)對v求k階導數:
則x的k階矩定義為:
即x的k階矩為其特征函數φ(v)的k階導數在v=0的值。將特征函數取對數定義為累量生成函數,即累量生成函數為:
將累量生成函數ψ(v)的k階導數在v=0的值稱為x的k階累積量,表示為Ck,即:
高階累積量[20-21]不僅可以提取由于高斯性偏離引起的各種信息,而且能夠自動抑制高斯噪聲和對稱分布噪聲的影響,可以有效地對信號進行檢驗和表征。
(2)峰度與偏度
峰度[22]可以用來度量隨機變量概率分布的陡峭程度。公式如下:
式中:μ為均值,σ為信標準差。峰度的取值范圍為[1,+∞),峰度值越大,概率分布圖越高尖,峰度值越小,概率分布圖越矮胖。
偏度[22]可以用來度量隨機變量概率分布的不對稱性。公式如下:
式中:μ為均值;σ為信標準差。偏度的取值范圍為(-∞,+∞),當S<0時,概率分布圖左偏;當S=0時,表示數據相對均勻地分布在平均值兩側;當S>0時,概率分布圖右偏。
(3)重心頻率
重心頻率[23]可以用來描述信號在頻譜中分量較大的信號成分的頻率,反映了信號功率譜的分布情況。公式如下:
其中,P(k)為對應的功率譜值,fk為對應點的頻率幅值大小。低頻幅值較大時,重心距離原點較近。
(4)均方頻率與均方根頻率
均方頻率是信號頻率平方的加權平均值,可以用來描述功率譜主頻帶分布。公式如下:
均方根頻率是均方頻率的算術平方根,公式如下:
在2.1節(jié)針對所采集的原始射頻信號的實部和虛部分別進行信號特征提取后,本文進一步提出可以采用寬度學習架構代替深度學習進行輻射源設備識別。近年來,幾乎所有提出的數據驅動AI模型都可以描述為圖2所示的問題:
圖2 寬度學習系統(tǒng)模型示意圖
對于SEI問題,射頻信號是一維I/Q樣本,因此,數據矩陣{X|X∈Rn×l}可以被定義為:
其中,n和l分別為數據樣本的個數和每個樣本的長度。對應輻射源設備{Y|Y∈Rn×c}的真實標簽則可以被定義為:
其中,n和c分別表示樣本數目和對應的標簽類別數目。由此,最簡單的SEI問題可以表示為:
其中,對于已知的數據和對應的標簽,權重Wxy可通過反演運算求解,即:最終,可以認為Wxy適用于相同數據分布下的分類識別問題。即:如果待識別的射頻信號Xtest與已知數據X來自同一特定域D={χ,Pχ},則Xtest對應的標簽可識別為:
其中,χ(X*∈χ)是樣本域,Pχ是樣本域的邊際概率分布。
但是,該方法存在兩個嚴重的缺陷,可能使得該解法無效,即:
(1)對于龐大的矩陣X很難找到相應的逆運算,這可能導致X-1不存在;
(2)由于缺乏非線性運算,該方法無法適應復雜的問題。
針對上述缺陷,通常采用偽逆或嶺回歸來解決X-1不存在的問題。偽逆運算可以寫成:
其中,偽逆Wxy可視為可選權重。
嶺回歸則是對最小二乘回歸的補充,最小二乘回歸失去了無偏性,換取了較高的數值穩(wěn)定性,從而獲得了較高的計算精度。嶺回歸方法可以表示為:
針對缺乏非線性運算的問題,在Y H Pao等人[24-26]研究的基礎上提出如圖3所示的寬度學習KG-BLS架構。
圖3 寬度學習KG-BLS架構示意圖
在所提出的KG-BLS架構中,外部信號處理模塊用于對原始輸入射頻信號進行預處理,目的是對數據進行清洗、平滑、增強等操作,得到ex;特征映射節(jié)點Z是輸入數據ex的非線性變換,且Z由n個映射的特征窗口組成,Zi(i=1,2,…,n)表示第i個映射的特征窗口,定義為:
其中,φ(·)為非線性變換函數的激活函數,ex為外部信號處理模塊的輸出,Wzi和βzi分別為函數φ(·)對應的權重和偏置。對于寬度學習網絡,權重Wzi和偏置βzi都是隨機初始化的,且寬度學習網絡是一個單層的向前網絡,這也導致了結果的隨機性。此外,這里定義了兩個可調節(jié)的超參數,分別為特征映射的窗口長度m~和特征映射的窗口數量m,參數m~會影響Wzi的形狀,而參數m則決定了特征映射節(jié)點的形狀。
所提出的KG-BLS架構通過隨機矢量函數鏈接神經網絡,對特征映射節(jié)點輸出Z進行非線性變換得到增強節(jié)點H,則Hj(j=1,2,…,m)表示第j個增強節(jié)點窗口,定義為:
其中,ξ(·)表示增強節(jié)點變換函數的激活函數,Whj和βhj分別為ξ(·) 函數的變換權重和偏置。同樣地,這里也定義了一個可調節(jié)的超參數,為該增強層的節(jié)點數p,參數p決定了增強節(jié)點的最終輸出形狀。理論上,只要有足夠多的增強節(jié)點,網絡就可以有足夠的非線性能力來模擬任何函數,提高網絡的擬合能力。
基于此,KG-BLS架構可以通過偽逆求解對應輸出標簽類別,實現輻射源設備識別。偽逆求解公式如下:
綜上所述,所提出的KG-BLS架構是一個單層的僅前向傳播的網絡架構。此外,該架構不需要循環(huán)更新迭代網絡權值,只需要生成大量的計算節(jié)點,并完成一個偽逆操作,這些特征決定了KG-BLS架構是一種高效的網絡結構。最重要的是,其所有操作都是基于CPU平臺,大大節(jié)省了GPU算力成本。
本節(jié)主要介紹仿真實驗數據集、生成的信號特征KG、以及基于KG-BLS架構的SEI性能。首先生成實驗所需數據集,并對原始射頻信號進行預處理,構建信號特征KG。在此基礎上,將所提出的KG-BLS架構SEI算法與傳統(tǒng)的基于ML的SEI算法進行仿真對比,該比較基于相同的數據集。
使用的數據集是由6個功率放大器生成的連續(xù)信號樣本,為了構建統(tǒng)一范式特征數據庫,規(guī)定單個樣本數目為12 000,單個樣本讀取長度為12 000,以10 MHz的采樣頻率進行采樣,則每個PA解析得到的IQ信號均為6 000個樣本點。此外,為了使得數據集更加接近于真實環(huán)境下射頻信號樣本,設置先驗調制方式為16PSK,加入信噪比為10 dB的加性高斯白噪聲。進一步地,對相應PA接收的數據打上標簽,并為了保證格式的一致性將其轉化為one-hot形式。因此,生成的數據集中數據樣本為D∈C36000×6000×2,標簽樣本為L∈R36000×6。
利用Matlab對原始IQ信號根據實部和虛部分別進行時域特征提取和頻域特征提取,并對所提取的特征進行拼接,得到輸入KG-BLS架構的信號特征為∈R36000×56。為了進一步實現數據共享,完成數據集中控制,將其導入MySQL數據庫,并使用MySQL Workbench將提取的特征可視化,便于后續(xù)對數據進行增刪改操作,具體的MySQL Workbench可視化界面如圖4所示:
圖4 特征提取數據庫可視化界面示意圖
基于所構建的特征提取數據庫,利用先驗專家知識,通過人為建立實體和屬性之間的關系構建射頻信號KG,該圖譜利用Neo4j實現可視化表示。為了方便查看,隨機挑選36 000條數據中的一條進行Neo4j可視化表征,如圖5所示。
圖5 射頻信號知識圖譜可視化表征示意圖
將所提出的KG-BLS架構SEI算法與傳統(tǒng)的基于ML的SVM支持向量機分類算法進行仿真對比,首先介紹所提出的KG-BLS寬度學習架構SEI算法參數設置。
(1)KG-BLS架構參數設置
KG-BLS架構具體參數設置如表1所示:
表1 KG-BLS架構參數設置
(2)性能與開銷優(yōu)勢
在本節(jié)中,將展示所提出的KG-BLS架構在識別性能和計算開銷方面的優(yōu)勢。
如圖6 所示,從實驗結果可以發(fā)現,所提出的KG-BLS架構在進行輻射源設備識別時,準確度高達97.653%,精度遠超以訓練時間短聞名的SVM支持向量機SEI算法。在關注算法的SEI性能的同時,也應該關注算法的計算效率,而從計算開銷的角度也不難看出所提出的KG-BLS架構的優(yōu)越性。仿真實驗結果給出了相應的訓練時間和測試時間的比較,均以秒為單位。從仿真實驗結果中不難發(fā)現,所提出的KG-BLS架構在SEI任務中表現出了巨大的時間優(yōu)勢,尤其是在訓練過程中,訓練時間相較于SVM支持向量機方法節(jié)約了93.51%,分析原因為該架構是一個單層的僅前向傳播的網絡架構,不需要循環(huán)更新迭代網絡權值,從而大大降低了計算開銷。由此可見,KG-BLS架構具有良好的計算優(yōu)勢,特別是在CPU計算平臺上,同時,不僅限于CPU計算平臺,也為后續(xù)的GPU平臺計算開銷比較提供了可行的方案。
圖6 不同SEI方法的精度、訓練時間、測試時間比較示意圖
本文提出了一種基于信號特征KG與BLS架構的SEI方法。所提出的KG-BLS架構是一種單層的僅前向傳播網絡,主要依靠特征映射節(jié)點和增強節(jié)點的非線性變換來求解復雜的分類問題。為了使特征結果具有更強的可遷移性,實現對數據的集中控制,本文進一步結合MySQL數據庫和KG可視化表征存儲。仿真實驗結果表明,所提出的KG-BLS算法在識別性能和計算開銷方面相較于傳統(tǒng)的SVM支持向量機算法具有巨大的優(yōu)勢,尤其是在訓練過程中,計算開銷得到了指數級的下降,計算效率大幅提升,實現了簡單高效的輻射源設備識別。