馮可豪,李白萍*,蔡藝軍,周遠國
(1.西安科技大學 通信與信息工程學院,西安 710000; 2.廈門理工學院 光電與通信工程學院,廈門 361000)
2維材料是指單個或多個原子層晶體結構,具有機械柔性和易于集成等特點,與硅(Si)或砷化鎵(GaAs)等3維材料相比,2維材料具有許多獨特的光學特性[1-2]。石墨烯作為一種2維等離子體材料,其高導電性和光學高透明度特性適用于透明電極和激光器[3-4],另一方面可設計為光電探測器、光學傳感器等應用[5-6],其中多層石墨烯結構可實現(xiàn)完美吸收等特性。利用石墨烯根據(jù)需求設計光子超材料結構需要通過電磁模擬來解決復雜的逆問題,現(xiàn)階段的納米光學器件為實現(xiàn)更強大的功能使得其規(guī)模和復雜性不斷增加,通常采用迭代運算的傳統(tǒng)數(shù)值模擬方法,例如有限元法(finite element method,F(xiàn)EM)、時域有限差分法(finite-difference time-domain,F(xiàn)DTD)等方法[7-9],依賴于數(shù)值模擬軟件,如COMSOL,HFSS等。但是由于逆問題的高度非線性,這些數(shù)值模擬已難以滿足光學結構設計的需求,并且此類方法會造成大量的時間資源和計算資源的消耗。因此,采用優(yōu)化算法可以解決此類問題,包括拓撲優(yōu)化[10]、遺傳算法[11]、水平集方法[12]等,然而優(yōu)化算法受到搜索性質的限制,隨著問題難度的增加,難以解決逆問題,且易陷入局部最優(yōu)值。
深度學習使用深層次的神經(jīng)網(wǎng)絡采用非線性轉換對模型的抽象化進行數(shù)據(jù)處理與計算,在計算機視覺、語音識別、數(shù)據(jù)挖掘[13]等領域不斷發(fā)展的同時,已成功應用于計算機科學以外的物理研究中,例如頻譜預測[14]、天線設計[15]、多層納米粒子[16]等,形成了革命性和有效性的方法。神經(jīng)網(wǎng)絡的基本思想是由預定義的訓練模型來預測當前問題,通過不斷地迭代更新權重參數(shù)來取得更優(yōu)的預測效果,其反向傳播算法適用于結構繁雜且參數(shù)眾多的數(shù)據(jù)集。神經(jīng)網(wǎng)絡已被廣泛應用于電磁學的設計及預測問題中,以更高的精度與效率來解決此類問題,如濾波器、傳感器、超表面等結構設計中。對于更為復雜的光學結構設計,如光子晶體[17]、超材料[18]、硅光子器件[19]等仍處于起步階段,由于其性能的復雜性和設計的靈活性還未形成系統(tǒng)化的深度學習解決方案。
在本文中,將神經(jīng)網(wǎng)絡應用于石墨烯和氮化硅的多層交替薄膜超材料結構的預測中,輸入為入射角等于85°的多諧振完美吸收光譜,得到輸出基于石墨烯的超材料結構參量。神經(jīng)網(wǎng)絡通常采用1階梯度法訓練,存在兩個分支:隨機梯度下降法(stochastic gradient descent,SGD),如動量隨機梯度法(momentum-SGD)、內斯特羅夫加速梯度法(Nesteroff acceleration gradient,NAG),以及自適應學習率方法,如自適應法(adaptive method,Adam)、自適應梯度法(adaptive gradient,Adagrad)、自適應約束法(adaptive bound,AdaBound)、均方根傳播法(root mean square propogation,RMSProp)等方法。然而相對于文本及圖像識別,納米結構參數(shù)預測的采樣空間相對較小,且難以獲得大量樣本,常見的神經(jīng)網(wǎng)絡往往存在陷入局部最優(yōu)解以及測試集依賴于訓練模型的缺陷。采用SGD作為網(wǎng)絡的優(yōu)化器進行訓練,無法得到穩(wěn)定且準確的預測結果,采用多種自適應學習率方法進行訓練,并對多種方法的預測結果進行了比對,Adam優(yōu)化算法的預測結果較為穩(wěn)定和準確,但預測精度仍然無法達到預期。自適應信念法(adaptive belief,AdaBelief)在圖像分類和語言建模等應用場景中比其它方法的收斂速度快、準確率更高,表現(xiàn)出較高的穩(wěn)定性,并提高了樣本的質量。本文中將AdaBelief優(yōu)化器運用于石墨烯基超材料的設計中,對采用Adam,AdaBelief,SGD優(yōu)化算法的神經(jīng)網(wǎng)絡的預測結果進行了對比與評估。預測結果表明,基于AdaBelief優(yōu)化器的殘差神經(jīng)網(wǎng)絡(residual neural network,RESNET)[20]收斂速度更快且預測精度更高,該網(wǎng)絡展現(xiàn)了在超材料和超器件設計中的強大能力。
構建基于石墨烯的超材料結構來評估該改進型神經(jīng)網(wǎng)絡在結構設計中的能力。如圖1所示,該結構由多個無限寬的石墨烯和氮化硅交替層構成,設計空間為每層氮化硅的厚度,用d1,d2,…,dn來表示從底部至頂部的各層氮化硅厚度。
Fig.1 Alternating multilayer film structure consisting of graphene and Si3N4
激發(fā)光以入射角θ及特定偏振進入半球棱鏡與結構體中,電介質的光學厚度控制在可見光與紅外區(qū)域的亞波長范圍內,其目的是產生所需光學響應(如某一波長范圍的完美光吸收)。
單層石墨烯光子晶體的介電常數(shù)ε為:
ε=ε0+iσ/Δω
(1)
式中,ε0表示真空介電常數(shù),Δω表示入射光的角頻率的變化量,石墨烯層表面電導率σ可用Kubo公式計算:
σ(ω,μc,Γ,T)=σintra+σinter
(2)
(3)
(4)
f(ξ,μc,T)={exp[(ξ-μc)/kBT]+1}-1
(5)
(6)
式中,δi=2πNidicosθi/λ為入射光的相位因子,其中Ni,di,θi,ηi分別表示第i層石墨烯的復折射率、厚度、入射光角以及傾斜光學導納,λ為波長。吸收光譜可由底層到空氣的光學導納Z=X/Y來表示,其中Y和X的矩陣如下:
(7)
因此,吸收光譜可如下表示:
(8)
式中,η0和ηc表示空氣和棱鏡的光學導納;*表示共軛。
使用改進型殘差神經(jīng)網(wǎng)絡實現(xiàn)石墨烯超材料結構的反設計,如圖2所示。通過特征矩陣法根據(jù)各項光學參數(shù)計算得到的吸收光譜樣本集H={hi,i=1,2,…,n},預測結構體的厚度參數(shù)D={di,i=1,2,…,n}。該網(wǎng)絡底層映射表示為H(x),使得堆疊的非線性層適用于F(x)=H(x)-x,則原始映射被設置為F(x)+x。采用快捷方式跳過多層網(wǎng)絡進行連接并執(zhí)行身份映射,輸出被添加到堆疊層的輸出中,通過反向傳播算法不斷更新參數(shù)進行端到端的訓練,降低了計算的復雜性,有效避免梯度彌散和梯度爆炸的現(xiàn)象。除了改善殘差神經(jīng)網(wǎng)絡以更好地實現(xiàn)超材料的反設計,還引入了AdaBelief優(yōu)化算法以實現(xiàn)網(wǎng)絡的快速收斂并保證訓練的穩(wěn)定性,克服神經(jīng)網(wǎng)絡陷入局部最優(yōu)解的缺陷,AdaBelief優(yōu)化算法與其它算法如自適應約束法、控制自適應法、自適應權重法等算法進行了廣泛的比較,如利用殘差神經(jīng)網(wǎng)絡和稠密連接網(wǎng)絡等在Cifar數(shù)據(jù)集進行圖像分類與識別,以及在佩恩樹庫數(shù)據(jù)集上采用長短期記憶單元網(wǎng)絡進行語言建模等實驗。結果證明,AdaBelief優(yōu)化算法的學習曲線的收斂速度和精確度均優(yōu)于其它優(yōu)化算法,算法細節(jié)如下所示。
Fig.2 Structural illustration of a residual neural network(the input depicts as the optical response, and the output depicts the material structural parameters)
首先定義參數(shù)gt,mt和st。
(9)
(10)
θt更新為:
(11)
(12)
Adabelief使用損失函數(shù)的曲率來改進網(wǎng)絡的訓練,當gt與mt偏差很大時,優(yōu)化器采用較短的步長;當gt接近預測值mt時,優(yōu)化器采用較大的步長。由以上分析可知,AdaBelief通過梯度的不斷變化來更新方向。
訓練神經(jīng)網(wǎng)絡的目的是獲取基于石墨烯的超材料結構參數(shù)。以85°入射角s偏振為例,采用特征矩陣法計算了50000個特定范圍內的隨機厚度參數(shù)所對應的吸收光譜訓練樣本,每個樣本共有從t1~t256共256個采樣點,額外計算1000個隨機厚度的測試樣本,定義了吸收光譜的預測誤差函數(shù)P以評估算法的有效性和精確性,如下所示:
(13)
式中,n,hi,xi分別代表預測樣本總數(shù)、目標吸收光譜和預測吸收光譜的離散值,該公式為每個樣本所得預測誤差,總預測誤差值為各個樣本預測誤差的平均值,以該公式來評估AdaBelief,Adam,SGD 3種優(yōu)化算法在該實例中的預測結果。
圖3為AdaBelief神經(jīng)網(wǎng)絡、Adam神經(jīng)網(wǎng)絡、SGD神經(jīng)網(wǎng)絡的學習曲線。每時期的預測誤差是樣本總誤差的平均值,在200個時期中,SGD優(yōu)化器的網(wǎng)絡的預測誤差曲線在前10個時期下降至25%左右后并無繼續(xù)下降的趨勢,說明在輸入吸收光譜預測結構體參數(shù)的小采樣空間的實例中,SGD優(yōu)化器的性能較差,無法取得理想的預測結果。Adam優(yōu)化器在200個時期中,預測誤差曲線并未持續(xù)下降,始終在5%左右振蕩,網(wǎng)絡不夠穩(wěn)定;而AdaBelief優(yōu)化器的預測誤差曲線在經(jīng)過30個時期的振蕩之后,呈穩(wěn)定下降趨勢,經(jīng)過200個時期的訓練,預測誤差降至2.5%左右,這說明該優(yōu)化器在超材料結構體逆設計中收斂更快、精度更高。
Fig.3 Learning curve of AdaBelief, Adam and SGD neural network
對采用AdaBelief優(yōu)化算法、Adam優(yōu)化算法、SGD優(yōu)化算法的網(wǎng)絡的預測光譜進行了分析與比較。如圖4所示,采用特征矩陣法所計算的吸收光譜在761nm處的吸收率達到99%以上,采用SGD優(yōu)化算法的網(wǎng)絡預測氮化硅納米薄膜厚度參數(shù),預測吸收光譜與目標光譜在波段和吸收峰值中均產生了明顯偏差,無法實現(xiàn)結構體的精確設計。而Adam優(yōu)化算法和AdaBelief優(yōu)化算法的預測結構參數(shù)所生成的吸收光譜與目標吸收光譜的重合度較高,并可明顯看出,引入偏差校正項的AdaBelief優(yōu)化算法的精度更高,說明該算法所預測光譜與特征矩陣法獲得的目標光譜具有一致性。
Fig.4 Target absorption spectrum of a single absorption peak and the prediction absorption spectrum based on AdaBelief, Adam and SGD networks
采用特征矩陣法構造出了在紅外波段具有多完美吸收峰的吸收光譜,如圖5和圖6所示。在304nm和1764nm左右達到95%以上的吸收率,在250nm,455nm和2628nm處達到95%以上的吸收率,在雙吸收峰光譜和三吸收峰光譜的對比圖中,AdaBelief優(yōu)化算法的吸收光譜曲線和目標吸收光譜曲線的重合度最高,Adam次之,SGD存在顯著偏差。
Fig.5 Target absorption spectrum of double absorption peak and the prediction absorption spectrum based on AdaBelief, Adam and SGD networks
Fig.6 Target absorption spectrum of multi absorption peak and the prediction absorption spectrum based on AdaBelief, Adam and SGD networks
隨機抽取了其中一組預測結果進行了分析和比較,如表1所示。表中給出了薄膜結構體交替層中5層氮化硅的目標厚度與3種算法網(wǎng)絡的預測厚度,由表中可以看出,采用AdaBelief的網(wǎng)絡所預測厚度的平均誤差低于其它兩種算法所預測結果,進一步說明了AdaBelief算法在基于石墨烯的超材料結構體逆設計中的高精度。
Table 1 Target structural parameters and prediction structural parameters and average error based on AdaBelief, Adam, SGD networks
首先構建了基于AdaBelief優(yōu)化算法的改進型殘差神經(jīng)網(wǎng)絡,將其運用于基于石墨烯超材料的結構設計中,其次使用特征矩陣法獲得多完美吸收峰的目標光譜作為網(wǎng)絡的訓練集與測試集。基于AdaBelief的神經(jīng)網(wǎng)絡的預測結構參數(shù)的平均誤差小于其它方法的平均誤差,并且所對應光譜表現(xiàn)出與目標光譜的高度一致性,預測結果表明,基于AdaBelief的神經(jīng)網(wǎng)絡有效地解決了在小采樣空間內網(wǎng)絡易陷入局部最優(yōu)解使得預測誤差無法持續(xù)下降的問題,加快了網(wǎng)絡的收斂速度并保證超材料結構參數(shù)預測的高精度。該方法為其它基于2維材料的光學結構設計提供了新思路。