張 穎
(上海海事大學信息工程學院,上海 201306)
隨著經(jīng)濟發(fā)展和工業(yè)化進程的不斷推進,環(huán)境污染日益嚴重.過度排放使得富含氮、磷的污染物質(zhì)隨著江河不斷流入大海,導致海水中的藻類過度繁殖、赤潮等災害頻繁爆發(fā),給海洋環(huán)境以及周邊人們的生產(chǎn)生活帶來嚴重危害.動態(tài)監(jiān)測近海海水中藻類的繁殖狀況,可以有效了解海水水質(zhì)的變化情況,掌握周邊河流和陸地向海洋的排放狀況,預測藻類爆發(fā)性繁殖等災害的發(fā)生,并據(jù)此提前建立預警機制或采取相應的防范措施,盡可能減少災害所造成的損失.對藻類的動態(tài)監(jiān)測結果還可以作為近海環(huán)境動態(tài)評價的依據(jù),作為制定上下游整體經(jīng)濟發(fā)展規(guī)劃、統(tǒng)籌產(chǎn)業(yè)規(guī)劃的參考,以保證經(jīng)濟和社會的可持續(xù)發(fā)展.
大量研究[1-2]表明,藻類的生長與海水的硝酸鹽含量、光透度、溫度、含鹽度、氧溶量等十幾種理化因子的變化有著密切關系.葉綠素a是表征水體中藻類含量的最直接指標,也是反映水體中浮游生物量的綜合指標[3-4],根據(jù)其含量變化可以了解浮游植物生物量及其變化趨勢.本文將主成分分析法(Principal Component Analysis,PCA)與模糊反向傳播(Back Propagation,BP)網(wǎng)絡建模方法相結合,研究海水中各種理化因子與藻類濃度間的關系及規(guī)律,建立狀態(tài)預測模型,實現(xiàn)對近海水域藻類繁殖情況的預測.
PCA由霍特林于1933年正式提出,是一種通過降維技術把多個變量化為少數(shù)幾個主成分(稱為原變量的線性組合,即綜合變量)的統(tǒng)計分析方法.這些主成分通常表示為原始變量的某種線性組合,能夠反映原始變量的絕大部分信息.
通過數(shù)學變換,PCA使新變量——主成分彼此不相關,并選取少數(shù)幾個在方差總信息中比例較大的主成分來分析事物.按累計貢獻率的大小加權平均得出反映藻類生長的綜合變量,通過比較獲取在總信息量中比例較大的主成分作為系統(tǒng)預測模型的輸入變量.共設n個影響因子,每個影響因子取m次數(shù)據(jù),則可得原始數(shù)據(jù)矩陣X=(xij)n×m,其中xij為第 i個影響因子的第 j次取值,i=1,2,…,n,j=1,2,…,m.藻類生長影響因子的PCA分析步驟如下:
(1)影響因子數(shù)據(jù)的標準化處理.對每個xij進行歸一化處理,有
式中:xs為歸一化后的值,xij為實際值,xmax和xmin分別表示對第i個影響因子的n次取值的最大值和最小值.
(2)利用標準化后的數(shù)據(jù)計算影響因子間的相關因數(shù)矩陣
(3)求解相關因數(shù)矩陣R的特征值和特征向量.令|R-λI|=0,可得R的m個特征值λi(i=1,2,…,m)(主成分的方差),其中 λ1≥λ2≥…≥λm≥0.設 λ1,λ2,…,λm對應的特征向量為 α1,α2,…,αm,則第i個主成分的表達式為
(4)確定主成分.選取p(p<m)個主成分,使得累計貢獻率超過85%.
模糊BP網(wǎng)絡是按照模糊邏輯系統(tǒng)的運算步驟分層構造,并利用BP學習算法的模糊動態(tài)系統(tǒng).它不改變模糊邏輯系統(tǒng)的基本功能,如模糊化、模糊推理和反模糊化等,可以從海量數(shù)據(jù)中自動產(chǎn)生模糊規(guī)則,并具有自學習、自適應的能力.
一種具有在線學習功能的模糊BP網(wǎng)絡結構模型見圖1.該網(wǎng)絡分為3層,可以理解為一種3層前饋網(wǎng)絡[5-6],并可以用BP概念對其參數(shù)進行調(diào)整,從而達到使模糊邏輯系統(tǒng)進行學習的目的.
圖1 具有在線學習功能的模糊BP網(wǎng)絡結構模型
第2層的功能:獲取去模糊化表達式所需要的分子變量a和b.a為各規(guī)則下系統(tǒng)輸出模糊變量的高斯隸屬度函數(shù)的中心點值與zl的乘積之和,b為
取性能指標
式中:f為模型輸出;d為期望輸出.
按最速下降法調(diào)整網(wǎng)絡中的各權重因數(shù),即針對E對各權重因數(shù)在負梯度方向進行搜索調(diào)整,可獲得
式中:α 為學習步長,可選取 α=0.5;f=a/b,a=
第3層的功能:完成系統(tǒng)的去模糊化處理f=a/b,獲得系統(tǒng)輸出結果.
模糊BP算法分兩步:(1)對于給定的輸入xi,前向計算出模糊BP網(wǎng)絡系統(tǒng)的參數(shù)zl(l=1,2,…,M),以及a,b和f;(2)運用(5)~(7)式反向迭代,對和(i=1,2,…,n;l=1,2,…,M)等參數(shù)不斷進行調(diào)整,以獲得最小的系統(tǒng)輸出誤差.
通常,與藻類繁殖狀況相關的理化因子主要包括海水的硝酸鹽含量、溫度、光透度、含鹽度和氧溶量等,而葉綠素a的含量通常用來表征藻類繁殖狀況.[8-10]選擇長江口某海域,從2009年11月25日3時50分至2009年12月7日15時50分,每隔1 h采集一次上述理化因子數(shù)據(jù),共得到這一海域的300組數(shù)據(jù)作為實驗的樣本數(shù)據(jù).選擇該時間段采集數(shù)據(jù)的原因在于:根據(jù)歷年來這一海域海洋理化因子觀測資料發(fā)現(xiàn),該時間段是這一海域藻類繁殖狀況異常的多發(fā)期,因此以該時段的觀測數(shù)據(jù)作為模型訓練的樣本數(shù)據(jù)具有一定的代表性.上述因子中的海水光透度和溫度的狀態(tài)采集時間很短,而其他因子的測量牽涉到一些化學傳感器的反應時間問題,獲取時間長短各不相同,將采樣間隔定為1 h,可兼顧各個變量獲取時間的等間隔同步,所得到的樣本數(shù)據(jù)對模型構造及狀態(tài)預測具有實際意義.
首先構造預測系統(tǒng)的初始模型.選擇葉綠素a含量作為預測系統(tǒng)的輸出變量,硝酸鹽含量、光透度、溫度、含鹽量、氧溶量和前一采樣時刻的葉綠素a含量等6個變量作為系統(tǒng)的輸入變量,然后根據(jù)采樣數(shù)據(jù)對輸入變量進行主成分分析[4],求得相關因數(shù),結果見表1.
表1 各理化因子的相關因數(shù)
由表1可知,6個因子存在不同程度的相關性,其中:溫度與含鹽量和氧溶量的相關因數(shù)分別為0.553和 -0.691,含鹽量與氧溶量的相關因數(shù)為-0.654.由此可提取出彼此獨立的變量,篩選出有代表性的因子構造模糊BP網(wǎng)絡的輸入變量.
根據(jù)表1的相關因數(shù)和本文中主成分分析步驟(1)~(4),計算所篩選的6個變量因子相關因數(shù)矩陣R的特征值和貢獻率,結果見表2.
表2 主成分特征值和貢獻率
由表2可知,第1個和第2個因子的貢獻率分別為44.398%和20.447%,計算可得:前4個因子的累計貢獻率為90.409%.
由于通常情況下,因子累計貢獻率大于等于85%時就可以反映相關因子的影響,因此可以用前4個變量主成分代替原來的6個變量構造模糊BP網(wǎng)絡模型系統(tǒng).
將300組觀測數(shù)據(jù)中的前200組作為模型系統(tǒng)訓練數(shù)據(jù),其余100組作為測試數(shù)據(jù).在PCA基礎上,通過樣本訓練構建模糊BP網(wǎng)絡模型系統(tǒng),通過測試數(shù)據(jù)進行系統(tǒng)預測驗證.系統(tǒng)訓練及測試結果見圖2(圖中虛線為樣本數(shù)據(jù),實線為模型系統(tǒng)輸出數(shù)據(jù)).模糊BP網(wǎng)絡的誤差見表3.
圖2 模糊BP網(wǎng)絡訓練及預測結果
表3 模糊BP網(wǎng)絡的誤差
由圖2和表3可以看到,基于PCA的模糊BP網(wǎng)絡能夠較好地描述這一非線性系統(tǒng)對象.圖2中的預測結果表明,模糊BP網(wǎng)絡經(jīng)過訓練具有系統(tǒng)預測功能,能夠根據(jù)新輸入的數(shù)據(jù)較好地預測出系統(tǒng)輸出可能出現(xiàn)的結果.從對220~240測試點之間出現(xiàn)峰值的跟蹤情況可以看出,模糊BP網(wǎng)絡模型具有較好的泛化性能,能夠有效預測藻類繁殖的情況,這恰恰是該類預測系統(tǒng)最需要被關注的功能.從表3中的誤差分析結果可以看到,模糊BP網(wǎng)絡的測試誤差大于訓練誤差,但預測模型還是表現(xiàn)出一定的泛化性能,可較好地跟蹤測試數(shù)據(jù)的變化,預測出葉綠素a濃度在接下來的100個采樣周期內(nèi)的變化情況.
與葉綠素a濃度相關的理化因子有十幾種之多,但它們與葉綠素a濃度變化的關聯(lián)程度各不相同.如果都作為模型系統(tǒng)的輸入變量,將使模型維數(shù)很高、形式異常復雜,會使模型收斂速度慢、計算耗時大,不僅實時性差,而且模型的泛化性能也會降低.采用PCA可以獲取與系統(tǒng)輸出變量關聯(lián)最大的主成分變量,將它們作為模型的輸入變量,可以降低模型階次、縮短模型訓練時間、提高系統(tǒng)響應的實時性,結合模糊BP網(wǎng)絡的特點,可以使系統(tǒng)具有良好的泛化性能.
基于PCA的模糊BP建模方法可以有效降低非線性模型系統(tǒng)的復雜程度,提高模型計算的實時性,并使系統(tǒng)具有較好的泛化性能.本文運用這種模型描述海水各類理化因子與水體中葉綠素a含量之間的復雜映射關系,依此預測海水中藻類繁殖生長狀況.實驗結果表明,運用基于PCA的模糊BP網(wǎng)絡模型可以預測海水中葉綠素a的濃度,進而可以推測海水中藻類的生長狀況.
[1]LEE J H W,HUANG Y,DICKMAN M,et al.Neural network modelling of coastal algal blooms[J].Ecological Modelling,2003,159(2/3):179-201.
[2]MELESSE A M,KRISHNASWAMY J,ZHANG K Q.Modeling coastal eutrophication at Florida bay using neural networks[J].J Coastal Res,2008,24(2B):190-196.
[3]農(nóng)吉夫,黃文寧.基于主成分分析的BP神經(jīng)網(wǎng)絡長期預報模型[J].廣西師范學院學報,2008,25(4):46-51.
[4]高衛(wèi)峰,姚志紅.基于BP神經(jīng)網(wǎng)絡的藻類生長預測研究[J].微計算機信息,2005,21(10):167-169.
[5]朱武亭,劉以建.BP網(wǎng)絡應用中的問題及其解決[J].上海海事大學學報,2005,26(2):64-66.
[6]胡志武,程葆明,陳延才.基于BP神經(jīng)網(wǎng)絡的船員適任性評價模型[J].上海海事大學學報,2010,31(12):23-27.
[7]王立新.自適應模糊系統(tǒng)與控制——設計與穩(wěn)定性分析[M].北京:國防工業(yè)出版社,1995:35-56.
[8]陳艷攏,楊建洪,趙冬至,等.赤潮預報預警模型研究進展[C]//遼寧:中國海洋學會赤潮研究與防治專業(yè)委員會第二屆學術研討會,2007.
[9]劉載文,呂思穎,王小藝,等.河湖水華預測方法研究[J].水資源保護,2008,24(5):42-47.
[10]王洪禮,葛根,李悅雷.基于模糊神經(jīng)網(wǎng)絡(FNN)的赤潮預警預測研究[J].海洋通報,2006,25(4):36-41.