王 鵬,田宗浩
(陸軍炮兵防空兵學院 基礎部,安徽 合肥 230031)
模糊時間序列[1~5](Fuzzy Time Series, FTS)在含糊、不確定信息處理中廣泛應用,并且具有良好的魯棒性和泛化性。近年來,廣義模糊時間序列預測模型被提出[6~9],其充分考慮樣本數(shù)據(jù)對模糊集的隸屬情況,把要考慮的隸屬度值作為預測模型的權重,建立不同層次的模糊邏輯關系,提高了模型的可解釋性和預測精度。但是,通過對廣義模型的深入研究發(fā)現(xiàn),只利用隸屬度函數(shù)描述樣本數(shù)據(jù)對模糊集的隸屬情況,在數(shù)據(jù)模糊化過程中不能形象地反應信息的含糊、不確定性。隨著人們對問題認識的不斷深入,樣本數(shù)據(jù)對模糊集的隸屬情況會表現(xiàn)出一定的猶豫程度,如何更好的表達樣本數(shù)據(jù)對模糊集的隸屬狀態(tài)成為一個研究的熱點問題。
Zadeh教授提出的直覺模糊集[10](Intuitionistic Fuzzy Set, IFS)是模糊集理論的擴展和補充,通過增加一個非隸屬度參數(shù)來描述事物“非此非彼”的模糊特性。直覺模糊集的數(shù)學描述更加符合事物的模糊本質,為處理不確定信息提供了新的研究思路。但是,如何確定IFS的隸屬度和非隸屬度函數(shù)呈現(xiàn)很大的復雜性,如何將樣本數(shù)據(jù)直覺模糊化和描述樣本數(shù)據(jù)對模糊集的隸屬情況成為模型改進的一個瓶頸問題。為此,本文結合文獻直覺模糊化的方法以及采用記分函數(shù)來描述樣本數(shù)據(jù)對模糊集的隸屬情況的思想,建立基于直覺模糊化的廣義模糊時間序列模型,并通過仿真實驗對模型的有效性和可行性進行驗證。
為建立模型需要,本節(jié)給出了IFS和FTS的相關定義:
定義1[10]Atanassov對直覺模糊集進行如下定義:A={
A為有限論域X上的直覺模糊集,如果A為正規(guī)直覺模糊集, 其滿足下面三條性質:
(1)0≤μA(x)≤1,0≤γA(x)≤1;
(2)0≤μA(x)+γA(x)≤1,0≤πA(x)≤1;
(3)μA(x)+γA(x)+πA(x)=1。
定義2實數(shù)集R的一個子集Y(t),(t=1,2,…)表示論域,在論域Y(t)上定義n個模糊集Ai(i=1,2,…,n),其隸屬函數(shù)為fAi(t),F(xiàn)(t)是fAi(t)的集合,則F(t)就定義為論域Y(t)上的一個模糊時間序列。
定義3假設狀態(tài)F(t+1)由F(t)轉移得到,則F(t+1)的一階模型可以表示為F(t+1)=F(t)R(t,t+1),則稱R(t,t+1)為F(t+1)和F(t)之間的模糊邏輯關系[13,14]。
根據(jù)上述FTS以及模糊邏輯關系的定義,廣義模型中兩個觀測值之間的模糊邏輯關系可以描述為:
設論域U被劃分為k個模糊子區(qū)間U={u1,u2,…,uk},相應的模糊集可以表示為A1,A2,…,Ak。則時刻觀測樣本數(shù)據(jù)xt對每個模糊集的隸屬度可以表示為:
同理,t+1時刻觀測樣本數(shù)據(jù)xt+1的模糊狀態(tài)表示為:
通過分析建立的k2個模糊邏輯關系,有些對模型的預測結果影響微乎其微,過多的考慮反而會引入一些冗余信息、增加模型的計算復雜度。為此,結合唯物辯證法中“突出主要矛盾”的思想給出定義4的特殊形式。
FTS的關鍵是挖掘歷史數(shù)據(jù)內部的模糊變化和不確定特性,掌握序列數(shù)據(jù)隨時間的變化規(guī)律,提高預測精度.IFS的“非此非彼”性,以及實際狀態(tài)變換的不確定性。因此,本文從數(shù)據(jù)直覺模糊化以及記分函數(shù)的選取入手,以文獻[6~8]建立的廣義模糊時間序列模型為基礎,構建基于直覺模糊化的模糊時間序列預測模型。
筆者為簡化建立模型的計算復雜度,采用等分論域劃分方法對數(shù)據(jù)進行處理。假設U為論域,xmax和xmin分別為觀測樣本的最大值和最小值,則
U=[xmax-σ1,xmax+σ2]
(1)
其中,σ1和σ2為合適的正整數(shù)。
結合數(shù)據(jù)的實際含義,用自然語言能夠表述的方法對論域U進行模糊劃分,其相應的模糊概念為Ai。由于人認知的模糊性,對論域的劃分不能夠太細,因此設定劃分的子區(qū)間個數(shù)為k,則子區(qū)間長度l為:
(2)
其中:D為論域范圍。
由此得論域劃分的結果為:
(3)
其中:u1=u2=…=uk=l,d1=xmin-σ1,dk+1=xmax+σ2,mi為第i個模糊子區(qū)間的中間值。
現(xiàn)實中給出的樣本數(shù)據(jù)大多為實數(shù)集,為此需要對樣本數(shù)據(jù)進行直覺模糊化處理以滿足建模的需要,本文通過在隸屬度和非隸屬度函數(shù)中增加猶豫度因子δ來描述樣本數(shù)據(jù)對模糊集的不確定性,如式(4)所示:
(4)
其中,xt為樣本數(shù)據(jù);l為等分論域區(qū)間間隔;mi為對應子區(qū)間的中間值;δ為猶豫度因子,表示數(shù)據(jù)隸屬集合的不確定程度。結合定義2,可以證明式(4)為正規(guī)直覺模糊集。當δ=0時,πi=0,直覺模糊化就退化為普通模糊化。
在傳統(tǒng)的數(shù)據(jù)模糊化過程中利用最大隸屬度原則來確定樣本數(shù)據(jù)所對應的模糊集,而在直覺模糊化過程中引入了非隸屬度函數(shù),并用直覺指數(shù)來描述數(shù)據(jù)的中立狀態(tài),極大地擴展了模糊集的表達能力,但是也就如何根據(jù)直覺模糊化的結果確定樣本數(shù)據(jù)所對應的模糊集增加了難度。在一般的直覺模糊變換中采用最多的為“ ∨(取大)-∧(取小)”運算,其特點是突出主要因素,忽略一些次要信息,也正是其丟失了一些信息,從而影響了模型的預測精度,使問題偏離實際。為此,本文在如何評判數(shù)據(jù)的隸屬問題時引入記分函數(shù)的概念,綜合考慮直覺模糊集中支持、反對以及中立三者之間的關系,使評判結果更加合理。
文獻[15~17]給出了大量有關記分函數(shù)的研究成果,其中李凡在文獻[17]中給出了記分函數(shù)的一般形式,其它記分函數(shù)均為式(3)的特例。
L(Ai)=θ1μAi+θ2γAi+θ3πAi
(5)
理論上講,式(5)充分考慮了直覺模糊集中支持、反對以及中立三個方面的信息,是很好的結果,但θ1,θ2,θ3三個系數(shù)的確定是一個難點,也制約了記分函數(shù)一般形式的推廣應用。為了解決記分函數(shù)參數(shù)難以確定的問題,文獻[15]給出了記分函數(shù)的特殊形式,并得到大量專家學者的認同。為此本文也擬采用式(6)為記分函數(shù)。
(6)
其中,式(6)的含義為:在直覺指數(shù)描述的中立狀態(tài)中,支持和反對的程度處于均衡狀態(tài),該方法簡單方便,易于處理,為問題的解決提供了新的思路。當πAi=0時,記分函數(shù)就退化隸屬度函數(shù)。
利用公式4將數(shù)據(jù)直覺模糊化,結合公式6得到觀測樣本數(shù)據(jù)對每個模糊子集的記分函數(shù)值向量(LA1(t),LA2(t),…,LAk(t)),以此描述對各個模糊集的隸屬程度。將觀測樣本對每個模糊集的記分函數(shù)值按照從大到小的順序的排序。設定要考慮的最高記分函數(shù)值個數(shù)為p,Lp(t)為記分函數(shù)值向量中的第p高的記分函數(shù)值,引入式(7)對記分函數(shù)值向量標準化:
(7)
標準化后的記分函數(shù)值向量不僅包括最高記分函數(shù)值所對應的位置信息,還包括其它要考慮記分函數(shù)值的位置信息,這樣對觀測樣本的初始信息的利用率較高。
根據(jù)標準化的記分函數(shù)值向量,利用公式(8)對記分函數(shù)值向量進行歸一化,為預測確定權重。
(8)
其中,k為劃分模糊概念個數(shù),α為模糊參數(shù),α∈(0,+∞)。
根據(jù)要考慮的最高記分函數(shù)值的個數(shù)以及第p個最高記分函數(shù)值對應的模糊概念Ai,利用3.3節(jié)建立的關系矩陣R(p),分別得到第p個最高記分函數(shù)值對應的預測值Fvalp(t+1)
(9)
其中,R(p)為第p大隸屬度對應的模糊邏輯關系矩陣。
利用得到P個預測值,結合式(8)歸一化后的記分函數(shù)值向量作為第P個最高記分函數(shù)值Fvalp(t+1)對應的預測值的權重值,為此可以得到最終的預測值為:
(10)
為了說明模型的有效性,利用均方誤差RMSE和平均百分比相對誤差MAPE來衡量模型的預測精度:
(11)
(12)
其中,xt為樣本數(shù)據(jù),F(xiàn)val(t)為其對應的預測值。
為驗證本文建立模型的有效性和科學性,遵照上文建立模型的過程,利用典型的Alabama大學22年的入學人數(shù)為實驗數(shù)據(jù),分別以Chen和Lee模型模糊邏輯關系矩陣建立的方法,與普通模糊化的廣義模型進行對比分析。
依據(jù)3.1節(jié)均等論域劃分方法,將樣本數(shù)據(jù)劃分為7個模糊子區(qū)間,以1000為區(qū)間長度,則每個子區(qū)間為:u1=[13000,14000],…,u7=[19000,20000]。
由于Alabama大學22年的入學人數(shù)為實數(shù)集,而模型要求樣本集為直覺模糊集,應用式(4)對樣本數(shù)據(jù)直覺模糊化,當δ=0.2時,直覺模糊化結果如下所示:
通過噴嘴性能曲線(圖2)和實際噴嘴霧化實驗效果(圖3)可以確定新噴嘴在霧化性能方面、噴射扇形角度和噴嘴流量線性比舊噴嘴優(yōu)異。
依據(jù)樣本數(shù)據(jù)的直覺模糊化結果,結合式(6)記分函數(shù)得到樣本數(shù)據(jù)對各個模糊集的記分函數(shù)值,結果詳見表1。
表1 樣本數(shù)據(jù)的記分函數(shù)值
為與普通模糊化廣義模糊時間序列模型對比分析的需要,假設p=2,α=1,依據(jù)表1中樣本數(shù)據(jù)對各個模糊集的記分函數(shù)值,可以得到兩個廣義模糊邏輯關系組FLR(1,1)和FLR(2,1):
(1)FLR(1,1)
A1→A1,A1→A1,A1→A2,A2→A3,A3→A3,A3→A3,A3→A3,A3→A4,A4→A4,A4→A4,A4→A3
A3→A3,A3→A3,A3→A3,A3→A3,A3→A4,A4→A6,A6→A6,A6→A7,A7→A7,A7→A6
(2)FLR(2,1)
A2→A3,A2→A3,,A2→A3,A2→A3,A4→A4,A5→A6,A5→A6,A7→A7,A6→A7,A6→A6
依據(jù)上述最高記分函數(shù)值以及次高記分函數(shù)值對應的模糊邏輯關系集合FLR(1,1)和FLR(2,1),分別應用Chen和Lee三種模糊邏輯關系矩陣的確定方法,得到相應的模糊關系矩陣為:
結合樣本數(shù)據(jù)隸屬于各個模糊子集的記分函數(shù)值(表1)以及設置的需要考慮的記分函數(shù)值個數(shù)p,分別利用式(7)和(8)對記分函數(shù)值進行標準化和歸一化,并將歸一化后樣本數(shù)據(jù)的記分函數(shù)值向量作為預測值的權重。參照Chen和Lee提出的預測規(guī)則,利用式(9)分別求出第p大記分函數(shù)值對應模糊子集對下一時刻的預測值Fvalp(t+1),然后采用式(10)求解出模型的最終預測結果。下面以Chen模型為例求解預測值,例如:1971年的樣本數(shù)據(jù)對各個模糊集的記分函數(shù)值向量為(0.7220,0.3220,0,0,0,0,0),觀測值對應的模糊集為A1和A2,歸一化后的記分函數(shù)值向量為(0.6916,0.3084,0,0,0,0,0),最高記分函數(shù)值對應的模糊子集為A1,其預測主要用到的模糊關系對應于RC(1)的第一行,此時的預測值Fval1(1972)為14000;次高記分函數(shù)值對應的模糊子集為A2,用到的主要模糊關系為RC(2)的第二行,此時的預測值Fval2(1972)為14500,則1972年的最終預測值為0.6916×14000+0.3084×14500=14500=14154。類似的可以得到其它各年以及Lee模型的預測結果,表2為普通模糊化廣義模型在p=2,α=1時預測結果和本文直覺模糊化廣義模型分別在Chen和Lee模型上應用的預測結果,最后兩行分別為對應模型的均方誤差和平均百分比誤差。
表2 p=2,α=1廣義模型預測結果對比
其中,Model1為p=2,α=1時普通模糊化的廣義Chen模型;Model2為p=2,α=1時普通模糊化的廣義Lee模型;Model3為p=2,α=1時直覺模糊化的廣義Chen模型;Model4為p=2,α=1時直覺模糊化的廣義Lee模型。
糊集的隸屬情況,其對應預測結果的精度得到提升。另外,圖1中模型3和4的預測結果曲線更貼近真實值,尤其是1987年到1989年的預測精度更有了顯著提升,進一步驗證了本文建立的直覺模糊化的廣義模型的有效性和可行性。
為研究猶豫度因子對樣本數(shù)據(jù)直覺模糊化的影響,表3和表4給出了不同猶豫度的情況下Chen和Lee模型的預測精度變化情況。
圖1 p=2,α=1時四種廣義模型預測結果對比
表3 不同猶豫度情況下Chen廣義模型預測精度表
表4 不同猶豫度情況下Lee廣義模型預測精度表
圖2 不同猶豫度情況下模型預測精度變化曲線
對表3和4分析可知,猶豫度因子的選取影響著模型的預測精度,當δ=0.2時,本文模型取得最好的預測結果, 直覺模糊化的廣義模型的可行性和有效性得到驗證。
但是通過圖1分析發(fā)現(xiàn),每年的預測結果精度提高并不是很明顯,這是由于式(6)記分函數(shù)在猶豫度所表達的中立狀態(tài)中,支持和反對的程度均衡引起的。顯然,當樣本數(shù)據(jù)越接近中間值時,樣本數(shù)據(jù)對相應模糊集的隸屬情況越明確,支持程度越高;相反,反對的程度越高。為此,合理的確定樣本數(shù)據(jù)對各個狀態(tài)的記分函數(shù)影響著模型的預測精度,能夠更加客觀地描述樣本數(shù)據(jù)“非此非彼”的模糊狀態(tài)。
文章分析了傳統(tǒng)FTS的局限性,引入直覺模糊集對FTS進行擴展。通過樣本數(shù)據(jù)直覺模糊化,加深了對數(shù)據(jù)模糊性的認識,較好的反映了數(shù)據(jù)“非此非彼”的不確定性本質;更加細膩的描述了模糊現(xiàn)象的本質。最后通過實例驗證和對比分析,驗證了本文所建立的模型有較好的預測性能。但是,文中也分析了本文建立模型存在的不足,指出猶豫度因子的選取影響著模型的預測精度。另外,本文用記分函數(shù)來描述樣本數(shù)據(jù)對模糊集的隸屬情況,如何合理的確定記分函數(shù)也是影響模型預測結果重要因素,這也將是今后研究的重點。