李賽++鄒麗華
摘 要:本文采用無導師監(jiān)督的SOM網(wǎng)絡,對全國31個省市自治區(qū)的人民生活質量進行了綜合評價,在沒有先驗信息的條件下,不采用人為主觀賦予各指標權重的辦法,轉而運用自組織神經(jīng)網(wǎng)絡自組織競爭學習的網(wǎng)絡方法來進行賦值、計算和評價,消除了主觀確定各指標的權重的主觀性,得到的結果較為符合各省市自治區(qū)的實際結果。
關鍵詞:聚類分析;K-Means聚類;系統(tǒng)聚類;自組織神經(jīng)網(wǎng)絡;人民生活質量
一、引言(研究現(xiàn)狀)
自改革開放以來,我國生產(chǎn)力極大發(fā)展,生活水平總體上得到了提高。但是,地區(qū)間的發(fā)展不平衡始終存在,而且差距越來越大,不同地區(qū)人民的生活水平也存在顯著的差異。據(jù)此,我們利用自組織人工神經(jīng)網(wǎng)絡方法對全國31個省市自治區(qū)的人民生活水平質量進行分析評價。
二、指標選取與預處理
1.指標選取
遵循合理性、全面性、可操作性、可比性的原則,從以下5個層面共11個二級指標構建了人民生活質量綜合評價指標體系(如下表所示)。
人民生活質量綜合評價指標體系
2.指標預處理
(1)正向指標是指標數(shù)據(jù)越大,則評價也高,如人均可支配收入,人均公園等。
正向指標的處理規(guī)則如下(1):
Kohonen 自組織神經(jīng)網(wǎng)絡
輸入層是一個一維序列,該序列有N個元素,對應于樣本向量的維度;競爭層又稱為輸出層,該層是由M′N=H個神經(jīng)元組成的二維平面陣列其神經(jīng)元的個數(shù)對應于輸出樣本空間的維數(shù),可以使一維或者二維點陣。
競爭層之間的神經(jīng)元與輸入層之間的神經(jīng)元是全連接的, 在輸入層神經(jīng)元之間沒有權連接,在競爭層的神經(jīng)元之間有局部的權連接,表明競爭層神經(jīng)元之間的側反饋作用。訓練之后的競爭層神經(jīng)元代表者不同的分類樣本。
自組織特征映射神經(jīng)網(wǎng)絡的目標:從樣本的數(shù)據(jù)中找出數(shù)據(jù)所具有的特征,達到能夠自動對樣本進行分類的目的。
2.網(wǎng)絡反饋算法
自組織網(wǎng)絡的學習過程可分為以下兩步:
(1)神經(jīng)元競爭學習過程
對于每一個樣本向量,該向量會與和它相連的競爭層中的神經(jīng)元的連接權進行競爭比較(相似性的比較),這就是神經(jīng)元競爭的過程。相似性程度最大的神經(jīng)元就被稱為獲勝神經(jīng)元,將獲勝神經(jīng)元稱為該樣本在競爭層的像,相同的樣本具有相同的像。
(2)側反饋過程
競爭層中競爭獲勝的神經(jīng)元會對周圍的神經(jīng)元產(chǎn)生側反饋作用,其側反饋機制遵循以下原則:以獲勝神經(jīng)元為中心,對臨近鄰域的神經(jīng)元表現(xiàn)為興奮性側反饋。以獲勝神經(jīng)元為中心,對鄰域外的神經(jīng)元表現(xiàn)為抑制性側反饋。
對于競爭獲勝的那個神經(jīng)元j,其鄰域內的神經(jīng)元在不同程度程度上得到興奮的側反饋,而在Nj(t)外的神經(jīng)元都得到了抑制的側反饋。Nj(t)是時間t的函數(shù),隨著時間的增加,Nj(t)圍城的面積越來越小,最后只剩下一個神經(jīng)元,而這個神經(jīng)元,則反映著一個類的特征或者一個類的屬性。
3.評價流程
(1)對n個輸入層輸入神經(jīng)元到競爭層輸出神經(jīng)元j的連接權值為(6)式:
(2)獲勝鄰域j*(t),設定為鄰域函數(shù)(h)t,表示第i個神經(jīng)元與獲勝神經(jīng)元之間的距離函數(shù)。S2會隨著學習的進行而減小,從而鄰域在學習初期很寬,隨著學習的進行會變窄。因此,權值隨著學習的進行從較大幅度調整向微小幅度調整變化。鄰域函數(shù)產(chǎn)生了有效的映射作用。其中鄰域函數(shù)的表達式如下(8)式所示
分析結果如下:
第一類:北京,天津,遼寧,上海,江蘇,浙江,廣東
第二類:福建,山東,湖北,重慶,陜西
第三類:河北,山西,內蒙古,吉林,黑龍江,江西,湖南
第四類:安徽,河南,廣西,海南,四川,貴州,云南,西藏,甘肅,青海,寧夏,新疆基于分類結果,得知第一類中的各地區(qū)的人民生活質量最高,主要分布于東部沿海。這些地區(qū)共同點是:工業(yè)和經(jīng)濟文化實力雄厚,基礎設施建設齊全,醫(yī)療衛(wèi)生事業(yè)、教育水平高度發(fā)達。
對于第二類,他們的生活質量相對于第一類次之,但比第三、四類的評價則較優(yōu)。福建是東南部沿海的經(jīng)濟大省,山東、湖北、陜西具有較強的工業(yè)實力和較高的教育水平;重慶市內地唯一的直轄市,境內有長江干道,這五省的共同他點在于其工業(yè)實力較強,教育水平發(fā)達,基礎設施齊全。
第三類中的諸多省份均是我國農(nóng)業(yè)和采礦業(yè)大省,相比前兩類,他們則是缺少雄厚的工業(yè)基礎,但有良好的氣候條件社會環(huán)境和豐富的自然資源。
第四類,造成這些地區(qū)的人民生活質量較差的原因多且復雜。就安徽、河南而言,自古以來河南是華夏文化的中心,安徽是有名的產(chǎn)量大省,是什么因素限制了它們生活水平的發(fā)展還值得考究。廣西,海南,貴州,云南,西藏,等的一個共性在于自然條件的劣勢。廣西,海南自古以來是官員貶庶之地;貴州、則云南困于云貴高原,交通向來閉塞;西藏、青海更是由于自然環(huán)境惡劣而在各方面的發(fā)展較為欠缺;寧夏、甘肅、新疆則是身居內地,生活用水奇缺,種植業(yè)較為薄弱,多以畜牧為主,自古有甘涼不毛之地之說。四川則居于天府之國,但人口基數(shù)龐大且發(fā)展不平衡,所以人民生活質量也不是很高。
總體而言,此分類結果與實際基本吻合;但受變量體系等因素的干擾,部分地區(qū)仍然存在疑問,具體原因還值得進一步探討。
五、模型評價
網(wǎng)絡結構簡單、自組織自學習能力強和學習速度快是自組織網(wǎng)絡所具有的優(yōu)點,在樣本識別上具有很強的優(yōu)勢。此外,它將輸出表現(xiàn)成一維或者二維的概率密度分布,因此運用越來越來廣泛。對于實際中復雜和高維度的數(shù)據(jù),該網(wǎng)絡具有較好的適應性和識別性。它本屬于一種無監(jiān)督的自主競爭學習的神經(jīng)網(wǎng)絡,網(wǎng)絡根據(jù)樣本的特征進行自組織學習競爭、聚類,將高維數(shù)據(jù)映射到低維度的二維平面,能夠較好地在保持數(shù)據(jù)拓撲結構不變的情況下進行數(shù)據(jù)壓縮和識別。其聚類的客觀性,更適用于于處理海量未知數(shù)據(jù)問題。以此同時,由于模型的可視化,在人們開發(fā)和構建新型網(wǎng)絡變得更加簡潔,易于被人們接受。
自組織神經(jīng)網(wǎng)絡的二維拓撲映射圖的可視性很強,通過映射圖,可以直接觀察到數(shù)據(jù)的特征。同時,清晰的了解其分類情況。但是,傳統(tǒng)自組織特征映射神經(jīng)網(wǎng)絡采用了向量內積、歐氏距離函數(shù)等確定輸入樣本最為相似的連接權向量,這就要求數(shù)據(jù)必須是連續(xù)的,若數(shù)據(jù)是離散的或者數(shù)據(jù)為順序型或者屬性型,則就不能勝任聚類這項任務。
參考文獻:
[1]張建萍,劉希玉.基于聚類分析的K-means算法研究及應用[J].計算機應用研究,20075(5):166-168.
[2]么枕生.用于數(shù)值分類的聚類分析[J].海洋湖沼通報,1994(2):2-12.
[3]劉慧,馮乃琴,南書坡,王偉.基于粗糙集理論和SOFM神經(jīng)網(wǎng)絡的聚類方法[J].計算機與應用軟件,200926(8):228-230.
[4]郭偉業(yè),趙曉丹,龐英智,奇志.數(shù)據(jù)挖掘中SOM神經(jīng)網(wǎng)絡的聚類方法研究[J].情報科學,2009,7(6):874-876.
[5]王家偉,周浩宇,同慶,田宏杰,賈花萍.基于MATLAB的自組織特征映射網(wǎng)絡的實際應用[J].電子設計工程,2013,21(6):47-48.
[6]郭麗華.人工神經(jīng)網(wǎng)絡基礎[M].哈爾濱:哈爾濱工程大學出版社,2008.
[7]王國梁,何曉群.多變量經(jīng)濟數(shù)據(jù)統(tǒng)計分析[M].西安:西安陜西科學技術出版社,1993.
[8]宋浩遠.基于模型的聚類方法研究[J].重慶科技學院學報,2008(7):71-71.
[9]何曉群.多元統(tǒng)計分析[M].3版.北京:北京中國人名大學出版社,2012.
[10]韓力群.人工神經(jīng)網(wǎng)絡理論、設計及運用[M].北京:北京化學工業(yè)出版社,2007.
作者簡介:李賽(1990.05- ),男,漢族,河北省石家莊市,研究
生碩士,云南大學