• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Logistic回歸變量篩選的BP神經(jīng)網(wǎng)絡(luò)及應(yīng)用

      2015-04-30 13:07朱賀張帆
      軟件導(dǎo)刊 2015年4期

      朱賀 張帆

      摘要摘要:BP神經(jīng)網(wǎng)絡(luò)是一種使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò),具有較高的精確度,但過多的預(yù)測(cè)變量會(huì)影響B(tài)P神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性。采用Logistic回歸變量篩選方法能在一定程度上提高分類準(zhǔn)確性,提高模型效率。對(duì)2013年滬深兩市A股分類評(píng)級(jí)進(jìn)行了研究,證明基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)提高了兩極類別分類的準(zhǔn)確性。

      關(guān)鍵詞關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Logistic回歸;變量篩選

      DOIDOI:10.11907/rjdk.151010

      中圖分類號(hào):TP301

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2015)004003504

      0引言

      人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)擬合是通過對(duì)輸入和輸出的分析,來更新各神經(jīng)元間的連接權(quán)重,是一種非線性的統(tǒng)計(jì)模型,具有較高的精確度[1]。但是,對(duì)于多種因素共同決定的復(fù)雜問題來說,由于影響因變量的預(yù)測(cè)變量過多,將全部預(yù)測(cè)變量加入模型進(jìn)行分析,一些重要性較低的變量噪聲就會(huì)影響整個(gè)模型的精度,達(dá)不到分析效果[2]。由此,本文提出一種優(yōu)化的基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)分析方法。

      1原理

      1.1BP神經(jīng)網(wǎng)絡(luò)

      BP神經(jīng)網(wǎng)絡(luò)是一種基于有監(jiān)督的學(xué)習(xí)、使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)[3]。BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力、較高的自學(xué)習(xí)和自適應(yīng)能力、將學(xué)習(xí)成果應(yīng)用于新環(huán)境和新知識(shí)的能力以及相當(dāng)?shù)娜蒎e(cuò)能力[4]。

      BP算法(Error Back Proragation)學(xué)習(xí)過程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過程組成。正向傳播時(shí),輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層[5]。若輸出層的實(shí)際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號(hào),此誤差信號(hào)即作為修正各單元權(quán)值的依據(jù)[6]。這種信號(hào)正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始進(jìn)行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[78]。如圖1所示,向量X為輸入層輸入向量,向量Y為隱層輸出向量,向量O為輸出層輸出向量,矩陣V為輸入層到隱層之間的權(quán)值矩陣,矩陣W為隱層到輸出層之間的權(quán)值矩陣。

      1.3基于Logistic回歸變量篩選的BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法

      使用IBM SPSS Modeler 15.0構(gòu)建模型[11]。用Logistic回歸分析方法擬合數(shù)據(jù),提取出符合變量篩選條件的預(yù)測(cè)變量[12]。構(gòu)建Logistic回歸模型時(shí)使用分區(qū)數(shù)據(jù)并為每個(gè)分割構(gòu)建獨(dú)立的模型;選用多項(xiàng)式過程,變量提取方法使用步進(jìn)法并使用主效應(yīng)模型,目標(biāo)基準(zhǔn)類別使用第一類別,迭代次數(shù)上限為20次。挑選出滿足給定顯著水準(zhǔn)的預(yù)測(cè)變量后,將這些預(yù)測(cè)變量加入數(shù)據(jù)流作為BP神經(jīng)網(wǎng)絡(luò)輸入層變量,目標(biāo)選擇創(chuàng)建標(biāo)準(zhǔn)模型,并使用BP算法建立MLP神經(jīng)網(wǎng)絡(luò)模型,停止條件為最大訓(xùn)練時(shí)間10分鐘,防止過度擬合集合設(shè)為30%。使用上述權(quán)值調(diào)整算法建立神經(jīng)網(wǎng)絡(luò)進(jìn)行分類分析,具體模型如圖2所示。

      2實(shí)例分析

      股票評(píng)級(jí)是股票資信評(píng)估的一個(gè)重要項(xiàng)目,它可以為投資者提供股票的風(fēng)險(xiǎn)信息,降低投資者的風(fēng)險(xiǎn)成本,是投資者決策的重要依據(jù)[13]。由于股票價(jià)格受到政治、經(jīng)濟(jì)、社會(huì)等多種因素影響,使用傳統(tǒng)的模型擬合往往無法達(dá)到令人滿意的效果[14],本文提出的模型正好能解決此難題。

      2.1數(shù)據(jù)準(zhǔn)備

      選取2013年度上證A股、深證A股所有股票,導(dǎo)出2013年1月4日至2013年12月31日間股票交易數(shù)據(jù),并從銳思數(shù)據(jù)庫、中國(guó)證券報(bào)網(wǎng)站、新浪財(cái)經(jīng)數(shù)據(jù)中心等平臺(tái)匯總上市公司四季度報(bào)(年報(bào))數(shù)據(jù)。其中年報(bào)數(shù)據(jù)保留盈利能力(包括凈資產(chǎn)收益等7項(xiàng)指標(biāo))、運(yùn)營(yíng)能力(包括應(yīng)收賬款周轉(zhuǎn)率等6項(xiàng)指標(biāo))、成長(zhǎng)能力(包括主營(yíng)業(yè)務(wù)收入增長(zhǎng)率等6項(xiàng)指標(biāo))、償債能力(包括流動(dòng)比率等6項(xiàng)指標(biāo))、現(xiàn)金流量(包括現(xiàn)金流量比等5項(xiàng)指標(biāo)),共計(jì)30項(xiàng)財(cái)務(wù)分析指標(biāo)。

      2.2數(shù)據(jù)清理

      由于樣本含量足夠大,將近2 500例,對(duì)于存在缺失值的實(shí)例,將整條數(shù)據(jù)刪除,不作分析使用。

      2.3數(shù)據(jù)變換及離散化

      (1)考慮到個(gè)別股票在2013年度存在除權(quán)除息,如果直接按市場(chǎng)價(jià)格計(jì)算股票漲跌幅,就會(huì)偏離實(shí)際情況,因此對(duì)這部分股票需要按實(shí)際收益計(jì)算其漲跌幅度。

      (2)計(jì)算出年度股票漲跌幅后,將其離散化處理,漲跌幅(-∞,-20%],(-20%,0%],(0%,20%],(20%,+∞)分別離散為0,1,2,3四個(gè)數(shù)值。

      2.4數(shù)據(jù)集成

      將股票價(jià)格及漲跌數(shù)據(jù),上市公司財(cái)務(wù)指標(biāo)數(shù)據(jù)集成至一個(gè)數(shù)據(jù)庫,最終得到有效數(shù)據(jù)1 856例。

      2.5建立模型

      構(gòu)建Logistic回歸模型,以步進(jìn)法通過似然比統(tǒng)計(jì)篩選得到7個(gè)預(yù)測(cè)變量,如圖3所示,再用此7個(gè)預(yù)測(cè)變量構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型如圖4所示。對(duì)照模型使用未使用變量篩選的人工神經(jīng)網(wǎng)絡(luò)。構(gòu)建模型時(shí),訓(xùn)練數(shù)據(jù)占80%,測(cè)試數(shù)據(jù)占20%。

      2.6實(shí)驗(yàn)結(jié)果

      評(píng)級(jí)總正確率較未使用變量篩選的模型,在培訓(xùn)和測(cè)試數(shù)據(jù)分區(qū)分別有了1.5和3個(gè)百分點(diǎn)的提高,分別為48.64%和50.52%;在評(píng)級(jí)=0時(shí)分別有了21和28個(gè)百分點(diǎn)的提高,分別為60.61%和64.63%,從ROC下方面積可以清晰看到這個(gè)變化,如圖7、圖8所示;在評(píng)級(jí)=3時(shí)培訓(xùn)分區(qū)有了5個(gè)百分點(diǎn)的提高,為82.8%,測(cè)試區(qū)沒有提高。但在評(píng)級(jí)=1或者評(píng)級(jí)=2時(shí)正確率卻有了不同程度的下降。

      2.7實(shí)驗(yàn)結(jié)果分析

      使用Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在對(duì)股票進(jìn)行評(píng)級(jí)時(shí),其評(píng)級(jí)正確率在漲幅最大區(qū)域因原模型準(zhǔn)確率已高達(dá)77%,提升幅度不是特別大,但在跌幅最大區(qū)域卻有了顯著提高。其原因在于篩選后的變量擴(kuò)大了影響程度較大的變量的影響,縮小了原有影響程度較小的變量產(chǎn)生噪聲的影響,使處于漲幅極端的兩類因變量特征更加明顯,其分類正確率自然會(huì)有提升。而對(duì)于處于漲幅中間區(qū)域的兩類因變量來說,因其漲跌幅較小,各種自變量的影響相互博弈,刪減自變量,對(duì)其正確分類必然產(chǎn)生較大影響,降低了分類正確率。但在實(shí)際生活中,人們關(guān)心的往往是如何使利益最大化,并盡可能減小風(fēng)險(xiǎn)成本。因此,本文所提出的模型價(jià)值顯而易見。

      3結(jié)語

      股票分級(jí)實(shí)驗(yàn)證明,基于Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在保證總體分類正確率穩(wěn)步提升的同時(shí)在極大、極小分類正確率上也有了顯著的提高。因此,在對(duì)極值分類有較高要求且預(yù)測(cè)變量較多的應(yīng)用領(lǐng)域,此模型可作為一種分類參考,以提高分類效率。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]SONG Y P, PENG X Q. New structure adapting neural network and its training method[J]. Control and Decision,2010,25(8):12651268.

      [2]韓玲.基于人工神經(jīng)網(wǎng)絡(luò)—多層感知器(MLP)的遙感影像分類模型[J].測(cè)繪通報(bào),2004(9):2931.

      [3]韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2006.

      [4]LI Y, WANG Z, AO Z G, et al.Optimization for breakout prediction system of BP neural network[J]. Control and Decision, 2010,25(3): 453456.

      [5]LUENGO J,GARCIA S,HERRERA F.A study on the use of imputation methods for experimentation with radial basis function network classifiers handling missing attribute values: the good synergy between RBFNs and EventCovering method[J].Neural Networks,2010,23(3):406418.

      [6]衛(wèi)敏,余樂安.具有最優(yōu)學(xué)習(xí)率的RBF神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[J].管理科學(xué)學(xué)報(bào),2012(4):5057.

      [7]LIU Y Y, STARZYK J A, ZHU Z. Optimized approximation algorithm in neural networks without overtting[J].IEEE Transactions on Neural Networks,2008,19(6):983995.

      [8]徐富強(qiáng),劉相國(guó).基于優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的變量篩選方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用[J],2012(3):206208.

      [9]石慶焱.一個(gè)基于神經(jīng)網(wǎng)絡(luò)—Logistic回歸的混合兩階段個(gè)人信用評(píng)分模型研究[J].統(tǒng)計(jì)研究,2005(5):4549.

      [10]謝遠(yuǎn)濤,楊娟,王穩(wěn). Logistic與分類樹模型變量篩選的比較——基于信用卡郵寄業(yè)務(wù)響應(yīng)率分析[J].統(tǒng)計(jì)與信息論壇,2011(6):96101.

      [11]王國(guó)平,郭偉宸,汪若君.IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M].北京:清華大學(xué)出版社,2014.

      [12]徐璐.判別分析Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在二分類問題中的模擬對(duì)比[J].中南財(cái)經(jīng)政法大學(xué)研究生學(xué)報(bào),2012(2):5964.

      [13]鄭睿穎,伍應(yīng)環(huán).神經(jīng)網(wǎng)絡(luò)在股票價(jià)格預(yù)測(cè)中的研究[J].計(jì)算機(jī)仿真,2011(10):393396.

      [14]黃亦瀟,邵培基,李菁菁.基于信息擴(kuò)散原理運(yùn)用人工神經(jīng)網(wǎng)絡(luò)識(shí)別股票級(jí)別[J].中國(guó)管理科學(xué),2004(5):611.

      責(zé)任編輯(責(zé)任編輯:杜能鋼)

      涿鹿县| 阳春市| 合阳县| 阳城县| 金川县| 西青区| 三明市| 白河县| 辽阳市| 黑龙江省| 西林县| 沙雅县| 九寨沟县| 甘洛县| 阆中市| 沐川县| 澜沧| 高清| 沙坪坝区| 同心县| 扎鲁特旗| 茶陵县| 高邑县| 阳江市| 岳阳县| 神木县| 基隆市| 平陆县| 张家港市| 荥阳市| 湖南省| 宾阳县| 温宿县| 海盐县| 郎溪县| 望江县| 金溪县| 清流县| 长岭县| 汉沽区| 兰西县|