• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談并行統(tǒng)計(jì)計(jì)算基礎(chǔ)下的金融數(shù)據(jù)

      2017-09-18 06:01:09趙哲衡
      科學(xué)中國人 2017年23期
      關(guān)鍵詞:數(shù)據(jù)處理長度樣本

      趙哲衡

      淺談并行統(tǒng)計(jì)計(jì)算基礎(chǔ)下的金融數(shù)據(jù)

      趙哲衡

      The University of Texas at Dallas

      在信息時(shí)代,金融數(shù)據(jù)處理已經(jīng)成為了困擾金融業(yè)的重要問題?;谶@種情況,本文對(duì)并行統(tǒng)計(jì)計(jì)算這種數(shù)據(jù)處理方法進(jìn)行了分析,然后結(jié)合金融數(shù)據(jù)特點(diǎn)對(duì)并行統(tǒng)計(jì)計(jì)算基礎(chǔ)下的金融數(shù)據(jù)處理問題進(jìn)行了探討。

      并行統(tǒng)計(jì)計(jì)算;金融數(shù)據(jù);處理

      引言

      作為信息密集型產(chǎn)業(yè),金融業(yè)的各項(xiàng)業(yè)務(wù)開展都要有數(shù)據(jù)提供支撐。但在信息時(shí)代背景下,金融業(yè)要面臨海量數(shù)據(jù)的處理問題,所以如何進(jìn)行金融數(shù)據(jù)的處理成為了行業(yè)關(guān)注的問題。利用并行統(tǒng)計(jì)計(jì)算方法,則能完成大量數(shù)據(jù)的并行處理,從而滿足金融數(shù)據(jù)的處理需求。因此,還應(yīng)加強(qiáng)對(duì)并行統(tǒng)計(jì)計(jì)算基礎(chǔ)下的金融數(shù)據(jù)分析,以得到科學(xué)的數(shù)據(jù)處理方法。

      1 并行統(tǒng)計(jì)計(jì)算分析

      所謂的并行統(tǒng)計(jì)計(jì)算,其實(shí)就是統(tǒng)計(jì)計(jì)算中使用的并行方法。利用該方法完成統(tǒng)計(jì)計(jì)算工作,需要將工作劃分為多項(xiàng)任務(wù),然后利用多個(gè)節(jié)點(diǎn)同時(shí)進(jìn)行各任務(wù)的處理,從而在較短時(shí)間內(nèi)完成計(jì)算工作。而就目前來看,并行統(tǒng)計(jì)計(jì)算能夠劃分為多個(gè)類型,并且需要使用相應(yīng)的統(tǒng)計(jì)算法策略。因此,想要應(yīng)用并行統(tǒng)計(jì)計(jì)算,還要掌握其分類和算法策略。

      1.1 并行統(tǒng)計(jì)算法分類

      在并行統(tǒng)計(jì)算法分類上,目前人們主要根據(jù)硬件類型支持進(jìn)行分類,即進(jìn)行Flynn分類或Schmidberger分類。從設(shè)備組成上來看,使用并行統(tǒng)計(jì)算法需要完成列陣處理器、并行多機(jī)和管道處理器的配置。利用管道處理器,可對(duì)計(jì)算機(jī)指令進(jìn)行分割,以獲得系列獨(dú)立步驟,然后利用列陣處理器完成列陣數(shù)據(jù)的并行高效處理[1]。所謂的并行多機(jī),則是擁有多處理器的機(jī)器或由多個(gè)機(jī)器構(gòu)成的集群,可用于進(jìn)行并行統(tǒng)計(jì)計(jì)算。按照Flynn分類,可以將數(shù)據(jù)劃分為單指令單數(shù)據(jù)分類、單指令多數(shù)據(jù)分類和多指令多數(shù)據(jù)分類這三種并行程序[2]。按照Schmidberger分類,可將并行統(tǒng)計(jì)計(jì)算機(jī)劃分為多核系統(tǒng)、多處理器系統(tǒng)、多計(jì)算集群等。

      1.2 并行統(tǒng)計(jì)算法策略

      利用并行統(tǒng)計(jì)計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)算法實(shí)施時(shí),需要采用并行統(tǒng)計(jì)的算法策略。目前,主要可以采用區(qū)域分解和任務(wù)分解兩種策略。采用區(qū)域分解策略,即對(duì)跨節(jié)點(diǎn)統(tǒng)計(jì)問題的計(jì)算區(qū)域進(jìn)行并行化處理,賦予各節(jié)點(diǎn)相應(yīng)統(tǒng)計(jì)數(shù)據(jù)子集,并在多項(xiàng)統(tǒng)計(jì)數(shù)據(jù)中應(yīng)用同一指令集[3]。而在分解區(qū)域的同時(shí),各處理器將負(fù)責(zé)各自任務(wù),然后一同進(jìn)行統(tǒng)計(jì)問題的處理。采用任務(wù)分解策略,即由各節(jié)點(diǎn)對(duì)相同代碼的不同部分進(jìn)行執(zhí)行,以實(shí)現(xiàn)任務(wù)分解。所以,各節(jié)點(diǎn)需要完成特定子任務(wù)的執(zhí)行,程序也將被劃分為協(xié)同任務(wù),各協(xié)同任務(wù)需進(jìn)行不同代碼的執(zhí)行。因此,采用該策略對(duì)各協(xié)同任務(wù)進(jìn)行了異步執(zhí)行,可以在不同計(jì)算機(jī)上完成統(tǒng)計(jì)任務(wù)。

      2 并行統(tǒng)計(jì)計(jì)算基礎(chǔ)下的金融數(shù)據(jù)

      2.1 金融數(shù)據(jù)的特點(diǎn)

      作為建立在數(shù)據(jù)基礎(chǔ)上的產(chǎn)業(yè),金融業(yè)每天都將產(chǎn)生大量的數(shù)據(jù)。通過對(duì)這些數(shù)據(jù)進(jìn)行分析、查詢和挖掘,才能完成潛在商機(jī)的挖掘,并為金融風(fēng)險(xiǎn)的管理提供數(shù)據(jù)依據(jù)。就目前來看,金融數(shù)據(jù)擁有幾大特點(diǎn)。首先,金融數(shù)據(jù)擁有較大的數(shù)據(jù)容量,最高能夠達(dá)到PB級(jí)別。其次,金融數(shù)據(jù)擁有較廣的數(shù)據(jù)范疇,各金融業(yè)務(wù)節(jié)點(diǎn)上都存在數(shù)據(jù),數(shù)據(jù)類型也較多,包含日志、圖片、文本、音視頻等,大多為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。再者,金融數(shù)據(jù)整體價(jià)值密度較低,因?yàn)閾碛羞^多的數(shù)據(jù),所以也有較大的數(shù)據(jù)噪聲,其中夾雜較多無價(jià)值的數(shù)據(jù)。最后,金融數(shù)據(jù)擁有較快的變化,所以要求迅速完成數(shù)據(jù)處理。受這些因素的影響,金融數(shù)據(jù)的統(tǒng)計(jì)處理有較高的數(shù)據(jù)處理響應(yīng)速度要求。但就目前來看,采用傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)計(jì)算方法已經(jīng)難以滿足金融數(shù)據(jù)處理的快速響應(yīng)需求。而分布式系統(tǒng)能夠提供并行統(tǒng)計(jì)計(jì)算算法,因此能夠用于進(jìn)行大量金融數(shù)據(jù)的統(tǒng)計(jì)計(jì)算處理,繼而更好的應(yīng)對(duì)信息時(shí)代給金融數(shù)據(jù)處理帶來的挑戰(zhàn)。

      2.2 金融數(shù)據(jù)的并行統(tǒng)計(jì)計(jì)算

      圖1 多元線性模型下的PLME

      2.2.1 多元線性模型下的金融數(shù)據(jù)處理

      在解決較多金融數(shù)據(jù)統(tǒng)計(jì)問題時(shí),多元線性模型得到了使用。對(duì)該模型進(jìn)行并行執(zhí)行,能夠有效完成統(tǒng)計(jì)問題的快速分解和分析。如下式(1),為多元線性模型,式中X∈Rn*p為已知矩陣,對(duì)秩進(jìn)行了給定,滿足rank(X)=p的條件,并且p≤n;Y∈Rn*1,為觀察得到的隨機(jī)向量;β∈Rp*1,指的是未知參數(shù)向量;σ2為正未知參數(shù),I∈Rn*n,指的是單位陣。

      在該模型中引入并行最大似然估計(jì)這一并行算法,則能分別將觀察樣本(X,Y)發(fā)送至r各節(jié)點(diǎn),然后利用隨機(jī)區(qū)域分解從各節(jié)點(diǎn)中獲得不同子樣本,并標(biāo)記為(Xi,Yi),然后進(jìn)行子樣本最大似然估計(jì)計(jì)算(MLE)。完成各節(jié)點(diǎn)估算,則能得到PLME。采用該算法,就是利用區(qū)域分解法解決統(tǒng)計(jì)問題。(如圖1)為多元線性模型下的PLME,po為子樣本長度。

      為驗(yàn)證利用該算法處理金融數(shù)據(jù)的有效性,可以破產(chǎn)數(shù)據(jù)為樣本。該數(shù)據(jù)集中包含4500個(gè)觀察樣本,被稱之為“Bank32nh”,擁有二維輸出值和31個(gè)連續(xù)屬性。利用R軟件完成數(shù)據(jù)擬合,則能發(fā)現(xiàn)在二維輸出上,相關(guān)系數(shù)R2為0.4156,連續(xù)屬性F統(tǒng)計(jì)量則為102.5。對(duì)其子集檢驗(yàn)PLME,使r取值7,并使rank(Ei)=ni=51,則能得到如下表1的相關(guān)系數(shù)序列。而31個(gè)屬性二維輸出值的PLME為關(guān)于子集估計(jì)含權(quán)為1/7的加權(quán)LS估計(jì),其擁有與加權(quán)LS相同的統(tǒng)計(jì)特性,每個(gè)估計(jì)相關(guān)系數(shù)都比MLE大[4]。利用PLME,則能完成最優(yōu)子集的查找。具體來講,就是將r取1,然后使子集為350:400,可得R2為0.861,其將比總體大。對(duì)PLME時(shí)間性能進(jìn)行驗(yàn)證,可以分別模擬對(duì)2、4、8、16個(gè)節(jié)點(diǎn)進(jìn)行變形處理,產(chǎn)生的樣本則來自于多元線性模型,樣本數(shù)為1.6*106,p為3,子樣本數(shù)為5000,可以得到處理2、4、8、16個(gè)節(jié)點(diǎn)分別能夠得到3.08、1.66、1.01和0.64s的時(shí)間性能[5]。由此可見,利用該算法進(jìn)行金融數(shù)據(jù)處理,可以得到與節(jié)點(diǎn)數(shù)近似線性的速度。而在p點(diǎn)增加的情況下,執(zhí)行時(shí)間也將有所增加。通過增加節(jié)點(diǎn)數(shù),則能減少大型數(shù)據(jù)集處理的時(shí)間成本。

      表1 子集相關(guān)系數(shù)

      2.2.2 并行自助模型下的金融數(shù)據(jù)處理

      目前,在對(duì)計(jì)量經(jīng)濟(jì)學(xué)問題進(jìn)行處理時(shí),可以使用并行自助法獲得數(shù)據(jù)處理的線性速度。現(xiàn)階段,盡管并行計(jì)算軟件已經(jīng)得到了廣泛使用,但是并行統(tǒng)計(jì)計(jì)算尚未得到廣泛使用。利用并行自助法,則能為金融數(shù)據(jù)處理提供新的途徑。具體來講,在金融數(shù)據(jù)為獨(dú)立同分布的樣本數(shù)據(jù)和相依樣本數(shù)據(jù)時(shí),可以利用并行自助模型進(jìn)行數(shù)據(jù)處理。因?yàn)檫@類樣本具有一定的統(tǒng)計(jì)特性,能夠通過使用并行自助得到最優(yōu)子樣本長度[6]。因?yàn)椋绻鹑跀?shù)據(jù)樣本長度過大,將導(dǎo)致數(shù)據(jù)處理花費(fèi)過多時(shí)間用于緩沖。如果樣本長度過小,采用重抽樣法進(jìn)行數(shù)據(jù)統(tǒng)計(jì)則將導(dǎo)致數(shù)據(jù)的相依性遭到破壞,進(jìn)而導(dǎo)致數(shù)據(jù)處理精度降低。所以在處理金融數(shù)據(jù)時(shí),需完成合理子樣本長度的選擇。采用并行自助估計(jì)算法,需要假設(shè)樣本X的函數(shù)為θ?,指的是參數(shù)θ的估計(jì)[7]。利用下式(2)和(3)對(duì)θ?的偏和方差進(jìn)行計(jì)算,則能得到樣本的并行自助估計(jì)。估計(jì)參數(shù)的均方誤差MSE則應(yīng)該為E(θ?-θ)2。而參數(shù)漸近均方誤差A(yù)MSE為漸近最優(yōu)子樣本長度的MSE,所以可以根據(jù)均方誤差得到最優(yōu)子樣本長度。

      為驗(yàn)證該種并行統(tǒng)計(jì)算法的有效性,可以使用瑞士養(yǎng)老基金基準(zhǔn)LPP2005REC數(shù)據(jù)為測(cè)試對(duì)象,并選取其中8列作為樣本數(shù)據(jù),具體包含LMI、SBI和SPI。如下表2,為各子樣本長度kBopt和RMSE。在B取值1200的條件下,最優(yōu)子樣本長度在11-18之間。而在B逐漸增加的條件下,樣本長度也將增加。所以,在金融數(shù)據(jù)為高維數(shù)據(jù)集的情況下,采用并行自助算法能夠有效減輕數(shù)據(jù)統(tǒng)計(jì)計(jì)算負(fù)擔(dān)[8]。而重抽樣的性能與子樣本長度有著直接的關(guān)系,因此在金融數(shù)據(jù)處理軟件中常常會(huì)將n1/3當(dāng)成是最優(yōu)子樣本長度,以提高重抽樣的速度性能,進(jìn)而使更多的金融數(shù)據(jù)統(tǒng)計(jì)問題得到解決。

      表2 樣本數(shù)據(jù)均值估計(jì)的最佳子樣本長度

      結(jié)論

      通過分析可以發(fā)現(xiàn),隨著信息時(shí)代的到來,在對(duì)金融數(shù)據(jù)進(jìn)行處理時(shí),還要利用并行統(tǒng)計(jì)計(jì)算完成海量數(shù)據(jù)的統(tǒng)計(jì)分析,才能盡快得到有用的數(shù)據(jù)信息,進(jìn)而為金融業(yè)創(chuàng)造更多的價(jià)值。因此,相信隨著相關(guān)技術(shù)的發(fā)展,并行統(tǒng)計(jì)計(jì)算將在金融業(yè)得到廣泛的應(yīng)用,進(jìn)而為金融數(shù)據(jù)的處理提供有力的技術(shù)支撐。

      [1]李浩光.數(shù)據(jù)挖掘在防范金融風(fēng)險(xiǎn)中的研究及應(yīng)用[J].計(jì)算機(jī)安全,2014,02:48-51.

      [2]董春,袁衛(wèi)平,亢曉琛,張玉,喬慶華.地理國情大數(shù)據(jù)基本統(tǒng)計(jì)的多進(jìn)程并行計(jì)算[J].測(cè)繪科學(xué),2014,05:13-17.

      [3]宋磊,尹俊平,陳虹.基于R的并行統(tǒng)計(jì)計(jì)算[J].計(jì)算機(jī)科學(xué), 2013,03:95-99.

      [4]李湛.金融大數(shù)據(jù)中的并行查詢[J].中國金融,2015,10:79-80.

      [5]代紅.基于Hadoop的金融智能云平臺(tái)分布式架構(gòu)[J].遼寧科技大學(xué)學(xué)報(bào),2016,03:223-228.

      [6]任媛媛,姚宏亮.嶺回歸視角下金融數(shù)據(jù)分析與算法實(shí)現(xiàn)[J].經(jīng)濟(jì)研究導(dǎo)刊,2013,32:206-209.

      [7]王泰積,劉威儀,李竹渝.金融區(qū)間數(shù)據(jù)的動(dòng)態(tài)回歸模型比較與實(shí)證檢驗(yàn)[J].統(tǒng)計(jì)與決策,2011,06:28-31.

      [8]柴志雷,張圓蒲.基于GPU的輪廓提取算法的并行計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2015,02:630-634.

      猜你喜歡
      數(shù)據(jù)處理長度樣本
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      1米的長度
      推動(dòng)醫(yī)改的“直銷樣本”
      愛的長度
      怎樣比較簡單的長度
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      柏乡县| 福建省| 永善县| 台江县| 阿勒泰市| 塘沽区| 兴安盟| 兴化市| 岳阳县| 泗水县| 许昌县| 电白县| 平利县| 麻江县| 福建省| 沿河| 乳山市| 枞阳县| 达拉特旗| 望都县| 邯郸市| 祁连县| 雷州市| 婺源县| 阿拉善左旗| 丰台区| 凯里市| 昌平区| 县级市| 安义县| 房产| 达州市| 晋中市| 河池市| 滦平县| 郧西县| 台南县| 浮山县| 安乡县| 靖州| 泾川县|