王寧 王澍 張江 陶鵬
摘? ?要:國(guó)網(wǎng)大數(shù)據(jù)中心泛在電力物聯(lián)網(wǎng)建設(shè)對(duì)電網(wǎng)金融數(shù)據(jù)分析的范圍、模式和方法提出了更高要求。面向大數(shù)據(jù)樣本研究,如何將大樣本相比于小樣本的獨(dú)有特征體現(xiàn)在分類(lèi)模型中值得深入探索。以供應(yīng)鏈的金融數(shù)據(jù)的分布特征為出發(fā)點(diǎn),研究了影響信用風(fēng)險(xiǎn)分類(lèi)模型的主要因素,進(jìn)而概括出信用數(shù)據(jù)的分布特征,并探討了進(jìn)一步的解決策略。通過(guò)電網(wǎng)供應(yīng)鏈金融大數(shù)據(jù)分布特征的分析,旨在研究出電網(wǎng)全業(yè)務(wù)數(shù)據(jù)后隱含的信息,以此來(lái)為信用風(fēng)險(xiǎn)模型的構(gòu)建提供了前提條件。
關(guān)鍵詞:泛在電力物聯(lián)網(wǎng);供應(yīng)鏈金融;信用風(fēng)險(xiǎn);國(guó)網(wǎng)大數(shù)據(jù);全業(yè)務(wù)數(shù)據(jù)中心;離群點(diǎn);多維
中圖分類(lèi)號(hào):F276.3? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2019)35-0131-02
引言
大數(shù)據(jù)(Big Data,BD)是經(jīng)濟(jì)發(fā)展到一定階段的產(chǎn)物,是時(shí)代的烙印。尤其是數(shù)字時(shí)代的今天,它促使具有多重媒介的電網(wǎng)業(yè)務(wù)數(shù)據(jù)出現(xiàn)大幅上漲。國(guó)際數(shù)據(jù)公司IDC(International Data Corporation)在《2018—2019年產(chǎn)業(yè)發(fā)展研究報(bào)告》中指出,2018年全球超大規(guī)模數(shù)據(jù)中心為430個(gè),較2017年增長(zhǎng)11%;全球業(yè)務(wù)市場(chǎng)整體規(guī)模達(dá)到6 253.1億元人民幣,較2017年增長(zhǎng)23.6%。大數(shù)據(jù)的到來(lái)在很大程度上改變了電網(wǎng)業(yè)務(wù)的發(fā)展,通過(guò)研究電網(wǎng)業(yè)務(wù)數(shù)據(jù)來(lái)側(cè)面反映出用戶行為規(guī)律,從而進(jìn)一步挖掘潛在的商業(yè)價(jià)值以及社會(huì)效益,也創(chuàng)造了更多具有價(jià)值的信息。Gantz等描述了包含體積(Volume)、變化(Variety)、速度(Velocity)、準(zhǔn)確性(Ve-racity)和價(jià)值(Value)五個(gè)方面內(nèi)容構(gòu)成的大數(shù)據(jù)5V理論。其在闡述5V理論時(shí)指出數(shù)據(jù)的準(zhǔn)確性及價(jià)值對(duì)于大數(shù)據(jù)而言是非常重要的,如果沒(méi)有數(shù)據(jù)分析出存儲(chǔ)、管理等方面的內(nèi)容的話,它將不會(huì)產(chǎn)生更多價(jià)值。
一、國(guó)家電網(wǎng)供應(yīng)鏈金融大數(shù)據(jù)分析的現(xiàn)狀
電網(wǎng)供應(yīng)鏈金融是以核心企業(yè)為中心的,并通過(guò)管理物資流、現(xiàn)金流以及信息流來(lái)將其上、下游各級(jí)供應(yīng)商及終端客戶緊密聯(lián)系在一起的一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。它是國(guó)家電網(wǎng)公司落實(shí)支持實(shí)體經(jīng)濟(jì)和小微企業(yè)的央企責(zé)任的重要手段,有助于優(yōu)化產(chǎn)業(yè)鏈條生態(tài)環(huán)境,提高供貨的穩(wěn)定性,降低網(wǎng)省公司經(jīng)營(yíng)風(fēng)險(xiǎn),同時(shí),供應(yīng)鏈金融作為新興信貸服務(wù)模式,將成為國(guó)家電網(wǎng)公司金融業(yè)務(wù)新的重要增長(zhǎng)點(diǎn)。電網(wǎng)供應(yīng)鏈融資比傳統(tǒng)的融資模式具有很多的不同點(diǎn),例如,評(píng)價(jià)指標(biāo)動(dòng)態(tài)多樣化、資金關(guān)系復(fù)雜等,這也使得電網(wǎng)供應(yīng)鏈融資的風(fēng)險(xiǎn)及風(fēng)險(xiǎn)評(píng)價(jià)有其獨(dú)特之處。通過(guò)大數(shù)據(jù)形成的多維評(píng)價(jià)機(jī)制能有效的對(duì)融資企業(yè)的數(shù)據(jù)進(jìn)行準(zhǔn)確、客觀的分析出其的資信狀況,這也在很大程度上為多數(shù)風(fēng)險(xiǎn)型的企業(yè)提供資金融通,從而推動(dòng)電網(wǎng)公司與融資企業(yè)的和諧發(fā)展。
二、融資企業(yè)信用數(shù)據(jù)的分布特征
(一)信用數(shù)據(jù)的非對(duì)稱性與不平衡性
信用評(píng)估其實(shí)可以直接將其看成是一個(gè)二元的客戶分類(lèi)問(wèn)題,信用樣本的獲取具有涌現(xiàn)性的特征,指的是在眾多樣本中往往很少發(fā)現(xiàn)具有價(jià)值的樣本點(diǎn),而且這類(lèi)樣本明顯少于其他類(lèi)樣本的集合被稱為不均衡樣本,總而言之,信用評(píng)估問(wèn)題具有很多特性,譬如類(lèi)別分布不平衡與不對(duì)稱等,這些對(duì)供應(yīng)鏈金融風(fēng)險(xiǎn)評(píng)價(jià)形成了較大制約。
(二)信用數(shù)據(jù)噪聲和離群點(diǎn)問(wèn)題
在信用風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域的發(fā)展中,噪聲和離群點(diǎn)會(huì)直接導(dǎo)致信息、周期性的統(tǒng)計(jì)誤差以及報(bào)告偏倚出現(xiàn)錯(cuò)誤。噪音離群點(diǎn)又被稱為孤立點(diǎn),它的存在會(huì)直接影響分類(lèi)精度。而引起噪音離群點(diǎn)產(chǎn)生的原因有多種,例如異類(lèi)、數(shù)據(jù)變量的固有變化、數(shù)據(jù)誤差等。因此,加強(qiáng)高維空間的數(shù)據(jù)稀疏問(wèn)題處理力度,并采用合適的度量方法,能有效促進(jìn)離群點(diǎn)的發(fā)展。
3.3信用數(shù)據(jù)的非線性多維特征
信用風(fēng)險(xiǎn)評(píng)估具有多個(gè)特點(diǎn),如高維、非線性等,而現(xiàn)有的分類(lèi)方法都是一句數(shù)據(jù)間的相似度來(lái)區(qū)分的,但是,如果是在高維的情況下,由于數(shù)據(jù)比較稀疏,會(huì)使得數(shù)據(jù)間的距離及區(qū)域米密度不再明顯,再加上高維度的數(shù)據(jù)對(duì)樣本數(shù)量的要求較高,當(dāng)數(shù)據(jù)維度大于樣本數(shù)量時(shí),就會(huì)出現(xiàn)擬合現(xiàn)象,因此,完善高維數(shù)據(jù)的本質(zhì)低維結(jié)構(gòu),就必須首先解決數(shù)據(jù)低維問(wèn)題。
三、解決信用數(shù)據(jù)分布特征的相關(guān)策略
(一)非均衡樣本的解決策略
1.基于數(shù)據(jù)分布的調(diào)整
數(shù)據(jù)準(zhǔn)備階段是進(jìn)行數(shù)據(jù)分布調(diào)整的基礎(chǔ),因此,必須做好數(shù)據(jù)準(zhǔn)備,才能通過(guò)數(shù)據(jù)分組或者數(shù)據(jù)采樣等方式促使類(lèi)別的平衡,以此來(lái)消除類(lèi)別的不平衡問(wèn)題。由于利用重抽樣算法來(lái)擴(kuò)充少量樣本會(huì)直接產(chǎn)生擬合問(wèn)題,無(wú)法得到理想的效果,于是Pierri等人就采用了案例控制匹配的Logistic回歸、平衡樣本的Logistic回歸和ROSE(Random Over Sampling)平衡樣本回歸這三種方法來(lái)解決非均衡信用數(shù)據(jù)所產(chǎn)生的分級(jí)問(wèn)題,并取得了很好的效果。這也同樣能適用于供應(yīng)商的信用評(píng)級(jí)問(wèn)題的解決。
2.基于監(jiān)督模型的策略
隨著機(jī)器研究的不斷發(fā)展,非均衡樣本通過(guò)采用神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)等方法也有了新的發(fā)展結(jié)果。Li等人通過(guò)在子空間與貝葉斯神經(jīng)網(wǎng)絡(luò)集成方面采用有別于傳統(tǒng)算法的深度方差網(wǎng)絡(luò)算法,使得非均衡樣本分類(lèi)產(chǎn)生了很好的識(shí)別效果。主要區(qū)別在于考慮了樣本數(shù)據(jù)的異類(lèi)以及類(lèi)間的異構(gòu)性,從而將貝葉斯模型引入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架中,將每次得到的特征聚類(lèi)到與判別相關(guān)子空間中,進(jìn)而使得非平衡訓(xùn)練數(shù)據(jù)上的同質(zhì)性以及異質(zhì)性得到自行調(diào)整。
3.基于半監(jiān)督模型的策略
上述方法都屬于監(jiān)督式分類(lèi)建模的研究范式,也就是通過(guò)研究前進(jìn)行有效架設(shè),將已存在一定數(shù)量的標(biāo)簽樣本用于建立風(fēng)險(xiǎn)評(píng)價(jià)模型中,但是,由于供應(yīng)鏈融資具有很強(qiáng)的復(fù)雜性,使得在此過(guò)程中難以得到大量的準(zhǔn)確標(biāo)簽樣本,而只能依靠少量的標(biāo)簽數(shù)據(jù)是難以得到數(shù)據(jù)分布規(guī)律的。肖進(jìn)等人提出了可在隨機(jī)子空間的半監(jiān)督模型,它是通過(guò)采用RSS的方法來(lái)得到基本分類(lèi)器,繼而從大部分的無(wú)類(lèi)別標(biāo)簽中通過(guò)選擇性的標(biāo)記適合的樣本加入到原始訓(xùn)練集中,從而在最終的訓(xùn)練集中得出訓(xùn)練分類(lèi)模型,進(jìn)而進(jìn)行有效分類(lèi)。通過(guò)在三個(gè)客戶信用評(píng)估數(shù)據(jù)集的分析顯示RSSCI模型具有監(jiān)督式集成信用評(píng)估模型與半監(jiān)督協(xié)同訓(xùn)練信用評(píng)估模型所沒(méi)有的優(yōu)勢(shì)。
4.基于集成處理的策略
實(shí)驗(yàn)表明,通過(guò)對(duì)多個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行有效集成,使每個(gè)分類(lèi)模型都發(fā)揮自身的優(yōu)勢(shì),比進(jìn)行單個(gè)分類(lèi)模型更能提高客戶信用評(píng)估模型的準(zhǔn)確性。集成處理策略時(shí)通過(guò)大量的弱分類(lèi)器組成的一個(gè)強(qiáng)分類(lèi)器。Sun等人認(rèn)為,特征選擇與非均衡數(shù)據(jù)處理在信用分析評(píng)價(jià)中都占據(jù)著至關(guān)重要的地位,為此提出了以T-test和分支定界(B&B)為基礎(chǔ)的動(dòng)態(tài)特征選擇模型,并以SSVMS和多重判別分析為基分類(lèi)器進(jìn)行集成以處理非均衡樣本模型(IOMCE)。通過(guò)實(shí)驗(yàn)表明IOMCE模型對(duì)于處理分均衡信用樣本的分類(lèi)問(wèn)題具有積極作用,而且通過(guò)特征選擇模型進(jìn)行分類(lèi)數(shù)據(jù)維度的降低也能很好地提高非均衡信用樣本的評(píng)價(jià)精度。
(二)噪聲離群點(diǎn)的解決策略
1.基于統(tǒng)計(jì)學(xué)的探測(cè)方法
偏離平均值μ超過(guò)3σ的數(shù)據(jù)點(diǎn)指的是在正態(tài)分布中的一個(gè)具有代表性的離群點(diǎn),由于其與標(biāo)準(zhǔn)差存在很大的差異,對(duì)此賈潤(rùn)達(dá)等人認(rèn)為,可通過(guò)一種叫做魯棒M估計(jì)的間歇過(guò)程離群點(diǎn)檢測(cè)方法來(lái)進(jìn)行檢測(cè),進(jìn)而將積分方程離散化將問(wèn)題轉(zhuǎn)換成最小二乘優(yōu)化問(wèn)題,并通過(guò)Tikhonov正則化方法及魯棒M估計(jì)來(lái)減少對(duì)參數(shù)的影響,然后分析出各個(gè)樣本點(diǎn)的權(quán)值,從進(jìn)而實(shí)現(xiàn)對(duì)離群點(diǎn)的檢測(cè)。研究表明,即使在不確定的市場(chǎng)環(huán)境中,創(chuàng)造性的財(cái)務(wù)與自由裁量權(quán)所造成的噪聲與違約概率會(huì)自然形成同向關(guān)系,反之則會(huì)形成反向關(guān)系。
2.基于聚類(lèi)的探測(cè)方法
聚類(lèi)的方法使用來(lái)檢測(cè)對(duì)象與簇之間的關(guān)系的,因此,可將數(shù)據(jù)集分成類(lèi)簇,如若出現(xiàn)一個(gè)對(duì)象不屬于任何類(lèi)簇,可以將其視為基于聚類(lèi)的離群點(diǎn)。Jiang等[6]人認(rèn)為可通過(guò)兩階段聚類(lèi)離群檢測(cè)算法進(jìn)行檢測(cè),這一算法認(rèn)為可在第一階段運(yùn)用K-means算法將所有的數(shù)據(jù)集轉(zhuǎn)變成若干個(gè)干聚類(lèi),然后在第二階段運(yùn)用多個(gè)簇類(lèi)將其質(zhì)心代替后形成新的數(shù)據(jù)庫(kù),進(jìn)而使質(zhì)心間的距離作為權(quán)值成為最小生成樹(shù),去掉長(zhǎng)邊,形成多棵子樹(shù),將較少結(jié)點(diǎn)的樹(shù)對(duì)應(yīng)的小簇類(lèi)可將其視為離群點(diǎn)。
3.基于距離的探測(cè)方法
為了彌補(bǔ)以上算法的不足,王習(xí)特等[7]人通過(guò)新型的分布式計(jì)算方法,通過(guò)運(yùn)用BDSP(Balance Driven Spatial Partitioning)空間數(shù)據(jù)的方法來(lái)處理數(shù)據(jù),再通過(guò)采用BDSP算法引出一種BOD(BDSP-basedOutlierDetection)離群點(diǎn)檢測(cè)算法得出每個(gè)計(jì)算結(jié)點(diǎn)本地。該算法是通過(guò)R樹(shù)索引從而進(jìn)行大量過(guò)濾得出本地離群點(diǎn)進(jìn)而得出候選集,然后采用BDSP的快編碼規(guī)則確定相鄰塊,從而得出最終結(jié)果。
4.基于密度的探測(cè)方法
上述關(guān)于離群點(diǎn)的含義及剔除都是縱觀全局得到的,由于實(shí)際數(shù)據(jù)集結(jié)構(gòu)更加復(fù)雜,由此還存在數(shù)據(jù)觀察異常的現(xiàn)象,它被稱為局部離群點(diǎn)。Breunig等[8]認(rèn)為可通過(guò)離群點(diǎn)的檢測(cè)算法,將其鄰域的考察數(shù)據(jù)點(diǎn)與其近鄰“密度”的差異來(lái)斷定其是否是離群點(diǎn),從而將這種存在的差異點(diǎn)稱為局部離群因子(LocalOutlierFactor,LOF)。
結(jié)語(yǔ)
綜上所述,信貸增量控制導(dǎo)致實(shí)體經(jīng)濟(jì)缺乏充分發(fā)展的條件,尤其是供應(yīng)商融資方面的影響,國(guó)家電網(wǎng)公司的供應(yīng)鏈金融發(fā)展的實(shí)質(zhì)就是解決發(fā)展處于劣勢(shì)地位的供應(yīng)商的融資問(wèn)題,是“三型兩網(wǎng)”世界一流能源互聯(lián)網(wǎng)企業(yè)建設(shè)的重要探索,是提高金融業(yè)務(wù)創(chuàng)新活力、推進(jìn)產(chǎn)融協(xié)同、服務(wù)公司高質(zhì)量發(fā)展的重要舉措。由于供應(yīng)鏈融資具有評(píng)估指標(biāo)靈活多樣以及資金關(guān)系較為復(fù)雜等特點(diǎn),加上我國(guó)供應(yīng)商的密集性、多樣性從而使得數(shù)據(jù)分析方法較為復(fù)雜。大數(shù)據(jù)是通過(guò)分析供應(yīng)商的信用特征,從而梳理出主要影響因素,進(jìn)而對(duì)評(píng)估數(shù)據(jù)中的的內(nèi)在信息與研究?jī)r(jià)值進(jìn)行分析,最終為構(gòu)建更優(yōu)越的電網(wǎng)供應(yīng)鏈金融平臺(tái)奠定理論基礎(chǔ)。
參考文獻(xiàn):
[1]? 肖進(jìn),薛書(shū)田,黃靜,等.客戶信用評(píng)估半監(jiān)督協(xié)同訓(xùn)練模型研究[J].中國(guó)管理科學(xué),2016,24(6):124-131.
[2]? 賈潤(rùn)達(dá),劉俊豪,毛志忠,等.基于魯棒M估計(jì)的間歇過(guò)程離群點(diǎn)檢測(cè)[J].儀器儀表學(xué)報(bào),2013,34(8):1726-1731.
[3]? 王習(xí)特,申德榮,白梅,等.BOD:一種高效的分布式離群點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):36-50.