• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)中的不平衡數(shù)據(jù)問題研究

      2016-08-13 05:10:33凌衛(wèi)家施永益夏洪濤吳尚遠(yuǎn)趙燕波
      關(guān)鍵詞:電費(fèi)分類

      凌衛(wèi)家 施永益 夏洪濤 吳尚遠(yuǎn) 趙燕波

      摘 要:隨著電網(wǎng)信息化和電力公司營(yíng)銷數(shù)據(jù)分析的發(fā)展,各級(jí)電力公司越來越多地對(duì)基于量化分析方法的電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)研究產(chǎn)生興趣,并取得了不少進(jìn)展。在這一研究領(lǐng)域內(nèi),較多的關(guān)注點(diǎn)集中在預(yù)測(cè)模型的選擇應(yīng)用,而事實(shí)上,電費(fèi)風(fēng)險(xiǎn)數(shù)據(jù)的一個(gè)重要特點(diǎn)是其不平衡性。本文致力于對(duì)電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)中的不平衡數(shù)據(jù)問題進(jìn)行研究,嘗試比較幾種處理方法,并基于某電力公司實(shí)際案例,進(jìn)行試驗(yàn)比較。

      關(guān)鍵詞:風(fēng)險(xiǎn)預(yù)測(cè) 分類 電費(fèi) 不平衡數(shù)據(jù)

      電力營(yíng)銷是電力供應(yīng)與需求兩側(cè)的直接銜接環(huán)節(jié),也成為電力數(shù)據(jù)分析應(yīng)用最為豐富的一類業(yè)務(wù)。作為電力公司主營(yíng)業(yè)務(wù)收入來源,電費(fèi)回收及時(shí)性直接關(guān)系到公司的生存和發(fā)展。因此,對(duì)電費(fèi)回收進(jìn)行精益化的管理也是電力公司一直關(guān)注的重點(diǎn)之一。近年來,各級(jí)電力公司開展了很多基于數(shù)據(jù)挖掘分析的電費(fèi)回收管理研究與實(shí)踐,致力于對(duì)風(fēng)險(xiǎn)管理的方法和預(yù)測(cè)模型的探討。本文所屬的研究正是對(duì)電力大用戶的電費(fèi)欠費(fèi)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),采用統(tǒng)計(jì)分析軟件SAS和數(shù)據(jù)挖掘軟件WEKA進(jìn)行數(shù)據(jù)處理、分析、挖掘,在研究過程中發(fā)現(xiàn),電力用戶的繳費(fèi)數(shù)據(jù)是典型的高度不平衡數(shù)據(jù):其中的欠費(fèi)發(fā)生比例不超過3%。因此著重于探討電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)中的不平衡數(shù)據(jù)問題。

      一、不平衡數(shù)據(jù)處理原理

      不平衡數(shù)據(jù)問題是發(fā)生在二分類或多分類問題上的不同類之間樣本大小不均衡現(xiàn)象。通常的分類問題,各類樣本量大小不會(huì)嚴(yán)格相同,但小的差異不會(huì)對(duì)分類效果評(píng)估造成問題,但當(dāng)數(shù)據(jù)不平衡明顯,通常是達(dá)到4:1時(shí),便可能導(dǎo)致結(jié)果誤差。由此,產(chǎn)生了不平衡數(shù)據(jù)分類問題及相應(yīng)的處理方法。鑒于課題研究的電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)是一個(gè)二分類問題,本文所討論的是二分類設(shè)定下的不平衡數(shù)據(jù)分類問題,基本工具是混淆矩陣,如表 1所示。

      二、電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)中不平衡分類問題的處理

      本文基于某電力公司的電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè),建立業(yè)務(wù)邏輯、獲取并清洗的數(shù)據(jù),通過處理和選擇的變量,進(jìn)行不平衡數(shù)據(jù)分類問題試驗(yàn)。試驗(yàn)中采用SMOTE過采樣方法,Boosting算法、以及基于邏輯回歸的集成算法LogitBoost方法[15]。其中的弱分類器,采用決策樹、支持向量機(jī)(Support Vector Machine, SVM)、邏輯回歸等不同方法。使用不同的采樣策略、不同集成算法、不同弱分類算法和不同測(cè)試方法的組合進(jìn)行試驗(yàn)。結(jié)果如表 2所示。

      2.在采樣后欠費(fèi)vs不欠費(fèi)占比接近1:2

      3.訓(xùn)練集拆分66%,剩余的為測(cè)試集

      4.基于訓(xùn)練集的交叉驗(yàn)證。使用邏輯回歸模型,命中率較高而覆蓋率較低,且試驗(yàn)1、2和3的表現(xiàn)未存在明顯差異,說明邏輯回歸未存在明顯的過擬合現(xiàn)象。應(yīng)用第一種SMOTE采樣(采樣后欠費(fèi)vs不欠費(fèi)占比接近1:1)后再構(gòu)建邏輯回歸模型,使用新數(shù)據(jù)集測(cè)試(試驗(yàn)6)與另外兩種測(cè)試方法(試驗(yàn)4、5)之間存在極為明顯的差異。應(yīng)用SMOTE-BOOSTING-SVM 方法后,過適應(yīng)現(xiàn)象并未有明顯改善;與未采用集成算法的邏輯回歸和LibSVM相比,預(yù)測(cè)結(jié)果對(duì)覆蓋率較高而命中率較低的傾向性減弱,F(xiàn)-score有明顯的改善。采用SMOTE-LOGITBOOST方法后,過適應(yīng)現(xiàn)象仍未有明顯改善;與未采用集成算法的邏輯回歸和LibSVM相比,預(yù)測(cè)結(jié)果對(duì)覆蓋率較高而命中率較低的傾向性減弱,F(xiàn)-score有改善但不及SMOTE-BOOSTING-SVM方法。

      三、結(jié)語

      模型測(cè)試試驗(yàn)說明,應(yīng)用采樣方法和不同的算法模型未能解決模型的過適應(yīng)現(xiàn)象,但能夠在要求改善覆蓋率或命中率的具體場(chǎng)景下發(fā)揮作用,且SMOTE-BOOSTING-SVM方案對(duì)覆蓋率和命中率的總體表現(xiàn)(F-Score)有明顯改善。因此需要在實(shí)際應(yīng)用時(shí)根據(jù)具體需求,選擇較為適用的評(píng)估指標(biāo)。對(duì)本次不平衡問題研究中總結(jié)如下:

      1.本次研究將選用邏輯回歸模型,在實(shí)際應(yīng)用中根據(jù)業(yè)務(wù)的需要對(duì)閾值進(jìn)行調(diào)節(jié),從而獲得針對(duì)具體需要的命中率和覆蓋率,這是更為有效的方法。同時(shí),從監(jiān)測(cè)功能出發(fā),對(duì)命中率的關(guān)注更甚于覆蓋率,因此從這個(gè)角度,邏輯回歸模型也是較好的選擇。

      2.若應(yīng)用于營(yíng)銷業(yè)務(wù)中,有更關(guān)注覆蓋率的需求,則可引入SMOTE采樣處理。

      3.在后續(xù)的研究中,隨著國(guó)網(wǎng)公司數(shù)據(jù)管理水平的提高,數(shù)據(jù)質(zhì)量和完備性的提高,應(yīng)致力于通過更為完備的數(shù)據(jù)準(zhǔn)備和更為全面的業(yè)務(wù)邏輯,來構(gòu)建適應(yīng)性更廣的模型。

      4.隨著全社會(huì)數(shù)據(jù)化程度的提高,尤其是數(shù)據(jù)共享程度的提高,后續(xù)將關(guān)注企業(yè)征信數(shù)據(jù)的可獲取性,以期將其納入預(yù)測(cè)模型,構(gòu)建更為有效的模型。

      參考文獻(xiàn):

      [1]黃文思等. 基于決策樹算法的電力客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)[J]. 電力信息與通信技術(shù), 2016, 14(1):19-22.

      [2]王宇哲等. 基于BP神經(jīng)網(wǎng)絡(luò)電力大客戶信用等級(jí)評(píng)價(jià)研究[J]. 電力需求側(cè)管理, 2015, 17(5):49-53.

      [3]楊帆等. 基于博弈論的電費(fèi)回收風(fēng)險(xiǎn)分析[J], 湖北電力, 2012, 36(6):76-78.

      [4]陳靚等. 基于支持向量機(jī)的電費(fèi)信用評(píng)估模型[J]. 電力信息化, 2008, 6(10):75-78

      [5]Gary M Weiss, Foster Provost. Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction[J]. Journal of Artificial Intelligence Research 19(2003) 315-354.

      [6]楊明等. 不平衡數(shù)據(jù)分類方法綜述[J]. 南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2008, 8(4):7-12.

      猜你喜歡
      電費(fèi)分類
      基于ε-SVR模型的日電費(fèi)回收預(yù)測(cè)
      吉林電力(2022年1期)2022-11-10 09:20:40
      分類算一算
      垃圾分類的困惑你有嗎
      大眾健康(2021年6期)2021-06-08 19:30:06
      分類討論求坐標(biāo)
      電費(fèi)電價(jià)在電力營(yíng)銷中的作用
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      基于大用戶電費(fèi)回收的風(fēng)險(xiǎn)管控
      關(guān)于縣級(jí)供電企業(yè)電費(fèi)對(duì)賬的研究
      給塑料分分類吧
      沙田区| 玉山县| 广昌县| 长沙市| 青海省| 徐水县| 濮阳县| 海晏县| 瑞昌市| 衡阳市| 邵东县| 社旗县| 成武县| 桦南县| 元阳县| 泸西县| 东港市| 内丘县| 郧西县| 大埔区| 昌都县| 太湖县| 罗定市| 防城港市| 佛山市| 海门市| 绍兴市| 松原市| 晋宁县| 工布江达县| 宁明县| 砚山县| 嘉义县| 兰州市| 台南市| 措美县| 武安市| 新泰市| 遵义县| 普陀区| 乐昌市|