• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于SVM的電力行業(yè)物資需求預(yù)測方法

      2016-12-15 10:11:16戟何成浩蘇星施成云劉東映
      電氣技術(shù) 2016年12期
      關(guān)鍵詞:需求預(yù)測電力行業(yè)分詞

      韓 戟何成浩蘇 星施成云劉東映

      (1.云南電網(wǎng)有限責(zé)任公司物資部,昆明 650011;2.云南電網(wǎng)有限責(zé)任公司臨滄供電局,云南 臨滄 677000;3.昆明能訊科技有限責(zé)任公司,昆明 650051)

      一種基于SVM的電力行業(yè)物資需求預(yù)測方法

      韓 戟1何成浩2蘇 星2施成云2劉東映3

      (1.云南電網(wǎng)有限責(zé)任公司物資部,昆明 650011;2.云南電網(wǎng)有限責(zé)任公司臨滄供電局,云南 臨滄 677000;3.昆明能訊科技有限責(zé)任公司,昆明 650051)

      為了減少物資需求審核工作量,提高審核效率和準(zhǔn)確率,提出一種基于SVM的電力行業(yè)物資需求預(yù)測方法。該方法首先分析歷史樣本數(shù)據(jù),把物資需求審核轉(zhuǎn)換分類問題,然后對數(shù)據(jù)預(yù)處理,結(jié)合電力領(lǐng)域知識庫,定義及提取需求特征,最后通過支持向量機(jī)訓(xùn)練出模型,實現(xiàn)對物資采購數(shù)量和種類的審核。實驗結(jié)果表明,該方法審核精度為87.3%,說明利用領(lǐng)域知識庫,基于能夠SVM的電力行業(yè)物資需求預(yù)測方法能夠有效提高審核效率和準(zhǔn)確率。

      支持向量機(jī);分類;領(lǐng)域知識庫;物資采購;審核

      隨著電網(wǎng)行業(yè)的迅速發(fā)展,物資采購量日益增長,迫切需要在物資管理系統(tǒng)中引進(jìn)一個有效的審核模型,用機(jī)器協(xié)助人工提出物資采購審核參考意見,以減少審核工作量,提高審核準(zhǔn)確率。

      近年來,統(tǒng)計機(jī)器學(xué)習(xí)技術(shù)突飛猛進(jìn),支持向量機(jī)(SVM)便是其中顯著代表。支持向量機(jī)是以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ)的一種機(jī)器學(xué)習(xí)方法,它克服了神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)分類器的過學(xué)習(xí)、局部極值點(diǎn)和維數(shù)災(zāi)難等諸多缺點(diǎn),具備較強(qiáng)的泛化能力,現(xiàn)已是機(jī)器學(xué)習(xí)的主流方法,在各領(lǐng)域廣為使用,屢試不爽[1-2]。例如,基于SVM的天氣預(yù)報,基于SVM的WiFi定位,SVM在微博話題跟蹤的應(yīng)用等,并且取得良好的效果。

      針對電網(wǎng)行業(yè)物資需求審核實際情況,審核結(jié)果無非就是根據(jù)申報的各項來判別提出的需求是合理還是不合理,完全可以符合一個分類問題,根據(jù)需求參數(shù)把審核結(jié)果分為兩類。這樣,就可以采用主流機(jī)器學(xué)習(xí)方法解決審核問題了。同時,該行業(yè)上報的物資需求記錄具有不完全結(jié)構(gòu)化、短文本的特點(diǎn),在當(dāng)前分類的方法中,SVM是基于統(tǒng)計的機(jī)器學(xué)習(xí)模型,它在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。鑒于SVM的特點(diǎn),其在小樣本分類問題上的效果已經(jīng)在文本分類、手寫體識別、自然語言處理等方面得到了驗證[2]。

      本文圍繞如何讓電網(wǎng)行業(yè)需求計劃審核轉(zhuǎn)換為一個分類問題,利用歷年經(jīng)驗數(shù)據(jù),通過機(jī)器協(xié)助審核,減少審核工作量,降低對審核人員的要求,提高審核效率和準(zhǔn)確率,提出一種基于SVM的電力行業(yè)物資需求預(yù)測方法。

      1 基于SVM的電力行業(yè)物資需求預(yù)測模型

      本文創(chuàng)造性地提出,將電力行業(yè)物資需求預(yù)測問題轉(zhuǎn)換為文本分類問題?;赟VM的電力行業(yè)物資需求預(yù)測模,首先,抽取物資需求歷史的文本數(shù)據(jù),在電力領(lǐng)域知識庫下進(jìn)行特征提取,特征向量通過SVM進(jìn)行電力行業(yè)文本內(nèi)容分析模型訓(xùn)練。然后,選出電力行業(yè)物資文本數(shù)據(jù),對半結(jié)構(gòu)化數(shù)據(jù)預(yù)處理,進(jìn)行領(lǐng)域?qū)嶓w識別等信息抽取,確定好物資需求文本特征[3-4]。最后,SVM 通過訓(xùn)練好的模型,對行業(yè)物資需求做出預(yù)測。

      1.1 電力行業(yè)物資需求模型特征選擇

      首先對文本進(jìn)行預(yù)處理,預(yù)處理包括,分詞、去除停用詞(stop words)、詞頻統(tǒng)計等。首先對電力行業(yè)文本進(jìn)行中文分詞處理,采用中科院計算所的分詞系統(tǒng)接口實現(xiàn),并在此基礎(chǔ)上借助于電力領(lǐng)域知識詞庫,進(jìn)行領(lǐng)域詞分詞處理,并進(jìn)行領(lǐng)域詞標(biāo)識[5]。文本分詞完成后,由于該半結(jié)構(gòu)化需求文本的特殊性,并沒有停用詞出現(xiàn),所以不需要去除停用詞這一步驟[7]。本文采用的是NLPIR分詞系統(tǒng),NLPIR分詞系統(tǒng)在漢語分詞體系架構(gòu)下增加了對英文詞法分析的支持,可以自動識別英文詞匯的原型、詞性標(biāo)注、命名實體與關(guān)鍵詞;并在當(dāng)前漢語詞法分析的基礎(chǔ)上,實現(xiàn)了文檔的完整語義分析,自動提取文檔的人名、地名、機(jī)構(gòu)名、文章作者、發(fā)布的媒體、關(guān)鍵詞與摘要,是當(dāng)前中文信息處理的必備神器[8-9]。然后掃描文檔,統(tǒng)計出每個詞的詞頻、領(lǐng)域內(nèi)文檔頻率及非領(lǐng)域內(nèi)文檔頻率。

      巧妙借用文檔聚類的思想,根據(jù)基建工程物資需求,整理出一些典型工程樣本,從樣本里選出特征值,對項目名稱、所屬部門、物料等單獨(dú)做特征不太靈活的樣本值進(jìn)行預(yù)處理、分詞、實體識別后,進(jìn)行特征選取,再確定特征集。對于建設(shè)性質(zhì)、項目類別、等級、工期等樣本值可以單獨(dú)做特征,得到特征如 2014年臨滄供電局辦公用品(低值易耗品)項目,從中提取為臨滄、供電局、辦公用品 3個特征,建設(shè)性質(zhì)里提取新建、緒建特征等,每一個特征為一維,構(gòu)造一個SVM向量空間[10-11]。

      表1 構(gòu)建的特征向量

      1.2 電力行業(yè)物資需求模型訓(xùn)練

      在對文檔進(jìn)行訓(xùn)練和分類前,把文檔表示成計算機(jī)可以處理的形式[12]。

      選擇已審核的物資需求的歷史數(shù)據(jù)記錄 4000條,將每一條記錄做成一個txt文本,標(biāo)上類別號。

      以預(yù)先準(zhǔn)備好的4000個訓(xùn)練文本作為輸入,進(jìn)行分詞、去停用詞等處理,然后進(jìn)行TFIDF詞頻統(tǒng)計、縮放等構(gòu)造標(biāo)準(zhǔn)的輸入向量,格式見表2。

      <索引>是以1開始的整數(shù),可以是不連續(xù)的,表示在一篇文檔中出現(xiàn)第幾個特征項;<特征值>為實數(shù),在此設(shè)為該特征項的權(quán)重。

      2 實驗及結(jié)果分析

      2.1 實驗數(shù)據(jù)分析

      為了驗證提出基于 SVM文本分類方法解決物資需求預(yù)測的有效性,本文設(shè)計了幾種分類方法的對比實驗,測試語料采用了云南電力近兩年的4000篇?dú)v史審核數(shù)據(jù)作為領(lǐng)域測試文本。實驗初步選取,將文檔頻率大于一定閾值α 的詞作為特征空間,選取1000維特征空間。分別采用改進(jìn)TFIDF、DTFIDF方法、WTFIDF方法選擇特征空間和特征權(quán)重進(jìn)行計算。實驗訓(xùn)練了一個兩類分類器,用于對審核合理文本和不合理文本進(jìn)行分類。

      表2 構(gòu)建的特征向量

      表3 三種不同文本分類方法的時間測試結(jié)果

      2.2 實驗評價方法

      采用準(zhǔn)確率、召回率、F值的評價方法,具體評價參數(shù)見表4。

      表4 三種不同文本分類方法的時間測試結(jié)果

      2.3 實驗結(jié)果分析

      實驗結(jié)果表明:測試的準(zhǔn)確率為 87.8,召回率為97.825,而準(zhǔn)確率的沒有達(dá)到90%以上原因是,系統(tǒng)中很多細(xì)節(jié)方面有待改進(jìn),比如文本預(yù)處理提高,一些特征不易獲取等都直接影響到審核的準(zhǔn)確率;表明該模型對解決實際問題還未考慮周全,有待進(jìn)一步融合更多特征。

      3 結(jié)論

      本文針對電網(wǎng)行業(yè)物資需求審核準(zhǔn)確率和效率問題,提出了一種基于SVM的電力行業(yè)物資需求預(yù)測模型。通過把物資需求審核轉(zhuǎn)換為分類問題,對歷史采購數(shù)據(jù)進(jìn)行預(yù)處理,利用領(lǐng)域知識庫,抽出特征轉(zhuǎn)換成特征向量,由支持向量機(jī)訓(xùn)練成模型,實現(xiàn)物資采購種類預(yù)測,物資采購數(shù)量預(yù)測。實驗結(jié)果表明,本方法相對于同類分類方法精度高、可靠性好。需要說明的是,①本文的數(shù)據(jù)來源于歷年項目采購數(shù)據(jù),這些數(shù)據(jù)不包含那些難于獲得的特征,比如地理環(huán)境,天氣狀況以及工程項目更詳細(xì)的信息等,這些特征也是影響物資需求的重要因素;②隨著時間的推移,技術(shù)革新,原模型沒有的一些新的零件,物品涌現(xiàn),預(yù)測精度自然會下降;③如何獲得這些特征并融合進(jìn)模型來提升預(yù)測準(zhǔn)確率,如何提升對新物品的采購數(shù)量和種類預(yù)測的準(zhǔn)確率,是下一階段研究的重點(diǎn)。

      [1]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,18(1): 26-32.

      [2]Chih-Chung Chang,Chih-Jen Lin,LIBSVM:a Library for Support Vector Machines[DB/OL].http://www.csie.ntu.edu.tw/cjlin/libsv,2001-05-15/2003-10-25.

      [3]劉麗珍,宋瀚濤.文本分類中的特征選取[J].計算機(jī)工程,2004,30(4): 14-15,175.

      [4]劉曉志,黃厚寬,尚文倩.帶專業(yè)詞庫的特征選擇[J].北京交通大學(xué)學(xué)報(自然科學(xué)版),2006,30(2): 97-100.

      [5]張玉芳,彭時名,呂佳.基于文本分類 TFIDF方法的改進(jìn)與應(yīng)用[J].計算機(jī)工程,2006,32(19): 76-78.

      [6]張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J].自動化學(xué)報,2000,26(1): 32-42.

      [7]文勖,張宇,劉挺,等.基于句法結(jié)構(gòu)分析的中文問題分類[J].中文信息學(xué)報,2006,20(2): 33-39.

      [8]俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學(xué)報,2006,27(2): 87-94.

      [9]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場模型的中文機(jī)構(gòu)名自動識別[J].電子學(xué)報,2006,34(5): 804-809.

      [10]王浩暢,趙鐵軍.基于SVM的生物醫(yī)學(xué)命名實體的識別[J].哈爾濱工程大學(xué)學(xué)報,2006,27(z1): 570-574.

      [11]陳錦,常致全,許軍.基于HMM的生物醫(yī)學(xué)命名實體的識別與分類[J].計算機(jī)時代,2006(10): 40-42.

      [12]劉非凡,趙軍,呂碧波,等.面向商務(wù)信息抽取的產(chǎn)品命名實體識別研究[J].中文信息學(xué)報,2006,20(1): 7-13.

      The Kind of Electric Power Industry Material Demand Forecasting Method based on SVM

      Han Ji1He Chenghao2Su Xing2Shi Chengyun2Liu Dongying3
      (1.Yunnan Power Grid Co.,Ltd,Kunming 650011;2.Yunnan Power Grid Co.,Ltd,Lincang Power Supply Bureau,Lincang,Yunnan 677000;3.Kunming NXScience and Technology Co.,Ltd,Kunming 650051)

      The method,based on SVM,a kind of electric power industry material demand forecasts ,has been proposed,in order to reduce audit work of the material demand,improving the efficiency and accuracy.Firstly,the method analyzed historical sample data and translated materials demand audit into classification problem.Secondly,it need preprocessing the data,making it standardization.Defining and extracting demand characteristics by combining power domain knowledge base.Finally,support vector machine,by training model,finished the audit work on types and amounts of material purchase.

      SVM; classification; domain knowledge base; material purchasing; review

      云南電網(wǎng)有限公司科技項目基金資助項目(YNKJ00000099)

      韓 戟(1971-),男,山東省濟(jì)南市章丘市人,本科,高級經(jīng)濟(jì)師,主要從事物資倉儲配送、招標(biāo)采購與綜合管理工作。

      猜你喜歡
      需求預(yù)測電力行業(yè)分詞
      基于貝葉斯最大熵的電動汽車充電需求預(yù)測
      吉林電力(2022年2期)2022-11-10 09:24:42
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于計算實驗的公共交通需求預(yù)測方法
      淺談電力行業(yè)知識管理的集成信息化
      電力行業(yè)的減排救贖
      能源(2016年1期)2016-12-01 05:10:18
      值得重視的分詞的特殊用法
      電力行業(yè)的碳市大考
      能源(2016年10期)2016-02-28 11:33:32
      中國中長期煤炭需求預(yù)測
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      我國卷煙需求預(yù)測研究述評
      台湾省| 安陆市| 宁陵县| 文登市| 平顺县| 磐石市| 怀化市| 酉阳| 杭锦后旗| 中江县| 拉孜县| 靖州| 蓬安县| 饶平县| 黄龙县| 宜君县| 瓮安县| 兰州市| 扶沟县| 榆中县| 舟山市| 三亚市| 巴里| 九台市| 卢湾区| 万州区| 永昌县| 拉萨市| 蕉岭县| 古浪县| 平原县| 高尔夫| 湖州市| 额尔古纳市| 噶尔县| 买车| 保靖县| 滨海县| 滦平县| 金沙县| 屏南县|