• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)預(yù)測(cè)處理模式研究

      2017-03-24 11:15:33王金海
      卷宗 2016年11期
      關(guān)鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

      摘 要:大數(shù)據(jù)的時(shí)代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵,在日新月異的應(yīng)用背后,產(chǎn)生的是數(shù)據(jù)爆炸式增長(zhǎng)和來(lái)自大數(shù)據(jù)分析的挑戰(zhàn),如何有效的利用這些數(shù)據(jù)也是一個(gè)難題。所以研究大數(shù)據(jù)各種預(yù)測(cè)的模型的研究就尤為重要,本文結(jié)合大數(shù)據(jù)時(shí)代的數(shù)據(jù)特點(diǎn),研究大數(shù)據(jù)的預(yù)測(cè)處理模式,提出一種算法融合的模型框架,并通過(guò)實(shí)驗(yàn)數(shù)據(jù)集驗(yàn)證模式。

      關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;特征工程;模型融合;Hadoop

      1 研究背景及意義

      大數(shù)據(jù)時(shí)代當(dāng)前面臨的挑戰(zhàn)是根據(jù)大數(shù)據(jù)進(jìn)行預(yù)測(cè)[1]研究,利用已知數(shù)據(jù)進(jìn)行預(yù)測(cè)的模式產(chǎn)出,本文對(duì)大數(shù)據(jù)預(yù)測(cè)處理模式進(jìn)行研究,同時(shí)創(chuàng)新性的提出一種融合算法模型框架,最后用數(shù)據(jù)集[3]來(lái)驗(yàn)證模型的準(zhǔn)確性。

      2 預(yù)測(cè)處理模式研究

      基本處理模式

      本文研究的大數(shù)據(jù)[4]預(yù)測(cè)處理模式主要分為幾個(gè)過(guò)程,如下:

      1.問(wèn)題與業(yè)務(wù)理解

      問(wèn)題與業(yè)務(wù)的理解是對(duì)數(shù)據(jù)挖掘的需求進(jìn)行確認(rèn),對(duì)預(yù)測(cè)與挖掘目標(biāo)有一個(gè)明確的定義。

      2.數(shù)據(jù)收集與預(yù)處理

      原始的數(shù)據(jù)要傾國(guó)清洗或者預(yù)處理的方式,才能使最終的結(jié)果準(zhǔn)確或者可用。

      3.數(shù)據(jù)挖掘

      a)特征工程

      b)模型訓(xùn)練

      c)模型評(píng)估

      4.結(jié)果解釋和評(píng)估

      特征工程

      特征工程[5]是將原始數(shù)據(jù)轉(zhuǎn)化為特征,在進(jìn)行特征工程的時(shí)候,影響其預(yù)測(cè)結(jié)果有三大因素:模型的選取是否合適,可以用的數(shù)據(jù)是否好用,提取的特征是否實(shí)用。

      數(shù)據(jù)預(yù)處理

      對(duì)數(shù)據(jù)進(jìn)行挖掘之前,必須首先準(zhǔn)備好挖掘的數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高分類(lèi)或預(yù)測(cè)的準(zhǔn)確性、效率和可擴(kuò)展性。

      1.數(shù)據(jù)清理。數(shù)據(jù)清理是指在消除或者減少數(shù)據(jù)中噪聲和處理缺失值數(shù)據(jù)預(yù)處理。

      2.相關(guān)性分析。猶豫數(shù)據(jù)集中的許多屬性與挖掘任務(wù)本身可能是無(wú)關(guān)的。

      3.數(shù)據(jù)轉(zhuǎn)換。利用概念分成,可以將數(shù)據(jù)泛化到更高層次的概念。

      特征選擇

      特征選擇是根據(jù)有意義的特征輸入數(shù)據(jù)挖掘的算法和模型進(jìn)行訓(xùn)練。特征選擇是特征處理的核心部分。包括以下幾種方法:

      1.過(guò)濾特征[6]:該思路是自變量和目標(biāo)變量之間的關(guān)聯(lián)。

      2.封裝特征:該思路是通過(guò)目標(biāo)函數(shù)來(lái)看是否加入一個(gè)變量。

      3.嵌入特征:該思路是學(xué)習(xí)器來(lái)自動(dòng)選擇特征。

      算法框架

      本問(wèn)研究?jī)?nèi)容創(chuàng)新性采用算法模型的融合方式,即多模融合的學(xué)習(xí)算法框架 ,建立組合預(yù)測(cè)方法,得到優(yōu)選的預(yù)測(cè)處理模式,克服單個(gè)預(yù)測(cè)算法的缺點(diǎn),提升了算法預(yù)測(cè)的準(zhǔn)確性。

      GBDT

      GBDT算法是Boosting算法的一種具體實(shí)現(xiàn)形式,它是一種非線性的模型,每次迭代都是在減少殘差的梯度方向新建一顆決策樹(shù),迭代多少次就會(huì)生成多少?zèng)Q策樹(shù)。

      LR

      LR是廣義的線性模型。LR模型可以很好的并行化,其是一種線性模型,其可以處理上億條的訓(xùn)練樣本。但是這種線性模型限制它的的學(xué)習(xí)能力,不能處理大量的特征。

      GBDT與LR的融合

      GBDT的決策樹(shù)的通道可以直接作為L(zhǎng)R輸入特征使用。所以本文將兩種算法結(jié)合,提出一種GBDT與LR融合的算法模型。這種模型相比如人工尋找特征和特征組合,這種方法省時(shí)省力,效率更高。經(jīng)過(guò)融合算法模型進(jìn)行特征和特征組合的自動(dòng)發(fā)現(xiàn),LR的輸入特征來(lái)自GBDT生成的特征。

      模型評(píng)價(jià)

      模型評(píng)價(jià)是驗(yàn)證特征工程與算法框架的重要評(píng)測(cè)環(huán)節(jié)。一般采用均方根誤差評(píng)價(jià)法。

      其計(jì)算公式如下。

      3 實(shí)驗(yàn)數(shù)據(jù)集分析

      數(shù)據(jù)分析

      通過(guò)分析某省部分公交線路的歷史公交卡交易數(shù)據(jù),分析推測(cè)乘客的出行習(xí)慣和偏好,從而建立模型,預(yù)測(cè)未來(lái)公交客流。即:根據(jù)公交線路歷史刷卡數(shù)據(jù),預(yù)測(cè)不同公交線路6點(diǎn)-21點(diǎn)各時(shí)段的客流情況。

      特征工程

      原始數(shù)據(jù)包含特征Use_city features、Line_name features、Terminal_id features、Card_id features、Create_city features、Deal_time features、Card_type features、Weather features。特征按照具體的內(nèi)容又可以分為:計(jì)數(shù)、比值、Flag、時(shí)間間隔、時(shí)間層級(jí)、規(guī)則、排序、地理特征等八種。由于篇幅有限,這里不詳細(xì)介紹各特征。

      算法框架

      算法采用GBDT和LR融合算法,基本原理見(jiàn)圖1,GBDT作為主要分類(lèi)器,表3得到的訓(xùn)練參數(shù)是經(jīng)過(guò)模型訓(xùn)練得到的。其中,GBDT3是單模型中評(píng)價(jià)效果最好的模型。經(jīng)過(guò)GBDT生成的特征,下一步使用LR對(duì)GBDT生成的模型進(jìn)行融合,把每個(gè)GBDT 模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果合并作為L(zhǎng)R的訓(xùn)練集。

      結(jié)果評(píng)價(jià)

      模型結(jié)果評(píng)價(jià)采用RMSE評(píng)測(cè),公式如下:

      經(jīng)過(guò)線下的預(yù)測(cè)集測(cè)試,7模型混合GBDT特征模型與LR融合的算法框架最終得到82%的評(píng)分值,說(shuō)明整個(gè)預(yù)測(cè)模式效果很好。

      4 結(jié)論

      本文研究基于大數(shù)據(jù)的預(yù)測(cè)處理模式,研究了包括特征工程、算法框架、模型評(píng)價(jià)等大數(shù)據(jù)預(yù)測(cè)處理的關(guān)鍵步驟,提出多模融合算法:GBDT與LR融合算法,相比于傳統(tǒng)算法,多模的融合算法結(jié)合了LR速度快、效率高,是一種精確、有效的預(yù)測(cè)處理算法。最后本文用真實(shí)的數(shù)據(jù)集驗(yàn)證了所研究的處理模式和多模算法的正確性。

      參考文獻(xiàn)

      [1] 孟小峰, 慈祥, MengXiaofeng,等. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(1):146-169.

      [2] 李建中, 劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(6):1147-1162.

      [3] 應(yīng)毅, 劉亞軍, 陳誠(chéng). 基于云計(jì)算技術(shù)的個(gè)性化推薦系統(tǒng)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015, 51(13):111-117.

      [4] 趙娜. 大數(shù)據(jù)研究綜述[J]. 電子測(cè)試, 2015, 14(5):87-90.

      [5] Crone S F, Kourentzes N. Feature selection for time series prediction - A combined filter and wrapper approach for neural networks[J]. Neurocomputing, 2010, 73(s 10-12):1923-1936.

      [6] Liu D, Li T, Liang D. Incorporating logistic regression to decision-theoretic rough sets for classifications[J]. International Journal of Approximate Reasoning, 2014, 55(1):197-210.

      作者簡(jiǎn)介

      王金海(1990-),男(滿(mǎn)族),籍貫黑龍江,碩士研究生,在讀學(xué)生,研究方向:智能信息處理。

      猜你喜歡
      數(shù)據(jù)挖掘大數(shù)據(jù)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      乡宁县| 泽普县| 鄂托克前旗| 万全县| 青铜峡市| 三明市| 中超| 海伦市| 济阳县| 华亭县| 南昌市| 礼泉县| 美姑县| 大兴区| 定南县| 酒泉市| 内丘县| 烟台市| 荣昌县| 且末县| 航空| 财经| 深泽县| 营口市| 锦屏县| 洱源县| 丽江市| 黔江区| 巨鹿县| 沿河| 临潭县| 民勤县| 西和县| 平山县| 布尔津县| 新竹市| 任丘市| 屏南县| 友谊县| 玛纳斯县| 阿坝县|