• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Weka和協(xié)同機(jī)器學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘方法研究

      2021-01-27 07:54:00譚成兵周湘貞朱云飛
      長春大學(xué)學(xué)報 2020年12期

      譚成兵,周湘貞,朱云飛

      (1.亳州職業(yè)技術(shù)學(xué)院 智能工程系,安徽 亳州 236813;2.中國社會科學(xué)院 財(cái)經(jīng)戰(zhàn)略研究院,北京 100028;3.清華大學(xué)出版社,北京 100084)

      近年來,數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)數(shù)據(jù)分析、機(jī)械故障定位、復(fù)雜模型優(yōu)化、動力系統(tǒng)故障檢測、營銷方案制定、仿真系統(tǒng)模擬、電商客戶消費(fèi)習(xí)慣[1]等方面取得了較好效果。在數(shù)據(jù)挖掘分析中,誕生了很多優(yōu)秀的數(shù)據(jù)分析平臺,比如Weka平臺,因其強(qiáng)大的數(shù)據(jù)處理能力、高集成化的智能算法,以及良好的可視化及過程化展示,成為數(shù)據(jù)分析的重要平臺,Umair 等[2]借助Weka平臺對Facebook的用戶進(jìn)行了有效分類,而鄭繼剛等[3]在Weka平臺實(shí)現(xiàn)了網(wǎng)絡(luò)攻擊的深入分析。在當(dāng)前的數(shù)據(jù)挖掘研究中,已經(jīng)逐漸轉(zhuǎn)化為從數(shù)據(jù)挖掘的橫向應(yīng)用研究,轉(zhuǎn)變?yōu)榭v向數(shù)據(jù)挖掘技術(shù)本身的優(yōu)化研究,關(guān)于數(shù)據(jù)挖掘的算法研究成為研究熱點(diǎn)。通過智能算法進(jìn)一步優(yōu)化數(shù)據(jù)挖掘的性能,提高數(shù)據(jù)挖掘效率及穩(wěn)定性。數(shù)據(jù)挖掘算法較多,隨著數(shù)據(jù)量的增長,傳統(tǒng)的數(shù)據(jù)挖掘算法效率逐漸降低,而具有大數(shù)據(jù)處理能力的機(jī)器學(xué)習(xí)算法成為了當(dāng)前數(shù)據(jù)挖掘的主要算法,研究人員分別嘗試用Apriori算法和人工魚群算法完成了有效數(shù)據(jù)挖掘[4-5]。為了進(jìn)一步提高數(shù)據(jù)挖掘的準(zhǔn)確度,協(xié)同采用多種機(jī)器學(xué)習(xí)算法共同完成數(shù)據(jù)挖掘,以旋轉(zhuǎn)機(jī)械設(shè)備故障判別作為研究對象,根據(jù)選擇機(jī)械設(shè)備的振動頻譜圖作為輸入樣本,采用協(xié)同機(jī)器學(xué)習(xí)算法對振動頻譜進(jìn)行故障判別。

      1 基于Weka的協(xié)同機(jī)器學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘

      1.1 數(shù)據(jù)挖掘Weka平臺的優(yōu)勢

      Weka平臺作為數(shù)據(jù)挖掘常用平臺,優(yōu)勢明顯,主要體現(xiàn)在:(1)數(shù)據(jù)樣本導(dǎo)入的便捷性,支持?jǐn)?shù)據(jù)庫自動導(dǎo)入,也支持手動導(dǎo)入,自動導(dǎo)入方法尤其適用于大規(guī)模數(shù)據(jù)挖掘;(2)Weka仿真過程可視化,對于數(shù)據(jù)挖掘過程的變化展示清晰,方便數(shù)據(jù)挖掘用戶可視化調(diào)參;(3)平臺集成化程度高,而且嵌入了多種機(jī)器學(xué)習(xí)分類算法,免去了用戶自編程的時間,提高使用效率;(4)平臺對訓(xùn)練結(jié)果的統(tǒng)計(jì)功能強(qiáng)大,圖表類型豐富,方便用戶進(jìn)行數(shù)據(jù)挖掘結(jié)果整理;(5)平臺自帶數(shù)據(jù)樣本初始化功能,具有豐富的數(shù)據(jù)樣本歸一化、均值化、平衡化等功能。

      1.2 協(xié)同設(shè)計(jì)模式

      設(shè)gi(x)表示第i個機(jī)器學(xué)習(xí)算法對樣本x的預(yù)測結(jié)果,那么公式(1)表示各個機(jī)器學(xué)習(xí)算法單獨(dú)預(yù)測的結(jié)果:

      (1)

      對這n個預(yù)測結(jié)果進(jìn)行等值劃分,凡是預(yù)測結(jié)果相等的機(jī)器學(xué)習(xí)算法劃分為一組[6-7],如式(2)所示。

      [(rt1,rt2,…,rti),(rti+1,rti+2,…,rtk),…,(rtk+1,rtk+2,…,rtn)],

      (2)

      在式(2)中,有:

      rt1=rt2=…=rti,rti+1=rti+2=…=rtk,rtk+1=rtk+2=…=rtn,且t1,t2,…,tn∈[1,n][8]。設(shè)第i(i=1,2,…n)個機(jī)器學(xué)習(xí)算法的權(quán)重因子為λi,分別計(jì)算式(2)中每一組權(quán)重因子總和,各組的計(jì)算結(jié)果如式(3)所示。

      (3)

      在式(3)中找出值最大的那一組,該組所代表的類別就是最終的結(jié)果。在協(xié)同計(jì)算中,既可以串行協(xié)同計(jì)算,也可以并行協(xié)同計(jì)算[9],具體可以根據(jù)實(shí)際需要選擇。

      1.3 協(xié)同權(quán)重因子確定

      文中的權(quán)重因子確定采用蛙跳算法來實(shí)現(xiàn),初始化權(quán)重因子作為蛙群,然后執(zhí)行蛙跳算法,求解權(quán)重因子值。在權(quán)重因子優(yōu)化過程中,將預(yù)測值與實(shí)際值的差值的倒數(shù)作為混合蛙跳算法的適應(yīng)度函數(shù)。在第t+1次計(jì)算迭代過程中,運(yùn)用第t次迭代后的結(jié)果,即適應(yīng)度函數(shù)最大值的青蛙Xb(t)和最小值的青蛙Xw(t)。為了保證群組內(nèi)的青蛙可以朝著適應(yīng)度函數(shù)值最大的青蛙靠攏,從適應(yīng)度函數(shù)值最小的青蛙開始不斷移動,移動方法為:

      Δw(t)=rand()×(Xb(t)-x(t)),

      (4)

      Xw(t+1)=Xw(t)Δw(t),Rmin≤Δw(t)≤Rmax。

      (5)

      若t+1時刻求解的Xw(t+1)值比Xw(t)更大,即具有更好的適應(yīng)度,那么用Xw(t+1)替換Xw(t),反之,繼續(xù)執(zhí)行公式(4)和(5)。關(guān)于青蛙移動步長問題,可引入步長因子C,那么對于第k只青蛙的第i次移動距離計(jì)算公式為:

      (6)

      其中步長因子為:

      C=Cmin+inow/Gglobal×(Cmax-Cmin)。

      (7)

      其中,Cmin和Cmax分別為在當(dāng)前群組內(nèi)的青蛙最小移動步長和最大移動步長,可以根據(jù)實(shí)際情況設(shè)定,Gglobal為群組內(nèi)所有青蛙的適應(yīng)度值之和,inow為當(dāng)前時刻青蛙移動的次數(shù)。

      當(dāng)群組內(nèi)所有青蛙的適應(yīng)度值更接近Xb(t),且誤差在設(shè)定的閾值內(nèi),算法迭代停止,輸出當(dāng)前時刻青蛙分布圖,即為最優(yōu)解。

      1.4 算法流程

      上面介紹了蛙跳算法對權(quán)重因子的優(yōu)化,在操作過程中,根據(jù)單個機(jī)器學(xué)習(xí)算法訓(xùn)練的結(jié)果,有選擇性地進(jìn)行協(xié)同學(xué)習(xí),當(dāng)單個學(xué)習(xí)算法的結(jié)果都一樣時,不必進(jìn)行權(quán)重因子優(yōu)化,直接將訓(xùn)練結(jié)果賦給協(xié)同學(xué)習(xí)結(jié)果,否則需要進(jìn)行蛙跳算法的權(quán)重因子優(yōu)化,具體的數(shù)據(jù)挖掘流程如圖1所示。

      2 實(shí)例仿真

      為了驗(yàn)證協(xié)同機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的性能,采用Weka平臺對旋轉(zhuǎn)機(jī)械設(shè)備振動頻譜進(jìn)行故障判別,按不同時間段截取選擇機(jī)械設(shè)備振動頻譜圖,生成數(shù)據(jù)樣本??紤]到數(shù)據(jù)樣本的全面性,頻譜采樣時間和采樣頻率均有所變化,將生成的圖像樣本進(jìn)行處理,生成文本并導(dǎo)入Weka平臺。在Weka平臺采用集成的機(jī)械學(xué)習(xí)算法進(jìn)行仿真,然后進(jìn)行協(xié)同仿真,為了對比,共選取常用的4種不同的機(jī)器學(xué)習(xí)算法,分別單個進(jìn)行仿真。

      2.1 協(xié)同學(xué)習(xí)與單個學(xué)習(xí)算法的預(yù)測準(zhǔn)確率對比

      選取2 180個旋轉(zhuǎn)機(jī)械設(shè)備振動頻譜進(jìn)行仿真,導(dǎo)入Weka后,在Weka Explorer的Classifier中選擇不同的機(jī)器學(xué)習(xí)分類器,如圖2所示。

      選擇算法及驗(yàn)證方式,然后運(yùn)行,在右邊的分類輸出窗口中查看分類結(jié)果,如圖3所示。

      從圖3可以看出,J48共對2 180個旋轉(zhuǎn)機(jī)械設(shè)備振動頻譜圖樣本進(jìn)行了預(yù)測,其中預(yù)測正確樣本數(shù)為1 900,預(yù)測錯誤樣本數(shù)為280,預(yù)測準(zhǔn)確率為87.16%。按照此流程,采用其他3種算法進(jìn)行訓(xùn)練,將預(yù)測結(jié)果相同的分為一組,然后初始化權(quán)重因子[λ1,λ2,λ3,λ4],最后采用蛙跳算法進(jìn)行訓(xùn)練,得到優(yōu)化后的[λ1,λ2,λ3,λ4],接著進(jìn)行同組的權(quán)重因子求和,最后將求和值最大的一組的預(yù)測結(jié)果作為協(xié)同算法的預(yù)測結(jié)果。

      從圖4可以看出,在準(zhǔn)確率方面,4種算法的協(xié)同預(yù)測準(zhǔn)確率達(dá)到了95.26%,遠(yuǎn)高于其他4種算法的準(zhǔn)確率,表明協(xié)同作用使得旋轉(zhuǎn)機(jī)械設(shè)備的故障判斷準(zhǔn)確率得到了顯著提升,相比于表現(xiàn)最差的K-means算法,提高了30.94%,相比于表現(xiàn)最好的決策樹J48,提高了9.30%。

      協(xié)同機(jī)器學(xué)習(xí)算法的預(yù)測準(zhǔn)確率優(yōu)勢得到了驗(yàn)證,但是協(xié)同學(xué)習(xí)建立在單個算法的基礎(chǔ)之上,對于選擇機(jī)械設(shè)備的故障預(yù)測時間必然增加,下面將對4種機(jī)器學(xué)習(xí)算法和協(xié)同算法的預(yù)測時間分別進(jìn)行仿真。

      2.2 協(xié)同學(xué)習(xí)與單個學(xué)習(xí)算法的預(yù)測時間對比

      為了充分驗(yàn)證協(xié)同學(xué)習(xí)與單個學(xué)習(xí)算法的時間性能,采用3個不同容量的數(shù)據(jù)集來進(jìn)行預(yù)測,數(shù)據(jù)集1(500 MB),數(shù)據(jù)集2(2 GB),數(shù)據(jù)集3(10 GB)。

      2.2.1 串行協(xié)同模式

      在一臺設(shè)備上進(jìn)行串行協(xié)同仿真,分別對4種算法進(jìn)行逐個仿真,然后求解權(quán)重因子,最后得到協(xié)同仿真結(jié)果,其串行協(xié)同條件下預(yù)測時間結(jié)果統(tǒng)計(jì)如表1所示。

      表1 串行協(xié)同條件下預(yù)測時間對比

      從表1可以看出,在串行協(xié)同條件下,當(dāng)樣本量增大,預(yù)測時間隨之增加,在樣本容量相同時,支持向量機(jī)的旋轉(zhuǎn)機(jī)械設(shè)備振動故障的預(yù)測時間性能最優(yōu),4種算法協(xié)同的預(yù)測時間比4種單個算法的預(yù)測時間之和略多,主要用于蛙跳算法的權(quán)重因子訓(xùn)練,這種因?yàn)榇袇f(xié)同所帶來的預(yù)測時間增長問題,無法避免。

      2.2.2 并行協(xié)同模式

      下面進(jìn)行并行協(xié)同條件下的預(yù)測仿真,在5臺設(shè)備上進(jìn)行并行協(xié)同仿真,其中4臺設(shè)備分別對4種算法進(jìn)行逐個仿真,另外1臺設(shè)備求解權(quán)重因子,最后得到協(xié)同仿真結(jié)果,其并行協(xié)同條件下預(yù)測時間結(jié)果統(tǒng)計(jì)如表2所示。

      表2 并行協(xié)同條件下預(yù)測時間對比

      從表2可以看出,相比于串行協(xié)同,并行協(xié)同條件下的旋轉(zhuǎn)機(jī)械設(shè)備振動故障4種算法協(xié)同預(yù)測時間大大下降,大部分取決于最差算法的預(yù)測時間,因?yàn)閰f(xié)同而帶來的蛙跳算法的權(quán)重因子求解時間并不多,在實(shí)際操作過程中,若針對某個樣本,4種單個機(jī)器學(xué)習(xí)算法的預(yù)測結(jié)果一致時,則不必進(jìn)行協(xié)同權(quán)重因子的計(jì)算,直接將一致結(jié)果作為協(xié)同預(yù)測的結(jié)果,因此并不是每次協(xié)同都需要額外增加協(xié)同時間,所以綜合來看,并行協(xié)同條件下的預(yù)測時間相對于單個機(jī)器學(xué)習(xí)算法并沒有明顯增加。

      3 結(jié)語

      基于Weka平臺采用協(xié)同機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的準(zhǔn)確率更高,在實(shí)際應(yīng)用中,充分考慮應(yīng)用的時間需求來選擇協(xié)同學(xué)習(xí)模式,串行或者并行,并行協(xié)同條件下,協(xié)同學(xué)習(xí)的時間性能更優(yōu),但是因?yàn)椴⑿杏?jì)算所帶來的的復(fù)雜度和對計(jì)算設(shè)備的資源消耗必將增加,而且計(jì)算的穩(wěn)定性也帶來新的挑戰(zhàn),而串行協(xié)同學(xué)習(xí)流程更加簡單,對計(jì)算設(shè)備資源要求容忍性更強(qiáng),因此協(xié)同模式的選擇應(yīng)根據(jù)實(shí)際情況。后續(xù)研究將對協(xié)同學(xué)習(xí)的時間和穩(wěn)定性進(jìn)一步研究,以進(jìn)一步優(yōu)化協(xié)同機(jī)器學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘性能。

      枞阳县| 青川县| 醴陵市| 图木舒克市| 宽城| 安顺市| 关岭| 垫江县| 宁波市| 商都县| 临沂市| 东方市| 佛坪县| 齐河县| 隆昌县| 阜新| 剑阁县| 汝南县| 阳信县| 城固县| 揭阳市| 金阳县| 天全县| 桃源县| 东源县| 剑阁县| 镇江市| 龙江县| 无极县| 哈尔滨市| 广饶县| 高要市| 竹溪县| 吴忠市| 门头沟区| 德令哈市| 峨眉山市| 南安市| SHOW| 宣恩县| 怀来县|