• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      自動化特征工程綜述

      2023-04-19 06:39:00吳勇宣謝志偉石勝飛
      智能計算機與應用 2023年3期
      關鍵詞:特征選擇特征性能

      吳勇宣, 韓 珣, 謝志偉, 石勝飛

      (1 哈爾濱工業(yè)大學 計算學部, 哈爾濱 150001; 2 四川警察學院 智能警務四川省重點實驗室, 四川 瀘州 646000;3 黑龍江農墾職業(yè)學院, 哈爾濱 150025)

      0 引 言

      伴隨著多種多樣的數據采集方式的發(fā)展與使用,海量數據的產生速度正在加快。 近年來,機器學習發(fā)展迅速,就需要基于機器學習的數據模型來分析和預測科研和工業(yè)領域中的大批量數據。 在預測模型中,特征工程是機器學習的一個極具挑戰(zhàn)性的研究方向,對于提高模型準確性起著至關重要的作用[1]。 特征工程是將已給定的學習任務中的原始特征空間轉換來提高模型的性能,在圖像[2]、音頻[3]和廣告[4]等許多領域都得到了廣泛應用。 但是,在特征工程中的應用實踐中,面臨著很多問題,具體闡釋如下:

      (1)時間花銷大:在機器學習任務模型中,傳統(tǒng)特征工程常常會占用超過一半的時間和計算資源。

      (2)需要領域經驗:在特定領域,需要人工把領域經驗添加到特征空間中,工作量大且不可擴展。

      (3)任務需求量大:機器學習模型的爆發(fā)性增量需求,使得特征工程任務量變大,再由人工參與所有特征工程任務跡近不可能。

      因此,特征工程的自動化應運而生,自動化特征工程(Automated Feature Engineering)是自動化機器學習(Automated Machine Learning)[5]中的一個重要方向,其目的在于無需使用領域知識以及人工參與的情況下,就能自動生成高質量的特征來提高數據模型的性能。 自動化特征工程可實現(xiàn)機器學習任務流程的部分自動化,改善可操作性,且省去大量人工參與時間,從而提高效率。

      在時間維度上,早期的自動化特征工程研究雖然未能創(chuàng)建一個實現(xiàn)多元化測量與評估的框架,但也在眾多分支領域上取得了不小的進展[6-15]。 近年來,陸續(xù)涌現(xiàn)出許多自動化特征工程框架[16-23],能夠為機器學習模型目標行為的捕捉預測和預測性能的提升提供了基礎數據,也使得工業(yè)問題的決策流程變得更為順暢高效[24-31],還為特征工程的一些問題給出了標準化的執(zhí)行步驟[32-36],不僅降低了任務的計算資源消耗、而且省去了人工添加特征。 本文主要圍繞自動化特征工程中3 種方案,分別是:基于擴張縮減(Expansion-reduction)的策略,以進化為中心(Evolution -centric) 的策略和性能引導搜索(Performance-based exploration)的策略。 對此擬展開研究論述如下。

      1 基于擴張縮減的策略

      特征生成的方法之一是把所有轉換簡單地應用于所有的數據,并對所有生成的特征空間進行求和,這將導致特征空間生成大量特征,雖然其中一部分特征可以對任務目標有效果提升作用,但是訓練模型若要使用這種龐大的特征空間去進行訓練卻極為困難。 基于此,就可應用特征選擇方法來篩選特征空間,該方法則稱為擴張縮減法。 擴張縮減的設計結構如圖1 所示。

      圖1 擴張縮減結構圖Fig. 1 The expansion-reduction architecture

      該方法的早期經典模型有FICUS[37],模型的擴張過程是通過定義運算函數(加法、減法、乘法和除法等)來形成潛在特征空間,縮減過程將使用信息增益引導波束搜索。 早期的擴張縮減模型只能生成相對簡單的新特征,并不能生成高階特征組合,這也限制了后續(xù)機器學習模型任務的性能。

      大多數的擴張縮減模型采用預定義的運算函數生 成 特 征。 Kanter 等 人[38]提 出 Deep Feature Synthesis(DFS),DFS 的擴張過程是使用一組預定義的運算函數,用于連接表和構建新特征,縮減過程是使用截斷奇異值分解(Truncated SVD)進行特征選擇。 該模型的不足即在于預定義的函數會用到所有的原始特征空間,因此模型計算時間相對較長。 此后,DAFEE[39]對DFS 方法進行了改進。 在擴張過程中,對實體之間的關系做連接合并等操作,如此一來則改善了DFS 不能生成部分復雜特征的弊端。

      在擴張縮減方法中,雖然大多數方法試圖通過構造運算函數和算子來生成優(yōu)質特征,但近年來已有研究工作實現(xiàn)了通過分析特征間關系來生成特征。

      AutoLearn[40]的擴張過程是通過回歸分析特征對來生成相關特征,縮減過程是通過穩(wěn)定性搜索(Stability Based Selection)和信息增益算法篩選特征空間,該模型的局限性是回歸擬合未能考慮類別信息、即沒能挖掘不同類別中2 個特征間的不同關系。LBR[41]則對AutoLearn 進行了改進。 LBR 的擴張過程是在回歸擬合特征對前,基于標簽對特征進行了分類、且一并考慮到特征對的類別信息,在縮減過程中, 使 用 最 大 信 息 系 數( Maximal Information Coefficient)進行特征篩選,卻仍不能避免回歸擬合過程計算資源開銷過大的缺陷。

      擴張縮減法的特征生成方式總體上是構建運算函數或者回歸分析特征。 這些方式實現(xiàn)起來相對容易,代價是很難學習到不同的轉換方式去生成特征,同時因為特征數量的超線性復雜度,幾乎不可能去遞歸擴張縮減模型。 所以擴張縮減模型的性能優(yōu)劣也嚴重依賴于特征選擇模塊。 因此擴張縮減模型在可伸縮性的層次上較為極端。

      2 以進化為中心的策略

      和擴張縮減方法相比,一次生成一個新特征,而后進行訓練和評估,由此確定新特征是否值得保留,這種方法叫做以進化為中心法。 以進化為中心的設計結構如圖2 所示。 該方法雖比擴張縮減方法更具有拓展性,但是在效率上卻更慢,因為方法中涉及到模型的訓練和評估,以及可以生成的整個特征空間。而且由于生成特征的實踐成本并不低,使得該方法只有在未添加深度變換的情況才具有可行性。

      圖2 以進化為中心結構圖Fig. 2 The evolution-centric architecture

      該方法的早期模型有FEADIS[42]。 通過使用預定義的運算函數生成潛在的特征空間,再使用貪婪算法從潛在的特征空間中隨機地選擇特征來做進化,此后反復迭代,直到模型的性能不再提升為止。該方法的不足是多輪迭代需要耗費大量的時間和計算資源。

      以進化為中心模型同樣有以預定義的運算函數和算子生成特征的方法。 ExploreKit[43]模型提出一項使用可擴展的多階算子生成特征和多維度信息排序以及迭代評估的框架,模型的特征生成部分是使用當前特征空間的多階算子組合來生成大量候選特征,進化過程是利用多維度指標對特征排序逐一進行評估。 該模型的重要性就在于該框架能學習到基于分類目標的、從特征分布到特征工程方式的蘊含經驗的多分類器。

      同時,神經網絡也可以用來生成和進化特征空間。 LFE[44]提出基于多層感知機分類器的自動化特征工程模型。 LFE 可以從過去的經驗中學習轉換方法的有效性,考查所有特征組合的隨機樣本為,每個組合找到范例,并進化出最有用的特征。 該方法的不足之處主要表現(xiàn)在只能適用于分類數據集中。

      以進化為中心的方法中,也有實現(xiàn)分析特征間關系 的 研 究 成 果。 SAFE[45]的 特 征 生 成 采 用XGBoost 去挖掘特征之間的關系,利用信息增益比過濾特征組合,并使用預定義的算子生成特征,進化部分采用皮爾森系數和平均增益來篩選特征,選擇良好特征去做迭代進化。 該方法的分布式計算優(yōu)化可以緩解以進化為中心的迭代時間消耗。

      以進化為中心的生成特征方式與擴張縮減策略大致相似,而有關特征選擇的方式卻并不相同。 迭代處理雖然可以讓模型表現(xiàn)得更加優(yōu)秀,但相伴而生所帶來的時空復雜度和過擬合問題也不容忽視。因此以進化為中心在復雜度的問題上較為極端。

      3 性能引導搜索的策略

      到目前為止,已經討論了自動化特征工程的2種方法,這2 種方法在生成新特征的數量和所需時間形成較大的對比,且由于2 種方法各自的局限性,都會面臨一定的性能瓶頸。 此外,上述2 種方法往往很難生成復雜的特征變換,這往往直接關系著新特征的質量。 近年來,針對這些問題,又研發(fā)提出了性能引導搜索的策略。

      性能引導搜索的基礎框架[46]是使用有向無環(huán)圖(DAG)的層次結構,也可以稱作變換圖。 該框架的作用是對給定的數據集通過變換圖系統(tǒng)地枚舉自動化特征工程的方法,轉換圖的節(jié)點表示通過對數據集應用變換函數來獲得不同形式的數據集,數據集轉換的過程就是把所有的轉換函數應用于全部可能特征,同時生成多個附加特征,基于此再對可選特征進行選擇和訓練評估。

      因此,性能引導搜索框架通過每個轉換函數批量創(chuàng)建新特征,這在一定程度上可以視作就是擴張縮減和以進化為中心這2 種方法的中間體,避免了因極端策略導致的后果。 性能引導搜索的核心思想在于:完整的轉換圖本身將包含欲求解問題的全局解,但遍歷全圖的做法并不可取,因此框架將會選擇搜索精度的最高點。 RAAF[47]在探索方法上進行了優(yōu)化,使用了模擬退火法啟發(fā)式的探索,從而優(yōu)化了性能引導搜索可能導致的過擬合結果。

      性能引導搜索框架的重點不僅在于構建轉換圖,還在于圖的搜索策略。 強化學習搜索策略可以依靠經驗學習和強化學習優(yōu)化探索策略[48]。 把自動化特征工程任務轉化為異構轉換圖(HTG)的優(yōu)化問題,并在HTG 上使用了Q 學習來支持特征工程細粒度的高效探索,該方法還能將已有數據集的知識應用到新的數據集上。 這種探索方式,會持續(xù)監(jiān)控在給定的轉換圖上應用每個轉換操作所產生的性能改進的獎勵,學習一種策略來優(yōu)化這種獎勵,而策略也相當于行動效用函數。 在優(yōu)化獎勵的過程中,通過探查到行動的及時回報來學習這種行動效用函數。 CAFEM[49]在特征轉換圖的基礎上,使用了雙深度Q 學習(DDQN)的方法來做進一步探索,通過深度神經網絡估計狀態(tài)動作值以及貪婪的方法獲取接下來的動作。

      性能引導搜索的重點則在于探索策略的訓練。因為完整的變換圖是包含問題的全局解,但同時也是無界的。 探索策略直接決定最終模型的復雜度和特征質量。 目前的強化學習探索方式主要是Q 學習。 Q 學習在缺乏明確探索行為的情況下可以不斷學習其他算法。 這種方式也稱為學會學習(learning to learn)或者元學習(meta-learning)[50]。

      4 自動化特征工程研究評析

      自動化特征工程在計算和決策方面都具有較強的挑戰(zhàn)性,不僅因為可以構造的預選特征數量是無限的,而且也因為要對每個新特征進行訓練和驗證,這是代價非常昂貴的步驟,也是目前很多模型亟待解決的焦點問題。 由于代價昂貴,則只能設置一定的閾值就停止訓練,而無法達到模型的性能上限。 即使在中等規(guī)模的數據集上,常規(guī)的以進化為中心的自動化特征工程模型都要幾天的時間才能完成。 更大的問題是,從一個評估試驗到另一個評估試驗的結果基本沒有可重用性。 以擴張縮減的方法雖然可以避免多輪迭代,但是這種減少執(zhí)行次數來訓練驗證嘗試的方式本身就會存在可擴展性的問題和速度瓶頸。

      近兩年的自動化特征工程的研究聚焦于性能引導搜索的策略,盡管此策略已經展現(xiàn)出在可擴展性和特征質量方面的長足優(yōu)勢,但卻依然難以避免源于性能驅動所導致的過擬合、以及隨即帶來的泛化問題。 由于現(xiàn)如今的數據量在不斷增加,對時間和空間的復雜性的要求很高,同時業(yè)務的快速變化也對模型的靈活性和擴展性提出了更高的要求,因此,自動化特征工程還面臨著如下挑戰(zhàn):

      (1)適用性:自動化特征工程的工具需要讓非專家更方便地使用,因此,最終的模型應該是具備優(yōu)良的用戶友好性。 此外,自動化特征工程的算法性能不應依賴大量的超參數優(yōu)化,而應使算法能夠適配更多的數據集。

      (2)高性能:考慮到自動化特征工程模型在特征生成和特征選擇的過程中,時空復雜度很高,特征維數也較多,因此實現(xiàn)算法分布式計算來提高模型性能是必要、且重要的,這就使得在模型的特征生成和特征選擇部分要做到并行計算。

      (3)解釋性:自動化特征工程模型在實際的應用中,高效益的新特征需要有可解釋性[51],而不是直接使用深度學習隱式的構建特征,從而容易導致過擬合。

      5 結束語

      本文針對自動化特征工程進行探討研究。 首先介紹了自動化特征工程的背景,接著根據自動化特征工程的不同發(fā)展方向進行了綜合論述,最后針對自動化特征工程發(fā)展做了研究簡析。 對于了解自動化特征工程的發(fā)展脈絡有著一定借鑒和參考價值。

      猜你喜歡
      特征選擇特征性能
      如何表達“特征”
      提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      抓住特征巧觀察
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標特征選擇算法
      Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
      強韌化PBT/PC共混物的制備與性能
      中國塑料(2015年4期)2015-10-14 01:09:28
      RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
      火炸藥學報(2014年1期)2014-03-20 13:17:29
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      西和县| 沁水县| 托里县| 镇巴县| 巫溪县| 长葛市| 黄冈市| 日照市| 茌平县| 格尔木市| 会同县| 虎林市| 漳平市| 蒲城县| 赤城县| 瑞安市| 瑞金市| 沁源县| 衡阳县| 临清市| 许昌县| 青浦区| 合山市| 洪湖市| 伊金霍洛旗| 昌图县| 南昌市| 沙雅县| 丰台区| 达州市| 荥经县| 即墨市| 翁源县| 加查县| 云林县| 曲阜市| 金华市| 剑河县| 灵台县| 苗栗市| 阜阳市|