機(jī)器學(xué)習(xí)實(shí)際應(yīng)用面臨的問題及解決思路

2017-10-19 22:06:24王曉麗

新教育時(shí)代·教師版 2017年39期

王曉麗

摘要：隨著計(jì)算機(jī)技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)越來越熱門且應(yīng)用也愈加廣泛，比如語音、圖像處理等諸多方面。但是，機(jī)器學(xué)習(xí)并沒有達(dá)到可以簡單進(jìn)行實(shí)際應(yīng)用的狀態(tài)，文章主要介紹機(jī)器學(xué)習(xí)實(shí)際應(yīng)用面臨的問題及解決思路。

關(guān)鍵詞：機(jī)器學(xué)習(xí) 特征提取自動(dòng)化架構(gòu)優(yōu)化

一、引言

由于大數(shù)據(jù)時(shí)代的到來以及并行計(jì)算技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)得到學(xué)術(shù)界和工業(yè)界越來越多的重視及研究。然而，機(jī)器學(xué)習(xí)在實(shí)際應(yīng)用時(shí)面臨的問題更加復(fù)雜多變。因此，實(shí)際應(yīng)用中的機(jī)器學(xué)習(xí)平臺(tái)必須是一個(gè)可以擴(kuò)展的系統(tǒng)，該系統(tǒng)要能夠適應(yīng)數(shù)據(jù)量和用戶的實(shí)時(shí)變化，實(shí)現(xiàn)計(jì)算水平和吞吐量的智能擴(kuò)展。然而，當(dāng)前的機(jī)器學(xué)習(xí)還沒有達(dá)到如此智能化的水平，怎樣進(jìn)行模型的優(yōu)化訓(xùn)練、怎樣實(shí)現(xiàn)參數(shù)的有效選擇、怎樣將特征進(jìn)行高效組合等問題都需要進(jìn)一步研究解決。

二、機(jī)器學(xué)習(xí)實(shí)際應(yīng)用面臨的難題

1.實(shí)際應(yīng)用系統(tǒng)架構(gòu)復(fù)雜

機(jī)器學(xué)習(xí)實(shí)際應(yīng)用系統(tǒng)架構(gòu)如圖1所示。由圖知，機(jī)器學(xué)習(xí)系統(tǒng)得到的數(shù)據(jù)需經(jīng)過數(shù)據(jù)歸集與整理、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗、數(shù)據(jù)拼接以及特征工程等之后才能進(jìn)一步進(jìn)行模型訓(xùn)練。模型訓(xùn)練之后得到的模型在上線時(shí)要能夠保證系統(tǒng)工作穩(wěn)定以及系統(tǒng)工作的時(shí)效性和吞吐量等一系列指標(biāo)。與此同時(shí)，為了滿足線上系統(tǒng)的實(shí)時(shí)性和線上線下一致性，還需要一套對應(yīng)的線上系統(tǒng)。

2.沒有成熟的人工智能平臺(tái)，可遷移性差，使用門檻高

針對不同的行業(yè)，不同的企業(yè)需求又會(huì)千差萬別，目前還沒有成熟的機(jī)器學(xué)習(xí)平臺(tái)可已滿足各行各業(yè)的要求。當(dāng)前應(yīng)用廣泛的Hadoop平臺(tái)雖然本身是一個(gè)分布式系統(tǒng)，但其發(fā)展已相當(dāng)成熟，平臺(tái)的使用者不需要對分布式系統(tǒng)有深入的了解便可以使用該平臺(tái)。然而，目前的機(jī)器學(xué)習(xí)平臺(tái)則無法實(shí)現(xiàn)如此的智能化。當(dāng)前如果要使用機(jī)器學(xué)習(xí)平臺(tái)，就必須了解所有的前后組件及相關(guān)模型。并且，模型不同就需要不同的訓(xùn)練系統(tǒng)，對應(yīng)的數(shù)據(jù)、框架、特征提取等一系列就會(huì)不同，處理起來尤其復(fù)雜。所以，當(dāng)前機(jī)器學(xué)習(xí)平臺(tái)遷移性差，使用門檻高。

三、解決思路

（一）特征提取自動(dòng)化

特征提取是在某個(gè)模型下找到跟需求相關(guān)的關(guān)鍵屬性，這也是機(jī)器學(xué)習(xí)實(shí)際應(yīng)用中實(shí)現(xiàn)平臺(tái)智能化過程中需要解決的重要難題。

本文主要介紹三種實(shí)現(xiàn)特征提取自動(dòng)化的方法：隱式特征值組合，半顯式特征值組合及顯式特征值組合。

1.隱式特征值組合

隱式特征組合在語音處理和圖像處理方面應(yīng)用較為成功，其在處理連續(xù)特征值方面效果較好。在處理聲波或者像素這些原始數(shù)據(jù)時(shí)，深度學(xué)利用神經(jīng)元網(wǎng)絡(luò)產(chǎn)生底層的過濾器進(jìn)而產(chǎn)生層次化的特征值組合，其效果遠(yuǎn)超手工進(jìn)行的特征提取。但是，該借助神經(jīng)元網(wǎng)絡(luò)實(shí)現(xiàn)的深度學(xué)習(xí)在處理高維的離散變量時(shí)復(fù)雜度會(huì)大大提高。除此之外，該方法得到的結(jié)果可解釋性差，內(nèi)部處理過程無法實(shí)時(shí)監(jiān)督。

針對神經(jīng)網(wǎng)絡(luò)在處理離散數(shù)據(jù)時(shí)存在的問題，可以結(jié)合 Large Scale Embedding的技術(shù)加以解決。通過Embedding技術(shù)可以將單詞映射到低微的空間，再通過一系列處理形成等長的底層輸入，最后再用深度神經(jīng)網(wǎng)絡(luò)對模型進(jìn)行訓(xùn)練。之后，Embedding技術(shù)在越來越多的場景中得到應(yīng)用，其中，個(gè)性化推薦是一個(gè)典型的應(yīng)用場景，其利用Embedding技術(shù)來實(shí)現(xiàn)協(xié)同過濾。

迄今為止，Large Scale Embedding技術(shù)依然是研究領(lǐng)域的熱門，其中有一些典型的成果，比如Discrete Factorization Machine， FNN， PNN以及DeepFM等，；利用上述模型不僅可以實(shí)現(xiàn)特征值之間相互關(guān)系的查找，還可以記錄更加細(xì)微的特征。

2.半顯式特征組合

基于樹的模型得到的半顯示組合不僅可以實(shí)現(xiàn)特征值的組合，還具有一定程度的可解釋性。但是由于樹結(jié)構(gòu)的特點(diǎn)，該模型還無法直接顯示特征之間的相關(guān)性或特征的組合情況。該組合方式借助樹模型實(shí)現(xiàn)，是一種非線性模型。其優(yōu)點(diǎn)是具有較好的特征提取效果，并且相對容易理解。

3.顯式特征組合

該特征組合算法借助搜索和搜索優(yōu)化的思路，以及配合正則化和貪心的使用，最終利用笛卡爾積明確的將那些特征值加以組合。該方法的優(yōu)點(diǎn)是結(jié)果的可解釋性，可以通過更深入的分析知道哪些特征是有關(guān)系的，是應(yīng)該組合在一起的。除此之外，該方法得到的特征值還具有可疊加性。該方法產(chǎn)生的特征值可以進(jìn)一步應(yīng)用于機(jī)器學(xué)習(xí)，利用這些顯示的特征值進(jìn)行模型訓(xùn)練。現(xiàn)在常用的顯式特征值組合算法主要有基于Boosting的算法以及基于Regularization的算法。

下面介紹一種新型的顯示特征組合算法—FG。該算法基于MCTS，對特征值以及特征值的組合情況進(jìn)行建模，進(jìn)一步對特征組合的收益函數(shù)進(jìn)行訓(xùn)練。在特征值組合過程中加入調(diào)優(yōu)技術(shù)，最終得到的特征值組合可以達(dá)到十階以上，并且具有更好的效果。

下面是在兩個(gè)數(shù)據(jù)集（higgs、criteoDeepFM）上對FG算法進(jìn)行實(shí)驗(yàn)，兩個(gè)數(shù)據(jù)集的信息如表1所示：

使用FG產(chǎn)生的特征值集，利用LR模型對這兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練，使用AUC作為評測指標(biāo)。得到的實(shí)驗(yàn)結(jié)果如表2所示。

由表2知，先使用FG算法進(jìn)行特征值組合之后再利用LR模型進(jìn)行訓(xùn)練的結(jié)果比直接用LR模型訓(xùn)練的結(jié)果都有非常明顯的提升。

（二）架構(gòu)優(yōu)化

近隨著各類技術(shù)的飛速發(fā)展，不斷涌現(xiàn)出新的架構(gòu)實(shí)現(xiàn)方式。對于怎樣設(shè)計(jì)出高可用性、靈活快速適應(yīng)變化的、易維護(hù)的、前沿的、安全的系統(tǒng)架構(gòu)是架構(gòu)優(yōu)化的目標(biāo)。

沒有最好的架構(gòu)，只有最合適的架構(gòu)。一個(gè)好的架構(gòu)要綜合考慮具體的需求、所具備的資源等因素。特別是當(dāng)今，業(yè)務(wù)以及數(shù)據(jù)的飛速變化、無處不在等因素的影響，技術(shù)和框架也必須緊跟這些變化，不斷地修正提升以適應(yīng)不斷變化的業(yè)務(wù)需要。endprint

四、結(jié)語

機(jī)器學(xué)習(xí)從誕生以來，理論和技術(shù)日益成熟，應(yīng)用領(lǐng)域也不斷擴(kuò)大，但還不能快速的應(yīng)用于實(shí)際生產(chǎn)之中，仍面臨諸多問題。比如實(shí)際應(yīng)用中如何訓(xùn)練出好的模型、如何去選擇好的參數(shù)、如何進(jìn)行特征組合等。本文介紹了解決實(shí)際應(yīng)用中面臨的關(guān)鍵問題的思路：自動(dòng)化特征值工程及架構(gòu)優(yōu)化。通過自動(dòng)化特征值工程可以自動(dòng)的找出與要解決問題相關(guān)的關(guān)鍵屬性，更加智能有效。通過架構(gòu)優(yōu)化可取得更高的效率。

參考文獻(xiàn)

[1]S.Kotsiantis， Feature selection for machine learning classification problems： a recent overview[J]， Artificial Intelligence Review. 2011：1-20.

[2]Q. Zhu， L. Lin， M.-L. Shyu， S.-C. Chen， Feature Selection Using Correlation and Reliability Based Scoring Metric for Video Semantic Detection[C]， IEEE Fourth International Conference on Semantic Computing， 2010： 462-469.

[3]H.Ogura， H.Amano，M.Kondo， Comparison of metrics for feature selection in imbalanced text classifi- cation[J]，Expert Systems with Applications. 2011， 38（5）：4978-4989.

[4]Y.Saeys，I.Inza，P.Larranaga， A review of feature selection techniques in bioinformatics[J]， Bioinfor- matics. 2007， 23（19）：2507-2517.

[5]李國杰，程學(xué)旗. 大數(shù)據(jù)研究：未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域--大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.中國科學(xué)院院刊，2012，27（6），647-657endprint