王曉麗
摘 要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)越來越熱門且應(yīng)用也愈加廣泛,比如語音、圖像處理等諸多方面。但是,機(jī)器學(xué)習(xí)并沒有達(dá)到可以簡單進(jìn)行實(shí)際應(yīng)用的狀態(tài),文章主要介紹機(jī)器學(xué)習(xí)實(shí)際應(yīng)用面臨的問題及解決思路。
關(guān)鍵詞:機(jī)器學(xué)習(xí) 特征提取自動(dòng)化 架構(gòu)優(yōu)化
一、引言
由于大數(shù)據(jù)時(shí)代的到來以及并行計(jì)算技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)得到學(xué)術(shù)界和工業(yè)界越來越多的重視及研究。然而,機(jī)器學(xué)習(xí)在實(shí)際應(yīng)用時(shí)面臨的問題更加復(fù)雜多變。因此,實(shí)際應(yīng)用中的機(jī)器學(xué)習(xí)平臺(tái)必須是一個(gè)可以擴(kuò)展的系統(tǒng),該系統(tǒng)要能夠適應(yīng)數(shù)據(jù)量和用戶的實(shí)時(shí)變化,實(shí)現(xiàn)計(jì)算水平和吞吐量的智能擴(kuò)展。然而,當(dāng)前的機(jī)器學(xué)習(xí)還沒有達(dá)到如此智能化的水平,怎樣進(jìn)行模型的優(yōu)化訓(xùn)練、怎樣實(shí)現(xiàn)參數(shù)的有效選擇、怎樣將特征進(jìn)行高效組合等問題都需要進(jìn)一步研究解決。
二、機(jī)器學(xué)習(xí)實(shí)際應(yīng)用面臨的難題
1.實(shí)際應(yīng)用系統(tǒng)架構(gòu)復(fù)雜
機(jī)器學(xué)習(xí)實(shí)際應(yīng)用系統(tǒng)架構(gòu)如圖1所示。由圖知,機(jī)器學(xué)習(xí)系統(tǒng)得到的數(shù)據(jù)需經(jīng)過數(shù)據(jù)歸集與整理、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗、數(shù)據(jù)拼接以及特征工程等之后才能進(jìn)一步進(jìn)行模型訓(xùn)練。模型訓(xùn)練之后得到的模型在上線時(shí)要能夠保證系統(tǒng)工作穩(wěn)定以及系統(tǒng)工作的時(shí)效性和吞吐量等一系列指標(biāo)。與此同時(shí),為了滿足線上系統(tǒng)的實(shí)時(shí)性和線上線下一致性,還需要一套對應(yīng)的線上系統(tǒng)。
2.沒有成熟的人工智能平臺(tái),可遷移性差,使用門檻高
針對不同的行業(yè),不同的企業(yè)需求又會(huì)千差萬別,目前還沒有成熟的機(jī)器學(xué)習(xí)平臺(tái)可已滿足各行各業(yè)的要求。當(dāng)前應(yīng)用廣泛的Hadoop平臺(tái)雖然本身是一個(gè)分布式系統(tǒng),但其發(fā)展已相當(dāng)成熟,平臺(tái)的使用者不需要對分布式系統(tǒng)有深入的了解便可以使用該平臺(tái)。然而,目前的機(jī)器學(xué)習(xí)平臺(tái)則無法實(shí)現(xiàn)如此的智能化。當(dāng)前如果要使用機(jī)器學(xué)習(xí)平臺(tái),就必須了解所有的前后組件及相關(guān)模型。并且,模型不同就需要不同的訓(xùn)練系統(tǒng),對應(yīng)的數(shù)據(jù)、框架、特征提取等一系列就會(huì)不同,處理起來尤其復(fù)雜。所以,當(dāng)前機(jī)器學(xué)習(xí)平臺(tái)遷移性差,使用門檻高。
三、解決思路
(一)特征提取自動(dòng)化
特征提取是在某個(gè)模型下找到跟需求相關(guān)的關(guān)鍵屬性,這也是機(jī)器學(xué)習(xí)實(shí)際應(yīng)用中實(shí)現(xiàn)平臺(tái)智能化過程中需要解決的重要難題。
本文主要介紹三種實(shí)現(xiàn)特征提取自動(dòng)化的方法:隱式特征值組合,半顯式特征值組合及顯式特征值組合。
1.隱式特征值組合
隱式特征組合在語音處理和圖像處理方面應(yīng)用較為成功,其在處理連續(xù)特征值方面效果較好。在處理聲波或者像素這些原始數(shù)據(jù)時(shí),深度學(xué)利用神經(jīng)元網(wǎng)絡(luò)產(chǎn)生底層的過濾器進(jìn)而產(chǎn)生層次化的特征值組合,其效果遠(yuǎn)超手工進(jìn)行的特征提取。但是,該借助神經(jīng)元網(wǎng)絡(luò)實(shí)現(xiàn)的深度學(xué)習(xí)在處理高維的離散變量時(shí)復(fù)雜度會(huì)大大提高。除此之外,該方法得到的結(jié)果可解釋性差,內(nèi)部處理過程無法實(shí)時(shí)監(jiān)督。
針對神經(jīng)網(wǎng)絡(luò)在處理離散數(shù)據(jù)時(shí)存在的問題,可以結(jié)合 Large Scale Embedding的技術(shù)加以解決。通過Embedding技術(shù)可以將單詞映射到低微的空間,再通過一系列處理形成等長的底層輸入,最后再用深度神經(jīng)網(wǎng)絡(luò)對模型進(jìn)行訓(xùn)練。之后,Embedding技術(shù)在越來越多的場景中得到應(yīng)用,其中,個(gè)性化推薦是一個(gè)典型的應(yīng)用場景,其利用Embedding技術(shù)來實(shí)現(xiàn)協(xié)同過濾。
迄今為止,Large Scale Embedding技術(shù)依然是研究領(lǐng)域的熱門,其中有一些典型的成果,比如Discrete Factorization Machine, FNN, PNN以及DeepFM等,;利用上述模型不僅可以實(shí)現(xiàn)特征值之間相互關(guān)系的查找,還可以記錄更加細(xì)微的特征。
2.半顯式特征組合
基于樹的模型得到的半顯示組合不僅可以實(shí)現(xiàn)特征值的組合,還具有一定程度的可解釋性。但是由于樹結(jié)構(gòu)的特點(diǎn),該模型還無法直接顯示特征之間的相關(guān)性或特征的組合情況。該組合方式借助樹模型實(shí)現(xiàn),是一種非線性模型。其優(yōu)點(diǎn)是具有較好的特征提取效果,并且相對容易理解。
3.顯式特征組合
該特征組合算法借助搜索和搜索優(yōu)化的思路,以及配合正則化和貪心的使用,最終利用笛卡爾積明確的將那些特征值加以組合。該方法的優(yōu)點(diǎn)是結(jié)果的可解釋性,可以通過更深入的分析知道哪些特征是有關(guān)系的,是應(yīng)該組合在一起的。除此之外,該方法得到的特征值還具有可疊加性。該方法產(chǎn)生的特征值可以進(jìn)一步應(yīng)用于機(jī)器學(xué)習(xí),利用這些顯示的特征值進(jìn)行模型訓(xùn)練。現(xiàn)在常用的顯式特征值組合算法主要有基于Boosting的算法以及基于Regularization的算法。
下面介紹一種新型的顯示特征組合算法—FG。該算法基于MCTS,對特征值以及特征值的組合情況進(jìn)行建模,進(jìn)一步對特征組合的收益函數(shù)進(jìn)行訓(xùn)練。在特征值組合過程中加入調(diào)優(yōu)技術(shù),最終得到的特征值組合可以達(dá)到十階以上,并且具有更好的效果。
下面是在兩個(gè)數(shù)據(jù)集(higgs、criteoDeepFM)上對FG算法進(jìn)行實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集的信息如表1所示:
使用FG產(chǎn)生的特征值集,利用LR模型對這兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,使用AUC作為評測指標(biāo)。得到的實(shí)驗(yàn)結(jié)果如表2所示。
由表2知,先使用FG算法進(jìn)行特征值組合之后再利用LR模型進(jìn)行訓(xùn)練的結(jié)果比直接用LR模型訓(xùn)練的結(jié)果都有非常明顯的提升。
(二)架構(gòu)優(yōu)化
近隨著各類技術(shù)的飛速發(fā)展,不斷涌現(xiàn)出新的架構(gòu)實(shí)現(xiàn)方式。對于怎樣設(shè)計(jì)出高可用性、靈活快速適應(yīng)變化的、易維護(hù)的、前沿的、安全的系統(tǒng)架構(gòu)是架構(gòu)優(yōu)化的目標(biāo)。
沒有最好的架構(gòu),只有最合適的架構(gòu)。一個(gè)好的架構(gòu)要綜合考慮具體的需求、所具備的資源等因素。特別是當(dāng)今,業(yè)務(wù)以及數(shù)據(jù)的飛速變化、無處不在等因素的影響,技術(shù)和框架也必須緊跟這些變化,不斷地修正提升以適應(yīng)不斷變化的業(yè)務(wù)需要。endprint
四、結(jié)語
機(jī)器學(xué)習(xí)從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,但還不能快速的應(yīng)用于實(shí)際生產(chǎn)之中,仍面臨諸多問題。比如實(shí)際應(yīng)用中如何訓(xùn)練出好的模型、如何去選擇好的參數(shù)、如何進(jìn)行特征組合等。本文介紹了解決實(shí)際應(yīng)用中面臨的關(guān)鍵問題的思路:自動(dòng)化特征值工程及架構(gòu)優(yōu)化。通過自動(dòng)化特征值工程可以自動(dòng)的找出與要解決問題相關(guān)的關(guān)鍵屬性,更加智能有效。通過架構(gòu)優(yōu)化可取得更高的效率。
參考文獻(xiàn)
[1]S.Kotsiantis, Feature selection for machine learning classification problems: a recent overview[J], Artificial Intelligence Review. 2011:1-20.
[2]Q. Zhu, L. Lin, M.-L. Shyu, S.-C. Chen, Feature Selection Using Correlation and Reliability Based Scoring Metric for Video Semantic Detection[C], IEEE Fourth International Conference on Semantic Computing, 2010: 462-469.
[3]H.Ogura, H.Amano,M.Kondo, Comparison of metrics for feature selection in imbalanced text classifi- cation[J],Expert Systems with Applications. 2011, 38(5):4978-4989.
[4]Y.Saeys,I.Inza,P.Larranaga, A review of feature selection techniques in bioinformatics[J], Bioinfor- matics. 2007, 23(19):2507-2517.
[5]李國杰,程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域--大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.中國科學(xué)院院刊,2012,27(6),647-657endprint