Data Science Central 顧晨波 笪潔瓊 Aileen
我們正在進(jìn)入數(shù)據(jù)科學(xué)實踐的新階段,即“無代碼”時代。 像所有重大的變化一樣,這個變化還沒有在實踐中清晰地體現(xiàn),但這個變化影響深遠(yuǎn),發(fā)展趨勢非常明顯。
現(xiàn)在,每一周都會有一些自動代碼行業(yè)的最新進(jìn)展。創(chuàng)業(yè)公司的集成產(chǎn)品是有一些進(jìn)展的,不過更多見的是基于現(xiàn)有分析平臺供應(yīng)商新添加的功能或模塊。自從自動化機(jī)器學(xué)習(xí)(AML)平臺出現(xiàn)以來,我一直在關(guān)注它們的成長。我在2016年春天,撰寫了一篇關(guān)于它們的文章,題目是“數(shù)據(jù)科學(xué)家將被自動化機(jī)器學(xué)習(xí)平臺取代并在2025年失業(yè)!”當(dāng)然,我的預(yù)測不是絕對準(zhǔn)確的,但在過去的兩年半里,自動化功能在我們機(jī)器學(xué)習(xí)行業(yè)中的發(fā)展確實非常引人注目。
不需要人工寫代碼的數(shù)據(jù)科學(xué)
無代碼數(shù)據(jù)科學(xué)或自動機(jī)器學(xué)習(xí),或者可以稱為簡單易用的 “增強(qiáng)型”數(shù)據(jù)科學(xué)產(chǎn)品,范圍包括:
附帶指導(dǎo)的平臺:具有高度指導(dǎo)功能的建模程序平臺(當(dāng)然還是需要用戶完成一定步驟,這樣的平臺有BigML,SAS,Alteryx)。經(jīng)典的簡易操作平臺(drag-and-drop )是這一代的基礎(chǔ)。
自動機(jī)器學(xué)習(xí)(AML):全自動機(jī)器學(xué)習(xí)平臺(例如DataRobot)。
會話分析:在最新版本中,用戶只要提出可以通過常用英語解決的問題,平臺就會提供最佳答案,選擇數(shù)據(jù),特征,建模技術(shù),甚至可能是最佳數(shù)據(jù)可視化。
不僅僅為了先進(jìn)的分析
我們工具的智能擴(kuò)展從預(yù)測和規(guī)范建模,已經(jīng)擴(kuò)展到了數(shù)據(jù)混合和數(shù)據(jù)準(zhǔn)備領(lǐng)域,甚至擴(kuò)展到數(shù)據(jù)視覺設(shè)計的領(lǐng)域。這意味著無代碼智能功能可提供傳統(tǒng)商學(xué)院的商業(yè)智能分析師使用,當(dāng)然也可以為公民數(shù)據(jù)學(xué)者提供支持。這種演變的市場驅(qū)動因素眾所周知。在高級分析和人工智能中,核心的困難在于精英數(shù)據(jù)科學(xué)家的短缺,以及其高昂的成本和迫切的需求。在這個領(lǐng)域,最需要的是洞察力,效率和一致性。簡而言之,就是效率高,速度快。
然而,上述工具在數(shù)據(jù)準(zhǔn)備、混合、特征識別領(lǐng)域,對數(shù)據(jù)科學(xué)家來說也很重要,但是這些工具真正吸引的是有著更多數(shù)據(jù)分析師/ BI從業(yè)者的世界。在這個世界中,經(jīng)典靜態(tài)數(shù)據(jù)的ETL仍然是一個巨大的負(fù)擔(dān)和時間的延遲,它正在從IT專家的功能迅速轉(zhuǎn)向自助服務(wù)。
簡易平臺->寫代碼->回到簡易平臺
我在2001年開始從事數(shù)據(jù)科學(xué)研究時,SAS和SPSS是主要的工具,并且已經(jīng)從他們的專有代碼轉(zhuǎn)向簡易操作平臺,這便是機(jī)器學(xué)習(xí)自動化的最早形式。在這之后的7~8年,學(xué)術(shù)界轉(zhuǎn)向R語言教學(xué),因為雖然SAS和SPSS向?qū)W生免費(fèi)開放,但是他們?nèi)匀幌蚪處熓召M(fèi)。但是,R一直是免費(fèi)的。然后我們就到了這樣一個時代,一直持續(xù)到今天。在這個時代里,成為數(shù)據(jù)科學(xué)家意味著成為程序員。用代碼作業(yè),這就是當(dāng)前這一代數(shù)據(jù)科學(xué)家受到教育的方式,也是他們在數(shù)據(jù)科學(xué)實踐的方式。
人們有著一個并不正確的誤解:在簡易操作系統(tǒng)平臺中,不允許微小超參數(shù)的調(diào)試,而這應(yīng)該被允許。如果你曾經(jīng)使用過SAS Enterprise Miner或其競爭對手的平臺上,那么您知道這個想法并不對,事實上,微調(diào)非常容易做到。在我的腦海里,總需要寫代碼是一個不必要的彎路——這往往會讓新的數(shù)據(jù)科學(xué)實踐者忽視基礎(chǔ)知識,而致力于學(xué)習(xí)另一種編程語言。
模型質(zhì)量怎么樣
我們傾向于將“提高模型的準(zhǔn)確性”視為高級分析是否成功的標(biāo)準(zhǔn)。有一種觀念認(rèn)為,依靠自動化的無代碼解決方案會丟失部分準(zhǔn)確性。事實并非如此。像DataRobot,Tazi.ai和OneClick.ai這樣的AutoML平臺不僅支持并行運(yùn)行數(shù)百種模型類型,還包括超參數(shù),而且它們還可以執(zhí)行變換、特征選擇甚至進(jìn)行一些特征工程。在準(zhǔn)確度上擊敗這樣的平臺是很困難的。
需要注意的是,應(yīng)用特征工程領(lǐng)域的專業(yè)知識仍然是人類的優(yōu)勢。也許更重要的是,你在開發(fā)上花費(fèi)幾周時間得到的結(jié)果和這些AutoML平臺提供的幾天甚至幾小時的結(jié)果相似,到底哪個更值?
無代碼化帶來更深遠(yuǎn)的影響
在我看來,無代碼化的最大受益者實際上是傳統(tǒng)數(shù)據(jù)分析師和數(shù)據(jù)學(xué)者,他們?nèi)匀蛔铌P(guān)注BI靜態(tài)數(shù)據(jù)。獨立的數(shù)據(jù)混合和準(zhǔn)備平臺,對這個群體來說,是一個巨大的好處。
這些無代碼化數(shù)據(jù)準(zhǔn)備平臺,例如ClearStory Data,Paxata和Trifacta正在迅速將機(jī)器學(xué)習(xí)功能納入它們的流程,幫助用戶選擇合適的數(shù)據(jù)源進(jìn)行數(shù)據(jù)混合,判斷哪些數(shù)據(jù)項有價值,甚至它們的功能擴(kuò)展到了特征工程和特征選擇。
現(xiàn)代數(shù)據(jù)平臺正在使用嵌入式機(jī)器學(xué)習(xí)技術(shù),作為智能數(shù)據(jù)自動清洗或異常值處理的典范。其他公司,例如Octopai公司,剛剛被Gartner評為“5大酷炫公司”之一,專注于讓用戶通過自動化技術(shù)快速查找可信數(shù)據(jù),使用機(jī)器學(xué)習(xí)和模式分析來確定不同的數(shù)據(jù)要素,創(chuàng)建的背景數(shù)據(jù),以及數(shù)據(jù)的預(yù)使用和轉(zhuǎn)換之間的關(guān)系。
這些平臺還通過強(qiáng)制執(zhí)行權(quán)限以及保護(hù)PID和其他類似敏感數(shù)據(jù)來實現(xiàn)數(shù)據(jù)安全的自助服務(wù)。甚至數(shù)據(jù)可視化技術(shù)的領(lǐng)導(dǎo)者Tableau也正在使用自然語言處理和其他機(jī)器學(xué)習(xí)工具推出會話分析功能,允許用戶以簡單的英語提出查詢要求,并收到最優(yōu)可視化效果。
對數(shù)據(jù)科學(xué)家意味著什么
Gartner認(rèn)為,在兩年內(nèi),即到2020年前,公民數(shù)據(jù)學(xué)者所完成的高級分析將在數(shù)量上和價值上超越數(shù)據(jù)科學(xué)家。他們建議數(shù)據(jù)科學(xué)家專注于專業(yè)問題,并將企業(yè)級模型嵌入到應(yīng)用程序中。
我不同意此想法,這似乎會使數(shù)據(jù)科學(xué)家降級去做QA和產(chǎn)品實施的工作。這不是我們的本職工作。我的看法是,由于較小的數(shù)據(jù)科學(xué)家團(tuán)隊能夠處理越來越多的項目,這將迅速把高級分析的使用范圍擴(kuò)大到更深入的項目組織層次。
在一兩年之間,我們的技術(shù)已經(jīng)整合了數(shù)據(jù)科學(xué)家必備的數(shù)據(jù)混合、數(shù)據(jù)清洗功能,以及選擇最適合某個項目的預(yù)測算法的能力。這正是自動無代碼化數(shù)據(jù)科學(xué)工具正在取代的領(lǐng)域。需要創(chuàng)建、監(jiān)控和管理成百上千個模型的公司是這種技術(shù)最早的采用者,特別是保險和金融服務(wù)行業(yè)。
那還剩下了什么?剩下了分析優(yōu)化師的高級角色。麥肯錫最近認(rèn)為這是任何數(shù)據(jù)科學(xué)項目中最重要的角色。簡而言之,分析優(yōu)化師的工作如下:1.引導(dǎo)并識別在公司業(yè)務(wù)中,在哪里數(shù)據(jù)分析可以發(fā)揮作用。2.優(yōu)化分析的流程排序。3.在項目中,能夠勝任項目的經(jīng)理。4.積極采用有效優(yōu)化成本效益解決方案。換句話說,將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)科學(xué)項目,并引導(dǎo)優(yōu)化各種類型的風(fēng)險和成果,使這些項目優(yōu)先化。
所謂的人工智能
是的,我們最近在圖像、文本和語音處理中使用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展中,也正在迅速推廣自動化無代碼化的解決方案。它們發(fā)展的速度還不夠快,是因為缺少具有深度學(xué)習(xí)技能的數(shù)據(jù)科學(xué)家,這個問題比普通的數(shù)據(jù)科學(xué)行業(yè)還要嚴(yán)重。
微軟和谷歌都在去年推出了自動深度學(xué)習(xí)平臺。這些平臺從遷移學(xué)習(xí)起步,正朝向完整的AutoDL平臺進(jìn)發(fā)。詳細(xì)內(nèi)容請參閱微軟 Custom Vision Services和Google的類似條目Cloud AutoML。還有一些研究集成AutoDL平臺的初創(chuàng)公司。我們今年早些時候關(guān)注了OneClick.AI。它們包括了完整的AutoML和AutoDL平臺。 Gartner最近提名DimensionalMechanics,稱其擁有AutoDL平臺的“5大炫酷公司”之一。
曾經(jīng)有一段時間,我試圖持續(xù)更新和整合無代碼化AutoML和AutoDL的供應(yīng)商列表,并提供有關(guān)其功能的更新。但因為該行業(yè)的快速發(fā)展,使得這個整合的工作量急速上升。
據(jù)我所知,當(dāng)前沒有全面整合所有完全自動化或基本全自動化功能平臺供應(yīng)商的統(tǒng)計表格。然而,從Gartner的報告中,你可以看到,從IBM和SAS這些大企業(yè),到小型的初創(chuàng)公司都在提供類似服務(wù)。(文章出自《大數(shù)據(jù)文摘》)