Isaac Sacolick Charles
推特和臉書可以教會(huì)我們很多關(guān)于高效人工智能的知識(shí)。
據(jù)Gartner最近的一項(xiàng)調(diào)查,很多企業(yè)剛剛開始機(jī)器學(xué)習(xí)之旅,37%的企業(yè)已經(jīng)實(shí)施了人工智能。如果你已經(jīng)打開了機(jī)器學(xué)習(xí)的大門,在開始機(jī)器學(xué)習(xí)概念驗(yàn)證或者學(xué)習(xí)人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的完整指南之前,建議先想一想10個(gè)問題。
機(jī)器學(xué)習(xí)正在發(fā)展,頻繁報(bào)道出現(xiàn)了新的商業(yè)突破、科學(xué)進(jìn)步、框架改進(jìn)和最佳實(shí)踐。
對(duì)于那些擁有大規(guī)模機(jī)器學(xué)習(xí)項(xiàng)目并將人工智能視為業(yè)務(wù)核心的企業(yè),有很多東西值得我們學(xué)習(xí)。前不久在紐約的O'Reilly人工智能會(huì)議上,我發(fā)現(xiàn)了臉書和推特機(jī)器學(xué)習(xí)項(xiàng)目之間的幾個(gè)共同趨勢(shì)。
了解業(yè)務(wù)需求和競(jìng)爭(zhēng)因素
在臉書,機(jī)器學(xué)習(xí)被應(yīng)用于很多領(lǐng)域。在臉書主頁上,它搜索、翻譯語言、掃描新聞提要、識(shí)別上傳照片中的人臉,并查看顯示了哪些廣告。在后臺(tái),機(jī)器學(xué)習(xí)用于進(jìn)行內(nèi)容理解、語音識(shí)別、內(nèi)容完整性、情緒分析、不良內(nèi)容檢測(cè)和欺詐賬戶檢測(cè)。
同樣,還可以在推特的推文排名、廣告選擇、搜索功能和用戶推薦中看到推特的機(jī)器學(xué)習(xí)在發(fā)揮作用。機(jī)器學(xué)習(xí)還用于標(biāo)記罵人的推文、垃圾郵件和不適合工作的圖像。
你可能看不出來每種機(jī)器學(xué)習(xí)工作的規(guī)模,以及這兩家公司在差異化上的投入情況。
臉書每天為其26億用戶進(jìn)行超過200萬億次的預(yù)測(cè)。其很多用戶都是全球性的,帶寬有限,大量的交互都是通過移動(dòng)電話完成的。
這帶來了一些難題,因?yàn)?1%的全球移動(dòng)用戶的手機(jī)都使用了6年甚至更長(zhǎng)時(shí)間;只有不到10%的用戶使用最先進(jìn)的智能手機(jī)。臉書的一種策略是把更多的神經(jīng)網(wǎng)絡(luò)計(jì)算轉(zhuǎn)移到邊緣設(shè)備上,以提高規(guī)模、降低延遲,并提供更個(gè)性化的機(jī)器學(xué)習(xí)模型。臉書的機(jī)器學(xué)習(xí)技術(shù)棧反映了它的目標(biāo),即大規(guī)模地進(jìn)行推理,并將一些計(jì)算卸載到邊緣設(shè)備上,使得更容易研究新模型。
推特根據(jù)規(guī)模和延遲需求優(yōu)化其模型。它每秒執(zhí)行數(shù)千萬次預(yù)測(cè),每天以數(shù)十TB的數(shù)據(jù)訓(xùn)練一些模型。該公司專注于優(yōu)化延遲,即模型響應(yīng)所需的時(shí)間,并定義了數(shù)十毫秒的預(yù)測(cè)延遲預(yù)算。
標(biāo)準(zhǔn)化平臺(tái)以擴(kuò)大規(guī)模
臉書和推特都很早就開始了他們的機(jī)器學(xué)習(xí)項(xiàng)目。他們從非結(jié)構(gòu)化方法開始,而現(xiàn)在正在采取措施使其平臺(tái)、框架和流水線標(biāo)準(zhǔn)化。推特的目標(biāo)是讓分享模型變得更容易,并希望減少重復(fù)性的工作。臉書正在解決可靠性、可擴(kuò)展性、運(yùn)行模型的效率以及其科學(xué)家和工程師在開發(fā)體驗(yàn)等方面遇到的難題。
兩家公司的平臺(tái)都圍繞類似的數(shù)據(jù)流水線處理原則進(jìn)行了優(yōu)化。他們都有處理數(shù)據(jù)、提取特性、訓(xùn)練模型和把模型部署到生產(chǎn)環(huán)境中的步驟。
這兩家社交媒體巨頭正在采取措施,對(duì)某些機(jī)器學(xué)習(xí)框架進(jìn)行標(biāo)準(zhǔn)化處理。臉書使用PyTorch進(jìn)行簡(jiǎn)單研究,而Caffe2則大規(guī)模運(yùn)行生產(chǎn)推理模型。它將這些整合到了Pytorch 1.0中,Pytorch 1.0結(jié)合了這兩種功能,并使用Caffe2Go運(yùn)行其移動(dòng)神經(jīng)網(wǎng)絡(luò)。推特混合使用了Lua Torch、TensorFlow、Scikit、PyTorch和其他平臺(tái)。它現(xiàn)在正在標(biāo)準(zhǔn)化Scalding、PySpark、TensorFlow,以及Apache Airflow。
讓科學(xué)家、開發(fā)人員和工程師協(xié)同工作
推特和臉書描述了在數(shù)據(jù)科學(xué)家、開發(fā)人員和工程師之間提高工作效率,實(shí)現(xiàn)知識(shí)共享和代碼重用的各種工作。
很多數(shù)據(jù)部門在其數(shù)據(jù)治理項(xiàng)目中建立了數(shù)據(jù)目錄和字典。利用這些工具,每個(gè)人在使用數(shù)據(jù)進(jìn)行分析或者機(jī)器學(xué)習(xí)實(shí)驗(yàn)時(shí)更容易理解基礎(chǔ)數(shù)據(jù)模型、字段定義和質(zhì)量約束。
推特把機(jī)器學(xué)習(xí)實(shí)驗(yàn)中使用的特征標(biāo)準(zhǔn)化,并將其輸入到一個(gè)特征存儲(chǔ)目錄中,從而更進(jìn)了一步。這減少了重復(fù)工作,幫助科學(xué)家訓(xùn)練新模型,更輕松地把數(shù)據(jù)處理成特征。
臉書也在對(duì)其特征進(jìn)行編目和標(biāo)準(zhǔn)化,實(shí)現(xiàn)訓(xùn)練的自動(dòng)化,開發(fā)管理和部署模型的工具。FBLearner是其支持這些功能的標(biāo)準(zhǔn)平臺(tái)。
此外,臉書正在標(biāo)準(zhǔn)化所使用的機(jī)器學(xué)習(xí)類型。例如,新聞提要、廣告、搜索和異常檢測(cè)的排名使用多層感知器。它還利用卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)進(jìn)行面部識(shí)別,并利用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行語言翻譯。
自動(dòng)化機(jī)器學(xué)習(xí)模型的連續(xù)訓(xùn)練
就像軟件應(yīng)用程序一樣,機(jī)器學(xué)習(xí)模型需要不斷地進(jìn)行訓(xùn)練和修改。臉書和推特都將這種訓(xùn)練自動(dòng)化,這樣,模型就可以用新數(shù)據(jù)重新進(jìn)行調(diào)整。
推特認(rèn)識(shí)到,將模型投入到產(chǎn)品中會(huì)產(chǎn)生新的要求,即讓模型接受最新數(shù)據(jù)的訓(xùn)練,并在數(shù)據(jù)科學(xué)家改進(jìn)模型時(shí)對(duì)其進(jìn)行更新。Apache Airflow自動(dòng)化了訓(xùn)練和部署流水線。
臉書在其策略上非常明確。對(duì)于頻繁變化的模型,例如新聞提要,可以每小時(shí)甚至在更短的時(shí)間內(nèi)再訓(xùn)練一次,而語言翻譯和面部識(shí)別模型的訓(xùn)練周期可以是幾周到幾個(gè)月。
計(jì)算成本和計(jì)算資源的可用性也是影響模型重新訓(xùn)練頻率的因素。臉書可能有戰(zhàn)略計(jì)算優(yōu)勢(shì),因?yàn)樗_發(fā)了針對(duì)不同類型機(jī)器學(xué)習(xí)工作負(fù)載進(jìn)行過優(yōu)化的硬件堆棧。推特的重點(diǎn)是優(yōu)化算法性能,以及在全球計(jì)算資源利用較低的非高峰時(shí)間段安排訓(xùn)練。
長(zhǎng)遠(yuǎn)規(guī)劃
與大多數(shù)企業(yè)相比,推特和臉書在應(yīng)用和擴(kuò)展機(jī)器學(xué)習(xí)方面遠(yuǎn)遠(yuǎn)領(lǐng)先于成熟度曲線。我們能從他們的成功中學(xué)到什么?
從小處著手,通過訓(xùn)練模型和在產(chǎn)品中運(yùn)行來驗(yàn)證業(yè)務(wù)價(jià)值,然后進(jìn)一步投入,以擴(kuò)大規(guī)模,讓實(shí)踐成熟起來。成熟的實(shí)踐需要類似于應(yīng)用程序開發(fā)的規(guī)程,包括標(biāo)準(zhǔn)化框架、定義體系結(jié)構(gòu)、選擇維護(hù)周期、優(yōu)化性能,以及自動(dòng)部署流水線。
你會(huì)看到,機(jī)器學(xué)習(xí)提供了巨大的價(jià)值,但也需要圍繞性能和投入進(jìn)行持續(xù)的調(diào)查,以做出改進(jìn)。模型得到訓(xùn)練、部署、優(yōu)化,然后被更好的模型所取代。機(jī)器學(xué)習(xí)是一種新的工具和技能集,對(duì)于必須改善用戶體驗(yàn)或者利用數(shù)據(jù)提高競(jìng)爭(zhēng)價(jià)值的企業(yè)來說,它將變得越來越重要。
Isaac Sacolick是公認(rèn)的社交領(lǐng)域的最佳首席信息官,也是“社交、敏捷和轉(zhuǎn)型”以及CIO.com的長(zhǎng)期博主,還兼任StarCIO總裁。