上個(gè)世紀(jì),數(shù)據(jù)科學(xué)作為一個(gè)研究和實(shí)際應(yīng)用領(lǐng)域的出現(xiàn)導(dǎo)致了深度學(xué)習(xí)、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等技術(shù)的發(fā)展。從廣義上講,機(jī)器學(xué)習(xí)的出現(xiàn)使其成為我們所說(shuō)的人工智能的一種工作方式,這一技術(shù)領(lǐng)域正在迅速改變我們的工作和生活方式。
數(shù)據(jù)科學(xué)包括理念的理論和實(shí)踐應(yīng)用,包括大數(shù)據(jù)、預(yù)測(cè)分析和人工智能。如果說(shuō)數(shù)據(jù)是信息時(shí)代的油,而ML(機(jī)器學(xué)習(xí))是引擎,那么數(shù)據(jù)科學(xué)就是數(shù)字領(lǐng)域的物理定律,它可以導(dǎo)致燃燒和活塞移動(dòng)。
需要記住的一個(gè)關(guān)鍵點(diǎn)是,隨著理解如何處理數(shù)據(jù)的重要性的增加,數(shù)據(jù)背后的科學(xué)變得越來(lái)越容易理解。新的階段,我們會(huì)看到這一趨勢(shì)對(duì)下文提到的許多趨勢(shì)的影響。
我們正在生成、收集和分析的數(shù)字?jǐn)?shù)據(jù)量的快速增長(zhǎng)通常被稱為大數(shù)據(jù)。然而,不僅僅是數(shù)據(jù)大——我們用來(lái)處理數(shù)據(jù)的ML算法也可能相當(dāng)大。GPT-3是能夠模擬人類語(yǔ)言的最大、最復(fù)雜的系統(tǒng),由大約1750億個(gè)參數(shù)組成。
如果您正在使用無(wú)限帶寬的基于云的系統(tǒng)上工作,這很好,但這并不能涵蓋ML能夠增值的所有用例。這就是為什么“小數(shù)據(jù)”的概念已成為一種范式,在時(shí)間、帶寬或能量消耗至關(guān)重要的情況下,促進(jìn)對(duì)最重要數(shù)據(jù)的快速認(rèn)知分析。它與邊緣計(jì)算的概念密切相關(guān)。例如,當(dāng)試圖在緊急情況下避免交通碰撞時(shí),自動(dòng)駕駛汽車無(wú)法依靠從集中式云服務(wù)器發(fā)送和接收數(shù)據(jù)。TinyML指的是機(jī)器學(xué)習(xí)算法,其設(shè)計(jì)旨在占用盡可能少的空間,以便它們可以在低功耗硬件上運(yùn)行,接近動(dòng)作所在的位置。2022年,我們將看到它出現(xiàn)在越來(lái)越多的嵌入式系統(tǒng)中——從可穿戴設(shè)備到家用電器、汽車、工業(yè)設(shè)備和農(nóng)業(yè)機(jī)械,使它們變得更加智能和有用。
這是企業(yè)如何利用數(shù)據(jù)并使它為我們提供越來(lái)越有價(jià)值或令人愉快的體驗(yàn)。這可能意味著減少電子商務(wù)中的摩擦和麻煩,在我們使用的軟件中提供更友好的界面和前端,或者在我們進(jìn)行客戶服務(wù)聯(lián)系時(shí),減少擱置和在不同部門(mén)之間轉(zhuǎn)移的時(shí)間。
我們與企業(yè)的互動(dòng)正變得越來(lái)越數(shù)字化——從AI聊天機(jī)器人到亞馬遜的無(wú)收銀員便利店——這意味著我們參與的每一個(gè)方面都可以進(jìn)行測(cè)量和分析,以了解如何使流程變得更加順暢或更加愉快。這也促使企業(yè)為我們提供的商品和服務(wù)實(shí)現(xiàn)更高水平的個(gè)性化。例如,在線零售技術(shù)的創(chuàng)新,因?yàn)槠髽I(yè)希望取代實(shí)體購(gòu)物旅行的親身體驗(yàn)和觸覺(jué)體驗(yàn)。尋找新的方法和策略,將這些客戶數(shù)據(jù)轉(zhuǎn)化為更好的客戶服務(wù)和新的客戶體驗(yàn),將是接下來(lái)數(shù)據(jù)科學(xué)領(lǐng)域許多工作人員關(guān)注的焦點(diǎn)。
今年,當(dāng)駭人聽(tīng)聞的真實(shí)視頻“deepfake”走紅時(shí),我們中的許多人被欺騙,以為湯姆·克魯斯已經(jīng)開(kāi)始在TikTok上發(fā)帖了。這背后的技術(shù)被稱為生成人工智能,因?yàn)樗荚谏苫騽?chuàng)造一些現(xiàn)實(shí)中不存在的東西——在本例中,湯姆·克魯斯用與米哈伊爾·戈?duì)柊蛦谭驎?huì)面的故事來(lái)款待我們。生成型人工智能很快就融入了藝術(shù)和娛樂(lè)業(yè),我們?cè)凇稅?ài)爾蘭人》中看到了馬丁·斯科塞斯·德·阿格·羅伯特·德尼羅,在《曼達(dá)洛人》中看到了年輕的馬克·哈米爾。
在將來(lái),它將在許多其他行業(yè)和用例中爆發(fā)。例如,它被認(rèn)為在為其他機(jī)器學(xué)習(xí)算法的訓(xùn)練創(chuàng)建合成數(shù)據(jù)方面具有巨大的潛力??梢詣?chuàng)建從未存在過(guò)的人的合成臉來(lái)訓(xùn)練面部識(shí)別算法,同時(shí)避免使用真實(shí)人的臉?biāo)婕暗碾[私問(wèn)題。它可以用來(lái)訓(xùn)練圖像識(shí)別系統(tǒng),以便在醫(yī)學(xué)圖像中發(fā)現(xiàn)非常罕見(jiàn)和很少被拍攝到的癌癥的跡象。它還可以用于創(chuàng)建語(yǔ)言到圖像的功能,例如,允許建筑師通過(guò)簡(jiǎn)單地用文字描述建筑物的外觀來(lái)生成建筑物的概念圖像。
人工智能、物聯(lián)網(wǎng)(IoT)、云計(jì)算和5G等超高速網(wǎng)絡(luò)是數(shù)字轉(zhuǎn)型的基石,而數(shù)據(jù)是它們創(chuàng)造成果的燃料。所有這些技術(shù)都是單獨(dú)存在的,但都是結(jié)合在一起的;它們使彼此能夠做更多的事情。人工智能使物聯(lián)網(wǎng)設(shè)備動(dòng)作智能,相互交互,盡可能不需要人為干擾——推動(dòng)自動(dòng)化浪潮,創(chuàng)造智能家居和智能工廠,一直到智能城市。5G和其他超高速網(wǎng)絡(luò)不僅僅允許以更高的速度傳輸數(shù)據(jù);它們將使新類型的數(shù)據(jù)傳輸變得司空見(jiàn)慣(就像超高速寬帶和3G使移動(dòng)視頻流成為日?,F(xiàn)實(shí)一樣),數(shù)據(jù)科學(xué)家創(chuàng)建的人工智能算法在這方面發(fā)揮著關(guān)鍵作用,從路由流量以確保最佳傳輸速度到云數(shù)據(jù)中心的自動(dòng)化環(huán)境控制。2022年,越來(lái)越多令人興奮的數(shù)據(jù)科學(xué)工作將在這些變革性技術(shù)的交匯處進(jìn)行,確保它們相互補(bǔ)充,并很好地發(fā)揮作用。
AutoML是“自動(dòng)機(jī)器學(xué)習(xí)”的縮寫(xiě),是一種令人興奮的趨勢(shì),它推動(dòng)了本文導(dǎo)言中提到的數(shù)據(jù)科學(xué)的“民主化”。autoML解決方案的開(kāi)發(fā)人員旨在創(chuàng)建任何人都可以用來(lái)創(chuàng)建自己的ML應(yīng)用程序的工具和平臺(tái)。特別是,它的目標(biāo)是主題專家,他們的專業(yè)知識(shí)和見(jiàn)解使他們能夠理想地為其特定領(lǐng)域中最緊迫的問(wèn)題開(kāi)發(fā)解決方案,但他們通常缺乏將AI應(yīng)用于這些問(wèn)題所需的編碼知識(shí)。
通常,數(shù)據(jù)科學(xué)家的大部分時(shí)間將用于數(shù)據(jù)清理和準(zhǔn)備——這些任務(wù)需要數(shù)據(jù)技能,而且往往是重復(fù)和平凡的。AutoML最基本的功能是實(shí)現(xiàn)這些任務(wù)的自動(dòng)化,但它也越來(lái)越多地意味著建立模型、創(chuàng)建算法和神經(jīng)網(wǎng)絡(luò)。其目的是,任何人只要有需要解決的問(wèn)題,或者有想要測(cè)試的想法,都能夠通過(guò)簡(jiǎn)單、用戶友好的界面應(yīng)用機(jī)器學(xué)習(xí),讓人們看不到ML的內(nèi)部工作原理,讓他們自由地專注于解決方案。2022年很可能會(huì)看到我們離這一日?,F(xiàn)實(shí)又近了一大步。
數(shù)據(jù)科學(xué):是將數(shù)據(jù)轉(zhuǎn)化為決策和行動(dòng)的藝術(shù),是人和計(jì)算機(jī)一起工作將數(shù)據(jù)轉(zhuǎn)化為知識(shí)發(fā)現(xiàn)的工具、技術(shù)和流程的整合。數(shù)據(jù)學(xué)科通過(guò)收集數(shù)據(jù)、描述數(shù)據(jù)、發(fā)現(xiàn)知識(shí),進(jìn)而進(jìn)行合理的有針對(duì)性的預(yù)測(cè)和建議。
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
它是人工智能核心,是使計(jì)算機(jī)具有智能的根本途徑。