方鴻然 美國俄亥俄州立大學(xué)
Kaggle是由創(chuàng)始人兼首席執(zhí)行官Anthony Goldbloom2010年在墨爾本創(chuàng)立的機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái),后被谷歌公司收購。Kaggle推出線上數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái),該競(jìng)賽平臺(tái)向全球開放后成為當(dāng)前規(guī)模最大的數(shù)據(jù)科學(xué)家社區(qū)。Kaggle自推出以來迄今為止共舉辦了超過三百場(chǎng)全球數(shù)據(jù)競(jìng)賽,臉書、騰訊、微軟、沃爾瑪?shù)热蛑髽I(yè)都在Kaggle平臺(tái)上發(fā)起過數(shù)據(jù)競(jìng)賽,在賽事過程中全球各地參賽者為這些知名企業(yè)提出的數(shù)據(jù)問題提供了多維度的數(shù)據(jù)分析方案,順利推動(dòng)了企業(yè)問題的解決。
隨著人工智能技術(shù)的進(jìn)一步推廣,基于算法的數(shù)據(jù)挖掘技術(shù)不斷推向社會(huì)發(fā)展的各個(gè)領(lǐng)域,大量的企業(yè)在商業(yè)運(yùn)營(yíng)管理面臨的一系列問題,通過在Kaggle上發(fā)起競(jìng)賽,這些問題有望在算法和數(shù)據(jù)挖掘的技術(shù)加持下找尋到解決方案,Kaggle在多個(gè)領(lǐng)域的商業(yè)運(yùn)營(yíng)管理將會(huì)發(fā)揮其應(yīng)用優(yōu)勢(shì)。
Kaggle在商業(yè)流通和零售領(lǐng)域的應(yīng)用主要通過對(duì)消費(fèi)數(shù)據(jù)的挖掘,分析商品之間的潛在聯(lián)系。顧客在選購商品時(shí),經(jīng)常會(huì)同時(shí)選購若干商品,這些商品之間存在一定關(guān)聯(lián)。分析顧客可能還會(huì)購買的商品。根據(jù)已經(jīng)選購商品的情況,預(yù)測(cè)顧客還可能選購的商品。因此可以通過數(shù)據(jù)挖掘?qū)崿F(xiàn)銷售預(yù)測(cè)、庫存預(yù)測(cè)、庫存預(yù)測(cè)、挖掘潛在客戶、挖掘價(jià)值產(chǎn)品、輔助零售價(jià)格形成等。
Kaggle在金融領(lǐng)域的應(yīng)用主要體現(xiàn)在風(fēng)險(xiǎn)控制,風(fēng)險(xiǎn)控制是金融領(lǐng)域的核心。在金融機(jī)構(gòu)中目前利用數(shù)據(jù)分析應(yīng)用于金融風(fēng)險(xiǎn)控制技術(shù)發(fā)展較為成熟。例如在銀行個(gè)人信貸領(lǐng)域,信用卡的審批額度可以通過客戶個(gè)人職業(yè)信息數(shù)據(jù)、流水?dāng)?shù)據(jù)等來進(jìn)行確定。近年來隨著互聯(lián)網(wǎng)金融的興起,以螞蟻金服為代表的互聯(lián)網(wǎng)金融企業(yè)在信貸過程中進(jìn)一步的運(yùn)用了數(shù)據(jù)挖掘手段,通過挖掘用戶基礎(chǔ)信息數(shù)據(jù)、行為數(shù)據(jù)、消費(fèi)數(shù)據(jù)以及諸多在APP使用過程中形成的非結(jié)構(gòu)化數(shù)據(jù),以此形成用戶畫像并實(shí)現(xiàn)千人千面的消費(fèi)額度信貸標(biāo)準(zhǔn)。
在金融投資領(lǐng)域,Kaggle數(shù)據(jù)競(jìng)賽對(duì)量化投資模型和投資策略的形成具有重要意義。通過結(jié)合各領(lǐng)域大量的數(shù)據(jù)挖掘、篩選、分析,能夠形成一套相對(duì)固定了交易程序,代替投資者過于主觀的判斷,量化策略能夠平衡客觀數(shù)據(jù)與主觀判斷之間過大的鴻溝,進(jìn)而避免投資者做出追漲殺跌等情緒化投資行為。
當(dāng)前廣告行業(yè)領(lǐng)域亦進(jìn)入深度變革時(shí)期,在智能設(shè)備終端日益普及的背景下,廣告投放市場(chǎng)的邏輯越來越依靠技術(shù)和數(shù)據(jù)做支撐。對(duì)于任何一個(gè)產(chǎn)品或服務(wù),從廣告的前期策劃、發(fā)布渠道、客戶定位到后期的定向投放及助推轉(zhuǎn)化,數(shù)據(jù)推動(dòng)技術(shù)變化的態(tài)勢(shì)非常明顯。在此過程中,Kaggle數(shù)據(jù)競(jìng)賽的引入能夠幫助諸多廣告企業(yè)解決投放選擇、虛假廣告檢測(cè)、點(diǎn)擊率預(yù)測(cè)、展示效果預(yù)測(cè)等信息難題。
隨著移動(dòng)互聯(lián)網(wǎng)和手機(jī)支付的普及,相當(dāng)數(shù)量的消費(fèi)者在移動(dòng)設(shè)備上積累了大量消費(fèi)數(shù)據(jù),當(dāng)前移動(dòng)支付的客戶中蘊(yùn)含著高潛力旅游消費(fèi)人群。根據(jù)安卓生態(tài)研究調(diào)查顯示在智能手機(jī)使用群體中,有八成消費(fèi)者在旅游時(shí)應(yīng)用旅游APP預(yù)定行程,旅游的攻略、住宿、交通、飲食等重要環(huán)節(jié)可以通過APP實(shí)現(xiàn)全覆蓋。這一過程中形成的海量數(shù)據(jù),為旅游領(lǐng)域的數(shù)據(jù)挖掘提供了良好契機(jī),通過數(shù)據(jù)挖掘技術(shù),可以幫助旅游行業(yè)上下游商業(yè)實(shí)現(xiàn)游客量的預(yù)測(cè)、酒店預(yù)訂量預(yù)測(cè)、景點(diǎn)預(yù)測(cè)等,并可以根據(jù)游客的消費(fèi)偏好實(shí)現(xiàn)旅游景點(diǎn)的精準(zhǔn)推薦,實(shí)現(xiàn)個(gè)性化旅游。
在5G通信技術(shù)、人工智能、云計(jì)算、大數(shù)據(jù)等新ICT技術(shù)的集合賦能下,傳統(tǒng)的汽車正在轉(zhuǎn)型成為一種新的移動(dòng)智能終端。自動(dòng)駕駛是汽車新四化(智能化、網(wǎng)聯(lián)化、電動(dòng)化、共享化)的核心,集中運(yùn)用了計(jì)算機(jī)、人工智能、融合傳感、通信、云計(jì)算、高精地圖、自動(dòng)控制等多學(xué)科綜合技術(shù),其中數(shù)據(jù)的深度學(xué)習(xí)的挖掘能力尤為關(guān)鍵。
不同于傳統(tǒng)駕駛,自動(dòng)駕駛汽車系統(tǒng)需要實(shí)時(shí)更新數(shù)據(jù)形成深度學(xué)習(xí),在計(jì)算機(jī)感知系統(tǒng)的支持下,通過圖像數(shù)據(jù)的采集識(shí)別不同的道路場(chǎng)景、交通標(biāo)示、建筑場(chǎng)景和自然場(chǎng)景,基于數(shù)據(jù)的采集進(jìn)行fine tuning訓(xùn)練,以提高感知算法的準(zhǔn)確率和置信度。在這一過程中,如果充分的挖掘和分析數(shù)據(jù)信息將成為開發(fā)者的挑戰(zhàn)。首先,需要處理的數(shù)據(jù)量極為龐大。每臺(tái)無人駕駛汽車會(huì)產(chǎn)生80萬張/天的圖片待標(biāo)注,因此,快速的獲取數(shù)據(jù)和高效的處理數(shù)據(jù)是工程師首要考慮的問題。其次,從訓(xùn)練和仿真來看,單車預(yù)計(jì)需累積里程100+億公里,將耗費(fèi)大量的人力、算力、時(shí)間,如何加快訓(xùn)練效率,輸出更多的場(chǎng)景,更高的準(zhǔn)確率。最后,仿真是確保自動(dòng)駕駛持續(xù)提升安全性的關(guān)鍵,如何支持更豐富的場(chǎng)景快速的完成仿真測(cè)試并持續(xù)優(yōu)化算法也成為關(guān)鍵問題。上述問題通過Kaggle競(jìng)賽,在算法和數(shù)據(jù)挖掘的技術(shù)加持下找尋到多維度的解決方案。
本文通過對(duì)Kaggle開放數(shù)據(jù)競(jìng)賽簡(jiǎn)要闡述,探討了Kaggle開放數(shù)據(jù)競(jìng)賽在流通零售、金融證券、商業(yè)廣告、旅游管理、自動(dòng)駕駛等領(lǐng)域中的應(yīng)用,可以發(fā)數(shù)據(jù)挖掘的應(yīng)用已經(jīng)深入到現(xiàn)代社會(huì)的各個(gè)方面,領(lǐng)域應(yīng)用潛力極為巨大,將會(huì)對(duì)未來全球商業(yè)的經(jīng)營(yíng)變革產(chǎn)生重要影響。