John Edwards
準確而又自信地預測未來。本文介紹如何借助數(shù)據(jù)預見未來所需的工具和策略。
一直以來人們很難預測未來。幸運的是,隨著預測性分析技術(shù)的出現(xiàn),用戶能根據(jù)歷史數(shù)據(jù)以及統(tǒng)計建模和機器學習等分析技術(shù)來預測未來的結(jié)果,這使得人們能夠得出比以前更加可靠的預測結(jié)果和趨勢。
盡管如此,與任何新興技術(shù)一樣,預測性分析也很難充分發(fā)揮其潛力。而更具挑戰(zhàn)的是,由于不成熟的開發(fā)策略或者預測性分析工具的濫用而導致的不準確或者誤導性的結(jié)果可能在幾周、幾個月甚至幾年之后才會顯現(xiàn)出來。
預測性分析有可能徹底改變各種行業(yè)和企業(yè)的運營,包括零售業(yè)、制造業(yè)、供應鏈、網(wǎng)絡管理、金融服務和醫(yī)療保健等。人工智能網(wǎng)絡技術(shù)公司Mist Systems的首席技術(shù)官和聯(lián)合創(chuàng)始人Bob Friday預測,“深度學習和預測性人工智能分析將改變我們社會的方方面面,其程度不亞于十多年來的互聯(lián)網(wǎng)和蜂窩技術(shù)革命。”
本文的7個秘訣旨在幫助你的企業(yè)充分發(fā)揮自己預測性分析計劃的優(yōu)勢。
1、能夠獲得高質(zhì)量且易于理解的數(shù)據(jù)
預測性分析應用需要大量的數(shù)據(jù),依賴于通過反饋循環(huán)提供的信息來不斷改進。全球IT解決方案和服務提供商L&T Infotech的首席數(shù)據(jù)官和分析官Soumendra Mohanty指出:“數(shù)據(jù)和預測性分析相互提供信息?!?/p>
了解流入預測性分析模型的數(shù)據(jù)類型是非常重要的。流行病學家、營養(yǎng)學家和健康經(jīng)濟學家Eric Feigl-Ding目前是哈佛陳氏公共衛(wèi)生學院的訪問學者,他提出了問題:“我們會有什么樣的數(shù)據(jù)?是像臉書和谷歌那樣每天收集的實時數(shù)據(jù),還是難以訪問的醫(yī)療記錄所需的醫(yī)療保健數(shù)據(jù)?”為了做出準確的預測,模型應被設計成能夠處理它所獲取的特定類型的數(shù)據(jù)。
僅僅在計算資源上投入大量數(shù)據(jù)的預測性建模工作通常注定要失敗。金融數(shù)據(jù)和軟件公司FactSet負責投資組合管理和交易解決方案的副總裁兼研究總監(jiān)Henri Waelbroeck解釋說:“數(shù)據(jù)實在太多了,大部分數(shù)據(jù)可能與具體的問題無關(guān),但在給定的樣本中看起來可能是相關(guān)的。如果不理解產(chǎn)生數(shù)據(jù)的過程,一個基于有偏見的數(shù)據(jù)所訓練出來的模型可能是完全錯誤的?!?/p>
2、注意模式
SAP首席高級分析產(chǎn)品經(jīng)理Richard Mooney指出,每個人都對算法著迷,但算法的好壞取決于輸入到算法中的數(shù)據(jù)。他說:“如果沒有要找的模式,那就是徒勞的工作。大部分數(shù)據(jù)集都有隱藏的模式。”
模式通常以兩種方式隱藏:
● 在兩列之間的關(guān)系中找到模式。例如,通過比較即將達成交易的結(jié)束日期信息與相關(guān)的電子郵件打開率數(shù)據(jù),可以發(fā)現(xiàn)一種模式。Mooney說:“如果交易即將結(jié)束,電子郵件打開率會大幅提高,因為買方會有很多人閱讀合同并審查合同。”
● 觀察一個變量隨時間的變化就能夠揭示出模式。Mooney說:“在上面的例子中,知道客戶把一封郵件打開了200次,所提供的信息和知道他上周打開了175次差不多?!?/p>
3、關(guān)注能帶來較大投資回報的可管理任務
紐約理工學院(NYIT)的分析和商業(yè)智能主任Michael Urmeneta認為,“現(xiàn)在,人們很想把機器學習算法應用到海量數(shù)據(jù)上,以期獲得更深入的分析結(jié)果?!彼f,這種方法的問題在于,它就像試圖同時治愈所有的癌癥一樣。Urmeneta解釋說,“問題太大,數(shù)據(jù)太亂——沒有足夠的資金,沒有足夠的支持。不可能贏。”
當關(guān)注于任務時,成功的概率就大得多。Urmeneta指出,“如果有問題,我們就會去找理解錯綜復雜問題的主題專家。我們將會有更清潔、更容易理解的數(shù)據(jù)?!?/p>
4、使用正確的方法來完成工作
好消息是,有幾乎數(shù)不盡的方法來生成準確的預測性分析。然而,這也恰恰是壞消息。芝加哥大學NORC(前身為國家意見研究中心)的行為、經(jīng)濟分析和決策實踐主任Angela Fontes評論說:“每天都會出現(xiàn)熱門的新分析方法,使用新方法很容易讓人激動。然而,據(jù)我的經(jīng)驗,最成功的項目是那些真正深入思考分析預期結(jié)果的項目,并讓這些項目指導他們的選擇方法——即使最合適的方法并非最吸引人、最新的方法。”
Rochester理工學院計算機工程系主任、副教授Shanchieh Jay Yang建議,“用戶必須謹慎地選擇能滿足自己需求的合適的方法?!盰ang說:“應該擁有一種有效而且可以解釋的技術(shù),利用時序數(shù)據(jù)的統(tǒng)計特性,并將其推廣應用到最有可能的未來?!?/p>
5、建立具有精確定義目標的模型
這似乎是顯而易見的,但很多預測性分析項目開始的目標是建立一個宏偉的模型,但沒有明確的計劃來指導最終怎樣使用它。CCC信息服務公司是一家面向汽車、保險和修車行業(yè)的SaaS提供商,其產(chǎn)品管理高級副總裁Jason Verlen評論說:“有很多很棒但卻從來沒用過的模型,因為沒有人知道怎樣使用這些信息來實現(xiàn)或者創(chuàng)造價值?!?/p>
Fontes對此表示同意。她解釋道,“使用合適的工具確實可以確保我們從分析中得到預期的結(jié)果,因為這迫使我們必須明確我們的目標。如果我們不清楚分析的目標,我們可能會想盡一切辦法去解決問題,但是永遠也得不到我們想要的東西。”
6、IT與相關(guān)業(yè)務部門建立緊密合作關(guān)系
非常有必要在業(yè)務部門和技術(shù)部門之間建立穩(wěn)固的合作伙伴關(guān)系??蛻趔w驗技術(shù)提供商Genesys公司的人工智能產(chǎn)品管理副總裁Paul Lasserre說:“你應該知道新技術(shù)怎樣應對業(yè)務挑戰(zhàn)或者改進現(xiàn)有的業(yè)務環(huán)境?!比缓螅坏┰O置了目標,就在一定范圍的應用程序中測試模型,以確定解決方案是否真正能帶來價值。
7、不要被設計不當?shù)哪P退`導
模型是由人設計的,因此,往往潛藏著缺陷。一個錯誤的模型,或者使用不正確/選擇不當?shù)臄?shù)據(jù)所建立的模型,很容易產(chǎn)生誤導,在極端情況下,甚至產(chǎn)生完全錯誤的預測。
例如,選擇偏見問題,如果隨機化做的不好,可能會混淆預測。再比如,在一項假設的減肥研究中,可能有50%的參與者選擇退出后續(xù)的體重測量。而退出的個體與留下的個體相比,其體重變化曲線是不同的。這使得分析變得復雜,因為在這樣的研究中,那些堅持參加項目的人通常是真正能減肥的人。另一方面,退出的通常是那些很少或者根本沒有減肥經(jīng)歷的人。Feigl-Ding報告稱,因此,雖然從整體上看減肥是有因果的,可預測的,但是在一個有50%退出率的有限數(shù)據(jù)庫中,實際的最終結(jié)果可能被隱藏了。
總結(jié)
商業(yè)智能和分析軟件開發(fā)商GoodData的數(shù)據(jù)科學高級主管Arvin Hsu評論說:“企業(yè)正在經(jīng)歷成長的痛苦,認識到預測性分析并不是那么容易涉足。然而,強大的預測性分析對業(yè)務效率、收入和產(chǎn)品性能的影響,完全值得我們花費時間、精力和資源來確保成功?!?/p>