如今的數據科學家經常被要求學習一系列的建模技術、運算方法等。諸如線性回歸,很多人都在使用它,但卻不知道為什么使用它,因此就會出現這么一種情況,很多新人隨時都準備好部署模型,但卻不了解實際情況,這些技術群體并沒有把重心放在解決技術的盲目性上,而是放在了關于選擇何種工具的爭論上(R 或 Python)。歸根結底,決策是由人類做出的,想要成為一名專業(yè)的數據科學家意味著必須既了解人性又了解數據。
案例:
當美國科技公司Opower(一家致力于發(fā)掘能源數據,為用戶提供節(jié)能建議的公司)想讓人們節(jié)約用電時,他們向客戶提供了大量關于其用電量及成本的數據。然而,僅僅靠這些冷冰冰的數字并不足以讓人們做出改變。為了達到目的,Opower需要一些關于心理學及行為科學的知識,如果在家庭能源賬單上用笑臉表示費用低于鄰居平均水平,用皺眉表情表示高于鄰居平均水平的話,人們的能源使用就會減少,也會更配合能源公司的環(huán)保要求。第二年,統(tǒng)計表明,高消費家庭的用戶減少了3%的用電量!
No.1 信號與噪聲
作者:納特·西爾弗(Nate Silver)
本書可能是世界上最受歡迎的與統(tǒng)計相關的書籍之一。信號與噪聲是數據科學中一種常用的比喻手法?!靶盘枴敝傅氖俏覀兿胍⑿枰氖聦崳霸肼暋眲t是另一回事,通常指的是不相干的信息,它阻礙或誤導我們搜索真實的信號。
大數據時代,海量的信息充斥在我們周圍,然而隨著現實中生活節(jié)奏的逐步加快,所做出的預測的速度及數量也被迫逐步增加。
然而事實卻是,現實世界中的很多預測都失敗了,人們?yōu)榇烁冻隽司薮蟮纳鐣鷥r。本書檢視了從颶風到地震、從經濟到股市、從NBA到政治選舉在內的眾多領域的預測事例,旨在回答一個問題:如何才能從繁雜的海量數據中篩選出真正的信號,摒棄噪聲的干擾,從而做出接近的預測。西爾弗認為,未來是沒有精準的答案的,只有偉大的預言家所實踐的基本法則能夠幫助我們改善社會。
No. 2 算法霸權:數學殺傷性武器的威脅
作者:凱西·奧尼爾(Cathy O’Neill)
數據科學家凱西·奧尼爾認為,我們應該警惕不斷滲透和深入我們生活的數學模型——它們的存在,很有可能威脅到我們的社會結構。
我們生活在一個依賴“算法”的時代,它對我們生活的影響越來越大,我們去哪里上學,我是不是應該貸款買車,我們應該花多少錢來買健康保險,這些都不是由人來決定的,而是由大數據模型來決定的。從理論上來說,這一模型應該讓社會更加公平,因為每一個人的衡量標準都是一樣的,不應該存在偏見。
在作者看來,大數據猶如一個黑盒,規(guī)模、傷害和隱秘共存,她在書中引用了大量發(fā)生在美國當下的、基于大數據和算法的、改變個人生活的案例,并對影響這些城市生活經驗的算法做了特別的觀察和研究。
No. 3-4 算法之美:指導工作與生活的算法
作者:布萊恩·克里斯汀&湯姆·格里菲思
魔鬼數學:大數據時代,數學思維的力量
作者:喬丹·艾倫伯格(Jordan Ellenberg)
計算機科學和統(tǒng)計學(包括其他所有的研究性學科)在學校的課堂上往往會遇到一個問題:學起來既抽象又無聊。只有當它們被應用于解決現實的問題的時候,才會變得足夠有趣,讓我們想要去探索。
而上述這兩本書都把枯燥的主題轉變成了有趣的、信息豐富的描繪,講述了如何在日常生活中使用算法、統(tǒng)計和數學。
所謂算法,是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機制。如果我們在考慮問題時,清晰地了解我們所與之對應的算法,那么就可以更容易地解析問題或者更優(yōu)地解決問題。
而在艾倫伯格的這本書中,主要講述了數學的魅力,以及如何獲得用數學原則解決生活中問題的技巧。作者認為,數學可以幫助我們更好地了解這個世界的結構和本質,應該被放在每個有思想的人的工具箱里,用于更好地解決問題,規(guī)避謬誤和錯誤的方法。這本書摒棄了復雜的專業(yè)術語,用現實世界中的逸事、基礎的方程式和簡單的圖表,為讀者帶來一堂零基礎的數學課。
這兩本書的嚴謹程度都是恰到好處的,其中夾雜著一些公式邏輯,還有很多實際案例。在書中,我發(fā)現了許多從未在課堂上完全掌握的數據科學概念,最后我一遍又一遍地翻閱,體驗了獲得知識時刻的快樂。當然,數學、統(tǒng)計學和計算機科學只在能幫你更好地生活的情況下有用,而且這兩本書都展示了你從未考慮過的這些學科的用途。
No.5 思考,快與慢
作者:丹尼爾·卡尼曼(Daniel Kahneman)
人類是非理性的,我們通常會在生活中的各種情況里做出可怕的決定。然而,一旦理解了為什么我們會這么做而不是采取最佳行動時,就可以開始著手改變自己的行為以獲得更好的結果了,這就是卡尼曼數十年實驗成果的核心。他的研究打開了認知心理學、認知科學、對理性與幸福的研究以及行為經濟學的新局面,而本書也是他的集大成之作。
卡尼曼在《思考,快與慢》中揭示了三十多種理性偏差,如啟發(fā)式聯想,其中包括可得性偏見、錨定效應、直覺判斷、光環(huán)效應等;如過度自信,其中包括后見之明、有效性錯覺、算法判斷等;如前景理論,包括風險決策、損失厭惡、稟賦效應、四重模式等。它們像一面思維的立體鏡子,360度角照見大腦思考過程和頑固的偏差,讓你認知你自己的思考決策過程。
作為2002年諾貝爾經濟學獎獲得者,卡尼曼和他的研究伙伴阿莫斯·特沃斯基(Amos Tversky,因對決策過程的研究而著名)以及理查德·塞勒(Richard Thaler,2017年諾貝爾經濟學獎得主)等其他人共同創(chuàng)造了行為經濟學的高光時刻,也讓這個經濟學中本來頗為小眾的分支走進了更多人的視野,它將人們視為非理性的決策者,而非追逐效用最大化的理性人。當然事實也的確如此。這使得人們不僅在經濟學上,而且在醫(yī)學、體育、商業(yè)實踐、節(jié)能和退休基金等生活領域的思維和設計選擇發(fā)生了一些巨大的轉變。我們也可以將本書中的許多發(fā)現應用于數據科學,例如如何呈現研究結果等。
《思考,快與慢》的基礎是作者提出的關于人類的思考框架:系統(tǒng)1和系統(tǒng)2。系統(tǒng)1代指人類的非受控或者說是無意識的思考模式;系統(tǒng)2代指受人自身控制的或為有意識進行的思考模式。用系統(tǒng)1思考或判斷是非??旖莸?,幾乎完全取決于直覺和經驗,因此人們往往第一時間通過它在腦海中形成觀點。但有時系統(tǒng)1可能得不到結論甚至得到錯誤的結論,在這種情況下,人類也經常求助系統(tǒng)2進行更為復雜和費力的思考過程,以補充或糾正系統(tǒng)1。
如果你想了解實際的人類心理學,而不是傳統(tǒng)課堂上的那種理想化的知識,那么這本書是最好的開始。嚴格地說,卡尼曼并不是一個熱衷于科普書籍的作家,但是他和他的同事杰出的學術貢獻,卻深刻地改變了我們對自己的認識。相較之下,近年來很多研究開始將目光投向社會行為的神經基礎,用磁共振腦成像之類的法子探究問題??崧墓ぷ鲗W⒂谌祟惖男袨?,嚴謹地避免過多關于機制的推論。在如今的心理學界看來,似乎不那么時髦了。但是他的實驗充滿巧思與洞見,卻不會是科學史上曇花一現的觀點。
No.6 黑天鵝:如何應對不可預知的未來
作者: 納西姆·尼古拉斯·塔勒布 (Nassim Nicholas Taleb)
塔勒布曾是一名定量交易員,在2000年和2007年的市場低迷期間賺了大量的錢,他已成為一位有名學者研究者,為他的作品贏得了全世界的目光,數不盡的贊譽和批評接踵而至。
那時,塔勒布感知到一種想法:當代思維方式的失敗,尤其是在不確定性的時代的失敗,是非常嚴重的。在《黑天鵝》一書中,塔勒布提出了這樣一個概念:我們對支配人類活動的隨機性視而不見,因而,當事情沒有如預期那樣發(fā)展時,我們就會被毀滅。黑天鵝最初于2007年出版,自2008年和2016年的金融危機以來,它變得更加有說服力,完全顛覆了傳統(tǒng)的一套思維模式。
“黑天鵝”對數據科學家很重要,因為它表明,任何僅基于過去性能的模型通常都會出錯,并產生災難性的后果。所有機器學習模型都是用過去的數據構建的,這意味著我們不能太信任它們。模型(包括Taleb)是有缺陷的,為了盡可能與現實貼近,我們應該確保有系統(tǒng)來處理這些不可避免的失敗。
值得一提的是,塔勒布不僅以其新穎的思想而聞名,而且他的性格也極端好斗。他甚至愿意和所有人較量,經常批評像史蒂文·平克(美國實驗心理學家)這樣的學者,或者像納特·西爾弗(數據分析師,曾經在2012年美國總統(tǒng)大選中準確預測了50個州的選舉結果)那樣的公眾人物。