• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)思維范疇探究

      2015-03-20 14:29:36張弛華中科技大學新聞與信息傳播學院湖北武漢430074
      關鍵詞:因果關系思維

      張弛,華中科技大學新聞與信息傳播學院,湖北武漢430074

      大數(shù)據(jù)思維范疇探究

      張弛,華中科技大學新聞與信息傳播學院,湖北武漢430074

      大數(shù)據(jù)思維有兩層含義:一是人們思想上對大數(shù)據(jù)的認識和重視,這是一種思維態(tài)度;二是大數(shù)據(jù)思維范疇,這是一種思維方式。大數(shù)據(jù)思維范疇是大數(shù)據(jù)時代主觀邏輯和客觀邏輯的有機統(tǒng)一,反映了大數(shù)據(jù)這一新生事物存在發(fā)展的辯證關系。大數(shù)據(jù)的洶涌來潮,會改變人們傳統(tǒng)的對可能和現(xiàn)實、必然和偶然、原因和結果、部分和整體、精確和模糊等一系列思維范疇的認識。

      大數(shù)據(jù);大數(shù)據(jù)思維;思維范疇

      大數(shù)據(jù)的發(fā)展,不僅取決于大數(shù)據(jù)資源的擴展,還取決于大數(shù)據(jù)技術的應用,更取決于大數(shù)據(jù)思維的形成。也就是說,大數(shù)據(jù)發(fā)展必須是數(shù)據(jù)、技術、思維三大要素的聯(lián)動。在網(wǎng)絡時代數(shù)據(jù)無處不在、技術快速發(fā)展的條件下,大數(shù)據(jù)思維已成為決定大數(shù)據(jù)成敗的關鍵。目前,大數(shù)據(jù)思維缺失,跨越學術與產(chǎn)業(yè)、技術與應用之間鴻溝的方法論缺位,是大數(shù)據(jù)發(fā)展的最大障礙。“出身不重要,思維更重要”[1],只有具有大數(shù)據(jù)思維,才能更好地運用大數(shù)據(jù)資源和大數(shù)據(jù)技術。需要說明的是,大數(shù)據(jù)思維包含有兩個意思:一個是在思想上對大數(shù)據(jù)的認識和重視,這是一種思維態(tài)度;另一個是大數(shù)據(jù)思維范疇,這是一種思維方式。本文著重討論的是大數(shù)據(jù)思維范疇問題。

      眾所周知,思維范疇是主觀邏輯和客觀邏輯的有機統(tǒng)一,反映了事物存在發(fā)展的辯證關系。大數(shù)據(jù)思維范疇反映的是大數(shù)據(jù)時代人們思維方式的變革。

      一、可能和現(xiàn)實關系

      可能與現(xiàn)實是常見的思維范疇?,F(xiàn)實標志著當下的實際存在,可能則是指包含在事物之中的、預示事物發(fā)展前途的種種趨勢。在小數(shù)據(jù)時代傳統(tǒng)思維條件下,人們對預示事物發(fā)展趨勢的可能性的認識往往是經(jīng)驗式的,可稱之為經(jīng)驗式的可能性認識。這種經(jīng)驗式的可能性認識對事物發(fā)展趨勢的預測不準,主要是因為缺乏準確的、全面的、海量的數(shù)據(jù)作為支持?!洞髷?shù)據(jù)》一書的作者涂子沛引用胡適的著名文章《差不多先生傳》來比喻中國人帶有“差不多先生”的文化標簽[2]329,是說中國人的思維方式缺乏科學性,習慣于“大概”?!按蟾拧钡念A測準確率低,當然缺少科學性。而在大數(shù)據(jù)時代,在擁有海量的、整體的、實時的數(shù)據(jù)條件下,人們對事物發(fā)展趨勢的預測就會準確得多,這種預測,可稱之為科學式的可能性認識。

      在談到大數(shù)據(jù)的核心價值時,一致的觀點認為大數(shù)據(jù)的核心是預測。中國工程院院士鄔賀銓指出,大數(shù)據(jù)預測可運用到各行各業(yè),“宏觀經(jīng)濟學方面,IBM日本公司建立經(jīng)濟指標預測系統(tǒng),從互聯(lián)網(wǎng)新聞中搜索影響制造業(yè)的480項經(jīng)濟數(shù)據(jù),計算采購經(jīng)理人指數(shù)的預測值。印第安納大學利用谷歌公司提供的心情分析工具,從近千萬條網(wǎng)民留言中歸納出三種心情,進而對道瓊斯工業(yè)指數(shù)的變化進行預測,準確率達到87%?!盵3]47在醫(yī)學領域,加拿大的研究人員開發(fā)了一種大數(shù)據(jù)診療技術,以便能預測早產(chǎn)嬰兒的感染。他們通過把包括心率、血壓、呼吸和血氧水平等16種生命體征轉化成每秒1 000多個數(shù)據(jù)點的信息流,從中找到早產(chǎn)嬰兒生命體征極其輕微的變化與較為嚴重病情之間的關聯(lián)性。在城市管理領域,美國紐約市開發(fā)了一套新的火災預防方案,這一方案在全市90萬座建筑物的數(shù)據(jù)庫中加入市政19個部門所收集到的其他數(shù)據(jù),包括欠稅扣押記錄、水電使用異常、繳費拖欠、服務場所、鼠患投訴等各類數(shù)據(jù),并將這些數(shù)據(jù)與過去5年的火災記錄進行計算分析,從而發(fā)現(xiàn)了建筑物類型和建造年份與火災的相互關系,還發(fā)現(xiàn)了非法在屋內打隔斷的建筑物發(fā)生火災的高概率,在此基礎上制定出新的火災預防方案。火災已經(jīng)發(fā)生是現(xiàn)實性,火災可能發(fā)生是可能性?;馂囊呀?jīng)發(fā)生我們只能通過救火努力把損失降到最低限度,而最好的辦法是通過可能性預測預防火災不要發(fā)生。醫(yī)學領域同樣如此,最好的辦法不是生病以后再去治病,而是通過可能性預測預防疾病不要發(fā)生。

      大數(shù)據(jù)的核心意義在于發(fā)現(xiàn)和挖掘潛在價值,而不在于發(fā)現(xiàn)現(xiàn)實價值。其科學方法論意義不在于從“已知”的現(xiàn)實中發(fā)現(xiàn)問題和規(guī)律,而在于從“未知”的種種可能中發(fā)現(xiàn)問題和規(guī)律。中國工程院倪光南院士指出,科學研究的實驗型范式、理論型范式、計算型范式都是在已知規(guī)律的情況下發(fā)現(xiàn)新的規(guī)律,而大數(shù)據(jù)“則是在未知規(guī)律的情況下,運用計算能力從大數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并發(fā)揮規(guī)律的作用?!盵4]通過“未知”發(fā)現(xiàn)規(guī)律,就很難預設理論模型,正是因為大數(shù)據(jù)是從“未知”中發(fā)現(xiàn)規(guī)律,圖靈獎獲得者吉姆·格雷(Jim Gray)才提出將大數(shù)據(jù)列為科學研究的第四范式(the fourth paradigm)。

      大數(shù)據(jù)預測拉近了可能與現(xiàn)實的距離,使我們有能力逐步做到將好的可能性變成現(xiàn)實,將不好的可能性不變?yōu)楝F(xiàn)實。中國工程院李德毅院士指出,“大數(shù)據(jù)整天和我們在一起,大數(shù)據(jù)已成為連接虛擬世界和現(xiàn)實世界之間的橋梁?!盵5]可以說,在大數(shù)據(jù)時代,虛擬世界和現(xiàn)實世界的距離和界線將發(fā)生新的變化,人們對事物的認知不僅滿足于“已知”,更能精準地認識“未知”,不僅能描寫性地分析“現(xiàn)在”,更能預測性地分析“未來”。大數(shù)據(jù)在“此岸”與“彼岸”之間架通了一座快速便捷的橋梁。

      二、必然和偶然關系

      必然和偶然范疇是與可能和現(xiàn)實范疇聯(lián)系較為緊密的思維范疇。可能性既與偶然性有一定聯(lián)系,也與必然性有一定聯(lián)系。我們在預測事物發(fā)展的可能性時,必須同時考慮制約它的必然因素和偶然因素。

      長期以來,人們傳統(tǒng)的思維定勢習慣于將自然界和人類社會看成是二元世界,由此采用“科學”和“歷史”兩個敘事框架,并形成科學主義和人文主義兩大思潮??茖W主義認為,自然界是決定論的,它的運動變化是有必然規(guī)律的,是可預測的,而人類社會是非決定論的,它的運動變化充滿隨機性、偶然性,是不可預測的。著名科學哲學家波普爾就否定歷史決定論,主張非決定論。在小數(shù)據(jù)時代,之所以有人認為人類社會運動發(fā)展不可預測,是因為社會領域的數(shù)據(jù)雜亂無章,大都是非結構性數(shù)據(jù),特別是情感數(shù)據(jù)、社交數(shù)據(jù)更是千頭萬緒、變動不居。但在大數(shù)據(jù)技術條件下,人類擁有了處理非結構性數(shù)據(jù)的強大能力,人們通過LBS采集人在地球上的全部運動軌跡,通過在線支付采集人們的全部支付記錄,通過SNS采集人們的全部網(wǎng)絡交往記錄,通過電子郵件、文檔、Timeline、視頻監(jiān)控等采集人們的言行記錄。這使得大量隨機的、偶然出現(xiàn)的數(shù)據(jù)可以實時捕獲處理,使之變成確定性的、必然性的東西。

      馬克·吐溫說,歷史不會重演,但自有其規(guī)律。歷史事件雖然往往表現(xiàn)為一些偶發(fā)事件,但偶然性背后存在的是必然規(guī)律。隨著科學技術的進步,支持歷史發(fā)展存在規(guī)律的觀點的人越來越多,而大數(shù)據(jù)技術使人類揭示和認識社會歷史規(guī)律更有可能和更加快捷。因此,有人認為,“與其說大數(shù)據(jù)的核心價值是對未來的預測,不如說是對過去沉睡的規(guī)律的揭示?!盵6]也就是說,大數(shù)據(jù)不僅是人們認識事物發(fā)展可能性的強大武器,也是人們認識事物必然性的有力工具。

      在描述大數(shù)據(jù)的4V特征時,實時快捷(Velocity)是大數(shù)據(jù)的重要特征之一。在實際應用中,大數(shù)據(jù)技術的實時快捷分析能幫助人們捕獲隨機出現(xiàn)的、稍縱即逝的、看似價值不大的信息。在大數(shù)據(jù)時代,正是數(shù)據(jù)來源的多元化和實時快速處理,使人們能更多擺脫偶然性的干擾而把握必然的東西。2011年10月,美國國家氣象局(NWS)宣布,該局在全國數(shù)千輛客運大巴上安裝了數(shù)據(jù)傳感器,隨著客運大巴的運動,這些傳感器將沿途所采集的溫度、濕度、露水、風力、光照度等數(shù)據(jù)實時傳回國家氣象局的數(shù)據(jù)中心,數(shù)據(jù)采集是每10秒鐘一次,傳感器每天要采集10萬次以上的數(shù)據(jù),數(shù)據(jù)中心對這些實時的、隨機的、高粒度、高頻率的數(shù)據(jù)進行分析處理,其發(fā)布的天氣預報就不再僅僅只是“預”報,而逐漸走向“實”報、“精”報。

      大數(shù)據(jù)用數(shù)據(jù)事實不斷改變人們對歷史和社會發(fā)展的現(xiàn)象與本質、偶然與必然的認識,使人們更易于透過偶然把握必然?!盁o尺度網(wǎng)絡”概念的提出者艾伯特-拉斯洛·巴拉巴西指出,“雖然萬事皆顯出自發(fā)偶然之態(tài),但實際上它遠比你想象中容易預測”。他認為“人類行為93%是可以預測的”。只是“過去我們沒有相關數(shù)據(jù),也沒有一定的方法來探究人類的行為”。其實,“人類的大部分行為都受制于規(guī)律、模型以及原理法則,而且它們的可重現(xiàn)性和可預測性與自然科學不相上下?!比祟惿鐣倪\動規(guī)律和自然界一樣,“許多事情遵循冪律分布:一旦冪律出現(xiàn),爆發(fā)點就會出現(xiàn)?!盵7]巴拉巴西所指出的人類社會呈現(xiàn)冪律式周期爆發(fā)運動,是用科學方式揭示了人類社會周期式的治亂規(guī)律。在大數(shù)據(jù)條件下,社會科學越來越多地運用定量分析方法研究問題,雅虎的首席科學家沃茨博士在《自然》上發(fā)表了一篇題為《21世紀的科學》的文章,認為得益于計算機技術和海量數(shù)據(jù)庫的發(fā)展,個人在真實世界的活動得到了前所未有的記錄,這種記錄為社會科學的定量分析提供了極為豐富的數(shù)據(jù)。由于能測得更準,計算得更準確,他認為社會科學將脫下“準科學”的外衣,真正走進科學的殿堂[8]489。

      三、原因和結果關系

      在關于大數(shù)據(jù)思維變革的研究中,大數(shù)據(jù)對因果關系范疇的影響討論相對較多。舉得最多的案例是沃爾瑪在其賣場中將啤酒與尿布擺放在一起銷售的故事,還有在季節(jié)性颶風來臨之前,將手電筒與蛋撻放在一起銷售的例子。這些案例說明,在大數(shù)據(jù)條件下,看似兩個互不相干的沒有什么因果關系的事物,通過銷售數(shù)據(jù)分析可以發(fā)現(xiàn)它們之間存在某種相關關系。而對于追求利潤率的商家來說,不需要知道“為什么”啤酒與尿布放在一起會增加銷量,只需要知道結果“是什么”就行。

      傳統(tǒng)思維中的因果關系分析是建立在嚴密的數(shù)理推理邏輯基礎上的。中國工程院院士李國杰形容說,“我們都是從做平面幾何證明題開始進入科學大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習慣看充分必要條件,對于大數(shù)據(jù)的關聯(lián)分析蘊含的科學意義往往理解不深?!盵9]傳統(tǒng)的因果關系分析雖然邏輯鏈條完整,但由于是小數(shù)據(jù),往往容易以部分代替整體,難免出現(xiàn)誤差。尋找事物的因果關系是人類長久以來形成的習慣,因果關系研究促進了科學的發(fā)展和科學體系的建立,科學是研究因果關系的重要手段。

      但在大數(shù)據(jù)時代,大數(shù)據(jù)研究是對海量數(shù)據(jù)做統(tǒng)計性的搜索、比較、分類和聚類分析,帶有統(tǒng)計學的顯著特點。統(tǒng)計學更關注相關性,相關性是指兩個或兩個以上變量的取值之間存在某種規(guī)律性。大數(shù)據(jù)的簡單算法是統(tǒng)計學的邏輯,這如同熱力學的分析模式,熱力學并不關心具體的分子運動,而是關心溫度、體積、壓強之間的宏觀關系。騰訊副總裁吳軍博士在《數(shù)學之美》一書中論述了統(tǒng)計學對于現(xiàn)代科學的意義,他指出,人們花了近20年時間實現(xiàn)了從基于規(guī)則的語言處理到基于統(tǒng)計的語言處理的轉變,統(tǒng)計語言模型在形式上非常簡單,任何人都容易理解,因為“基于統(tǒng)計的自然語言處理方法,在數(shù)學模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學意義上自然語言處理又和語言的初衷——通信聯(lián)系在一起了”[10]26。而且,統(tǒng)計語言模型的簡單性正符合牛頓在《自然哲學的數(shù)學原理》中所主張的“簡單性原則”。被譽為大數(shù)據(jù)權威的維克托·邁爾-舍恩伯格指出,在日常生活中,我們習慣地用因果關系來考慮事情,所以會認為,因果聯(lián)系是淺顯易尋的。但事實卻并非如此,與相關關系不一樣,即使用數(shù)學這種比較直接的方式,因果聯(lián)系也很難被輕易證明,而證明相關關系的實驗耗時少,費用也少?!跋嚓P關系分析本身意義重大,同時它也為研究因果關系奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關系分析,如果存在因果關系的話,我們再進一步找出原因。”[11]88由此可見,舍恩伯格并不否定因果關系,只是認為,能找出相關關系,就沒有必要非要尋找因果關系,這是大數(shù)據(jù)思維的新特點,也是大數(shù)據(jù)為何首先被工商界熱捧的原因。

      大數(shù)據(jù)思維對因果關系和相關關系的重新思考給我們提供了認識事物不同層面、不同領域的不同選擇模式,它們不是相互替代的關系,而是并存關系。這種并存關系可能有以下兩種情況。

      第一種情況是,對學術性的科學研究來說,因果關系永遠是探究科學之謎的密鑰?!洞髷?shù)據(jù)時代》一書的譯者周濤教授指出,“想想瑞士日內瓦的強子對撞機,我們在上面捕獲了人類有史以來最大規(guī)模的單位時間數(shù)據(jù)。我們是希望找到或者驗證某種相關關系嗎?不是!我們試圖回答的,正是人類所能問出的關于因果關系最偉大的問題:希格斯玻色子是否存在,我們的宇宙是否有可能用標準模型刻畫?!艞墝σ蚬缘淖非螅褪欠艞壛巳祟惲桉{于計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落”[12]譯者序Ⅸ。在科學研究領域,不能放棄對因果關系的探求,但要高度重視相關性研究,李國杰院士認為,“對于開放復雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因為系統(tǒng)中各個組成部分之間相互影響,可能互為因果,因果關系隱藏在整個系統(tǒng)之中?!虼?,對于大數(shù)據(jù)的關聯(lián)分析是不是‘知其然而不知其所以然’,其中可能包含深奧的哲理,不能貿然下結論?!盵13]

      第二種情況是,對實用性的商業(yè)活動來說,繁瑣的因果關系探究已無必要,有相關關系支持賺錢就行,賺錢講究短平快,所以企業(yè)收集和處理大數(shù)據(jù),不必深究為什么能增加利潤,更沒有必要花大力氣深究其背后的內在規(guī)律和盈利模型。

      這里就出現(xiàn)了兩種路徑,一條是學術研究遵循的從數(shù)據(jù)到信息再到知識和智慧的研究思路,另一條是商業(yè)活動走的從數(shù)據(jù)直接到價值的捷徑。美國Wired雜志主編Chris Anderson在他的文章“The End of Theory”中引證Google通過廣告大賺其錢的案例后大聲發(fā)問:“現(xiàn)在是時間問這一句了:科學能從谷歌那兒學到什么?”[14]

      四、部分和整體關系

      從亞里士多德到黑格爾,從貝塔朗菲到普里高津,都從自己理論的角度探討了部分與整體關系范疇。這個古老的思維范疇在大數(shù)據(jù)時代又有了新的特點。在小數(shù)據(jù)時代的傳統(tǒng)思維中,人們對整體的把握習慣于通過窺斑見全豹的方式來實現(xiàn),抽樣調查是數(shù)據(jù)有限條件下獲得科學結論的主要手段。對于同質化程度很高的事物來說,隨機抽樣是掌握事物性質的重要方法,因為“所有數(shù)據(jù)其實都是樣本而已”,“群體的任何一部分都是樣本,抽樣就是只觀測群體中的一部分,以得到總體情況的信息?!盵15]156但抽樣調查有其局限性,主要表現(xiàn)在抽樣隨機性的實現(xiàn)比較困難;隨機抽樣不適合細節(jié)考察,不適合分析子類別的情況,子類型一旦細分,抽樣分析結果的錯誤率會大大增加;隨機抽樣調查結果缺乏延展性,調查結論數(shù)據(jù)不可重新使用來實現(xiàn)別的分析要求。特別是對開放的復雜系統(tǒng)數(shù)據(jù),如結構復雜的網(wǎng)絡數(shù)據(jù),“大樣本比小樣本更精確。小樣本比大樣本產(chǎn)生極端結果的概率大?!盵16]93因此,能運用大數(shù)據(jù)來把握事物的整體性當然最好。

      在大數(shù)據(jù)時代,大數(shù)據(jù)收集分析處理技術使獲得接近于整體的數(shù)據(jù)越來越容易。從數(shù)據(jù)收集技術方面看,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的廣泛應用使網(wǎng)站點擊、手機導航傳感器以及Facebook和Twitter能夠實時產(chǎn)生海量數(shù)據(jù),而大數(shù)據(jù)技術可以對這些數(shù)據(jù)進行實時處理,這將出現(xiàn)了大數(shù)據(jù)時代樣本=總體的“全數(shù)據(jù)模式”。在某些特定的情況下,雖然依然可以采用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。美國大數(shù)據(jù)專家Bill Franks指出,“當有大量數(shù)據(jù)時,獲取足夠的樣本并不難。今天的系統(tǒng)都具有足夠的可擴展性,直接針對全體數(shù)據(jù)進行分析也是可行的,抽取10%的樣本顧客進行分析便不再是必需的,因為我們可以直接分析客戶。”[17]136全數(shù)據(jù)模式使得由“抽查”轉變?yōu)椤皩嵅椤背蔀榭赡?,大?shù)據(jù)使“我們離實查相當接近,并可以用來替代產(chǎn)生偏差的抽樣?!盵18]

      全數(shù)據(jù)模式無疑提高了我們把握事物的精度,通過使用整體數(shù)據(jù),我們可以發(fā)現(xiàn)一些可能被忽略的蜘蛛馬跡,例如,為了防止信用卡詐騙,就不能放過哪怕一次異常交易情節(jié)。Xoom公司是一個專門從事跨境匯款業(yè)務的公司,它運用大數(shù)據(jù)技術分析每一筆交易的所有有關數(shù)據(jù),2011年的一段時間,它發(fā)現(xiàn)用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比往常明顯增多,于是緊急啟動報警程序,從而防止了一個詐騙集團的金融犯罪?,F(xiàn)在,很多銀行都在使用信用卡消費監(jiān)測報警系統(tǒng),一個正常使用的信用卡如果突然出現(xiàn)一次大額度消費或跨國消費情形,客服人員會馬上打電話提示持卡人,這顯示銀行對每張卡的消費記錄不是零散的,而是整體的。

      全數(shù)據(jù)模式涉及我們對大數(shù)據(jù)之“大”的認知。大數(shù)據(jù)之“大”不僅僅指數(shù)據(jù)體量大,而且還包括數(shù)據(jù)的整體性和價值性。不挖掘大數(shù)據(jù)的價值,數(shù)據(jù)再多也沒有用,同樣,不提高數(shù)據(jù)的整體性,數(shù)據(jù)再多價值也不大。因此,大數(shù)據(jù)是指不用隨機抽樣分析法這樣的傳統(tǒng)方法,而采用處理所有數(shù)據(jù)的方法,也就是說,大數(shù)據(jù)方法不是抽樣分析法,而是整體分析法。

      貝塔朗菲曾將亞里士多德關于部分與整體關系的觀點概括為“整體大于部分之和”,因為在小數(shù)據(jù)時代,人們獲得的部分數(shù)據(jù)的有限性與整體差距太大,部分之和不可能等于整體,但在大數(shù)據(jù)時代,人們獲得整體數(shù)據(jù)的能力大大增強,亞里士多德的結論也日益受到質疑。

      五、精確和模糊關系

      傳統(tǒng)的思維定勢一直致力于追求對事物精確度的認識,從“測量就是認知”到“知識就是力量”,開爾文男爵和培根都是科學測量方法的創(chuàng)造者和倡導者。進入20世紀以后,量子力學的“測不準定律”揭示了統(tǒng)計性、不精確、不確定性也是物質運動的一種基本樣式,使人們開始了對精確與模糊關系的重新認識。現(xiàn)在,大數(shù)據(jù)時代的到來,使人們開始進一步討論“大數(shù)據(jù)混雜”帶給人們思維方式的變化。

      大數(shù)據(jù)之所以會給人混雜模糊的感覺,主要基于以下幾點。

      1.大數(shù)據(jù)思維往往沒有預設。既沒有設定的目標,也沒有設定的問題;既沒有設定的條件,也沒有設定的理論模型。沒有預設會給人思維混亂的印象,但也會給人思想自由的感覺。由于大數(shù)據(jù)更多是探尋事物之間的相互關系,輸入數(shù)據(jù)后能夠發(fā)現(xiàn)什么新情況新規(guī)律,能夠從中得到什么啟示,很多是自然形成的結果,這些隨機出現(xiàn)的結果往往超出既有的思維判斷,人們有時沒有思想準備,一下子難以接受。谷歌公司研究部主任彼得·諾維格認為,在大數(shù)據(jù)時代,“沒有模型你也可以成功”,大數(shù)據(jù)技術和大數(shù)據(jù)資源使我們可以在沒有預設目標和理論模型的情況下進行數(shù)據(jù)挖掘,在互聯(lián)網(wǎng)、云計算、人工智能條件下,只要有相關關系的數(shù)據(jù),統(tǒng)計分析就能夠發(fā)現(xiàn)過去的科學方法發(fā)現(xiàn)不了的新情況和新規(guī)律。

      2.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)之大有關。數(shù)據(jù)量越大,精確性越小,規(guī)模越大,錯誤越多,也就是說,數(shù)據(jù)量往往與精確性成反比,規(guī)模與錯誤成正比。因此,為了擴大規(guī)模,我們接受適量錯誤的存在。正如技術咨詢公司Forrester所認為的,有時得到2加2約等于3.9的結果,也很不錯了。

      3.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)的非結構化有關。大數(shù)據(jù)既包括文本數(shù)據(jù),還包括圖片、音頻、視頻、日志、地理位置以及聊天記錄、支付記錄等各種類別數(shù)據(jù),這些數(shù)據(jù)結構混雜,格式不一。如果要達到格式一致,就需要進行數(shù)據(jù)分類清理,而這在大數(shù)據(jù)條件下既難做到,也無必要。在現(xiàn)在的數(shù)據(jù)倉庫中,“只有5%的數(shù)據(jù)是有框架的且能適用于傳統(tǒng)數(shù)據(jù)庫的,如果不接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶?!盵19]

      4.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)的容錯機制有關。Google的翻譯系統(tǒng)是這方面較好的例證,“盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多”?!皬墓雀璧睦觼砜?,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因為它接受了有錯誤的數(shù)據(jù)。”[20]54美國紐約大學教授馮啟思(Kaiser Fung)在《數(shù)據(jù)統(tǒng)治世界》一書中論述了“出錯的好處”,指出“雖然明知容易犯錯,可依然信心飽滿,這是大統(tǒng)計學家的標志。他們認識到?jīng)]人能獨占真理,只要世界上還有不確定性存在,真理就未可知?!盵21]222正是大數(shù)據(jù)的容錯機制大大提高了大數(shù)據(jù)預測的準確性,“不怕一萬就怕萬一”,因為萬一的疏漏也許就是致命的。正如大數(shù)據(jù)專家D.J.Patel所指出的,在網(wǎng)上搜索I.B.M可以有成千上萬種指代,而數(shù)據(jù)混雜換來的是沒有遺漏,沒有遺漏會使我們獲得一些本可能被錯過的變化。

      大數(shù)據(jù)的混雜模糊表面上破壞了數(shù)據(jù)的精確性,其實它是在更大的規(guī)模上和更大的范圍內實現(xiàn)數(shù)據(jù)的精確性,因為它減少了遺漏,減少了被錯過的機會,提高了大數(shù)據(jù)預測的準確率,而準確預測正是大數(shù)據(jù)的核心所在。從小數(shù)據(jù)精確到大數(shù)據(jù)混雜再到大數(shù)據(jù)精確,人們的思維仿佛是走了一條正-反-合的道路,也就是肯定-否定-否定之否定的道路。

      [1]王勤:《印刷“觸網(wǎng)”:傳統(tǒng)與新銳的碰撞》,載《中國新聞出版報》2014年3月27日。

      [2]涂子沛:《大數(shù)據(jù)》,桂林:廣西師范大學出版社2013年版。

      [3]鄔賀銓:《大數(shù)據(jù)時代的機遇與挑戰(zhàn)》,載《求是》2013年第4期。

      [4]倪光南:《關于大數(shù)據(jù)》,載《高科技與產(chǎn)業(yè)化》2013年第5期。

      [5]李德毅:《在實踐中研究大數(shù)據(jù)和你在一起》,載《科技資訊網(wǎng)》2013年6月5日。

      [6]張建設:《大數(shù)據(jù)悖論》,載《中國計算機報》2013年第16期。

      [7](美)艾伯特-拉斯洛·巴拉巴西:《爆發(fā):大數(shù)據(jù)時代預見未來的新思維》,馬慧譯,北京:中國人民大學出版社2012年版。

      [8]D.J.Watts.“A twenty-first century science”,Nature,2007,volume 445.(489).

      [9]李國杰:《大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域》,載《中國科學院院刊》2012年第6期。

      [10]吳軍:《數(shù)學之美》,北京:人民郵電出版社2012年第6期。

      [11](英)維克托·邁爾-舍恩伯格:《大數(shù)據(jù)時代:生活、工作與思維的變革》,周濤譯,杭州:浙江人民出版社2013年版。

      [12]周濤:《在路上晃晃悠悠.“大數(shù)據(jù)時代”》,杭州:浙江人民出版社2013年版。

      [13]李國杰:《大數(shù)據(jù)研究的科學價值》,載《中國計算機學會通訊》2012年第9期。

      [14]Chris Anderson.“The End of Theory:The Date Deluge Makes the Scientific Method Obsolete”,Wired,2008,16,(7).

      [15](美)道格拉斯·哈伯德:《數(shù)據(jù)化決策》,鄧洪濤譯,廣州:中國圖書出版集團世界圖書出版公司2013年版。

      [16](美)丹尼爾·卡爾曼:《思考,快與慢》,胡曉嬌、李愛民、何夢瑩譯,北京:中信出版社2012年版。

      [17](美)Bill Franks:《駕馭大數(shù)據(jù)》,黃海等譯,北京:人民郵電出版社2013年版。

      [18]黃升民、劉珊:《“大數(shù)據(jù)”背景下營銷體系的解構和重構》,載《現(xiàn)代傳播》2012年第11期。

      [19]張濤甫:《大數(shù)據(jù)時代的出版困局及其突破》,載《編輯學刊》2013年第2期。

      [20](美)馮啟思:《數(shù)據(jù)統(tǒng)治世界》,北京:中國人民大學出版社2013年版。

      責任編輯 吳蘭麗

      Big Data Will Change Several Major Thinking Categories

      ZHANG Chi
      (School of Journalism&Information Communication,HUST,Wuhan430074,China)

      The heated discussion about big data thinking has two meanings:first is knowing and attaching importance to big data in thought,which is a kind of thinking attitude;Second is big data thinking category,which is a way of thinking.Big data thinking category is the organic unity of subjective logic and objective logic in the big data era,which reflects dialectical relationship of its existence and develpment.Big data surge will change the people’s traditional understanding about a series of thinking categories including possibility and reality,inevitability and contingency,causation and correlation,part and whole,accuracy and vague and so on.

      big data;bit data thinking;thinking category

      張弛,華中科技大學新聞與信息傳播學院博士生,研究方向為新聞傳播、大數(shù)據(jù)傳播。

      2014-11-30

      C795

      A

      1671-7023(2015)02-0120-06

      猜你喜歡
      因果關系思維
      思維跳跳糖
      思維跳跳糖
      思維跳跳糖
      思維跳跳糖
      思維跳跳糖
      思維跳跳糖
      玩忽職守型瀆職罪中嚴重不負責任與重大損害后果的因果關系
      南大法學(2021年6期)2021-04-19 12:28:02
      做完形填空題,需考慮的邏輯關系
      論刑法中提前的因果關系與延后的因果關系
      幫助犯因果關系芻議
      天门市| 富锦市| 永州市| 山东省| 育儿| 伊川县| 古交市| 屯昌县| 宜丰县| 伽师县| 武乡县| 崇阳县| 商河县| 临朐县| 仁怀市| 崇左市| 辽源市| 武隆县| 平顺县| 噶尔县| 凌源市| 稻城县| 石台县| 云浮市| 昂仁县| 娱乐| 安远县| 博罗县| 铜川市| 阿拉尔市| 汾西县| 泰顺县| 彩票| 东乡族自治县| 蛟河市| 锦州市| 吉林省| 原平市| 社会| 城固县| 普宁市|