• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)究竟是什么

      2018-10-21 11:01:47汪暉
      老年博覽·上半月 2018年11期
      關(guān)鍵詞:數(shù)據(jù)量飲食習(xí)慣百度

      汪暉

      機(jī)器智能離不開(kāi)數(shù)據(jù),那么大量的數(shù)據(jù)和現(xiàn)在大家所說(shuō)的大數(shù)據(jù)是不是一回事呢?如果不是,它們之間又有什么聯(lián)系和區(qū)別呢?

      毫無(wú)疑問(wèn),大數(shù)據(jù)的數(shù)據(jù)量自然是非常大的,但是光是量大還不是我們所說(shuō)的大數(shù)據(jù)。比如過(guò)去國(guó)家統(tǒng)計(jì)局的數(shù)據(jù)量也很大,但那并不是真正意義上的大數(shù)據(jù)。這兩者的差別我們可以從三個(gè)方面來(lái)看。

      第一,大數(shù)據(jù)具有多維度性質(zhì),而不同維度之間有著天然的(而非人為的)聯(lián)系。為了說(shuō)明這一點(diǎn),我們不妨看一個(gè)實(shí)際的例子。

      2013年9月,百度發(fā)布了一個(gè)頗有意思的統(tǒng)計(jì)結(jié)果:中國(guó)十大“吃貨”省市排行榜。百度沒(méi)有做任何民意調(diào)查和對(duì)各地飲食習(xí)慣的研究,只是從“百度知道”的7700萬(wàn)條和吃有關(guān)的問(wèn)題里“挖掘”出來(lái)一些結(jié)論:在有關(guān)“××能吃嗎”的問(wèn)題中,福建、浙江、廣東、四川等地的網(wǎng)友最常問(wèn)的是“××蟲(chóng)能吃嗎”,江蘇、上海、北京等地的網(wǎng)友最常問(wèn)“××的皮能不能吃”,內(nèi)蒙古、新疆、西藏的網(wǎng)友最關(guān)心的是“蘑菇能吃嗎”,而寧夏網(wǎng)友最關(guān)心的竟然是“螃蟹能吃嗎”!寧夏網(wǎng)友的問(wèn)題一定會(huì)讓福建的網(wǎng)友大跌眼鏡。

      百度做的這件事其實(shí)就是大數(shù)據(jù)的一個(gè)典型應(yīng)用。它有這樣一些特點(diǎn):首先,它的數(shù)據(jù)量非常大。其次,這些數(shù)據(jù)的維度非常多,不僅涉及食物的做法、吃法、營(yíng)養(yǎng)價(jià)值、價(jià)格等,而且包含了提問(wèn)者的很多信息,如互聯(lián)網(wǎng)IP地址、所用的計(jì)算機(jī)(或者手機(jī))型號(hào)、瀏覽器的種類(lèi)等等。這些維度并不是明確地給出的(這一點(diǎn)和傳統(tǒng)的數(shù)據(jù)庫(kù)不一樣),因此在外人看來(lái),這些原始的數(shù)據(jù)“相當(dāng)雜亂”,但恰恰是這些看上去雜亂無(wú)章的數(shù)據(jù),將原來(lái)看似無(wú)關(guān)的維度聯(lián)系了起來(lái)。經(jīng)過(guò)對(duì)這些信息的挖掘、加工和整理,就得到了有意義的統(tǒng)計(jì)規(guī)律。

      百度只是公布了一點(diǎn)點(diǎn)大家感興趣的結(jié)果,其實(shí)它還完全可以從這些數(shù)據(jù)中得到更多有價(jià)值的統(tǒng)計(jì)結(jié)果。比如,它很容易得到不同年齡、性別和文化背景的人(這些很容易挖掘出來(lái))的飲食習(xí)慣,不同生活習(xí)慣的人(比如正常作息的、夜貓子,經(jīng)常出差的或者不愛(ài)運(yùn)動(dòng)的)的飲食習(xí)慣等等。如果百度的數(shù)據(jù)收集時(shí)間跨度足夠長(zhǎng),它還可以看出不同地區(qū)人們飲食習(xí)慣的變化,尤其是在不同經(jīng)濟(jì)發(fā)展階段飲食習(xí)慣的改變。而這些看似很簡(jiǎn)單的問(wèn)題,沒(méi)有這些大數(shù)據(jù),還真是很難得到答案。這就是大數(shù)據(jù)多維度的威力。

      大數(shù)據(jù)的第二個(gè)特點(diǎn)在于它的完備性。為了說(shuō)明這一點(diǎn),讓我們?cè)賮?lái)看一個(gè)實(shí)例。從1932年開(kāi)始,蓋洛普一直在對(duì)美國(guó)總統(tǒng)選舉進(jìn)行預(yù)測(cè)。幾十年來(lái)它不斷改進(jìn)采樣方法,力求使統(tǒng)計(jì)結(jié)果準(zhǔn)確。但是在過(guò)去的幾十年,它對(duì)美國(guó)大選結(jié)果的預(yù)測(cè)可以講是大局(全國(guó))尚準(zhǔn)確,但是細(xì)節(jié)(每一個(gè)州)常常出錯(cuò)。因?yàn)樵俸玫牟蓸臃椒?,也有考慮不周全之處。

      但是到了2 0 1 2年總統(tǒng)選舉時(shí),這種“永遠(yuǎn)預(yù)測(cè)不準(zhǔn)”的情況得到了改變。一位名不見(jiàn)經(jīng)傳的統(tǒng)計(jì)學(xué)家Nate Silver通過(guò)對(duì)互聯(lián)網(wǎng)上能夠獲得的大量數(shù)據(jù)(包括社交網(wǎng)絡(luò)上用戶發(fā)表的信息、新聞信息和其他網(wǎng)絡(luò)信息)進(jìn)行大數(shù)據(jù)分析,準(zhǔn)確地預(yù)測(cè)了全部50個(gè)州的選舉結(jié)果。Silver并沒(méi)有多么好的采樣方法,只是收集的數(shù)據(jù)很完備。

      數(shù)據(jù)的完備性的作用遠(yuǎn)比準(zhǔn)確預(yù)測(cè)一次總統(tǒng)選舉大得多,谷歌無(wú)人駕駛汽車(chē)便是一個(gè)很好的例子。無(wú)人駕駛汽車(chē)可以算是一個(gè)機(jī)器人,它能像人一樣對(duì)各種隨機(jī)突發(fā)性事件快速做出判斷。

      2004年,經(jīng)濟(jì)學(xué)家們還認(rèn)為駕駛員是人工智能很難取代的。當(dāng)然,他們不是憑空得出這個(gè)結(jié)論的。除分析了技術(shù)上和心理上的難度外,他們還參考了當(dāng)年DARPA組織的自動(dòng)駕駛汽車(chē)?yán)惖慕Y(jié)果—當(dāng)時(shí)排名第一的汽車(chē)花了幾小時(shí)才開(kāi)出8英里,然后就拋錨了。但是僅僅過(guò)了6年,谷歌的自動(dòng)駕駛汽車(chē)不僅研制出來(lái)了,而且在高速公路和繁華的市區(qū)行駛了14萬(wàn)英里,沒(méi)有出過(guò)一次事故。

      為什么谷歌能在不到6年的時(shí)間里做到這一點(diǎn)呢?最根本的原因是谷歌的思維方式和以往的科學(xué)家們都不同—他們把這個(gè)機(jī)器人的問(wèn)題變成了一個(gè)大數(shù)據(jù)的問(wèn)題。

      首先,自動(dòng)駕駛汽車(chē)項(xiàng)目是谷歌街景項(xiàng)目的延伸。谷歌的自動(dòng)駕駛汽車(chē)只能去它“掃過(guò)街”的地方,在行駛到這些地方時(shí),它對(duì)周?chē)沫h(huán)境是非常了解的,而過(guò)去那些研究所里研制的自動(dòng)駕駛汽車(chē),每到一處都要臨時(shí)識(shí)別目標(biāo),這是人的思維方式。

      其次,谷歌的自動(dòng)駕駛汽車(chē)上裝了十幾個(gè)傳感器,每秒進(jìn)行幾十次各種掃描。這不僅超過(guò)了人所謂的“眼觀六路,耳聽(tīng)八方”,而且積攢下來(lái)的大量數(shù)據(jù)使它對(duì)各地的路況以及不同交通狀況下車(chē)輛行駛的模式有了準(zhǔn)確的了解。計(jì)算機(jī)學(xué)習(xí)這些“經(jīng)驗(yàn)”的速度遠(yuǎn)遠(yuǎn)比人快。依靠這些,谷歌才能在非常短的時(shí)間里實(shí)現(xiàn)汽車(chē)的自動(dòng)駕駛。

      大數(shù)據(jù)的第三個(gè)特征在它的英文表述“big data”這個(gè)詞中體現(xiàn)得很清楚。請(qǐng)注意,這里使用的是big data,而不是large data。這兩個(gè)表述有什么區(qū)別呢?big主要是強(qiáng)調(diào)抽象意義上的大,而large是強(qiáng)調(diào)數(shù)量(或者尺寸)大。big data不僅表示數(shù)據(jù)量大,更重要的是強(qiáng)調(diào)了思維方式的不同。這種以數(shù)據(jù)為主的新做法,在某種程度上顛覆了人們長(zhǎng)期以來(lái)在科學(xué)和工程上的方法論。

      過(guò)去,我們強(qiáng)調(diào)一件事的因果關(guān)系,通過(guò)前提和假設(shè)推導(dǎo)出結(jié)果。但是在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)的完備性,我們常常是先知道結(jié)論,再去找原因(甚至不去找原因)。事實(shí)上,在一些擁有大數(shù)據(jù)的IT公司,包括谷歌、阿里巴巴等,今天已經(jīng)在按照這種思維方式做事了。谷歌的產(chǎn)品比競(jìng)爭(zhēng)對(duì)手好,主要不是靠技術(shù),而是靠它的數(shù)據(jù)比對(duì)手的更完備,同時(shí)它愿意用數(shù)據(jù)來(lái)解決問(wèn)題。阿里巴巴的小額貸款業(yè)務(wù)能做起來(lái),也是利用了大數(shù)據(jù)思維。這是一種我們以前完全沒(méi)見(jiàn)過(guò)的新的思維方式,一種新的方法論。

      大數(shù)據(jù)的這三個(gè)特點(diǎn)導(dǎo)致人工智能和人具有完全不同的特點(diǎn)。它不是通過(guò)邏輯推理歸納演繹得出結(jié)論,而是利用大數(shù)據(jù)的完備性和多維度特點(diǎn)直接找到答案。而大數(shù)據(jù)的完備性讓機(jī)器有可能比人更能夠掌控全局,或者說(shuō)幫助決策者更好地掌握全局。

      猜你喜歡
      數(shù)據(jù)量飲食習(xí)慣百度
      七種飲食習(xí)慣讓大腦老得慢
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類(lèi)小數(shù)據(jù)量法
      遠(yuǎn)離七種不良飲食習(xí)慣
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      戒除糖癮先改飲食習(xí)慣
      Robust adaptive UKF based on SVR for inertial based integrated navigation
      寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      6種“敗性”飲食習(xí)慣
      百度年度熱搜榜
      如东县| 额敏县| 平乐县| 中宁县| 南川市| 德保县| 洪洞县| 涟源市| 琼海市| 开化县| 揭阳市| 泊头市| 田阳县| 濉溪县| 阜阳市| 塔河县| 荆州市| 乌海市| 庐江县| 博湖县| 南岸区| 瑞丽市| 沂源县| 格尔木市| 通州区| 阜康市| 开化县| 乌恰县| 黔南| 射阳县| 清流县| 康定县| 广饶县| 库伦旗| 黄梅县| 清水河县| 通城县| 淮阳县| 徐汇区| 隆化县| 邛崃市|