• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)應(yīng)用發(fā)展史:從搜索引擎到人工智能

      2018-01-22 12:45佚名
      中國信息化周報 2018年45期
      關(guān)鍵詞:數(shù)據(jù)倉庫搜索引擎數(shù)據(jù)挖掘

      佚名

      大數(shù)據(jù)技術(shù)的使用經(jīng)歷了一個發(fā)展過程。從最開始的Google在搜索引擎中開始使用大數(shù)據(jù)技術(shù),到現(xiàn)在無處不在的各種人工智能應(yīng)用,伴隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)應(yīng)用也從曲高和寡走到了今天的遍地開花。

      Google從最開始發(fā)表大數(shù)據(jù)論文的時候,也許沒有想到自己開啟了一個大數(shù)據(jù)的新時代。

      大數(shù)據(jù)應(yīng)用的搜索引擎時代

      作為全球最大的搜索引擎公司,Google是我們公認(rèn)的大數(shù)據(jù)鼻祖,它存儲著全世界幾乎所有可訪問的網(wǎng)頁,數(shù)目可能超過萬億規(guī)模,全部存儲起來大約需要數(shù)萬塊磁盤。為了將這些文件存儲起來,Google開發(fā)了GFS(Google文件系統(tǒng)),將數(shù)千臺服務(wù)器上的數(shù)萬塊磁盤統(tǒng)一管理起來,然后當(dāng)作一個文件系統(tǒng),統(tǒng)一存儲所有這些網(wǎng)頁文件。

      如果只是簡單地將所有網(wǎng)頁存儲起來,好像也沒什么太了不起的。但是Google得到這些網(wǎng)頁文件是要構(gòu)建搜索引擎,需要對所有文件中的單詞進(jìn)行詞頻統(tǒng)計,然后根據(jù)PageRank算法計算網(wǎng)頁排名。這中間,Google需要對這數(shù)萬塊磁盤上的文件進(jìn)行計算處理。當(dāng)然,也正是基于這些需求,Google又開發(fā)了MapReduce大數(shù)據(jù)計算框架。

      其實在Google之前,世界上最知名的搜索引擎是Yahoo。但是Google憑借自己的大數(shù)據(jù)技術(shù)和PageRank算法,使搜索引擎的搜索體驗得到了質(zhì)的飛躍,人們紛紛棄Yahoo而轉(zhuǎn)投Google。所以當(dāng)Google發(fā)表了自己的GFS和MapReduce論文后,Yahoo應(yīng)該是最早關(guān)注這些論文的公司。

      頂尖的公司和頂尖的高手一樣,做事有一種優(yōu)雅的美感。可以看到Google一路走來,從搜索引擎、Gmail、地圖、Android、無人駕駛,每一步都將人類的技術(shù)邊界推向更高的高度。而差一點的公司即使也曾經(jīng)獲得過顯赫的地位,但是一旦失去做事的美感和節(jié)奏感,在這個快速變革的時代,隕落得比流星還快。

      大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫時代

      Google的論文剛發(fā)表的時候,吸引的是Yahoo這樣的搜索引擎公司和Doug Cutting這樣的開源搜索引擎開發(fā)者,其他公司還只是吃瓜群眾。但是當(dāng)Facebook推出Hive的時候,嗅覺敏感的科技公司都不淡定了,他們開始意識到,大數(shù)據(jù)的時代已真正開啟。

      曾經(jīng)我們在進(jìn)行數(shù)據(jù)分析與統(tǒng)計時,僅僅局限于數(shù)據(jù)庫,在數(shù)據(jù)庫的計算環(huán)境中對數(shù)據(jù)庫中的數(shù)據(jù)表進(jìn)行統(tǒng)計分析。并且受數(shù)據(jù)量和計算能力的限制,我們只能對最重要的數(shù)據(jù)進(jìn)行統(tǒng)計和分析。這里所謂最重要的數(shù)據(jù),通常指的都是給老板看的數(shù)據(jù)和財務(wù)相關(guān)的數(shù)據(jù)。

      而Hive可以在Hadoop上進(jìn)行SQL操作,實現(xiàn)數(shù)據(jù)統(tǒng)計與分析。也就是說,我們可以用更低廉的價格獲得比以往多得多的數(shù)據(jù)存儲與計算能力。我們可以把運行日志、應(yīng)用采集數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)放到一起進(jìn)行計算分析,獲得以前無法得到的數(shù)據(jù)結(jié)果,企業(yè)的數(shù)據(jù)倉庫也隨之呈指數(shù)級膨脹。

      不僅是老板,公司中每個普通員工比如產(chǎn)品經(jīng)理、運營人員、工程師,只要有數(shù)據(jù)訪問權(quán)限,都可以提出分析需求,從大數(shù)據(jù)倉庫中獲得自己想要了解的數(shù)據(jù)分析結(jié)果。

      在數(shù)據(jù)倉庫時代,只要有數(shù)據(jù),幾乎就一定要進(jìn)行統(tǒng)計分析,如果數(shù)據(jù)規(guī)模比較大,我們就會想到要用Hadoop大數(shù)據(jù)技術(shù),這也是Hadoop在這個時期發(fā)展特別快的一個原因。技術(shù)的發(fā)展同時又促進(jìn)了技術(shù)應(yīng)用,這也為接下來大數(shù)據(jù)應(yīng)用走進(jìn)數(shù)據(jù)挖掘時代埋下伏筆。

      大數(shù)據(jù)應(yīng)用的數(shù)據(jù)挖掘時代

      大數(shù)據(jù)一旦進(jìn)入更多的企業(yè),我們就會對大數(shù)據(jù)提出更多期望,除了數(shù)據(jù)統(tǒng)計,我們還希望發(fā)掘出更多數(shù)據(jù)的價值,大數(shù)據(jù)隨之進(jìn)入數(shù)據(jù)挖掘時代。

      講個真實的案例,很早以前商家就通過數(shù)據(jù)發(fā)現(xiàn),買尿不濕的人通常也會買啤酒,于是精明的商家就把這兩樣商品放在一起,以促進(jìn)銷售。啤酒和尿不濕的關(guān)系,你可以有各種解讀,但是如果不是通過數(shù)據(jù)挖掘,可能打破腦袋也想不出它們之間會有關(guān)系。在商業(yè)環(huán)境中,如何解讀這種關(guān)系并不重要,重要的是它們之間只要存在關(guān)聯(lián),就可以進(jìn)行關(guān)聯(lián)分析,最終目的是讓用戶盡可能看到想購買的商品。

      除了商品和商品有關(guān)系,還可以利用人和人之間的關(guān)系推薦商品。如果兩個人購買的商品有很多都是類似甚至相同的,不管這兩個人天南海北相隔多遠(yuǎn),他們一定有某種關(guān)系,比如可能有差不多的教育背景、經(jīng)濟(jì)收入、興趣愛好。根據(jù)這種關(guān)系,可以進(jìn)行關(guān)聯(lián)推薦,讓他們看到自己感興趣的商品。

      更進(jìn)一步,大數(shù)據(jù)還可以將每個人身上的不同特性挖掘出來,打上各種各樣的標(biāo)簽:90后、生活在一線城市、月收入1萬~2萬、宅……這些標(biāo)簽組成了用戶畫像,并且只要這樣的標(biāo)簽足夠多,就可以完整描繪出一個人,甚至比你最親近的人對你的描述還要完整、準(zhǔn)確。

      除了商品銷售,數(shù)據(jù)挖掘還可以用于人際關(guān)系挖掘。你聽過“六度分隔理論”嗎?它認(rèn)為世界上兩個互不認(rèn)識的人,只需要很少的中間人就能把他們聯(lián)系起來。這個理論在美國的實驗結(jié)果是,通過六步就能聯(lián)系上兩個不認(rèn)識的美國人。也是基于這個理論,F(xiàn)acebook研究了十幾億用戶的數(shù)據(jù),試圖找到關(guān)聯(lián)兩個陌生人之間的數(shù)字,答案是驚人的3.57。你可以看到,各種各樣的社交軟件記錄著我們的好友關(guān)系,通過關(guān)系圖譜挖掘,幾乎可以把世界上所有的人際關(guān)系網(wǎng)都描繪出來。

      現(xiàn)代生活幾乎離不開互聯(lián)網(wǎng),各種各樣的應(yīng)用無時不刻不在收集數(shù)據(jù),這些數(shù)據(jù)在后臺的大數(shù)據(jù)集群中一刻不停地在被進(jìn)行各種分析與挖掘。這些分析和挖掘帶給我們的是美好還是恐懼,依賴大數(shù)據(jù)從業(yè)人員的努力。但是可以肯定,不管最后結(jié)果如何,這個進(jìn)程只會加速不會停止,你我只能投入其中。

      大數(shù)據(jù)應(yīng)用的機(jī)器學(xué)習(xí)時代

      我們很早就發(fā)現(xiàn),數(shù)據(jù)中蘊(yùn)藏著規(guī)律,這個規(guī)律是所有數(shù)據(jù)都遵循的,過去發(fā)生的事情遵循這個規(guī)律,將來要發(fā)生的事情也遵循這個規(guī)律。一旦找到了這個規(guī)律,對于正在發(fā)生的事情,就可以按照這個規(guī)律進(jìn)行預(yù)測。

      在過去,我們受數(shù)據(jù)采集、存儲、計算能力的限制,只能通過抽樣的方式獲取小部分?jǐn)?shù)據(jù),無法得到完整的、全局的、細(xì)節(jié)的規(guī)律。而現(xiàn)在有了大數(shù)據(jù),可以把全部的歷史數(shù)據(jù)都收集起來,統(tǒng)計其規(guī)律,進(jìn)而預(yù)測正在發(fā)生的事情。

      把歷史上人類圍棋對弈的棋譜數(shù)據(jù)都存儲起來,針對每一種盤面記錄何種落子可以得到更高的贏面。得到這個統(tǒng)計規(guī)律以后,就可以利用這個規(guī)律和人下棋,每一步都計算落在何處將得到更大的贏面。于是我們就得到了一個會下棋的機(jī)器人,這就是前兩年轟動一時的AlphaGo,以壓倒性優(yōu)勢下贏了人類的頂尖棋手。

      將人類活動產(chǎn)生的數(shù)據(jù),通過機(jī)器學(xué)習(xí)得到統(tǒng)計規(guī)律,進(jìn)而可以模擬人的行為,使機(jī)器表現(xiàn)出人類特有的智能,這就是人工智能AI。

      現(xiàn)在我們對待人工智能還有些不理智的態(tài)度,有的人認(rèn)為人工智能會越來越強(qiáng)大,將來會統(tǒng)治人類。實際上,稍微了解人工智能原理就會發(fā)現(xiàn),這只是大數(shù)據(jù)計算出來的統(tǒng)計規(guī)律而已,表現(xiàn)的再智能,也不可能理解這樣做的意義,而有意義才是人類智能的源泉。按目前人工智能的發(fā)展思路,永遠(yuǎn)不可能出現(xiàn)超越人類的智能,更不可能統(tǒng)治人類。

      大數(shù)據(jù)從搜索引擎到機(jī)器學(xué)習(xí),發(fā)展思路其實是一脈相承的,就是想發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律并為我們所用。所以很多人把數(shù)據(jù)稱作金礦,大數(shù)據(jù)應(yīng)用就是從這座蘊(yùn)含知識寶藏的金礦中發(fā)掘出有商業(yè)價值的真金白銀。

      數(shù)據(jù)中蘊(yùn)藏著價值已經(jīng)是眾所周知的事情了。那么如何從這些龐大的數(shù)據(jù)中發(fā)掘出我們想要的知識價值,這正是大數(shù)據(jù)技術(shù)目前正在解決的事情,包括大數(shù)據(jù)存儲與計算,也包括大數(shù)據(jù)分析、挖掘、機(jī)器學(xué)習(xí)等應(yīng)用。

      猜你喜歡
      數(shù)據(jù)倉庫搜索引擎數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      闵行区| 永清县| 扬州市| 洪湖市| 甘德县| 吴川市| 阜城县| 且末县| 平凉市| 璧山县| 阳泉市| 延安市| 正镶白旗| 台湾省| 区。| 宣恩县| 靖远县| 固始县| 北京市| 贵港市| 建阳市| 临泉县| 迁安市| 专栏| 天门市| 从化市| 福泉市| 澄江县| 沙湾县| 乳山市| 枞阳县| 荔波县| 崇左市| 竹北市| 昭苏县| 新野县| 榕江县| 天台县| 云安县| 惠东县| 奉贤区|