• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      山東大學(xué)“大數(shù)據(jù)”探索

      2014-03-13 01:55:02陳琳展鵬
      中國教育網(wǎng)絡(luò) 2014年1期
      關(guān)鍵詞:成果大數(shù)據(jù)信息

      文/陳琳 展鵬

      山東大學(xué)“大數(shù)據(jù)”探索

      文/陳琳 展鵬

      大數(shù)據(jù)有拿手強(qiáng)項(xiàng),也有不擅長的領(lǐng)域。數(shù)據(jù)分析的結(jié)果看似客觀公正,但其實(shí)價(jià)值選擇貫穿了從構(gòu)建到解讀的全過程。

      大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。

      大數(shù)據(jù)解決方案

      大數(shù)據(jù)時(shí)代的到來對(duì)數(shù)據(jù)的存儲(chǔ)、處理及分析提出了新的挑戰(zhàn), 但總的發(fā)展趨勢(shì)是通過分布式計(jì)算來解決 “瓶頸”問題。我們不能依賴提高單個(gè)節(jié)點(diǎn)性能這種縱向擴(kuò)展的方式提升系統(tǒng)整體的性能,相反, 我們需要能夠通過增加系統(tǒng)內(nèi)節(jié)點(diǎn)的數(shù)目這種橫向擴(kuò)展的方式來達(dá)到我們的目的。我們將存儲(chǔ)、 處理和分析的任務(wù)通過分布式的方式分散到系統(tǒng)中各個(gè)節(jié)點(diǎn)上來加快數(shù)據(jù)的存儲(chǔ)、 處理和分析的速度。在 實(shí) 際 的 實(shí) 現(xiàn) 上 ,Google、Amazon、微軟和 VMware這 4 家公司在不同時(shí)間陸續(xù)推出各自的大數(shù)據(jù)方案, 在應(yīng)用領(lǐng)域和贏利模式上,Amazon和Google處于領(lǐng)跑者地位, 微軟和 VMware 緊隨其后,此外還有開源的Hadoop平臺(tái)。Hadoop是谷歌大數(shù)據(jù)平臺(tái)的開源實(shí)現(xiàn), 由于其開源特性, 越來越多的企業(yè)在Hadoop的基礎(chǔ)上對(duì)其進(jìn)行修改以適應(yīng)自己的需要,如Facebook根據(jù)其業(yè)務(wù)需求, 底層采用Hadoop 平臺(tái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理, 并在其上開發(fā)了Hive。Facebook通過Hive實(shí)現(xiàn)了例行性報(bào)表、 即席查詢、 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法, 達(dá)到了較好的效果。大數(shù)據(jù)的存儲(chǔ)穩(wěn)定、 高效的存儲(chǔ)系統(tǒng)既是系統(tǒng)正常運(yùn)行的重要保證, 也可以單獨(dú)作為一項(xiàng)服務(wù)提供給用戶。5種方案之中, Amazon 的 S3 和微軟的 Blob 存儲(chǔ)比較類似, Google的GFS則完全不同,VMware 目前僅向虛擬機(jī)提供存儲(chǔ)服務(wù),Hadoop仿照GFS開發(fā)了HDFS, 是GFS的簡化版本。相比GFS, HDFS缺少了多客戶端并發(fā)的 Append 模型及快照功能。

      表1 大數(shù)據(jù)處理體系

      IT基礎(chǔ)設(shè)施

      大數(shù)據(jù)的處理

      計(jì)算服務(wù)是所有的大數(shù)據(jù)解決方案最核心的業(yè)務(wù)之一, 同時(shí)也是用戶最常用的服務(wù)。Google 和 Hadoop提供基于MapReduce 的數(shù)據(jù)處理, 整個(gè) 過 程 對(duì)用 戶 而 言 是 透 明 的 。Amazon 的 EC2給予用戶配置硬件參數(shù)的權(quán)利, 使得用戶可以根據(jù)實(shí)際的需求動(dòng)態(tài)地改變配置,從而提高效率和節(jié)省資源。微軟的Azure允許用戶在處理數(shù)據(jù)之前設(shè)置部分參數(shù)。

      VMware 的 vCloud 中 提 供 了 DRS 和DPM技術(shù), 可以通過遷移和關(guān)閉虛擬機(jī)來實(shí)現(xiàn)資源優(yōu)化。表2是這5種計(jì)算服務(wù)的比較。MapReduce 在系統(tǒng)層面解決了大數(shù)據(jù)分析平臺(tái)的擴(kuò)展性和容錯(cuò)性問題,是非關(guān)系型數(shù)據(jù)庫的典型代表,因此越來越多的研究人員從性能和易用性方面對(duì)MapReduce進(jìn)行改進(jìn)。

      對(duì) MapReduce 性能提升的研究包括 4個(gè)方面:

      1.多核硬件與圖形處理器上的性能改進(jìn)。

      2.索引技術(shù)與連接技術(shù)的優(yōu)化。

      3.調(diào)度技術(shù)優(yōu)化。

      4.其他優(yōu)化技術(shù)。

      表2 5種存儲(chǔ)服務(wù)的簡單對(duì)比

      針對(duì)MapReduce易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive等。

      山東大學(xué)數(shù)據(jù)分析的幾個(gè)探索

      學(xué)術(shù)論文成果學(xué)科數(shù)據(jù)可視化探索

      我們提出了一個(gè)交互系統(tǒng),用來收集,分析和可視化科研的論文數(shù)據(jù),這種方法可用于量化學(xué)生和導(dǎo)師的研究成果。系統(tǒng)專門分析了每個(gè)作者文章數(shù)量和質(zhì)量的貢獻(xiàn)。同時(shí)將第一作者的在圖形上中顯示,其目的是直觀地反應(yīng)論文的詳細(xì)情況。

      我們采用雙環(huán)可視化方法而不是網(wǎng)絡(luò)圖方法的目的是,觀察學(xué)生和導(dǎo)師在研究成果中的不同職責(zé),特別是指導(dǎo)學(xué)生的導(dǎo)師。同時(shí),學(xué)術(shù)合作和知識(shí)域的變化可以通過可視化的表現(xiàn)形式展現(xiàn)給用戶。

      我們開發(fā)了在兩個(gè)同心圓中呈現(xiàn)結(jié)果的可視化方法。外圈用不同的顏色將不同級(jí)別的學(xué)生區(qū)分開,內(nèi)圈用不同的顏色將導(dǎo)師區(qū)分開。三角形以及三角形的邊框顏色表示了出版的類型(會(huì)議或期刊出版),并填充顏色表示不同發(fā)表指數(shù)( SCI或EI)的出版物。三角形可以看作是一個(gè)箭頭指向本文的第一作者,連接到三角形的線表示發(fā)表成果的共同作者,實(shí)線表示第一作者和第二作者在這個(gè)發(fā)表成果中的直接貢獻(xiàn),而虛線表示發(fā)表成果第一作者和第三作者之間的貢獻(xiàn)關(guān)系。

      我們統(tǒng)計(jì)和分析了計(jì)算機(jī)科學(xué)領(lǐng)域2004至2012年所有可用的文字類型成果,其中包括作者信息,關(guān)鍵字,摘要,級(jí)別和類型。采用指數(shù)將EI和SCI進(jìn)行分類。圖1展示了每年在不同出版物中發(fā)表的數(shù)量信息??梢钥闯?,該數(shù)字波動(dòng)的年變化,在2008年和2010年之間出現(xiàn)明顯的熱潮,但是之后,開始遞減。

      此外,刊物的級(jí)別可以通過影響因子,反映該雜志近期的文章被引用的平均數(shù)。圖2對(duì)成果的發(fā)表時(shí)間進(jìn)行了評(píng)估,通過圖表可以清楚地看出,在一年中成果發(fā)表水平和數(shù)量的情況。例如,2007年有三個(gè)論文的影響因子大于2.0。

      圖3表示了導(dǎo)師的研究成果??梢钥闯觯x中的導(dǎo)師參與了11篇論文的研究工作,其中包括7篇會(huì)議論文, 4篇期刊論文,其中四個(gè)是SCI收錄。其中,作為第一作者出現(xiàn)一次,作為第二作者出現(xiàn)五次。圖4給出了研究組于2008年在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)表成果信息。在外圈上的對(duì)象表示學(xué)生,內(nèi)圈的對(duì)象表示顧問,對(duì)象的顏色區(qū)分出他們的研究興趣是否一致,內(nèi)外圈上對(duì)象會(huì)自動(dòng)調(diào)整其位置以避免重疊的出現(xiàn)。在這個(gè)交互界面中,發(fā)表成果的信息將很容易通過選擇三角形進(jìn)行查詢,其詳細(xì)信息,包括標(biāo)題,作者,會(huì)議或期刊以及其他人的信息將出現(xiàn)在頂部。

      招生網(wǎng)站檢測(cè)與生源數(shù)據(jù)分析

      山東大學(xué)本科招生網(wǎng)站是山東大學(xué)發(fā)布招生信息,錄取信息,公布錄取結(jié)果的重要手段之一,每到招生期間訪問人數(shù)很大。對(duì)于本科招生網(wǎng)站的數(shù)據(jù)監(jiān)控和數(shù)據(jù)分析對(duì)于保障招生安全進(jìn)行,招生數(shù)據(jù)挖掘和分析有重要的意義。所以每年數(shù)據(jù)分析的使用有著良好的作用。通過數(shù)據(jù)挖掘可以分析考生的關(guān)注點(diǎn),考生的活躍時(shí)間等有價(jià)值的信息。

      圖1 每年在不同出版物中發(fā)表的數(shù)量信息

      圖2 對(duì)成果的發(fā)表時(shí)間進(jìn)行的評(píng)估

      圖3 表示了導(dǎo)師的研究成果

      圖4 研究組于2008年在計(jì)算機(jī)科學(xué)領(lǐng)域的發(fā)表成果信息

      “大數(shù)據(jù)”分析做不了什么?

      數(shù)據(jù)可以幫我們解讀數(shù)字的含義。數(shù)據(jù)可以輔助我們擺脫直覺和認(rèn)知的錯(cuò)誤。但有些事情是“大數(shù)據(jù)”不擅長的:

      數(shù)據(jù)不理解社會(huì)認(rèn)知,計(jì)算機(jī)數(shù)據(jù)分析擅長的是測(cè)量社會(huì)交往的“量”而非“質(zhì)”。

      數(shù)據(jù)不了解背景,即便是一部普普通通的小說,數(shù)據(jù)分析也無法解釋其中的思路。

      數(shù)據(jù)擴(kuò)張?zhí)?,關(guān)系太復(fù)雜,找到有價(jià)值信息的難度大。

      數(shù)據(jù)掩蓋了價(jià)值觀念?!丁霸紨?shù)據(jù)”只是一種修辭》一書中的要點(diǎn)之一就是,數(shù)據(jù)從來都不可能是“原始”的,數(shù)據(jù)總是依照某人的傾向和價(jià)值觀念而被構(gòu)建出來的。數(shù)據(jù)分析的結(jié)果看似客觀公正,但其實(shí)價(jià)值選擇貫穿了從構(gòu)建到解讀的全過程。

      大數(shù)據(jù)有拿手強(qiáng)項(xiàng),也有不擅長的領(lǐng)域。我們既需要看到大數(shù)據(jù)的優(yōu)點(diǎn),也要清晰認(rèn)識(shí)到大數(shù)據(jù)的缺點(diǎn),解讀大數(shù)據(jù)是一項(xiàng)系統(tǒng)綜合工程,與數(shù)據(jù)所生成的社會(huì)背景無法分開。

      (作者單位為山東大學(xué)網(wǎng)絡(luò)中心)

      短短60秒內(nèi),Tumblr(著名輕博客平臺(tái))上新增了2萬多個(gè)新帖子。Pandora電臺(tái)(自動(dòng)音樂推薦服務(wù))有總長度超過1萬3千小時(shí)的音樂數(shù)據(jù)流動(dòng)。

      大數(shù)據(jù)人才需求

      據(jù)顧問公司麥肯錫旗下研究部門麥肯錫全球?qū)W會(huì)(McKinsey Global Institute)于2012年發(fā)布的一份報(bào)告顯示,預(yù)計(jì)美國需要14萬名到19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數(shù)據(jù)的經(jīng)理人,無論是已退休人士還是已受聘人士。數(shù)據(jù)充斥所帶來的影響遠(yuǎn)遠(yuǎn)超出了企業(yè)界。

      企業(yè)應(yīng)對(duì)“大數(shù)據(jù)”

      各家大型廠商紛紛推出大數(shù)據(jù)解決方案。2010年,EMC通過收購Greenplum正式進(jìn)入了數(shù)據(jù)倉庫市場。并在次年推出了支持大數(shù)據(jù)分析的下一代EMC Greenplum統(tǒng)一分析平臺(tái);同年,IBM收購了數(shù)據(jù)分析公司Netezza,開始拓展商業(yè)價(jià)值方面的市場;惠普對(duì)Vertica進(jìn)行收購;甲骨文發(fā)布的新版NoSQL數(shù)據(jù)庫企業(yè)版,這是運(yùn)行于Hadoop 之上的大數(shù)據(jù)軟件之一;微軟宣布與Hortonwork公司建立新的合作伙伴關(guān)系,后者致力于Hadoop開發(fā)。為了增強(qiáng)非傳統(tǒng)數(shù)據(jù)分析的能力,Teradata收購了Aster Data公司。新興的大數(shù)據(jù)企業(yè)如雨后春筍般涌現(xiàn)。

      大數(shù)據(jù)的特點(diǎn)

      業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。

      一是數(shù)據(jù)體量巨大(Volume)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。

      二是數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。

      三是價(jià)值密度低(Value)。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有1~2秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,成為目前大數(shù)據(jù)背景下亟待解決的難題。

      四是處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。

      猜你喜歡
      成果大數(shù)據(jù)信息
      工大成果
      “走出去”成果斐然
      “健康照明”成果聚焦
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      “三醫(yī)聯(lián)動(dòng)”擴(kuò)大醫(yī)改成果
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      展會(huì)信息
      健康信息
      祝您健康(1987年3期)1987-12-30 09:52:32
      健康信息(九則)
      祝您健康(1987年2期)1987-12-30 09:52:28
      嘉义县| 青岛市| 清苑县| 金寨县| 温泉县| 黑龙江省| 安仁县| 厦门市| 通榆县| 阿拉善右旗| 荆州市| 越西县| 奎屯市| 衡山县| 孝义市| 上饶市| 资源县| 龙州县| 正阳县| 开封县| 奉化市| 东乌| 文安县| 普格县| 吴忠市| 林甸县| 浏阳市| 万山特区| 贺兰县| 涿州市| 四川省| 邯郸县| 独山县| 西昌市| 敖汉旗| 桓台县| 舞阳县| 扬中市| 屏东县| 东光县| 连云港市|