電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731
“數(shù)據(jù)”這一抽象的概念在我們?nèi)粘I钸^程中發(fā)揮著至關(guān)重要的作用,從城市交通控制系統(tǒng)到空間站運(yùn)行,從國家政策頒發(fā)到企業(yè)戰(zhàn)略制定,數(shù)據(jù)無時(shí)無刻不存在于人們的日常生活過程中,并且隨著科學(xué)技術(shù)的發(fā)展而不斷推層出新。隨著最近幾十年來的數(shù)據(jù)爆炸式增長,以數(shù)據(jù)為依托的新興產(chǎn)業(yè),如云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新技術(shù)和服務(wù)日益影響著人們的日常生活,大數(shù)據(jù)時(shí)代正在悄然降臨。在全球七大重點(diǎn)領(lǐng)域內(nèi)(包括教育、交通、消費(fèi)、電力、能源、大健康以及金融),大數(shù)據(jù)的應(yīng)用潛力高達(dá)上千億美元,相互之間以數(shù)據(jù)產(chǎn)品為中心的縱向結(jié)構(gòu)和以大數(shù)據(jù)相關(guān)技術(shù)為核心的橫向結(jié)構(gòu)不斷交錯(cuò)形成新的價(jià)值鏈[1]。在這樣的背景之下,我國關(guān)于國民經(jīng)濟(jì)和社會(huì)發(fā)展的第十三個(gè)五年計(jì)劃綱要更指出,需要實(shí)施國家級(jí)大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源的開放共享。在此期間,大數(shù)據(jù)領(lǐng)域必將迎來建設(shè)和投資高峰。
將數(shù)據(jù)作為一種戰(zhàn)略資源,實(shí)現(xiàn)數(shù)據(jù)成為經(jīng)濟(jì)活動(dòng)的主要承載者,需要著眼于大數(shù)據(jù)的生命周期和價(jià)值鏈條,而這其中主要涉及數(shù)據(jù)生成、獲取、存儲(chǔ)和分析四個(gè)階段。落實(shí)到具體的技術(shù)上,主要包括:1)通過大數(shù)據(jù)融合來解決數(shù)據(jù)本身的問題(包括數(shù)據(jù)量、數(shù)據(jù)類型和數(shù)據(jù)沖突等);2)通過軟件和硬件實(shí)現(xiàn)不同粒度的計(jì)算需求(包括存儲(chǔ)和計(jì)算硬件的發(fā)展和數(shù)據(jù)分析處理模型、架構(gòu)的設(shè)計(jì)等);3)從精度的角度更好地發(fā)現(xiàn)數(shù)據(jù)背后的價(jià)值(包括人機(jī)交互、機(jī)器智能等技術(shù)的發(fā)展)[2]。目前,大數(shù)據(jù)研究的三個(gè)重要方面主要包括基于Web的互聯(lián)網(wǎng)應(yīng)用、社會(huì)計(jì)算以及基于行業(yè)應(yīng)用的商務(wù)智能和海量數(shù)據(jù)管理服務(wù)。因此,本文立足于從軟件的角度出發(fā),通過對(duì)大數(shù)據(jù)融合、大數(shù)據(jù)分析、大數(shù)據(jù)處理平臺(tái)框架的闡述來介紹相關(guān)技術(shù)在當(dāng)前背景之下的應(yīng)用,并結(jié)合兩例大數(shù)據(jù)應(yīng)用的具體實(shí)例,即某市醫(yī)保基金使用效率和少數(shù)民族語言翻譯與處理,從實(shí)踐價(jià)值的角度來闡述大數(shù)據(jù)應(yīng)用的前景。
作為大數(shù)據(jù)的重要組成部分,數(shù)據(jù)融合最早產(chǎn)生于上世紀(jì)70年代,相關(guān)應(yīng)用研究從最初的軍事領(lǐng)域逐步拓展到涵蓋資源管理、城市規(guī)劃、氣象預(yù)報(bào)等多個(gè)方面。根據(jù)定義,數(shù)據(jù)融合的過程需要實(shí)現(xiàn)對(duì)多個(gè)數(shù)據(jù)源信息的自動(dòng)識(shí)別、連接、相關(guān)性分析和估計(jì)[3]。隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)類型和維度都得到了極大豐富,挖掘并有效利用隱藏在海量數(shù)據(jù)下的信息成了企業(yè)發(fā)展和科技進(jìn)步的必然趨勢(shì),同時(shí),這樣的需求也為大數(shù)據(jù)背景下進(jìn)行數(shù)據(jù)融合帶來了諸多挑戰(zhàn)。
在大數(shù)據(jù)背景之下,數(shù)據(jù)的量(Volume)、多樣性(Variety)、高速變化(Velocity)的特點(diǎn)使得傳統(tǒng)數(shù)據(jù)融合工具越來越難以滿足應(yīng)用的需要。目前,空間數(shù)據(jù)占了大數(shù)據(jù)比例的80%[4],在融合這一類數(shù)據(jù)的過程中,針對(duì)這些數(shù)據(jù)中的海量、多維度、多源頭、異構(gòu)、冗余性、動(dòng)態(tài)性和稀疏性的特點(diǎn),需要結(jié)合云計(jì)算、機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域的方法,實(shí)現(xiàn)“數(shù)據(jù)——信息——知識(shí)——智慧”的轉(zhuǎn)變。其次,數(shù)據(jù)標(biāo)準(zhǔn)和傳輸模式的差異造就了“僵尸數(shù)據(jù)”和“信息孤島”[5],因而需要針對(duì)多源、異類和異構(gòu)的特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一編目,其中主要包括數(shù)據(jù)接口定義、元數(shù)據(jù)格式以及數(shù)據(jù)編碼等內(nèi)容。再次,大數(shù)據(jù)融合需要聯(lián)系割裂的多源異構(gòu)數(shù)據(jù),平衡數(shù)據(jù)規(guī)模和數(shù)據(jù)價(jià)值的矛盾,并解決跨媒體和跨語言的關(guān)聯(lián)、實(shí)體與關(guān)系的動(dòng)態(tài)演化等問題,其相關(guān)的研究內(nèi)容需要考慮如何加速融合效率、識(shí)別共同實(shí)體和連接關(guān)聯(lián)體,并針對(duì)沖突數(shù)據(jù)進(jìn)行真?zhèn)舞b別、溯源和跟蹤[6]。此外,由于大數(shù)據(jù)異構(gòu)和缺乏對(duì)數(shù)據(jù)的統(tǒng)一管理,在融合的過程中,有必要建立信息標(biāo)準(zhǔn)體系以及信息訪問機(jī)制,重點(diǎn)解決數(shù)據(jù)共享請(qǐng)求與分析、數(shù)據(jù)并發(fā)與同步、互斥訪問控制等問題[5]。
作為一種跨學(xué)科多方向的交叉領(lǐng)域,大數(shù)據(jù)融合囊括了許多傳統(tǒng)科學(xué)(如數(shù)學(xué)、計(jì)算機(jī)、通信等)和新興技術(shù)領(lǐng)域(如人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別等)[7]。根據(jù)大數(shù)據(jù)融合的基本步驟,可以將其大致分為預(yù)處理和數(shù)據(jù)融合兩部分。
數(shù)據(jù)預(yù)處理需要達(dá)到的目的是從原始數(shù)據(jù)中選取合適的屬性作為后期融合的屬性,這一過程需要盡可能賦予屬性名和屬性值明確的意義,統(tǒng)一多數(shù)據(jù)源的屬性值編碼,去除唯一屬性、重復(fù)字段和可忽略字段。這一過程中,為了降低原始數(shù)據(jù)中的噪聲(無用字段、冗余字段等),常用方法包括分箱、聚類、回歸分析。分箱方法是一種簡(jiǎn)單常見的預(yù)處理方法,核心思想是按照屬性值劃分子區(qū)間,通過考察同一個(gè)子區(qū)間內(nèi)相鄰數(shù)據(jù)來確定最終的值。常見的分箱方法包括等深分箱法、等寬分箱法、最小熵法和用戶自定義區(qū)間法。聚類是依據(jù)對(duì)象特征屬性的距離來將一組對(duì)象按照距離指標(biāo)劃分為特征相似的不同類別,并將孤立于所有類別的數(shù)據(jù)作為離群點(diǎn)(或噪聲)清除。其中常用的距離包括歐式距離、馬氏距離和其他根據(jù)特定場(chǎng)景定義的距離指標(biāo)。常用聚類方法包括Kmeans[8]、分層聚類、兩步聚類和基于密度的聚類[9]等?;貧w分析是指通過構(gòu)建相應(yīng)的數(shù)學(xué)模型,從而用一個(gè)組函數(shù)關(guān)系來描述特征變量和目標(biāo)變量之間的關(guān)聯(lián)關(guān)系,通常被用來做預(yù)測(cè)分析。常見的回歸分析方法按照回歸類型的不同可分為線性回歸和非線性回歸,涉及機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)和人工智能等多個(gè)領(lǐng)域,常見的方法包括SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹等。
通常進(jìn)行融合之前的數(shù)據(jù)包含許多冗余信息,而在實(shí)際使用的過程只需要其中有用的部分,因此需要通過數(shù)據(jù)規(guī)約技術(shù),在不破壞數(shù)據(jù)完整性的同時(shí),通過使用比原始數(shù)據(jù)規(guī)模更小的子集進(jìn)行融合。目前常用的數(shù)據(jù)歸約方法包括數(shù)據(jù)立方體聚集、維度歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層等。
目前,大數(shù)據(jù)融合依賴的技術(shù)包括假設(shè)檢驗(yàn)、聚類分析、濾波跟蹤、機(jī)器學(xué)習(xí)等。其中,根據(jù)對(duì)數(shù)據(jù)處理方式的不同,又可以進(jìn)一步分為像素級(jí)、特征級(jí)和決策級(jí)融合。隨著傳感器網(wǎng)絡(luò)和物聯(lián)網(wǎng)在大數(shù)據(jù)時(shí)代的發(fā)展,大數(shù)據(jù)融合還涉及同類及異類數(shù)據(jù)的融合。在這之中,常用的理論方法包括貝葉斯推理法、神經(jīng)網(wǎng)絡(luò)、Dempster-Shafer推理法、表決法等[10]。
大數(shù)據(jù)分析是從浩瀚、廣泛的數(shù)據(jù)中發(fā)現(xiàn)潛在的價(jià)值與規(guī)律。大數(shù)據(jù)分析技術(shù),不單是一個(gè)工業(yè)界的熱點(diǎn),更是學(xué)術(shù)界的一個(gè)熱點(diǎn)研究方向,需要從理論與應(yīng)用技術(shù)兩個(gè)層面進(jìn)行研究。在學(xué)術(shù)研究領(lǐng)域,大數(shù)據(jù)分析是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)理論、復(fù)雜理論等多個(gè)學(xué)科知識(shí)相互交叉的前沿領(lǐng)域。在針對(duì)一個(gè)具體問題開展研究時(shí),通常將問題分解為以下幾個(gè)步驟開展。
1)需求與問題的定義。在大數(shù)據(jù)時(shí)代中,對(duì)問題和需求的清楚定義顯得比任何時(shí)候都重要。針對(duì)具體的問題與需求,分析業(yè)務(wù)需求,清楚定義要解決的問題,才能從海量數(shù)據(jù)中提取出需要分析處理的數(shù)據(jù),從而建立基于清楚問題的有效的數(shù)據(jù)分析模型進(jìn)行研究、分析數(shù)據(jù)中的隱藏價(jià)值。
2)數(shù)據(jù)的預(yù)處理。大數(shù)據(jù)分析技術(shù)關(guān)鍵的一步是數(shù)據(jù)的預(yù)處理、感知、融合、數(shù)據(jù)表示等[11]。預(yù)處理任務(wù)通常為描述數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)集成和變換以及數(shù)據(jù)離散化和概念分層等[12]。隨著互聯(lián)網(wǎng)2.0時(shí)代的到來,數(shù)據(jù)的類型和種類也越來越豐富,數(shù)據(jù)融合就愈發(fā)顯得重要了。數(shù)據(jù)融合技術(shù)已經(jīng)成為當(dāng)前學(xué)術(shù)界和工業(yè)界關(guān)注的一個(gè)熱點(diǎn)。
3)數(shù)據(jù)的深度理解。傳統(tǒng)的基于靜態(tài)、淺層特征對(duì)數(shù)據(jù)建模的方法,已經(jīng)無法適應(yīng)大數(shù)據(jù)時(shí)代中數(shù)據(jù)挖掘分析任務(wù)對(duì)數(shù)據(jù)的需求。對(duì)數(shù)據(jù)內(nèi)容進(jìn)行深層建模和語義理解,成為大數(shù)據(jù)分析技術(shù)中的難題。Web2.0時(shí)代大數(shù)據(jù)的種種特性又對(duì)數(shù)據(jù)的內(nèi)容建模和語義理解的深度、關(guān)聯(lián)性與準(zhǔn)確性提出了更高的要求。因此,通過理論方法與關(guān)鍵技術(shù)層面結(jié)合大數(shù)據(jù)的特征,針對(duì)數(shù)據(jù)挖掘與分析的特征模型、內(nèi)容建模和語義理解三個(gè)方面展開研究,實(shí)現(xiàn)對(duì)數(shù)據(jù)的內(nèi)容理解及演變規(guī)律的把握[13]。
4)數(shù)據(jù)的深度解析、挖掘及復(fù)雜數(shù)據(jù)的計(jì)算模型。數(shù)據(jù)規(guī)模的爆發(fā)式增長、數(shù)據(jù)類型多樣、結(jié)構(gòu)復(fù)雜、數(shù)據(jù)維度高等特點(diǎn)導(dǎo)致傳統(tǒng)全量數(shù)據(jù)計(jì)算模式不再適用,數(shù)據(jù)計(jì)算基本模式面臨巨大挑戰(zhàn)[13]。如何應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn),對(duì)數(shù)據(jù)進(jìn)行深度解析、挖掘,并在此基礎(chǔ)上構(gòu)建有效的多類型復(fù)雜數(shù)據(jù)計(jì)算模型,成為大數(shù)據(jù)分析技術(shù)的核心問題。
5)驗(yàn)證模型。傳統(tǒng)建立的分析模型都是針對(duì)小規(guī)模的數(shù)據(jù)集。針對(duì)海量數(shù)據(jù)的挑戰(zhàn),應(yīng)建立適應(yīng)大數(shù)據(jù)分析模型,并在小部分?jǐn)?shù)據(jù)進(jìn)行驗(yàn)證與分析,檢驗(yàn)?zāi)P褪欠衲軌蚝芎玫亟鉀Q問題,滿足需要也是驗(yàn)證模型有效的一個(gè)方法。模型的驗(yàn)證對(duì)模型的及時(shí)修改有著重要意義。
6)部署和更新模型。通過小規(guī)模數(shù)據(jù)對(duì)數(shù)據(jù)分析模型的驗(yàn)證后,將模型部署更新在實(shí)際的大數(shù)據(jù)應(yīng)用分析平臺(tái)上進(jìn)行運(yùn)營。當(dāng)面對(duì)實(shí)際浩瀚的數(shù)據(jù)時(shí),數(shù)據(jù)分析模型的有效性、實(shí)時(shí)性得到很好的驗(yàn)證,處理的實(shí)效性、實(shí)時(shí)性等標(biāo)準(zhǔn)都是檢驗(yàn)?zāi)P偷闹匾笜?biāo)。對(duì)模型的更新也是數(shù)據(jù)分析模型的一個(gè)重要任務(wù)。
數(shù)據(jù)的處理模型和分析技術(shù)是整個(gè)大數(shù)據(jù)分析技術(shù)的靈魂,下面簡(jiǎn)要介紹目前常見、常用的幾種數(shù)據(jù)處理模型和數(shù)據(jù)分析技術(shù)。
常見數(shù)據(jù)處理模型:MapReduce是Google提出的一種分布式海量數(shù)據(jù)處理模型;Dryad是由微軟提出的一種集群環(huán)境下海量數(shù)據(jù)處理模型,Dryad是一個(gè)通用的粗顆粒度的分布式計(jì)算和資源調(diào)度引擎;Storm是一套分布式、高可靠性、高可容錯(cuò)的流式數(shù)據(jù)處理系統(tǒng)。
批數(shù)據(jù)處理技術(shù):批量數(shù)據(jù)具有3個(gè)特征,數(shù)據(jù)體量巨大、精度較高、價(jià)值密度高[14]。針對(duì)批量數(shù)據(jù)特點(diǎn),批處理技術(shù)適用于對(duì)實(shí)時(shí)性要求較低,數(shù)據(jù)需求量較大的數(shù)據(jù)分析任務(wù),是實(shí)行先存儲(chǔ)后分析的一種數(shù)據(jù)處理技術(shù)。
流處理技術(shù):是針對(duì)流數(shù)據(jù)的一種分布式、高可用、低延遲,具有自身容錯(cuò)性的實(shí)時(shí)計(jì)算技術(shù)。針對(duì)流數(shù)據(jù)進(jìn)行聚類,異常檢測(cè),概念漂移的相關(guān)復(fù)雜的數(shù)據(jù)進(jìn)行分析挖掘[15]。
近實(shí)時(shí)處理技術(shù):大數(shù)據(jù)分析技術(shù)另外一個(gè)重點(diǎn)是近實(shí)時(shí)性[16],數(shù)據(jù)的價(jià)值往往在較短的時(shí)間內(nèi),所以大數(shù)據(jù)分析技術(shù)對(duì)實(shí)時(shí)性的要求很高。目前常用的方式是通過在線學(xué)習(xí),增量式學(xué)習(xí)等機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)實(shí)時(shí)數(shù)據(jù)的處理。這樣的好處是能夠?qū)δP瓦M(jìn)行快速良好的更新與修正。
隨著大數(shù)據(jù)時(shí)代的到來,硬件、技術(shù)和數(shù)據(jù)的不斷進(jìn)化,數(shù)據(jù)分析和處理的需求也從傳統(tǒng)的數(shù)據(jù)分析處理擴(kuò)展到從海量的數(shù)據(jù)中快速獲取有價(jià)值的信息,并以此提供低延遲、高性能、高擴(kuò)展的服務(wù)。目前行業(yè)內(nèi)主流的大數(shù)據(jù)平臺(tái)主要包括Cloudera、MapR、Hotonworks和Storm等。
Cloudera是基于Hadoop開源平臺(tái)開發(fā)的,定位于企業(yè)級(jí)數(shù)據(jù)分析處理的一款開源分布式平臺(tái),其針對(duì)大數(shù)據(jù)中數(shù)據(jù)量龐大,分析過程漫長的問題,旨在加速數(shù)據(jù)分析過程[17]。Cloudera的核心部分由五個(gè)子系統(tǒng)構(gòu)成:Cloudera Manager(主要提供系統(tǒng)的管理、監(jiān)控、診斷和集成)、Cloudera CDH(Cloudera CDH作為分析處理的核心部分,是在Hadoop基礎(chǔ)上發(fā)展而來)、Cloudera Flume(Flume是一個(gè)高可靠、高可用、分布式的海量日志采集系統(tǒng))、Cloudera Impala(Impala為存儲(chǔ)在DFS、HBase的數(shù)據(jù)提供直接查詢互動(dòng)的SQL)和Cloudera hue(Hue是cdh專門的一套Web管理器,它包括3個(gè)部分hue ui,hue server,hue db)[18]。目前,包括Csico、SanDisk、SAMSUNG等公司都已成為Cloudera的受益者,而包括Microsoft Azure、EMC、TCS等公司也開放自己的產(chǎn)品用于支持Cloudera[19]。
MapR是MapR Technologies Inc.旗下的一款產(chǎn)品,作為Hadoop的一個(gè)特殊版本,MapR極大地?cái)U(kuò)大了Hadoop的使用范圍和方式,解決了Hadoop面臨的種種問題。其設(shè)計(jì)思想可以概括為以下四點(diǎn):首先,在元數(shù)據(jù)服務(wù)器的架構(gòu)上采用分布式取代集中式的方式,以期獲得良好的擴(kuò)展性;其次,增加每個(gè)數(shù)據(jù)節(jié)點(diǎn)塊的數(shù)量以降低塊報(bào)告的大?。辉俅?,進(jìn)一步減小了查詢服務(wù)的內(nèi)存開銷;最后,服務(wù)能夠更加快速的重啟,從而實(shí)現(xiàn)服務(wù)的高可用性[20]。通過上面的思路,MapR的擴(kuò)展性提高了4倍以上,系統(tǒng)文件的容量擴(kuò)大了近100倍,而文件數(shù)量則提高了1 000倍左右。此外,MapR還支持諸如隨機(jī)讀寫、快照、鏡像等應(yīng)用特性。
Hortonworks是由Yahoo和Benchmark Capital聯(lián)合創(chuàng)立的公司基于Apache Hadoop推出的數(shù)據(jù)分析平臺(tái),提供大數(shù)據(jù)云存儲(chǔ),大數(shù)據(jù)處理和分析等服務(wù)。該平臺(tái)專門用于應(yīng)對(duì)多來源和多格式的數(shù)據(jù),并使其處理起來能變成簡(jiǎn)單、更有成本效益,主要包括HortonworksDataFlow(收集、組織、整理和傳送來自于互聯(lián)網(wǎng)的實(shí)時(shí)數(shù)據(jù))和Hortonworks Data Platform(用于創(chuàng)建安全的企業(yè)數(shù)據(jù)池,提供實(shí)現(xiàn)快速實(shí)時(shí)的商業(yè)應(yīng)用的分析信息)[21]。目前包括Microsoft、SAP、EMC等公司在內(nèi)都是Hortonworks的忠實(shí)客戶,其中Webtrends通過嘗試使用Hortonworks替換原有的存儲(chǔ)系統(tǒng),并通過使用Kafka信息隊(duì)列和處理腳本,能夠在20~40毫秒之間完成數(shù)據(jù)分析,而相應(yīng)的硬件成本則降低了25%~50%[22]。
Storm最早起源于Nathan Marz及其小組BackType,作為一種流式數(shù)據(jù)處理框架,其支持mirco batch和streaming processing兩種方式來處理信息[23]。從處理邏輯上來看,Storm主要包含Spout(用于把流入平臺(tái)的數(shù)據(jù)封裝成平臺(tái)內(nèi)處理的stream)和bolts(對(duì)stream進(jìn)行業(yè)務(wù)處理邏輯)兩部分內(nèi)容,任何作業(yè)都被抽象為一個(gè)或多個(gè)spout和多層bolt來完成。從體系結(jié)構(gòu)來看,Storm服從主從式的結(jié)構(gòu),其中Nimbus節(jié)點(diǎn)作為主節(jié)點(diǎn)負(fù)責(zé)作業(yè)的分配和調(diào)度,Supervisor作為從節(jié)點(diǎn)負(fù)責(zé)具體業(yè)務(wù)的執(zhí)行,而由Zookeeper集群負(fù)責(zé)兩者之間的協(xié)調(diào)。相較于同樣是主從結(jié)構(gòu)的Spark,Storm在數(shù)據(jù)的處理粒度上更小,并且因?yàn)閿?shù)據(jù)傳輸方式的不同,能夠保證所有數(shù)據(jù)都被執(zhí)行,并且更加適合于實(shí)時(shí)的處理需求[24]。此外,Storm在支持增量計(jì)算的高速事件處理系統(tǒng)中表現(xiàn)尤為出色,可以在等待結(jié)果的同時(shí)進(jìn)一步進(jìn)行分布式計(jì)算。目前,國外包括Twitter、Yahoo、Spotify等公司都在其應(yīng)用中使用了Storm,而國內(nèi)諸如百度、愛奇藝、淘寶網(wǎng)等耳熟能詳?shù)钠髽I(yè)也把Storm納入其產(chǎn)品體系內(nèi)[25]。
由電科軟信—電子科大聯(lián)合實(shí)驗(yàn)室研發(fā)的大數(shù)據(jù)挖掘分析核心平臺(tái),其核心功能是對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理和挖掘分析。提供了完備的數(shù)據(jù)預(yù)處理、分類、聚類、識(shí)別、預(yù)測(cè)、評(píng)估驗(yàn)證等功能模塊?;谠摵诵钠脚_(tái),可快速完成面向特定領(lǐng)域、特定業(yè)務(wù)的產(chǎn)品定制設(shè)計(jì)與開發(fā)。該平臺(tái)包含如下子系統(tǒng)(如圖1)。
1)數(shù)據(jù)存儲(chǔ)中心:分布式文件系統(tǒng)HDFS和HBase。
2)ETL中心:面向數(shù)據(jù)源完成數(shù)據(jù)抽取、清洗和轉(zhuǎn)換及落地存儲(chǔ)處理,主要由Sqoop、Flume、Kettle組成。
3)數(shù)據(jù)分析處理系統(tǒng):提供批量處理和流式處理兩類計(jì)算模式,批量計(jì)算MapReduce為主,流式計(jì)算以Storm和Spark 為計(jì)算框架。
4)知識(shí)庫管理:對(duì)算法、數(shù)據(jù)模型和業(yè)務(wù)模型等進(jìn)行統(tǒng)一管理,并面向批量、流式計(jì)算提供服務(wù)。
5)控制臺(tái):負(fù)責(zé)必要的業(yè)務(wù)(流程)處理和展現(xiàn)處理,并按人員的角色進(jìn)行功能分配,是人機(jī)操作的總控制臺(tái)。
該平臺(tái)能夠提供靈活的、可配置的算法、模型和數(shù)據(jù),以供不同行業(yè)的業(yè)務(wù)分析師針對(duì)差異化業(yè)務(wù)進(jìn)行方案制定,快速形成具有個(gè)性化的行業(yè)產(chǎn)品。
圖1 大數(shù)據(jù)處理平臺(tái)邏輯結(jié)構(gòu)圖
借助于上述大數(shù)據(jù)挖掘分析核心平臺(tái),針對(duì)某市2011~2015年的所有醫(yī)保數(shù)據(jù)(共計(jì)數(shù)百萬人,數(shù)十億條醫(yī)療報(bào)銷記錄,數(shù)據(jù)量達(dá)到TB級(jí)),我們進(jìn)行了醫(yī)保基金使用效率分析與評(píng)價(jià)。
我們基于此醫(yī)保數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘思想與傳統(tǒng)的醫(yī)療分析方法,完成了以下業(yè)務(wù)目標(biāo),從而為政策的制定和醫(yī)療機(jī)構(gòu)的質(zhì)量評(píng)價(jià)提供科學(xué)的依據(jù),
1)離群點(diǎn)分析:從報(bào)銷總費(fèi)用和費(fèi)用結(jié)構(gòu)的角度實(shí)現(xiàn)離群點(diǎn)分析和醫(yī)療費(fèi)用結(jié)構(gòu)離群點(diǎn)分析。
2)醫(yī)保報(bào)銷費(fèi)用決策:基于關(guān)聯(lián)規(guī)則算法和決策樹算法并結(jié)合現(xiàn)有報(bào)銷政策,建立醫(yī)保報(bào)銷費(fèi)用決策模型,從而為醫(yī)保機(jī)構(gòu)合理付費(fèi)提供科學(xué)依據(jù)。
3)醫(yī)療質(zhì)量評(píng)價(jià):基于離群指標(biāo)、病例優(yōu)良率、轉(zhuǎn)診路徑,再次入院間隔等指標(biāo),建立醫(yī)療質(zhì)量評(píng)價(jià)模型,得到各醫(yī)院的質(zhì)量評(píng)價(jià)分?jǐn)?shù),完成對(duì)醫(yī)院進(jìn)行醫(yī)療質(zhì)量評(píng)價(jià)分級(jí),從而達(dá)到規(guī)范醫(yī)療機(jī)構(gòu)行為,促進(jìn)醫(yī)療質(zhì)量提升的目的。
為促進(jìn)民族團(tuán)結(jié)和文化交流,我們對(duì)互聯(lián)網(wǎng)上可獲取的大規(guī)模雙語語料進(jìn)行遍歷搜索抓取,利用大數(shù)據(jù)分析挖掘核心平臺(tái)實(shí)現(xiàn)了將少數(shù)民族語言翻譯成為漢語。
翻譯引擎采用基于統(tǒng)計(jì)的機(jī)器翻譯框架,通過對(duì)大規(guī)模平行語料進(jìn)行統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)翻譯模型;利用高效的搜索算法,根據(jù)待翻譯句子的上下文環(huán)境,找到最優(yōu)翻譯。
少數(shù)民族語言翻譯平臺(tái)分為三層:訓(xùn)練層、解碼服務(wù)層和WEB層,其中訓(xùn)練層包含用于訓(xùn)練翻譯系統(tǒng)所需的語料庫和相關(guān)工具,解碼服務(wù)層包含了解碼器、短語翻譯概率表和語言模型等,WEB層除了提供用戶界面之外,還提供翻譯API,并在其中設(shè)計(jì)了任務(wù)調(diào)度、預(yù)處理和后處理功能。
1)訓(xùn)練層:主要負(fù)責(zé)翻譯模型的訓(xùn)練。共分為三步:目標(biāo)語言模型訓(xùn)練、翻譯模型訓(xùn)練,翻譯模型調(diào)優(yōu)。執(zhí)行這三步之前需要對(duì)已獲取的大規(guī)模語料進(jìn)行快速分詞,由源語言分詞模塊和目標(biāo)語言分詞模塊完成;對(duì)于雙語語料,還需要對(duì)齊,這由對(duì)齊模塊完成。對(duì)于雙語語料,需要從中按一定概率隨機(jī)抽取一部分語料用于翻譯模型調(diào)優(yōu)。
2)解碼服務(wù)層:解碼器利用短語翻譯概率表、語言模型等來快速搜索最優(yōu)的譯文,其中解碼器是核心部件。
3)WEB層:提供友好的用戶界面供用戶使用本系統(tǒng)。同時(shí),為了處理大規(guī)模的并行翻譯請(qǐng)求,平臺(tái)還增加了任務(wù)調(diào)度模塊。
本文主要從大數(shù)據(jù)分析的共性特點(diǎn)出發(fā),對(duì)數(shù)據(jù)融合與大數(shù)據(jù)分析的方法、類型、軟件平臺(tái)、應(yīng)用案例進(jìn)行了詳細(xì)闡述。
針對(duì)不同的業(yè)務(wù)領(lǐng)域,數(shù)據(jù)融合與分析的方法是不盡相同的,但總的來說都會(huì)經(jīng)歷相同的步驟。針對(duì)數(shù)據(jù)融合,不可避免的需要制定融合規(guī)則、數(shù)據(jù)預(yù)處理與數(shù)據(jù)整合。針對(duì)數(shù)據(jù)分析,需要經(jīng)歷業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)學(xué)建模、模型評(píng)價(jià)與優(yōu)化部署六個(gè)階段。在不同的階段,必須借助或開發(fā)相應(yīng)的軟件系統(tǒng)或算法模型完成自動(dòng)化處理。
本文描述的技術(shù)路線,在實(shí)際的大數(shù)據(jù)分析應(yīng)用中(某市醫(yī)?;鹗褂眯试u(píng)價(jià)與基于大數(shù)據(jù)的少數(shù)民族語言翻譯)得到了充分應(yīng)用,實(shí)踐證明,這樣的技術(shù)路線是可行、高效的。
參考文獻(xiàn)
[1] "十三五"數(shù)據(jù)中國建設(shè)[EB/OL].[2016-07-09].http://www.ocn.com.cn/us/shujuzhongguo.html.
[2] 大數(shù)據(jù)技術(shù)發(fā)展的十個(gè)前沿方向(上)[E B/O L].(2015-9-9)[2016-07-09].http://www.cbdio.com/BigData/2015-09/09/content_3783903.htm
[3] 李靜,賈利民.數(shù)據(jù)融合綜述[J].交通標(biāo)準(zhǔn)化,2007(9):192-195
[4] 郭立群,母東升,張海,等.面向大數(shù)據(jù)時(shí)代的數(shù)據(jù)融合系統(tǒng)之空間數(shù)據(jù)挖掘、分析和改進(jìn)[J].測(cè)繪與空間地理信息,2013(9):15-19
[5] 康瑛石,鄭子軍.大數(shù)據(jù)整合機(jī)制與信息共享服務(wù)實(shí)現(xiàn)[J].電信科學(xué),2014(12):97-102
[6] 孟小峰,杜治娟.大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展, 2016, 53(2):231-246
[7] alazs J A, Velásquez J D. Opinion Mining and Information Fusion: A survey[J]. Information Fusion,2016, 27(C):95-110
[8] 高紅菊,劉艷哲,陳莎.基于改進(jìn)K-means算法的WSN簇頭節(jié)點(diǎn)數(shù)據(jù)融合[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015(S1):162-167
[9] 萬樹平.多傳感器數(shù)據(jù)的聚類融合方法[J].系統(tǒng)工程理論與實(shí)踐,2008,28(5):131-135
[10] 馬雙鴿,王小燕,方匡南.大數(shù)據(jù)的整合分析方法[J].統(tǒng)計(jì)研究,2015, 32(11):3-11
[11] 李志杰,李元香,王峰,等.面向大數(shù)據(jù)分析的在線學(xué)習(xí)算法綜述[J].計(jì)算機(jī)研究與發(fā)展2015,52(8):1707-1721
[12] Jianqing Fan, Fang Han, Han Liu. Challenges of Big Data analysis[J].National Science Review,2014(3):293–314
[13] 靳小龍,王元卓,程學(xué)旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術(shù),2013,7(6):35-43
[14] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908
[15] 崔星燦,禹曉輝,劉洋,等.分布式流處理技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2015(5):318-332
[16] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):333-342
[17] Cloudera[EB/OL].[2016-07-09].http://www.cloudera.com/
[18] 大數(shù)據(jù)架構(gòu)師基礎(chǔ):Hadoop家族,Cloudera系列產(chǎn)品介紹[EB/OL].[2016-07-09].http://www.36dsj.com/archives/17192
[19] Cloudera Wiki[EB/OL].[2016-07-09].https://en.wikipedia.org/wiki/Cloudera
[20] MapR公司與其產(chǎn)品MapR[EB/OL].(2013-1-3)[2016-07-09].http://www.caecp.cn/News/News-652.html
[21] Hortonworks[EB/OL].[2016-07-09].http://zh.hortonworks.com/products/.
[22] Hortonworks與其Hortonworks大數(shù)據(jù)平臺(tái)HDP[EB/OL].(2013-1-9)[2016-07-09].http://www.caecp.cn/News/News-650.html
[23] Storm (event processor).[EB/OL].[2016-07-09].https://en.wikipedia.org/wiki/Storm_(event_processor)
[24] Tony Sicilian. 流式大數(shù)據(jù)處理的三種框架:Storm,Spark和Samza[EB/OL].(2015-3-9)[2016-07-09].http://www.csdn.net/article/2015-03-09/2824135
[25] Storm[EB/OL].[2016-07-09].http://storm.apache.org