• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      學(xué)生事務(wù)中心大數(shù)據(jù)平臺(tái)建設(shè)

      2018-07-26 09:25王扉
      關(guān)鍵詞:云計(jì)算數(shù)據(jù)中心大數(shù)據(jù)

      王扉

      摘 要:采用互聯(lián)網(wǎng)+、云計(jì)算、大數(shù)據(jù)相結(jié)合的技術(shù),建立學(xué)生事務(wù)大數(shù)據(jù)平臺(tái),對(duì)接現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫和文件數(shù)據(jù),通過優(yōu)秀的ETL工具對(duì)中心業(yè)務(wù)有幫助的各種不同的存儲(chǔ)格式的數(shù)據(jù)源進(jìn)行集中整合,建立集中數(shù)據(jù)倉庫,深入挖掘,實(shí)現(xiàn)智慧分析提供決策依據(jù)。

      關(guān)鍵詞:云計(jì)算 大數(shù)據(jù) 數(shù)據(jù)中心

      中圖分類號(hào):G645 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)02(a)-0158-02

      學(xué)生事務(wù)中心通過10余年的信息化建設(shè),已建成以業(yè)務(wù)條線為主體的“2+8+2”的12個(gè)平臺(tái)的建設(shè),包括學(xué)生學(xué)籍信息、學(xué)生就業(yè)信息、學(xué)生資助信息,非上海生源落戶信息等各類信息累計(jì)已超過千萬條,在各個(gè)系統(tǒng)數(shù)據(jù)庫中橫向還不能通過數(shù)據(jù)庫層直接調(diào)用。希望在建設(shè)大數(shù)據(jù)平臺(tái),打通各個(gè)系統(tǒng)間的數(shù)據(jù)壁壘,建設(shè)一個(gè)學(xué)生事務(wù)中心的統(tǒng)一數(shù)據(jù)中心。

      1 建設(shè)學(xué)生事務(wù)中心大數(shù)據(jù)平臺(tái)的意義

      大數(shù)據(jù)重在實(shí)時(shí)處理與應(yīng)用,以獲得所需要的信息和知識(shí),從而實(shí)現(xiàn)商業(yè)價(jià)值以及為學(xué)生事務(wù)管理服務(wù)。數(shù)據(jù)挖掘和人工智能等應(yīng)用工具在大數(shù)據(jù)處理中發(fā)揮著重要作用,現(xiàn)代信息技術(shù)是大數(shù)據(jù)賴以存在和發(fā)展的重要支撐力量。解決信息孤島,通過大數(shù)據(jù)分析,挖掘歷年沉淀的學(xué)生信息數(shù)據(jù),意義重大。

      2 基于云計(jì)算架構(gòu)的大數(shù)據(jù)運(yùn)算分析平臺(tái)

      2.1 大數(shù)據(jù)基礎(chǔ)硬件平臺(tái)建設(shè)

      平臺(tái)運(yùn)行硬件環(huán)境:服務(wù)器群、大數(shù)據(jù)集中存儲(chǔ)、萬兆網(wǎng)絡(luò)等。

      平臺(tái)運(yùn)行軟件環(huán)境:Linux、服務(wù)器虛擬化軟件、數(shù)據(jù)庫、地圖、可視化BI軟件等。

      平臺(tái)運(yùn)行技術(shù):采用分布式云計(jì)算技術(shù),彈性擴(kuò)張平臺(tái)運(yùn)算能力。

      2.2 分布式大數(shù)據(jù)管理層軟件

      (1)對(duì)接現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫和文件數(shù)據(jù)。

      (2)融合各類業(yè)務(wù)系統(tǒng)數(shù)據(jù)資源。將分散在各個(gè)業(yè)務(wù)子系統(tǒng)中的數(shù)據(jù)歸集起來(包括自有數(shù)據(jù)、上級(jí)數(shù)據(jù)、外部數(shù)據(jù)等),通過建立大數(shù)據(jù)平臺(tái),進(jìn)而充分挖掘數(shù)據(jù)價(jià)值,提供全員使用的檢索功能,提供多維度數(shù)據(jù)支持。通過優(yōu)秀的ETL工具對(duì)中心業(yè)務(wù)有幫助的各種不同的存儲(chǔ)格式的數(shù)據(jù)源進(jìn)行集中整合,建立集中數(shù)據(jù)倉庫:文本格式、oracle數(shù)據(jù)庫、sql數(shù)據(jù)庫、sysbasee數(shù)據(jù)庫、access數(shù)據(jù)庫、txt文件、excle文件、data文件等;建設(shè)可配置的自動(dòng)抽取方案。

      (3)建立分布式文件系統(tǒng)。建立分布式大數(shù)據(jù)數(shù)據(jù)倉庫,包括分布式關(guān)系型數(shù)據(jù)庫、對(duì)象存儲(chǔ)、圖數(shù)據(jù)庫。對(duì)不同來源的每條數(shù)據(jù)給予40位唯一哈希值,避免數(shù)據(jù)的重復(fù)性。建立數(shù)據(jù)索引,便于快速查詢以及快速調(diào)用。元數(shù)據(jù)管理。數(shù)據(jù)的安全管理和審計(jì)。

      2.3 數(shù)據(jù)感知與數(shù)據(jù)處理建設(shè)

      數(shù)據(jù)標(biāo)簽的建立,多達(dá)數(shù)百種標(biāo)簽的定義。表關(guān)聯(lián)定義。關(guān)系發(fā)掘。搜索引擎,包括全文檢索、漸進(jìn)式搜索、單表查詢等。算法庫建設(shè),數(shù)據(jù)的分析挖掘、比對(duì)碰撞。可視化建設(shè),包括地理位置展現(xiàn),儀表盤,圖表建設(shè)。

      2.4 數(shù)據(jù)分析及應(yīng)用模型建設(shè)

      指標(biāo)模型:結(jié)合學(xué)籍管理經(jīng)驗(yàn),自定義各類指標(biāo),系統(tǒng)自動(dòng)計(jì)算匯總異常指標(biāo),并發(fā)送給應(yīng)用系統(tǒng)及相關(guān)警員。比對(duì)模型。通過比對(duì)模型比對(duì)出來的預(yù)警信息,系統(tǒng)可以根據(jù)設(shè)定自動(dòng)發(fā)送到指定的單位。學(xué)生管理。知識(shí)管理。

      2.5 API建設(shè)

      平臺(tái)向應(yīng)用系統(tǒng)提供豐富的API接口,應(yīng)用層可以通過大數(shù)據(jù)平臺(tái)獲取綜合信息及數(shù)據(jù)分析的結(jié)果。

      3 基于云計(jì)算的大數(shù)據(jù)平臺(tái)設(shè)計(jì)

      大數(shù)據(jù)支撐體系架構(gòu)如下。建設(shè)基于云計(jì)算的大數(shù)據(jù)平臺(tái)管理軟件,對(duì)大數(shù)據(jù)底層軟件進(jìn)行統(tǒng)一管理,既要管理服務(wù)總線,又要統(tǒng)一管理大數(shù)據(jù)底層各類軟件。各個(gè)業(yè)務(wù)系統(tǒng)需要通過服務(wù)總線獲取數(shù)據(jù)查詢信息或者數(shù)據(jù)分析結(jié)果。

      3.1 大數(shù)據(jù)軟件平臺(tái)建設(shè)

      如圖1所示,采用業(yè)界先進(jìn)的理論體系,支撐各類數(shù)據(jù)結(jié)構(gòu)及大批量數(shù)據(jù)的存放、查詢、分析,并且大數(shù)據(jù)平臺(tái)能主動(dòng)學(xué)習(xí),發(fā)現(xiàn)數(shù)據(jù)價(jià)值。所以,大數(shù)據(jù)平臺(tái)融合MPP數(shù)據(jù)庫、Hadoop、搜索引擎、圖數(shù)據(jù)庫、消息總線、內(nèi)存數(shù)據(jù)庫、NOSQL等先進(jìn)的技術(shù),形成統(tǒng)一管理的數(shù)據(jù)平臺(tái)。

      大數(shù)據(jù)平臺(tái)對(duì)業(yè)務(wù)系統(tǒng)的支撐方式主要包括兩大類:數(shù)據(jù)查詢服務(wù)、數(shù)據(jù)分析服務(wù)。為了實(shí)現(xiàn)對(duì)應(yīng)用的支撐,大數(shù)據(jù)平臺(tái)需要具備的功能架構(gòu)分為三層:基礎(chǔ)數(shù)據(jù)層、數(shù)據(jù)感知層、學(xué)習(xí)層。

      3.2 數(shù)據(jù)管理層

      (1)數(shù)據(jù)采集:由于數(shù)據(jù)類型豐富,需要專門的ETL模塊,將來自O(shè)ralce\SQL Server\DB2\MySQL,以及Excel\PDF\Word文件,甚至還有錄音錄像文件采集到大數(shù)據(jù)平臺(tái),而且ETL工具采集過來后,要和大數(shù)據(jù)文件系統(tǒng)及數(shù)據(jù)倉庫對(duì)接起來入庫。

      (2)元數(shù)據(jù)管理:元數(shù)據(jù)是主數(shù)據(jù)的基礎(chǔ),元數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行分類存放,追溯數(shù)據(jù)的血緣關(guān)系,建立數(shù)據(jù)之間的關(guān)聯(lián),以及對(duì)每條數(shù)據(jù)的屬性做管理,實(shí)現(xiàn)數(shù)據(jù)的生命周期管理。

      (3)數(shù)據(jù)標(biāo)準(zhǔn)化:由于數(shù)據(jù)來源不同,格式不同,存放方式不同,所以從采集入庫的裸倉,到可以使用的數(shù)倉,需要做數(shù)據(jù)標(biāo)準(zhǔn)化處理。否則系統(tǒng)呈現(xiàn)的格式以及方式都不同,比如有些表定義“男”“女”,有些表定義成“1”“0”。有些定義成數(shù)值,有些定義成字符。這個(gè)是較大的數(shù)據(jù)治理過程。

      (4)數(shù)據(jù)標(biāo)識(shí):每條數(shù)據(jù)給予40位哈希值唯一標(biāo)識(shí)符,不能重復(fù)。每條數(shù)據(jù)建立唯一索引。

      (5)分布式文件系統(tǒng):分布式存放,使得系統(tǒng)具備動(dòng)態(tài)可擴(kuò)充的彈性架構(gòu)。

      (6)分布式數(shù)據(jù)倉庫:大數(shù)據(jù)的數(shù)據(jù)倉庫是數(shù)據(jù)分析挖掘的基礎(chǔ),支持超大規(guī)模的數(shù)據(jù)量。數(shù)據(jù)倉庫是由內(nèi)存數(shù)據(jù)庫,大規(guī)模并行處理數(shù)據(jù)庫及Hbase等構(gòu)成。

      (7)圖數(shù)據(jù)庫:存放大量的實(shí)體、對(duì)象之間的關(guān)系。

      (8)安全審計(jì):大數(shù)據(jù)平臺(tái)的安全,審計(jì),權(quán)限管理。

      3.3 數(shù)據(jù)感知層

      (1)標(biāo)簽定義:通常是數(shù)據(jù)庫中沒有存在的表示方式, 經(jīng)過某些指標(biāo)對(duì)應(yīng),給實(shí)體對(duì)象一個(gè)屬性標(biāo)志?;蛘咄ㄟ^某些事件,給實(shí)體一個(gè)事件標(biāo)識(shí)。

      (2)關(guān)聯(lián)定義:同樣包括屬性關(guān)聯(lián)和事件關(guān)聯(lián)。建立數(shù)據(jù)關(guān)聯(lián),要經(jīng)過需求調(diào)研,對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,制定關(guān)聯(lián)規(guī)則等系列過程。在眾多表之間,眾多對(duì)象之間,要定義是可以被關(guān)聯(lián)的,關(guān)聯(lián)定義是關(guān)聯(lián)分析的基礎(chǔ)。關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。

      (3)知識(shí)管理:有關(guān)實(shí)體的非結(jié)構(gòu)化文檔管理方法。

      (4)搜索引擎:在數(shù)據(jù)分類之后,提供全文檢索功能。

      (5)條件篩查:用戶自定條件,發(fā)現(xiàn)符合多重條件的結(jié)果。

      (6)時(shí)空特征:實(shí)體對(duì)象的屬性改變或事件發(fā)生的時(shí)空排序,用于梳理實(shí)體的演變。比如某學(xué)生什么時(shí)候取得了某項(xiàng)獎(jiǎng)勵(lì),什么時(shí)候參加實(shí)習(xí)等等。

      (7)報(bào)表可視化:為分析預(yù)警的可視化呈現(xiàn)提供了編程接口工具。

      (8)地址數(shù)據(jù)庫:按國家標(biāo)準(zhǔn)要求,重新將地址入庫。在很多系統(tǒng)里由于填寫不規(guī)范,地址信息比較亂,導(dǎo)致分析不方便。

      3.4 學(xué)習(xí)模型層

      (1)指標(biāo)建模:包含指標(biāo)定義工具,即彈性指標(biāo)機(jī)器學(xué)習(xí)。指標(biāo)是預(yù)警分析的啟始條件之一。不同應(yīng)用預(yù)警,需要不同指標(biāo)模型。比如對(duì)于圍標(biāo)嫌疑分析,除了做關(guān)系模型外,還需要指標(biāo)模型。

      (2)比對(duì)模型:在多維表之間做比對(duì)分析,尋找多個(gè)對(duì)象出現(xiàn)的相近相同的值,要求性能快,數(shù)據(jù)挖掘的功能。

      (3)關(guān)系模型:首先根據(jù)業(yè)務(wù)需求,定義關(guān)系,關(guān)系有很多種大數(shù)據(jù)系統(tǒng)自定義運(yùn)行任務(wù),不斷發(fā)現(xiàn)關(guān)系。關(guān)系模型是預(yù)警模塊的重要基礎(chǔ)。

      (4)實(shí)體檔案:通過各類數(shù)據(jù),發(fā)現(xiàn)實(shí)體背景檔案。

      (5)語義分析:不同文本之間的關(guān)鍵詞詞頻分析,相似度分析??梢杂糜谕稑?biāo)方案的雷同性比較。

      (6)趨勢預(yù)測:通過訓(xùn)練模型,分類分析或傅里葉算法等,市場預(yù)測。

      4 結(jié)語

      學(xué)生事務(wù)中心的數(shù)據(jù)可以通過建立分布式數(shù)據(jù)融合平臺(tái),實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理、建立數(shù)據(jù)倉庫、數(shù)據(jù)搜索、分布式計(jì)算等。自動(dòng)實(shí)現(xiàn)數(shù)據(jù)實(shí)體的維度建立、大數(shù)據(jù)自動(dòng)關(guān)聯(lián)。自動(dòng)適應(yīng)日益變化的數(shù)據(jù)源,為大數(shù)據(jù)分析及輔助決策提供支撐。學(xué)生事務(wù)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)將會(huì)為不同層面提供數(shù)據(jù)支撐,將來還要建設(shè)市—校間的數(shù)據(jù)交換將大數(shù)據(jù)平臺(tái)的數(shù)據(jù)結(jié)果推送到各個(gè)學(xué)校,讓學(xué)校了解各學(xué)生數(shù)據(jù)的走勢。

      參考文獻(xiàn)

      [1] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015(1):1-44.

      [2] 俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國軟科學(xué),2013(7):177-183.

      [3] 秦榮生.大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)的影響研究[J].審計(jì)研究,2014(6):23-28.

      猜你喜歡
      云計(jì)算數(shù)據(jù)中心大數(shù)據(jù)
      酒泉云計(jì)算大數(shù)據(jù)中心
      民航綠色云數(shù)據(jù)中心PUE控制
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
      Overlay Network技術(shù)在云計(jì)算數(shù)據(jù)中心中的應(yīng)用
      长寿区| 临洮县| 富源县| 区。| 兴海县| 开平市| 佛山市| 富阳市| 南陵县| 古田县| 荔浦县| 湖口县| 唐海县| 广宁县| 屯昌县| 达州市| 岚皋县| 新龙县| 津南区| 南丰县| 拉孜县| 宝山区| 海城市| 民勤县| 尉氏县| 海阳市| 广饶县| 科尔| 于田县| 开封市| 介休市| 酒泉市| 八宿县| 沙洋县| 宜城市| 德州市| 山东省| 那坡县| 和平区| 绥阳县| 黄浦区|