王丹丹 張璐明 賀小剛 劉鵬
【摘要】? ? 在我國經(jīng)濟高速發(fā)展的今天,我國經(jīng)濟建設(shè)推動信息化產(chǎn)業(yè)高速運行,目前已經(jīng)滲透進我國各行各業(yè)的生產(chǎn)活動中,人們?nèi)粘I钜搽x不開信息化產(chǎn)品。在這種背景下,大數(shù)據(jù)平臺也成為科學技術(shù)重要角色。本文針對數(shù)據(jù)門戶產(chǎn)品進行分析,并對數(shù)據(jù)門戶產(chǎn)品建設(shè)作出研究,促進企業(yè)等機構(gòu)利用數(shù)據(jù)化產(chǎn)品,旨在提高企業(yè)工作效率與質(zhì)量,為我國經(jīng)濟健康發(fā)展提供奠定基礎(chǔ)。
【關(guān)鍵詞】? ? 數(shù)據(jù)產(chǎn)品? ? 大數(shù)據(jù)平臺? ? 成果展示
引言:
我國正在大跨步走向信息化時代,社會對于信息產(chǎn)品需求也逐漸提高。而以基礎(chǔ)框架與各類模塊數(shù)據(jù)門戶產(chǎn)品,因為其適用性較強,所以被企業(yè)、社會廣泛使用。還可以根據(jù)用戶需求制定不同模塊內(nèi)容,受到用戶一致好評。所以,將數(shù)據(jù)門戶產(chǎn)品詳細剖析,分析其基本原理與內(nèi)容結(jié)構(gòu),并采用適當方法對其進行建設(shè),可以有效提高企業(yè)核心競爭力,提高我國整體科技水平。
一、數(shù)據(jù)門戶產(chǎn)品的相關(guān)概述
1.1 內(nèi)存計算產(chǎn)品
內(nèi)存計算產(chǎn)品(In-Memory Computing),準確分析是作為一種技術(shù)構(gòu)架存在,但是為內(nèi)存計算技術(shù)提供信息處理的平臺卻具有大數(shù)據(jù)特性,可以認為其是數(shù)據(jù)門戶產(chǎn)品中一類。
例如Spark,基于hadoop分布式文件存儲數(shù)據(jù),將數(shù)據(jù)存儲工作交給HDFS,專注與信息處理環(huán)節(jié)。以數(shù)據(jù)計算為主要內(nèi)容,提供交叉查詢與負載優(yōu)化等功能。目前使用Spark內(nèi)存計算技術(shù)為Databricks云,主要負責大數(shù)據(jù)處理相關(guān)工作,高效發(fā)揮Spark計算能力,為常見工作內(nèi)容優(yōu)化流程提供必要初始程序[1]。
而HANA為用戶提供內(nèi)存計算相關(guān)引擎,同時提供基于HANA的建模工具,可以從SAP公司商務配套軟件或產(chǎn)品中直接導入第三方數(shù)據(jù)內(nèi)容,數(shù)據(jù)信息處理后,可以將其傳送到SAP BI客戶端進行完整重現(xiàn),降低客戶數(shù)據(jù)處理所需時間,有效提高數(shù)據(jù)處理工作質(zhì)量。其他內(nèi)存計算產(chǎn)品也是以高速信息處理,準確數(shù)據(jù)分析為主要發(fā)展方向,提供海量數(shù)據(jù)存儲條件,增加用戶黏性。
1.2 hadoop發(fā)行版
利用分布式計算機MapReduce,HBase數(shù)據(jù)庫,Hive引擎構(gòu)建的hadoop生態(tài)系統(tǒng),現(xiàn)已成為目前主要數(shù)據(jù)應用技術(shù)體系。包括華為,IBM等互聯(lián)網(wǎng)與IT廠商,都加入hadoop生態(tài)圈,并推出各家企業(yè)商用hadoop發(fā)行版本,在對hadoop開源社區(qū)兼容性,應用安全性等都具有不同特色,可以實現(xiàn)批量處理信息數(shù)據(jù),部分企業(yè)還在實時數(shù)據(jù)信息處理有較強建樹[2]。
作為目前應用最為廣泛、最典型大數(shù)據(jù)處理平臺,不僅可以實現(xiàn)對海量數(shù)據(jù)高速處理,安全存儲,也可以實現(xiàn)高效管理與監(jiān)控復雜集群。而hadoop發(fā)行版的部分內(nèi)容因為性能優(yōu)秀,在實際應用中表現(xiàn)良好性質(zhì),也被hadoop開源社區(qū)吸收采納,增加hadoop生態(tài)系統(tǒng)完善性與多樣性,對后續(xù)企業(yè)使用提供便利性。
1.3 大數(shù)據(jù)平臺及產(chǎn)品分析
開源hadoop系統(tǒng)在開發(fā)環(huán)節(jié)存在自身攜帶問題,無法滿足企業(yè)商業(yè)應用需求,例如在圖形管理工具方面欠缺,會對工作效率大幅度降低。而hadoop發(fā)行版不僅與開源hadoop系統(tǒng)具有較高兼容性,也可以根據(jù)企業(yè)需求增添管理與應用模塊,對開源hadoop方案進行優(yōu)化升級,進行合理改造;Spark擁有實時查詢功能,在流計算方面變現(xiàn)良好。而hadoop的核心內(nèi)容,分布式計算架構(gòu)MapReduce可以對海量數(shù)據(jù)進行批量式計算。
在Spark日益成熟,行業(yè)許多hadoop發(fā)行版都會將Spark融入其中,未來兩者極有可能走向相互融合。相較于基于RDBS關(guān)系構(gòu)建數(shù)據(jù)庫,一體化平臺無論是性能、可拓展性等方面都有較大突破。而在以往SQL接口支持、ET/BI上下游軟件兼容性等薄弱方面,經(jīng)過近些年發(fā)展,部分核心內(nèi)容已經(jīng)得到有效突破,擁有良好進展情況。而我國地域遼闊,人口眾多,每天會產(chǎn)生海量數(shù)據(jù)信息,實時交流軟件騰訊,購物平臺阿里,信息發(fā)布平臺微博等,都開始將技術(shù)研發(fā)專項大數(shù)據(jù)處理方面,未來中國大數(shù)據(jù)平臺與產(chǎn)品領(lǐng)域?qū)⑹强萍及l(fā)展主要方向。
二、數(shù)據(jù)門戶產(chǎn)品建設(shè)研究
2.1 基本概念與參考的模型
根據(jù)維基百科定義,大數(shù)據(jù)即無法使用常規(guī)工具,在可接受時間范圍內(nèi),有效進行捕獲處理的數(shù)據(jù)集合形式。在科技逐漸發(fā)展的現(xiàn)在,大數(shù)據(jù)則被描述為無法使用傳統(tǒng)數(shù)據(jù)處理產(chǎn)品處理的海量數(shù)據(jù)。
大數(shù)據(jù)技術(shù)并不僅限于可以迅速掌握龐大數(shù)據(jù)信息內(nèi)容,重點為如何對數(shù)據(jù)在短時間內(nèi)進行有效專業(yè)化處理。大數(shù)據(jù)類型分為結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化三種,目前全球多數(shù)企業(yè)處理信息數(shù)據(jù)多為半結(jié)構(gòu)化數(shù)據(jù),并且以每年60%速度穩(wěn)定遞增。
而數(shù)據(jù)門戶產(chǎn)品就是基于大數(shù)據(jù)背景下,融合相關(guān)軟件硬件,構(gòu)成平臺處理一體化功能系統(tǒng)產(chǎn)品。網(wǎng)絡(luò)加速模塊、數(shù)據(jù)存儲單元共同構(gòu)成大數(shù)據(jù)硬件基礎(chǔ)設(shè)置,而分布式文件系統(tǒng)與其計算系統(tǒng),內(nèi)存數(shù)據(jù)庫和大數(shù)據(jù)應用中間件構(gòu)成大數(shù)據(jù)處理工具,擁有監(jiān)控功能,提供數(shù)據(jù)訪問渠道的平臺管理系統(tǒng),實現(xiàn)深度學習與精準預測的大數(shù)據(jù)應用,共同構(gòu)成大數(shù)據(jù)平臺軟件硬件產(chǎn)品[3]。
其中,在大數(shù)據(jù)硬件基礎(chǔ)設(shè)施與平臺管理系統(tǒng)之間,還有例如分布式資源管理、協(xié)作服務,以及數(shù)據(jù)備份與恢復工具。
2.2 標準化的思路
2.2.1 平臺總體架構(gòu)
雖然信息技術(shù)行業(yè)推出多種大數(shù)據(jù)平臺,涉及到大數(shù)據(jù)內(nèi)容的相關(guān)產(chǎn)品數(shù)量更是無法有效統(tǒng)計。但是從宏觀角度審視,這些大數(shù)據(jù)平臺與產(chǎn)品卻存在一個問題,即水平參差不齊,難以真正推動我國科學技術(shù)穩(wěn)定發(fā)展。
許多平臺應用子模塊僅是將hadoop開源項目的部分內(nèi)容改動,或者進行差異化演進,并沒有完全對大數(shù)據(jù)發(fā)展提供充足動力。
所以,對于平臺總體進行標準化構(gòu)建,就需要對子模塊內(nèi)容、數(shù)量進行確認。并對在什么大數(shù)據(jù)背景下可以被稱作大數(shù)據(jù)平臺,這種基礎(chǔ)性概念明確。產(chǎn)品術(shù)語稱呼,應用場景等內(nèi)容也需要考慮到平臺總體標準化構(gòu)建當中[4]。
2.2.2 基礎(chǔ)子模塊
確定大數(shù)據(jù)平臺總體框架后,還需要明確應用技術(shù)框架。緊接著,對數(shù)據(jù)門戶產(chǎn)品基礎(chǔ)子模塊進行標準化規(guī)定?;A(chǔ)子模塊包括分布式計算系統(tǒng)、文件系統(tǒng),都需要進行分別規(guī)范,除接口規(guī)范、應用技術(shù)框架等可能與其他工程領(lǐng)域存在重復風險,其余內(nèi)容并不涉及其他領(lǐng)域,所以可以對其命名與應用制定專屬化標準,促進大數(shù)據(jù)平臺構(gòu)建標準化作業(yè)。在對基礎(chǔ)子模塊建立相應標準時,要考慮到以大多數(shù)應用群體為主,是否對模塊命名或制定標準是否符合當前用戶實際作業(yè)情況。要在綜合全面對標準制定是否合規(guī)合理后,再進行基礎(chǔ)子模塊制定相關(guān)工作。
2.2.3 擴展子模塊
擴展子模塊標準化,主要針對數(shù)據(jù)容錯與備份、大數(shù)據(jù)應用等環(huán)節(jié)。因為這部分拓展子模塊具有互通性,所以會與各種領(lǐng)域或多或少存在標準制定重復風險。所以,應該從現(xiàn)有子模塊制定標準基礎(chǔ)上,對部分標準進行近更新,或者視情況重新制定。
但是對于數(shù)據(jù)挖掘算法庫等大數(shù)據(jù)應用中間件,以及管理運維產(chǎn)品接口規(guī)范等擴展子模塊,不建議重新制定相關(guān)標準[5]。
考慮到未來系統(tǒng)會呈現(xiàn)多樣化功能,所以要在數(shù)據(jù)門戶產(chǎn)品中預留一定可拓展空間,方便后續(xù)拓展子模塊增添與拆卸。這部分拓展子模塊無法確認具體形式、工作特性,所以只需要做好標準化接口制定即可。
同理,即使現(xiàn)在應用的擴展子模塊,也需要對備用模塊做好制定標準化,避免在子模塊更換時,因協(xié)議、接口不匹配,造成產(chǎn)品使用出現(xiàn)問題。
三、數(shù)據(jù)門戶產(chǎn)品建設(shè)中的成果展示
為拓展大數(shù)據(jù)應用層面,數(shù)據(jù)門戶產(chǎn)品建設(shè)也逐漸趨于完善。例如接收借助大數(shù)據(jù)的5v特性,即體量(Volume)、多樣(Variety)、時效(Velocity)、準確(Veracity)與價值(Value),對ETL工具實現(xiàn)變革,成為在大數(shù)據(jù)時代下的ETL工具。
例如可以有效管理海量日志文件的Splunk,就是出名大數(shù)據(jù)ETL工具;而大數(shù)據(jù)BI軟件相較于傳統(tǒng)BI軟件,可以實現(xiàn)對TB級別數(shù)據(jù)實時分析,降低信息處理所需時間。而且在大數(shù)據(jù)BI軟件應用程度不斷加深,也為人們提供一種大數(shù)據(jù)背景下的可視化工具,讓系統(tǒng)運行更加透明、規(guī)范;為保障用戶信息安全,保護企業(yè)信息不發(fā)生泄漏現(xiàn)象,從隱私保護、漏洞檢測等方面考慮的大數(shù)據(jù)安全工具正成為市場重點關(guān)注對象,例如Splunk Enterprise Security等就是典型大數(shù)據(jù)安全保護工具。而且,對于數(shù)據(jù)門戶產(chǎn)品制定標準,雖然在數(shù)據(jù)庫與非結(jié)構(gòu)數(shù)據(jù)管理方面有完善標準,但是對于大數(shù)據(jù)可視化工具等卻沒有明確標準。尤其是開放數(shù)據(jù)集等新型產(chǎn)品,當前運行效果一般,導致標準制定相對模糊。
我國對于大數(shù)據(jù)平臺標準設(shè)置,對產(chǎn)品標準研制則集中在導入接口、大數(shù)據(jù)存儲與處理憑條、分析系統(tǒng)等幾個方面,以華為公司為代表的各類國內(nèi)公司承擔相關(guān)工作。目前已經(jīng)取得突破性進展,部分標準制定已經(jīng)被國際各種企業(yè)所承認,其余標準制定工作也逐漸被提上日程。
四、結(jié)束語
綜上,對于數(shù)據(jù)門戶產(chǎn)品建設(shè)工作要保持長久發(fā)展,對技術(shù)及時更新?lián)Q代,避免出現(xiàn)獲得短期成果而忽略產(chǎn)品維護工作。
除對產(chǎn)品進行常規(guī)維護外,還要積極總結(jié)用戶反饋,對產(chǎn)品內(nèi)容與框架適度調(diào)整,從而滿足用戶實際需求??梢詾閿?shù)據(jù)門戶產(chǎn)品擴寬應用模塊,增強其綜合能力,為用戶提供更良好使用體驗。也要建立起相應風險應對機制,保障在數(shù)據(jù)門戶產(chǎn)品出現(xiàn)問題時,及時修復,避免造成嚴重損失。
參? 考? 文? 獻
[1]李小潔. 基于用戶行為數(shù)據(jù)的高校圖書館門戶網(wǎng)站建設(shè)研究[J]. 山東圖書館學刊, 2020, 000(002):46-51.
[2]王祎, 張輝, 陳延風. 美國政府數(shù)據(jù)開放網(wǎng)站管理體系研究及啟示[J]. 中國科技資源導刊, 2020, 52;541(01):18-22+93.
[3]朱麗娜. 高校智慧圖書館建設(shè)路徑探討[J]. 科學與信息化, 2020, 000(001):40-41.
[4]潘見獨、李慧、顧鋒. 從免費到收費:雙邊信息產(chǎn)品平臺的版本劃分策略研究[J]. 研究與發(fā)展管理, 2020, 32(05):62-71.
[5]鄧玲,顧穎,蔡瀟. “互聯(lián)網(wǎng)+政務服務”環(huán)境下政務App建設(shè)的探索與研究——以江蘇省N市政務App為例[J]. 改革與開放, 2020.