張茂君,李俊華,邢海濤,朱庭楠,孫健
(上海華能電子商務(wù)有限公司,江蘇 南京 210000)
早期業(yè)務(wù)發(fā)展過程中,電力企業(yè)為了解決一些當前的業(yè)務(wù)問題,按照垂直的、個性化的業(yè)務(wù)邏輯獨立采購與建設(shè)的信息系統(tǒng),其與流程、底層系統(tǒng)耦合較深,橫向和上下游系統(tǒng)之間的交叉關(guān)聯(lián)也較多,導(dǎo)致企業(yè)內(nèi)部形成多個煙囪系統(tǒng),彼此之間的數(shù)據(jù)規(guī)則不統(tǒng)一,很難做到數(shù)據(jù)的完全互聯(lián)互通[1]。在新平臺、新業(yè)務(wù)、新市場的拓展過程中,原系統(tǒng)無法直接復(fù)用和快速迭代,產(chǎn)生的數(shù)據(jù)也無法與傳統(tǒng)模式下積累的數(shù)據(jù)互通,進一步加劇了數(shù)據(jù)孤島的問題。分散的數(shù)據(jù)無法很好地應(yīng)對前端業(yè)務(wù)變化,難以支撐企業(yè)的經(jīng)營決策,因此需要數(shù)據(jù)中臺將新老模式融合,整合分散在各個孤島的數(shù)據(jù),形成數(shù)據(jù)服務(wù)能力,將數(shù)據(jù)變現(xiàn)[2]。
針對上述問題,本文基于Hadoop和Flink等多種開源大數(shù)據(jù)技術(shù)與系統(tǒng),自主研發(fā)了一種供應(yīng)鏈大數(shù)據(jù)中臺系統(tǒng),系統(tǒng)先將供應(yīng)鏈各環(huán)節(jié)中的數(shù)據(jù)集成,實現(xiàn)數(shù)據(jù)的準確、及時獲取,再利用算法、數(shù)據(jù)變換等大數(shù)據(jù)技術(shù)進行有效數(shù)據(jù)治理,消除臟數(shù)據(jù),形成結(jié)構(gòu)化、半結(jié)構(gòu)化和統(tǒng)一規(guī)則的非結(jié)構(gòu)化的數(shù)據(jù),組成統(tǒng)一的數(shù)據(jù)湖資源,然后通過流式和離線計算,數(shù)據(jù)分析、挖掘等大數(shù)據(jù)技術(shù),形成有價值的數(shù)據(jù)資產(chǎn)和各類數(shù)據(jù)服務(wù),在各業(yè)務(wù)系統(tǒng)之間實現(xiàn)數(shù)據(jù)互通,以數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新。
目前,市場上存在各類通用數(shù)據(jù)中臺產(chǎn)品,直接購買雖然省去了研發(fā)、維護成本,但由于無法滿足電力供應(yīng)鏈管理企業(yè)個性化、靈活多變的實際業(yè)務(wù)需求,通用的數(shù)據(jù)中臺無法直接被企業(yè)使用[3],因此,本文對照華為數(shù)據(jù)湖治理中心產(chǎn)品,基于Hadoop和Flink等開源大數(shù)據(jù)技術(shù),結(jié)合電力供應(yīng)鏈相關(guān)業(yè)務(wù)需要,自主研發(fā)構(gòu)建了電力供應(yīng)鏈數(shù)據(jù)中臺。
本文設(shè)計的數(shù)據(jù)中臺系統(tǒng)能夠針對企業(yè)在數(shù)字化運營中產(chǎn)生的所有數(shù)據(jù),提供的一站式智能數(shù)據(jù)管理平臺,包含數(shù)據(jù)集成、數(shù)據(jù)處理、規(guī)范設(shè)計、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)等功能。系統(tǒng)能夠進行多維度數(shù)據(jù)分析與預(yù)測,可以快速構(gòu)建從數(shù)據(jù)接入到數(shù)據(jù)消費的端到端智能數(shù)據(jù)系統(tǒng)。系統(tǒng)的功能架構(gòu)如圖1所示。
圖1 電力供應(yīng)鏈數(shù)據(jù)中臺功能架構(gòu)圖Fig.1 Functional architecture diagram of power supply chain data middle platform
數(shù)據(jù)基礎(chǔ)支撐模塊提供數(shù)據(jù)中臺的公共基礎(chǔ)服務(wù),是其他模塊正常運轉(zhuǎn)的支撐[4]。系統(tǒng)采用DolphinScheduler組件實現(xiàn)各模塊間任務(wù)的統(tǒng)一調(diào)度和資源監(jiān)控[5],依靠DataHub管理各種元數(shù)據(jù),形成的數(shù)據(jù)倉庫的元數(shù)據(jù)構(gòu)成統(tǒng)一的元數(shù)據(jù)中心,采用角色加權(quán)限策略的方式實現(xiàn)統(tǒng)一又靈活的權(quán)限管理。系統(tǒng)基于HDFS文件系統(tǒng)和ClickHouse建立統(tǒng)一的分布式存儲服務(wù),采用Presto組件結(jié)合Kudu組成統(tǒng)一的快速檢索服務(wù)。
數(shù)據(jù)集成和分析模塊將多源異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,然后進行清洗、聚合、分析挖掘、實時流式計算、批量計算等處理,形成結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)資源,建立數(shù)據(jù)倉庫。系統(tǒng)采用并修改了開源組件DataX的源碼,實現(xiàn)了Mysql、Oracle、文件等多種業(yè)務(wù)數(shù)據(jù)源的批量數(shù)據(jù)遷移,同時借助Kafka消息隊列和Debezium中間件,實現(xiàn)了對于數(shù)據(jù)的實時獲取和處理。在數(shù)據(jù)分析和計算層面,采用Python Numpy和Scipy中的常用算法,結(jié)合UDF函數(shù),同時依賴Flink Batch和Stream API,進行業(yè)務(wù)所需的各類數(shù)據(jù)分析[6]。
規(guī)范設(shè)計模塊進行智能數(shù)據(jù)規(guī)劃、自定義主題數(shù)據(jù)模型、統(tǒng)一數(shù)據(jù)標準、可視化數(shù)據(jù)建模、建立數(shù)據(jù)指標[7],管理計算引擎等,參照國際和行業(yè)標準,形成規(guī)范、指標和數(shù)據(jù)標準[8]。
數(shù)據(jù)質(zhì)量模塊對系統(tǒng)中數(shù)據(jù)的全生命周期進行質(zhì)量監(jiān)控,實時通知和發(fā)掘違規(guī)數(shù)據(jù)[9]。通過可配置的質(zhì)量標準檢測正則表達式,結(jié)合數(shù)據(jù)質(zhì)量指標,進行單列、跨列、跨行和跨表的數(shù)據(jù)質(zhì)量稽核。
數(shù)據(jù)服務(wù)模塊根據(jù)模板配置并生成相應(yīng)的數(shù)據(jù)服務(wù)API,并且通過黑白名單,簽名驗證,降級和熔斷等方式,保證數(shù)據(jù)服務(wù)的安全和穩(wěn)定,為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,提供一站式數(shù)據(jù)服務(wù)發(fā)布、測試和部署能力。
數(shù)據(jù)資產(chǎn)通過字典式的管理和檢索方式提供企業(yè)數(shù)據(jù)資產(chǎn)清單,并且說明每個資產(chǎn)的含義以及使用方式,采用ElasticSearch構(gòu)建資產(chǎn)搜索引擎,結(jié)合統(tǒng)一的數(shù)據(jù)權(quán)限,為登錄系統(tǒng)的不同用戶提供權(quán)限范圍內(nèi)的數(shù)據(jù)資產(chǎn)檢索和使用。同時,系統(tǒng)通過數(shù)據(jù)地圖,展示數(shù)據(jù)從產(chǎn)生、處理到形成資產(chǎn)和服務(wù)應(yīng)用的全過程[10],體現(xiàn)數(shù)據(jù)治理前后的變化,實現(xiàn)數(shù)據(jù)血緣和數(shù)據(jù)全景的可視。
數(shù)據(jù)中臺首先從各業(yè)務(wù)系統(tǒng)中采集、再對數(shù)據(jù)進行清洗、處理、分析、挖掘,進行數(shù)據(jù)綜合治理,形成統(tǒng)一數(shù)據(jù)規(guī)范和標準,同時管理和發(fā)布數(shù)據(jù)模型和算法,為各業(yè)務(wù)系統(tǒng)提供各類數(shù)據(jù)服務(wù),在各業(yè)務(wù)系統(tǒng)之間實現(xiàn)數(shù)據(jù)互通,將數(shù)據(jù)成果形成各種高價值數(shù)據(jù)資產(chǎn)[11],在各業(yè)務(wù)系統(tǒng)中進行應(yīng)用,以數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新,推動電力供應(yīng)鏈管理企業(yè)的數(shù)字化轉(zhuǎn)型和數(shù)據(jù)變現(xiàn),具體數(shù)據(jù)流程如圖2所示。
圖2 電力供應(yīng)鏈數(shù)據(jù)中臺數(shù)據(jù)流程圖Fig.2 Data flow diagram of power supply chain data middle platform
為實現(xiàn)數(shù)據(jù)中臺的上述功能,結(jié)合1.1部分的技術(shù)選型結(jié)果,本文設(shè)計的供應(yīng)鏈數(shù)據(jù)中臺系統(tǒng)的技術(shù)架構(gòu)如圖3所示。
圖3 電力供應(yīng)鏈數(shù)據(jù)中臺技術(shù)架構(gòu)圖Fig.3 Functional architecture diagram of power supply chain data middle platform
本電力供應(yīng)鏈數(shù)據(jù)中臺系統(tǒng)應(yīng)用了很多開源大數(shù)據(jù)技術(shù)和算法,本節(jié)以Hadoop中的MapReduce過程和數(shù)據(jù)清洗中的去重算法為例說明下相關(guān)原理,其他的相關(guān)技術(shù)就不再逐一說明了。
Hadoop是本文數(shù)據(jù)中臺的基礎(chǔ)組件,而MapReduce是Apache Hadoop中一個批量計算的框架,在整個MapReduce作業(yè)的過程中,包括從數(shù)據(jù)的輸入,數(shù)據(jù)的處理,數(shù)據(jù)的數(shù)據(jù)輸出幾部分[12],其中數(shù)據(jù)的處理部分又包括Map,Reduce,Combiner等操作。
圖4 Hadoop的MapReduce過程流程圖Fig.4 Hadoop’s mapreduce process flow diagram
如圖4所示,Hadoop客戶端啟動一個作業(yè)后,會向工作追蹤器請求一個Job id,然后將運行作業(yè)所需要的資源文件復(fù)制到HDFS上,包括MapReduce程序打包的jar文件、配置文件和客戶端計算所得的計算劃分信息。這些文件都存放在工作追蹤器專門為該作業(yè)創(chuàng)建的文件夾中。文件夾名為該作業(yè)的Job id。 jar文件的副本數(shù)由mapred,submit,replication屬性控制,輸入劃分信息告訴了工作追蹤器應(yīng)該為這個作業(yè)啟動多少個Map任務(wù)等信息[13]。
工作追蹤器接收到作業(yè)后,將其放在一個作業(yè)隊列里,等待作業(yè)調(diào)度器對其進行調(diào)度,當作業(yè)調(diào)度器根據(jù)自己的調(diào)度算法調(diào)度到該作業(yè)時,會根據(jù)輸入劃分信息為每個劃分創(chuàng)建一個Map任務(wù),并將Map任務(wù)分配給任務(wù)追蹤器執(zhí)行。對于Map和Reduce任務(wù),任務(wù)追蹤器根據(jù)主機核的數(shù)量和內(nèi)存的大小有固定數(shù)量的Map槽和Reduce槽。Map任務(wù)會分配給含有該Map處理的數(shù)據(jù)塊的任務(wù)追蹤器上,同時將程序jar包也復(fù)制到這上面來運行,即“運算移動,數(shù)據(jù)不移動”,但是分配Reduce任務(wù)時并不考慮數(shù)據(jù)本地化[14]。
任務(wù)追蹤器每隔一段時間會給工作追蹤器發(fā)送一個心跳,告訴工作追蹤器它依然在運行,同時心跳中還攜帶很多其他信息,比如當前map任務(wù)完成的進度等信息。當工作追蹤器收到作業(yè)的最后一個任務(wù)完成信息時,便把該作業(yè)設(shè)置成“成功”。當工作追蹤器查詢狀態(tài)時,它將得知任務(wù)已完成,便顯示一條消息給用戶。
Hyperloglog算法(以下簡稱“HLL”)是基于loglogcounting等算法,使用一個幾乎均勻的hash函數(shù)獲取需要統(tǒng)計的元素的hash值,然后通過分桶平均消除誤差[15]。
HLL把hash值分成一個一個的桶,并且用hash值的前k個位來尋找它的桶位置,桶的數(shù)量表示成:m=2k,例如一個hash字節(jié)二進制碼為“1010100000001101”,長度L=16,假設(shè)K=6,說明一共有64個桶,則該hash值所表示桶的位置是0b001101=13,然后計算該hash值中后L-K的序列中第一個1出現(xiàn)的位置:6,因此在索引號為13的桶中進行計算,如果桶中的數(shù)字比6小就設(shè)置為6,否則就不變。通過統(tǒng)計每個桶中儲存的值的平均數(shù),就可以計算得到估算的基數(shù)值[16]。HLL中使用調(diào)和平均數(shù)進行計算:
(1)
它的基數(shù)估算公式是:
(2)
其中,M[i]表示第i個桶中的數(shù)值,表示為該hash值下第一個1對應(yīng)的最大位置。另外am的計算公式為:
(3)
數(shù)據(jù)中臺是包含底層存儲計算與上層數(shù)據(jù)分析應(yīng)用的一整套體系,它屏蔽了底層存儲平臺數(shù)據(jù)處理計算的復(fù)雜性,降低了技術(shù)人才的需求,讓數(shù)據(jù)的使用成本更低[17]。本節(jié)從軟硬件實現(xiàn)、核心功能實現(xiàn)和技術(shù)難點解決三個方面介紹數(shù)據(jù)中臺的建設(shè)過程。
本文介紹的電力供應(yīng)鏈數(shù)據(jù)中臺完全由自主研發(fā)完成,已服務(wù)于公司電力供應(yīng)鏈管理中的各業(yè)務(wù)系統(tǒng),在軟硬件上支持自行水平擴展擴容,根據(jù)1.3節(jié)介紹的本數(shù)據(jù)中臺技術(shù)架構(gòu),目前服務(wù)于公司的數(shù)據(jù)中臺軟件實現(xiàn)情況如表1所示,其中,例如Hadoop、Flink等主要軟件都做了高可用部署,系統(tǒng)服務(wù)層由Java基于Spring Cloud架構(gòu)開發(fā),通過Hystrix實現(xiàn)了限流和熔斷降級等策略,支持服務(wù)在線灰度發(fā)布。
表1 電力供應(yīng)鏈數(shù)據(jù)中臺軟件部署情況表Tab.1 Software deployment table of power supply chain data middle platform
在硬件層面,本系統(tǒng)基于華為云服務(wù)器資源,遵循分布式系統(tǒng)的一般結(jié)構(gòu),各節(jié)點支持水平在線擴展[18]。系統(tǒng)通過多級路由、網(wǎng)關(guān)和防火墻將內(nèi)外網(wǎng)、辦公網(wǎng)和研發(fā)網(wǎng)進行了隔離,還增加了攻擊檢測模塊,保障系統(tǒng)網(wǎng)絡(luò)安全,具體硬件網(wǎng)絡(luò)架構(gòu)如圖5所示。
圖5 電力供應(yīng)鏈數(shù)據(jù)中臺硬件網(wǎng)絡(luò)架構(gòu)圖Fig.5 Hardwarenetwork architecture diagram of power supply chain data middle platform
本文的數(shù)據(jù)中臺系統(tǒng)能夠?qū)崿F(xiàn)電力供應(yīng)鏈全生命周期的數(shù)據(jù)采集、處理、服務(wù)和資產(chǎn)化應(yīng)用,其中包含許多關(guān)鍵功能,在此以批量數(shù)據(jù)集成、流批一體化實時數(shù)據(jù)同步和業(yè)務(wù)數(shù)據(jù)聚合功能為例進行介紹。
3.2.1 批量數(shù)據(jù)集成功能
系統(tǒng)的批量數(shù)據(jù)集成支持多種異構(gòu)數(shù)據(jù)源,支持單表、整庫、增量、周期性等多種形式將數(shù)據(jù)遷移到數(shù)據(jù)中臺。本系統(tǒng)與業(yè)務(wù)系統(tǒng)進行批量數(shù)據(jù)集成的步驟如圖6所示:
圖6 電力供應(yīng)鏈數(shù)據(jù)中臺批量數(shù)據(jù)集成流程圖Fig.6 Batchdata integration flow diagram of power supply chain data middle platform
公司業(yè)務(wù)數(shù)據(jù)庫有Mysql、Oracle兩類,數(shù)據(jù)集成功能以DataX為基礎(chǔ),開發(fā)了向?qū)降呐渲煤凸芾眄撁?,將業(yè)務(wù)庫數(shù)據(jù)、數(shù)據(jù)接口、csv或txt格式的數(shù)據(jù)文件中的數(shù)據(jù)以云加密的方式匯集到數(shù)據(jù)中臺[19]。系統(tǒng)通過DolphinScheduler管理不同的數(shù)據(jù)集成任務(wù),實現(xiàn)不同業(yè)務(wù)數(shù)據(jù)的定時批量匯集。
3.2.2 流批一體實時數(shù)據(jù)同步
在本系統(tǒng)服務(wù)于公司的實際業(yè)務(wù)中發(fā)現(xiàn),批量的數(shù)據(jù)集成不能夠完全滿足業(yè)務(wù)對于數(shù)據(jù)的需求,基于調(diào)度工具的作業(yè)調(diào)度會帶來級聯(lián)的處理延遲,比如凌晨 1 點開始遷移和處理昨天的數(shù)據(jù),可能需要到早上 6、7 點才能做完,并且無法保證在設(shè)置的調(diào)度時間內(nèi)數(shù)據(jù)可以完全就緒。此外,級聯(lián)的遷移和處理還會帶來復(fù)雜的數(shù)據(jù)血緣管理問題,大任務(wù)的批處理可能會突然打滿集群的資源,所以也要求我們對于負載管理進行考量,這些都會給業(yè)務(wù)增加負擔[20]。而單純的實時數(shù)據(jù)同步雖然解決了數(shù)據(jù)時效性的問題,但是卻無法保存足夠的歷史數(shù)據(jù),而且還會使同一份數(shù)據(jù)無法保證在實時和批量上的一致與同步[21]。鑒于此,本系統(tǒng)提出并研發(fā)了一種基于Flink和Hive的流批一體實時數(shù)據(jù)同步功能,具體流程如圖7所示,可以相應(yīng)的解決以上問題。
圖7 電力供應(yīng)鏈數(shù)據(jù)中臺流批一體實時數(shù)據(jù)同步流程圖Fig.7 Flow-batch integration real-time data synchronizationflow diagram of power supply chain data middle platform
系統(tǒng)通過Debezium中間件監(jiān)聽數(shù)據(jù)庫日志將業(yè)務(wù)數(shù)據(jù)實時同步到Kafka中,然后在元數(shù)據(jù)層面,把Kafka表的元數(shù)據(jù)信息存儲到Hive的MetaStore 中,做到離線和實時的表元數(shù)據(jù)統(tǒng)一。計算引擎上,F(xiàn)link自身提供批流一體的ANSI-SQL語法,流和批復(fù)用一套Sql和Runtime框架。數(shù)據(jù)層面,F(xiàn)link的hive streaming sink可以將Kafka表中的數(shù)據(jù)實時的同步到對應(yīng)的離線表,將離線表作為實時的歷史數(shù)據(jù)[22]。經(jīng)過以上幾個方面的處理,本系統(tǒng)就實現(xiàn)了實時數(shù)據(jù)和批量數(shù)據(jù)的統(tǒng)一與一致。
3.2.3 數(shù)據(jù)清洗和聚合
數(shù)據(jù)清洗聚合功能對原始數(shù)據(jù)集中的數(shù)據(jù)進行去除重,處理缺失值和異常值,再按照自定義的聚合規(guī)則,對清洗后的數(shù)據(jù)進行多次聚合,并且根據(jù)需要對聚合結(jié)果進行變換等規(guī)范化處理,歸一化數(shù)據(jù)樣本,消除指標之間的量綱和取值范圍差異的影響,提升數(shù)據(jù)模型精度[23],使數(shù)據(jù)更適用于后續(xù)的分析挖掘和計算。
為滿足復(fù)雜業(yè)務(wù)的需要,提高業(yè)務(wù)數(shù)據(jù)聚合結(jié)果的復(fù)用性,系統(tǒng)使用Presto查詢引擎,結(jié)合Ods,Dwd,Dwb,DM,App五層數(shù)倉結(jié)構(gòu)[24],貫穿Hive和Kudu兩種類型的數(shù)據(jù)庫,在Ods,Dwd和Dwb層實現(xiàn)通用的數(shù)據(jù)聚合結(jié)果,然后在DM和App層形成符合特定業(yè)務(wù)需求的業(yè)務(wù)數(shù)據(jù)聚合結(jié)果,從而實現(xiàn)多次分優(yōu)先級的跨庫復(fù)雜聚合,滿足不同業(yè)務(wù)場景下對于數(shù)據(jù)OLAP和OLTP的要求。
本文介紹的電力供應(yīng)鏈數(shù)據(jù)中臺系統(tǒng)在建設(shè)過程中遇到過一些技術(shù)難點,例如數(shù)據(jù)同步過程中的緩存與最終結(jié)果一致性問題,數(shù)據(jù)源DDL操作在數(shù)據(jù)倉庫及實時聚合數(shù)據(jù)結(jié)果中的同步實時更新問題等,最終在團隊的共同努力下都得到了有效解決。下面以數(shù)據(jù)源DDL操作在數(shù)據(jù)倉庫及實時聚合數(shù)據(jù)結(jié)果中的同步實時更新問題的解決方案為例向大家介紹。
在數(shù)據(jù)中臺系統(tǒng)進行實時數(shù)據(jù)同步的過程中經(jīng)常會遇到源數(shù)據(jù)的DDL操作,Hive支持DDL操作的前提是要進行分桶,而且DDL的操作響應(yīng)時間過長,無法滿足快速查詢和處理的需要,在加入Presto后,雖然能保證查詢時效,但只支持新增以及整個分區(qū)的刪除,無法進行逐條更新操作[25],因此,為解決這個問題,系統(tǒng)借助于Redis,在更新數(shù)據(jù)時,先將更新后的該條數(shù)據(jù)存入Redis,然后將剔除該數(shù)據(jù)后的分區(qū)數(shù)據(jù)整體備份到臨時分區(qū),然后將Redis中的新數(shù)據(jù)與臨時分區(qū)合并,最后將原有分區(qū)的數(shù)據(jù)整體刪除,將臨時分區(qū)的數(shù)據(jù)整體寫入新分區(qū)[26],以便后續(xù)處理和聚合使用。經(jīng)過以上處理就解決了數(shù)據(jù)源DDL操作在數(shù)據(jù)倉庫及實時聚合數(shù)據(jù)結(jié)果中的同步實時更新問題。
本文建設(shè)的電力供應(yīng)鏈數(shù)據(jù)中臺在公司內(nèi)部已經(jīng)進行了多方面的應(yīng)用,對企業(yè)實現(xiàn)電力供應(yīng)鏈全流程的數(shù)據(jù)互通,形成高價值的數(shù)據(jù)資產(chǎn)及應(yīng)用起到了重要作用,截至2021年上半年,華能智鏈數(shù)據(jù)中臺系統(tǒng)已經(jīng)連接了合約中心、資金管理等6個業(yè)務(wù)系統(tǒng),為相關(guān)業(yè)務(wù)系統(tǒng)提供了40多個數(shù)據(jù)服務(wù);集成并處理了5個業(yè)務(wù)系統(tǒng)的200多萬條數(shù)據(jù),形成了合約、客商等4大主題142類數(shù)據(jù)資產(chǎn),研發(fā)了36個數(shù)據(jù)資產(chǎn)分析應(yīng)用;通過整合原業(yè)務(wù)追蹤可視化系統(tǒng),研發(fā)了11類數(shù)據(jù)分析建模應(yīng)用,現(xiàn)以如下幾個應(yīng)用為例介紹數(shù)據(jù)中臺在公司業(yè)務(wù)中的具體應(yīng)用情況。
數(shù)據(jù)中臺研發(fā)的電子商城周報功能,自動收集、處理商城商品的各類信息,以及來自京東、史泰博等多個渠道的商品價格數(shù)據(jù),為商城管理人員自動生成商城信息周報,周報內(nèi)容主要包括商城物資銷售及供應(yīng)統(tǒng)計信息和商城財務(wù)信息,應(yīng)用截圖如圖8所示。
圖8 電子商城周報應(yīng)用截圖Fig.8 Application Screenshot of the e-shop weekly
該功能使商城管理人員的工作所需時間從5人/天縮短至1人/5分鐘。同時還提高了數(shù)據(jù)的準確性和完整性。
數(shù)據(jù)中臺研發(fā)的客商圖譜應(yīng)用,通過從內(nèi)外部收集和分析客商的工商、財稅、合同履約、信用、物流、收付款情況與合作范圍等幾個方面的數(shù)據(jù),展示每個客商的風控評級、履約能力、經(jīng)營情況,回款能力等全方位信息,反映不同客商之間的關(guān)聯(lián)關(guān)系,輔助公司進行客商優(yōu)選與評估[27]。應(yīng)用截圖如圖9所示:
圖9 客商圖譜應(yīng)用截圖Fig.9 Application screenshot of customer map
數(shù)據(jù)中臺研發(fā)的物資價格和購買行為分析應(yīng)用,如圖10所示,通過對商城和線下物資的供銷價格與購買行為進行分析,發(fā)現(xiàn)物資價格波動與供銷量的關(guān)聯(lián)關(guān)系,找出高需求量低價格的商品采購渠道及高利潤的商品銷售方式,輔助指導(dǎo)物資的購買行為,節(jié)省業(yè)務(wù)成本。
圖10 物資供銷價格與購買行為分析應(yīng)用截圖Fig.10 Application screenshot of material supply and sales price and purchase behavior analysis
本應(yīng)用主要是指數(shù)據(jù)中臺分析和處理物資供銷及倉儲數(shù)據(jù),判斷現(xiàn)有庫存是否滿足需求單位的物資供應(yīng)需求,如果不滿足,應(yīng)該如何從不同的物資庫中進行平衡調(diào)撥[28],并且給出各物資的調(diào)撥規(guī)劃方案,包括取貨順序、取貨數(shù)量,取貨倉庫等信息,然后將仍不滿足的物資選出來供后續(xù)生成采購訂單。最后根據(jù)需求物資的始發(fā)地和目的地,以及平衡利庫的結(jié)果,結(jié)合交通路況,給出指定個數(shù)的運輸路徑方案。
基于Hadoop和Flink的電力供應(yīng)鏈數(shù)據(jù)中臺是電力供應(yīng)鏈與大數(shù)據(jù)技術(shù)的有效結(jié)合?;跀?shù)據(jù)質(zhì)量管理和規(guī)范設(shè)計的數(shù)據(jù)安全體系和數(shù)據(jù)運營體系能夠保障數(shù)據(jù)中臺可以長期健康、持續(xù)運轉(zhuǎn)。數(shù)據(jù)中臺的各種數(shù)據(jù)服務(wù)、數(shù)據(jù)資產(chǎn)應(yīng)用和大數(shù)據(jù)相關(guān)技術(shù)能夠串聯(lián)電力供應(yīng)鏈上下游相關(guān)業(yè)務(wù)系統(tǒng),實現(xiàn)智慧供應(yīng)鏈“招”“購”“售”“運”“融”一站式服務(wù)能力[29-31],打通電力供應(yīng)鏈各環(huán)節(jié)數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)貫通,發(fā)掘數(shù)據(jù)的價值,為不同客戶提供更加靈活的供應(yīng)鏈服務(wù)方案,提高各個參與方的黏性,實現(xiàn)共贏的電力供應(yīng)鏈生態(tài)環(huán)境。