唐文笙 張亮 韋通明 廖甜匯 溫麗梅
【摘? 要】隨著智能網(wǎng)聯(lián)汽車的快速發(fā)展,各大汽車企業(yè)積累了龐大的業(yè)務(wù)數(shù)據(jù),如何有效組織并使用這些數(shù)據(jù),成為了各個(gè)企業(yè)所必須面對(duì)的問題。本文基于維度建模分層理論,結(jié)合實(shí)際車輛網(wǎng)聯(lián)數(shù)據(jù),設(shè)計(jì)了車聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù),為各大汽車企業(yè)管理者提供一個(gè)組織并使用數(shù)據(jù)的解決方案,也為汽車數(shù)據(jù)行業(yè)工作者提供一些簡(jiǎn)單的參考。
【關(guān)鍵詞】大數(shù)據(jù);汽車行業(yè);數(shù)據(jù)倉(cāng)庫(kù)
中圖分類號(hào):U463.6? ? 文獻(xiàn)標(biāo)志碼:A? ? 文章編號(hào):1003-8639( 2023 )08-0056-03
Application of Hierarchical Theory in Internet of Vehicles Data Warehouse
TANG Wen-sheng,ZHANG Liang,WEI Tong-ming,LIAO Tian-hui,WEN Li-mei
(SAIC GM Wuling Automobile Co.,Ltd.,Guangxi Laboratory of New Energy Automobile,
Guangxi Key Laboratory of Automobile Four New Features,Liuzhou 545007,China)
【Abstract】With the rapid development of intelligent connected vehicles,the major automobile enterprises have accumulated huge business data. How to effectively organize and use these data has become a problem that all enterprises must face.Based on the theory of dimension modeling and layering,combined with the actual vehicle network data,this paper designs the vehicle network data warehouse,which provides a solution for the managers of major automobile enterprises to organize and use the data,and also provides some simple references for the workers in the automobile data industry.
【Key words】big data;automobile industry;data warehouse
1? 引言
近年來,隨著汽車行業(yè)各種業(yè)務(wù)系統(tǒng)的不斷發(fā)展,產(chǎn)生了越來越多的歷史數(shù)據(jù),這是汽車行業(yè)非常重要的戰(zhàn)略資源。將這些重要業(yè)務(wù)數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行統(tǒng)一管理、數(shù)據(jù)分析和挖掘潛在的重要業(yè)務(wù)信息,可以很好地幫助汽車企業(yè)領(lǐng)導(dǎo)層的管理和決策,最大限度地提高汽車企業(yè)的經(jīng)濟(jì)效益,使汽車企業(yè)更好更快地發(fā)展。在大數(shù)據(jù)時(shí)代,基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘已經(jīng)成為汽車企業(yè)競(jìng)爭(zhēng)的重要工具。
2? 數(shù)據(jù)倉(cāng)庫(kù)介紹
數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)始人W.H.Inmon定義了數(shù)據(jù)倉(cāng)庫(kù),“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、不可更新的,并隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持管理部門的決策分析過程”。其中定義了數(shù)據(jù)倉(cāng)庫(kù)的幾個(gè)特點(diǎn):面向主題的、集成的、不可更新的。如圖1所示。
1)面向主題的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題的,對(duì)應(yīng)于傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用的數(shù)據(jù)組織特點(diǎn)。主題是一個(gè)抽象的概念,也可以說主題是業(yè)務(wù)相關(guān)的數(shù)據(jù)的類別,每個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。
2)集成的:集成的概念與面向主題的概念密切相關(guān)。一個(gè)公司有多條產(chǎn)品線與產(chǎn)品渠道,每個(gè)產(chǎn)品線都有自己獨(dú)立的數(shù)據(jù)庫(kù)。此時(shí)需要從公司層面整體分析所有數(shù)據(jù),就必須要集成每個(gè)產(chǎn)品線的數(shù)據(jù),將多個(gè)分散的數(shù)據(jù)源統(tǒng)一成一致的、無歧義的數(shù)據(jù)格式,再放置到數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行分析,這就是所說的集成的概念。
3)不可更新的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要用于企業(yè)決策分析。涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改[1]。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)反映了很長(zhǎng)一段時(shí)間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時(shí)間點(diǎn)數(shù)據(jù)庫(kù)快照的集合,并基于這些快照對(duì)導(dǎo)出數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、合成和重組,而不是對(duì)數(shù)據(jù)進(jìn)行在線處理[2]。
3? 分層理論介紹
數(shù)據(jù)倉(cāng)庫(kù)從數(shù)據(jù)源到采集與多層清洗加工,形成以數(shù)據(jù)資產(chǎn)為核心的數(shù)據(jù)倉(cāng)庫(kù),在這一過程中,形成了一套規(guī)范的數(shù)據(jù)邏輯分層。數(shù)據(jù)邏輯分層包括ods層、dwd層、dws層、dim層以及app層[3]。數(shù)據(jù)分層及其對(duì)應(yīng)描述見表1,分層理論數(shù)據(jù)流向示意如圖2所示。
4? 分層理論在車聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用
伴隨著智能網(wǎng)聯(lián)汽車的發(fā)展,車聯(lián)網(wǎng)數(shù)據(jù)日益龐大,傳統(tǒng)數(shù)據(jù)庫(kù)已經(jīng)不再使用對(duì)海量車聯(lián)網(wǎng)數(shù)據(jù)的存儲(chǔ)、搜索和分析,效率低、業(yè)務(wù)需求實(shí)現(xiàn)周期長(zhǎng)。此時(shí)采用數(shù)據(jù)倉(cāng)庫(kù)對(duì)原始車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行重構(gòu)便可以很好地解決傳統(tǒng)數(shù)據(jù)庫(kù)所面臨的問題,將分層理論應(yīng)用至車聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù),各個(gè)層級(jí)對(duì)應(yīng)操作如下。
一是車聯(lián)網(wǎng)ods層,建立統(tǒng)一數(shù)據(jù)表,接入多個(gè)軟件的數(shù)據(jù)源,具體數(shù)據(jù)表見表2。
二是車聯(lián)網(wǎng)dwd層,在實(shí)際車聯(lián)網(wǎng)數(shù)據(jù)中,受到各種實(shí)際工況的影響,車聯(lián)網(wǎng)數(shù)據(jù)字段值會(huì)存在空值、異常值等錯(cuò)亂數(shù)據(jù)的現(xiàn)象,在dwd層可對(duì)每個(gè)字段的錯(cuò)亂數(shù)據(jù)進(jìn)行清洗,字符串類型的空值數(shù)據(jù)清洗為unknown,數(shù)值類型的空值數(shù)據(jù)清洗為0,時(shí)間類型的空值數(shù)據(jù)清洗為‘2001-01-01 00:00:00,日期類型的空值數(shù)據(jù)清洗為‘2001-01-01。另外,針對(duì)于業(yè)務(wù)需求,對(duì)埋點(diǎn)名稱中的錯(cuò)亂數(shù)據(jù)也定義了清洗規(guī)則,將埋點(diǎn)名稱中的前后空格均去除,例如:埋點(diǎn)名稱=‘ b_m_01 清洗為埋點(diǎn)名稱=‘b_m_01。經(jīng)過上述清洗過程,可以有一個(gè)系統(tǒng)的、完整的、干凈的、具有一致性的dwd層數(shù)據(jù)。表2經(jīng)過清洗后得到表3。
三是車聯(lián)網(wǎng)dws層,在本層對(duì)dwd層的數(shù)據(jù)進(jìn)行輕度匯總加工,將發(fā)生時(shí)間拆分成發(fā)生日期、發(fā)生小時(shí),同時(shí)保留其他全部的數(shù)據(jù)字段,增加計(jì)算指標(biāo):使用次數(shù),用于統(tǒng)計(jì)某臺(tái)車在某個(gè)日期、某個(gè)小時(shí)、某個(gè)地點(diǎn)的某個(gè)功能的使用次數(shù)。表3經(jīng)過匯總加工后得到表4。
四是車聯(lián)網(wǎng)dim層,dim層匯總一些常用維度,例如日期維度、地區(qū)維度、車型維度。其中,日期維度表包含了2001~2030年每個(gè)日期對(duì)應(yīng)的年份、季度、月份、季節(jié)、每周幾等信息,地區(qū)維度表包含了中國(guó)境內(nèi)各省市區(qū)縣對(duì)應(yīng)的中文全稱、中文拼音、所屬大區(qū)、省份簡(jiǎn)稱等信息,車型維度表則包含了車輛的車輛識(shí)別碼、生產(chǎn)日期、銷售日期、車輛型號(hào)、車輛配置等信息。另外還有一個(gè)埋點(diǎn)維度表,埋點(diǎn)維度表針對(duì)dwd中的每個(gè)埋點(diǎn)名稱進(jìn)行標(biāo)簽分類,包含了埋點(diǎn)名稱的1級(jí)、2級(jí)、3級(jí)、4級(jí)標(biāo)簽以及相關(guān)的觸發(fā)方式。
五是車聯(lián)網(wǎng)app層,app層結(jié)合應(yīng)用場(chǎng)景梳理了4個(gè)顆粒度的數(shù)據(jù)應(yīng)用表,分別為小時(shí)、天、周、月。下面一一介紹各個(gè)顆粒度數(shù)據(jù)表內(nèi)容。
1)小時(shí)顆粒度:按小時(shí)統(tǒng)計(jì)各個(gè)車型1級(jí)、2級(jí)、3級(jí)、4級(jí)標(biāo)簽的使用次數(shù)。
2)天顆粒度:按天統(tǒng)計(jì)各個(gè)車型1級(jí)、2級(jí)、3級(jí)、4級(jí)標(biāo)簽的使用次數(shù)。
3)周顆粒度:結(jié)合dim層中日期維度表,按周統(tǒng)計(jì)各個(gè)車型1級(jí)、2級(jí)、3級(jí)、4級(jí)標(biāo)簽的使用次數(shù)。
4)月顆粒度:結(jié)合dim層中日期維度表,按月統(tǒng)計(jì)各個(gè)車型1級(jí)、2級(jí)、3級(jí)、4級(jí)標(biāo)簽的使用次數(shù)。
表4針對(duì)應(yīng)用場(chǎng)景可匯總形成表5。
可以看到,ods數(shù)據(jù)經(jīng)過數(shù)據(jù)倉(cāng)庫(kù)各個(gè)層級(jí)的處理之后,可以得到一個(gè)標(biāo)簽化的統(tǒng)計(jì)指標(biāo),數(shù)據(jù)更加規(guī)整,提高了數(shù)據(jù)的可用性。
5? 總結(jié)
數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部分層并非為了分層而分層,分層是為了解決ETL任務(wù)以及工作流的組織、數(shù)據(jù)的流向、讀寫權(quán)限的控制、不同需求的滿足等各類問題。一個(gè)良好的分層應(yīng)當(dāng)有清晰的數(shù)據(jù)結(jié)構(gòu)體系,可以做到精準(zhǔn)血緣追蹤,同時(shí)減少重復(fù)開發(fā)以及資源浪費(fèi)。
本文基于維度建模分層理論實(shí)現(xiàn)了車聯(lián)網(wǎng)數(shù)據(jù)倉(cāng)庫(kù),可以很好地整合處理車聯(lián)網(wǎng)數(shù)據(jù),并針對(duì)不同應(yīng)用場(chǎng)景定制化數(shù)據(jù)服務(wù)。此數(shù)據(jù)倉(cāng)庫(kù)層次清晰,各層的作用域明確,實(shí)現(xiàn)復(fù)雜度不高,可為多種車輛數(shù)據(jù)的收集、統(tǒng)計(jì)和分析提供參考。不足之處是對(duì)數(shù)據(jù)的分析和處理過于單一,在以后的工作中,可以嘗試使用一些人工智能的方法對(duì)數(shù)據(jù)進(jìn)行處理和分析,挖掘出更多的數(shù)據(jù)價(jià)值。
參考文獻(xiàn):
[1] 孟祥怡,梁士福,張?zhí)鞆?qiáng),等. 新能源汽車充電用戶行為大數(shù)據(jù)分析及應(yīng)用[J]. 汽車文摘,2021(3):34-39.
[2] 周飛,劉夢(mèng)娜,張暉,等. 商業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中ETL的設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件工程,2018,21(11):42-45.
[3] 王雪檸,翟媛,陳顥. “十四五”時(shí)期我國(guó)汽車產(chǎn)業(yè)發(fā)展趨勢(shì)簡(jiǎn)析[J]. 汽車工業(yè)研究,2021(4):2-7.
[4] 葛鵬,劉森. 大數(shù)據(jù)時(shí)代對(duì)汽車行業(yè)的影響分析[J]. 產(chǎn)業(yè)與科技論壇,2013,12(24):23-24.
[5] 奉國(guó)和,利偉業(yè). 數(shù)據(jù)倉(cāng)庫(kù)在航空客戶關(guān)系管理中的應(yīng)用設(shè)計(jì)[J]. 情報(bào)雜志,2006(7):32-35.
(編輯? 凌? 波)
作者簡(jiǎn)介
唐文笙(1997—),男,助理工程師,研究方向?yàn)閿?shù)據(jù)倉(cāng)庫(kù)建設(shè)。