摘? 要:基于水泥產(chǎn)業(yè)發(fā)展需求、行業(yè)特點(diǎn)和發(fā)展中產(chǎn)生的海量數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)。從數(shù)據(jù)架構(gòu)、應(yīng)用架構(gòu)和物理架構(gòu)三個(gè)方面構(gòu)建平臺(tái)的總體架構(gòu),并結(jié)合機(jī)器學(xué)習(xí)相關(guān)算法對(duì)企業(yè)進(jìn)行畫(huà)像,多維度挖掘企業(yè)信息。該平臺(tái)可提供產(chǎn)業(yè)大數(shù)據(jù)可視化、產(chǎn)業(yè)地圖、企業(yè)全息畫(huà)像和政策精準(zhǔn)匹配四大核心功能,為水泥產(chǎn)業(yè)信息化、智能化轉(zhuǎn)型升級(jí)提供極富價(jià)值的參考,是大數(shù)據(jù)建設(shè)的重要應(yīng)用示范。
關(guān)鍵詞:水泥產(chǎn)業(yè);大數(shù)據(jù)平臺(tái);企業(yè)全息畫(huà)像;政策精準(zhǔn)匹配
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)09-0111-04
Abstract: The cement industry big data platform is designed and implemented based on the development demand, industry characteristics and massive data generated in the development of the cement industry. Build the overall architecture of the platform from three aspects of data architecture, application architecture and physical architecture, and combine machine learning related algorithms to visualize enterprises and mine enterprise information in multiple dimensions. The platform can provide four core functions of industrial big data visualization, industrial map, enterprise hologram and policy precise matching, which provides valuable reference for the informatization and intelligent transformation and upgrading of the cement industry, and is an important application demonstration of big data construction.
Keywords: cement industry; big data platform; enterprise hologram; policy precise matching
0? 引? 言
黨的二十大報(bào)告中強(qiáng)調(diào)要建設(shè)現(xiàn)代化產(chǎn)業(yè)體系,推動(dòng)制造業(yè)高端化、智能化、綠色化發(fā)展。在推動(dòng)我國(guó)水泥工業(yè)加速轉(zhuǎn)型升級(jí)方面,互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、人工智能等先進(jìn)技術(shù)是重要的技術(shù)支撐。大數(shù)據(jù)平臺(tái)的相關(guān)建設(shè)案例有華夏幸福產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)、上海市產(chǎn)業(yè)地圖、蘇州市“政策通”、合肥市廬陽(yáng)區(qū)產(chǎn)業(yè)政策申報(bào)平臺(tái)等,滿(mǎn)足不同產(chǎn)業(yè)的業(yè)務(wù)需求。本文利用安徽海螺水泥產(chǎn)業(yè)跨平臺(tái)、跨行業(yè)、跨地區(qū)的多源異構(gòu)數(shù)據(jù)[1],結(jié)合機(jī)器學(xué)習(xí)算法挖掘產(chǎn)業(yè)數(shù)據(jù),以企業(yè)畫(huà)像[2]為核心,設(shè)計(jì)并實(shí)現(xiàn)了具有多種核心功能的水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)水泥產(chǎn)業(yè)管理網(wǎng)絡(luò)化和平臺(tái)化,為水泥產(chǎn)業(yè)的未來(lái)發(fā)展提質(zhì)增效。
1? 平臺(tái)功能及目標(biāo)
水泥制成的砂漿或混凝土是國(guó)民經(jīng)濟(jì)發(fā)展的重要基礎(chǔ)原料,廣泛應(yīng)用于土木建筑、交通、水利、電力、化工、國(guó)防等工程建設(shè)。在海螺水泥的帶動(dòng)和引領(lǐng)下,水泥產(chǎn)業(yè)完成了技術(shù)結(jié)構(gòu)調(diào)整,處于創(chuàng)新提升超越引領(lǐng)階段。此階段水泥產(chǎn)業(yè)的目標(biāo)是淘汰落后設(shè)備,推動(dòng)供給側(cè)改革,進(jìn)一步向信息化和智能化轉(zhuǎn)型升級(jí)。水泥產(chǎn)業(yè)具有自身特點(diǎn),其銷(xiāo)售情況受季節(jié)變化、國(guó)家政策的影響明顯,因此相關(guān)人員在制定水泥生產(chǎn)計(jì)劃時(shí)要分析市場(chǎng)需求,同時(shí)及時(shí)研究國(guó)家經(jīng)濟(jì)政策的走向,避免盲目決策[3]。市場(chǎng)手段與行政手段相互配合是水泥行業(yè)供給側(cè)改革的核心路徑,通過(guò)構(gòu)建水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái),加速釋放數(shù)據(jù)潛力,作為連接宏觀決策和微觀數(shù)據(jù)的工具在水泥行業(yè)上游原料和下游需求產(chǎn)業(yè)鏈中發(fā)揮重要作用。本文設(shè)計(jì)的水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)主要實(shí)現(xiàn)了以下四個(gè)核心功能:
1)通過(guò)集中整合和管理如產(chǎn)業(yè)規(guī)劃、區(qū)域布局、水泥生產(chǎn)園區(qū)、水泥項(xiàng)目等產(chǎn)業(yè)相關(guān)數(shù)據(jù),全方位構(gòu)建水泥產(chǎn)業(yè)數(shù)據(jù)的指標(biāo)體系,結(jié)合常用的分析模型和方法,進(jìn)行統(tǒng)計(jì)圖表可視化表達(dá)水泥產(chǎn)業(yè)數(shù)據(jù)相關(guān)指標(biāo)。
2)基于水泥企業(yè)所在地區(qū)的二維地圖,將水泥企業(yè)、生產(chǎn)園區(qū)、水泥項(xiàng)目等主體的分布情況予以呈現(xiàn),通過(guò)點(diǎn)擊地圖上企業(yè)、園區(qū)等主體的符號(hào)化圖標(biāo),可跳轉(zhuǎn)到該主體的詳情查看頁(yè)面。
3)對(duì)所獲取的海量水泥企業(yè)數(shù)據(jù)進(jìn)行分析處理,建立企業(yè)標(biāo)簽體系,深度挖掘企業(yè)和個(gè)人、企業(yè)、項(xiàng)目、產(chǎn)業(yè)間的關(guān)系鏈路,建立關(guān)系圖譜,結(jié)合業(yè)務(wù)需求建立企業(yè)的全息畫(huà)像,用戶(hù)可對(duì)企業(yè)不同維度信息進(jìn)行查詢(xún)。
4)梳理整合政府發(fā)布政策和企業(yè)需求,運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)海螺旗下300多家子公司以及上下游產(chǎn)業(yè)鏈相關(guān)企業(yè)和國(guó)家經(jīng)濟(jì)政策進(jìn)行匹配,智能化將政策推送給企業(yè),同時(shí)企業(yè)也能在政策查詢(xún)模塊獲取匹配的政策推薦,實(shí)現(xiàn)政策精準(zhǔn)匹配。
建立起這樣一個(gè)集匯總、整合、展示和分析于一體的水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái),一方面可充分利用產(chǎn)業(yè)大數(shù)據(jù)資源,充分挖掘數(shù)據(jù)價(jià)值并進(jìn)行信息化展示;另一方面可通過(guò)機(jī)器學(xué)習(xí)相關(guān)算法滿(mǎn)足水泥企業(yè)的相關(guān)需求,為產(chǎn)業(yè)智能化發(fā)展提供助力。
2? 平臺(tái)架構(gòu)
水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)總體架構(gòu)主要包括三部分,分別是平臺(tái)服務(wù)層(IaaS、PaaS)、數(shù)據(jù)服務(wù)層(DaaS)和應(yīng)用服務(wù)層(SaaS),如圖1所示。
平臺(tái)服務(wù)層包括IaaS平臺(tái)管理和PaaS平臺(tái)管理兩個(gè)部分。IaaS平臺(tái)管理主要提供基于云服務(wù)的計(jì)算服務(wù)、存儲(chǔ)服務(wù)、網(wǎng)絡(luò)服務(wù)。PaaS平臺(tái)管理主要進(jìn)行數(shù)據(jù)的獲取和處理,并提供通用中間件服務(wù)及大數(shù)據(jù)中間件服務(wù),通用中間件服務(wù)包括MySql、Redis、數(shù)據(jù)可視化工具,大數(shù)據(jù)中間件服務(wù)的實(shí)現(xiàn)主要基于Hadoop分布式系統(tǒng)框架。數(shù)據(jù)服務(wù)層主要是應(yīng)用機(jī)器學(xué)習(xí)和人工智能技術(shù),實(shí)現(xiàn)水泥產(chǎn)業(yè)指標(biāo)統(tǒng)計(jì)分析、企業(yè)和政策標(biāo)簽構(gòu)建等功能。應(yīng)用服務(wù)層在數(shù)據(jù)服務(wù)層的基礎(chǔ)上,圍繞企業(yè)畫(huà)像實(shí)現(xiàn)產(chǎn)業(yè)大數(shù)據(jù)可視化、產(chǎn)業(yè)地圖、企業(yè)全息畫(huà)像和政策精準(zhǔn)匹配四大核心功能。
2.1? 數(shù)據(jù)架構(gòu)
數(shù)據(jù)架構(gòu)負(fù)責(zé)組織獲取到的大量數(shù)據(jù),以滿(mǎn)足應(yīng)用系統(tǒng)不同的數(shù)據(jù)需求,是建立靈活有效大數(shù)據(jù)平臺(tái)的重要基礎(chǔ)。水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)建設(shè)九大數(shù)據(jù)區(qū),分別為:緩沖區(qū)、貼源區(qū)、基礎(chǔ)區(qū)、標(biāo)簽區(qū)、主題區(qū)、應(yīng)用區(qū)、歷史數(shù)據(jù)備份區(qū)、非結(jié)構(gòu)化區(qū)以及索引區(qū),如圖2所示。
2.2? 應(yīng)用架構(gòu)
應(yīng)用架構(gòu)主要分為四個(gè)部分,分別是數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用和門(mén)戶(hù),如圖3所示。
數(shù)據(jù)源負(fù)責(zé)數(shù)據(jù)的接入,采集政務(wù)和水泥數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)負(fù)責(zé)整合結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),統(tǒng)一格式收入產(chǎn)業(yè)主題庫(kù);數(shù)據(jù)應(yīng)用針對(duì)水泥企業(yè)需求實(shí)現(xiàn)相應(yīng)功能;門(mén)戶(hù)負(fù)責(zé)應(yīng)用和信息的集成展示,是產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)的用戶(hù)入口。
2.3? 物理架構(gòu)
物理架構(gòu)實(shí)現(xiàn)內(nèi)網(wǎng)和外網(wǎng)分開(kāi),內(nèi)外網(wǎng)之間通過(guò)數(shù)據(jù)交換平臺(tái)交換數(shù)據(jù)。內(nèi)網(wǎng)部署大數(shù)據(jù)集群用于數(shù)據(jù)的計(jì)算和分析,相關(guān)數(shù)據(jù)庫(kù)用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ);外網(wǎng)部署虛擬機(jī)用于Web應(yīng)用服務(wù)、業(yè)務(wù)數(shù)據(jù)庫(kù)和前置機(jī)數(shù)據(jù)庫(kù)存儲(chǔ)服務(wù),其具體結(jié)構(gòu)如圖4所示。
3? 關(guān)鍵技術(shù)
水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)設(shè)計(jì)的功能,以企業(yè)畫(huà)像為技術(shù)核心,采用機(jī)器學(xué)習(xí)領(lǐng)域相關(guān)算法得以實(shí)現(xiàn),主要分為標(biāo)簽生成技術(shù)、協(xié)同過(guò)濾技術(shù)和地圖構(gòu)建技術(shù)。
3.1? 標(biāo)簽生成技術(shù)
水泥企業(yè)數(shù)據(jù)具有來(lái)源不同、類(lèi)型不同的特點(diǎn)。類(lèi)別類(lèi)型的數(shù)據(jù),直接提取類(lèi)別數(shù)據(jù)作為企業(yè)標(biāo)簽,表示企業(yè)的基本信息。原因描述類(lèi)的數(shù)據(jù),利用數(shù)據(jù)處理工具Pandas、Numpy等進(jìn)行統(tǒng)計(jì)歸類(lèi)分析生成標(biāo)簽。對(duì)于企業(yè)很多無(wú)法通過(guò)簡(jiǎn)單統(tǒng)計(jì)分析獲取的隱含特征,采用機(jī)器學(xué)習(xí)相關(guān)算法建立模型獲取標(biāo)簽[4],主要采用多項(xiàng)式樸素貝葉斯(MNB)分類(lèi)器和支持向量機(jī)(SVM)的方式,對(duì)企業(yè)數(shù)據(jù)文本進(jìn)行分類(lèi)從而實(shí)現(xiàn)對(duì)企業(yè)隱含特征的挖掘。
多項(xiàng)式分布公式為:
其中,P(X = xi | Y=c)表示c類(lèi)別下第i個(gè)屬性上取值為xi的條件? 概率,是c類(lèi)別下第i個(gè)屬性上取值為xi的樣本數(shù),|Dc|表示c類(lèi)別的樣本數(shù),Ni表示第i個(gè)屬性可能的取值數(shù),λ表示平滑系數(shù),為防止訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò)的詞未包含在測(cè)試集中導(dǎo)致0概率的出現(xiàn),取λ=1稱(chēng)為拉普拉斯平滑。技術(shù)上通過(guò)調(diào)整sklearn中的MultinomialNB參數(shù)實(shí)現(xiàn)。
標(biāo)準(zhǔn)的硬邊界線(xiàn)性SVM在約束條件設(shè)為樣本點(diǎn)到?jīng)Q策邊界的距離大于等于1的情況下,轉(zhuǎn)化為一個(gè)等價(jià)的二次凸優(yōu)化問(wèn)題進(jìn)行求解:
對(duì)企業(yè)未顯式說(shuō)明的特征視為目標(biāo)進(jìn)行分類(lèi),挖掘出企業(yè)的隱含特征并為其加上標(biāo)簽。技術(shù)上通過(guò)調(diào)整sklearn中的LinearSVC參數(shù)實(shí)現(xiàn)。
3.2? 協(xié)同過(guò)濾技術(shù)
通過(guò)標(biāo)簽生成構(gòu)建企業(yè)全息畫(huà)像之后,采用基于鄰域的算法來(lái)構(gòu)建推薦系統(tǒng)[5],實(shí)現(xiàn)政策的精準(zhǔn)匹配。根據(jù)企業(yè)和政策特征,計(jì)算企業(yè)和政策匹配度,以此構(gòu)建企業(yè)-政策矩陣和政策-企業(yè)矩陣,主要采用兩個(gè)基于鄰域的算法。
3.2.1? 基于企業(yè)的協(xié)同過(guò)濾推薦(User-Based)
給定一個(gè)企業(yè),尋找未被該企業(yè)瀏覽的政策(政策-企業(yè)矩陣中的值為0),計(jì)算與該企業(yè)相似的企業(yè)偏好政策的分?jǐn)?shù),并按照從高到低的順序進(jìn)行排序,返回前N個(gè)政策進(jìn)行推薦。
3.2.2? 基于政策的協(xié)同過(guò)濾推薦(Item-Based)
給定一個(gè)政策,尋找未瀏覽該政策的企業(yè)(企業(yè)-政策矩陣中的值為0),計(jì)算與該政策相似的政策被企業(yè)偏好的分?jǐn)?shù),并按照從高到低的順序進(jìn)行排序,返回前N個(gè)企業(yè)進(jìn)行推薦。企業(yè)相似度和政策相似度采用余弦相似度公式來(lái)表示:
結(jié)果的值代表了企業(yè)和企業(yè)、政策和政策向量之間夾角的大小,夾角越小,余弦相似度越大,說(shuō)明兩者之間的相似度越大。
針對(duì)上述兩個(gè)算法泛化能力弱和具有頭部效應(yīng)的問(wèn)題,采用基于模型的協(xié)同過(guò)濾推薦(Model-Based)進(jìn)行優(yōu)化,這里采用基于矩陣分解的潛在語(yǔ)義模型。潛在語(yǔ)義模型通過(guò)隱含特征聯(lián)系企業(yè)匹配的政策,基于企業(yè)特征找出潛在政策主題,然后對(duì)政策進(jìn)行自動(dòng)聚類(lèi),劃分給對(duì)應(yīng)企業(yè),通過(guò)分解共現(xiàn)矩陣得到含有隱向量的企業(yè)矩陣Q和政策矩陣P,這樣就能得到企業(yè)u對(duì)政策i的偏好分?jǐn)?shù):
按照從高到低的順序排序之后將前N個(gè)未推薦給企業(yè)的政策推薦給該企業(yè)。
3.3? 地圖構(gòu)建技術(shù)
水泥產(chǎn)業(yè)地圖功能模塊基于主流的GIS軟件進(jìn)行地圖符號(hào)化,通過(guò)GIS軟件平臺(tái)提供各類(lèi)空間數(shù)據(jù)服務(wù),將所獲取的高精度矢量數(shù)據(jù)通過(guò)空間數(shù)據(jù)庫(kù)引擎導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù)。利用圖像解譯方法將需要提取的地物(如水泥企業(yè)、生產(chǎn)園區(qū)、水泥項(xiàng)目等主體)進(jìn)行實(shí)體提取,構(gòu)成高精度高完整度的矢量格式數(shù)據(jù),基于這些數(shù)據(jù),利用ArcGIS軟件[6]進(jìn)行數(shù)字線(xiàn)畫(huà)圖(Digital Line Graphic, DLG)生成,將這些實(shí)體在地圖上進(jìn)行符號(hào)化渲染。
同時(shí)采用Apriori算法挖掘主體之間的關(guān)聯(lián)規(guī)則,在地圖上用戶(hù)點(diǎn)擊該主體能獲得其他相關(guān)主體的信息。Apriori算法首先獲取主體X和Y之間的支持度,支持度表示主體X和Y同時(shí)出現(xiàn)在數(shù)據(jù)集中的概率:
Support(X→Y )=P(X ∩Y )=P(XY )
在計(jì)算主體X出現(xiàn)的情況下,主體Y出現(xiàn)的概率稱(chēng)為置信度:
Confidence(X→Y )=P(Y | X )
在滿(mǎn)足最小支持度的組合中,生成滿(mǎn)足最小置信度的關(guān)聯(lián)規(guī)則,提取出相關(guān)主體作為目標(biāo)主體的關(guān)聯(lián)主體進(jìn)行展示。
4? 平臺(tái)展示
在地圖上點(diǎn)擊相關(guān)主體的符號(hào)化圖標(biāo),可以進(jìn)入該主體的詳細(xì)信息界面,展示主體的特征信息。如圖5所示,點(diǎn)擊進(jìn)入安徽海螺水泥某廠(chǎng)信息頁(yè),展示水泥生產(chǎn)企業(yè)的特征信息(主要是水泥生產(chǎn)的能效能耗)。實(shí)時(shí)呈現(xiàn)企業(yè)特征信息,一旦出現(xiàn)不合理數(shù)據(jù)時(shí)能夠及時(shí)發(fā)現(xiàn)并采取相應(yīng)對(duì)策,提升管理效率。
同時(shí)點(diǎn)擊企業(yè)能夠進(jìn)入企業(yè)畫(huà)像頁(yè)面,如圖6所示。通過(guò)直接獲取的和計(jì)算生成的相關(guān)標(biāo)簽,全方位展示企業(yè)信息,如基本信息、司法信息、經(jīng)營(yíng)風(fēng)險(xiǎn)、知識(shí)產(chǎn)權(quán)等。同時(shí)展示通過(guò)關(guān)聯(lián)規(guī)則挖掘出的與企業(yè)關(guān)聯(lián)度較高的關(guān)聯(lián)企業(yè),以及運(yùn)營(yíng)評(píng)價(jià)相關(guān)模型,為未來(lái)發(fā)展提供決策參考。
5? 結(jié)? 論
為持續(xù)推進(jìn)水泥產(chǎn)業(yè)信息化、智能化建設(shè)的步伐,進(jìn)一步推進(jìn)水泥行業(yè)創(chuàng)新提升超越引領(lǐng)發(fā)展,基于安徽海螺水泥和互聯(lián)網(wǎng)相關(guān)數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)一種水泥產(chǎn)業(yè)大數(shù)據(jù)平臺(tái),結(jié)合現(xiàn)有的主流機(jī)器學(xué)習(xí)技術(shù),以企業(yè)畫(huà)像為核心,實(shí)現(xiàn)了產(chǎn)業(yè)大數(shù)據(jù)可視化、產(chǎn)業(yè)地圖、企業(yè)全息畫(huà)像、政策精準(zhǔn)匹配四大核心功能模塊,同步升級(jí)當(dāng)前政策大數(shù)據(jù)庫(kù)、企業(yè)和水泥產(chǎn)業(yè)大數(shù)據(jù)庫(kù)以及配套業(yè)務(wù)功能及流程,取得了良好的經(jīng)濟(jì)效益和社會(huì)效益,為以物質(zhì)生產(chǎn)、物質(zhì)服務(wù)為主的經(jīng)濟(jì)發(fā)展模式向以信息生產(chǎn)、信息服務(wù)為主的經(jīng)濟(jì)發(fā)展模式轉(zhuǎn)變提供重要支持。
參考文獻(xiàn):
[1] 林瑀,陳日成,金濤.面向復(fù)雜信息系統(tǒng)的多源異構(gòu)數(shù)據(jù)融合技術(shù) [J].中國(guó)測(cè)試,2020,46(7):1-7+23.
[2] 陳鋼,佘祥榮,秦加奇,等.面向精準(zhǔn)政務(wù)服務(wù)的自然人全息畫(huà)像 [J].電子技術(shù)與軟件工程,2021(15):209-210.
[3] 張媛媛.信息化建設(shè)在水泥行業(yè)中的應(yīng)用與研究 [J].四川水泥,2018(6):2.
[4] ACCENTS J.Feature-driven label generation for congestion detection in smart cities under big data [EB/OL].[2022-11-10].https://www.accentsjournals.org/paperInfo.php?journalPaperId=1390.
[5] 褚宏林.協(xié)同過(guò)濾推薦算法研究分析 [J].福建電腦,2021,37(6):51-54.
[6] 齊志飛,姚奕.面向ArcGIS個(gè)人地理數(shù)據(jù)庫(kù)的矢量幾何數(shù)據(jù)解碼 [J].電腦編程技巧與維護(hù),2022(10):92-96.
作者簡(jiǎn)介:宋登科(1980—),男,漢族,湖南株洲人,工程師,碩士,研究方向:大數(shù)據(jù)與人工智能。