• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向石油行業(yè)的數(shù)據(jù)治理技術(shù)研究

      2021-01-14 00:45:42梁光瑞
      現(xiàn)代信息科技 2021年12期
      關(guān)鍵詞:數(shù)據(jù)交換數(shù)據(jù)治理數(shù)據(jù)采集

      摘 ?要:文章通過對數(shù)據(jù)治理技術(shù)的研究,從技術(shù)現(xiàn)狀、技術(shù)發(fā)展和數(shù)據(jù)質(zhì)量需求方面剖析了其在設(shè)計(jì)、應(yīng)用方面的瓶頸,提出了一種適用于石油行業(yè)的數(shù)據(jù)模型結(jié)構(gòu)設(shè)計(jì)和管理方式,并基于數(shù)據(jù)模型提供線下數(shù)據(jù)匯總、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)采集配置等數(shù)據(jù)采集方法、數(shù)據(jù)集成方法。最后結(jié)合應(yīng)用場景介紹在應(yīng)用系統(tǒng)實(shí)施過程中遇到的難點(diǎn)與所提出的相應(yīng)解決方案,包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)及物理文件數(shù)據(jù)的采集域同步。

      關(guān)鍵詞:數(shù)據(jù)治理;數(shù)據(jù)采集;數(shù)據(jù)交換

      中圖分類號(hào):TP311 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)12-0162-03

      Abstract: Through the research on data governance technology, this paper analyzes its bottlenecks in design and application from the aspects of technical status, technical development and data quality requirements, puts forward a data model structure design and management mode suitable for the petroleum industry, provides data collection methods and data integration methods such as offline data summarization, data verification and data collection configuration based on data model. Finally, combined with the application scenario, the difficulties encountered in the implementation of the application system and the corresponding solutions are introduced, including the collection domain synchronization for relational database data and physical file data.

      Keywords: data governance; data collection; data exchange

      0 ?引 ?言

      數(shù)據(jù)治理是企業(yè)步入信息化的基礎(chǔ),研究數(shù)據(jù)治理技術(shù)的目的是為信息應(yīng)用提供安全的數(shù)據(jù)通道,通道的起點(diǎn)是企業(yè)各種業(yè)務(wù)系統(tǒng)自動(dòng)或手工產(chǎn)生的數(shù)據(jù),通道的終點(diǎn)是基于信息的各種應(yīng)用,通道的中間段是數(shù)據(jù)倉庫。當(dāng)前國內(nèi)基于數(shù)據(jù)治理技術(shù)的研究不斷深入,但采集、存儲(chǔ)、集成一直是數(shù)據(jù)治理的核心需求,石油企業(yè)的數(shù)據(jù)管理員在采用通用數(shù)據(jù)處理工具時(shí),常常會(huì)因?yàn)闃I(yè)務(wù)功能不匹配而造成數(shù)據(jù)集成配置任務(wù)非常繁重甚至無法滿足需求,成為數(shù)據(jù)治理的瓶頸。

      1 ?數(shù)據(jù)治理技術(shù)

      數(shù)據(jù)治理包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)集成三個(gè)關(guān)鍵點(diǎn),管理人員的數(shù)據(jù)轉(zhuǎn)換配置工作主要集中于數(shù)據(jù)采集和數(shù)據(jù)集成,需要解決的突出問題有兩點(diǎn):其一是需要設(shè)計(jì)結(jié)構(gòu)合理的數(shù)據(jù)模型存儲(chǔ)結(jié)構(gòu),方便進(jìn)行集成交換和應(yīng)用;其二是數(shù)據(jù)集成需要兼顧各種數(shù)據(jù)交換的需求,提供充分的數(shù)據(jù)轉(zhuǎn)換方式和便利的人機(jī)交互配置,達(dá)到數(shù)據(jù)倉庫與集成系統(tǒng)轉(zhuǎn)換可配置、管理可分開的目標(biāo)。

      1.1 ?數(shù)據(jù)模型管理

      構(gòu)建數(shù)據(jù)模型的目標(biāo)是為數(shù)據(jù)倉庫定義一個(gè)大而全的數(shù)據(jù)結(jié)構(gòu),由分類表、屬性表及數(shù)據(jù)表組成,屬性表和數(shù)據(jù)表均通過分類表id尋址類型,數(shù)據(jù)表采用Json格式記錄值,其優(yōu)勢體現(xiàn)在三個(gè)方面:(1)數(shù)據(jù)按調(diào)用頻率分表,前端查看分類和屬性的速度明顯加快;(2)存取數(shù)據(jù)值時(shí)充分利用了根據(jù)Json字段對數(shù)據(jù)庫進(jìn)行檢索的技術(shù);(3)三個(gè)表僅通過id關(guān)聯(lián),業(yè)務(wù)層對編碼或名稱修改互補(bǔ)影響,用戶可編輯修改與數(shù)據(jù)表關(guān)鍵項(xiàng)分開,減少對數(shù)據(jù)庫表的關(guān)聯(lián)修改。

      1.2 ?數(shù)據(jù)采集技術(shù)

      根據(jù)原始數(shù)據(jù)的多樣性需求設(shè)計(jì)適用的采集方案,將數(shù)據(jù)采集到數(shù)據(jù)倉庫,常規(guī)表數(shù)據(jù)的采集可以基于原值獲取、字典轉(zhuǎn)義、條件取值、自定義值等方法,本文著重介紹對層級(jí)路徑和文件表的采集方式,以下是解決方案。

      1.2.1 ?層級(jí)路徑

      例如一個(gè)數(shù)據(jù)源表是一個(gè)樹式表,即下一行數(shù)據(jù)是上一行數(shù)據(jù)的子集,需要采集子集id、父級(jí)id或?qū)蛹?jí)路徑,線下數(shù)據(jù)錄入員習(xí)慣將子集數(shù)據(jù)寫在父集數(shù)據(jù)行的下面,通常不會(huì)特別標(biāo)注第幾行是第幾行的子集,甚至位于同一列的內(nèi)容若與上一行相同則會(huì)省略不寫,將數(shù)據(jù)采集到數(shù)據(jù)倉庫需要將所采集的數(shù)據(jù)自動(dòng)生成編碼id、隸屬的父級(jí)id、層級(jí)路徑,因此在配置層級(jí)路徑采集方式時(shí),需要選中層級(jí)目錄相關(guān)字段作為關(guān)鍵列,程序進(jìn)行采集時(shí)逐行生成id,同時(shí)在內(nèi)存中記錄關(guān)鍵列,以便子集數(shù)據(jù)通過與內(nèi)存中數(shù)據(jù)的對比找到隸屬的父級(jí)id,構(gòu)造出層級(jí)路徑。

      1.2.2 ?文件表采集

      基于企業(yè)標(biāo)準(zhǔn)文件編碼規(guī)范(例如文件名由設(shè)計(jì)階段-文件類型-設(shè)備位號(hào)-序號(hào)組成),實(shí)現(xiàn)從一個(gè)物理文件目錄下自動(dòng)提取編碼生成文件表,通過對編碼的識(shí)別也可對目錄和文件名進(jìn)行校驗(yàn)。實(shí)現(xiàn)文件表采集,應(yīng)首先保證對標(biāo)準(zhǔn)目錄樹管理和文檔規(guī)則管理,其中文檔規(guī)則定義了文檔的名稱,包括幾段編碼,例如文件編碼、文件描述、版本號(hào)三段編碼,每段編碼由哪些項(xiàng)和分隔符等組成;目錄樹管理則定義了一棵囊括企業(yè)所有目錄層級(jí)的標(biāo)準(zhǔn)樹,目錄樹節(jié)點(diǎn)與文檔規(guī)則一一對應(yīng),在采集配置時(shí),只要選擇本地文件夾下的某級(jí)主目錄,其下的子目錄和文件即可以參數(shù)化的方式自動(dòng)提取出分類文件表寫入數(shù)據(jù)模型。

      1.3 ?數(shù)據(jù)集成技術(shù)

      數(shù)據(jù)集成是通過配置將數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)進(jìn)行轉(zhuǎn)換并提交目標(biāo)系統(tǒng),提供用戶便利的配置源與目標(biāo)的轉(zhuǎn)換關(guān)系。

      1.3.1 ?數(shù)據(jù)分組

      是指將目標(biāo)表分組,分組的原值包括按導(dǎo)入順序分組、按源相似性分組、按使用性質(zhì)分組。當(dāng)某目標(biāo)表的導(dǎo)入數(shù)據(jù)依賴于或需要查詢其他已導(dǎo)入數(shù)據(jù)表時(shí),因?qū)氪嬖谙群箜樞蚣葱枰M(jìn)行分組,以便用戶在數(shù)據(jù)同步時(shí)可以根據(jù)分組名稱按順序操作;當(dāng)多源導(dǎo)入同一目標(biāo)時(shí),應(yīng)區(qū)分源的多樣性中是否有不同的唯一判定字段或必填字段,系統(tǒng)在同步上傳數(shù)據(jù)時(shí)依據(jù)統(tǒng)一設(shè)定的獲取規(guī)則和校驗(yàn)規(guī)則會(huì)阻斷不符合要求的數(shù)據(jù),所以要求數(shù)據(jù)按源相似性分組后配置不同的規(guī)則;在系統(tǒng)運(yùn)行時(shí),有些目標(biāo)表是為了寫入而進(jìn)行配置,而有些目標(biāo)表用于轉(zhuǎn)換過程中轉(zhuǎn)義或是查表獲取數(shù)據(jù),用戶應(yīng)按使用性質(zhì)進(jìn)行分組管理。

      1.3.2 ?導(dǎo)入配置

      導(dǎo)入配置是完成對目標(biāo)選擇數(shù)據(jù)源的工作,選擇匹配的源字段與目標(biāo)字段對應(yīng),方法包括自動(dòng)匹配和搜索匹配,當(dāng)目標(biāo)與源系統(tǒng)采用統(tǒng)一的名稱編碼時(shí),自動(dòng)匹配功能將有效減少配置時(shí)間,搜索匹配功能用于在源多表中通過關(guān)鍵字獲得匹配項(xiàng);當(dāng)目標(biāo)的獲取方式為條件取值時(shí),需要對設(shè)置的條件字段逐個(gè)匹配目標(biāo)表中的字段。

      2 ?技術(shù)應(yīng)用實(shí)例

      數(shù)據(jù)采集工具(DPT)是根據(jù)石油行業(yè)數(shù)據(jù)治理需求而開發(fā)出的一款專用系統(tǒng),如圖1所示,采用node.js框架開發(fā),主要功能包括通用工具、數(shù)據(jù)模型、數(shù)據(jù)采集、數(shù)據(jù)歸檔、同步管理,實(shí)現(xiàn)對線下數(shù)據(jù)治理、線下數(shù)據(jù)校驗(yàn)清洗入庫、入庫數(shù)據(jù)的后處理、入庫數(shù)據(jù)的集成交換。

      2.1 ?數(shù)據(jù)采集系統(tǒng)

      用戶首先從系統(tǒng)中下載Excel格式采集模板,例如采集模板分為設(shè)施、設(shè)備、文檔三大類,設(shè)備分類下包含發(fā)動(dòng)機(jī)、注水泵等數(shù)百種設(shè)備的采集模板,在生產(chǎn)過程中可直接對新建項(xiàng)目應(yīng)用采集模板填寫數(shù)據(jù),對已建項(xiàng)目,系統(tǒng)提供一系列通用功能將存量數(shù)據(jù)匯總至采集模板。

      數(shù)據(jù)采集設(shè)置是對采集模板數(shù)據(jù)入庫進(jìn)行采集規(guī)則設(shè)置和校驗(yàn)規(guī)則設(shè)置,數(shù)據(jù)采集設(shè)置的方式包括原值獲取、自動(dòng)編碼、條件取值、固定值、當(dāng)前用戶、當(dāng)前時(shí)間等;校驗(yàn)方式包括文本、數(shù)值、百分比、日期、時(shí)間、序列、正則表達(dá)式、數(shù)據(jù)字典、文件路徑、特殊項(xiàng),其中文件路徑驗(yàn)證用于物理文件的采集,驗(yàn)證條件是指定表數(shù)據(jù)內(nèi)的路徑、文件名稱、擴(kuò)展名,驗(yàn)證將要采集入庫的文件是否在指定的文件夾中;特殊項(xiàng)可以指定驗(yàn)證條件為當(dāng)前系統(tǒng)變量,如當(dāng)前項(xiàng)目、當(dāng)前工程等。

      2.2 ?數(shù)據(jù)集成與數(shù)據(jù)同步系統(tǒng)

      DPT以數(shù)據(jù)倉庫為源負(fù)責(zé)向各種數(shù)據(jù)展示平臺(tái)提供數(shù)據(jù),將數(shù)據(jù)倉庫數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換成目標(biāo)結(jié)構(gòu)傳送,其實(shí)現(xiàn)流程如圖2所示。

      2.2.1 ?數(shù)據(jù)連接設(shè)置

      數(shù)據(jù)連接設(shè)置支持常用數(shù)據(jù)庫和文件系統(tǒng),包括MsServer、MySQL、Oracle數(shù)據(jù)庫連接參數(shù)設(shè)置,F(xiàn)astDFS、MinIO文件系統(tǒng)參數(shù)設(shè)置,方便用戶對目標(biāo)連接參數(shù)進(jìn)行集中管理。

      2.2.2 ?數(shù)據(jù)分組設(shè)置

      數(shù)據(jù)管理員選擇數(shù)據(jù)連接來配置數(shù)據(jù)分組,將目標(biāo)分為寫入表、字典表和Json表三組,將需要同步寫入數(shù)據(jù)的目標(biāo)表歸入寫入表組,將僅用于數(shù)據(jù)轉(zhuǎn)換過程中查詢的表歸入字典表組,將用于讀取目標(biāo)Json數(shù)據(jù)格式的表歸入Json表組,如表1所示。

      其后,依次對寫入表配置獲取方式和校驗(yàn)方式,配置方案如表2所示,其中原值獲取是指從數(shù)據(jù)源提取數(shù)據(jù)無須轉(zhuǎn)換,直接寫入即可;條件取值設(shè)定的條件項(xiàng)是Doc_base表的文檔編碼和文檔名稱,獲取項(xiàng)是文檔ID;文件地址是指定提取物理文件的地址。

      Json屬性管理自動(dòng)提取上表Doc_attr中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)層級(jí)樹,并對屬性表每個(gè)節(jié)點(diǎn)屬性配置獲取方式和校驗(yàn)方式,配置方式與上表類似。

      2.2.3 ?導(dǎo)入配置與數(shù)據(jù)同步

      不同于數(shù)據(jù)分組主要面向同步目標(biāo)進(jìn)行配置,導(dǎo)入配置主要面向數(shù)據(jù)源的選擇,例如當(dāng)數(shù)據(jù)分組中對文檔編碼設(shè)置了原值獲取,則導(dǎo)入配置中通過自動(dòng)匹配或搜索匹配源中的合同、維改項(xiàng)目資料、設(shè)備完工資料中的文檔編碼;表2當(dāng)數(shù)據(jù)分組設(shè)置條件取值時(shí),條件項(xiàng)文檔名稱也應(yīng)選擇數(shù)據(jù)源中合同、維改項(xiàng)目資料、設(shè)備完工資料中的文檔名稱,導(dǎo)入配置完成后,同步操作依據(jù)用戶設(shè)置完成從源到目標(biāo)的提取、轉(zhuǎn)換、校驗(yàn)和導(dǎo)入。

      3 ?結(jié) ?論

      根據(jù)上文研究可得以下兩點(diǎn)結(jié)論:(1)數(shù)據(jù)治理為企業(yè)的生產(chǎn)經(jīng)營活動(dòng)提供助力,解決方案需要具有通用性和擴(kuò)展性來滿足日益增長的線上信息化需求;同時(shí)系統(tǒng)的設(shè)計(jì)也應(yīng)具有彈性,兼顧到生產(chǎn)經(jīng)營活動(dòng)的現(xiàn)狀,尤其是對線下數(shù)據(jù)治理的充分支持,從而讓數(shù)據(jù)治理工作在實(shí)施過程中可以從線下到線上循序推進(jìn)。(2)數(shù)據(jù)采集和數(shù)據(jù)集成的功能設(shè)計(jì)中應(yīng)區(qū)別數(shù)據(jù)源與目標(biāo),明確劃分各功能模塊,充分設(shè)計(jì)數(shù)據(jù)獲取、數(shù)據(jù)校驗(yàn)的各種方法,減少人工配置的工作量。

      參考文獻(xiàn):

      [1] 許可.2020數(shù)據(jù)治理的趨勢與大局 [J].互聯(lián)網(wǎng)經(jīng)濟(jì),2020(Z1):36-39.

      [2] 金勵(lì),周坤琳.數(shù)據(jù)共享的制度去障與司法應(yīng)對研究 [J].西南金融,2020(3):88-96.

      [3] 劉俊良.新時(shí)代數(shù)據(jù)中臺(tái)研究與設(shè)計(jì) [J].電子世界,2020(5):119.

      [4] 劉童桐.數(shù)據(jù)中臺(tái)建設(shè)中最重要的事 [J].通信企業(yè)管理,2019(7):25-27.

      [5] 趙佳鑫.淺談需求元數(shù)據(jù)管理 [J].中國金融電腦,2019(7):80-81.

      [6] 安暉.關(guān)于數(shù)據(jù)治理的思考和實(shí)踐 [J].軟件和集成電路,2019(8):68-69.

      作者簡介:梁光瑞(1987—),男,漢族,山東泰安人,信息技術(shù)工程師,研究方向:油氣田生產(chǎn)數(shù)字化。

      猜你喜歡
      數(shù)據(jù)交換數(shù)據(jù)治理數(shù)據(jù)采集
      基于本體的企業(yè)運(yùn)營數(shù)據(jù)治理
      云端數(shù)據(jù)治理初探
      XBRL在財(cái)務(wù)報(bào)表網(wǎng)絡(luò)數(shù)據(jù)交換中的應(yīng)用
      中職學(xué)校教學(xué)資源管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      鐵路客流時(shí)空分布研究綜述
      基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:52:53
      基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
      大數(shù)據(jù)治理模型與治理成熟度評估研究
      大數(shù)據(jù)時(shí)代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
      洱源县| 六盘水市| 石河子市| 枞阳县| 祁东县| 永善县| 枝江市| 宜都市| 鹤岗市| 军事| 许昌市| 金秀| 和硕县| 石阡县| 当涂县| 宁波市| 安多县| 小金县| 渑池县| 宁城县| 册亨县| 泰顺县| 广饶县| 德惠市| 枞阳县| 渭南市| 阿拉善左旗| 玉屏| 天峻县| 镇远县| 治多县| 阳朔县| 三亚市| 乐山市| 宜章县| 太仆寺旗| 东至县| 祥云县| 玉溪市| 腾冲县| 万宁市|