• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)用語智能分詞技術(shù)的數(shù)據(jù)關(guān)聯(lián)方法

      2018-12-12 19:31張新陽張梅馬文程永新
      科技傳播 2018年22期
      關(guān)鍵詞:數(shù)據(jù)治理

      張新陽 張梅 馬文 程永新

      摘 要 當前數(shù)據(jù)資產(chǎn)梳理以及數(shù)據(jù)標準建立過程中,對其中所遇到的數(shù)據(jù)命名不統(tǒng)一、中文語義復雜、難以建立數(shù)據(jù)關(guān)聯(lián)等難點問題進行分析,提出了一套基于中文智能分詞及大數(shù)據(jù)字符串分析技術(shù)的數(shù)據(jù)用語標準建立方法以及建立數(shù)據(jù)關(guān)聯(lián)的方法。通過將該方法應用的數(shù)據(jù)資產(chǎn)管理項目中,實現(xiàn)了對某企業(yè)45套業(yè)務系統(tǒng),10萬多張表、70余萬數(shù)據(jù)字段以及數(shù)百個業(yè)務接口的全自動梳理,建立了跨業(yè)務系統(tǒng)的數(shù)據(jù)標準體系和數(shù)據(jù)關(guān)聯(lián)地圖,為企業(yè)的數(shù)據(jù)資產(chǎn)進一步分析、挖掘、變現(xiàn)提供了有利支撐。

      關(guān)鍵詞 數(shù)據(jù)治理;數(shù)據(jù)關(guān)聯(lián);智能分詞;數(shù)據(jù)標準

      中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2018)223-0121-03

      隨著IT技術(shù)的發(fā)展,未來10年內(nèi),數(shù)據(jù)將成為一個重要的財富創(chuàng)造來源,并且將越來越多地被視為一項值得重視的企業(yè)資產(chǎn),數(shù)據(jù)資產(chǎn)日益成為企業(yè)的重要利潤潛力增長點。為此,各企業(yè)急需梳理沉淀十數(shù)年以來各業(yè)務系統(tǒng)的數(shù)據(jù),希望從中整理出屬于數(shù)據(jù)資產(chǎn)的有價值數(shù)據(jù),并面向數(shù)據(jù)應用建立起相應的數(shù)據(jù)模型,為大數(shù)據(jù)平臺的數(shù)據(jù)分析和數(shù)據(jù)挖掘提供支撐服務,麥肯錫認為“大數(shù)據(jù)是指其大小超出典型數(shù)據(jù)軟件抓取、儲存、管理和分析范圍的數(shù)據(jù)集合”。在創(chuàng)建和應用大數(shù)據(jù)的這個過程中,以下這些問題尤為凸顯,成為數(shù)據(jù)資產(chǎn)梳理的難點。

      1)企業(yè)內(nèi)各業(yè)務平臺系統(tǒng)建設(shè)跨越時間長,系統(tǒng)復雜,且由多個項目實施建成。IT系統(tǒng)的建設(shè)目標以實現(xiàn)業(yè)務需求為首要目標,未考慮后期的數(shù)據(jù)集成需要。因此各業(yè)務平臺系統(tǒng)中存在對同一個業(yè)務術(shù)語的不同定義形式,造成跨系統(tǒng)的數(shù)據(jù)難以建立關(guān)聯(lián),甚至同一業(yè)務系統(tǒng)中都存在對相同業(yè)務術(shù)語的不同定義。

      2)雖然企業(yè)已經(jīng)開始對數(shù)據(jù)標準體系做建設(shè),但是針對既有業(yè)務系統(tǒng),出于經(jīng)濟考慮,不可能做大面積的重構(gòu)處理,只能對新上線系統(tǒng)做規(guī)范化要求。而大量的對企業(yè)有重要價值的數(shù)據(jù)資產(chǎn)是沉淀在原有業(yè)務系統(tǒng)中的,如何將數(shù)據(jù)標準與現(xiàn)有系統(tǒng)中的數(shù)據(jù)做關(guān)聯(lián)成為一個難點問題。

      3)中文語言的博大精深,一方面豐富了人們的語言表達,但也因此存在大量的近似用語。不同環(huán)境背景下的語言和組詞均有差異,這也是造成制訂數(shù)據(jù)標準困難的主要原因,難以形成一套適應所有環(huán)境的統(tǒng)一數(shù)據(jù)標準體系。

      以上問題在建立企業(yè)內(nèi)部或跨行業(yè)的數(shù)據(jù)標準體系并盤活現(xiàn)有企業(yè)數(shù)據(jù)資產(chǎn)時成為數(shù)據(jù)管理者所面臨的難點,如何建立不同業(yè)務系統(tǒng),甚至不同行業(yè)之間的數(shù)據(jù)標準體系,并將數(shù)據(jù)標準應用到既有系統(tǒng),成為建立跨系統(tǒng)的數(shù)據(jù)集成平臺所需跨越的鴻溝。

      1 正文

      本文基于中文的智能分詞技術(shù),論述一種基于數(shù)據(jù)標準用語智能分詞的跨系統(tǒng)數(shù)據(jù)關(guān)聯(lián)梳理方法,并說明應用此方法的梳理展現(xiàn)效果。

      1.1 梳理數(shù)據(jù)用語字典

      數(shù)據(jù)梳理的第一步是建立起企業(yè)內(nèi)或行業(yè)內(nèi)業(yè)務術(shù)語的數(shù)據(jù)用語字典。數(shù)據(jù)用語字典包括數(shù)據(jù)庫中的表名用語、字段名用語、系統(tǒng)的接口用語、報表中的指標用語等。用語的來源可以是系統(tǒng)建設(shè)時的需求規(guī)范、設(shè)計規(guī)范、接口規(guī)范等文檔,也可以從現(xiàn)有系統(tǒng)的表結(jié)構(gòu)逆向采集獲取。用語字典的形式可以用如下形式體現(xiàn),如圖1。

      用語物理名是用語在數(shù)據(jù)庫字段或數(shù)據(jù)庫表命名時的體現(xiàn),而用語邏輯名是具備某個特定業(yè)務術(shù)語描述的中文體現(xiàn)。

      這個數(shù)據(jù)用語字典,將是我們要作為跨系統(tǒng)數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)基礎(chǔ)。

      1.2 建立數(shù)據(jù)用語單詞庫

      對于已建立的數(shù)據(jù)用語字典,其用語的定義是面向某個具體的業(yè)務術(shù)語的描述,其中包含了一個或多個中文詞語。

      通過智能分詞技術(shù),可以實現(xiàn)將用語自動拆分為多個詞語的組合。例如“年收入額”可以拆分為“年”和“收入”“額”三個有具體涵義的字或詞語,拆解出的詞語或字,可以命名為詞素或單詞。

      收集整理拆分出的單詞或詞素,可以得到一個涵蓋行業(yè)或者企業(yè)所有業(yè)務系統(tǒng)的用語單詞庫。其展現(xiàn)形式如圖3。

      單詞物理名為一個詞語在業(yè)務系統(tǒng)中使用時的名稱,用語數(shù)據(jù)庫表、字段、接口、接口屬性、口徑等定義使用。單詞邏輯名作為一個詞語的中文名稱,用語面向用戶的可視化涵義展現(xiàn),單詞全稱作為中文名稱的英文全名備注。

      1.3 建立單詞同義詞庫

      建立上述步驟的用語單詞庫后,分析發(fā)現(xiàn)對于每個詞語在語言使用都可以存在多個同義詞或近義詞,又或者同一個單詞的邏輯名存在多個不同的單詞物理名的情況。在不同的業(yè)務系統(tǒng)中,由于系統(tǒng)設(shè)計開發(fā)人員的習慣不同,造成其使用的名稱不一致。例如“額”這一業(yè)務術(shù)語,在某些業(yè)務系統(tǒng)中可能會命名為“金額”,“管理員”這一詞語,在另一系統(tǒng)中也可能定義為“管理者”,而同一個單詞“區(qū)域”,有些系統(tǒng)會命名其物理名為“AREA”,而另一些系統(tǒng)可能會命名為“ZONE”或“REGION”。這些都會造成不同的系統(tǒng)的使用人員或數(shù)據(jù)分析人員在數(shù)據(jù)集成時數(shù)據(jù)無法直接建立關(guān)聯(lián)。

      實現(xiàn)不同系統(tǒng)之間能對具有同樣含義的詞語建立起關(guān)聯(lián),需要將每個詞語可能存在的同義詞或近義詞進行整理。這一步驟可以借助于行業(yè)專業(yè)詞典以及同義詞典等工具書籍的電子版本,通過大數(shù)據(jù)分析技術(shù)獲取單詞庫中各單詞的同義詞列表。如圖4的物理名同義詞列表。

      1.4 推舉數(shù)據(jù)標準單詞

      當一個業(yè)務在各業(yè)務系統(tǒng)中或行業(yè)中有規(guī)范做數(shù)據(jù)標準定義時,可以將行業(yè)規(guī)范作為數(shù)據(jù)標準的來源。但目前有很多行業(yè)或企業(yè)并無統(tǒng)一規(guī)范的數(shù)據(jù)標準定義,而各業(yè)務系統(tǒng)也在各自的專屬功能領(lǐng)域運行上10年之久,如何形成一套符合絕大多數(shù)人習慣的標準術(shù)語描述則成為一大難點。

      基于前面所述的數(shù)據(jù)用語單詞庫以及單詞同義詞庫,可以建立起在用語單詞中的同義詞關(guān)聯(lián)關(guān)系。當一個單詞具有多各同義詞時,通過檢索這個單詞及同義詞在所有業(yè)務系統(tǒng)中的用語使用次數(shù),獲取應用得最多的一個詞語,并將此詞語作為暫定數(shù)據(jù)標準單詞,而具有同義詞含義的其他單詞則作為此數(shù)據(jù)標準單詞的同義詞。

      1.5 建立數(shù)據(jù)標準用語檔案庫

      數(shù)據(jù)標準單詞確定后,可以將前面梳理出的系統(tǒng)中使用的用語字典做標準化處理。將用語智能分詞為單詞,對每個單詞獲取其標準化單詞后,重新組裝為符合數(shù)據(jù)標準定義的用語,其過程如圖6所示。

      1.6 建立數(shù)據(jù)關(guān)聯(lián)

      通過建立數(shù)據(jù)標準用語檔案庫,也可以得到每個用語與數(shù)據(jù)標準用語之間的對應關(guān)系。當存在多個系統(tǒng)中的不同用語對應同一個數(shù)據(jù)標準用語時,可以認定這兩個用語不管是不是在同一個業(yè)務系統(tǒng)中,其數(shù)據(jù)應具備相關(guān)性,具備數(shù)據(jù)關(guān)聯(lián)分析及進一步關(guān)聯(lián)數(shù)據(jù)挖掘使用的價值。

      2 結(jié)論

      隨著電力業(yè)務集約化、精益化、標準化的要求越來越高和信息化支撐能力的不斷提升,數(shù)據(jù)治理已成為電力企業(yè)信息系統(tǒng)集中建設(shè)(一級部署)、大數(shù)據(jù)應用、智能分析決策應用的重要基石。企業(yè)在進行跨業(yè)務系統(tǒng)數(shù)據(jù)梳理時,面對大量沉淀數(shù)據(jù)往往不知如何下手,各數(shù)據(jù)的命名規(guī)范性問題作為長期影響企業(yè)進一步挖掘數(shù)據(jù)價值的攔路虎存在,本文應用當前已經(jīng)成熟的大數(shù)據(jù)字符串處理技術(shù)以及中文智能分詞技術(shù),將系統(tǒng)中原本需要靠繁重的人工識別的數(shù)據(jù)關(guān)聯(lián),賦予系統(tǒng)自動化處理的能力,能夠大幅提升數(shù)據(jù)資產(chǎn)梳理的效率,減少人工成本,為挖掘各業(yè)務系統(tǒng)中的健在數(shù)據(jù)資產(chǎn)價值提供有力的幫助。

      參考文獻

      [1]張志剛,楊棟樞,吳紅霞.數(shù)據(jù)資產(chǎn)價值評估模型研究與應用[J].現(xiàn)在電子技術(shù),2015,38(20):44-51.

      [2]Gartner.Top ten strategic technology trend for 2012[EB/OL].[2011-11-05].http://www.gartner.com.

      [3]巨克真,魏珍珍.電力企業(yè)級數(shù)據(jù)治理體系的研究[J].電力信息與通信技術(shù),2014,12(1):7-11.

      [4]成于,思施云濤.面向?qū)I(yè)領(lǐng)域的中文分詞方法[J].計算機工程與應用,2018,54(17):30-34,109.

      [5]張生,杰霍丹.基于語義信息的中文分詞研究[J].電腦知識與技術(shù),2018,14(22):184-186.

      猜你喜歡
      數(shù)據(jù)治理
      云端數(shù)據(jù)治理定義解析
      智慧服務型數(shù)字化校園建設(shè)參考實現(xiàn)框架
      營配貫通臺區(qū)線損異常數(shù)據(jù)治理分析
      高校信息化數(shù)據(jù)治理探討
      智慧城市建設(shè)項目風險挑戰(zhàn)與解決經(jīng)驗
      高校數(shù)據(jù)融合路徑及其治理框架的探討
      基于本體的企業(yè)運營數(shù)據(jù)治理
      云端數(shù)據(jù)治理初探
      大數(shù)據(jù)治理模型與治理成熟度評估研究
      大數(shù)據(jù)時代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
      大丰市| 丰镇市| 武夷山市| 江达县| 馆陶县| 宿州市| 宁远县| 新密市| 东城区| 无锡市| 永昌县| 广德县| 电白县| 措美县| 墨竹工卡县| 全州县| 玉溪市| 松阳县| 沙湾县| 新河县| 怀来县| 思南县| 柘荣县| 上栗县| 衡水市| 石河子市| 科技| 刚察县| 余庆县| 罗平县| 怀化市| 恩施市| 玉田县| 弥渡县| 年辖:市辖区| 沁水县| 德令哈市| 双鸭山市| 葫芦岛市| 类乌齐县| 罗平县|