■ 文/ 公安部第一研究所 陳燦燦 韓鵬霄
基于公安標(biāo)準(zhǔn)數(shù)據(jù)元的數(shù)據(jù)比對(duì)算法簡(jiǎn)析
■ 文/ 公安部第一研究所 陳燦燦 韓鵬霄
依據(jù)《公安數(shù)據(jù)元》標(biāo)準(zhǔn)(GA/T 543-2011)及《公安數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)編寫要求》(GA/T 1053-2013),建立公安標(biāo)準(zhǔn)數(shù)據(jù)元比對(duì)基準(zhǔn)庫(kù)。在公安標(biāo)準(zhǔn)數(shù)據(jù)元比對(duì)基準(zhǔn)庫(kù)的基礎(chǔ)上,研究公安信息系統(tǒng)數(shù)據(jù)項(xiàng)的業(yè)務(wù)語(yǔ)義及表現(xiàn)形式,形成一套能夠描述信息系統(tǒng)數(shù)據(jù)項(xiàng)業(yè)務(wù)含義與表示形式的特征屬性集合,在此基礎(chǔ)上設(shè)計(jì)構(gòu)建基于標(biāo)準(zhǔn)公安數(shù)據(jù)元的比對(duì)系統(tǒng),提供對(duì)信息系統(tǒng)數(shù)據(jù)項(xiàng)與公安標(biāo)準(zhǔn)數(shù)據(jù)元的比對(duì)功能,為公安信息系統(tǒng)設(shè)計(jì)提供數(shù)據(jù)合規(guī)性比對(duì)服務(wù),為推進(jìn)公安數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量檢測(cè)、數(shù)據(jù)清洗、信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)統(tǒng)一規(guī)范提供服務(wù)與技術(shù)支撐。
公安 數(shù)據(jù)元 標(biāo)準(zhǔn) 比對(duì)
目前,公安信息化已進(jìn)入“大整合、高共享、深應(yīng)用”階段,迫切需要按照標(biāo)準(zhǔn)化的語(yǔ)言體系實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一規(guī)范描述,實(shí)現(xiàn)跨層級(jí)、跨部門、跨地區(qū)的信息共享,實(shí)現(xiàn)信息資源的高度共享和深度應(yīng)用,發(fā)揮公安信息資源的規(guī)模效應(yīng),為公安業(yè)務(wù)工作提供更好的技術(shù)支撐和信息服務(wù)。
本文立足于公安數(shù)據(jù)元標(biāo)準(zhǔn)和公安數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn),并基于前期公安信息資源目錄的工作基礎(chǔ),通過分析公安信息系統(tǒng)功能,梳理業(yè)務(wù)邏輯,對(duì)現(xiàn)有信息系統(tǒng)數(shù)據(jù)項(xiàng)進(jìn)行分析,研究一套(用于數(shù)據(jù)元比對(duì))能夠科學(xué)完整的描述數(shù)據(jù)項(xiàng)業(yè)務(wù)含義與表示形式的特征屬性集合,建立公安標(biāo)準(zhǔn)數(shù)據(jù)元庫(kù)。在標(biāo)準(zhǔn)數(shù)據(jù)元比對(duì)庫(kù)的基礎(chǔ)上,提供數(shù)據(jù)項(xiàng)比對(duì)工具,通過對(duì)信息系統(tǒng)數(shù)據(jù)項(xiàng)的語(yǔ)義分析,將公安信息系統(tǒng)現(xiàn)有數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)公安數(shù)據(jù)元進(jìn)行智能比對(duì)分析,得到現(xiàn)有數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)公安數(shù)據(jù)元的符合度評(píng)測(cè)指標(biāo)。通過數(shù)據(jù)項(xiàng)智能分析、比對(duì)及數(shù)據(jù)項(xiàng)統(tǒng)一注冊(cè)管理,實(shí)現(xiàn)對(duì)公安信息系統(tǒng)所包含數(shù)據(jù)項(xiàng)的自動(dòng)抽取、分析,為建立全國(guó)范圍的公安數(shù)據(jù)項(xiàng)注冊(cè)管理系統(tǒng)提供評(píng)測(cè)依據(jù)和技術(shù)支持,為信息系統(tǒng)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)化設(shè)計(jì)提供參考和依據(jù)。
2.1 國(guó)內(nèi)外現(xiàn)狀和技術(shù)發(fā)展趨勢(shì)
本文研究?jī)?nèi)容以公安數(shù)據(jù)元標(biāo)準(zhǔn)和公安數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)為基礎(chǔ),參照電子政務(wù)數(shù)據(jù)元標(biāo)準(zhǔn),在公安數(shù)據(jù)元、公安數(shù)據(jù)項(xiàng)及電子政務(wù)數(shù)據(jù)元構(gòu)建方法的基礎(chǔ)上開展數(shù)據(jù)項(xiàng)統(tǒng)一描述方法與組織方法研究,研發(fā)數(shù)據(jù)項(xiàng)智能比對(duì)分析工具,對(duì)數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)數(shù)據(jù)元進(jìn)行比對(duì)、測(cè)評(píng)與入庫(kù)管理,推進(jìn)公安數(shù)據(jù)元及公安數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)的應(yīng)用,為各級(jí)公安機(jī)關(guān)提供服務(wù)和支撐。
(1)公安數(shù)據(jù)元及公安數(shù)據(jù)項(xiàng)建設(shè)
公安數(shù)據(jù)元以數(shù)據(jù)建模法描述數(shù)據(jù)項(xiàng)及其屬性,提供公共詞匯,用于信息交換和共享,同時(shí)支持公安各部門之間、公安和政府企業(yè)等相關(guān)部門之間的綜合業(yè)務(wù),減少數(shù)據(jù)重復(fù)和數(shù)據(jù)采集,從而最大限度的降低數(shù)據(jù)處理和存儲(chǔ)的費(fèi)用,并改善數(shù)據(jù)的完整性。
數(shù)據(jù)元的表示規(guī)范是通過對(duì)其一系列屬性的描述來(lái)實(shí)現(xiàn)的。這些屬性實(shí)際上是數(shù)據(jù)元的元數(shù)據(jù)。(GA/T 542-2011)
數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)編寫要求規(guī)定公安數(shù)據(jù)項(xiàng)有兩種表示方式:用數(shù)據(jù)元表示,用公安數(shù)據(jù)元限定詞與數(shù)據(jù)元共同表示。公安數(shù)據(jù)元限定詞是對(duì)數(shù)據(jù)項(xiàng)中同一概念的提煉,公安數(shù)據(jù)元限定詞的確定應(yīng)遵循精簡(jiǎn)數(shù)據(jù)元、規(guī)范數(shù)據(jù)項(xiàng)的原則。(GA/T 1053-2013)
(2)電子政務(wù)數(shù)據(jù)元建設(shè)
電子政務(wù)數(shù)據(jù)元是指政務(wù)活動(dòng)過程中設(shè)計(jì)的所有數(shù)據(jù)單元。電子政務(wù)數(shù)據(jù)元是屬于政府業(yè)務(wù)這一特定領(lǐng)域的數(shù)據(jù)元。它的概念和結(jié)構(gòu)遵循一般數(shù)據(jù)元的概念和結(jié)構(gòu),是通用數(shù)據(jù)元的一個(gè)子集,并具有自身的特點(diǎn)。
電子政務(wù)數(shù)據(jù)元由三部分組成:
a)對(duì)象類:思想、概念或真實(shí)世界中的事物的集合,它們具有清晰的邊界和含義,其特征和行為遵循同樣的規(guī)則。
b)特性:對(duì)象類中的所有成員共同具有的一個(gè)有別于其他的、顯著的特征。
c)表示:它描述了數(shù)據(jù)被表達(dá)的方式。
對(duì)象類是人們希望研究、搜集和存儲(chǔ)它們的相關(guān)數(shù)據(jù)的事物,比如汽車、人、房屋、訂單等。特性是人們用來(lái)區(qū)分和描述對(duì)象的一種手段。特性的例子包括顏色、性別、年齡收入、地址等等。表示與數(shù)據(jù)元的值域關(guān)系密切。一個(gè)數(shù)據(jù)元的值域指數(shù)據(jù)元的所有允許值的集合。例如,對(duì)于“個(gè)人所得稅金額”這個(gè)數(shù)據(jù)元,它的值域可能是一系列非負(fù)整數(shù)(帶有貨幣單位),這是一種非枚舉型的值域。而“個(gè)人所得稅比率”對(duì)收入進(jìn)行分段劃分,并給每一段賦予一個(gè)比率,它的值域就是這些比率的集合。此時(shí)稱它的值域?yàn)槊杜e型值域。(GB/T 19488-2004)
2.2 公安業(yè)務(wù)應(yīng)用前景
公安部統(tǒng)一組織開展公安數(shù)據(jù)元注冊(cè)管理平臺(tái)的建設(shè)工作,基于標(biāo)準(zhǔn)數(shù)據(jù)元的數(shù)據(jù)比對(duì)系統(tǒng)作為公安數(shù)據(jù)元注冊(cè)管理平臺(tái)的關(guān)鍵支撐系統(tǒng)與工具,是構(gòu)建全國(guó)范圍的基于標(biāo)準(zhǔn)數(shù)據(jù)元的數(shù)據(jù)項(xiàng)注冊(cè)管理系統(tǒng)的重要組成部分,將得到各級(jí)公安部門的有力推動(dòng)。
以貴州、浙江、新疆、江蘇為代表的省、自治區(qū)公安廳正在或即將在全省、區(qū)范圍內(nèi)進(jìn)行公安信息資源梳理整合共享工作。數(shù)據(jù)項(xiàng)的標(biāo)準(zhǔn)化工作是信息資源整合共享的前提和基礎(chǔ)?;跇?biāo)準(zhǔn)數(shù)據(jù)元的比對(duì)系統(tǒng)為數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)化及數(shù)據(jù)清洗工作提供服務(wù)和技術(shù)支持,符合地方公安機(jī)關(guān)迫切的業(yè)務(wù)需求。
地市公安局和派出所民警面臨的信息重復(fù)采集和多頭錄入問題是當(dāng)前各警種和各級(jí)公安機(jī)關(guān)迫切需要解決的問題?;跇?biāo)準(zhǔn)數(shù)據(jù)元的比對(duì)系統(tǒng)為實(shí)現(xiàn)基礎(chǔ)信息標(biāo)準(zhǔn)化錄入和統(tǒng)一關(guān)聯(lián)提供服務(wù)和技術(shù)支持,是從標(biāo)準(zhǔn)化的角度解決重復(fù)采集和多頭錄入的重要支撐。
公安信息化頂層設(shè)計(jì)要求公安信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)項(xiàng)規(guī)劃設(shè)計(jì)遵循統(tǒng)一規(guī)范的標(biāo)準(zhǔn)。基于標(biāo)準(zhǔn)數(shù)據(jù)元的比對(duì)系統(tǒng)能夠提供符合公安數(shù)據(jù)元和數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)的數(shù)據(jù)項(xiàng)智能比對(duì)服務(wù)及設(shè)計(jì)規(guī)范參考,是實(shí)現(xiàn)公安信息資源科學(xué)規(guī)劃和高效利用的有力支持,符合公安機(jī)關(guān)信息化規(guī)劃建設(shè)的迫切需求。
3.1 數(shù)據(jù)研究
(1)數(shù)據(jù)元分詞
將數(shù)據(jù)元及其描述切分為業(yè)務(wù)關(guān)鍵詞(語(yǔ)素或中心詞)。將一個(gè)復(fù)雜數(shù)據(jù)元所包含的所有業(yè)務(wù)語(yǔ)義用中心詞的形式表示出來(lái)。中心詞考慮現(xiàn)有信息系統(tǒng)數(shù)據(jù)庫(kù)及軟件設(shè)計(jì)習(xí)慣,不怕重復(fù),要全面涵蓋能夠想到的近似表述。
例如:被監(jiān)管人員臨時(shí)出公安監(jiān)所原因代碼
切分為:被監(jiān)管人 被監(jiān)管人員 監(jiān)管 臨時(shí) 出公安監(jiān)所出監(jiān)所 監(jiān)所 原因 代碼
(2)已有語(yǔ)料近義詞表
研究現(xiàn)有資源調(diào)查所獲得的數(shù)據(jù)項(xiàng),尋找數(shù)據(jù)元分詞所得到的每個(gè)關(guān)鍵詞的同意表現(xiàn)形式,構(gòu)建基本近義詞表。
3.2 比對(duì)算法研究
數(shù)據(jù)項(xiàng)比對(duì)算法流程見圖1。
3.2.1 分詞算法
基于ansj_seg的分詞算法:
(1)基本分詞:最基本的分詞,詞語(yǔ)顆粒度最非常小,涉及到的詞大約是10萬(wàn)左右。
List〈Term> parse = BaseAnalysis.parse("讓戰(zhàn)士們過一個(gè)歡樂祥和的新春佳節(jié)。");
System.out.println(parse);
result:[讓/v, 戰(zhàn)士/n, 們/k, 過/ug, 一個(gè)/m, 歡樂/a,祥和/a, 的/uj, 新春/t, 佳節(jié)/n, 。/w]
(2)精準(zhǔn)分詞:在基準(zhǔn)分詞的基礎(chǔ)上增加用戶自定義詞典、數(shù)字識(shí)別功能。
(3)NLP分詞:在精準(zhǔn)分詞的基礎(chǔ)上,增加未登錄詞識(shí)別、語(yǔ)法實(shí)體名抽取等功能。
List〈Term> parse = NlpAnalysis.parse("潔面儀配合潔面深層清潔毛孔 清潔鼻孔面膜碎覺使勁擠才能出一點(diǎn)點(diǎn)皺紋 臉頰毛孔修復(fù)的看不見啦 草莓鼻歷史遺留問題沒轍 臉和脖子差不多顏色的皮膚才是健康的 長(zhǎng)期使用安全健康的比同齡人顯小五到十歲 28歲的妹子看看你們的魚尾紋");
System.out.println(parse);
result:[潔面儀/nw, 配合/v, 潔面/nw, 深層/b, 清潔/a,毛孔/n, , 清潔/a, 鼻孔/n, 面膜/n, 碎覺/nw, 使勁/v, 擠/ v, 才/d, 能/v, 出/v, 一點(diǎn)點(diǎn)/m, 皺紋/n, , 臉頰/n, 毛孔/ n, 修復(fù)/v, 的/uj, 看不見/v, 啦/y, , 草莓/n, 鼻/ng, 歷史/ n, 遺留問題/nz, 沒轍/v, , 臉/n, 和/c, 脖子/n, 差不多/l,顏色/n, 的/uj, 皮膚/n, 才/d, 是/v, 健康/a, 的/uj, , 長(zhǎng)期/ d, 使用/v, 安全/an, 健康/a, 的/uj, 比/p, 同齡人/n, 顯/v,小/a, 五/m, 到/v, 十歲/m, , 28歲/m, 的/uj, 妹子/n, 看看/v, 你們/r, 的/uj, 魚尾紋/n]
(4)索引分詞:
List〈Term> parse = IndexAnalysis.parse("主副食品");
System.out.println(parse);
result:[主副食品/n, 主副食, 副食, 副食品, 食品]
3.2.2 Tonimoto系數(shù)
該系數(shù)是夾角余弦距離算法的改進(jìn)。待比對(duì)數(shù)據(jù)項(xiàng)經(jīng)過分詞算法,拆分成單個(gè)語(yǔ)素并向量化后,與基準(zhǔn)庫(kù)進(jìn)行相似度計(jì)算。該系數(shù)越小,相似度越高,在0~1之間取值,計(jì)算公式見下式:
本文中數(shù)據(jù)元比對(duì)算法是公安數(shù)據(jù)元管理工作中的關(guān)鍵支撐技術(shù),是構(gòu)建全國(guó)范圍的基于標(biāo)準(zhǔn)數(shù)據(jù)元的數(shù)據(jù)項(xiàng)注冊(cè)管理系統(tǒng)的重要組成部分。為數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)化及數(shù)據(jù)清洗工作提供服務(wù)和技術(shù)支持,是省、自治區(qū)公安機(jī)關(guān)信息資源整合共享的前提和基礎(chǔ),符合其迫切的業(yè)務(wù)需求。為實(shí)現(xiàn)基礎(chǔ)信息標(biāo)準(zhǔn)化錄入和統(tǒng)一關(guān)聯(lián)提供服務(wù)和技術(shù)支持,是從標(biāo)準(zhǔn)化的角度解決地市公安局和派出所民警面臨的信息重復(fù)采集和多頭錄入問題的重要支撐。通過和地方公安機(jī)關(guān)的合作,參與各地信息化建設(shè),為各地資源整合服務(wù)平臺(tái)提供服務(wù)與技術(shù)支撐,能夠提供符合公安數(shù)據(jù)元和數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)的數(shù)據(jù)項(xiàng)智能比對(duì)服務(wù)及設(shè)計(jì)規(guī)范參考,是實(shí)現(xiàn)公安信息化頂層設(shè)計(jì)要求的有力支持。