王敏
南京市公共信用基礎(chǔ)數(shù)據(jù)庫的數(shù)據(jù)來源于56個市級部門和轄區(qū)的七日雙公示數(shù)據(jù),包括江蘇省公共信用信息中心交換的數(shù)據(jù),人社局、衛(wèi)生局、國地稅等部門向信用信息中心直接報(bào)送的數(shù)據(jù),以及南京市資源交換平臺歸集的法人、自然人基本信息和信用相關(guān)信息數(shù)據(jù)。
其中,雙公示數(shù)據(jù)目前共有4張表19萬條,省信用信息交換數(shù)據(jù)共有72張表479萬條,人社局15年下半年和16年上半年分2次共交換了7張表1900萬條數(shù)據(jù),衛(wèi)生局報(bào)送了5個月3.8萬獻(xiàn)血記錄信息,國地稅報(bào)送了92.9萬企業(yè)納稅登記變更和注銷信息以及4萬A級納稅企業(yè)信息。各信息提供單位按照國家發(fā)改委《關(guān)于依托“信用中國”網(wǎng)站試點(diǎn)開展行政許可與行政處罰信用信息公開公示工作的通知》(發(fā)改電【2015】481號)的要求向南京市公共信用信息中心持續(xù)報(bào)送七日雙公開數(shù)據(jù)。南京市公共信用信息中心按照省信用辦《關(guān)于切實(shí)做好2016年各省轄市向省級系統(tǒng)報(bào)送社會法人信用信息的通知》(蘇信用辦〔2016〕32號)的要求向各信息提供單位收集;同時,為了加強(qiáng)基礎(chǔ)性工作,還對市級各部門和轄區(qū)進(jìn)行了數(shù)據(jù)、行為和應(yīng)用三個清單的征集和匯編。
這些信息客觀地反映了企業(yè)在生成經(jīng)營過程中的歷史和現(xiàn)狀,為各部門聯(lián)動開展信用相關(guān)應(yīng)用提供了數(shù)據(jù)基礎(chǔ);為第三方信用機(jī)構(gòu)出具信用評級報(bào)告提供了依據(jù);為大量中小微企業(yè)和農(nóng)戶申請項(xiàng)目資金提供了便利。
復(fù)雜多變的信用數(shù)據(jù)讓平臺的推廣應(yīng)用難度頗大
南京市公共信用基礎(chǔ)數(shù)據(jù)庫已經(jīng)建設(shè)了4年時間,但是系統(tǒng)維護(hù)情況不甚理想。大量的信用相關(guān)數(shù)據(jù),并沒有更新到基礎(chǔ)數(shù)據(jù)庫中,在信用信息平臺上推廣應(yīng)用難度很大。目前很多信用數(shù)據(jù)都是脫離信用基礎(chǔ)數(shù)據(jù)庫獨(dú)立存在的。歸結(jié)起來,主要有以下幾個方面問題:
信用數(shù)據(jù)歸集規(guī)范復(fù)雜多變,讓各信用信息提供單位無所適從
國家發(fā)改委《關(guān)于依托“信用中國”網(wǎng)站試點(diǎn)開展行政許可與行政處罰信用信息公開公示工作的通知》(發(fā)改電【2015】481號)制定了自然人和法人,許可和處罰共四張數(shù)據(jù)表項(xiàng),要求各信用歸集單位按照七日雙公示的時效報(bào)送公共信用信息,統(tǒng)一了報(bào)送數(shù)據(jù)格式,持續(xù)收集到了更多的數(shù)據(jù)。但是,因?yàn)楣残庞眯畔⑸婕懊鎻V,涉及部門多,部門間業(yè)務(wù)千差萬別,所以每年讓部門報(bào)送新的公共信用信息歸集目錄是一項(xiàng)繁重而低效的工作。其中,因?yàn)闃?biāo)準(zhǔn)制定過于簡單,各信用信息提供單位報(bào)送時存在以下五方面問題:
為了滿足報(bào)送格式要求,各報(bào)送單位把某些字段生搬硬套到簡單的表格內(nèi),刪除了許多自身業(yè)務(wù)相關(guān)的特色數(shù)據(jù);
為了滿足數(shù)據(jù)量的考核要求,各報(bào)送單位把大量企業(yè)基本信息和個人基本信息作為許可信息進(jìn)行報(bào)送;
各報(bào)送部門信息化程度不一,報(bào)送數(shù)據(jù)質(zhì)量問題嚴(yán)重依賴于部門內(nèi)部重視程度;
公共信用和部門業(yè)務(wù)關(guān)注的側(cè)重點(diǎn)不同,某些規(guī)定字段除非對原有業(yè)務(wù)系統(tǒng)徹底改造才能從源頭上解決數(shù)據(jù)質(zhì)量問題;
國家和省級數(shù)據(jù)規(guī)范格式本身也在不斷的修訂中。
信用數(shù)據(jù)歸集方式缺乏有效的管理,收集的可利用和有效數(shù)據(jù)比例不高
在信用數(shù)據(jù)歸集過程中,一般都規(guī)定了四種歸集方式,但在實(shí)際操作中分別存在以下四方面問題:
基于前置數(shù)據(jù)庫的對接,存在業(yè)務(wù)數(shù)據(jù)單方結(jié)構(gòu)變動造成接口失效缺失數(shù)據(jù),數(shù)據(jù)報(bào)送一次以后很難主動持續(xù)報(bào)送,報(bào)送單位外包商或者接口變動造成報(bào)送過程無人維護(hù)等問題;
平臺直接上傳時,存在由于數(shù)據(jù)格式出現(xiàn)問題無法上傳,時效得不到保證,需要反復(fù)培訓(xùn)等問題;
基于數(shù)據(jù)接口按需讀取時,要求報(bào)送單位信息化水平比較高,雙方開發(fā)對接會產(chǎn)生新的工作量,加上數(shù)據(jù)按需獲取落地有政策性的時效規(guī)定等諸多原因,存在一些限制;
文件方式報(bào)送方面,隨意性太強(qiáng),報(bào)送的數(shù)據(jù)量和數(shù)據(jù)質(zhì)量得不到保障,造成無法入庫。一方面,整理工作量大,很多問題需要返回業(yè)務(wù)處室重新處理;另一方面,相當(dāng)多應(yīng)付考核的數(shù)據(jù),沒有實(shí)用價值。
公共信用信息歸集平臺架構(gòu)本身并不適應(yīng)實(shí)際情況需要
原先的南京市企業(yè)公共信用基礎(chǔ)數(shù)據(jù)庫部署在政務(wù)內(nèi)網(wǎng),是一個基于RDBMS的通用數(shù)據(jù)歸集平臺產(chǎn)品的定制化工具,存在四個方面的問題:
線性和非線性依賴很強(qiáng)。系統(tǒng)的靈活性差,實(shí)現(xiàn)特定需求困難,外包單位基于商業(yè)利益故意夸大二次開發(fā)難度;
很難通過改造滿足快速變化的需求。公共信用體系建設(shè)是一項(xiàng)全新的任務(wù),許多制度和規(guī)范都在實(shí)踐中不斷的完善。一方面,數(shù)據(jù)結(jié)構(gòu)和展現(xiàn)形式的變化頻繁;另一方面,信息間的關(guān)聯(lián)關(guān)系也隨著應(yīng)用展開變得越來越復(fù)雜;
底層實(shí)現(xiàn)缺乏隱私保護(hù),數(shù)據(jù)版本管理等重要功能,可用性和可靠性差;
前端和交換部分?jǐn)?shù)據(jù)字典和數(shù)據(jù)校驗(yàn)功能薄弱。
三大措施完善公共信用信息歸集平臺
線上對信用目錄和清單動態(tài)管理
目前信用數(shù)據(jù)歸集目錄清單歸集方式為一年一報(bào),匯集歸檔打印成冊,工作量大,可靠性和可用性不高。數(shù)據(jù)目錄,需要重視目錄結(jié)構(gòu)的本身。各層級每個階段的信用信息目錄,作為目錄清單的一個版本,需要有效保存,并且通過版本樹管理起來。鼓勵各報(bào)送單位業(yè)務(wù)部門自行在不同版本數(shù)據(jù)項(xiàng)間尋找對應(yīng)關(guān)系并提供給信用信息中心。
數(shù)據(jù)目錄和數(shù)據(jù)項(xiàng)設(shè)計(jì)需要統(tǒng)籌考慮到具體實(shí)施難度和信息內(nèi)容的準(zhǔn)確性與規(guī)范性。規(guī)定過細(xì),符合要求的數(shù)據(jù)太少,操作過于復(fù)雜,對歸集人員培訓(xùn)難度大;規(guī)定過粗,符合要求的數(shù)據(jù)量又太低。
通過線上目錄清單動態(tài)管理,可以解決目前國家和江蘇省信用數(shù)據(jù)歸集規(guī)范不斷變化的需求,并且把這項(xiàng)工作變成常態(tài)化工作。
規(guī)范數(shù)據(jù)歸集行為
關(guān)注重點(diǎn)對象數(shù)據(jù)。公共信用信息基礎(chǔ)數(shù)據(jù)庫必須有重點(diǎn)關(guān)注對象。有些數(shù)據(jù)是開展信用應(yīng)用的關(guān)鍵數(shù)據(jù),需要單獨(dú)管理。在歸集源頭,可以要求各歸集部門提出自己的需求和重點(diǎn)關(guān)注對象名單,或者在實(shí)際應(yīng)用中收集此類數(shù)據(jù),單獨(dú)管理,重點(diǎn)跟蹤。如每年部門各項(xiàng)申請資金要求出具的信用審查對象,各部門提供的紅黑名單和有信用評級的對象。
簡化接口對接。系統(tǒng)預(yù)置服務(wù)接口、查詢接口、內(nèi)容接口對接實(shí)現(xiàn),使接口對接變成輕量型業(yè)務(wù),減輕信息歸集單位的工作負(fù)擔(dān)。
提供數(shù)據(jù)檢查工具。信息歸集中,不可避免的會出現(xiàn)錯誤,缺失關(guān)鍵信息,如姓名、身份證號、企業(yè)名稱、社會統(tǒng)一代碼等。系統(tǒng)提供錄入提示工具、預(yù)處理檢查工具和數(shù)據(jù)驗(yàn)證工具幫助數(shù)據(jù)歸集單位從源頭完成輸入校驗(yàn)、批量信息校驗(yàn)和數(shù)據(jù)回歸分析。同時,對各種輸入錯誤和輸入偏好,按頻率做聚類分析,持續(xù)提升信息歸集源頭的數(shù)據(jù)質(zhì)量。
涉密隱私數(shù)據(jù)歸集和數(shù)據(jù)脫敏。公共信用信息系統(tǒng)實(shí)現(xiàn)對涉密隱私數(shù)據(jù)加密。如需要訪問統(tǒng)計(jì)信息,經(jīng)過部門授權(quán)可以離線生成后上線,或者直接由部門生成脫敏數(shù)據(jù)。歸集部門內(nèi)部,需要有原生數(shù)據(jù)到原生信用數(shù)據(jù)再到可交換信用數(shù)據(jù)的2層過濾。目的是解決歸集有用信息和有用信息的脫敏形成可歸集信息??蓺w集信息到適配接口間,存在數(shù)據(jù)版本的適配,以滿足不同層次的歸集需要。最后,進(jìn)入到公共信用基礎(chǔ)數(shù)據(jù)庫。
創(chuàng)新數(shù)據(jù)歸集平臺底層設(shè)計(jì)與模塊設(shè)計(jì)
采用文檔數(shù)據(jù)庫作為公共信用信息基礎(chǔ)數(shù)據(jù)庫的實(shí)體實(shí)現(xiàn)。公共信用信息天然的基于文檔結(jié)構(gòu),完全可以用文檔數(shù)據(jù)庫取代關(guān)系數(shù)據(jù)庫來存取信用基礎(chǔ)數(shù)據(jù)庫。為了保持關(guān)聯(lián)關(guān)系的完整性,從信息歸集源頭就不能漏過任何信息的關(guān)聯(lián)。信用信息本身是個網(wǎng)狀關(guān)系,從一個特定的視角看是一個樹型文檔結(jié)構(gòu),可以通過企業(yè)歷程視角來保存這個文檔。把公共信用數(shù)據(jù)項(xiàng)作為頂點(diǎn),兩兩數(shù)據(jù)項(xiàng)的關(guān)聯(lián)作為邊單獨(dú)保存起來。
涉密隱私數(shù)據(jù)保護(hù)和數(shù)據(jù)版本樹下移到底層核心模塊。這兩個功能是公共信用信息歸集系統(tǒng)不可缺少的重要功能,并且需求相對穩(wěn)定。涉密隱私數(shù)據(jù)保護(hù)包括在線存儲密文、離線存儲明文和數(shù)據(jù)脫敏交換。目錄清單維護(hù)和信用數(shù)據(jù)歸集都可以通過版本樹來實(shí)現(xiàn)存儲。
挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系。公共信用基礎(chǔ)信息間的關(guān)聯(lián)有的是明顯的,有的是需要結(jié)合業(yè)務(wù)系統(tǒng)來理解的,還有的是隱式關(guān)聯(lián)。對于找不到關(guān)鍵字段關(guān)聯(lián)的,只能通過模糊匹配,根據(jù)某種算法找到置信度超過設(shè)定閥值的關(guān)聯(lián)關(guān)系,再返回到信息源頭去確認(rèn)。這就需要對信用信息進(jìn)行數(shù)據(jù)挖掘,提高信息完整性。
用消息隊(duì)列解耦信息交換功能?,F(xiàn)有公共信用信息歸集平臺,對系統(tǒng)環(huán)境層層依賴,擴(kuò)展性差,信息交換變化難以監(jiān)控和調(diào)整。通過引入消息隊(duì)列解耦,大大減輕開發(fā)和維護(hù)工作量。
增強(qiáng)系統(tǒng)的可擴(kuò)展型。通過容器化實(shí)踐增強(qiáng)系統(tǒng)的健壯性、應(yīng)對突發(fā)事件的能力和響應(yīng)變化的能力。場景決定系統(tǒng)架構(gòu)的選擇。雖然目前來講南京市公共信用信心歸集平臺只有百萬級別的數(shù)量和很小的并發(fā)訪問量,但不能不為今后的橫向擴(kuò)展做進(jìn)一步考慮。例如在公共信用基礎(chǔ)數(shù)據(jù)庫上展開文明交通信用分查詢,公共信用信息系統(tǒng)直接對接移動互聯(lián)網(wǎng)應(yīng)用,需要更大的并發(fā)訪問量。通過業(yè)務(wù)拆分和快速復(fù)制結(jié)點(diǎn),迅速提升系統(tǒng)響應(yīng)能力。
統(tǒng)一管理數(shù)據(jù)檢查工具。一致性要求高的場景,需要對前端和后端的預(yù)處理、輸入提示和回歸檢查進(jìn)行統(tǒng)一管理。
公共信用基礎(chǔ)數(shù)據(jù)庫的建立、運(yùn)行以及開展相關(guān)應(yīng)用,很大程度上依賴于公共信用信息的數(shù)據(jù)歸集。公共信用信息系統(tǒng)作為一個應(yīng)用基礎(chǔ)平臺,不僅僅要提供數(shù)據(jù)的保存和展現(xiàn)功能,更多的還需要在數(shù)據(jù)歸集上提供便利。公共信用信息的數(shù)據(jù)歸集功能,可以建立在市區(qū)信用兩級平臺上,也可以作為公共信用基礎(chǔ)信用數(shù)據(jù)庫的一個組成部分。無論怎樣設(shè)計(jì),平臺本身必須提供對數(shù)據(jù)歸集的直接支持。
公共信用信息的目錄清單和數(shù)據(jù)版本管理系統(tǒng)是解決目前信息歸集問題的一個理想工具。但是,在整個公共信用體系的建設(shè)中,人的因素才是最主要因素。只有不斷總結(jié)經(jīng)驗(yàn)教訓(xùn)和提出更好的解決方案,調(diào)動各級歸集部門的積極性,加強(qiáng)過程管理,深化業(yè)務(wù)理解,才能真正做好公共信用信息的數(shù)據(jù)歸集工作。
(作者單位:南京市信息中心)