付宏燕
(國家信息中心公共技術(shù)服務(wù)部,北京 100045)
公共資源交易,包括公共部門對(duì)公共資源的購買,如政府采購、政府投資或國有資金投資的建設(shè)工程招投標(biāo)等;也包括公共部門對(duì)公共資源的出售行為,如國有土地的招拍掛、礦業(yè)權(quán)和礦產(chǎn)品出讓、國有林權(quán)和林產(chǎn)品的出售、 國有文化企業(yè)(股權(quán)、實(shí)物、無形資產(chǎn))權(quán)益出售等交易,以及其他涉及公眾利益、公共安全領(lǐng)域的公共資源的銷售行為。公共資源交易是我國政府創(chuàng)新配置資源方式的重要體現(xiàn),是現(xiàn)代市場經(jīng)濟(jì)體系的重要組成部分,屬于政務(wù)公開的范疇,也是衡量我國營商環(huán)境的晴雨表。
根據(jù)《國務(wù)院辦公廳關(guān)于印發(fā)整合建立統(tǒng)一的公共資源交易平臺(tái)工作方案的通知》(國辦發(fā)〔2015〕63號(hào)文件)要求,全國公共資源交易平臺(tái)進(jìn)行了深化整合,各地公共資源交易系統(tǒng)產(chǎn)生的交易數(shù)據(jù)也初步完成了從地市上行到省、國家公共資源交易服務(wù)平臺(tái)的匯集。但是目前所匯集數(shù)據(jù)的準(zhǔn)確性、全面性等數(shù)據(jù)質(zhì)量,以及數(shù)據(jù)的應(yīng)用等方面仍不盡如人意,例如因權(quán)威數(shù)據(jù)共享不足,各省、地市評(píng)標(biāo)環(huán)節(jié)核驗(yàn)投標(biāo)主體的資質(zhì)、業(yè)績信息時(shí),仍以投標(biāo)主體提交的紙介質(zhì)材料為主,判定材料的真實(shí)性無法判定,對(duì)于省外投標(biāo)企業(yè)的真實(shí)信息更是難以獲??;數(shù)據(jù)分析等應(yīng)用未達(dá)到國家級(jí)、省級(jí)從宏觀層面對(duì)于交易領(lǐng)域整體視角的市場化、產(chǎn)業(yè)化分析支撐,未真正發(fā)揮在公共資源交易監(jiān)管中的作用。如何從國家層面將匯集到的海量公共資源交易數(shù)據(jù)提升質(zhì)量,從業(yè)務(wù)、技術(shù)和使用角度合理整合重組,為最大限度地發(fā)揮大數(shù)據(jù)的作用夯實(shí)基礎(chǔ),是迫切需要解決的難題。
公共資源交易數(shù)據(jù)以項(xiàng)目進(jìn)場、招標(biāo)、投標(biāo)、評(píng)標(biāo)、中標(biāo)、合同的業(yè)務(wù)環(huán)節(jié),形成項(xiàng)目的鏈條式結(jié)構(gòu)化數(shù)據(jù),涉及到的市場主體包括招標(biāo)人/采購人/出讓人、投標(biāo)人/供應(yīng)商/意向受讓方/競買人、中標(biāo)人/成交人/中標(biāo)供應(yīng)商/受讓人、代理機(jī)構(gòu)。每個(gè)交易領(lǐng)域都有相應(yīng)的業(yè)務(wù)流程。公共資源交易數(shù)據(jù)倉庫需要關(guān)注不同領(lǐng)域市場主體構(gòu)成與交易、資源配置的分析,無須具體到每個(gè)項(xiàng)目細(xì)節(jié)。因此,業(yè)務(wù)主線按工程建設(shè)招投標(biāo)、政府采購、土地使用權(quán)出讓、礦業(yè)權(quán)出讓、國有產(chǎn)權(quán)交易五個(gè)交易領(lǐng)域劃分,每個(gè)業(yè)務(wù)主線對(duì)應(yīng)分析的業(yè)務(wù)主題,如圖1。
圖1 公共資源交易的業(yè)務(wù)主線圖
數(shù)據(jù)倉庫的數(shù)據(jù)模型設(shè)計(jì)應(yīng)支持公共資源交易業(yè)務(wù)范圍的擴(kuò)展,分離出底層技術(shù)的實(shí)現(xiàn)和上層業(yè)務(wù)的展現(xiàn)。當(dāng)上層業(yè)務(wù)變化時(shí),底層技術(shù)實(shí)現(xiàn)可輕松完成業(yè)務(wù)的變動(dòng)。
圖1顯示,市場主體是公共資源交易招投標(biāo)的主力軍,相關(guān)市場主體數(shù)據(jù)和交易數(shù)據(jù)共同組成公共資源配置分析的關(guān)鍵。將五個(gè)業(yè)務(wù)主線的核心部分抽象處理,用交易事實(shí)表存放大量的交易業(yè)務(wù)度量值,作為歷史交易數(shù)據(jù)的存檔,通過獲取描述業(yè)務(wù)過程的度量來表達(dá)業(yè)務(wù)過程;用維度列表給出事實(shí)表的粒度定義,并確定出度量值的取值范圍。圍繞交易事實(shí)組合不同粒度的多個(gè)維度,形成公共資源交易數(shù)據(jù)倉庫雪花模式的概念模型,如圖2所示。交易事實(shí)表的統(tǒng)一交易標(biāo)識(shí)碼,對(duì)應(yīng)每筆交易活動(dòng),可提高對(duì)交易事實(shí)的過濾查詢效率,作為退化維提高事實(shí)表的易用性和性能。
圖2 公共資源交易數(shù)據(jù)倉庫的概念模型
概念模型中主體基礎(chǔ)信息、主體資質(zhì)信息、交易領(lǐng)域、時(shí)間、地域和交易事實(shí)組成了主體在不同時(shí)間、不同地域、不同交易領(lǐng)域、不同交易類別的招標(biāo)/采購和成交的系列分析主題,如政府采購領(lǐng)域,某年度在某采購類別的總采購規(guī)模、總成交額和總合同額,可支持分析政府在某國民經(jīng)濟(jì)行業(yè)分類的投資與執(zhí)行情況;同時(shí)與交易角色的關(guān)聯(lián),又組成了交易角色在交易領(lǐng)域、時(shí)間、地域維度的系列交易分析主題,如某年京津冀區(qū)域異地中標(biāo)主體占比,可分析京津冀交易市場融合發(fā)展等主題。
地方的市場主體數(shù)據(jù)來源于全國619個(gè)交易系統(tǒng),依托國家電子政務(wù)外網(wǎng)級(jí)聯(lián)式匯集,由地市級(jí)交易平臺(tái)報(bào)送至省級(jí),31個(gè)省級(jí)交易服務(wù)平臺(tái)將地市級(jí)、省級(jí)數(shù)據(jù),共同報(bào)送到國家公共資源交易服務(wù)平臺(tái)。國家公共資源交易服務(wù)平臺(tái)匯集了近三年的工程建設(shè)招投標(biāo)、政府采購、土地使用權(quán)和礦業(yè)權(quán)出讓、國有產(chǎn)權(quán)交易等交易領(lǐng)域的市場主體信息,以及主體參與的招投標(biāo)項(xiàng)目信息、中標(biāo)(成交)信息等,映射到具體數(shù)據(jù)表為法人信息表、招標(biāo)(采購)項(xiàng)目表、中標(biāo)(成交)結(jié)果表。交易主體日增3000家,成交項(xiàng)目日增6000個(gè)。
來源于有關(guān)部門的法人信息主要包括國家市場監(jiān)管總局的企業(yè)基本信息、商務(wù)部的外商投資企業(yè)信息、住建部的建筑類企業(yè)資質(zhì)信息以及國家法人庫信息,作為對(duì)全國公共資源交易主體信息的校核與補(bǔ)充,涵蓋了企業(yè)、事業(yè)、機(jī)關(guān)、社會(huì)組織、外資企業(yè)等性質(zhì)。其中,企業(yè)基本信息超過7000 萬條,工商續(xù)存信息超4300 萬條,事業(yè)單位信息125 萬條,機(jī)關(guān)信息31 萬條,社會(huì)組織信息99 萬條,建筑工程類企業(yè)資質(zhì)信息45 萬條。此類數(shù)據(jù)采集方式為接口實(shí)時(shí)調(diào)用,通過穩(wěn)定的輪詢機(jī)制修正更新,均為主管部門發(fā)布的權(quán)威信息。
交易概念為最小粒度的雙方成交行為,如標(biāo)段或子包成交。在全國公共資源交易數(shù)據(jù)的級(jí)聯(lián)匯集過程中,用標(biāo)段編號(hào)串聯(lián)交易的前后行為,但標(biāo)段編號(hào)全國范圍內(nèi)并不唯一,故采用統(tǒng)一交易標(biāo)識(shí)碼對(duì)應(yīng)每一筆交易。
招投標(biāo)全流程電子化是我國公共資源交易發(fā)展的主要趨勢(shì)。目前全國只有少數(shù)交易系統(tǒng)實(shí)現(xiàn)了全流程自動(dòng)產(chǎn)生交易數(shù)據(jù),大多數(shù)仍由市場主體(含代理機(jī)構(gòu))在交易系統(tǒng)中錄入,存在較高的誤填率或缺失率,如某地所有主體統(tǒng)一社會(huì)信用代碼均填同一個(gè)、中標(biāo)金額填成手機(jī)號(hào)等。由系統(tǒng)自動(dòng)產(chǎn)生的數(shù)據(jù)質(zhì)量相對(duì)較好,但依然存在金額和單位不一等問題。錯(cuò)誤的數(shù)據(jù)必然導(dǎo)致錯(cuò)誤的數(shù)據(jù)分析結(jié)果,有必要對(duì)級(jí)聯(lián)式匯集到的數(shù)據(jù)進(jìn)行整合治理,提升正確率和全面率,達(dá)到數(shù)據(jù)分析服務(wù)的要求。
不同來源的數(shù)據(jù)整合治理架構(gòu)圖如3 所示,針對(duì)主體數(shù)據(jù)、交易數(shù)據(jù)的特點(diǎn)不同分別做處理。
圖3 數(shù)據(jù)整合治理架構(gòu)
多來源的主體數(shù)據(jù)整合重組邏輯如圖4 所示。數(shù)據(jù)源需要經(jīng)過先后三次對(duì)主體名稱的匹配驗(yàn)證、補(bǔ)全信息的操作,以及一系列的去重、打標(biāo)簽等處理,形成主題層完整、干凈、具有一致性的主體基礎(chǔ)信息表、主體資質(zhì)信息表。
圖4 多來源主體數(shù)據(jù)整合重組邏輯
從公共資源交易的招標(biāo)(采購)項(xiàng)目表、中標(biāo)結(jié)果表中提取主體名稱和交易領(lǐng)域標(biāo)識(shí);匹配法人基本信息表中的法人名稱,對(duì)統(tǒng)一社會(huì)信用代碼、法人類別、法人角色、法人機(jī)構(gòu)類別、行政區(qū)域代碼等信息進(jìn)行初次整合重組;重組后的主體名稱去除非法字符、統(tǒng)一括號(hào)為全角等規(guī)范化處理,形成主體臨時(shí)表1。
浮標(biāo)站位于城區(qū)東南方富春江江面上,119°55′~120°02′E,30°01′~30°03′N,海拔5.0 m。北面為城區(qū)國家氣象站,東南面分別為新沙島站以及江南站。
利用國家法人庫信息鏡像表對(duì)不同性質(zhì)的主體信息進(jìn)行第一次驗(yàn)證和補(bǔ)全。將主體臨時(shí)表1的公共資源主體數(shù)據(jù),通過主體名稱與法人信息鏡像表中的信息對(duì)比匹配,修正錯(cuò)誤屬性,補(bǔ)全機(jī)關(guān)、事業(yè)單位、社會(huì)組織等不同性質(zhì)的主體屬性,如業(yè)務(wù)范圍、注冊(cè)資本、登記狀態(tài)等,形成主體臨時(shí)表2。
利用有關(guān)部門接口數(shù)據(jù)對(duì)企業(yè)信息進(jìn)行第二、三次驗(yàn)證和補(bǔ)全。將主體臨時(shí)表2中未匹配上法人信息庫的企業(yè)名稱,調(diào)用市場監(jiān)管總局的企業(yè)基本信息接口,補(bǔ)全企業(yè)信息,形成主體臨時(shí)表3;將主體臨時(shí)表3 的非內(nèi)資注冊(cè)類型的企業(yè)名稱,調(diào)用商務(wù)部外商投資企業(yè)信息接口,補(bǔ)全非內(nèi)資企業(yè)的投資國別、投資總額、投資機(jī)構(gòu)信息,形成主體基礎(chǔ)信息表。
住建部接口的建筑類企業(yè)資質(zhì),與公共資源交易領(lǐng)域交叉在工程建設(shè)。將公共資源交易工程建設(shè)招投標(biāo)領(lǐng)域的招投標(biāo)人、中標(biāo)人統(tǒng)一社會(huì)信用代碼,通過住建部的企業(yè)資質(zhì)接口獲取相應(yīng)匹配的建筑類主體資質(zhì)數(shù)據(jù)寫入主體資質(zhì)信息表中,為對(duì)應(yīng)的主體添加資質(zhì)名稱和證書號(hào)信息,形成主體資質(zhì)表。
交易額是資源配置分析的重要數(shù)據(jù),也是需要重點(diǎn)糾錯(cuò)的部分。對(duì)照每交易領(lǐng)域成交公示文本,統(tǒng)一成交金額單位;參考上一年單筆成交金額設(shè)置上限值,匯集的成交金額數(shù)據(jù)超出上限時(shí),標(biāo)識(shí)待定異常值;然后啟用文本分析,與項(xiàng)目成交公示中金額進(jìn)行核驗(yàn),如不一致,則取出文本型成交公示的金額替換結(jié)構(gòu)化的成交金額數(shù)值。
交易數(shù)據(jù)帶有成交時(shí)間、所屬行政區(qū)劃標(biāo)識(shí),以表明交易環(huán)節(jié)的歷史時(shí)期信息和地域信息,方便對(duì)交易規(guī)模、交易趨勢(shì)、資源配置做出分析和預(yù)測。交易數(shù)據(jù)的核驗(yàn)與糾正操作在臨時(shí)存儲(chǔ)層完成。
由于數(shù)據(jù)的多來源和級(jí)聯(lián)式匯集的不可控性,有必要在整合重組過程中進(jìn)行主體信息的單來源去重、合并去重。對(duì)于單張表去重,按照主體名稱對(duì)重復(fù)數(shù)據(jù)選擇時(shí)間戳最新的一條保留;對(duì)于單個(gè)接口數(shù)據(jù)去重,按照調(diào)用接口的時(shí)間取同一主體的最新數(shù)據(jù)。合并去重的重要操作是統(tǒng)一字段名稱,如將主體名稱字段統(tǒng)一為furname,將主體統(tǒng)一社會(huì)信用代碼統(tǒng)一為uniscid等。
標(biāo)簽主要作用在于為后續(xù)統(tǒng)計(jì)和分析提供標(biāo)識(shí)。主體機(jī)構(gòu)性質(zhì)是統(tǒng)計(jì)分析重點(diǎn),對(duì)應(yīng)字段機(jī)構(gòu)性質(zhì)名稱jgxz、機(jī)構(gòu)性質(zhì)代碼jgxz_code打標(biāo)簽處理。如企業(yè)的jgxz 字段代碼設(shè)置為“00”,“機(jī)關(guān)”設(shè)置為“01”。從數(shù)據(jù)的追蹤和應(yīng)用考慮,關(guān)鍵字段數(shù)值的來源、主體參與交易時(shí)的角色等也均需標(biāo)簽處理。
對(duì)于接口來源數(shù)據(jù),通過主動(dòng)定期全量與不定期增量輪詢機(jī)制保證主體信息與來源部門的一致性,全部交易主體信息每周到部門接口輪詢一遍,新增交易主體馬上到接口調(diào)用結(jié)果并做標(biāo)識(shí)保存。在質(zhì)量檢查和對(duì)賬管理機(jī)制上,每天自動(dòng)生成新增、更新主體數(shù)和總數(shù),資質(zhì)新增、更新以及總數(shù)等,以周為單位呈現(xiàn)出周期性變化的更新數(shù)據(jù)可反映出是否異常。
按粒度層次匯總數(shù)據(jù),可支撐鉆取、切片、切塊等多維分析操作和多維報(bào)表的展現(xiàn)。取公共資源交易數(shù)據(jù)中的招標(biāo)、代理、中標(biāo)主體,計(jì)算出年、季、月不同時(shí)間粒度的招標(biāo)次數(shù)、招標(biāo)金額、交易額、交易量、代理次數(shù)等統(tǒng)計(jì)指標(biāo)值,形成主體交易統(tǒng)計(jì)表。
按招標(biāo)人、中標(biāo)人、代理機(jī)構(gòu)不同交易角色,計(jì)算出不同交易領(lǐng)域年、季、月不同時(shí)間粒度,以及國家、省、市、重點(diǎn)區(qū)域不同地域粒度的主體數(shù)量、招標(biāo)/采購/出讓次數(shù)、招標(biāo)/采購/出讓金額、交易額、交易量、代理次數(shù)等統(tǒng)計(jì)指標(biāo)值,形成角色交易統(tǒng)計(jì)表。
在大數(shù)據(jù)的組織和應(yīng)用過程中,存儲(chǔ)空間和運(yùn)行時(shí)間是一對(duì)矛盾,考慮到存儲(chǔ)的相對(duì)易得和用戶的使用體驗(yàn),可以適當(dāng)犧牲空間換取時(shí)間。主體交易是統(tǒng)計(jì)和分析頻率非常高的數(shù)據(jù)集,為了提高多維查詢性能和便捷操作,將主體交易分析主題相關(guān)的指標(biāo)、維度、屬性關(guān)聯(lián)形成一張?zhí)厥獾膶挶恚粗黧w名稱對(duì)主體基礎(chǔ)信息表與主體交易統(tǒng)計(jì)表進(jìn)行關(guān)聯(lián),按統(tǒng)一社會(huì)信用代碼對(duì)主體基礎(chǔ)信息表與主體資質(zhì)信息表關(guān)聯(lián),三表相互補(bǔ)全62個(gè)字段組成主題層的主體交易綜合寬表。
主體交易綜合寬表具備主體性質(zhì)、主體屬性、資質(zhì)屬性、時(shí)間屬性、地域?qū)傩?、參與領(lǐng)域、交易成交等不同層次的主題分析特征,是根據(jù)主題分析建立的一個(gè)邏輯數(shù)據(jù)體系,極大地方便了多維度多層次數(shù)據(jù)使用。由于結(jié)構(gòu)簡單,避免了跨表關(guān)聯(lián)操作,海量數(shù)據(jù)的情況下極大地提升了運(yùn)行效率。綜合寬表的應(yīng)用可大大提高數(shù)據(jù)挖掘模型迭代訓(xùn)練的效率。
數(shù)據(jù)倉庫分為主題層和臨時(shí)存儲(chǔ)層。主題層為參與數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)共享的表,包括主體綜合寬表、主體交易統(tǒng)計(jì)表、角色交易統(tǒng)計(jì)表、主體基礎(chǔ)信息表、主體資質(zhì)信息表、交易事實(shí)表、地域表等;臨時(shí)存儲(chǔ)層為中間處理過程表,數(shù)據(jù)倉庫表構(gòu)成如圖5所示。
圖5 數(shù)據(jù)倉庫表構(gòu)成
數(shù)據(jù)倉庫的建模方法有多種,如何高效地將大數(shù)據(jù)按需處理、有序組織和存儲(chǔ),在性能、成本、效率和質(zhì)量之間取得最佳平衡,進(jìn)而支撐公共資源交易大數(shù)據(jù)的分析與挖掘應(yīng)用,深入的業(yè)務(wù)理解和建模技術(shù)缺一不可。目前,國家公共資源交易數(shù)據(jù)倉庫已重組了407萬市場主體的交易信息,其中僅2019年和2020年就有161萬參與了公共資源交易活動(dòng),平均每月8萬多主體活躍在交易市場,呈持續(xù)上升趨勢(shì)。在實(shí)際應(yīng)用中,基于數(shù)據(jù)倉庫開展了新能源、公共衛(wèi)生等行業(yè)資源分配和京津冀區(qū)域經(jīng)濟(jì)關(guān)聯(lián)的分析研究,主體交易綜合寬表正在支撐著全國公共資源交易業(yè)績查詢系統(tǒng)的日常運(yùn)行和統(tǒng)計(jì)分析,其中權(quán)威的企業(yè)基本信息、資質(zhì)信息和交易成交信息已通過接口方式向地方交易平臺(tái)開放,逐步服務(wù)于全國各地的全流程電子化交易。
“數(shù)據(jù)”和“創(chuàng)新”已成為公共資源交易領(lǐng)域促進(jìn)業(yè)務(wù)創(chuàng)新增值、提升交易平臺(tái)核心價(jià)值的重要驅(qū)動(dòng)力?!按髷?shù)據(jù)+公共資源交易”必將進(jìn)一步改善政務(wù)辦公水平,提高公共服務(wù)質(zhì)量,推動(dòng)有效構(gòu)建中國營商新環(huán)境,為全球營商環(huán)境優(yōu)化提供良好借鑒。