徐松柳
(佛山科學(xué)技術(shù)學(xué)院,廣東佛山528000)
目前我國(guó)在將政策傳達(dá)到企業(yè)時(shí),一方面由于政策數(shù)據(jù)分散在各主管部門系統(tǒng)中,難以流通共享;另一方面,目前注冊(cè)企業(yè)成千上萬(wàn)家,各企業(yè)性質(zhì)和政策訴求等不一樣,僅靠人工進(jìn)行政策解讀和傳遞,人力成本高,政策也難以精準(zhǔn)傳達(dá)到相應(yīng)目標(biāo)企業(yè)。如何用足、用好、用活各項(xiàng)政策,推動(dòng)各項(xiàng)政策的落地落實(shí),為企業(yè)發(fā)展賦能,為我國(guó)民營(yíng)企業(yè)高質(zhì)量發(fā)展提供優(yōu)質(zhì)服務(wù)和制度保障,是目前需要解決的難題。為此,本文設(shè)計(jì)了一種企業(yè)扶持政策推薦系統(tǒng)。
如何構(gòu)建企業(yè)數(shù)據(jù)和資源數(shù)據(jù)之間的聯(lián)系,實(shí)現(xiàn)一對(duì)一精準(zhǔn)推薦成為該系統(tǒng)設(shè)計(jì)的難點(diǎn)。該系統(tǒng)以企業(yè)需求為核心,全面獲取政府各政策文件,然后進(jìn)行分析解讀,準(zhǔn)確判斷出該政策的目標(biāo)對(duì)象,并結(jié)合對(duì)企業(yè)的標(biāo)簽信息及大數(shù)據(jù)分析,借助推薦算法,利用企業(yè)數(shù)據(jù)和政策數(shù)據(jù)之間的聯(lián)系,實(shí)現(xiàn)涉企政策的精準(zhǔn)化和主動(dòng)服務(wù)化,從而將政策通過(guò)推薦系統(tǒng)精準(zhǔn)推送給需要的企業(yè),使政策落到實(shí)處。
企業(yè)扶持政策推薦系統(tǒng)的數(shù)據(jù)處理流程如圖1所示。
圖1 數(shù)據(jù)處理流程
數(shù)據(jù)的流轉(zhuǎn)過(guò)程主要包括數(shù)據(jù)的獲取、匯聚、清洗、建模計(jì)算、可視化、鏡像備份等6個(gè)步驟。
從外部渠道獲取企業(yè)數(shù)據(jù)和政策數(shù)據(jù)的途徑主要包括:用同步方式獲取政府公共數(shù)據(jù)平臺(tái)的共享數(shù)據(jù),通過(guò)爬蟲(chóng)引擎從互聯(lián)網(wǎng)爬取并導(dǎo)入數(shù)據(jù),以及通過(guò)API導(dǎo)入業(yè)務(wù)部門數(shù)據(jù)和第三方未公開(kāi)數(shù)據(jù)。API導(dǎo)入方式為政府提供數(shù)據(jù)導(dǎo)出接口,通過(guò)搭建通道獲取數(shù)據(jù)并將其存入數(shù)據(jù)庫(kù)中。
將從外部渠道獲取的企業(yè)數(shù)據(jù)和政策數(shù)據(jù),通過(guò)數(shù)據(jù)庫(kù)的形式傳入大數(shù)據(jù)匯聚系統(tǒng)內(nèi),在系統(tǒng)中進(jìn)行數(shù)據(jù)的存儲(chǔ)。大數(shù)據(jù)匯聚系統(tǒng)主要起到中間庫(kù)的作用,保存外部數(shù)據(jù)并作為后期業(yè)務(wù)數(shù)據(jù)的抽取和傳輸?shù)臄?shù)據(jù)源。
從外部渠道獲取的企業(yè)數(shù)據(jù)和政策數(shù)據(jù)的復(fù)雜度較高、數(shù)據(jù)量較大。其中,不是所有數(shù)據(jù)都是系統(tǒng)所需要的,本環(huán)節(jié)主要通過(guò)大數(shù)據(jù)清洗過(guò)程常用的ETL工具,對(duì)復(fù)雜的外部數(shù)據(jù)進(jìn)行簡(jiǎn)化與集成,并且對(duì)其中異常的數(shù)據(jù)進(jìn)行刪除或填充,為后面數(shù)據(jù)分析與應(yīng)用提供可靠、穩(wěn)定的數(shù)據(jù)源,同時(shí)也能有效提高系統(tǒng)的運(yùn)作效率。經(jīng)過(guò)這一環(huán)節(jié)之后,中心庫(kù)的數(shù)據(jù)為較為全面、完善的業(yè)務(wù)數(shù)據(jù)。
將中心庫(kù)中清洗好的企業(yè)數(shù)據(jù)和政策數(shù)據(jù)作為樣本數(shù)據(jù),結(jié)合系統(tǒng)邏輯計(jì)算所需,抽取相應(yīng)維度的數(shù)據(jù),政策智能分析平臺(tái)對(duì)數(shù)據(jù)進(jìn)行指標(biāo)計(jì)算以及算法計(jì)算,并將計(jì)算出來(lái)的結(jié)果數(shù)據(jù)處理好導(dǎo)入外部系統(tǒng)的接口中。其中,政策智能分析平臺(tái)主要存儲(chǔ)的是經(jīng)過(guò)包裝的靶向模型的算法邏輯,數(shù)據(jù)從模型接口中傳入,通過(guò)計(jì)算將結(jié)果導(dǎo)出。
根據(jù)系統(tǒng)功能需求,將中心庫(kù)中的基本數(shù)據(jù)和政策智能分析平臺(tái)導(dǎo)出的結(jié)果數(shù)據(jù)合并,同時(shí)導(dǎo)入系統(tǒng)的接口中,由系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步加工,將晦澀難懂的數(shù)據(jù)庫(kù)數(shù)據(jù)加以文字修飾,將其組成平常所看到的推薦信息,優(yōu)化數(shù)據(jù)的展示效果。
為防止企業(yè)數(shù)據(jù)和政策數(shù)據(jù)在處理過(guò)程中,因?yàn)閭€(gè)人或者系統(tǒng)的錯(cuò)誤操作而導(dǎo)致數(shù)據(jù)丟失,在大數(shù)據(jù)匯聚系統(tǒng)抽取數(shù)據(jù)過(guò)程中,同步將數(shù)據(jù)導(dǎo)入鏡像庫(kù)中進(jìn)行鏡像備份。一旦數(shù)據(jù)出現(xiàn)問(wèn)題,可隨時(shí)用鏡像數(shù)據(jù)庫(kù)對(duì)問(wèn)題數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)覆蓋。
政策解析可以分為三步走,在很大程度上,它們之間是相互依賴、相互遞進(jìn)的關(guān)系。第一步:政策解讀員對(duì)新政策進(jìn)行解讀,他們熟悉政策的特點(diǎn),能及時(shí)對(duì)接發(fā)布政策的科室,了解第一手政策信息,從而把握政策的核心內(nèi)容并準(zhǔn)確無(wú)誤地提煉出來(lái),為第二步數(shù)據(jù)對(duì)政策關(guān)鍵字的提取打下堅(jiān)實(shí)的基礎(chǔ);第二步:在解讀的政策內(nèi)容上提煉可用于構(gòu)建模型的政策關(guān)鍵字,在此步過(guò)程中還需要返回至最原始的政策中去提煉部分政策的關(guān)鍵字;第三步:利用機(jī)器學(xué)習(xí)算法,系統(tǒng)自動(dòng)提取政策的關(guān)鍵字。
政策關(guān)鍵字的提取是政策大數(shù)據(jù)智能推薦系統(tǒng)中最核心的部分之一,政策關(guān)鍵字的提取質(zhì)量直接影響項(xiàng)目的質(zhì)量。政策關(guān)鍵字提取流程如圖2所示。
圖2 政策關(guān)鍵字提取流程
關(guān)鍵字是代表文章重要內(nèi)容的若干組詞,對(duì)文本聚類、分類、自動(dòng)摘要等起重要的作用?,F(xiàn)實(shí)中大量文本不包含關(guān)鍵詞,如果可以準(zhǔn)確地將所有文檔內(nèi)容都用簡(jiǎn)單的關(guān)鍵字描述出來(lái),就能使人們便捷地獲取文章信息。
構(gòu)建企業(yè)標(biāo)簽體系是政策大數(shù)據(jù)智能匹配服務(wù)中最核心的部分之一,它是政策關(guān)鍵字提取工作和企業(yè)信息爬取工作的后續(xù)結(jié)合和升華。一個(gè)充分而又精煉的企業(yè)標(biāo)簽體系,可以促進(jìn)達(dá)成政策信息與企業(yè)信息的雙向匹配,實(shí)現(xiàn)政策的精準(zhǔn)推送。
構(gòu)建企業(yè)標(biāo)簽體系,一方面需要通過(guò)政府、爬蟲(chóng)引擎和系統(tǒng)平臺(tái)注冊(cè)填寫等方式獲取企業(yè)信息,另一方面也需要以之前提取的政策關(guān)鍵字信息作為輔助數(shù)據(jù)。因?yàn)槠髽I(yè)的標(biāo)簽不僅包含一般意義的企業(yè)信息,還包含政策對(duì)企業(yè)的專項(xiàng)要求信息。
因此,企業(yè)標(biāo)簽體系的構(gòu)建,需要對(duì)大量的企業(yè)信息和政策關(guān)鍵字信息進(jìn)行綜合的數(shù)據(jù)分析,以便提取豐富的企業(yè)特征標(biāo)簽,進(jìn)而提升政策推送的準(zhǔn)確率。
企事業(yè)單位標(biāo)簽體系是指對(duì)政策扶持對(duì)象涉及的企業(yè)單位和事業(yè)單位的特征信息的提煉。企事業(yè)單位是占比最大的市場(chǎng)主體,也是最為常見(jiàn)的政策扶持對(duì)象。因此,政策對(duì)此類用戶的信息要求最為多樣,甚至有的政策對(duì)數(shù)據(jù)的廣度和深度都有專項(xiàng)要求。
企事業(yè)單位標(biāo)簽體系通過(guò)對(duì)爬取的大量企業(yè)信息以及政策關(guān)鍵字信息的綜合分析之后,將企事業(yè)單位的標(biāo)簽體系框架分為16個(gè)模塊,包括企業(yè)的工商登記信息、工商變更信息、股東及高管人員信息、分支機(jī)構(gòu)信息、司法及行政執(zhí)法信息、股權(quán)質(zhì)押及對(duì)外擔(dān)保信息、知識(shí)產(chǎn)權(quán)信息、資質(zhì)榮譽(yù)認(rèn)證信息、經(jīng)營(yíng)業(yè)務(wù)情況、經(jīng)營(yíng)數(shù)據(jù)信息、稅務(wù)數(shù)據(jù)信息、社保數(shù)據(jù)信息、人才數(shù)據(jù)信息、參與項(xiàng)目信息、主辦或承辦活動(dòng)信息以及其他政策要求信息。
企事業(yè)單位標(biāo)簽體系如圖3所示。
推薦系統(tǒng)的核心是通過(guò)算法實(shí)現(xiàn)企業(yè)、政策的匹配,即關(guān)聯(lián)企業(yè)信息,幫客戶找到合適的政策,可以給不同的客戶定制個(gè)性化服務(wù),提高企業(yè)的信任度和黏性。推薦系統(tǒng)一共分為數(shù)據(jù)層、策略層和應(yīng)用層。
數(shù)據(jù)層主要包括搭建專題數(shù)據(jù)庫(kù),設(shè)計(jì)不同企業(yè)標(biāo)簽體系表與政策關(guān)鍵字表,將政策關(guān)鍵字信息和企業(yè)標(biāo)簽體系信息存儲(chǔ)到對(duì)應(yīng)的表中,同時(shí),對(duì)接業(yè)務(wù)系統(tǒng)進(jìn)行兩表數(shù)據(jù)的實(shí)時(shí)更新。
策略層是從存儲(chǔ)的政策關(guān)鍵字信息表和企業(yè)標(biāo)簽數(shù)體系表中,選取有用的數(shù)據(jù),利用靶向模型計(jì)算各類數(shù)據(jù)之間的關(guān)聯(lián)性,計(jì)算企業(yè)與政策的契合程度,并根據(jù)契合度的大小為企業(yè)推薦合適的政策。在準(zhǔn)備推送之前,系統(tǒng)將自動(dòng)生成匹配報(bào)告,并把匹配報(bào)告中的關(guān)鍵信息填入推文當(dāng)中,企業(yè)在收到推文之后,能夠?qū)φ哂幸粋€(gè)初步的了解,明白自身與政策扶持對(duì)象相契合的點(diǎn)以及未契合的地方。
系統(tǒng)可根據(jù)企業(yè)的需要,在推文中填入政策的發(fā)布網(wǎng)址、政策發(fā)布時(shí)間以及截止時(shí)間、辦理政策的意見(jiàn)以及申請(qǐng)的流程等,充分對(duì)政策進(jìn)行解析并引導(dǎo)企業(yè)進(jìn)行政策申請(qǐng)。
前期人為根據(jù)系統(tǒng)推送政策信息給企業(yè)之后推送的效果,計(jì)算召回率與準(zhǔn)確率,并記錄這類信息為后期系統(tǒng)模型算法的優(yōu)化更新提供依據(jù)。
召回率:通過(guò)系統(tǒng)識(shí)別出來(lái)的政策適用對(duì)象以及實(shí)際政策的適用對(duì)象的數(shù)量比。
準(zhǔn)確率:系統(tǒng)推送成功的客戶數(shù)量與系統(tǒng)總推送客戶數(shù)量的比。
圖3 企事業(yè)單位標(biāo)簽體系
應(yīng)用層主要涉及系統(tǒng)的運(yùn)行過(guò)程,當(dāng)模型算法計(jì)算出政策的適用對(duì)象之后,可根據(jù)實(shí)際需要選擇推送的途徑,目前主要的推送途徑包括郵箱、QQ、微信、短信等幾大主要平臺(tái),也可以根據(jù)企業(yè)提供的數(shù)據(jù)接口,為企業(yè)推送政策信息。在推送的內(nèi)容中為客戶提供反饋機(jī)制,客戶在使用過(guò)程中的不解之處或?qū)ο到y(tǒng)的準(zhǔn)確性不夠滿意,可以通過(guò)反饋機(jī)制將意見(jiàn)反饋回系統(tǒng)后臺(tái)。后臺(tái)運(yùn)維人員會(huì)定時(shí)收集客戶的反饋,為客戶進(jìn)行疑難解答。同時(shí),應(yīng)用層收集錯(cuò)誤推送的信息并保存到數(shù)據(jù)庫(kù)中,方便模型進(jìn)行優(yōu)化。
企業(yè)扶持政策推薦系統(tǒng)的應(yīng)用服務(wù)能夠讓企業(yè)只需動(dòng)動(dòng)“指尖”,就能夠隨時(shí)隨地查政策、辦業(yè)務(wù),可改善企業(yè)申報(bào)環(huán)境,為推動(dòng)政府扶持資金更好地支持和引導(dǎo)實(shí)體經(jīng)濟(jì)發(fā)展發(fā)揮了重要作用。該系統(tǒng)統(tǒng)一在平臺(tái)及時(shí)更新各類產(chǎn)業(yè)對(duì)接信息,對(duì)外公示政府的產(chǎn)業(yè)對(duì)接事項(xiàng)的政策文件、辦事指南等,方便市民和企業(yè)了解和查詢,有效減少了市民和企業(yè)獲取信息的時(shí)間成本,而且通過(guò)規(guī)范的信息公布和展現(xiàn),進(jìn)一步有效提升政策宣傳效率,同時(shí)確保產(chǎn)業(yè)對(duì)接政策信息的公開(kāi)、透明、規(guī)范。