趙捷 袁輝 鄧祥武 宮政 司琳華 金江
摘 要:在國(guó)民經(jīng)濟(jì)行業(yè)分析過程中,法人和其他組織的統(tǒng)一社會(huì)信用代碼數(shù)據(jù)起著至關(guān)重要的作用,其不僅是產(chǎn)業(yè)和統(tǒng)計(jì)分析工作的基礎(chǔ),數(shù)據(jù)質(zhì)量的優(yōu)劣更會(huì)直接影響到分析結(jié)果的準(zhǔn)確性。本文以提升數(shù)據(jù)質(zhì)量為出發(fā)點(diǎn),首先對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行精準(zhǔn)鑒別,其次構(gòu)建混合型自動(dòng)化行業(yè)分類模型,并提出了數(shù)據(jù)質(zhì)量持續(xù)提升的常態(tài)化標(biāo)準(zhǔn)化流程機(jī)制。這種策略在提供持續(xù)、迭代的改進(jìn)機(jī)制的同時(shí),也為國(guó)民經(jīng)濟(jì)行業(yè)的數(shù)據(jù)分析提供了更為堅(jiān)實(shí)和可靠的數(shù)據(jù)保障。
關(guān)鍵詞:統(tǒng)一社會(huì)信用代碼,國(guó)民經(jīng)濟(jì),自動(dòng)化行業(yè)分類模型,數(shù)據(jù)質(zhì)量提升
DOI編碼:10.3969/j.issn.1002-5944.2024.05.009
0 引 言
法人和其他組織統(tǒng)一社會(huì)信用代碼數(shù)據(jù)是以統(tǒng)一社會(huì)信用代碼為唯一標(biāo)識(shí),整理校核各登記管理部門回傳的各類法人和其他組織信息后形成的基礎(chǔ)數(shù)據(jù)集,涵蓋機(jī)構(gòu)標(biāo)識(shí)、名稱、成立日期、經(jīng)濟(jì)行業(yè)等數(shù)據(jù)字段。截至2023年10月,統(tǒng)一社會(huì)信用代碼庫(kù)中共有法人和其他組織約1.8億,其中法人機(jī)構(gòu)共6002萬,包括營(yíng)利法人5267萬,非營(yíng)利法人545萬,特別法人190萬;非法人組織818萬,個(gè)體工商戶約1.1億。
法人和其他組織統(tǒng)一社會(huì)信用代碼數(shù)據(jù)能有效避免業(yè)務(wù)庫(kù)面臨數(shù)據(jù)孤島問題[1],在支撐政務(wù)管理[2]、信用監(jiān)管[3]、數(shù)字經(jīng)濟(jì)[4]、身份認(rèn)證[5]等社會(huì)管理和經(jīng)濟(jì)活動(dòng)各領(lǐng)域發(fā)揮了實(shí)名管理、分析決策的重要作用,其中國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)是重要的統(tǒng)計(jì)維度數(shù)據(jù),其質(zhì)量直接關(guān)系到產(chǎn)業(yè)分析等統(tǒng)計(jì)分析工作的準(zhǔn)確性[6]。國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升方法的研究,對(duì)提高行業(yè)分類準(zhǔn)確度,支撐我國(guó)經(jīng)濟(jì)普查等涉產(chǎn)業(yè)分類分析工作具有重要意義。隨著近幾年技術(shù)的快速發(fā)展以及國(guó)民經(jīng)濟(jì)行業(yè)標(biāo)準(zhǔn)[7]的新舊更替,研究國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升新理論新方法,促進(jìn)統(tǒng)一社會(huì)信用代碼數(shù)據(jù)質(zhì)量更加完整[8],進(jìn)而引導(dǎo)國(guó)民經(jīng)濟(jì)行業(yè)分類質(zhì)量全面提升,支撐國(guó)家統(tǒng)計(jì)分析工作迫在眉睫。
1 國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升方法概述
國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升方法聚焦三個(gè)方面:第一準(zhǔn)確識(shí)別數(shù)據(jù)質(zhì)量問題并進(jìn)行原因鑒別;第二優(yōu)化自動(dòng)化行業(yè)分類模型和算法;第三建立標(biāo)準(zhǔn)化工作機(jī)制與工作流程,將國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升作為一個(gè)常態(tài)化工作,動(dòng)態(tài)無縫融合到每日的數(shù)據(jù)接收與處理過程中持續(xù)改進(jìn)。
準(zhǔn)確識(shí)別數(shù)據(jù)質(zhì)量問題、定位問題并進(jìn)行問題分類是聚焦質(zhì)量提升關(guān)注重點(diǎn)以及確定優(yōu)質(zhì)樣本集、評(píng)估提升效果首要的一步,需要以專家經(jīng)驗(yàn)視角建立和維護(hù)相關(guān)方法模型。自動(dòng)化行業(yè)分類模型是經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升的技術(shù)內(nèi)核,隨著人工智能技術(shù)的發(fā)展,相關(guān)模型方法需要進(jìn)行優(yōu)化升級(jí)。標(biāo)準(zhǔn)化的工作機(jī)制與工作流程是確保數(shù)據(jù)質(zhì)量持續(xù)提升的核心關(guān)鍵,建立形成融合技術(shù)、方法與團(tuán)隊(duì)的工作程序體現(xiàn)了數(shù)據(jù)質(zhì)量管理的綜合能力。
2 數(shù)據(jù)質(zhì)量問題識(shí)別與分析方法
數(shù)據(jù)質(zhì)量問題識(shí)別與分析方法研究旨在發(fā)現(xiàn)影響數(shù)據(jù)質(zhì)量的各類問題,并分析原因,進(jìn)而找到解決方法。
2.1 問題分類
從20年工作經(jīng)驗(yàn)中總結(jié)規(guī)律并查閱相關(guān)文獻(xiàn)[9],建立經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量問題識(shí)別與分析模型,用以輔助人工對(duì)大體量數(shù)據(jù)實(shí)現(xiàn)自動(dòng)問題發(fā)現(xiàn)與分析工作,模型包括對(duì)五個(gè)大類問題的識(shí)別:
(1)數(shù)據(jù)完整性問題識(shí)別:主要是對(duì)字段項(xiàng)內(nèi)容中的空值、亂值問題進(jìn)行識(shí)別標(biāo)記。
(2)數(shù)據(jù)標(biāo)準(zhǔn)不一致問題識(shí)別:主要是對(duì)經(jīng)濟(jì)行業(yè)版本不一致的數(shù)據(jù)進(jìn)行識(shí)別標(biāo)記。國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)基本已經(jīng)完成了2011向2017版本的過渡,但由于全國(guó)各地情況多樣,少數(shù)地區(qū)、領(lǐng)域數(shù)據(jù)仍存在使用舊版情況。
(3)數(shù)據(jù)原始上報(bào)不準(zhǔn)確問題識(shí)別:經(jīng)濟(jì)行業(yè)數(shù)據(jù)在注冊(cè)端由機(jī)構(gòu)辦理注冊(cè)人員填報(bào),因此摻雜人為主觀因素造成不準(zhǔn)確情況。需要借助自動(dòng)化行業(yè)分類模型實(shí)現(xiàn)對(duì)此類問題的識(shí)別標(biāo)注。
(4)行業(yè)分類細(xì)分不足問題識(shí)別:國(guó)民經(jīng)濟(jì)行業(yè)分類分為四個(gè)層次,即門類、大類、中類、小類。其中小類代表經(jīng)濟(jì)活動(dòng)可供觀察和度量的最小類別,分到小類意義最大。對(duì)僅分到門類、大類、中類數(shù)據(jù)進(jìn)行識(shí)別標(biāo)記。
(5)跨行業(yè)情況問題識(shí)別:目前企業(yè)跨行業(yè)、跨產(chǎn)業(yè)、橫向發(fā)展的情況日益突出,較大規(guī)模企業(yè)很少有聚焦在垂直細(xì)分一個(gè)行業(yè)的情況。需要借助自動(dòng)化行業(yè)分類模型實(shí)現(xiàn)對(duì)此類問題的識(shí)別標(biāo)注。
2.2 原因分析
近2億組織機(jī)構(gòu)國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)經(jīng)過數(shù)據(jù)質(zhì)量問題識(shí)別與分析模型的計(jì)算甄別,形成無問題以及各類問題標(biāo)記的聚類集合。針對(duì)每個(gè)集合再人工抽樣分析原因確定具體的處理邏輯,主要包括三種情況:
(1)經(jīng)原因分析,由標(biāo)準(zhǔn)不一致、機(jī)構(gòu)名稱規(guī)則識(shí)別缺陷導(dǎo)致,可通過規(guī)則處理對(duì)應(yīng)到準(zhǔn)確行業(yè)分類,進(jìn)入規(guī)則處理過程,進(jìn)行經(jīng)濟(jì)行業(yè)數(shù)據(jù)糾偏完善。
(2)經(jīng)原因分析,由完整性、上報(bào)不準(zhǔn)、細(xì)分不足、缺乏跨行業(yè)分類導(dǎo)致,可通過自動(dòng)化行業(yè)分類模型細(xì)化或糾正行業(yè)分類,進(jìn)入自動(dòng)化行業(yè)分類模型處理過程,進(jìn)行經(jīng)濟(jì)行業(yè)數(shù)據(jù)糾偏完善。
(3)經(jīng)原因分析,由機(jī)構(gòu)名稱、經(jīng)營(yíng)范圍等字段質(zhì)量問題引起行業(yè)分類錯(cuò)誤,進(jìn)入人工應(yīng)急補(bǔ)充處理過程,先進(jìn)行整體數(shù)據(jù)質(zhì)量提升,再重新進(jìn)入國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升工作流程。
數(shù)據(jù)質(zhì)量問題識(shí)別與分析方法過程如圖1所示,通過方法可以形成相對(duì)無問題的數(shù)據(jù)集合,作為優(yōu)質(zhì)樣本集合用于訓(xùn)練分類模型。存在問題的數(shù)據(jù)將多次通過模型去進(jìn)行反復(fù)的問題識(shí)別與分析,直到進(jìn)入無問題數(shù)據(jù)集合。模型產(chǎn)生的標(biāo)記可以宏觀分析監(jiān)控到數(shù)據(jù)問題解決程度與質(zhì)量提升情況。
3 構(gòu)建混合型自動(dòng)化行業(yè)分類模型
人工智能深度學(xué)習(xí)科學(xué)的進(jìn)步,打破傳統(tǒng)基于自然語言處理技術(shù)與規(guī)則匹配的行業(yè)分類方法,通過神經(jīng)網(wǎng)絡(luò)的應(yīng)用能更加快速地進(jìn)行文本特征分析與學(xué)習(xí)[10],消除關(guān)鍵詞相似度匹配造成的語義歧義,從而進(jìn)一步提高分類的效率和精確度。本文融合規(guī)則匹配模型與神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),構(gòu)建混合型自動(dòng)化行業(yè)分類模型,針對(duì)機(jī)構(gòu)名稱和經(jīng)營(yíng)范圍文本各自的特點(diǎn),綜合使用不同分類算法,得到最佳的分類結(jié)果。
3.1 數(shù)據(jù)樣本準(zhǔn)備
剔除經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量問題識(shí)別與分析模型標(biāo)記的部分問題數(shù)據(jù)并通過人工選擇確立包含幾十萬數(shù)據(jù)的樣本庫(kù),數(shù)據(jù)應(yīng)符合以下要求:
(1)涵蓋全部經(jīng)濟(jì)行業(yè)分類。
(2)數(shù)據(jù)機(jī)構(gòu)名稱完整,符合構(gòu)成結(jié)構(gòu):[行政區(qū)劃][機(jī)構(gòu)標(biāo)識(shí)][機(jī)構(gòu)行業(yè)][機(jī)構(gòu)類型],不包含錯(cuò)別字、縮略語。
(3)數(shù)據(jù)經(jīng)營(yíng)范圍完整,內(nèi)容描述完整,不包括大量錯(cuò)別字或僅包括單字、單詞。
(4)經(jīng)濟(jì)行業(yè)分類準(zhǔn)確。
高質(zhì)量數(shù)據(jù)樣本決定了訓(xùn)練模型的效果,機(jī)構(gòu)名稱和經(jīng)營(yíng)范圍字段內(nèi)容是分類經(jīng)濟(jì)行業(yè)的基礎(chǔ)文本。同時(shí)需要準(zhǔn)備標(biāo)準(zhǔn)特征樣本庫(kù),將國(guó)民經(jīng)濟(jì)行業(yè)標(biāo)準(zhǔn)文本轉(zhuǎn)成標(biāo)準(zhǔn)特征樣本。
3.2 基于機(jī)構(gòu)名稱的規(guī)則匹配訓(xùn)練方法
機(jī)構(gòu)名稱的構(gòu)成中包含有機(jī)構(gòu)行業(yè)屬性,如果能準(zhǔn)確地將其剝離,與標(biāo)準(zhǔn)特征樣本匹配一致,即可確定得到基于機(jī)構(gòu)名稱規(guī)則識(shí)別的經(jīng)濟(jì)行業(yè)分類。例如:北京美極鮮食品有限公司,其中“北京”是行政區(qū)劃關(guān)鍵字,“美極鮮”是機(jī)構(gòu)標(biāo)識(shí),也是俗稱的商號(hào),“有限公司”是機(jī)構(gòu)類型,“食品”則能直接反映該機(jī)構(gòu)所在經(jīng)濟(jì)行業(yè)是食品行業(yè)。這里需要用到j(luò)ieba、LTP等中文分詞技術(shù)實(shí)現(xiàn)對(duì)機(jī)構(gòu)名稱的分詞。由于機(jī)構(gòu)名稱是規(guī)則型文本,因此通過分詞解析出特征詞并匹配得到對(duì)應(yīng)經(jīng)濟(jì)行業(yè)的精準(zhǔn)度非常高,但由于這種方法不一定能具體到經(jīng)濟(jì)行業(yè)小類或者三產(chǎn)分類(比如是制造業(yè)還是零售業(yè)),因此需要與經(jīng)營(yíng)范圍分類識(shí)別算法共同使用。
3.3 基于經(jīng)營(yíng)范圍的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法
經(jīng)營(yíng)范圍的構(gòu)成包括多個(gè)文本描述語句,語句之前的間隔符號(hào)。文本描述語句中經(jīng)常包括多個(gè)特征詞,指向多種經(jīng)營(yíng)活動(dòng),涉及多個(gè)行業(yè)甚至多個(gè)產(chǎn)業(yè),因此通過經(jīng)營(yíng)范圍分類一般都會(huì)有多個(gè)分類結(jié)果,常規(guī)以第一個(gè)描述語句產(chǎn)出的分類結(jié)果作為主營(yíng)經(jīng)濟(jì)行業(yè)。
通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)通過經(jīng)營(yíng)范圍識(shí)別經(jīng)濟(jì)行業(yè)類別,首先要將經(jīng)營(yíng)范圍文本轉(zhuǎn)化為卷積神經(jīng)網(wǎng)絡(luò)模型輸入層接收的自然語言序列向量,形成神經(jīng)網(wǎng)絡(luò)可以理解的語言模式。文本中的句號(hào)、逗號(hào)、分號(hào)等可以作為文本的分隔符,形成單獨(dú)處理的文本語句,通過分詞技術(shù)對(duì)文本語句進(jìn)行分詞處理與特征抽取。構(gòu)造詞典映射表,將詞語映射為詞向量,再根據(jù)神經(jīng)網(wǎng)絡(luò)要求對(duì)詞向量進(jìn)行序列化、填充處理,最后形成向量數(shù)據(jù)并逐一輸入網(wǎng)絡(luò)模型。之后卷積神經(jīng)網(wǎng)絡(luò)的卷積層通過卷積操作捕捉輸入向量中的局部特征,通過學(xué)習(xí)連接權(quán)重將學(xué)到的特征映射到多個(gè)不同的的經(jīng)濟(jì)行業(yè)類別,并計(jì)算出最相關(guān)的經(jīng)濟(jì)行業(yè)類別。在訓(xùn)練過程中,模型通過與正確樣本的比較,利用損失函數(shù)來調(diào)整權(quán)重,以最小化分類錯(cuò)誤。卷積神經(jīng)網(wǎng)絡(luò)成功分類的關(guān)鍵在于模型通過學(xué)習(xí)權(quán)重和偏置來發(fā)現(xiàn)經(jīng)營(yíng)范圍文本中與經(jīng)濟(jì)行業(yè)相關(guān)的抽象特征,通過學(xué)習(xí)大量已知的、準(zhǔn)確的樣本數(shù)據(jù),進(jìn)而泛化到未知數(shù)據(jù),對(duì)新輸入的經(jīng)營(yíng)范圍文本進(jìn)行經(jīng)濟(jì)行業(yè)分類。
3.4 合并形成混合型自動(dòng)化行業(yè)分類結(jié)果
將基于機(jī)構(gòu)名稱的規(guī)則匹配方法與基于經(jīng)營(yíng)范圍的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法得到的經(jīng)濟(jì)行業(yè)分類結(jié)果合并分析,可以發(fā)現(xiàn),樣本準(zhǔn)確度高的情況下一致性較高,如果出現(xiàn)不一致,由于經(jīng)營(yíng)范圍數(shù)據(jù)質(zhì)量低于機(jī)構(gòu)名稱數(shù)據(jù)質(zhì)量可能性較大,可以優(yōu)先使用機(jī)構(gòu)名稱產(chǎn)生的分類。
4 數(shù)據(jù)質(zhì)量持續(xù)提升標(biāo)準(zhǔn)化流程機(jī)制
國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升工作是一項(xiàng)常態(tài)化工作。在日常工作中建立促使數(shù)據(jù)質(zhì)量持續(xù)提升的標(biāo)準(zhǔn)化流程機(jī)制,才能確保國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量實(shí)現(xiàn)長(zhǎng)效優(yōu)化。具體包括三個(gè)方面的工作流程機(jī)制:數(shù)據(jù)日常處理工作流程機(jī)制、數(shù)據(jù)質(zhì)量監(jiān)測(cè)工作流程機(jī)制以及數(shù)據(jù)模型優(yōu)化工作流程機(jī)制,如圖2所示。
4.1 數(shù)據(jù)日常處理工作流程機(jī)制
統(tǒng)一社會(huì)信用代碼數(shù)據(jù)是由每日注冊(cè)業(yè)務(wù)產(chǎn)生的數(shù)據(jù),從數(shù)據(jù)回傳到數(shù)據(jù)應(yīng)用具有很高的時(shí)效性要求,因此經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升工作是一項(xiàng)內(nèi)嵌于代碼數(shù)據(jù)工作流中的子任務(wù),作為代碼數(shù)據(jù)整體質(zhì)量提升工作中的一個(gè)并行分支,在數(shù)據(jù)應(yīng)用前通過經(jīng)濟(jì)行業(yè)質(zhì)量提升子系統(tǒng)完成質(zhì)量提升工作。
數(shù)據(jù)回傳進(jìn)入中心統(tǒng)一社會(huì)信用代碼數(shù)據(jù)庫(kù),經(jīng)濟(jì)行業(yè)數(shù)據(jù)輸入進(jìn)入經(jīng)濟(jì)行業(yè)質(zhì)量提升子系統(tǒng),首先進(jìn)入問題識(shí)別與分析模塊,針對(duì)每一條機(jī)構(gòu)數(shù)據(jù)對(duì)經(jīng)濟(jì)行業(yè)存在的問題進(jìn)行標(biāo)記,無問題標(biāo)記數(shù)據(jù)進(jìn)入后續(xù)數(shù)據(jù)加工處理環(huán)節(jié),有問題數(shù)據(jù)進(jìn)入質(zhì)量修復(fù)模塊,針對(duì)質(zhì)量問題進(jìn)行修復(fù),然后重復(fù)進(jìn)入問題識(shí)別與分析模塊,查看問題修復(fù)情況,如果再次存在問題,拋出進(jìn)入人工協(xié)同工作站,由數(shù)據(jù)人員對(duì)問題原因進(jìn)行深層次分析與處理。
4.2 數(shù)據(jù)質(zhì)量檢測(cè)流程機(jī)制
數(shù)據(jù)質(zhì)量檢測(cè)流程機(jī)制用于人工監(jiān)督數(shù)據(jù)整體質(zhì)量情況,包括通過合理抽樣數(shù)據(jù)實(shí)施質(zhì)量檢測(cè)、通過質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)判斷整體數(shù)據(jù)質(zhì)量以及挖掘發(fā)現(xiàn)質(zhì)量問題三個(gè)方面。
(1)數(shù)據(jù)質(zhì)量抽樣
數(shù)據(jù)質(zhì)量抽樣需要選擇能夠代表整體數(shù)據(jù)集的樣本。這可能涉及到隨機(jī)抽樣、分層抽樣或者特定規(guī)則下的樣本選擇。樣本應(yīng)該在各個(gè)維度上具有代表性,以確保抽樣結(jié)果對(duì)整體數(shù)據(jù)的反映具有可靠性和有效性。抽樣的規(guī)模很關(guān)鍵,要考慮到樣本數(shù)量對(duì)于數(shù)據(jù)集的代表性以及評(píng)估人工成本的可操作性。
經(jīng)濟(jì)行業(yè)數(shù)據(jù)量級(jí)與機(jī)構(gòu)量級(jí)相統(tǒng)一達(dá)到近2億條,因此在質(zhì)量檢測(cè)工作中,需要選擇合理抽樣方法獲取小樣本的方式,集中評(píng)價(jià)發(fā)現(xiàn)質(zhì)量問題。首先結(jié)合經(jīng)濟(jì)行業(yè)數(shù)據(jù)特點(diǎn)確定抽樣方案,一般包括三種:
第一是按照經(jīng)濟(jì)行業(yè)分類層級(jí)進(jìn)行分層抽樣,按照經(jīng)濟(jì)行業(yè)門類20個(gè),大類97個(gè),中類473個(gè)和小類1380個(gè),每類抽取一定樣本,這樣可以實(shí)現(xiàn)各類經(jīng)濟(jì)行業(yè)情況的全覆蓋,但由于分類較多,考慮人工成本,只能減少每個(gè)分類的抽樣數(shù)量,一般單個(gè)分類樣本數(shù)量只能在個(gè)位數(shù)。第二按照地域進(jìn)行特定規(guī)則抽樣,全國(guó)各省、市、自治區(qū)(不包括港澳臺(tái)),每個(gè)抽取一定樣本,這樣可以看到各地上報(bào)數(shù)據(jù)質(zhì)量情況,對(duì)質(zhì)量狀況不好的地域集中發(fā)現(xiàn)問題、治理問題。第三個(gè)是按照機(jī)構(gòu)類型進(jìn)行特定規(guī)則抽樣,可以強(qiáng)化對(duì)某個(gè)類型機(jī)構(gòu)的經(jīng)濟(jì)行業(yè)數(shù)據(jù)關(guān)注與治理。
(2)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)
質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)[11]是用于衡量數(shù)據(jù)質(zhì)量的指標(biāo)和標(biāo)準(zhǔn),它們用于度量數(shù)據(jù)的各個(gè)方面,確保數(shù)據(jù)符合預(yù)期的質(zhì)量標(biāo)準(zhǔn)。經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)包括以下三種:
第一完整性(Completeness):衡量數(shù)據(jù)的完整程度,即經(jīng)濟(jì)行業(yè)數(shù)據(jù)是否缺失或者不可解讀。第二準(zhǔn)確性(Accuracy):衡量數(shù)據(jù)的準(zhǔn)確性,即經(jīng)濟(jì)行業(yè)數(shù)據(jù)是否與機(jī)構(gòu)名稱、經(jīng)營(yíng)范圍描述相符。第三有效性(Validity):衡量數(shù)據(jù)是否符合預(yù)定的規(guī)范和業(yè)務(wù)規(guī)則,即經(jīng)濟(jì)行業(yè)數(shù)據(jù)是否符合標(biāo)準(zhǔn)的定義和具有完整的分類編碼。
評(píng)價(jià)可以針對(duì)全量數(shù)據(jù)產(chǎn)生宏觀評(píng)價(jià),也可以對(duì)小樣本數(shù)據(jù)或單一數(shù)據(jù)進(jìn)行評(píng)價(jià)。
(3)質(zhì)量問題發(fā)現(xiàn)
質(zhì)量問題發(fā)現(xiàn)是通過一系列的檢測(cè)和分析步驟,識(shí)別和定位數(shù)據(jù)質(zhì)量問題的過程。經(jīng)濟(jì)行業(yè)質(zhì)量問題發(fā)現(xiàn)可以從宏觀分析、抽樣分析、用戶反饋和異常報(bào)告三個(gè)方面發(fā)現(xiàn)問題:
宏觀分析發(fā)現(xiàn)數(shù)據(jù)問題是指從經(jīng)濟(jì)行業(yè)數(shù)據(jù)整體分類數(shù)據(jù)統(tǒng)計(jì)情況,發(fā)現(xiàn)數(shù)據(jù)量趨勢(shì)或分布存在異常,從而推導(dǎo)出經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量出現(xiàn)問題,例如金屬制造行業(yè)某個(gè)省占比達(dá)到10%,比上月占比高出20%,從這里可以推測(cè)出部分行業(yè)數(shù)據(jù)出現(xiàn)分類錯(cuò)誤情況,可以著重分析問題原因進(jìn)而糾正。抽樣分析發(fā)現(xiàn)數(shù)據(jù)問題是指從數(shù)據(jù)質(zhì)量抽樣到的小樣本數(shù)據(jù),通過逐一核實(shí)分析,發(fā)現(xiàn)錯(cuò)誤、缺失等情況等,聚類找到共性問題原因進(jìn)行質(zhì)量糾正。用戶反饋和異常報(bào)告是指根據(jù)收集到的用戶反饋和異常報(bào)告,了解用戶在實(shí)際使用中遇到的問題數(shù)據(jù),進(jìn)而對(duì)問題數(shù)據(jù)進(jìn)行逐條分析,發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題。
4.3 數(shù)據(jù)模型優(yōu)化工作流程機(jī)制
數(shù)據(jù)模型優(yōu)化工作流程機(jī)制是指通過人工分析問題對(duì)模型涉及的語料、規(guī)則進(jìn)行補(bǔ)充。該流程機(jī)制內(nèi)嵌在人工協(xié)同工作站中,當(dāng)在質(zhì)量提升流程中遇到目前模型算法難以自動(dòng)處理的難點(diǎn),經(jīng)濟(jì)行業(yè)數(shù)據(jù)會(huì)進(jìn)入人工分析處理流程,確定是判定規(guī)則缺失、詞庫(kù)特征詞缺失還是標(biāo)準(zhǔn)語料庫(kù)缺失從而人工添加相應(yīng)的規(guī)則、詞語或語料,促進(jìn)模型的優(yōu)化,提高日后判定的準(zhǔn)確度。
5 結(jié) 語
法人和其他組織統(tǒng)一社會(huì)信用代碼數(shù)據(jù)國(guó)民經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量多年來不斷完善和提高,通過開放共享的數(shù)據(jù)提供更好的服務(wù)模式[12]。本文論述了在質(zhì)量提升工作中應(yīng)用到的具體方法機(jī)制,包括技術(shù)方法:數(shù)據(jù)質(zhì)量問題識(shí)別與分析方法、自動(dòng)化行業(yè)分類模型,以及日常處理、質(zhì)量檢測(cè)和模型優(yōu)化的工作流程機(jī)制。經(jīng)濟(jì)行業(yè)數(shù)據(jù)質(zhì)量提升工作需要保持不斷的總結(jié)和探索,精益求精,為國(guó)家宏觀分析決策工作筑起堅(jiān)實(shí)的基礎(chǔ)底座。
參考文獻(xiàn)
[1]周燁.法人及其他組織統(tǒng)一社會(huì)信用代碼數(shù)據(jù)在大市場(chǎng)監(jiān)管信息化工作中的應(yīng)用研究[J].科技風(fēng),2019(26):265-266.
[2]劉吉洲,張永全,鄭偉,等.區(qū)域性統(tǒng)一社會(huì)信用代碼信息服務(wù)實(shí)踐與研究——以山東省濟(jì)寧市為例[J].中國(guó)標(biāo)準(zhǔn)化,2020(7):114-118.
[3]張根紅,安鴻志,吳建軍,等.統(tǒng)一社會(huì)信用代碼在衛(wèi)生監(jiān)督執(zhí)法領(lǐng)域信用監(jiān)管中的應(yīng)用探討[J].中國(guó)衛(wèi)生監(jiān)督雜志,2021,28(3):266-270.
[4]周順驥.基于福建省法人和其他組織統(tǒng)一社會(huì)信用代碼的數(shù)字經(jīng)濟(jì)發(fā)展?fàn)顩r研究[J ].中國(guó)質(zhì)量與標(biāo)準(zhǔn)導(dǎo)報(bào),2022(6):75-79.
[5]黃潤(rùn)飛,陳賢明,黃燕玲,等.基于身份標(biāo)識(shí)和區(qū)塊鏈技術(shù)的粵港澳大灣區(qū)法人及其他組織跨境身份認(rèn)證應(yīng)用研究[J].標(biāo)準(zhǔn)科學(xué),2023(8):53-57.
[6]周叢叢.以企業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量提升促政府經(jīng)濟(jì)調(diào)控高效問題探討[J].中小企業(yè)管理與科技,2023(21):92-94.
[7]關(guān)于批準(zhǔn)發(fā)布《國(guó)民經(jīng)濟(jì)行業(yè)分類》國(guó)家標(biāo)準(zhǔn)的公告2017年第17號(hào)[J].中國(guó)標(biāo)準(zhǔn)化,2018(1):150.
[8]沈健威,朱峰.以共享應(yīng)用為導(dǎo)向的統(tǒng)一社會(huì)信用代碼數(shù)據(jù)質(zhì)量提升方法路徑研究[J].標(biāo)準(zhǔn)科學(xué),2020(8):111-114.
[9]楊四娟.專利數(shù)據(jù)統(tǒng)計(jì)中《國(guó)民經(jīng)濟(jì)行業(yè)分類》代碼的應(yīng)用研究——以醫(yī)藥制造業(yè)為例的重點(diǎn)及典型調(diào)查法舉證分析[J].中國(guó)發(fā)明與專利,2021,18(10):12-20.
[10]陳鋼.基于混合神經(jīng)網(wǎng)絡(luò)模型的企業(yè)行業(yè)分類[J].電子設(shè)計(jì)工程,2022,30(24):64-69.
[11]張寧,袁勤儉.數(shù)據(jù)質(zhì)量評(píng)價(jià)述評(píng)[ J ] .情報(bào)理論與實(shí)踐,2017,40(10):135-139.
[12]田建華,賀玉峰,陳宇,等.基于專題數(shù)據(jù)庫(kù)的統(tǒng)一社會(huì)信用代碼創(chuàng)新應(yīng)用研究[J].標(biāo)準(zhǔn)科學(xué),2020(5):53-59.
作者簡(jiǎn)介
趙捷,碩士,高級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù)治理和信息技術(shù)標(biāo)準(zhǔn)化。
袁輝,碩士,高級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù)分析和信息技術(shù)標(biāo)準(zhǔn)化。
鄧祥武,本科,高級(jí)工程師,研究方向?yàn)樾畔⒓夹g(shù)標(biāo)準(zhǔn)化。
宮政,碩士,高級(jí)工程師,研究方向?yàn)閿?shù)據(jù)分析與數(shù)據(jù)治理。
司琳華,碩士,高級(jí)工程師,研究方向?yàn)樾畔⒓夹g(shù)標(biāo)準(zhǔn)化。
金江,本科,高級(jí)工程師,研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)和信息技術(shù)標(biāo)準(zhǔn)化。
(責(zé)任編輯:袁文靜)