周 欣 張弛海
?
基于數(shù)據(jù)挖掘的海關(guān)風(fēng)險(xiǎn)分類(lèi)預(yù)測(cè)模型研究
周 欣 張弛海*
海關(guān)業(yè)務(wù)每日產(chǎn)生的海量記錄中蘊(yùn)藏著數(shù)據(jù)“金礦”有待進(jìn)一步挖掘,為加強(qiáng)海關(guān)風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確性,讓大數(shù)據(jù)的價(jià)值進(jìn)一步得到顯現(xiàn),本文采用數(shù)據(jù)挖掘分類(lèi)分析的方法,對(duì)歷史報(bào)關(guān)單數(shù)據(jù)進(jìn)行分析,根據(jù)其查獲情況,將有查獲與否作為分類(lèi)標(biāo)號(hào),建立分類(lèi)模型對(duì)歷史報(bào)關(guān)單進(jìn)行分類(lèi),提取相關(guān)的規(guī)則,揭示數(shù)據(jù)中隱藏的規(guī)律并運(yùn)用其規(guī)律進(jìn)行預(yù)測(cè),為報(bào)關(guān)單的風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)提供參考。
數(shù)據(jù)挖掘;海關(guān)風(fēng)險(xiǎn)管理;預(yù)測(cè)模型
目前,無(wú)紙化通關(guān)已覆蓋所有海關(guān),海關(guān)電子數(shù)據(jù)信息量呈現(xiàn)了爆炸式增長(zhǎng),數(shù)量巨大、來(lái)源分散、格式多樣的大數(shù)據(jù)對(duì)海關(guān)服務(wù)和監(jiān)管能力提出了新的挑戰(zhàn),也帶來(lái)了新的機(jī)遇。海關(guān)作為進(jìn)出境監(jiān)管機(jī)關(guān),大數(shù)據(jù)的運(yùn)用將成為提高海關(guān)管理能力的重要手段。為積極落實(shí)一體化通關(guān)管理,深入貫徹海關(guān)全面深化改革方案,風(fēng)險(xiǎn)防控中心和稅收征管中心建設(shè)需要依托進(jìn)出口大數(shù)據(jù)的批量聚集和監(jiān)控分析,進(jìn)而實(shí)現(xiàn)海關(guān)通關(guān)流程的前推后移和科學(xué)改造。*歐陽(yáng)晨:《海關(guān)應(yīng)用大數(shù)據(jù)的實(shí)踐與思考》,《海關(guān)與經(jīng)貿(mào)研究》2016第3期。
大數(shù)據(jù)的運(yùn)用包括“數(shù)據(jù)分析”和“數(shù)據(jù)挖掘”兩個(gè)層面,它們的目的都是發(fā)現(xiàn)數(shù)據(jù)的價(jià)值,但是過(guò)程和方法有所區(qū)別。傳統(tǒng)的“數(shù)據(jù)分析”一般分析目標(biāo)相對(duì)明確,主要運(yùn)用統(tǒng)計(jì)的方法從數(shù)據(jù)得到一些信息,不涉及深層規(guī)律的探討。“數(shù)據(jù)挖掘”是探查和分析大量數(shù)據(jù)以發(fā)現(xiàn)有意義的規(guī)則和模式的過(guò)程,是在沒(méi)有明確假設(shè)的前提下去挖掘信息發(fā)現(xiàn)知識(shí),發(fā)現(xiàn)的是那些不能靠直覺(jué)和經(jīng)驗(yàn)發(fā)現(xiàn)的規(guī)律,需要通過(guò)一定的方法和工具來(lái)進(jìn)行挖掘。
數(shù)據(jù)挖掘根據(jù)目標(biāo)不同可以分為預(yù)測(cè)型任務(wù)和描述性任務(wù)。預(yù)測(cè)性任務(wù)是根據(jù)其他屬性的值預(yù)測(cè)特定屬性的值,如回歸、分類(lèi)、離群點(diǎn)檢測(cè)。描述型任務(wù)是尋找數(shù)據(jù)中有潛在聯(lián)系的模式,如聚類(lèi)分析、關(guān)聯(lián)分析、序列模式挖掘。*蔣盛益:《商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析》,電子工業(yè)出版社2014年版。目前已有研究者對(duì)海關(guān)數(shù)據(jù)挖掘進(jìn)行了探索,如喻宇應(yīng)用異常檢測(cè)的方法對(duì)重慶海關(guān)進(jìn)出口數(shù)據(jù)的風(fēng)險(xiǎn)點(diǎn)進(jìn)行了探索,*喻宇:《重慶海關(guān)進(jìn)出口數(shù)據(jù)挖掘與分析》,重慶大學(xué)2008年碩士論文。周博等研究了數(shù)據(jù)挖掘技術(shù)在海關(guān)旅檢風(fēng)險(xiǎn)分析系統(tǒng)當(dāng)中的應(yīng)用,*周博、潘欣、何忠林等:《數(shù)據(jù)挖掘技術(shù)在海關(guān)旅檢風(fēng)險(xiǎn)分析系統(tǒng)當(dāng)中的應(yīng)用》,《上海海關(guān)學(xué)院學(xué)報(bào)》2008年第4期。周欣從知識(shí)管理的角度對(duì)海關(guān)數(shù)據(jù)挖掘和文本挖掘方法進(jìn)行了展望。*周欣:《知識(shí)管理在海關(guān)風(fēng)險(xiǎn)識(shí)別中的應(yīng)用探索》,《海關(guān)與經(jīng)貿(mào)研究》2014年第4期。
本文采用數(shù)據(jù)挖掘分類(lèi)(Classification)分析的方法,對(duì)歷史報(bào)關(guān)單數(shù)據(jù)進(jìn)行分析,根據(jù)其查獲情況,將有查獲與否作為分類(lèi)標(biāo)號(hào),建立分類(lèi)模型對(duì)歷史報(bào)關(guān)單進(jìn)行分類(lèi),提取相關(guān)的規(guī)則,為現(xiàn)有報(bào)關(guān)單的風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)提供參考。
本文采用“跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)”CRISP-DM(Cross-industry Standard Process for Data Mining)展開(kāi)研究,CRISP-DM是標(biāo)準(zhǔn)的數(shù)據(jù)挖掘處理流程,將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期分為六個(gè)階段,包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和部署。
(1)業(yè)務(wù)理解。作為數(shù)據(jù)挖掘的第一階段,從業(yè)務(wù)的角度了解項(xiàng)目的需要和最終需求,同時(shí)將需求轉(zhuǎn)化為目標(biāo)并制定初步的實(shí)現(xiàn)計(jì)劃。
(2)數(shù)據(jù)理解。經(jīng)過(guò)數(shù)據(jù)收集,經(jīng)過(guò)特定的處理,使數(shù)據(jù)分析人員熟悉數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量問(wèn)題,理解數(shù)據(jù)的內(nèi)部屬性,提出關(guān)于數(shù)據(jù)所包含信息的相關(guān)假設(shè)。
(3)數(shù)據(jù)準(zhǔn)備。從源數(shù)據(jù)中構(gòu)造適合挖掘的數(shù)據(jù)集,便于將這些數(shù)據(jù)輸入模型。這些工作包括選擇表、記錄和屬性,同時(shí)轉(zhuǎn)換和清洗數(shù)據(jù)。
(4)建模。對(duì)已經(jīng)預(yù)處理的數(shù)據(jù)進(jìn)行分析,選擇和應(yīng)用不同的建模技術(shù),構(gòu)建模型,調(diào)整參數(shù)。
(5)評(píng)估。對(duì)模型結(jié)果進(jìn)行評(píng)估,回顧檢測(cè)挖掘探索過(guò)程,保證模型可以滿(mǎn)足業(yè)務(wù)需求。
(6)部署。根據(jù)業(yè)務(wù)需求,將數(shù)據(jù)挖掘結(jié)果制作分析報(bào)告,供決策人員參考。
在實(shí)際應(yīng)用中,上述六個(gè)步驟不是一次性執(zhí)行而是人機(jī)交互,反復(fù)迭代、不斷完善的過(guò)程,在不同階段之間來(lái)回反復(fù)以逐步完善,如圖1所示。
圖1 CRISP-DM流程圖
(一)業(yè)務(wù)理解
企業(yè)向海關(guān)進(jìn)行申報(bào)后,海關(guān)需要對(duì)這些報(bào)關(guān)單進(jìn)行風(fēng)險(xiǎn)分析,從而決定是否進(jìn)行查驗(yàn)。因此,需建立一個(gè)具有較高的預(yù)測(cè)準(zhǔn)確度的報(bào)關(guān)單分類(lèi)預(yù)測(cè)模型,來(lái)進(jìn)行報(bào)關(guān)單風(fēng)險(xiǎn)判斷。本文數(shù)據(jù)挖掘目標(biāo)是根據(jù)歷史報(bào)關(guān)單數(shù)據(jù)中發(fā)現(xiàn)有查獲的報(bào)關(guān)單的風(fēng)險(xiǎn)特征和規(guī)律,這樣就可以利用這些特征和規(guī)律來(lái)判斷報(bào)關(guān)單的風(fēng)險(xiǎn)程度,為今后海關(guān)報(bào)關(guān)單風(fēng)險(xiǎn)評(píng)價(jià)提供參考。
為此,本文根據(jù)企業(yè)的查驗(yàn)處理結(jié)果對(duì)數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)號(hào),將表示查驗(yàn)處理結(jié)果的字段設(shè)為目標(biāo)字段,其余字段作為訓(xùn)練模型的預(yù)測(cè)字段。
(二)數(shù)據(jù)理解
本文挖掘的數(shù)據(jù)為模擬進(jìn)口報(bào)關(guān)單數(shù)據(jù),分布在不同商品稅號(hào)、不同企業(yè)、不同監(jiān)管方式下,其中查驗(yàn)處理結(jié)果為未查獲的報(bào)關(guān)單占82.73%,有查獲的報(bào)關(guān)單占總量的17.27%。
數(shù)據(jù)集12共含25個(gè)報(bào)關(guān)單數(shù)據(jù)字段,具體包括單證號(hào)碼、進(jìn)出口標(biāo)志、運(yùn)輸方式代碼、經(jīng)營(yíng)單位注冊(cè)關(guān)區(qū)、經(jīng)營(yíng)單位注冊(cè)地區(qū)、經(jīng)營(yíng)單位性質(zhì)、企業(yè)級(jí)別、監(jiān)管方式、件數(shù)、毛重、查驗(yàn)處理結(jié)果(代碼)、商品編號(hào)、商品名稱(chēng)、商品規(guī)格、產(chǎn)銷(xiāo)國(guó)、第一(法定)數(shù)量、商品單位、申報(bào)單價(jià)、成交幣制、成交總價(jià)、注冊(cè)資本(萬(wàn))、注冊(cè)資金幣制、行業(yè)種類(lèi)、注冊(cè)日期、商品序號(hào)。
(三)數(shù)據(jù)準(zhǔn)備
查驗(yàn)處理結(jié)果(代碼)中代碼種類(lèi)過(guò)多,為簡(jiǎn)化計(jì)算,根據(jù)該特征值生成新的標(biāo)志特征值,“查驗(yàn)處理結(jié)果”為“02”的設(shè)置其“查驗(yàn)結(jié)果標(biāo)志”為“0”,其余有查獲的設(shè)置其“查驗(yàn)結(jié)果標(biāo)志”為“1”。原“商品代碼(HS編碼)”與“產(chǎn)銷(xiāo)國(guó)”特征值過(guò)多,不利于發(fā)現(xiàn)數(shù)據(jù)間的共性,且加大了挖掘的計(jì)算量。因此對(duì)其進(jìn)行截位,得到商品代碼第一和第二位(導(dǎo)出商品代碼12)及產(chǎn)銷(xiāo)大洲兩個(gè)新屬性。此外,為加快運(yùn)算速度,“注冊(cè)資本”、“毛重”、“成交總價(jià)”進(jìn)行了連續(xù)變量離散化的區(qū)間分段處理。
在進(jìn)行數(shù)據(jù)過(guò)濾后得到16個(gè)輸出屬性,部分屬性的樣本分布如圖2所示,柱狀圖分為上下兩個(gè)部分,上部查驗(yàn)結(jié)果標(biāo)記為“0”為無(wú)查獲報(bào)關(guān)單,下部位查驗(yàn)結(jié)果標(biāo)記為“1”的有查獲報(bào)關(guān)單。從樣本圖形分布說(shuō)明查驗(yàn)結(jié)果標(biāo)記在各個(gè)特征中分布比較均勻,針對(duì)單個(gè)特征的分析可能很難獲得滿(mǎn)意結(jié)果,應(yīng)考慮使用更為全面、深入的模式識(shí)別算法進(jìn)行挖掘。
圖2 主要屬性的樣本分布圖
(四)建?!獩Q策樹(shù)模型
本次挖掘抽取70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%數(shù)據(jù)作為測(cè)試集,在挖掘方法上選用決策樹(shù)(Decision Tree)分類(lèi)方法,決策樹(shù)分類(lèi)利用樹(shù)形結(jié)構(gòu)來(lái)表示決策集合,這些決策集合通過(guò)對(duì)數(shù)據(jù)集的分類(lèi)產(chǎn)生規(guī)則。該方法分類(lèi)速度快,決策樹(shù)模型簡(jiǎn)單直觀,易于理解,可以清晰顯示哪些字段比較重要,及可以生成容易理解的規(guī)則,因此決策樹(shù)分類(lèi)以其特有的優(yōu)點(diǎn)已得到了廣泛的應(yīng)用。
本次挖掘選擇了軟件內(nèi)置的二元分類(lèi)器進(jìn)行訓(xùn)練和評(píng)估。其中涉及到的決策樹(shù)算法有Quest和CHAID。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu),一個(gè)典型的決策樹(shù)包括決策節(jié)點(diǎn)、分支和葉節(jié)點(diǎn)三個(gè)部分,如圖3所示。其中決策節(jié)點(diǎn)代表某個(gè)測(cè)試條件,通常對(duì)應(yīng)于待分類(lèi)對(duì)象的某個(gè)屬性,在該屬性上的不同測(cè)試結(jié)果對(duì)應(yīng)一個(gè)分支。每個(gè)葉節(jié)點(diǎn)存放某個(gè)類(lèi)標(biāo)號(hào)值,表示一種可能的分類(lèi)結(jié)果。決策樹(shù)可以對(duì)未知樣本進(jìn)行分類(lèi),分類(lèi)過(guò)程如下:從決策樹(shù)的根節(jié)點(diǎn)開(kāi)始,從上往下沿某個(gè)分支往下搜索,直到葉節(jié)點(diǎn),以葉節(jié)點(diǎn)的類(lèi)標(biāo)號(hào)值作為該未知樣本所屬類(lèi)標(biāo)號(hào)。在生成決策樹(shù)后,可以觀察樹(shù)的各級(jí)分支,找出目標(biāo)特征較為集中的葉節(jié)點(diǎn),發(fā)現(xiàn)其中的規(guī)律。
圖3 CHAID決策樹(shù)局部
對(duì)樣本總體,有查獲的報(bào)關(guān)單占總量的17.27%(標(biāo)記為“1”),沒(méi)有查獲的報(bào)關(guān)單占82.73%(標(biāo)記為“0”)。圖3中幾個(gè)葉節(jié)點(diǎn)中標(biāo)記為“1”的報(bào)關(guān)單占比如圖4所示。
其中節(jié)點(diǎn)16的標(biāo)記為“1”的有查獲報(bào)關(guān)單比例達(dá)34.52%,顯著高于樣本數(shù)據(jù)17.27%的查獲率,說(shuō)明該節(jié)點(diǎn)為高風(fēng)險(xiǎn)節(jié)點(diǎn),讀取決策樹(shù)分類(lèi)規(guī)則得出:監(jiān)管方式為“0110、0845、1200、2700”,且運(yùn)輸方式代碼為“2、6”,且產(chǎn)銷(xiāo)大洲為“2、7”的風(fēng)險(xiǎn)比較高。
而節(jié)點(diǎn)29標(biāo)記為“1”的有查獲報(bào)關(guān)單比例為5.43%,顯著低于樣本比例,說(shuō)明該節(jié)點(diǎn)為低風(fēng)險(xiǎn)節(jié)點(diǎn)。其分類(lèi)規(guī)則為:運(yùn)輸方式代碼為“2、5、8、9、Y”且監(jiān)管方式為“0300、0444、0544、0700、0815、1741、2600、3100、5034、5335、9600、9900”的風(fēng)險(xiǎn)比較低。
圖4 決策樹(shù)葉節(jié)點(diǎn)有查獲報(bào)關(guān)單比例(標(biāo)記為“1”)
類(lèi)似的,如圖5所示,在節(jié)點(diǎn)0(根節(jié)點(diǎn))標(biāo)記為“1”(即有查獲)的報(bào)關(guān)單為17.427%,而在節(jié)點(diǎn)3中,該節(jié)點(diǎn)下目標(biāo)特征為“1”的比例極大,說(shuō)明符合該屬性的項(xiàng)風(fēng)險(xiǎn)極大。
圖5 決策樹(shù)葉節(jié)點(diǎn)顯示高風(fēng)險(xiǎn)區(qū)域
由此,決策樹(shù)模型生成規(guī)則集,用判定規(guī)則來(lái)表示決策節(jié)點(diǎn)。在圖6的規(guī)則集為:監(jiān)管方式為“0245”、“0258”、“4561”、“9639”的數(shù)據(jù)集將被分類(lèi)標(biāo)注為“1”,是高風(fēng)險(xiǎn)報(bào)關(guān)單,其余則為標(biāo)記為0,為低風(fēng)險(xiǎn)報(bào)關(guān)單。決策樹(shù)生成的規(guī)則相比其他模型更容易理解,更具實(shí)踐意義。
圖6 決策樹(shù)生成的分類(lèi)規(guī)則
同時(shí),決策樹(shù)還可以對(duì)各輸入屬性對(duì)分類(lèi)結(jié)果影響的重要性進(jìn)行排序,在本例中,對(duì)查驗(yàn)結(jié)果影響最高的幾個(gè)屬性分別為“監(jiān)管方式”、“運(yùn)輸方式代碼”、“企業(yè)類(lèi)別”、“產(chǎn)銷(xiāo)大洲”“經(jīng)營(yíng)單位性質(zhì)”、“注冊(cè)年限”,其重要性具體數(shù)值如圖7所示。
圖7 輸入屬性的重要性比較
(五)模型評(píng)估
(1)模型篩選
各模型進(jìn)行訓(xùn)練之后,就要利用測(cè)試集對(duì)各分類(lèi)模型根據(jù)預(yù)測(cè)準(zhǔn)確度進(jìn)行分析評(píng)估,評(píng)估出預(yù)測(cè)準(zhǔn)確度最高的模型。根據(jù)以上各模型的輸出結(jié)果分布,以及二元分類(lèi)器下的模型輸出分布,篩選出最大利潤(rùn)較大、構(gòu)建時(shí)間較短的模型進(jìn)行下一步分析。如圖8所示,二元分類(lèi)器共生成三個(gè)模型,其中Quest和CHAID的總體精確性較高,予以采用,而決策列表的準(zhǔn)確性相對(duì)較低,予以放棄。
圖8 二元分類(lèi)器輸出
在數(shù)據(jù)挖掘的過(guò)程中,往往會(huì)用到多種算法,如C5.0、Quest和CHAID等決策樹(shù)分類(lèi)算法、Logistic回歸、貝葉斯分類(lèi)、神經(jīng)網(wǎng)絡(luò)等,對(duì)于不同算法得出的預(yù)測(cè)結(jié)果,往往各有千秋,因此,可以采用集成學(xué)習(xí)法(EnsembleLearning),將多個(gè)學(xué)習(xí)方法聚集在一起來(lái)提高分類(lèi)準(zhǔn)確率和模型的穩(wěn)定性。集成學(xué)習(xí)法由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類(lèi)器,然后對(duì)每個(gè)基分類(lèi)器的預(yù)測(cè)進(jìn)行投票來(lái)實(shí)現(xiàn)分類(lèi),然后在分類(lèi)未知樣本時(shí)以投票策略繼承它們的預(yù)測(cè)結(jié)果,且通常一個(gè)繼承分類(lèi)器的分類(lèi)性能會(huì)好于單個(gè)分類(lèi)器。本文通過(guò)整體節(jié)點(diǎn)來(lái)構(gòu)建繼承分類(lèi)器,利用Quest和CHAID算法產(chǎn)生基分類(lèi)器后,利用整體節(jié)點(diǎn)進(jìn)行集成。整體節(jié)點(diǎn)會(huì)根據(jù)各模型的置信度加權(quán)投票,對(duì)每一項(xiàng)預(yù)測(cè)確定最終的結(jié)果。
(2)預(yù)測(cè)結(jié)果評(píng)價(jià)
在采用集成分類(lèi)后的測(cè)試集最終輸出結(jié)果如圖9和表1所示。其中,圖9中標(biāo)注為“0”的是測(cè)試集中實(shí)際沒(méi)有查獲的樣本,標(biāo)注“1”的是測(cè)試集中實(shí)際有查獲的樣本,分別占比“82.61”、“17.39”,而經(jīng)計(jì)算機(jī)分類(lèi)預(yù)測(cè)得到有查獲的部分為左側(cè)部分。具體數(shù)值詳見(jiàn)表1測(cè)試集預(yù)測(cè)結(jié)果判錯(cuò)矩陣,命中報(bào)關(guān)單211票,未命中的報(bào)關(guān)單為1359票,命中率為13.4%,查驗(yàn)率為2.67%,查獲率為87.9%,盡管命中率相對(duì)較低,但以較低的查驗(yàn)率獲得了較高的查獲率。
表1 測(cè)試集預(yù)測(cè)結(jié)果判錯(cuò)矩陣
圖9 測(cè)試集預(yù)測(cè)結(jié)果
(3)誤分類(lèi)成本參數(shù)敏感性分析
由于把高風(fēng)險(xiǎn)申報(bào)歸入低風(fēng)險(xiǎn)類(lèi),比把低風(fēng)險(xiǎn)類(lèi)申報(bào)歸入高風(fēng)險(xiǎn)類(lèi)的損失更大,因此可以通過(guò)調(diào)節(jié)決策樹(shù)的誤分類(lèi)損失參數(shù),來(lái)指定不同類(lèi)型預(yù)測(cè)錯(cuò)誤之間的相對(duì)重要性,輸入自定義的損失值后,當(dāng)對(duì)決策樹(shù)進(jìn)行剪枝時(shí),在計(jì)算誤分類(lèi)損失的過(guò)程中,將把這些自定義損失值作為權(quán)重來(lái)影響誤分類(lèi)損失的計(jì)算結(jié)果。
系統(tǒng)對(duì)誤分類(lèi)損失默認(rèn)設(shè)置為1,將誤分類(lèi)損失提高至2至5后,其查驗(yàn)率和查獲率如圖10所示,可見(jiàn)調(diào)高誤分類(lèi)損失參數(shù)將使得模型提高查驗(yàn)率,但同時(shí)查獲率有所降低,但將誤分類(lèi)損失提高至5以上時(shí),查驗(yàn)率大幅上升,查獲率明顯降低。因此,可以得出這樣的結(jié)論,通過(guò)調(diào)整誤分類(lèi)損失參數(shù)可以調(diào)節(jié)目標(biāo)查驗(yàn)率,并需要選擇合適的參數(shù)來(lái)實(shí)現(xiàn)投入最少資源獲得最大風(fēng)險(xiǎn)甄別的目的。
圖10 不同誤分類(lèi)成本下的查驗(yàn)率與查獲率比較
盡管預(yù)測(cè)模型僅覆蓋了少部分風(fēng)險(xiǎn),但其低查驗(yàn)率高查獲率的結(jié)果體現(xiàn)了預(yù)測(cè)模型總體性能值得肯定。結(jié)合不同領(lǐng)域不同地區(qū)的實(shí)際需要,將會(huì)對(duì)模型性能產(chǎn)生不同的需求,因此,可以在高風(fēng)險(xiǎn)區(qū)域可運(yùn)用較為嚴(yán)厲的模型,保證查獲的風(fēng)險(xiǎn)數(shù)量;低風(fēng)險(xiǎn)區(qū)域可運(yùn)用查獲率較高的模型,兼顧效率?;蛘哂幂^粗略的模型先提示風(fēng)險(xiǎn)程度,在選取風(fēng)險(xiǎn)較高的項(xiàng)利用復(fù)雜模型進(jìn)一步判別,靈活運(yùn)用不同的模型,發(fā)揮各模型的長(zhǎng)處,回避其不足,將模型的效用最大化。
此次數(shù)據(jù)挖掘主要目標(biāo)是探索數(shù)據(jù)挖掘模型處理海關(guān)數(shù)據(jù)的可行性,驗(yàn)證其是否能發(fā)現(xiàn)風(fēng)險(xiǎn)中的規(guī)律。從結(jié)果來(lái)看,確實(shí)發(fā)現(xiàn)了一些規(guī)律。但生成的模型依然比較簡(jiǎn)單,模型的預(yù)測(cè)性能還沒(méi)得到完全的發(fā)揮。如果加強(qiáng)數(shù)據(jù)預(yù)處理,針對(duì)海關(guān)風(fēng)險(xiǎn)特點(diǎn),按照不同商品、不同地區(qū)、不同貿(mào)易方式等對(duì)模型進(jìn)行相應(yīng)的優(yōu)化,相信能構(gòu)建出更加有效的模型,發(fā)揮出更大的風(fēng)險(xiǎn)識(shí)別功能,有待今后進(jìn)一步研究探索。
(責(zé)任編輯 趙世璐)
Customs Risk Classification and Forecasting ModelBased on Data Mining
Zhou Xin,Zhang Chihai
The daily record of mass production of customs business contains the data “gold mine” to be further excavated. In order to strengthen the accuracy of customs risk identification and make full use of the value of big data, classification analysis of data mining is adopted to analyze the data of historical customs declaration. The records are tagged as hit or not hit according to its hit result. The classification model classifies the historical declarations, extracts the relevant rules, reveals the hidden rules in the data and uses the rules to predict. The result could be applied in the risk assessment and forecast of the declarations.
Data mining; Customs Risk Management; Forecasting Model
周欣,上海海關(guān)學(xué)院海關(guān)管理系講師、管理學(xué)博士;張弛海,上海海關(guān)風(fēng)險(xiǎn)管理處。
海關(guān)與經(jīng)貿(mào)研究2017年2期