湯妙佳 沙建
(安徽省煙草公司淮南市公司信息中心 安徽省淮南市 232033)
近些年,隨著互聯(lián)網的發(fā)展,中國物流行業(yè)得到了飛速發(fā)展,它給人們生活提供了便利,也成為了不法分子從事涉煙非法交易活動的主要渠道。由于監(jiān)管力度不足,不法分子通過物流寄遞將假煙銷售到全部各地,這不僅嚴重影響煙草市場秩序,對國家稅收造成巨大的損失,還使消費者的利益受到了侵害。為進一步加強物流寄遞運輸監(jiān)管,國家有關部門在2016年實施了物流寄遞實名制要求,煙草行業(yè)也加大了物流寄遞涉煙非法活動的監(jiān)管力度,從而積累了大量涉煙非法交易活動數(shù)據(jù)。但由于缺少大數(shù)據(jù)處理手段以挖掘出數(shù)據(jù)的內在價值,目前對涉煙非法交易活動的監(jiān)督仍是以“人工經驗”為主,這不僅浪費了大量的人力資源,也沒有發(fā)揮出數(shù)據(jù)應有的價值。如何利用這些非法交易數(shù)據(jù),從而科學、系統(tǒng)的挖掘涉煙非法交易的線索,深入加強物流寄遞涉煙非法活動的監(jiān)管,從而實現(xiàn)新時期煙草專賣市場監(jiān)管的高質量發(fā)展,以成為當前迫切需要解決的問題。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中找出隱含的具有潛在價值信息的一個過程,作為一種數(shù)據(jù)分析的手段,當前已經運用在各行各業(yè)中,如商務管理、市場分析、顧客行為預測等,同時也在公安部門的偵查破案中發(fā)揮著巨大的作用。因此,采用數(shù)據(jù)挖掘的手段對涉煙非法交易活動數(shù)據(jù)進行深入研究,以獲得不法分子的物流寄遞規(guī)律、寄遞地址等潛在信息,幫助煙草主管部門在煙非法交易活動中有效的打擊違法行為,讓歷史交易數(shù)據(jù)發(fā)揮出更大的價值。本文基于數(shù)據(jù)挖掘中的層次聚類算法,針對物流寄遞涉煙非法交易活動中的寄遞地址信息,實現(xiàn)數(shù)字化分類,以幫助煙草主管部門迅速了解和掌握管轄區(qū)域的涉煙非法交易活動的高發(fā)區(qū)域,精準打擊違法區(qū)域,全面推動涉煙非法交易監(jiān)管從“人工經驗”向“數(shù)字分析”轉變。
聚類算法是一種常見的數(shù)據(jù)挖掘手段,其本質是將一組數(shù)據(jù)按照給定的標準劃分成若干個簇,其中標準的設定取決于聚類的目的以及數(shù)據(jù)的類型。目前常見的聚類算法主要有劃分法(K-Means)、層次法、基于密度的方法、基于網格的方法、基于模型的方法、等,本文主要基于層次聚類算法進行煙草違法區(qū)域的劃分研究。
層次聚類算法是聚類算法中使用最廣泛的算法之一,其方法具有簡單、效率高、容易實現(xiàn)的特點,實現(xiàn)方法主要分有凝聚和分裂兩種方法。層次聚類算法是以距離為評價指標,所構成的簇是以距離相距相近的點組成,其中基于凝聚方法的層次聚類算法主要分為4個步驟。
步驟1:將數(shù)據(jù)集中的每個數(shù)據(jù)看作成一個點,計算各個點之間的距離;
步驟2:將距離最近的若干個點合并成一個簇;
步驟3:將各個簇看作成一個點,重新計算各個點之間的距離;
步驟4:重復步驟2和步驟3,直至滿足終止條件后停止。
與凝聚方法相反,基于分裂方法的層次聚類算法是將整個數(shù)據(jù)集看作成一個點,然后計算點中各個簇的距離,并將最遠的字集分裂開,從而實現(xiàn)聚類。本文的目的是對煙草違法區(qū)域進行精確劃份,劃份成的區(qū)域越小,則表示精度越高,故選用凝聚方法作為層次聚類算法的實現(xiàn)方法。
在計算過程中,距離的計算方法有很多,如歐氏距離、曼哈頓距離、余弦距離、等。其中,歐氏距離,又稱歐幾里得距離,是目前使用最為廣泛的一種距離計算方式,故本文選用歐氏距離為判別各個點之間的距離方式。其計算公式如下:
其中,(x,y)和(x,y)表示兩個點,ρ表示兩點之間的歐式距離。
層次聚類算法的優(yōu)點是距離容易被定義、限制條件少,同時還可以發(fā)現(xiàn)簇之間的層次關系,缺點是計算復雜度很高,容易受到噪聲的影響。
初始化,每個簇只有一個點,故計算歐氏距離只需要計算兩個點之間的距離,但后續(xù)的每個簇中都有若干個點,此時計算歐式距離就需要事先給定點的位置。目前常見的確定點的方式有4中,分別是Ward方法、Complete linkage方法、Average linkage方法和Single linkage方法。
Ward方法計算的是最小化成對聚類間的平方差總和,即兩個簇合并后增加的內離差平方和最小。這種方法的優(yōu)點是不容易受到噪聲的影響,缺點是對球狀簇數(shù)據(jù)集的處理存在偏差。
Complete linkage方法計算的是最小化成對聚類間最遠兩點的距離,即兩個簇中最遠的兩個點的歐氏距離,并將其作為兩個簇之間的距離。這種方法的優(yōu)點是不容易受到噪聲的影響,在數(shù)據(jù)集非常大的情況下經常使用,缺點是對球狀簇數(shù)據(jù)集的處理存在偏差。
Average linkage方法計算的是最小化成對聚類間平均兩點的距離,即兩個簇中每個點之間的歐氏距離的平均值,并將其作為兩個簇之間的距離。這種方法的優(yōu)點是不容易受到噪聲的影響,缺點是對球狀簇數(shù)據(jù)集的處理存在偏差。
Single linkage方法計算的是最小化成對聚類間最近兩點的距離,即兩個簇中最近的兩個點的歐氏距離,并將其作為兩個簇之間的距離。這種方法的優(yōu)點是可以處理非橢圓形的數(shù)據(jù)集,缺點是容易受到噪聲的影響。
層次聚類算法中退出循環(huán)的終止條件是最終生成的簇個數(shù),一般由人為主動設置。簇的個數(shù)不同,則最終生成的結果也不同,故需要一個評價指標來表示最佳的簇個數(shù)。常用的評價指標有聚類純度(Purity)、蘭德指數(shù)(Rand Index,RI)、F值(F-score)和調整后的蘭德指數(shù)(Adjusted Rand Index, ARI)。
聚類純度的思想是用聚類后的點數(shù)量除以總的點數(shù)量,故又被稱為聚類的準確度。一般來說聚類純度越高則聚類效果越好,但這個指標跟最終聚類后的實際簇個數(shù)無關,而本文最終結果需要的是簇個數(shù)的最佳值。
蘭德指數(shù)和F值是聚類算法中非常重要的評價指標。假設a為兩個同類點在同一個簇的情況數(shù)量;b為兩個非同類點在同一個簇的情況數(shù)量;c為兩個非同類點分別在兩個簇的情況數(shù)量;d為兩個同類點分別在兩個簇的情況數(shù)量。
此時蘭德指數(shù)的計算公式為:
其中蘭德指數(shù)在0-1之間,值越大,表示聚類結果越好。
F值的計算公式為:
其中F值在0-1之間,值越大,表示聚類結果越好。
調整后的蘭德指數(shù)是蘭德指數(shù)的改進,其目的是為了去掉隨機數(shù)對蘭德指數(shù)的影響,其計算公式為:
其中,E(RI)表示蘭德指數(shù)RI的期望值,ARI的實質是去均值歸一化的結果。相對于RI而言,ARI對聚類結果的評價更加準確,故選用調整后的蘭德指數(shù)作為評價聚類結果的評價依據(jù)。
以上內容詳細闡述了層次聚類算法的原理,為了進一步驗證上述理論在實際煙草違規(guī)區(qū)域劃分中的運用情況,以X市的900起真實涉煙非法活動數(shù)據(jù)為數(shù)據(jù)集進行仿真實驗,如表1所示為一起違法活動的相關數(shù)據(jù)(由于涉密原因,已略去部分無關字段)。
根據(jù)表1可以看出,針對每一次的涉煙違法活動,都存有其收發(fā)地址的經緯度信息,根據(jù)這個信息就可以唯一確定其實際地址。經脫敏處理后,獲得部分收件地址數(shù)據(jù)的經緯度如表2所示。
表1:涉煙非法活動重要相關數(shù)據(jù)
表2:脫敏后的部分收件地址數(shù)據(jù)的經緯度統(tǒng)計表
使用Python語言結合Matplotlib繪圖庫,將脫敏后的經緯度坐標進行標準化處理,從而構建出用于層次聚類分析的數(shù)據(jù)集,繪制出的散點圖如圖1所示。
圖1:X市900起物流寄遞涉煙非法交易案件收件地址示意圖
圖1中,每個點表示一起案件的收件地址,下面對其進行層次聚類分析。
假設簇的個數(shù)為7,即終止條件為7,針對圖1的數(shù)據(jù),4種簇間度量方式的實驗結果如圖2所示。
圖2:4種簇間度量方式的實驗結果
圖2中,每種顏色表示最終合并的一個簇。圖2(a)針對左下角的聚類存在偏差;圖2(b)針對左上角的聚類存在偏差;圖2(c)針對左上角的聚類存在偏差,可以明顯的看出左上角區(qū)域塊的右下角2個點各自分成了一類;圖2(d)相對來說是最恰當?shù)木垲惤Y果了,故選用Average linkage方法作為簇間度量方式。
以Average linkage方法作為簇間度量方式,以調整后的蘭德指數(shù)作為簇個數(shù)最佳值的評價依據(jù),據(jù)此得到調整后的蘭德指數(shù)與簇個數(shù)之間的折線圖如圖3所示。
從圖3中,折線圖隨著簇個數(shù)的增加先是變大,然后變小。其中,在簇的個數(shù)為7時,調整后的蘭德指數(shù)最大,故簇的最佳個數(shù)為7。
圖3:調整后的蘭德指數(shù)與簇個數(shù)之間的關系
簇間度量方式選用Average linkage方法,簇的個數(shù)設置為7,測得的X市900起物流寄遞涉煙非法交易案件收件地址數(shù)據(jù)的聚類結果如圖4所示。
圖4:X市900起物流寄遞涉煙非法交易案件收件地址聚類結果
圖4中,每種顏色表示一個涉煙非法交易地址區(qū)域,故該市900起案件數(shù)據(jù)的案發(fā)地址大致可以劃分為7個區(qū)域,即這7個區(qū)域內的非法經營者或者消費者通過物流寄遞購買非法煙草的次數(shù)較高,分別是X市新城及其某公寓、X市南站、X市某村、X市某大學及周邊學院、X市現(xiàn)代工業(yè)園區(qū)。
為驗證聚類結果的準確性,對圖4中的7個聚類區(qū)域,分別求取聚類簇的質心,然后將對應的脫敏數(shù)據(jù)進行同樣的操作,驗證質心的坐標位置是否一致,計算得到如表3所示的中心位置經緯度統(tǒng)計表。
表3:中心位置經緯度統(tǒng)計表
進而,將表3中的中心點坐標信息顯示在圖中,得到如圖5所示。
圖5:收件地址聚類結果中心位置圖
從表3和圖5中,可以看出聚類簇的質心和脫敏數(shù)據(jù)的中心坐標位置具有高度一致性,進而驗證了聚類結果的準確率還是很高的。因此,在市場實際監(jiān)管工作中,煙草主管部門主要對這7個區(qū)域進行重點走訪和調查即可。
由于近些年物流業(yè)的飛速發(fā)展,憑借其方便快捷、偽裝手段多、檢測方式單一等特點,越來越多的不法分子借助物流寄遞進行涉煙非法交易活動。目前,X市煙草主管部門主要采取“現(xiàn)場人工排查”的方式,選派若干名煙草專賣執(zhí)法人員進駐各物流快遞集散中心,與郵政和公安的相關工作人員一起,對運達的各類包裹進行集中排查。但用于不法分子通常采用少量、多次的方式進行交易,因此存在檢查量大、但實際收益小的狀況。
在實際工作中,由于缺乏相應的數(shù)據(jù)分析手段,目前常見的處理方式是現(xiàn)場工作人員根據(jù)自身經驗,對印象中物流快遞的收件方進行重點關注。這種處理手段受到個人影響較大,并且容易錯漏關鍵人員的地址信息,且不利于工作人員之間的情報共享。而且查獲的大量案件數(shù)據(jù),只能存放在數(shù)據(jù)庫中,不能進行有效的運用,使含有價值的線索白白浪費。
2018年11月以來,X市煙草主管部門采用聚類算法對物流寄遞涉煙非法交易活動的收件地址進行自動劃分,并對每起查獲的收件人納入重點檢查名單,特別是對查獲次數(shù)較多的收件地址或收件人進行重點關注。同時還將劃分后各區(qū)域內經營者的經營數(shù)據(jù)進行對比,從而迅速定位疑似進行涉煙非法交易活動的嫌疑人,為一線工作人員提供了精準的違法區(qū)域和高效的情報來源,為全面實現(xiàn)精準打擊奠定了堅實的基礎。2019年,X市煙草主管部門市場檢查環(huán)節(jié)查獲案件數(shù)量同比增長13.7%,查獲假煙數(shù)量同比增長61.7%,取得了顯著的成效。
本文運用聚類算法中的層次聚類算法分析了物流寄遞涉煙非法交易案件的收件地址數(shù)據(jù),對案件地址區(qū)域進行了聚類劃分。層次聚類算法具有簡單高效、使用便捷的特點,對數(shù)據(jù)集的要求不高。在給定一定數(shù)量的案件數(shù)據(jù)前提下,可以快速對違法活動區(qū)域進行劃分,以此不斷挖掘出潛在的情報線索。該方法可以幫助煙草工作人員在大量案件數(shù)據(jù)中快速了解案情,在涉煙非法交易活動中有著廣泛的應用前景,但使用前提是涉煙案件地址數(shù)據(jù)必須準確,否則運行結果將不具備指導意義。同時,該方法對孤立點較為敏感,少量孤立數(shù)據(jù)可能對最終結果產生很大的影響,因此,如何對孤立點進行額外加權評估,將是接下來需要繼續(xù)研究的課題。