• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種海關品牌型號庫構建工具設計方法

      2022-01-22 10:34:31滕灝,高亞東,劉存,毛柯
      計算機時代 2022年1期
      關鍵詞:報關單機器學習

      滕灝,高亞東,劉存,毛柯

      摘? 要: 目前海關常用的十位商品海關編碼是一種比較粗放的編碼方式,在報關單中商品海關編碼很難和具體商品實現(xiàn)一一對應的關系,亟待構建一套標準的商品智能分類工具,為海關管理提供基準的商品分析依據(jù)。文章基于海關報關單申報商品名稱規(guī)格型號,利用機器學習等先進技術手段,實現(xiàn)將海關商品的最小分析單元從HS編碼細化至具體品牌型號,形成商品基礎庫,實現(xiàn)商品智能分類,為貿易監(jiān)管、稅收征管、稽查緝私等業(yè)務提供強大支撐。

      關鍵詞: 海關編碼; 報關單; 機器學習; 商品基礎庫

      中圖分類號:TP311? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)01-42-04

      A novel design method of building tool for customs brand model library

      Teng Hao, Gao Yadong, Liu Cun, Mao Ke

      (Division of Science, Hangzhou Customs, Hangzhou, Zhejiang 310006, China)

      Abstract: At present, 10 bit commodity HS code is a rough coding method commonly used by Customs. Unfortunately it is difficult to achieve a one-to-one correspondence between the commodity HS code in the customs declaration and the specific commodity, which lead to urgently build a set of standard intelligent commodity classification system to provide the basis of commodity analysis for customs management. According to the customs declaration of commodity name, specification, model, using advanced technology such as machine learning, this paper refines the minimum analysis unit of customs commodity from HS code to specific brand and model, forming a basic commodity library, realizing intelligent classification of commodities, which provide strong support for supervising trade, tax collection and management, anti-smuggling and other businesses.

      Key words: HS code; customs declaration; machine learning; basic commodity library

      0 引言

      近年來全球大數(shù)據(jù)[1]技術呈現(xiàn)快速發(fā)展趨勢,大數(shù)據(jù)技術在數(shù)據(jù)分析[2]、流程優(yōu)化[3]、風險防控[4]及監(jiān)測預警[5]等方面展現(xiàn)出巨大威力,大數(shù)據(jù)已成為各國家政府的多種國家戰(zhàn)略交叉域。各國海關在大數(shù)據(jù)應用方面紛紛加大投入,如新西蘭海關實施大數(shù)據(jù)戰(zhàn)略,聯(lián)合內外部專家利用多機構的數(shù)據(jù)開發(fā)目標模型,更好地預測威脅,監(jiān)測趨勢并確定高風險目標;英國海關借助第三方數(shù)據(jù)廠商拓展數(shù)據(jù)來源及數(shù)據(jù)多樣化類型,保證數(shù)據(jù)準確性,通過數(shù)據(jù)對碰及時發(fā)現(xiàn)監(jiān)管風險。2018年,我國海關總署設立了全國海關大數(shù)據(jù)應用中心,搭建了互相聯(lián)通、統(tǒng)一管理的大數(shù)據(jù)基礎平臺,在支持全國通關一體化[6]、打擊走私[7]、應對中美貿易摩擦[8]、捍衛(wèi)國門安全[9]等領域做了有益的嘗試并取得一定成效。但在商品領域,缺少有效的分類基礎數(shù)據(jù)及構建工具,如何構建精細的商品分類方式來為精準分析提供支撐,成為海關大數(shù)據(jù)分析領域的一個重要課題。

      1 商品分類痛點

      海關通關業(yè)務中,各企業(yè)、各代辦機構的報關員出于便利、個人習慣或對商品的不同認識,填寫報關單時,對商品的描述往往不規(guī)范,導致不同的商品描述代表了同一種商品;同時,海關常用的稅號通用的是10位HS編碼[10],這是一種比較粗放的編碼方式,一種商品編碼在報關單中很難精準定位到一種商品。因此亟待構建一個標準的商品要素屬性庫體系為業(yè)務工作提供基準的商品分析依據(jù)。

      SKU來源于電商平臺的最小庫存單元理念,即庫存進出計量的基本單元,現(xiàn)在已經被引申為產品統(tǒng)一編號的簡稱,每種產品均對應有唯一的存貨單元號。本文中的品牌型號庫構建工具就是構建SKU級的商品分類編碼,能精準定位到具體某類商品,實現(xiàn)商品的屬性管理、屬性值管理、SKU管理等功能。

      2 系統(tǒng)建設目標

      商品庫構建工具對報關單中的商品信息進行分析,根據(jù)商品報關要素進行分類整理,最終形成基于SKU級別的商品庫,為其他數(shù)據(jù)分析系統(tǒng)提供數(shù)據(jù)支持。

      系統(tǒng)為海關商品數(shù)據(jù)分析、歸類提供技術支持,具體有以下幾個層次:

      一是報關的數(shù)據(jù)采集與清洗,采集對象是報關產生的大量非結構、不確定、高冗余的商品記錄數(shù)據(jù),對其做初步的清洗和規(guī)整化,抽取報關單中商品相關的重點申報信息;二是商品要素提取,參照海關報關要素提取商品屬性,針對屬性提取該商品的屬性值;三是商品SKU管理,通過對商品屬性和屬性值的梳理,逐步形成海關申報商品的SKU編碼規(guī)則,實現(xiàn)比已有的HS編碼更精細化的分類管理方式。

      3 系統(tǒng)設計

      3.1 總體架構

      系統(tǒng)對報關單數(shù)據(jù)進行快速有效的歸類整理,按照分析人員要求,將報關數(shù)據(jù)中的共性的商品特征信息按一定的分類標準歸類入庫,進行提取分析,形成SKU級商品要素屬性庫,供其他分析系統(tǒng)做進一步的數(shù)據(jù)分析。系統(tǒng)體系結構如圖1所示。

      3.2 功能設計

      系統(tǒng)應用架構分為四個層次,基礎層、服務層、應用層和展現(xiàn)層,系統(tǒng)應用架構如圖2所示。

      3.2.1 數(shù)據(jù)采集與處理

      采集對象是報關產生大量非結構、不確定、高冗余的商品記錄數(shù)據(jù)。這些數(shù)據(jù)存在大量不完整、不一致、有異常的情況,嚴重影響到商品庫要素挖掘的執(zhí)行效率,甚至可能導致挖掘結果的偏差。所以進行數(shù)據(jù)清洗就顯得尤為重要。

      通過ETL工具抽取數(shù)據(jù)源為Max Compute、Oracle或SQL Server的系統(tǒng)數(shù)據(jù),支持數(shù)據(jù)的全量和增量采集,支持對數(shù)據(jù)同步過程進行監(jiān)控,可通過瀏覽相關日志,了解數(shù)據(jù)同步過程的詳細信息,并支持對數(shù)據(jù)同步執(zhí)行過程進行干預和調整。

      數(shù)據(jù)采集后,預先對其清洗,刪除原始數(shù)據(jù)集中的無關數(shù)據(jù)、重復數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值。利用優(yōu)化剪枝以及高性能算法對其進行屬性提取、關系挖掘、比較融合等處理。

      3.2.2 商品分類管理

      由于商品數(shù)量龐大,商品種類成千上萬,為方便管理,需要我們將商品分門別類,同一類別是管理范圍內的商品集合總體,它既可以是某一類稅號,又可以是擁有相同屬性的某一商品類別。系統(tǒng)提供靈活的商品分類自定義功能,根據(jù)需要對分類進行更新、刪除等,通過查詢分類列表,可掌握該分類商品數(shù)據(jù)挖掘情況。系統(tǒng)按類別定向采集數(shù)據(jù),針對同一類別下的商品實現(xiàn)對商品屬性和屬性值的統(tǒng)一管理。

      3.2.3 商品屬性管理

      依據(jù)海關現(xiàn)有商品綜合分類清單,梳理商品屬性,商品屬性由商品自有的特性抽象而來,是商品本身存在的不可缺少的性質。系統(tǒng)針對商品屬性進行統(tǒng)一管理,具體功能包括:商品屬性定義、商品屬性維護。

      屬性定義是對同一商品分類下的商品自有特征進行提煉。針對一類商品,系統(tǒng)完成初步的清洗和規(guī)整化,抽取報關單中商品相關的重點申報信息,形成待分析商品清單。

      屬性維護便于用戶查看該商品分類下的屬性信息。用戶根據(jù)需求,參照待分析商品清單,對屬性進行增加、修改和刪除。為方便屬性定義和維護,將其分為全局屬性和局部屬性。

      3.2.4 商品屬性值管理

      按照定義的屬性,對報關單中商品相關信息進行全面分析,將屬性值全部提取出來,形成該屬性的值域。某一商品分類下的同一屬性的屬性值數(shù)量龐大,系統(tǒng)針對商品屬性值進行統(tǒng)一管理。

      屬性值提取來自于報關單中商品相關信息,前面提到的待分析商品清單為屬性值提取提供數(shù)據(jù)基礎,用戶查看待分析商品清單。同時支持對屬性值的批量導入,直接納入屬性值清單。對于已納入的屬性值,系統(tǒng)采用基于語義的機器學習分詞方法與細胞詞庫相結合的方式,結合過濾去重規(guī)則,更新待分析商品清單。

      智能推薦基于主動學習和模式識別的方法,利用商品屬性及圖關系,結合語義特征對有效的商品屬性值進行推薦。系統(tǒng)根據(jù)選中的屬性值內容,自動在商品信息中匹配篩選,對同義詞或相似度高的值進行提示。

      屬性值維護記錄已提取的商品屬性值,形成屬性值清單,便于用戶查看該商品屬性下的屬性值信息。為了方便提取,當某一屬性值被選中時,系統(tǒng)將通過語義分析,給出其相關屬性值推薦。用戶可根據(jù)實際需求對屬性值清單進行修改和刪除。

      屬性值定位提供搜索框,支持屬性值模糊搜索功能,除顯示屬性值作為搜素結果外,選中的記錄將在待分析商品清單中定位,便于用戶對屬性值相關信息的查看和分析。

      基礎信息更新支持報關單商品基礎信息的增量更新。新增數(shù)據(jù)將按照已定義的商品屬性進行歸類整理、分類。對于無法分類的數(shù)據(jù),將其納入待分析商品清單,便于用戶通過機器學習及專家經驗等方式進行商品屬性值提取。

      3.2.5 商品信息查詢

      對已完成商品屬性值提取的商品集,建立以商品分類為根節(jié)點的商品展示樹。提供關鍵字搜索功能,根據(jù)輸入的內容定位所在商品樹位置,便于相關屬性和屬性值的查看;同時,系統(tǒng)自動提取該分類下的商品屬性作為篩選條件,查詢符合篩選條件的商品信息。

      3.2.6 商品SKU管理

      通過對商品屬性和屬性值的梳理,逐步形成海關申報商品的SKU編碼規(guī)則,提供比已有的HS編碼更精細化的分類管理方式——SKU管理。

      SKU定義結合定義的屬性和提取的屬性值,系統(tǒng)自動對特定稅號的商品進一步抽取、提煉、歸類分析,并給每個類別賦予一串唯一編碼。每一個SKU編碼作為識別一類商品的唯一標識,實現(xiàn)對申報商品從HS層面細分到SKU層面的精細化管理。

      SKU更新將獲取最新數(shù)據(jù)并按一定規(guī)則動態(tài)地更新SKU。SKU不斷地更新完善,形成符合最新業(yè)界商品現(xiàn)狀的海關SKU級的智能商品庫。

      3.3 部署架構

      系統(tǒng)采用高可用架構部署,通過虛擬化及鏈路負載均衡提高系統(tǒng)的可用性,具體架構圖如圖3所示。

      4 應用展望

      通過該系統(tǒng)的運用,可以將商品最小分析單元從HS編碼細化到具體品牌型號,利用專家經驗機器輔助構建的方式,夯實海關商品數(shù)據(jù)基礎,為商品價格分布分析、消費指數(shù)分析、違法案件精準打擊等應用提供支撐,通過大數(shù)據(jù)的運用提升海關的監(jiān)管力度和服務水平。同時可以利用本系統(tǒng)的相關技術,服務于跨境電商的監(jiān)管,如地址解析等,從而實現(xiàn)海關高效監(jiān)管,促進企業(yè)發(fā)展。

      參考文獻(References):

      [1] 程學旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014(9):1889-1908

      [2] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19

      [3] 王云鵬,李善興,王占中,等.基于Petri網(wǎng)的汽車制造業(yè)生產物流流程優(yōu)化[J].吉林大學學報(工學版),2008,38(S1):61-64

      [4] 仲育,辛帥.金融行業(yè)應用云計算和大數(shù)據(jù)安全風險防范策略[J].現(xiàn)代金融,2017,4(410):49-51

      [5] 吳炳方,張淼,曾紅偉,等.大數(shù)據(jù)時代的農情監(jiān)測與預警[J].遙感學報,2016(20):1027-1037

      [6] 張健.數(shù)據(jù)化驅動的海關通關一體化改革[D].廈門大學,2018

      [7] 陳志鋒.AS海關網(wǎng)上緝私研究[D].電子科技大學碩士學位論文,2016

      [8] 李強,覃春面,董耀武.中美貿易摩擦視角下的股,匯市風險溢出研究[J].武漢金融,2019,238(10):5-11

      [9] 徐強.試論大數(shù)據(jù)標簽化在進出口企業(yè)畫像中的運用[J].中國口岸科學技術,2020,460(11):34-39

      [10] 張紫玄,王昊,朱立平,等.中國海關HS編碼風險的識別研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019

      猜你喜歡
      報關單機器學習
      淺析關檢融合統(tǒng)一申報制度
      對外經貿(2019年2期)2019-09-17 08:39:10
      租賃貿易貨物報關單填制分析
      “全國海關通關一體化”背景下 新版報關單結構分析及新增項目填報
      租賃貿易貨物報關單填制分析
      釋疑解惑
      加工貿易下貨物進出口報關單填寫常見錯誤解析
      基于詞典與機器學習的中文微博情感分析
      基于機器學習的圖像特征提取技術在圖像版權保護中的應用
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      原平市| 黔江区| 郁南县| 镇安县| 社旗县| 绥德县| 聊城市| 黎平县| 龙泉市| 宁德市| 蓝田县| 新巴尔虎左旗| 双牌县| 仁化县| 兴宁市| 毕节市| 普洱| 甘洛县| 焉耆| 华坪县| 庄河市| 轮台县| 汉中市| 麻阳| 美姑县| 张家港市| 鄂伦春自治旗| 堆龙德庆县| 高密市| 大洼县| 南投县| 双峰县| 新巴尔虎右旗| 佛冈县| 平遥县| 拉萨市| 石门县| 和平区| 罗山县| 揭东县| 马尔康县|