• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞向量的國際業(yè)務實時推理模型*

      2019-05-27 06:12:02張軾坤高列寧周云康
      關鍵詞:國際慣例語料報文

      張軾坤,沈 峰,高列寧,周云康

      (1.交通銀行軟件開發(fā)中心(上海),上海 201201; 2.武漢理工大學 經(jīng)濟學院,湖北 武漢 430070)

      0 引言

      隨著“一帶一路”戰(zhàn)略的發(fā)展,我國加快了對外開放的幅度,越來越多的企業(yè)加入了全球化國際化“朋友圈”。隨之而來是國際貿易業(yè)務量的增長,而銀行作為企業(yè)的國際貿易服務機構,通過加入環(huán)球同業(yè)銀行金融電訊協(xié)會(Society for Worldwide Interbank Financial Telecommunications,SWIFT),提供了國際結算、國際清算、擔保、貿易融資、國際匯款等專業(yè)金融服務。相對于以發(fā)送SWIFT報文為主的進口業(yè)務,出口業(yè)務流程是從接受SWIFT報文開始,由國際業(yè)務專業(yè)人員逐字檢查各類SWIFT報文域信息,并結合各類國際慣例人工分析SWIFT報文內容,審核無誤后再進行下一步業(yè)務操作。以上國際業(yè)務操作環(huán)節(jié)中,存在著人工審核報文、人工審單、人工錄入、人工反洗錢等一系列亟待解決的服務效率低下問題,其中SWIFT報文分析是各環(huán)節(jié)的第一個重要步驟。

      目前國內銀行的SWIFT報文業(yè)務處理系統(tǒng)只負責報文域的解析,即直接將報文域信息映射到業(yè)務系統(tǒng)頁面,報文內容的分析工作還是由人工處理。國際業(yè)務專業(yè)人員須根據(jù)當前業(yè)務產品類型(如國際結算的信用證、托收、保函業(yè)務)依據(jù)國際慣例處理業(yè)務,包括英文版UCP600(跟單信用證統(tǒng)一慣例)、ISBP745(國際標準銀行實務)、URC522(跟單托收統(tǒng)一規(guī)則)、URR725(銀行間償付統(tǒng)一慣例)、URDG758(見索即付保函統(tǒng)一規(guī)則)、ISP98(國際備用信用證慣例)等。另外,國際商會每年對全球提交的各類案例發(fā)布兩次官方意見,也是國際業(yè)務專業(yè)人員處理業(yè)務、與同業(yè)交涉業(yè)務時參考的重要依據(jù),目前國際商會正式出版了1995年以來的官方意見(ICC Opinions),共約30萬字英文。如何從復雜繁多的國際慣例中快速定位關鍵信息,如何結合當前業(yè)務實際場景快速整理摘要,將它們整合成有價值的參考信息,是提高國際業(yè)務SWIFT報文處理效率的關鍵。

      交通銀行于2018年5月31日決定正式啟動新的集團信息系統(tǒng)智慧化轉型工程,即“新531”工程。通過整體布局、系統(tǒng)規(guī)劃我行的智慧化轉型方向,加快創(chuàng)新發(fā)展。為適應全行智慧化發(fā)展戰(zhàn)略,提升國際業(yè)務服務和管理能力,本研究針對國際業(yè)務領域專業(yè)化特點,利用機器學習方法,通過對SWIFT報文語料的統(tǒng)計和計算,得到語料信息的TF-IDF值,結合GLoVe算法實現(xiàn)SWIFT報文業(yè)務領域特征的詞向量提?。皇褂胹eq2seq模型結合attention機制實現(xiàn)業(yè)務摘要的自動組裝;利用Google的word2vec模型對國際慣例語料進行學習,將詞語映射到k維向量空間進行向量運算,通過向量空間上的相似度保留詞匯語義上的相關度;最終結合報文解析、業(yè)務清分、規(guī)則庫等業(yè)務系統(tǒng)功能構建國際業(yè)務實時推理模型,并試驗驗證實時推理模型在實際業(yè)務SWIFT報文處理的有效性。

      1 基于詞向量的國際業(yè)務實時推理模型構建方法

      1.1 詞向量模型

      本研究通過在Python平臺上使用Google開源工具word2vec[1]產生詞向量(distributed representation),其基本思想是通過訓練將每個詞映射成K維實數(shù)向量(K一般為模型中的超參數(shù)),通過詞之間的距離(比如cosine相似度、歐氏距離[2]等)來判斷它們之間的語義相似度,word2vec采用一個三層的神經(jīng)網(wǎng)絡(包括輸入層、隱層、輸出層),選用skip-gram模型[3]訓練數(shù)據(jù),如圖1所示[4],其核心思想是根據(jù)中心詞來預測周圍的詞。

      圖1 skip-gram模型

      以一條UCP600國際慣例為例,假設中心詞是tenor,窗口長度為2,則根據(jù)tenor預測左邊兩個詞和右邊兩個詞。這時,tenor作為神經(jīng)網(wǎng)絡的input,預測的詞作為label。圖2中窗口長度為2,中心詞從左往右移動,遍歷所有文本。每一次中心詞的移動,最多會產生4對訓練樣本(input,label)。

      word2vec考慮到了當前詞的上下文信息,由此學習到的詞向量包含了豐富的語義和語法關系。本研究將UCP600、ISBP745、URC522、URR725、URDG758、ISP98共計5萬條慣例信息作為word2vec的訓練數(shù)據(jù)集Data_icp。訓練模型選用skip-gram,得到模型BITS2vec。

      1.2 基于GLoVe詞向量+seq2seq模型+attention機制的自動摘要構建模型

      Global Vectors for Word Representation[5](簡稱GLoVe)是斯坦福大學NLP組2014年提出的一種非監(jiān)督學習算法[6],通過對語料庫的“單詞-單詞”共現(xiàn)矩陣[7]進行聚合,得到的表示形式展示了單詞向量空間的線性結構。本研究通過使用GLoVe算法工具初始化SWIFT報文語料的共現(xiàn)矩陣,并訓練得到SWIFT報文GLoVe詞向量。

      seq2seq模型[8]本質上是一種encoder-decoder框架[9],Encoder通過學習輸入將其編碼成一個固定大小的語義向量S,繼而將S傳給Decoder,Decoder再通過對語義向量S的學習來進行輸出。但

      圖2 word2vec訓練樣本產生過程

      是因為語義向量S是固定長度,Encoder無法將整個輸入序列信息壓縮進去,會導致語義向量無法完全表示整個序列的信息,使得Decoder在一開始就沒有獲得序列足夠信息,解碼質量要打一定折扣。為了解決該問題,attention機制[10]被提出,該機制在產生輸出時,會產生一個關注度權重C來表示接下來輸出時需要重點關注輸入序列的哪些部分,然后根據(jù)關注的區(qū)域來產生下一個輸出,如此反復。

      如圖3所示,本研究通過將SWIFT報文GLoVe詞向量作為Encoder的輸入序列,隨后加載attention機制,計算Encoder中每個RNN(Recurrent Neural Netword,循環(huán)神經(jīng)網(wǎng)絡[11])單元的輸出同當前單元Decoder端的輸出的余弦相似度[12],再將Encoder的RNN單元輸出同各自余弦相似度進行加權向量和,得到當前RNN關注度C,最終再輸入到Decoder中訓練產生SWIFT報文語料摘要。

      圖3 基于GLoVe詞向量+seq2seq模型+attention機制的自動摘要構建模型

      1.3 業(yè)務規(guī)則引擎

      業(yè)務規(guī)則引擎[13]是一個軟件模塊,它基于規(guī)則編程,將規(guī)則運用于推理數(shù)據(jù),主要功能是接受數(shù)據(jù)輸入、解釋業(yè)務規(guī)則,并根據(jù)業(yè)務規(guī)則做出相應的決策。本研究通過將我行國際業(yè)務產品的業(yè)務需求和國際慣例整理成XML格式業(yè)務規(guī)則,可根據(jù)接受到的業(yè)務關鍵字自動匹配不同的業(yè)務產品所適用的業(yè)務規(guī)則,并最終提供當前SWIFT報文的業(yè)務規(guī)則參考信息,采用業(yè)務規(guī)則引擎的基本結構如圖4所示。

      圖4 業(yè)務規(guī)則引擎基本結構

      本研究共計整理了我行49大類國際業(yè)務產品業(yè)務規(guī)則和6類國際慣例規(guī)則,規(guī)則數(shù)據(jù)采用DB2數(shù)據(jù)庫的形式保存,業(yè)務規(guī)則模塊采用XML格式的方式編寫,因XML方式技術較成熟,本文不再贅述。但對規(guī)則編寫形式做簡要描述,例如,原始業(yè)務需求為:如果當前SWIFT報文所對應業(yè)務存在一張匯票多筆提單的情況,需要根據(jù)信用證要求的船公司數(shù)量和貨物港口地理位置情況,計算匯票付款期限,并提供相關日期計算國際慣例參考信息。需要轉化為規(guī)則編寫形式,如圖5所示。

      圖5 規(guī)則編寫形式

      1.4 基于詞向量的國際業(yè)務實時推理模型

      國際業(yè)務詞向量是SWIFT報文分析的重要工具。不同的報文類型、不同的業(yè)務產品適用的慣例也不相同。通過提取SWIFT報文語料詞匯分布特點,結合相關算法,可計算得到當前SWIFT報文關鍵信息,將關鍵信息輸入到相關國際業(yè)務詞向量庫可獲取當前業(yè)務國際慣例詞向量。鑒于此,本研究采用如圖6所示的基于詞向量的國際業(yè)務實時推理模型提供SWIFT報文實時自動摘要和關聯(lián)國際慣例參考功能。

      首先,整理UCP600(跟單信用證統(tǒng)一慣例)、ISBP745(國際標準銀行實務)、URC522(跟單托收統(tǒng)一規(guī)則)、URR725(銀行間償付統(tǒng)一慣例)、URDG758(見索即付保函統(tǒng)一規(guī)則)、ISP98(國際備用信用證慣例)、ICC Opinions(國際商會官方意見)數(shù)據(jù)集Data_icp,設置word2vec模型參數(shù)(包括向量維數(shù)size、上下文窗口大小window、是否Cbow模型isCbow),訓練成國際慣例專業(yè)詞向量庫模型BITS2vec,并使用GloVe算法訓練歷史SWIFT報文語料Data_swift_history得到SWIFT報文GLoVe詞向量。運用GLoVe詞向量加載seq2seq模型和attention機制構建自動摘要模型Auto_summary。詞向量庫模型BITS2vec和自動摘要模型Auto_summary統(tǒng)一存放在模型庫路徑以便后續(xù)調用。

      圖6 基于詞向量的國際業(yè)務實時推理模型

      然后,對實時SWIFT報文語料Data_swift_online根據(jù)業(yè)務類型進行清分,根據(jù)報文類型進行解析,并將處理后的語料進行分詞,再輸入到自動摘要模型Auto_summary,運行摘要模型產出SWIFT自動摘要。同時,推理模型會計算詞匯的TF-IDF值[14],獲得詞集S={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfm)}。通過設定TF-IDF的閾值,篩選得到候選詞集SLn={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfn)} (n

      2 試驗結果及分析

      2.1 詞向量模型試驗

      國際慣例特征向量可將業(yè)務特征映射到高維空間,對慣例表達的有效性,主要體現(xiàn)在語義相近的慣例詞匯,其空間距離小。如ship、carrier、master、charterer等運輸單據(jù)相關的詞匯具有較強的語義相似性,其空間距離應該小,相似度應該高,因此可以用于識別國際慣例關聯(lián)詞匯。對采集的5萬條國際慣例數(shù)據(jù)進行處理,去掉停用詞匯,設置word2vec模型參數(shù)(size:100;上下文窗口大小window:5;是否Cbow模型isCbow:false),運行模型獲得國際慣例專業(yè)詞向量庫BITS2vec,每個慣例詞匯映射到100維的向量空間,采用基于Python的數(shù)據(jù)可視化工具t-sne進行降維可視化[15],如圖7所示,距離越近表示語義越近。

      圖7(b)為圖7(a)的局部放大顯示,可見shipment、order、transport、document、insurance等運輸相關慣例詞匯在語義上有一定的關聯(lián)性,在向量空間上相對距離較近,說明了詞向量對語義聚合效果比較好。同時可以試驗基于BITS2vec輸出的100維詞向量取詞效果,利用similarity函數(shù)[16]獲取慣例最相似的5個詞匯,結果如表1所示。

      表1 相似詞和相似度示例(top 5)

      表1為慣例詞匯shipment和payment的排名前5的相似詞匯和對應的相似度。以詞匯payment為例,利用BITS2vec獲得的相似詞charges、reimbursement、draft在語義上有較強的關聯(lián),為后續(xù)的規(guī)則庫加工提供了可泛化的國際慣例語義關鍵詞集Keyword_pooling。

      2.2 推理模型試驗

      為了驗證推理模型的有效性,本研究選取3萬筆歷史SWIFT報文語料,并使用GloVe算法訓練SWIFT報文GLoVe詞向量,加載seq2seq模型和attention機制構建自動摘要模型Auto_summary。

      在測試環(huán)境將實時接收到的MT700、MT707、MT710等SWIFT報文語料Data_swift_online進行報文清分,解析關鍵語料信息存放在FIN_CONTENT,并運行推理模型。

      推理模型會計算SWIFT報文詞匯的TF-IDF值,獲得當前SWIFT報文詞集S={(s1,tf-idf1),(s2,tf-idf2) …(sm,tf-idfm)}。設定TF-IDF的閾值為0.4,篩選得到候選詞集SLn,將候選詞集SLn輸入到BITS2vec模型得到實時報文慣例關鍵詞匯集Keyword_pooling,繼續(xù)輸入到業(yè)務規(guī)則引擎庫加工,得到本筆業(yè)務關聯(lián)國際慣例參考信息,并結合自動摘要最終得到規(guī)整的推理分析產出,輸出結果如圖8所示。

      圖8 運行國際業(yè)務實時推理模型的產出

      從圖8可以看出,推理模型抽取了當前SWIFT報文語料的關鍵信息組成了自動摘要:No confirmation to this documentary credit,therefore no engagement or responsibility on our part(表明當前信用證沒有保兌確認,因此無付款責任),從而加快了業(yè)務人員對SWIFT報文信息的理解速度。同時,推理模型結合當前SWIFT報文的關鍵詞匯集Keyword_pooling找到了UCP600(跟單信用證統(tǒng)一慣例)、ISBP745(國際標準銀行實務)中關于“裝運日”(date of shipment)和“匯票到期日”(maturity date)的慣例信息作為業(yè)務參考信息,一定程度上方便了銀行國際業(yè)務專業(yè)人員后續(xù)審單環(huán)節(jié)業(yè)務處理,提高了業(yè)務人員SWIFT報文分析效率。

      3 結論

      本研究主要針對國際慣例詞匯的特征向量表示,提出基于詞向量的國際業(yè)務實時推理模型,推理模型融合了BITS2vec詞向量模型的語義優(yōu)勢,將國際慣例特征映射到高維空間,實現(xiàn)了慣例詞匯在語義空間和向量空間的有效表示。通過GLoVe算法產生SWIFT報文詞向量,使用seq2seq模型加載attention機制學習產出報文摘要。利用TF-IDF值在詞匯重要程度的度量作用,實時計算獲得SWIFT報文語料候選詞集,注入到BITS2vec詞向量模型,運行規(guī)則引擎后生成國際慣例參考信息。通過實驗和結果分析,驗證了推理模型的可行性和有效性。在下一步研究工作中,將進一步拓展訓練數(shù)據(jù)集,加入SWIFT官方國際業(yè)務行業(yè)分析報告等語料,訓練更廣域的語義表示,進一步提升推理模型的國際業(yè)務領域可用性。

      猜你喜歡
      國際慣例語料報文
      基于J1939 協(xié)議多包報文的時序研究及應用
      汽車電器(2022年9期)2022-11-07 02:16:24
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      淺析反駁類報文要點
      中國外匯(2019年11期)2019-08-27 02:06:30
      論國際慣例的內涵
      法制博覽(2017年20期)2017-01-26 15:38:48
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      文物保護的“國際慣例”
      當代黨員(2016年11期)2016-06-18 19:53:48
      ATS與列車通信報文分析
      華語電影作為真實語料在翻譯教學中的應用
      國際私法視野下的國際慣例
      《苗防備覽》中的湘西語料
      凉城县| 新野县| 永胜县| 托克逊县| 乌鲁木齐市| 汶川县| 运城市| 闽侯县| 乐清市| 上高县| 木兰县| 称多县| 察哈| 博乐市| 汝阳县| 浙江省| 宝清县| 曲周县| 大邑县| 北碚区| 大冶市| 会昌县| 盖州市| 泾阳县| 确山县| 博野县| 璧山县| 罗定市| 眉山市| 淮南市| 抚宁县| 淮北市| 冕宁县| 徐水县| 荔浦县| 石景山区| 得荣县| 安国市| 酒泉市| 朝阳市| 金乡县|