• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向信息與通信技術(shù)供應(yīng)鏈網(wǎng)絡(luò)畫(huà)像構(gòu)建的文本語(yǔ)義匹配方法

      2021-09-14 09:21:42羅森林楊俊楠潘麗敏吳舟婷
      關(guān)鍵詞:產(chǎn)品名稱(chēng)編碼器文檔

      羅森林, 楊俊楠, 潘麗敏, 吳舟婷

      (北京理工大學(xué) 信息與電子學(xué)院,北京 100081)

      隨著全球化進(jìn)程的發(fā)展,信息和通信技術(shù)供應(yīng)鏈(information and communications technology supply chain management,ICT供應(yīng)鏈)具備全球分布性以及供應(yīng)商多樣性等特點(diǎn),與此同時(shí)也帶來(lái)了供應(yīng)中斷、信息泄露等安全隱患[1].自2019年5月以來(lái),美國(guó)商務(wù)部分別將華為及其旗下累積達(dá)144個(gè)附屬關(guān)聯(lián)公司列入出口管制的“實(shí)體清單”,對(duì)我國(guó)信息通信技術(shù)相關(guān)產(chǎn)業(yè)的經(jīng)濟(jì)發(fā)展帶來(lái)巨大沖擊.因此,加強(qiáng)ICT供應(yīng)鏈管理已成為關(guān)乎國(guó)民經(jīng)濟(jì)和國(guó)家安全的重要工作[2].為有效管控ICT供應(yīng)鏈的安全風(fēng)險(xiǎn),需要充分挖掘多層級(jí)供應(yīng)關(guān)系,在安全事件發(fā)生時(shí),及時(shí)開(kāi)展關(guān)聯(lián)分析、評(píng)估事件影響范圍.各行業(yè)招投標(biāo)平臺(tái)網(wǎng)站、供應(yīng)商官網(wǎng)和國(guó)家企業(yè)信用信息網(wǎng)等公開(kāi)數(shù)據(jù)可以為ICT供應(yīng)鏈網(wǎng)絡(luò)多層級(jí)關(guān)系挖掘提供了可行性,而基于公開(kāi)數(shù)據(jù)挖掘ICT供應(yīng)關(guān)系需要完成的首要任務(wù)是ICT招投標(biāo)項(xiàng)目文本和供應(yīng)商產(chǎn)品文本的正確匹配.

      文本匹配是自然語(yǔ)言處理中的一項(xiàng)基本技術(shù)[3],用于確定兩個(gè)文本的關(guān)系.在釋義識(shí)別任務(wù)中,文本匹配用于確定兩個(gè)文本是否釋義[4].對(duì)于自然語(yǔ)言推理任務(wù),文本匹配用于判斷是否可以從前提語(yǔ)句中推斷假設(shè)語(yǔ)句[5].在問(wèn)答任務(wù)中,文本匹配用于判斷兩個(gè)問(wèn)題句是否意義相同,并指向同一個(gè)答案.目前文本匹配方法主要分為兩種框架,第一種框架是基于句子單獨(dú)編碼的方法[6-7],在此框架中,將神經(jīng)網(wǎng)絡(luò)編碼器(例如CNN或LSTM)分別應(yīng)用于兩個(gè)輸入文本,將兩個(gè)文本編碼為相同嵌入空間中的表示向量,僅基于兩個(gè)表示向量做出匹配決策,例如THYAGARAJAN[8]和HUANG[9]等的工作.第二種框架是增加句子交互機(jī)制的匹配方法.該框架首先對(duì)兩個(gè)文本的單詞或者上下文向量進(jìn)行匹配,然后將匹配結(jié)果通過(guò)CNN或LSTM等編碼器編碼為向量,以給出最終匹配結(jié)果.這種匹配框架捕獲了兩個(gè)文本之間的交互信息,相對(duì)于第一種框架,性能有明顯改進(jìn).目前的研究工作大都使用注意力機(jī)制作為交互層來(lái)表達(dá)詞匯或短語(yǔ)級(jí)別的對(duì)齊方式[10-11].例如ESIM[11]使用注意力機(jī)制,采用雙向LSTM作為編碼器和聚合器.在此基礎(chǔ)上,研究人員主要采用三種方法來(lái)進(jìn)一步提高性能.首先是使用更豐富的語(yǔ)法或手工設(shè)計(jì)的特征.HIM[11]使用語(yǔ)法分析樹(shù),也有研究使用POS標(biāo)簽,包括TAYETAL[12]和GONG等[13]等的研究.在GONG[13]和KIM等[3]的工作中,包含詞性標(biāo)注和字向量注意力機(jī)制等密集交互的方法得到了較為精準(zhǔn)的匹配結(jié)果.第二種方法是使用更多元的匹配機(jī)制.ABCNN[4]采用了3種不同的注意力方案來(lái)融合序列間不同的交互特征.增強(qiáng)模型的第三種方法是為匹配結(jié)果構(gòu)建后處理層.DIIN[13]用DenseNet作為深度卷積特征提取器,以從匹配結(jié)果中提取信息.除以上3種方法之外,也有研究通過(guò)序列間的多次匹配來(lái)構(gòu)建更有效的模型.DRCN[3]堆疊編碼和對(duì)齊層,它連接所有先前對(duì)齊的結(jié)果,但是必須使用自動(dòng)編碼器來(lái)處理特征空間爆炸的問(wèn)題.RE2[14]保留原始的詞向量特征、先前的對(duì)齊特征和上下文特征3個(gè)關(guān)鍵特征以進(jìn)行序列間比對(duì),并通過(guò)增強(qiáng)殘差連接所有特征.這些常見(jiàn)文本匹配方法一般針對(duì)以句子匹配為目標(biāo)的數(shù)據(jù)集,其輸入為形式相同的句子級(jí)短文本,未對(duì)輸入數(shù)據(jù)的結(jié)構(gòu)化特征進(jìn)行考慮.

      ICT領(lǐng)域文本匹配的輸入數(shù)據(jù)源種類(lèi)更多,形式復(fù)雜,目前沒(méi)有針對(duì)性的解決方案.招投標(biāo)平臺(tái)公開(kāi)的招投標(biāo)項(xiàng)目是基于功能描述的實(shí)體級(jí)項(xiàng)目名稱(chēng)(如圖1(a)、(b)),而供應(yīng)商官網(wǎng)產(chǎn)品頁(yè)面信息包含實(shí)體級(jí)的產(chǎn)品名稱(chēng)和文檔級(jí)的產(chǎn)品描述(如圖1(c)、(d)).其中,實(shí)體級(jí)的產(chǎn)品名稱(chēng),其命名方式分為基于功能命名(例如“動(dòng)環(huán)監(jiān)控系統(tǒng)解決方案”)和基于型號(hào)命名(例如“雷米微服務(wù)云平臺(tái)-RayMix”).文檔級(jí)的產(chǎn)品描述內(nèi)容較長(zhǎng),通常包括產(chǎn)品結(jié)構(gòu)、功能、性能和使用說(shuō)明等多方面描述.針對(duì)ICT輸入數(shù)據(jù)源的文本特點(diǎn),常見(jiàn)文本匹配方法不支持ICT招投標(biāo)項(xiàng)目與供應(yīng)商產(chǎn)品文本匹配的原因有以下兩點(diǎn).

      ① 供應(yīng)商產(chǎn)品與招投標(biāo)項(xiàng)目相關(guān)的信息分布于產(chǎn)品名稱(chēng)和產(chǎn)品描述,現(xiàn)有文本匹配方法對(duì)不同長(zhǎng)度文本無(wú)差別編碼會(huì)引入與招投標(biāo)項(xiàng)目無(wú)關(guān)的噪聲信息.對(duì)于基于功能命名的產(chǎn)品,將產(chǎn)品名稱(chēng)和產(chǎn)品描述無(wú)差別地輸入到句子級(jí)編碼器與招投標(biāo)項(xiàng)目進(jìn)行匹配,產(chǎn)品描述中結(jié)構(gòu)、性能、使用方法等與招投標(biāo)項(xiàng)目無(wú)關(guān)的信息將對(duì)包含功能描述的產(chǎn)品名稱(chēng)產(chǎn)生干擾(如圖1(a)、(c)),產(chǎn)品編碼向量引入大量噪聲,降低性能.而基于型號(hào)命名的產(chǎn)品,其名稱(chēng)無(wú)法體現(xiàn)功能信息,需要從產(chǎn)品描述中提取功能描述信息,與招投標(biāo)項(xiàng)目進(jìn)行匹配(如圖1(b)、(d)).

      ② 僅使用單一種類(lèi)句子級(jí)編碼器無(wú)法有效對(duì)產(chǎn)品名稱(chēng)和產(chǎn)品描述進(jìn)行編碼.由于產(chǎn)品名稱(chēng)為實(shí)體級(jí)的短文本,語(yǔ)義分布集中于詞匯或短語(yǔ),需要有效提取其局部信息;而產(chǎn)品描述為文檔級(jí)的長(zhǎng)文本,內(nèi)容多且主題分散,為了提取與招投標(biāo)項(xiàng)目相關(guān)的功能描述信息,需要同時(shí)考慮產(chǎn)品描述上下文的全局信息和介紹功能的局部重點(diǎn)信息.

      面向ICT招投標(biāo)項(xiàng)目與供應(yīng)商產(chǎn)品文本匹配任務(wù),針對(duì)ICT項(xiàng)目及產(chǎn)品數(shù)據(jù)種類(lèi)多、形式復(fù)雜,難以提取其語(yǔ)義匹配信息,且現(xiàn)有句子級(jí)文本匹配模型對(duì)不同長(zhǎng)度文本無(wú)差別編碼會(huì)引入噪聲導(dǎo)致匹配效果差的問(wèn)題,本文提出一種融合局部和全局特征的實(shí)體-文檔級(jí)聯(lián)合匹配模型(entity-document level joint matching model,EDJM),該模型首先構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器從不同范圍提取招投標(biāo)項(xiàng)目和產(chǎn)品名稱(chēng)的局部信息進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項(xiàng)目無(wú)關(guān)信息的影響;再構(gòu)建實(shí)體-文檔匹配模塊,利用卷積-自注意力編碼器提取招投標(biāo)項(xiàng)目和產(chǎn)品描述的局部和全局信息,并通過(guò)對(duì)齊層序列間的注意力交互機(jī)制增加產(chǎn)品描述中與招投標(biāo)項(xiàng)目有關(guān)信息的權(quán)重,然后進(jìn)行匹配;最后聯(lián)合決策匹配結(jié)果.該聯(lián)合匹配模型既能兼顧產(chǎn)品名稱(chēng)和產(chǎn)品描述的信息,又能消除產(chǎn)品描述對(duì)產(chǎn)品名稱(chēng)的干擾,實(shí)驗(yàn)結(jié)果表明該模型能有效提高匹配性能,方法已實(shí)現(xiàn)直接實(shí)際應(yīng)用.

      本文提出了EDJM模型,其主要貢獻(xiàn)如下.

      ① 提出一種融合局部和全局特征的實(shí)體-文檔級(jí)聯(lián)合匹配模型,通過(guò)將產(chǎn)品名稱(chēng)和產(chǎn)品描述與招投標(biāo)項(xiàng)目進(jìn)行聯(lián)合匹配,消除產(chǎn)品描述中與招投標(biāo)無(wú)關(guān)信息對(duì)產(chǎn)品名稱(chēng)的干擾,并針對(duì)不同長(zhǎng)度文本的編碼要求,選取TextCNN和CNN-SA作為編碼器提取文本局部和全局信息,提升匹配性能,方法可直接實(shí)際應(yīng)用.

      ② EDJM在ICT文本匹配數(shù)據(jù)集上F1值達(dá)到57.18%,優(yōu)于其他匹配模型.

      1 實(shí)體-文檔級(jí)聯(lián)合匹配模型

      1.1 原理框架

      針對(duì)ICT項(xiàng)目及產(chǎn)品數(shù)據(jù)種類(lèi)多、形式復(fù)雜,難以提取其語(yǔ)義匹配信息,且現(xiàn)有句子級(jí)文本匹配模型對(duì)不同長(zhǎng)度文本無(wú)差別編碼會(huì)引入噪聲導(dǎo)致匹配效果差的問(wèn)題,EDJM首先構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器提取招投標(biāo)項(xiàng)目和產(chǎn)品名稱(chēng)的局部信息進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項(xiàng)目無(wú)關(guān)信息的影響;再構(gòu)建實(shí)體-文檔匹配模塊,利用卷積-自注意力編碼器提取招投標(biāo)項(xiàng)目和產(chǎn)品描述的局部和全局信息進(jìn)行匹配;最后聯(lián)合決策匹配結(jié)果.EDJM的原理框圖如圖2所示.

      圖2 EDJM原理圖Fig.2 Principle diagram of EDJM

      1.2 實(shí)體-實(shí)體匹配模塊

      1.2.1編碼層

      嵌入層將兩個(gè)待匹配文本嵌入為固定維度的向量,編碼層使用TextCNN利用不同粒度卷積窗口對(duì)文本進(jìn)行特征抽取.xi∈Rk對(duì)應(yīng)于文本中第i個(gè)詞的k維詞向量,那么長(zhǎng)度為n的句子則表示為

      x1:n=x1⊕x2⊕…⊕xn

      (1)

      式中:⊕表示拼接操作;xi:i+j表示xi,xi+1,…,xi+j的串聯(lián).卷積運(yùn)算的濾波器w∈Rhk應(yīng)用于h個(gè)單詞的窗口以產(chǎn)生新的特征,例如,從詞xi:i+h-1產(chǎn)生特征ci

      ci=f(w*xi:i +h -1+b)

      (2)

      式中:b∈r為偏置項(xiàng),f為非線(xiàn)性激活函數(shù).該濾波器應(yīng)用于句子{x1:h,x2:h+1,…,xn-h+1:n}中每個(gè)可能的單詞窗口以生成特征圖

      c=[c1c2…cn -h +1]

      (3)

      以上為一個(gè)濾波器提取實(shí)體特征的過(guò)程,TextCNN使用多個(gè)濾波器來(lái)捕獲多個(gè)特征.所有的特征被饋送進(jìn)全連接層,輸出固定維度向量.

      編碼層在全連接層之前采用權(quán)重向量的L2范數(shù)約束進(jìn)行正則化,在前向傳播中以dropout概率隨機(jī)刪除隱藏單元參數(shù)來(lái)防止過(guò)擬合

      y=w*(z°r)+b

      (4)

      其中[°]為逐元素相乘運(yùn)算符.

      1.2.2匹配層

      (5)

      這使得TextCNN在訓(xùn)練過(guò)程當(dāng)中完全捕獲待匹配實(shí)體的語(yǔ)義差異,避免用復(fù)雜的學(xué)習(xí)器來(lái)修正TextCNN形成的向量造成語(yǔ)義損失.

      由于訓(xùn)練的早期階段,基于L2范數(shù)的模型無(wú)法糾正錯(cuò)誤,而基于歐幾里得距離的模型則由于梯度消失問(wèn)題,將語(yǔ)義不同的句子錯(cuò)誤判斷為相同,因此論文選擇基于曼哈頓距離的g函數(shù)作為相似性度量函數(shù),從經(jīng)驗(yàn)上看[8],基于曼哈頓距離的g函數(shù)性能更優(yōu).

      1.3 實(shí)體-文檔匹配模塊

      在實(shí)體-文檔匹配模塊中,兩個(gè)文本被嵌入為向量表示,然后由N個(gè)結(jié)構(gòu)相同的連續(xù)構(gòu)建塊通過(guò)增強(qiáng)的殘差連接進(jìn)行連續(xù)處理,每個(gè)構(gòu)建塊參數(shù)獨(dú)立.在每個(gè)塊內(nèi),CNN-SA編碼器首先計(jì)算文本的上下文特征(圖2中的實(shí)心圓圈),然后連接編碼器的輸入和輸出,將其饋送進(jìn)對(duì)齊層,對(duì)兩文本之間的對(duì)齊和交互進(jìn)行建模.融合層融合了對(duì)齊層的輸入和輸出,其輸出即為構(gòu)建塊的最終輸出.最后一塊的輸出輸入到池化層,并轉(zhuǎn)換為固定長(zhǎng)度的向量.預(yù)測(cè)層將兩個(gè)向量作為輸入并預(yù)測(cè)最終目標(biāo).損失函數(shù)使用交叉熵?fù)p失[14].

      1.3.1增強(qiáng)殘差連接

      (6)

      式中[;]表示拼接操作.在增強(qiáng)殘差連接下,對(duì)齊和融合層的輸入中包含全程保持不變的原始點(diǎn)狀特征(嵌入向量),由先前塊處理和優(yōu)化的先前對(duì)齊特征(剩余向量)以及上下文編碼器層的特征(編碼向量)[14].

      1.3.2編碼層

      編碼器讀取殘差塊的輸入x(n),然后通過(guò)以下方式獲得輸出a(或者b)

      a=F(x(n))

      (7)

      式中:F代表模型編碼器的函數(shù);a=[a1a2…ala].編碼器由3層網(wǎng)絡(luò)堆疊:多層卷積層,自注意力層和前饋層,并在每一層之間進(jìn)行標(biāo)準(zhǔn)化處理,編碼器的結(jié)構(gòu)如圖3所示[15].

      圖3 CNN-SA編碼器Fig.3 CNN-SA encoder

      多層卷積層使用深度可分離卷積而不是傳統(tǒng)卷積,因?yàn)樯疃瓤煞蛛x卷積存儲(chǔ)效率更高且通用性更好,這一層將堆疊多層卷積.對(duì)于自注意力層,本文采用多頭注意力機(jī)制,其計(jì)算過(guò)程如圖4所示.

      圖4 多頭注意力機(jī)制Fig.4 Multi-head attention

      其中,圖4的虛線(xiàn)框部分為按比例縮放的點(diǎn)積,其計(jì)算公式如下

      (8)

      應(yīng)用卷積運(yùn)算將輸入矩陣x(n)映射為Q,K和V三個(gè)矩陣,并使用h個(gè)并行的頭來(lái)關(guān)注向量的不同部分.對(duì)于第i個(gè)頭,可以獲得3個(gè)矩陣Qi,Ki,Vi.縮放點(diǎn)積注意力用于計(jì)算Qi和Ki與最終向量表示Hi之間的相關(guān)性;最后,將由h個(gè)并行頭產(chǎn)生的所有向量拼接在一起形成一個(gè)向量.這個(gè)向量是多頭注意的結(jié)果.計(jì)算公式為

      MultiHead(Q,K,V)=Concat(H1,H2,…,Hh)

      (9)

      對(duì)于前饋層,論文使用兩種傳統(tǒng)的卷積操作.編碼器中的這些基本操作(卷積、自注意力、前饋)位于殘差塊中,對(duì)于給定的輸入x和給定的運(yùn)算f,殘差塊的輸出為

      x=f(layernorm(x))+x

      (10)

      其中,layernorm表示層歸一化處理.

      1.3.3對(duì)齊層

      對(duì)齊層采用基于注意力機(jī)制的對(duì)齊方式,將兩個(gè)文本序列的特征作為輸入,以計(jì)算的對(duì)齊表示作為輸出.假設(shè)第一個(gè)實(shí)體序列長(zhǎng)度為la,表示為a=(a1,a2,…,ala),第二個(gè)實(shí)體序列為lb,表示為b=(b1,b2,…,blb).ai和bi之間的相似性得分eij由二者的投影向量點(diǎn)積計(jì)算而得

      eij=F(ai)TF(bj)

      (11)

      F是單層前饋網(wǎng)絡(luò).輸出向量a′和b′通過(guò)對(duì)另一文本序列的表示進(jìn)行加權(quán)求和來(lái)計(jì)算[14].該總和由當(dāng)前位置與另一個(gè)序列中相應(yīng)位置之間的相似性分?jǐn)?shù)加權(quán)

      (12)

      (13)

      1.3.4融合層

      融合層從3個(gè)角度比較局部以及對(duì)齊層的表示,然后將它們?nèi)诤显谝黄?第一個(gè)序列的融合層的輸出如下

      (14)

      (15)

      (16)

      (17)

      其中G1,G2,G3和G是具有獨(dú)立參數(shù)的單層前饋網(wǎng)絡(luò),而[°]表示逐元素乘法.減法運(yùn)算突出顯示兩個(gè)向量之間的差異,而乘法則突顯相似性.b的計(jì)算方式與a相同,不再贅述[14].

      1.3.5預(yù)測(cè)層

      預(yù)測(cè)層將來(lái)自池化層的兩個(gè)序列v1和v2的向量表示作為輸入,最終目標(biāo)預(yù)測(cè)函數(shù)為

      y2=H([v1;v2;v1-v2;v1°v2])

      (18)

      式中:H為多層前饋神經(jīng)網(wǎng)絡(luò).

      1.4 決策輸出模塊

      決策輸出模塊采用分類(lèi)器投票的方式.假設(shè)實(shí)體-實(shí)體匹配模塊的輸出表示為y1,實(shí)體-文檔匹配模塊的輸出表示為y2,模塊交互層表示為

      y=y1‖y2

      (19)

      2 實(shí)驗(yàn)分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)為ICT招投標(biāo)項(xiàng)目與供應(yīng)商官網(wǎng)產(chǎn)品文本匹配數(shù)據(jù)集(ICT數(shù)據(jù)集),ICT數(shù)據(jù)集由北京理工大學(xué)信息安全與對(duì)抗實(shí)驗(yàn)中心采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),從招投標(biāo)平臺(tái)以及各中標(biāo)公司官網(wǎng)獲取,并由25位自然語(yǔ)言處理領(lǐng)域碩士、博士研究生進(jìn)行3次交叉驗(yàn)證標(biāo)注,將最終結(jié)果進(jìn)行合并、評(píng)估,當(dāng)多數(shù)標(biāo)注者(兩位及以上)認(rèn)為該文本對(duì)具有高度匹配關(guān)系時(shí),則認(rèn)為該文本對(duì)是匹配的.

      ICT數(shù)據(jù)集每一條樣本包含3個(gè)字段:招投標(biāo)項(xiàng)目名稱(chēng)、產(chǎn)品(包含產(chǎn)品名稱(chēng)和產(chǎn)品描述)、標(biāo)簽,數(shù)據(jù)集詳細(xì)信息如表1所示.

      表1 ICT數(shù)據(jù)集詳細(xì)信息

      2.2 評(píng)價(jià)方法

      ICT數(shù)據(jù)集存在數(shù)據(jù)不平衡的特點(diǎn),實(shí)驗(yàn)采用準(zhǔn)確率,F(xiàn)1值和AUC值對(duì)結(jié)果進(jìn)行評(píng)價(jià).

      若一個(gè)實(shí)例是正例,被預(yù)測(cè)成為正例,即為真正例(true postive,TP);若一個(gè)實(shí)例是負(fù)例,被預(yù)測(cè)成為負(fù)例,即為真負(fù)例ηTP(true negative,TN)ηTN;若一個(gè)實(shí)例是負(fù)例,但是被預(yù)測(cè)成為正例,即為假正例(false postive,F(xiàn)P)ηTP;若一個(gè)實(shí)例是正例,但是被預(yù)測(cè)成為負(fù)例,即為假負(fù)例(false negative,F(xiàn)N)ηTN.

      準(zhǔn)確率α(accuracy)即正確預(yù)測(cè)的樣本總數(shù),公式為

      (20)

      精確度β(precision)表示被分為正例的樣本中實(shí)際為正例的比例

      (21)

      召回率r(recall)表示在所有正例當(dāng)中,有多少正例被正確地分為正例

      (22)

      F1值綜合考慮了精確度和召回率,計(jì)算公式為

      (23)

      ROC(receiver operating characteristic)曲線(xiàn)是以假正率(FP rate)和假負(fù)率(TP rate)為軸的曲線(xiàn),ROC曲線(xiàn)下面的面積叫做AUC,AUC的值越大,模型性能越好.

      2.3 對(duì)比分析實(shí)驗(yàn)

      2.3.1實(shí)驗(yàn)?zāi)康?/p>

      為了驗(yàn)證EDJM在ICT招投標(biāo)項(xiàng)目與供應(yīng)商產(chǎn)品匹配任務(wù)上的效果,在ICT數(shù)據(jù)集上與7個(gè)對(duì)比算法進(jìn)行比較.

      2.3.2實(shí)驗(yàn)過(guò)程

      實(shí)驗(yàn)采用十折交叉驗(yàn)證方法,將EDJM同7種文本匹配方法進(jìn)行比較,包括DSSM[11](2013)、MaLSTM[10](2015)、ESIM[9](2016)、ABCNN[4](2018)、DIIN[13](2018)、DRCN[3](2018)、RE2[14](2019),其中ESIM使用原始ICT數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)表示為ESIM-1,使用下采樣之后正負(fù)樣本比1∶2的ICT數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)表示為ESIM-2.模型的預(yù)訓(xùn)練詞向量300維,語(yǔ)料庫(kù)為中文維基百科,由word2vec中的連續(xù)詞袋(CBOW)模型進(jìn)行訓(xùn)練[16],詞表大小為961 M.將數(shù)據(jù)按8∶1∶1分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,EDJM的CNN-SA編碼器卷積核的數(shù)量為128,在一個(gè)編碼器中卷積層的數(shù)量為4,在所有層中,多頭注意力的頭的數(shù)量為5.

      2.3.3實(shí)驗(yàn)結(jié)果

      表2的實(shí)驗(yàn)結(jié)果顯示,EDJM在ICT數(shù)據(jù)集上的準(zhǔn)確率、F1值和AUC值均為最佳,優(yōu)于對(duì)比算法.在對(duì)比算法中,ESIM模型在ICT數(shù)據(jù)集上F1值為0,經(jīng)過(guò)下采樣后的ICT數(shù)據(jù)集在ESIM上正常訓(xùn)練,說(shuō)明模型在極度不平衡的數(shù)據(jù)集上無(wú)法正常訓(xùn)練,EDJM對(duì)不平衡數(shù)據(jù)具有一定魯棒性.由此可證明,對(duì)比算法對(duì)不同長(zhǎng)度文本無(wú)差別編碼會(huì)引入與招投標(biāo)項(xiàng)目無(wú)關(guān)的噪聲信息,EDJM將產(chǎn)品名稱(chēng)和產(chǎn)品描述與招投標(biāo)項(xiàng)目進(jìn)行聯(lián)合匹配能夠消除產(chǎn)品描述對(duì)產(chǎn)品名稱(chēng)的干擾,有效提升匹配性能.

      表2 ICT數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果

      2.4 模塊有效性實(shí)驗(yàn)

      2.4.1實(shí)驗(yàn)?zāi)康?/p>

      為驗(yàn)證EDJM各模塊對(duì)模型的作用以及各編碼器對(duì)模塊的影響,在ICT數(shù)據(jù)集上與7種方法或組合進(jìn)行比較.

      2.4.2實(shí)驗(yàn)過(guò)程

      實(shí)驗(yàn)設(shè)置按照輸入分為3類(lèi),(1)~(2)組實(shí)驗(yàn)僅使用EDJM模型的實(shí)體-實(shí)體匹配模塊完成匹配,它們的輸入為:招投標(biāo)項(xiàng)目名稱(chēng)、產(chǎn)品名稱(chēng)、標(biāo)簽,不同的是(1)組使用雙向LSTM編碼器,(2)組即為EDJM實(shí)體-實(shí)體匹配模塊,使用TextCNN編碼器.(3)~(5)實(shí)驗(yàn)僅使用EDJM模型的實(shí)體-文檔匹配模塊完成匹配,他們的輸入為:招投標(biāo)項(xiàng)目名稱(chēng)、產(chǎn)品描述、標(biāo)簽,不同的是(3)組使用CNN編碼器,(4)組實(shí)驗(yàn)使用雙向LSTM編碼器,(5)組實(shí)驗(yàn)即為EDJM實(shí)體-文檔匹配模塊,使用CNN-SA編碼器.(6)~(8)組實(shí)驗(yàn)使用聯(lián)合匹配模型來(lái)完成匹配,它們的輸入為原始ICT數(shù)據(jù)集,不同的是(6)組的兩個(gè)模塊都使用CNN編碼器,(7)組的兩個(gè)模塊都使用CNN-SA編碼器,(8)組即為EDJM模型,實(shí)體-實(shí)體匹配模塊使用TextCNN編碼器,實(shí)體-文檔匹配模塊使用CNN-SA編碼器.

      其中,雙向LSTM的隱藏單元為50,句子長(zhǎng)度(1)組設(shè)置為15,(4)組設(shè)置為999.

      2.4.3實(shí)驗(yàn)結(jié)果

      表3結(jié)果顯示,EDJM在Accuracy、F1、AUC上的性能優(yōu)于僅使用其中一個(gè)模塊的實(shí)體-實(shí)體匹配模型和實(shí)體-文檔匹配模型,EDJM-CNN的性能也優(yōu)于僅使用其中一個(gè)模塊的實(shí)體-實(shí)體匹配模型和基于CNN的實(shí)體-文檔匹配模型.僅使用招投標(biāo)項(xiàng)目和產(chǎn)品描述進(jìn)行匹配,F(xiàn)1值下降近17個(gè)百分點(diǎn),這是由于大部分產(chǎn)品是基于功能命名,只依靠產(chǎn)品描述進(jìn)行匹配丟失了名稱(chēng)中的功能描述信息;同樣,僅使用招投標(biāo)項(xiàng)目和產(chǎn)品名稱(chēng)進(jìn)行匹配的實(shí)體-實(shí)體匹配模型性能也有所降低,這是因?yàn)橹灰揽慨a(chǎn)品名稱(chēng)無(wú)法對(duì)基于型號(hào)命名的產(chǎn)品進(jìn)行匹配.因此證明供應(yīng)商產(chǎn)品與招投標(biāo)項(xiàng)目相關(guān)的信息分布于產(chǎn)品名稱(chēng)和產(chǎn)品描述,EDJM的實(shí)體-實(shí)體匹配模塊、實(shí)體-文檔匹配模塊對(duì)于匹配效果均有提升作用.

      表3 模塊有效性實(shí)驗(yàn)結(jié)果

      在(1)~(2)組的實(shí)驗(yàn)中,實(shí)體-實(shí)體匹配模型的性能優(yōu)于基于LSTM的模型,原因在于產(chǎn)品名稱(chēng)語(yǔ)義分布集中,局部信息對(duì)匹配更有效,textCNN可提取產(chǎn)品名稱(chēng)的局部信息,雙向LSTM是基于序列的編碼器,更側(cè)重于建模全局信息,對(duì)局部信息的提取效果不如TextCNN;在(4)~(6)組的實(shí)驗(yàn)中,使用CNN或者LSTM作為編碼器性能都低于實(shí)體-文檔匹配模型,原因在于產(chǎn)品描述為主題分散的長(zhǎng)文本,CNN無(wú)法有效兼顧全局和局部信息,而LSTM對(duì)局部信息提取能力弱.(6)~(8)組的實(shí)驗(yàn)中,使用單一種類(lèi)編碼器的EDJM-( CNN-SA)和EDJM-CNN表現(xiàn)不如EDJM.因此證明,單一種類(lèi)編碼器無(wú)法有效編碼產(chǎn)品名稱(chēng)和產(chǎn)品描述,且實(shí)體-實(shí)體匹配模塊的TextCNN能有效提取產(chǎn)品名稱(chēng)的局部信息、實(shí)體-文檔匹配模塊的CNN-SA能有效提取產(chǎn)品描述的局部和全局信息.

      3 結(jié) 論

      面向ICT招投標(biāo)項(xiàng)目與供應(yīng)商產(chǎn)品文本匹配任務(wù),針對(duì)ICT項(xiàng)目及產(chǎn)品數(shù)據(jù)種類(lèi)多、形式復(fù)雜,難以提取其語(yǔ)義匹配信息,且現(xiàn)有句子級(jí)文本匹配模型對(duì)不同長(zhǎng)度文本無(wú)差別編碼會(huì)引入噪聲導(dǎo)致匹配效果差的問(wèn)題,論文提出了一種融合局部和全局特征的實(shí)體-文檔級(jí)聯(lián)合匹配模型.通過(guò)構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器提取產(chǎn)品名稱(chēng)的局部信息與招投標(biāo)項(xiàng)目進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項(xiàng)目無(wú)關(guān)信息的影響;構(gòu)建實(shí)體-文檔匹配模塊,采用卷積-自注意力編碼器提取產(chǎn)品描述的局部和全局信息與招投標(biāo)項(xiàng)目進(jìn)行匹配;最后聯(lián)合兩模塊匹配信息,投票得到匹配結(jié)果.為了評(píng)估該模型在文本匹配問(wèn)題上的效果,將EDJM同ABCNN、ESIM、RE2等文本匹配模型上在ICT數(shù)據(jù)集上進(jìn)行對(duì)比,依據(jù)準(zhǔn)確率、F1值、AUC值3個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),結(jié)果表明EDJM模型能夠有效提高匹配性能.論文方法已應(yīng)用于“重點(diǎn)行業(yè)ICT產(chǎn)品(或系統(tǒng)、服務(wù))供應(yīng)鏈網(wǎng)絡(luò)畫(huà)像和安全風(fēng)險(xiǎn)分析實(shí)用系統(tǒng)”,其中,EDJM模型實(shí)現(xiàn)了招投標(biāo)項(xiàng)目和供應(yīng)商官網(wǎng)產(chǎn)品的關(guān)聯(lián)分析,攻克了挖掘ICT供應(yīng)鏈多層級(jí)網(wǎng)絡(luò)關(guān)系中的關(guān)鍵技術(shù)難題.在后續(xù)應(yīng)用中,基于多層級(jí)ICT供應(yīng)鏈網(wǎng)絡(luò)開(kāi)展的關(guān)鍵節(jié)點(diǎn)和安全風(fēng)險(xiǎn)分析準(zhǔn)確率超過(guò)90%.

      目前ICT領(lǐng)域文本匹配缺乏大型公開(kāi)數(shù)據(jù)集,研究未來(lái)將嘗試與遷移學(xué)習(xí)相結(jié)合,利用其他領(lǐng)域豐富的標(biāo)注資源,提高ICT招投標(biāo)項(xiàng)目與供應(yīng)商產(chǎn)品文本匹配的性能.

      猜你喜歡
      產(chǎn)品名稱(chēng)編碼器文檔
      有人一聲不吭向你扔了個(gè)文檔
      基于FPGA的同步機(jī)軸角編碼器
      國(guó)際化妝品名稱(chēng)的翻譯策略
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      多總線(xiàn)式光電編碼器的設(shè)計(jì)與應(yīng)用
      河北通田機(jī)械有限公司生產(chǎn)4JS系列產(chǎn)品
      河北中農(nóng)博遠(yuǎn)農(nóng)業(yè)裝備有限公司
      阳春市| 大关县| 榆中县| 达日县| 丹巴县| 平乐县| 金阳县| 乐安县| 龙泉市| 德州市| 长丰县| 昌吉市| 开平市| 南靖县| 景洪市| 武夷山市| 商洛市| 吉林省| 磐石市| 雷波县| 乌鲁木齐市| 凤凰县| 广汉市| 休宁县| 项城市| 宾川县| 红桥区| 漳州市| 安达市| 遂昌县| 淄博市| 安丘市| 建始县| 合山市| 边坝县| 吉隆县| 定边县| 大关县| 松溪县| 正镶白旗| 兴城市|