• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)的相似數(shù)據(jù)表推薦*

      2022-05-10 07:28:24王成澤彭艷兵
      關(guān)鍵詞:字段數(shù)據(jù)表準(zhǔn)確率

      王成澤 汪 洋 彭艷兵

      (1.武漢郵電科學(xué)研究院 武漢 430070)(2.南京烽火天地通信科技有限公司 南京 210019)

      1 引言

      日常工作中我們所處理的數(shù)據(jù)表數(shù)量眾多,且數(shù)據(jù)表名及數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)并不統(tǒng)一,導(dǎo)致在尋找相似數(shù)據(jù)表時(shí)并不能簡(jiǎn)單的以表名去判別兩張表的內(nèi)容是否相似,這就對(duì)我們篩選出相似表造成了極大的困難。同時(shí),相似表的篩選也是有意義的:一是對(duì)于相似的數(shù)據(jù)表我們可以合并,使數(shù)據(jù)表總量減少,并擴(kuò)充已有的數(shù)據(jù)表內(nèi)容;二是便于我們對(duì)于贅余的數(shù)據(jù)表進(jìn)行廢棄,提高工作效率;三是推薦出相似表的同時(shí),進(jìn)行表中相似字段的推薦,便于數(shù)據(jù)對(duì)標(biāo)使用。因此,本文希望可以引入表識(shí)別、字段推薦等模型實(shí)現(xiàn)半自動(dòng)化處理,為相似數(shù)據(jù)表識(shí)別及推薦提供一些幫助。

      集成學(xué)習(xí)[1](Ensemble Learning)是一種優(yōu)化算法,將多個(gè)學(xué)習(xí)器用某種策略結(jié)合起來(lái),使得整體的泛化性能得到大大提升。其潛在思想是即便一個(gè)弱分類器得到了錯(cuò)誤的結(jié)果,其他弱分類器也可將錯(cuò)誤糾正??傮w來(lái)說(shuō),集成的泛化能力是遠(yuǎn)好于單個(gè)學(xué)習(xí)器的泛化能力。

      目前國(guó)內(nèi)外關(guān)于集成學(xué)習(xí)算法的應(yīng)用研究已有很多。扈曉君[2]等用基于選擇性集成學(xué)習(xí)完成支持向量機(jī)的分類;劉擎超[3]等基于集成學(xué)習(xí)研究交通狀態(tài)預(yù)報(bào)的方法;張有強(qiáng)[4]等基于選擇性集成學(xué)習(xí)研究離群點(diǎn)的檢測(cè);喬楨[5]等對(duì)集成學(xué)習(xí)的多樣性進(jìn)行系統(tǒng)研究;林堅(jiān)鑫[6]等基于AdaBoost算法對(duì)雷達(dá)剩余雜波抑制進(jìn)行研究。

      本文針對(duì)數(shù)據(jù)表的特點(diǎn),將其類比成文本進(jìn)行分析,提出了利用多種文本相似度算法進(jìn)行集成學(xué)習(xí),對(duì)數(shù)據(jù)表中的表名和字段項(xiàng)分別進(jìn)行相似度計(jì)算,最終加權(quán)得出算法置信度并推薦出相似的數(shù)據(jù)表?;诨ヂ?lián)網(wǎng)爬取的原始業(yè)務(wù)表與核心表數(shù)據(jù)進(jìn)行試驗(yàn),驗(yàn)證所提算法的有效性。

      2 數(shù)據(jù)表推薦算法

      2.1 數(shù)據(jù)表推薦算法思路

      數(shù)據(jù)表分為表名和字段名,其重要程度也不盡相同,且都有中英文兩種形式,所以相似度計(jì)算分為四個(gè)部分:中文表名,中文字段名,英文表名,英文字段名。

      本文提供以下幾種思路:可以訓(xùn)練表格領(lǐng)域的詞向量,通過(guò)大量數(shù)據(jù)表數(shù)據(jù)的詞向量訓(xùn)練,最終構(gòu)建出一套較為完整的詞向量詞表,然后利用詞向量之間的余弦距離計(jì)算相似性,這樣可以包含文本中的語(yǔ)義信息,而不是僅僅考慮字符層面的相似;從神經(jīng)網(wǎng)絡(luò)的角度入手,可使用孿生神經(jīng)網(wǎng)絡(luò)衡量?jī)蓚€(gè)輸入的相似度,以一對(duì)樣本及標(biāo)簽作為輸入輸出來(lái)訓(xùn)練模型,通過(guò)表的上下文解析出語(yǔ)義信息;將表格數(shù)據(jù)映射成文本,且表格數(shù)據(jù)中的表名和字段項(xiàng)均為短文本,可以從短文本相似度的角度去進(jìn)行表格之間的相似度比較。

      整體步驟如圖1所示。

      圖1 數(shù)據(jù)表推薦流程圖

      2.2 相似度推薦算法

      數(shù)據(jù)表同文本數(shù)據(jù)類似,每個(gè)表字段項(xiàng)可以看成是文本的一部分,但表不同于文本的地方在于其每個(gè)字段及表名的字符長(zhǎng)度較短,屬于短文本范疇。下面簡(jiǎn)要介紹本文所嘗試的相似度算法[7~11]及選擇標(biāo)準(zhǔn)。

      文本相似度算法包括三類算法:一是基于關(guān)鍵詞匹配的傳統(tǒng)算法,如N-gram[12]相似度,Jaccard[13]系數(shù),Simhash[14],Bm25等;二是將文本映射到向量空間,再利用余弦相似度等方法進(jìn)行計(jì)算,如LDA[15],WMD[16]等;三是基于深度學(xué)習(xí)的方法進(jìn)行訓(xùn)練,如孿生神經(jīng)網(wǎng)絡(luò)[17]等方法。

      神經(jīng)網(wǎng)絡(luò)雖性能強(qiáng)大,算法效果顯著,但是比傳統(tǒng)算法計(jì)算代價(jià)高昂,通常神經(jīng)網(wǎng)絡(luò)模型參數(shù)極大,而且存在非線性操作,因此需要大量樣本且保持樣本的獨(dú)立性。然而本文所用數(shù)據(jù)并不復(fù)雜且互相之間存在關(guān)聯(lián),樣本的數(shù)據(jù)量也不符合神經(jīng)網(wǎng)絡(luò)的要求,難以得到良好的泛化性;利用詞向量進(jìn)行比較,可以融入語(yǔ)義信息,效果好于直接利用短文本相似度方法比較,但數(shù)據(jù)量層面來(lái)看,無(wú)法滿足詞向量的訓(xùn)練要求,所以在使用詞向量訓(xùn)練時(shí),在詞表中加入了之前涉及的其他地市的數(shù)據(jù)表以達(dá)到擴(kuò)充數(shù)據(jù)量的要求。最終主要采用基于關(guān)鍵詞匹配的相關(guān)算法應(yīng)用于實(shí)際的表識(shí)別場(chǎng)景,同時(shí)加入基于詞向量的WMD(詞搬移)方法進(jìn)行詞向量層面的嘗試。

      基于關(guān)鍵詞匹配的算法較多,但側(cè)重點(diǎn)卻并不相同,jaro,jaro-winkler[18]以及edit distance(編輯距離)都是度量字符間距離的算法,jaro強(qiáng)調(diào)字符間的距離限制,而jaro-winkler則強(qiáng)調(diào)字符的公共前綴更為重要;simhash強(qiáng)調(diào)的是大規(guī)模數(shù)據(jù)的相似度比較,其核心思想是降維;Lcs(最大公共子序列)強(qiáng)調(diào)字符串中公共字符的個(gè)數(shù);N-garm則強(qiáng)調(diào)字符的切分粒度。基于向量模型的LDA(文檔主題生成模型)強(qiáng)調(diào)語(yǔ)義與主題層面的相似,假設(shè)每份文檔都使用多個(gè)主題混合生成,同樣每個(gè)主題也是由多個(gè)單詞混合生成,即根據(jù)文檔得到主題分布,再根據(jù)分布選出對(duì)應(yīng)單詞;WMD基于word2vec得到embedding向量,在此向量空間中,語(yǔ)義相似的詞間的距離相對(duì)較小,通過(guò)歐式距離用距離來(lái)表示文檔間的相似度,這與上文所說(shuō)的度量字符間距離的算法不盡相同。

      上文介紹了多種短文本相似度算法,對(duì)于實(shí)際情況來(lái)說(shuō),準(zhǔn)確率也有所差異。本文相似度算法的選擇主要基于兩方面去考慮:一是算法應(yīng)用于數(shù)據(jù)時(shí)的準(zhǔn)確度;二是算法運(yùn)行速度。所以對(duì)于不同算法分別應(yīng)用于數(shù)據(jù)表表名和數(shù)據(jù)項(xiàng)字段進(jìn)行這兩方面的考量,選出較為理想的幾種算法,再進(jìn)行加權(quán)集成,達(dá)到更高的準(zhǔn)確度。

      2.3 相似度計(jì)算

      本文從兩個(gè)角度進(jìn)行數(shù)據(jù)表的相似度計(jì)算,一是對(duì)表名的相似度計(jì)算,基于算法選擇的標(biāo)準(zhǔn),選出合適算法,加權(quán)集成,同時(shí)由于表名的特殊性以及防止過(guò)大數(shù)據(jù)量造成內(nèi)存的損耗,人為規(guī)定兩張數(shù)據(jù)表表名必須至少有一個(gè)相同文字才進(jìn)行相似度的比較,通過(guò)一次篩選,減少比較的數(shù)據(jù)量;二是對(duì)表字段項(xiàng)進(jìn)行計(jì)算,對(duì)于兩張表的字段項(xiàng)分別進(jìn)行遍歷計(jì)算,找出兩張表中最相似的字段對(duì)應(yīng),并推薦出最為相似的兩張表。

      算法的側(cè)重點(diǎn)不同,置信度并不統(tǒng)一,首先需要進(jìn)行歸一化,再進(jìn)行算法的調(diào)參。算法歸一化采取的Z-score標(biāo)準(zhǔn)化,使結(jié)果落到[0,1]區(qū)間,公式如下:

      其中μ為樣本數(shù)據(jù)中算法置信度的均值,σ為其方差。

      得到表名相似度和字段項(xiàng)相似度之后,加權(quán)后的數(shù)據(jù)表相似度計(jì)算公式如下:

      其中Table_sim為表名的相似度算法置信度,F(xiàn)ield_sim為表字短信的算法置信度,w1,w2分別為其權(quán)重。

      3 實(shí)驗(yàn)驗(yàn)證

      3.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

      本文驗(yàn)證數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)爬取的地市對(duì)標(biāo)采集的全量表數(shù)據(jù)和根據(jù)標(biāo)準(zhǔn)制定的業(yè)務(wù)核心表。該數(shù)據(jù)包含中英文表名、中英文表字段名、相似字段對(duì)照等信息。通過(guò)采集并篩選出對(duì)標(biāo)結(jié)果為核心表的全量表數(shù)據(jù)作為本次實(shí)驗(yàn)的數(shù)據(jù)集。本文算法采用的是語(yǔ)言Python 3.6,在Windos系統(tǒng)下運(yùn)行,計(jì)算機(jī)CPU為Intel Core i5-7500@3.4GHz,內(nèi)存大小為8G。

      3.2 實(shí)驗(yàn)過(guò)程

      3.2.1 數(shù)據(jù)預(yù)處理

      本文數(shù)據(jù)選取的是互聯(lián)網(wǎng)爬取的各地市對(duì)標(biāo)采集的共1600張業(yè)務(wù)數(shù)據(jù)全量表,以及150張業(yè)務(wù)應(yīng)用廣泛的核心表,其中446張?jiān)既勘斫?jīng)專家進(jìn)行篩選后可對(duì)應(yīng)在業(yè)務(wù)上應(yīng)用廣泛的核心表;409張?jiān)紨?shù)據(jù)表有中英文表名,37張?jiān)紨?shù)據(jù)表僅有英文表名。

      原始數(shù)據(jù)表的表名和字段名是包含通用字段的,例如旅館信息記錄表,我們所關(guān)注的是旅館,而信息記錄表這些字段對(duì)判斷相似沒(méi)有幫助,在進(jìn)行表名的推薦時(shí)應(yīng)去掉這些通用字段,通過(guò)我們對(duì)1600張?jiān)紨?shù)據(jù)表及核心表的人工預(yù)研,去掉字段如表1所示。

      同時(shí),對(duì)于數(shù)據(jù)表中的字段項(xiàng)我們也需要進(jìn)行預(yù)處理,去掉其中無(wú)意義的字段,以提高之后算法推薦的準(zhǔn)確度。同時(shí)由于字段項(xiàng)不同于數(shù)據(jù)表的表名,每張數(shù)據(jù)表的字段項(xiàng)較多,其形式也會(huì)更加多樣,還可能會(huì)出現(xiàn)一些符號(hào),例如人員_數(shù)量,類似這種帶有特殊符號(hào)的字段項(xiàng),預(yù)處理時(shí)需要考慮全面,首先去掉特殊符號(hào),再進(jìn)行通用字段的刪除。預(yù)研之后去掉的數(shù)據(jù)表通用字段項(xiàng)如表2所示。

      表2 數(shù)據(jù)項(xiàng)通用字段刪除

      這些字段與數(shù)據(jù)表的主體內(nèi)容并不相關(guān),可能會(huì)導(dǎo)致推薦時(shí)的偏差,這里我們的選取原則是對(duì)1600張數(shù)據(jù)表中的字段進(jìn)行統(tǒng)計(jì),選取出現(xiàn)次數(shù)Top20的字段進(jìn)行人工判研,最后篩選出15個(gè)頻次出現(xiàn)較高的通用字段項(xiàng)進(jìn)行刪除,以提高相似表的推薦精度。

      3.2.2 確定最優(yōu)參數(shù)與算法

      上述介紹的算法各自側(cè)重點(diǎn)不同,本文在選擇合適算法時(shí),先分別對(duì)數(shù)據(jù)表名和字段項(xiàng)相似度采用上述算法,對(duì)比專家預(yù)設(shè)結(jié)果,選出準(zhǔn)確率較高且運(yùn)行時(shí)間相對(duì)較短的算法作為集成學(xué)習(xí)的單個(gè)學(xué)習(xí)器。各算法在表名相似的準(zhǔn)確率如表3、表4所示。

      表3 數(shù)據(jù)表中文表名算法準(zhǔn)確率

      英文表名的比較效果準(zhǔn)確度相對(duì)較低,原因在于各地市對(duì)標(biāo)數(shù)據(jù)與核心表所提供的英文表名方式不一致。各地市的英文表名存在多種情況,如對(duì)應(yīng)的中文表名首字母,拼音與英文混搭,甚至存在多張表英文名相同,僅通過(guò)編號(hào)區(qū)分的情況,而核心表統(tǒng)一為英文簡(jiǎn)寫(xiě),所以算法的結(jié)果準(zhǔn)確性偏低,本文不再考慮此維度。

      算法在數(shù)據(jù)表字段項(xiàng)相似方面準(zhǔn)確率如表4所示。

      表4 數(shù)據(jù)表中文字段項(xiàng)名算法準(zhǔn)確率

      在英文字段項(xiàng)上的對(duì)比與表名類似,由于各字段英文表達(dá)方式的不同,表示同一字段的英文相去甚遠(yuǎn),導(dǎo)致算法的準(zhǔn)確率并不理想,因此本文不對(duì)此方面進(jìn)行過(guò)多考慮。

      單個(gè)算法的數(shù)據(jù)表推薦效果一般,所以本文對(duì)于中文表名和字段項(xiàng)均采用效果較好的三個(gè)算法進(jìn)行集成學(xué)習(xí),若選擇算法過(guò)多反而會(huì)導(dǎo)致計(jì)算量龐大且效果并不明顯。參數(shù)優(yōu)化采取了隨機(jī)搜索優(yōu)化參數(shù),即通過(guò)固定次數(shù)的迭代,采用隨機(jī)采樣分布的方式搜索合適的參數(shù)。其為每個(gè)參數(shù)定義了分布函數(shù),并在該空間中進(jìn)行采樣,本文次數(shù)設(shè)置為500,經(jīng)500次迭代后,最終各算法的權(quán)重如表5所示。

      表5 各算法權(quán)重分布

      3.3 實(shí)驗(yàn)結(jié)果分析

      中文表名和字段項(xiàng)分別經(jīng)過(guò)集成學(xué)習(xí)后準(zhǔn)確率均提高了6%左右,中文表名比較時(shí)總數(shù)為409張,因?yàn)樘峁┑臄?shù)據(jù)中有部分沒(méi)有中文表名,為了除去此影響,不將其納入中文表名的比較中。分別計(jì)算完表名和字段名的相似度,最后將兩個(gè)部分調(diào)參后的結(jié)果加權(quán)求和得到最終的表識(shí)別相似度,經(jīng)過(guò)隨機(jī)采樣分布多次調(diào)試后,表識(shí)別準(zhǔn)確率結(jié)果如表6所示。

      表6 集成學(xué)習(xí)算法權(quán)重分布

      表名和字段名的權(quán)重設(shè)為0.28和0.72,其中對(duì)于無(wú)中文表名的數(shù)據(jù)表,僅利用字段進(jìn)行判別。加權(quán)求和后,準(zhǔn)確率上升了10%。

      同時(shí)考慮到在進(jìn)行數(shù)據(jù)表字段項(xiàng)識(shí)別時(shí),我們已經(jīng)通過(guò)相似度算法簡(jiǎn)介推薦了核心表每個(gè)字段的最相似字段,按照此思路,優(yōu)化表識(shí)別的功能,請(qǐng)相關(guān)人員標(biāo)注了部分核心表中字段項(xiàng)的核心字段,通過(guò)核心字段,可以推薦出全量表與其相似的字段,便于我們分析該張全量表是否是業(yè)務(wù)需要的。

      4 結(jié)語(yǔ)

      本文提出了一種基于集成學(xué)習(xí)的相似數(shù)據(jù)表推薦算法。以采集的地市對(duì)標(biāo)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)來(lái)源,運(yùn)用集成學(xué)習(xí)將多種短文本分類算法運(yùn)用到相似度比較中,從表名和字段項(xiàng)兩方面對(duì)不同方法實(shí)驗(yàn)后,選擇準(zhǔn)確度較高且運(yùn)行時(shí)間較短的方式,選取合適的權(quán)重,最終得到推薦的相似結(jié)果。對(duì)比有經(jīng)驗(yàn)的專家人工給定的對(duì)標(biāo)結(jié)果,算法成功率達(dá)到81%。實(shí)際上,在相似度比較過(guò)程中,會(huì)遇到英文字段的表達(dá)方式不統(tǒng)一,數(shù)據(jù)表中部分字段缺失以及沒(méi)有中文表名等問(wèn)題,給本文算法的判斷帶來(lái)了困難。

      猜你喜歡
      字段數(shù)據(jù)表準(zhǔn)確率
      圖書(shū)館中文圖書(shū)編目外包數(shù)據(jù)質(zhì)量控制分析
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      湖北省新冠肺炎疫情數(shù)據(jù)表
      黨員生活(2020年2期)2020-04-17 09:56:30
      基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      CNMARC304字段和314字段責(zé)任附注方式解析
      圖表
      無(wú)正題名文獻(xiàn)著錄方法評(píng)述
      桐乡市| 循化| 连云港市| 桃园市| 南郑县| 南华县| 乐陵市| 井陉县| 南郑县| 兰州市| 黄骅市| 婺源县| 武功县| 车险| 长治市| 东海县| 宁德市| 盐城市| 元阳县| 吐鲁番市| 贵德县| 沁阳市| 宾川县| 南宫市| 田林县| 尼勒克县| 台安县| 汝南县| 兴文县| 七台河市| 清镇市| 临漳县| 龙泉市| 顺义区| 闽清县| 阳江市| 阳曲县| 湾仔区| 凌源市| 乌海市| 肇州县|