• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向圖書采選的語義化查重策略*

      2020-01-17 06:35:02漆月石璐
      數(shù)字圖書館論壇 2019年11期
      關(guān)鍵詞:查重同質(zhì)化詞典

      漆月 石璐

      (1.西南大學(xué)圖書館,重慶 400715;2.上海諾基亞貝爾股份有限公司研發(fā)部,北京 100010)

      圖書同質(zhì)化是指相同或不同出版社出版的不同圖書在內(nèi)容上基本相同,甚至改變?cè)瓡头饷嬖俅纬霭娴默F(xiàn)象[1]。當(dāng)今的出版市場(chǎng)圖書同質(zhì)化現(xiàn)象嚴(yán)重[2],導(dǎo)致館藏圖書的重復(fù)率逐年增加,尤其是名著類、教科類圖書,多數(shù)高校圖書館都存在較嚴(yán)重的內(nèi)容重合現(xiàn)象。以西南大學(xué)圖書館為例,僅C語言教材類圖書的館藏就在200種以上,且大部分借閱量為0。同質(zhì)化圖書的采購不僅影響圖書館的藏書質(zhì)量,而且造成不必要的資源浪費(fèi)。然而,逐年遞增的圖書出版量正在不斷增加圖書查重的工作量和復(fù)雜度,圖書采選人員難以在海量的征訂目錄中深入了解每一種圖書的具體內(nèi)容。因此,圖書館需要尋求一種新的技術(shù)和策略,對(duì)同質(zhì)化圖書進(jìn)行高效率的自動(dòng)化判別,以減輕采選人員的工作負(fù)擔(dān),提升館藏建設(shè)質(zhì)量。

      1 圖書采選查重工作現(xiàn)狀

      圖書查重是在擬購書單中檢查是否存在已入藏的相同圖書,避免因重復(fù)采購造成資源浪費(fèi)和館藏臃腫。早期的查重方法主要以ISBN號(hào)為檢索點(diǎn),但并不能應(yīng)對(duì)ISBN編號(hào)不規(guī)范或一書多號(hào)等問題[3]。雖然改進(jìn)后的圖書管理系統(tǒng)增加了對(duì)題名、著者、出版日期、出版社等多種書目數(shù)據(jù)的排列組合與匹配功能,對(duì)查重工作起到一定的輔助作用,但基于字符串的模糊匹配方式,對(duì)于同質(zhì)化圖書的識(shí)別能力非常有限。

      對(duì)于圖書同質(zhì)化問題,已有一些學(xué)者進(jìn)行了研究和探討。蔣鴻標(biāo)等[4]根據(jù)外部特征將同質(zhì)化圖書分為顯性同質(zhì)化和隱性同質(zhì)化,并提出針對(duì)不同特征的采訪控制措施。陸文靜[5]提出同質(zhì)化現(xiàn)象是因編輯把關(guān)職能失靈造成的,并呼吁圖書編輯善用職能改善這一情況。但這些措施都需要人工完成,要求相關(guān)人員利用經(jīng)驗(yàn)和常識(shí)進(jìn)行鑒別,效率較低,且容易存在遺漏、誤檢等情況。針對(duì)這一問題,本文提出一種基于自然語言處理技術(shù)的圖書查重策略,針對(duì)圖書特征進(jìn)行語義相似性比較和重復(fù)度綜合評(píng)價(jià),能有效識(shí)別書目表現(xiàn)不同但實(shí)質(zhì)內(nèi)容相同或相近的圖書,對(duì)現(xiàn)有查重方式起到補(bǔ)充和完善作用。

      2 語義分析技術(shù)概述

      語義相似度本身是一個(gè)抽象的概念,基于二進(jìn)制規(guī)則運(yùn)行的計(jì)算機(jī)難以對(duì)兩個(gè)文本的內(nèi)容相似度直接進(jìn)行量化計(jì)算。傳統(tǒng)的字面匹配方式僅對(duì)字符本身進(jìn)行比較,但對(duì)于同義詞或者多義詞的情況則無能為力。因此,需要采取某種方法將文本的語義轉(zhuǎn)化為數(shù)學(xué)模型,通過計(jì)算模型之間的差異來度量兩個(gè)內(nèi)容的相似度,這就是語義相似性計(jì)算的基本思想。

      2.1 詞向量簡介

      詞語向量化就是將詞語用向量來進(jìn)行表示,以便計(jì)算機(jī)識(shí)別和理解。早期的自然語言處理系統(tǒng)通常利用詞語在詞典中的位置對(duì)詞語進(jìn)行編碼,如假設(shè)詞語“兒童”“小孩”“蘋果”分別出現(xiàn)在詞典的第3位、第6位和第9位,則可以分別表示為:

      兒童——[0 0 1 0 0 0 0 0 0…]

      小孩——[0 0 0 0 0 1 0 0 0…]

      蘋果——[0 0 0 0 0 0 0 0 1…]

      每個(gè)向量的長度為詞典中詞語的個(gè)數(shù),這種編碼方式被稱為獨(dú)熱編碼(one-hot representation)[6],其優(yōu)點(diǎn)是簡單、直觀,但容易造成維度災(zāi)難,且不能解釋詞語之間的關(guān)聯(lián)性。

      針對(duì)這一問題,Hinton[7]提出了詞向量的分布式表示(distributed representation),其核心思想為:詞語的語義是通過上下文信息來確定的,即相同語境出現(xiàn)的詞,其語義也相近。具體實(shí)現(xiàn)方式是用統(tǒng)計(jì)學(xué)的方法對(duì)一個(gè)大型文本(語料庫)進(jìn)行訓(xùn)練,計(jì)算詞語在給定上下文中出現(xiàn)的概率,并以概率值為元素在一個(gè)較低的向量空間中映射該詞語。上文中的3個(gè)詞語可以用四維詞向量表示為:

      兒童——[0.99 0.99 0.05 0.7]

      小孩——[0.99 0.05 0.93 0.6]

      蘋果——[0.02 0.01 0.98 0.5]

      因?yàn)樵谟?xùn)練過程中考慮了詞語的上下文,使得分布式表示生成的詞向量帶有了語義信息,如“兒童”和“小孩”詞義相近,在向量空間中的距離也更近,因此只需計(jì)算出兩個(gè)詞向量的空間距離(通常用余弦距離表示),即可表示其語義上的量化相似度。

      2.2 基于Word2Vec訓(xùn)練的詞向量

      生成詞向量的分布式表示的方法有很多,其中Word2Vec是目前比較主流的詞向量生成工具之一。Word2Vec技術(shù)是谷歌公司在2013年開源的自然語言處理工具,它利用人工神經(jīng)網(wǎng)絡(luò)對(duì)語料庫進(jìn)行訓(xùn)練,以實(shí)現(xiàn)詞向量計(jì)算。Word2Vec分為CBOW和Skip-gram 2種訓(xùn)練模型,其中CBOW模型的訓(xùn)練輸入是前后鄰近的若干個(gè)詞語,輸出是最可能出現(xiàn)在這幾個(gè)詞語中間的詞語,適用于小型數(shù)據(jù)庫;而Skip-gram則相反,輸入為某特定詞語,輸出為該詞語前后的鄰近詞語,更適合大型語料庫的計(jì)算[8]。設(shè)定上下文詞語個(gè)數(shù)為2,2種模型如圖1所示。

      圖1 Word2Vec的2種訓(xùn)練模型

      可以看出,Word2Vec是一個(gè)三層神經(jīng)網(wǎng)絡(luò),分別為輸入層(input layer)、隱藏層(hidden layer)和輸出層(output layer),模型的輸入和輸出都是詞語的獨(dú)熱編碼,在隱藏層中完成輸入到輸出的訓(xùn)練。訓(xùn)練過程中將得到一個(gè)權(quán)重矩陣,用特定詞語的獨(dú)熱編碼乘以該矩陣,即可得到該詞Word2Vec訓(xùn)練的詞向量。

      3 圖書的語義化查重

      3.1 總體思路

      雖然直接對(duì)全文內(nèi)容進(jìn)行比較得到的結(jié)論最為精確,但一本圖書動(dòng)輒數(shù)十萬字,對(duì)系統(tǒng)的吞吐量、穩(wěn)定性要求較高,難以保證數(shù)據(jù)的處理效率和存儲(chǔ)需求。本文認(rèn)為,書目信息中的主題詞、內(nèi)容提要和目錄3個(gè)字段足以表達(dá)圖書的基本內(nèi)容特征,因此選擇以上3種數(shù)據(jù)作為圖書特征,實(shí)現(xiàn)圖書的語義化特征模型構(gòu)建。整個(gè)同質(zhì)化查重策略的總體思路是:首先根據(jù)選擇的特征字段設(shè)定圖書特征模型,然后對(duì)所有館藏圖書進(jìn)行建模,得到館藏特征庫,在進(jìn)行查重工作時(shí),將征訂書單中的圖書與特征庫進(jìn)行語義化比較,根據(jù)相似度計(jì)算結(jié)果判定待選圖書與館藏的同質(zhì)化程度。研究中以Python為實(shí)驗(yàn)環(huán)境,采用圖書館館藏書目數(shù)據(jù)作為語料庫構(gòu)建向量詞典,根據(jù)詞典查詢得到特征內(nèi)容的向量模型,最后通過計(jì)算2種特征模型間的相似度作為圖書同質(zhì)化程度的量化評(píng)價(jià)。

      3.2 構(gòu)建向量詞典

      3.2.1 語料庫預(yù)處理

      本文選擇館藏書目數(shù)據(jù)為原始語料庫以增加圖書領(lǐng)域語義分析的準(zhǔn)確性,通過對(duì)書目marc的結(jié)構(gòu)分析,選擇題目、內(nèi)容提要、一般附注和主題詞4個(gè)字段的數(shù)據(jù)進(jìn)行抽取。由于marc中未包含目錄信息,因此需要從第三方平臺(tái)提供的接口獲得數(shù)據(jù),如京東聯(lián)盟、當(dāng)當(dāng)開放平臺(tái)等都提供了返回圖書目錄的API。實(shí)驗(yàn)中以西南大學(xué)圖書館書目管理系統(tǒng)為主要數(shù)據(jù)來源,將每種館藏書目信息保存為一行文本,最后得到關(guān)于館藏書目數(shù)據(jù)的語料庫。對(duì)語料庫的文本內(nèi)容進(jìn)行分詞、標(biāo)點(diǎn)符號(hào)過濾、停用詞過濾、詞性過濾后,即可得到待訓(xùn)練的語料文件。

      分詞處理是中文自然語言處理過程的首要步驟,因?yàn)橹形囊詽h字為單位,詞語間沒有明顯的分割符號(hào),必須將一段連續(xù)的漢字分割成有意義的詞語,才能用于語義分析處理[9]。本文采用Python的第三方模塊jieba工具實(shí)現(xiàn)分詞操作。jieba工具是基于Python開發(fā)的開源中文分詞組件,同時(shí)還提供詞性識(shí)別功能,因此在分詞操作的同時(shí)可完成停用詞和詞性過濾操作。停用詞和詞性過濾的目的是刪除在語義分析中作用不大的功能詞,如關(guān)聯(lián)詞、副詞、助詞等。本文結(jié)合實(shí)際經(jīng)驗(yàn),主要保留了名詞、動(dòng)詞和形容詞相關(guān)詞性的詞語。另外停用詞過濾采用了百度停用詞表,根據(jù)詞表對(duì)文本中出現(xiàn)的停用詞進(jìn)行刪除。

      3.2.2 生成向量詞典

      本文調(diào)用了Python的第三方模塊gensim提供的函數(shù)gensim.models.Word2Vec對(duì)處理好的語料庫進(jìn)行學(xué)習(xí),生成面向書目數(shù)據(jù)的詞向量,其中訓(xùn)練窗口設(shè)置為5(分析上下文的前后各5個(gè)詞),詞向量維度設(shè)置為100,根據(jù)數(shù)據(jù)情況選擇Skip-gram模型進(jìn)行訓(xùn)練,最終輸出構(gòu)建好的向量詞典。通過采集得到圖書數(shù)據(jù)1 787 412條,得到訓(xùn)練好的詞向量283 552個(gè),向量詞典文件輸出形式如圖2所示。

      圖2 向量詞典文件輸出形式

      詞典中第一行標(biāo)注了詞典的詞匯量和詞向量的維度,后面每一行記錄了一個(gè)詞語的向量值。將向量詞典以文件形式保存后,使用時(shí)直接加載即可,不需要重復(fù)訓(xùn)練,同時(shí)也可以根據(jù)館藏的增長情況在必要時(shí)進(jìn)行更新。

      3.3 圖書特征模型設(shè)計(jì)

      由于選定的圖書特征字段文本長度不一,本文采用結(jié)構(gòu)體的形式進(jìn)行圖書特征模型描述,以“keyword”(主題詞)、“abstract”(內(nèi)容提要)和“catalogue”(目錄)為結(jié)構(gòu)體的成員變量,以ISBN號(hào)為每個(gè)實(shí)例的唯一性標(biāo)識(shí)。每個(gè)成員變量都是一個(gè)以詞語為元素的字符串型數(shù)組,其中,“keyword”可以直接存儲(chǔ),其他成員則需要對(duì)文本進(jìn)行分詞和停用詞、詞性過濾操作后再將得到的詞語列表保存為數(shù)組,針對(duì)“catalogue”,還過濾了章節(jié)編號(hào)、前言、參考文獻(xiàn)、附錄等對(duì)語義分析無意義的文字。對(duì)于“abstract”和“catalogue”字段的長文本處理方式是:首先進(jìn)行文本分詞處理后,對(duì)重復(fù)出現(xiàn)的詞語進(jìn)行去重,去重前需要記錄詞語出現(xiàn)的頻率,作為詞語權(quán)重用于后續(xù)工作,詞頻的計(jì)算方法是用該詞在本文出現(xiàn)的頻率除以該詞在所有文本中出現(xiàn)的頻率,最后將數(shù)組元素以“詞語/權(quán)重”的形式存儲(chǔ)。以《C語言程序設(shè)計(jì)》為例,其實(shí)例化后的圖書特征模型形式如圖3所示。

      圖3 圖書特征模型實(shí)例

      3.4 特征相似度計(jì)算

      完成圖書特征建模后,即可利用Word2Vec構(gòu)建的向量詞典實(shí)現(xiàn)語義化相似度計(jì)算。在語義分析過程中,長文本與短文本的處理方式不同,需要分別進(jìn)行處理。這里首先討論計(jì)算2種圖書的主題詞相似度方法,具體步驟為:①遍歷“keyword”的所有元素,在向量詞典中查找每個(gè)元素的詞向量;②計(jì)算詞向量在每個(gè)維度上的平均值,作為“keyword”的特征向量;③計(jì)算2個(gè)特征向量的余弦距離作為2個(gè)特征的相似度評(píng)價(jià)值,余弦距離記為cosDict(K,K’)。其中,K與K’分別表示兩種圖書的“keyword”特征向量。

      由于“keyword”僅有詞語組成,詞語間基本不存在關(guān)聯(lián)性,所以只需取每個(gè)數(shù)組元素的詞向量平均值作為圖書主題詞的特征向量,即可完成相關(guān)計(jì)算。在短文本的語義分析中,這種做法不會(huì)產(chǎn)生太大誤差,但是在長文本的相似度計(jì)算時(shí),忽略上下文的語義關(guān)聯(lián)則會(huì)影響結(jié)果的精確度。因此,在面向“abstract”“catalogue”的長文本計(jì)算時(shí),本文根據(jù)詞語在上下文中的語義關(guān)系為每組距離進(jìn)行加權(quán),再對(duì)距離進(jìn)行求和得到兩個(gè)文本向量的空間距離,以得到更加準(zhǔn)確的長文本語義相似度結(jié)果,記為txtDict(T,T’)。其中,T與T’分別表示兩個(gè)長文本類型的特征數(shù)組,而距離權(quán)重通過WMD算計(jì)得到。WMD是一種基于Word2Vec技術(shù)的文本距離算法,它通過乘以計(jì)算文本T中的詞語轉(zhuǎn)移到文本T’中所需要的最小代價(jià)來衡量兩個(gè)文本的相似度[10]。

      3.5 圖書同質(zhì)化查重策略

      整個(gè)同質(zhì)化查重策略的流程如圖4所示,首先以圖書館的書目數(shù)據(jù)為語料庫進(jìn)行Word2Vec訓(xùn)練得到向量詞典,同時(shí)通過對(duì)館藏圖書的特征建模生成圖書特征庫。在圖書采選時(shí),將征訂書單中的圖書與特征庫的所有圖書分別進(jìn)行特征相似度計(jì)算,從而作出同質(zhì)化程度判定。

      圖4 圖書同質(zhì)化查重流程

      同質(zhì)化判定將主題詞、摘要和目錄3種特征相似度作為評(píng)價(jià)指標(biāo),通過權(quán)重設(shè)置綜合3種評(píng)價(jià)指標(biāo)得到圖書的相似度判定如公式(1)。

      其中B和B’是2種圖書的特征模型,α0、α1、α2為3個(gè)特征相似度的權(quán)系數(shù)。

      公式中的權(quán)系數(shù)的計(jì)算采用AHP來實(shí)現(xiàn)[11],具體流程如下。

      步驟一:經(jīng)多專家在[1~9]數(shù)值區(qū)間內(nèi)對(duì)評(píng)價(jià)指標(biāo)的重要程度賦值,其中“1”表示2種指標(biāo)相比具有相同的重要性,“9”表示前者比后者極端重要。將主題相似度、摘要相似度、目錄相似度分別記為C1、C2、C3,得到3種指標(biāo)兩兩比較的判斷矩陣P,如表1所示。

      表1 評(píng)價(jià)指標(biāo)兩兩比較判斷矩陣

      其中,Ci∶Cj≥aij,aij表示Ci與Cj相比對(duì)相似性判定的重要程度,aij=1/aji。

      步驟二:計(jì)算表1中判斷矩陣的特征向量W,其中,W=(w1,w2,w3)=(0.41,0.91,2.71),進(jìn)行歸一化處理后,W=(0.10,0.23,0.67),同時(shí),可以計(jì)算出最大特征值λ=3.09。

      步驟三:進(jìn)行一致性檢驗(yàn)分析,檢驗(yàn)判斷矩陣的邏輯正確性。檢驗(yàn)指標(biāo)用一致性比率CR值來分析,CR值越接近0,表明判斷越正確。計(jì)算公式為,其中CI是一致性指標(biāo),;RI表示隨機(jī)一致性指標(biāo),通過查找隨機(jī)一致性參照表得到RI=0.58。計(jì)算得到CR=0.07,證明判斷矩陣具有滿意的一致性。最后得到的圖書相似度綜合評(píng)價(jià)指標(biāo)如公式(2)。

      4 實(shí)驗(yàn)驗(yàn)證

      為驗(yàn)證查重策略的有效性,本文利用西南大學(xué)圖書館20180129批次的征訂書單進(jìn)行查重檢驗(yàn)。該批次已經(jīng)經(jīng)過采訪人員處理,對(duì)相似性圖書進(jìn)行了標(biāo)注,便于統(tǒng)計(jì)識(shí)別結(jié)果。實(shí)驗(yàn)中檢測(cè)閾值設(shè)置為0.7,即將相似度大于70%的圖書判斷為重復(fù)館藏。

      實(shí)驗(yàn)操作在完成ISBN查重之后進(jìn)行,以該館現(xiàn)有的題名、責(zé)任者等書目查重方式為實(shí)驗(yàn)參照,分別采用準(zhǔn)確率、召回率和F值3種指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。統(tǒng)計(jì)結(jié)果如表2所示。

      表2 查重結(jié)果對(duì)比

      可以看出,基于基礎(chǔ)書目數(shù)據(jù)的查重方式對(duì)同質(zhì)化圖書識(shí)別率較低,而通過語義化查重能夠使識(shí)別成功率得到明顯提升。

      5 結(jié)語

      圖書市場(chǎng)需求量的增長帶動(dòng)了圖書出版行業(yè)的快速發(fā)展,同時(shí)也導(dǎo)致圖書出版中的同質(zhì)化現(xiàn)象日趨嚴(yán)重?,F(xiàn)有的圖書管理系統(tǒng)的采選查重功能并不完善,難以對(duì)圖書實(shí)質(zhì)內(nèi)容的重復(fù)性進(jìn)行判斷,而人工查重不僅效率低,且容易出現(xiàn)漏采、錯(cuò)采的情況。因此,本文設(shè)計(jì)了一種針對(duì)圖書內(nèi)容的語義化查重策略,通過自然語言處理技術(shù)對(duì)圖書的特征信息進(jìn)行相似度計(jì)算,幫助采編人員提升圖書查重效率和準(zhǔn)確率,從而有效減輕館藏重復(fù)現(xiàn)象,優(yōu)化圖書館館藏結(jié)構(gòu)。

      雖然在研究過程中僅選擇了主題詞、內(nèi)容提要和目錄3種數(shù)據(jù)作為圖書內(nèi)容相似度評(píng)價(jià)指標(biāo),但在延伸研究中,也可以采用本文的思想增加更多的特征信息進(jìn)行計(jì)算,如增加對(duì)作者、出版社等因子的分析,能夠?qū)D書再版、連續(xù)出版等情況進(jìn)行更詳細(xì)地區(qū)分。

      猜你喜歡
      查重同質(zhì)化詞典
      學(xué)位論文查重亂象引關(guān)注
      論文查重雜談
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      學(xué)術(shù)論文該“查”什么?
      雜文月刊(2018年20期)2018-11-14 21:28:46
      學(xué)術(shù)論文該“查”什么?
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      同質(zhì)化市場(chǎng)背后致富路指何方
      時(shí)事新聞報(bào)道如何避免“同質(zhì)化”
      新聞傳播(2016年14期)2016-07-10 10:22:51
      戲曲“同質(zhì)化”現(xiàn)象之思考
      庆元县| 文水县| 武山县| 安西县| 和林格尔县| 江门市| 准格尔旗| 泰来县| 兰考县| 望城县| 灵川县| 抚顺县| 乌拉特中旗| 无为县| 炎陵县| 东光县| 西贡区| 紫云| 库车县| 蓬溪县| 田林县| 郓城县| 东至县| 黎城县| 微博| 中江县| 抚州市| 萝北县| 渭源县| 乐至县| 磐安县| 大港区| 永川市| 鹤岗市| 郸城县| 襄垣县| 七台河市| 玛多县| 江西省| 永德县| 秦皇岛市|