• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于杰卡德相似系數(shù)的OPAC用戶檢索行為研究

      2022-06-09 05:34:46高洪臻
      圖書館研究與工作 2022年6期
      關鍵詞:詞頻館藏書籍

      高洪臻

      (濰坊市圖書館 山東濰坊 261061)

      1 引言

      OPAC(Online Public Access Catalog,聯(lián)機公共目錄檢索)系統(tǒng)是互聯(lián)網(wǎng)時代圖書館與用戶互動的終端系統(tǒng),為用戶獲取圖書館資源提供方便快捷的網(wǎng)絡渠道,是新時代圖書館知識共享、開放閱讀、館藏資源管理與服務的重要窗口。圖書館新媒體服務環(huán)境下,OPAC檢索平臺已成為用戶與圖書館館藏資源銜接的重要紐帶之一,如何充分借助OPAC檢索系統(tǒng)深入挖掘用戶對館藏資源的需求,成為圖書館閱讀服務工作的重要研究方向[1]。

      用戶訪問OPAC網(wǎng)頁時,網(wǎng)頁服務器會根據(jù)用戶檢索字段記錄檢索日志,檢索日志信息包括用戶查詢的書籍名稱、作者、關鍵詞等,這些信息可體現(xiàn)用戶的實際需求和潛在需求,是除文獻借閱量指標外揭示用戶需求最直接的信息。借助數(shù)據(jù)挖掘中文處理算法,挖掘其檢索日志間的關系,深入探究圖書館館藏資源與用戶需求的關聯(lián),通過數(shù)據(jù)分析有助于創(chuàng)新閱讀服務工作,提升圖書館館藏資源建設水平和文獻流通率,讓圖書館知識共享、閱讀服務工作更貼近用戶需求。

      2 相關技術簡介

      2.1 文本預處理技術

      OPAC檢索日志中存儲了用戶檢索的關鍵詞信息,關鍵詞信息多以中文字、詞形式存儲,部分用戶借助OPAC查詢時輸入的僅僅是關鍵詞,并非準確的書籍信息,故需對OPAC檢索日志進行挖掘分析。處理這些關鍵詞短文本語言需要借助數(shù)據(jù)挖掘中文處理算法,對日志關鍵詞做分詞、停用詞處理、詞頻計算等預處理,經(jīng)過預處理后的詞語組才可進入數(shù)據(jù)挖掘相似度計算方法,從而展示OPAC檢索平臺中用戶留下的資源期望信息。

      OPAC檢索日志中的原始信息經(jīng)預處理后的詞匯數(shù)據(jù)組,需進行詞匯數(shù)據(jù)的相似度計算,根據(jù)數(shù)據(jù)組中的數(shù)據(jù)元在整個文檔信息中出現(xiàn)的頻率與前后詞語關系,計算詞語相似度,并根據(jù)相似度大小劃分類別,得到數(shù)據(jù)處理后的相關信息組,展示詞語間的關聯(lián)。

      2.2 Jaccard相似系數(shù)

      數(shù)據(jù)挖掘中數(shù)據(jù)向量的相似度計算方法主要有夾角余弦法、皮爾遜相關系數(shù)法、杰卡德(Jaccard)系數(shù)法等[2]。其中Jaccard系數(shù)法以乘積方式為主,增大特征項對極性判定的作用,去掉分母中向量相同的部分進而提高向量相似程度的辨識度,因此Jaccard系數(shù)法常用來計算不完全相同的兩個數(shù)據(jù)向量間的相似程度,而文本數(shù)據(jù)向量間的相近性較強,適用于Jaccard系數(shù)法進行相似度計算與辨別。

      基于共現(xiàn)詞次數(shù)的Jaccard系數(shù)法主要根據(jù)兩個句子中出現(xiàn)相同部分的多少來判定,共現(xiàn)詞相同部分越多其相似度越高,Jaccard相似系數(shù)的計算公式如公式1所示:

      其中Inter(S, L)表示句子S、L的數(shù)據(jù)組詞匯交集,Union(S, L)表示句子S、L的詞匯并集[3]。OPAC檢索日志中詞語字符一般較短,因此Jaccard系數(shù)法可滿足日志信息中文本信息的相似度計算,從而分析用戶查詢信息間的關系,挖掘用戶閱讀需求。

      2.3 OPAC用戶檢索行為分析方法及原理

      OPAC檢索日志中含有用戶需求的查詢信息,查詢信息以條目形式存儲于文檔中,由詞語、句子的形式存儲。OPAC用戶檢索行為分析主要以Jaccard系數(shù)為基礎,分析查詢條目信息中詞語、句子間的吻合度,以計算得到的Jaccard相似度劃分類別,相似度越高則代表查詢信息條目中相近的信息越多,關聯(lián)信息分析價值越高。OPAC用戶檢索行為分析方法的具體步驟為:

      (1)給定OPAC檢索日志文檔X,文檔中包含n條OPAC查詢條目信息,其數(shù)據(jù)集表示為,{X1,X2,X3,...Xn,}數(shù)據(jù)Xi(1≤i≤n)表示由詞語、句子組成的第i條查詢信息,若查詢條目信息中僅包含詞語,則將詞語看待為句子表示。首先對數(shù)據(jù)集{X1,X2,X3,...Xn,}進行文本預處理,包括數(shù)據(jù)Xi(1≤i≤n)的分詞、停用詞處理、詞頻計算等,經(jīng)預處理后的數(shù)據(jù)集由數(shù)組X關鍵詞信息組成{YX1,YX2,YX3,...YXn},其中數(shù)據(jù)YXi(1≤i≤n)表示文本預處理后數(shù)據(jù)集X中第i個元素對應的預處理數(shù)據(jù)信息。

      (2)文本向量化操作。{YX1,YX2,YX3,...YXn}數(shù)據(jù)組選用Word2Vec文本向量化方法生成對應的數(shù)據(jù)化文本向量V(YX) ={V(YX1),V(YX2),...V(YXn)},V(YX)數(shù)組中每個元素代表一個查詢條目對應關鍵詞的向量化信息。

      (3)計算文本向量數(shù)組中數(shù)據(jù)的Jaccard相似度。Jaccard相似系數(shù)的計算公式生成V(YX)數(shù)組元素間信息的Jaccard相似度Sim(V(YXi),V(YXj))(1≤i,j≤n)。

      (4)設置閾值r和類別數(shù)w,根據(jù)得到的元素Jaccard相似度Sim(V(YXi),V(YXj))劃分數(shù)據(jù)類別。首先將Sim(V(YXi),V(YXj))同閾值r比較,高于閾值的兩個向量元素則代表對應的句子間交集大,低于閾值的則代表相似度低,按照句子相似度高低,對交集大的句子進行類別劃分。由于可視化工具展示的局限性,需設定類別數(shù)w劃分句子。

      根據(jù)劃分后的類別,展示句子間的相關性,分析句子間關聯(lián)。

      3 基于Jaccard系數(shù)的OPAC平臺下用戶檢索行為分析

      本文以濰坊市圖書館為例,對其2018—2020年間的OPAC檢索信息日志數(shù)據(jù)進行分析,根據(jù)每年OPAC檢索信息日志數(shù)據(jù)的分布特點,選取搜索量大于一定數(shù)值的關鍵詞進行處理分析。例如2019年濰坊市圖書館OPAC檢索平臺日志數(shù)據(jù)共11萬條,去除檢索次數(shù)小于20次的關鍵詞,選取2 523條檢索數(shù)據(jù)進行分析,縮小處理數(shù)據(jù)的樣本數(shù),提高處理結果的準確性和代表性。針對濰坊市圖書館每年OPAC檢索信息數(shù)據(jù)組,實驗前首先對數(shù)據(jù)預處理以規(guī)范實驗數(shù)據(jù),包括分詞、停用詞處理、詞頻計算、數(shù)據(jù)標記等,然后將實驗數(shù)據(jù)進行Jaccard系數(shù)下的相似度計算,設定閾值r為0.6,類別w根據(jù)可視化工具展示效果分別設定為20—30之間,通過文本處理工具對處理結果進行可視化展示,進而分析實驗結果[4-5]。

      3.1 基于詞匯網(wǎng)絡圖的用戶檢索行為分析

      本文選取濰坊市圖書館2018—2020年OPAC檢索日志進行實驗分析,以檢索日志中檢索條目組成的數(shù)據(jù)組{X1,X2,X3,...Xn,}為實驗數(shù)據(jù)進行Jaccard系數(shù)下的相似度計算,通過文本處理工具KH Coder 3 Folder進行詞匯網(wǎng)絡圖的可視化處理。圖1展示了2020年OPAC檢索關鍵詞按詞頻大小及Jaccard相似系數(shù)計算后所生成的詞匯網(wǎng)絡圖,圖中圓圈越大代表關鍵詞在數(shù)據(jù)組中出現(xiàn)的次數(shù)越多。

      圖1 濰坊市圖書館2020年OPAC檢索熱門詞匯網(wǎng)絡圖

      由于Jaccard相似系數(shù)是以詞匯在句子和整個文本中出現(xiàn)的頻率為依據(jù)計算詞的相似度,因此大部分詞語僅在同一文本中出現(xiàn),詞頻較高的詞語其相似度高,例如“儒林”“外史”;“月亮”“便士”等,這些詞語被劃分后,可明顯看出《慶余年》《斗羅大陸》等書已成為2020年OPAC平臺檢索的熱搜書籍。而不同文本句出現(xiàn)相同關鍵詞且詞頻較高時,則在網(wǎng)絡圖中會將其鏈接,劃分為相似集群,例如“獵人”“筆記”“盜墓”;“大”“國”“演義”等,分別以“筆記”“國”為紐帶將不同的書籍信息鏈接。依據(jù)OPAC平臺檢索詞匯信息,本文在處理時將長文本處理中部分無意義但在OPAC平臺檢索詞數(shù)據(jù)分析中具有一定代表性意義的詞匯保留,例如“大”“小”等詞匯在長文本處理中一般視作停用詞被刪除,而本文在做OPAC平臺檢索詞處理時,“大”“小”詞分別代表著《斗羅大陸》《植物大戰(zhàn)僵尸》《大江大河》《喬家大院》《米小圈》《小王子》《馬小跳》《小淘氣尼古拉》等書籍信息,在OPAC平臺檢索詞匯分析中具有一定的意義,因此本文保留了類似詞匯。整個詞匯網(wǎng)絡圖展示了OPAC檢索中高頻詞匯及高頻詞匯間的交集關系,以關鍵詞為紐帶將詞匯鏈接,借助詞匯網(wǎng)絡圖,可以分析用戶每年對館藏資源的需求以及趨向。

      詞匯網(wǎng)絡圖借助詞頻及相似系數(shù),展現(xiàn)高詞頻和高關聯(lián)度的詞匯,高詞頻展示了書籍的受歡迎度,而高關聯(lián)詞匯則挖掘了不同書籍的相同信息,并突出用戶喜愛程度。圖1中關聯(lián)網(wǎng)最大且詞頻最高的網(wǎng)絡子圖是由“中國”“故事”“童話”等詞語組成,每個詞會根據(jù)其所在的句子及出現(xiàn)的頻率關聯(lián)對應的詞組。本文以“故事”一詞為例,展示其關聯(lián)的數(shù)據(jù)信息(見圖2)。

      圖2 以“故事”一詞為主線的OPAC檢索數(shù)據(jù)(部分)

      OPAC檢索數(shù)據(jù)中,“故事”一詞關聯(lián)包括小說、童話、繪本等不同類別的書籍信息,例如《中國民間故事》《紅色少年的故事》《數(shù)學故事》《雷鋒的故事》等書籍信息;“少年”一詞關聯(lián)《牧羊少年》《紅色少年》《少年特戰(zhàn)隊》等書籍信息;“爸爸”一詞關聯(lián)《口袋里的爸爸》《大頭兒子和小頭爸爸》《我爸爸》《了不起的狐貍爸爸》等書籍信息。主線關鍵詞的存在鏈接了相關熱門搜索書籍,書籍受眾人群較多、主題內(nèi)容豐富,但以相同的主線關聯(lián)在子網(wǎng)絡中,因此圖書館可根據(jù)其關聯(lián)結果在加大館藏資源建設的同時創(chuàng)新閱讀推廣工作,借助數(shù)據(jù)分析結果提高文獻資源閱讀量和用戶參與度。

      3.2 不同年份的用戶檢索行為比較

      以Jaccard相似系數(shù)為基礎研究OPAC檢索數(shù)據(jù)得到的詞匯網(wǎng)絡圖,可得到用戶搜索熱詞及相關書籍信息子網(wǎng)絡,而依據(jù)經(jīng)典數(shù)據(jù)挖掘?qū)嵗捌【婆c尿布”分析思想,OPAC檢索數(shù)據(jù)中詞頻相同或相近的詞所代表的書籍也隱含著其對應的關系。圖1中,“正面、管教”“儒林、外史”“云邊、小賣部”等關鍵詞的詞頻相近;“大”“國”“演義”等關鍵詞的詞頻相近。這些詞頻相近詞匯分別代表著不同的書籍信息,依據(jù)其詞頻大小關系可進行書籍相關展示與借閱推薦等工作,從隱含詞匯信息中挖掘閱讀服務工作的亮點和創(chuàng)新點。

      根據(jù)相同年份的不同詞頻信息可挖掘當年OPAC檢索信息熱點和關聯(lián)關系,而借助不同年份的不同檢索信息,則可分析用戶館藏資源需求的變化,并預測今后用戶需求,為圖書館閱讀服務工作的開展提供依據(jù)。圖3、圖4分別為濰坊市圖書館2018年、2019年OPAC檢索熱門詞匯網(wǎng)絡圖。

      圖3 濰坊市圖書館2018年OPAC檢索熱門詞匯網(wǎng)絡圖

      圖4 濰坊市圖書館2019年OPAC檢索熱門詞匯網(wǎng)絡圖

      分析濰坊市圖書館2018—2020年OPAC檢索熱門詞匯網(wǎng)絡圖,可知每年搜索關鍵詞的變化。與2018年相比,2019年新增“爸爸”“友情”“豆豆”“愛的”“葵花”“定律”等傾向于情感、教育等方向的書籍信息詞;與2019年相比,2020年新增“特種兵”“非暴力”“米小圈”“余年”“正面管教”等愛國、熱劇等方向的書籍信息。每年的OPAC熱門關鍵詞會根據(jù)當年國家發(fā)展、教育話題和影視劇等發(fā)生改變,因此可根據(jù)當年不同發(fā)展情況,提前預測用戶需要的熱門館藏圖書,提高用戶閱讀興趣和圖書借閱量。

      4 OPAC檢索行為分析下公共圖書館閱讀服務工作創(chuàng)新

      基于Jaccard相似系數(shù)分析OPAC檢索關鍵詞,可從詞頻和詞匯關聯(lián)關系展開檢索關鍵詞的分析,根據(jù)分析結果研究圖書館閱讀服務工作的創(chuàng)新和發(fā)展。根據(jù)用戶檢索關鍵詞分析用戶對館藏資源的需求,從而開展館藏資源采購新方法;根據(jù)用戶檢索書籍信息間的關系,包括關鍵詞關聯(lián)書籍信息、詞頻概率大小相同類別書籍信息,分析用戶需求的書籍間的關系,更新館藏資源布局,以用戶需求書籍信息為基礎,建設用戶趨向館藏資源空間;根據(jù)用戶需求書籍方向、用戶閱讀需求等,分析用戶閱讀興趣和方向,進而創(chuàng)新閱讀推廣工作,提升閱讀推廣服務新理念。本文分別從館藏資源采購、館藏資源布局、閱讀推廣服務三方面分析工作創(chuàng)新點和發(fā)展方向。

      4.1 館藏資源采購新方法

      OPAC檢索數(shù)據(jù)涵蓋了用戶所需館藏信息關鍵詞,包括館內(nèi)已有館藏及館內(nèi)未采購書籍,根據(jù)檢索數(shù)據(jù)信息可分析用戶潛在的館藏需求信息,從詞頻大小、查詢時間研究圖書館館藏資源采購新方法[6-7]。

      (1)依據(jù)OPAC檢索數(shù)據(jù)中詞頻較高的關鍵詞信息,采購館藏資源。OPAC檢索關鍵詞中,詞頻較高的關鍵詞所代表的書籍可直接揭示大部分用戶需求,根據(jù)關鍵詞查詢次數(shù),依次補充館藏副本和新增館藏書籍是館藏資源采購的新路徑,具有較高的數(shù)據(jù)參考依據(jù),可以有效提高用戶借閱需求的滿足率。

      (2)挖掘OPAC檢索詞頻偏低的關鍵詞信息,補充、豐富館藏資源。詞頻較低的關鍵詞并不代表可以忽略,這些信息中包含部分用戶的閱讀需求,若館內(nèi)無此類館藏資源,表示館藏資源涵蓋范圍有待補充,此類書籍需要借助OPAC檢索數(shù)據(jù)中詞頻較低的關鍵詞挖掘發(fā)現(xiàn),根據(jù)關鍵詞信息對應的書籍發(fā)掘需要采購的圖書,從而補充、豐富館藏資源。

      (3)根據(jù)OPAC用戶檢索行為指向圖書信息,深入挖掘關鍵數(shù)據(jù)信息,包括書籍簡介、作者、出版社、類別等,借助關聯(lián)規(guī)則、聚類算法等智能分析方法,關聯(lián)相關信息規(guī)則,例如分析書籍簡介關鍵詞、作者相關度等信息,尋找與查詢圖書相關的書籍,進而拓展用戶需求的閱讀范圍,建設個性化服務館藏資源。

      (4)OPAC檢索關鍵詞往往代表著某一類圖書,根據(jù)檢索信息內(nèi)容,查詢館內(nèi)館藏資源豐富度,若此類館藏資源較少,則應查詢同類書籍及對應的潛在發(fā)展性書籍信息,根據(jù)一個關鍵詞指引的類別,運用發(fā)散思維擴展信息渠道,提升關鍵詞代表性類別書籍,從而提升館藏需求列表,以增強館藏亮點及潛在書籍為趨向建設館藏資源。

      4.2 館藏資源新布局

      基于Jaccard相似系數(shù)分析的OPAC檢索熱門詞匯網(wǎng)絡從詞匯大小、關聯(lián)關系展示,根據(jù)OPAC檢索數(shù)據(jù)的多角度分析,從檢索熱門排行、關聯(lián)信息挖掘、數(shù)據(jù)比對分析的角度創(chuàng)新圖書館館藏資源布局。

      (1)匯集用戶需求量大的圖書,建立熱門書籍專架。根據(jù)一段時間內(nèi)OPAC檢索關鍵詞詞頻大小,篩選較高詞頻詞匯對應的書籍,并根據(jù)書籍自身特征建立熱門書架,滿足用戶對熱門書籍的閱讀需求,同時通過專架吸引更多的用戶借閱這些熱門圖書。

      (2)挖掘OPAC檢索關聯(lián)書籍,搭建相關主題區(qū)域。分析OPAC檢索熱門詞匯網(wǎng)絡中的子網(wǎng)絡,以主線詞匯對應的相關書籍為基礎,設立主題書架。例如濰坊市圖書館2019年OPAC檢索熱門詞匯網(wǎng)絡中“故事”一詞,其對應的圖書可設置故事專題書架,匯集對應的熱門圖書,提高圖書館館藏資源建設的創(chuàng)新性和個性化。

      (3)分析OPAC檢索同頻率詞匯,推薦同熱度書籍。借助經(jīng)典數(shù)據(jù)挖掘?qū)嵗捌【婆c尿布”分析思想,將詞頻大小相近的圖書鄰近排放,設置相關類別同類圖書推薦或相關主題推薦,方便用戶尋找,從而提高圖書館閱讀服務力度[8]。

      (4)設置書籍聯(lián)動館藏區(qū),實現(xiàn)高需求量圖書帶動低需求量圖書提高借閱量。以OPAC檢索詞匯中高頻檢索關鍵詞代表圖書為主,搜尋相關低頻檢索關鍵詞代表圖書,并設置聯(lián)動書架,以主題相關、作者相關等線索,吸引用戶借閱圖書,提高圖書館借閱量。

      4.3 閱讀服務工作新方向

      圖書館閱讀服務要根據(jù)實際工作的需求,以互聯(lián)網(wǎng)時代新技術為平臺,創(chuàng)新閱讀服務工作方向、提升閱讀服務意識、拓展閱讀服務路徑。

      (1)融合新時代下互聯(lián)網(wǎng)新技術,分析OPAC用戶檢索行為下的潛在需求,預測后期用戶需求走向,以智能算法為支撐,為圖書館閱讀服務工作提供新路徑和新方向。

      (2)實現(xiàn)印刷型圖書與電子圖書的統(tǒng)一檢索與推送服務,推薦用戶所需熱門印刷型圖書和關聯(lián)性電子圖書,擴大圖書館閱讀服務覆蓋面,充分發(fā)揮線上圖書館的作用,實現(xiàn)電子圖書推送服務,打破傳統(tǒng)印刷型圖書副本數(shù)量的限制,充分滿足用戶閱讀需求。

      (3)以OPAC檢索關聯(lián)詞匯為基礎,打造專題閱讀活動,包括線上專題閱讀服務、主題圖書互推互認等專題性活動,并開展以主線詞匯為主題的活動,涵蓋范圍廣、關聯(lián)書籍種類多樣化,從而提升圖書館閱讀服務范圍及創(chuàng)新性。

      5 結語

      基于Jaccard相似系數(shù)開展OPAC檢索平臺下用戶關鍵詞詞匯的分析,并以詞匯網(wǎng)絡的形式展現(xiàn),從詞匯詞頻和相似關聯(lián)詞匯入手,分析熱門關鍵詞間的關系,根據(jù)不同角度的大數(shù)據(jù)分析可以獲取用戶的閱讀需求方向,根據(jù)數(shù)據(jù)分析的結果可以指導圖書館資源建設和圖書館閱讀服務創(chuàng)新工作的發(fā)展,為用戶提供精準化閱讀服務,從而有效提升圖書館館藏資源利用率、用戶參與度及滿意度。Jaccard相似系數(shù)既可以應用于圖書館OPAC檢索行為分析,也可以應用于圖書館網(wǎng)站用戶檢索行為分析、數(shù)字圖書館用戶行為分析,同時可將這一功能開發(fā)、整合到智慧圖書館大數(shù)據(jù)統(tǒng)計分析系統(tǒng)中,通過智能化手段為圖書館服務提供決策參考。

      猜你喜歡
      詞頻館藏書籍
      館藏
      魯迅與“書籍代購”
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      博物館的生存之道:館藏能否變賣?
      藝術品鑒(2019年11期)2019-12-27 09:06:18
      AOS在書籍編寫的應用
      知還印館藏印選——古印篇
      書籍
      書籍是如何改變我們的
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      元阳县| 长治县| 商丘市| 宝丰县| 天镇县| 潼关县| 永兴县| 霍州市| 鲁甸县| 邹城市| 耿马| 祁连县| 新干县| 米脂县| 象山县| 漾濞| 巫山县| 藁城市| 西充县| 土默特右旗| 鹤山市| 富民县| 巴彦淖尔市| 怀安县| 赤城县| 台山市| 彰化县| 曲松县| 台江县| 镇远县| 新巴尔虎右旗| 昔阳县| 介休市| 安乡县| 兴安盟| 托克逊县| 东丰县| 太保市| 昌吉市| 石嘴山市| 安多县|