• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合會員借閱行為的圖書館啟發(fā)式借閱流程模型構(gòu)建

      2023-10-12 09:41:44劉晶
      微型電腦應(yīng)用 2023年9期
      關(guān)鍵詞:實(shí)體書詞頻電子化

      劉晶

      (青島大學(xué)附屬醫(yī)院,圖書館,山東,青島 266003)

      0 引言

      近年來,因?yàn)闀T閱讀習(xí)慣逐漸轉(zhuǎn)向有聲書及電子書,公共圖書館的實(shí)體書借閱市場受到?jīng)_擊。而公共圖書館屬于非盈利機(jī)構(gòu),其對社會效益的需求遠(yuǎn)大于經(jīng)濟(jì)效益[1]。實(shí)體書本身的文化承載力、知識傳播力應(yīng)得到有效強(qiáng)化。所以,當(dāng)前各地公共圖書館在全面展開紙質(zhì)書電子化的技術(shù)革新的同時,也在積極構(gòu)建實(shí)體書借閱推薦技術(shù)升級工作[2]。

      該研究有兩個前提:①所有實(shí)體書均經(jīng)過了全面電子化處理,包括借閱卡信息的電子化和圖書內(nèi)容的電子化,圖書全部檢索信息和圖書內(nèi)容均可通過計算機(jī)通道完成檢索;②公共圖書館有完善的會員體系,該會員支持會員在線借閱電子書、有聲書的同時,也支持會員的實(shí)體書借閱過程,且全部借閱信息形成統(tǒng)一的會員數(shù)據(jù)畫像系統(tǒng)[3]。

      通過會員借閱習(xí)慣大數(shù)據(jù)畫像,構(gòu)建啟發(fā)式借閱流程,向會員推薦適合其閱讀習(xí)慣的圖書,并完成借閱預(yù)約,是該研究的重點(diǎn)和創(chuàng)新點(diǎn)[4]。

      1 全面電子化的公共圖書館大數(shù)據(jù)體系

      公共圖書館的數(shù)據(jù)來源主要為以下3項(xiàng):①圖書電子化大數(shù)據(jù):通過激光掃描、文字識別、機(jī)器翻譯等模塊化數(shù)據(jù)處理工具,將實(shí)體書的文字部分轉(zhuǎn)化為多種語言的電子文本,部分圖書館可以利用機(jī)器朗讀等模塊化處理工具將實(shí)體書轉(zhuǎn)化成的電子書轉(zhuǎn)化為音頻,構(gòu)建有聲書數(shù)據(jù),這些數(shù)據(jù)可以實(shí)現(xiàn)電子書與實(shí)體書的線上線下雙通道借閱;②圖書借閱卡大數(shù)據(jù):圖書的書名、作者、出版社、出版時間、印次與印數(shù)、開本、頁數(shù)、文獻(xiàn)識別碼、中圖分類號、多語言版本摘要、關(guān)鍵詞等形成傳統(tǒng)圖書借閱卡的基本內(nèi)容,這些內(nèi)容之間可以形成檢索邏輯,實(shí)現(xiàn)批量檢索,大數(shù)據(jù)環(huán)境下,圖書電子化后,圖書的詞頻特征碼、文風(fēng)標(biāo)識碼等圖書內(nèi)容挖掘信息也會被計入圖書借閱卡大數(shù)據(jù)中,實(shí)現(xiàn)整體檢索邏輯;③會員大數(shù)據(jù):會員的姓名、年齡、性別、民族、工作單位、工作性質(zhì)、線上借閱記錄、實(shí)體書借閱記錄等會形成會員大數(shù)據(jù),該研究中重點(diǎn)利用圖書電子化大數(shù)據(jù)和圖書借閱大數(shù)據(jù)對會員大數(shù)據(jù)進(jìn)行賦值,形成啟發(fā)式借閱推薦流程模型。上述3項(xiàng)大數(shù)據(jù)的邏輯關(guān)系如圖1所示。

      圖1 啟發(fā)式借閱流程模型基本邏輯架構(gòu)圖

      圖1中,系統(tǒng)最終向借閱者提供的圖書推薦分類,按照優(yōu)先級,主要有以下4類:①與會員多次借閱歷史圖書相同關(guān)鍵詞或相近書名、相近內(nèi)容的圖書,從受眾心理學(xué)角度分析,這類圖書屬于純理智條件下會員最容易接受的圖書,但應(yīng)排除會員希望更換借閱范疇嘗試新型圖書的心理趨向;②與會員多次借閱歷史圖書相同作者或作者存在關(guān)聯(lián)的圖書,作者存在關(guān)聯(lián)指2個作者多次發(fā)表同類圖書或2個作者存在親緣、同事等關(guān)系,如讀者多次借閱賈平凹的圖書,系統(tǒng)可以嘗試向其推薦賈淺淺的圖書;③推薦與讀者工作內(nèi)容、工作性質(zhì)相關(guān)的圖書,因?yàn)楫?dāng)前實(shí)體書中比例最大的圖書種類為職業(yè)經(jīng)驗(yàn)、輔導(dǎo)類圖書,如讀者為公務(wù)員或企事業(yè)單位管理干部,則向其推薦管理學(xué)、心理學(xué)相關(guān)書籍,如讀者為工程師、技術(shù)類工作或工人,則向其推薦技術(shù)輔導(dǎo)類圖書;④推薦讀者自選多個關(guān)鍵詞相關(guān)的圖書,包括書名、關(guān)鍵詞、摘要、內(nèi)容詞頻特征等借閱卡資料中包含該類關(guān)鍵詞的圖書[5-6]。

      綜合上述推薦需求,結(jié)合前文圖1展示的邏輯架構(gòu),該大數(shù)據(jù)體系中核心工作流程節(jié)點(diǎn)為圖書的電子化過程、詞頻提取過程、圖書文風(fēng)標(biāo)識碼提取過程。下文中將重點(diǎn)針對這三項(xiàng)工作展開論述[7-9]。

      2 實(shí)體書電子化相關(guān)技術(shù)及工作流程

      當(dāng)前技術(shù)條件下,實(shí)體書電子化工作僅能滿足將實(shí)體書的文本部分轉(zhuǎn)化為電子文本并進(jìn)行后續(xù)處理,包括機(jī)器翻譯、詞頻提取、機(jī)器朗讀等,但實(shí)體書電子化過程是實(shí)現(xiàn)該技術(shù)的重要支持因素。相比較單純使用電子化圖書借閱卡執(zhí)行圖書推薦操作,將實(shí)體書電子化后形成更完善的圖書特征描述體系,更適合大數(shù)據(jù)云計算體系下的計算機(jī)輔助圖書推薦算法需求。該過程基本邏輯架構(gòu)如圖2所示。

      圖2 實(shí)體書電子化工作流程邏輯架構(gòu)圖

      圖2中,激光掃描位圖生成過程和識別過程采用漢王激光掃描系統(tǒng),機(jī)器翻譯使用百度翻譯系統(tǒng),機(jī)器朗讀采用科大訊飛機(jī)器朗讀系統(tǒng),均可實(shí)現(xiàn)相關(guān)軟件技術(shù)的全面國產(chǎn)化,而后續(xù)的詞頻分析功能、神經(jīng)網(wǎng)絡(luò)分析功能使用MATLAB大數(shù)據(jù)分析工具軟件。該系統(tǒng)通過文風(fēng)特征碼和詞頻特征碼實(shí)現(xiàn)對圖書內(nèi)容可供機(jī)器學(xué)習(xí)功能主動識別的數(shù)字化信息,文字識別后的原始語言版本和機(jī)器翻譯后多語言版本,也用于直接檢索過程[10]。

      3 詞頻特征碼與文風(fēng)特征碼的提取與應(yīng)用過程

      詞頻特征碼與文風(fēng)特征碼均為64位比特型數(shù)據(jù),其實(shí)際構(gòu)成為2個每個4字節(jié)(32位)雙精度浮點(diǎn)型變量的前后疊加,其初始生成算法架構(gòu)如圖3所示。

      圖3 特征碼生成算法邏輯架構(gòu)圖

      圖3中,使用2個結(jié)構(gòu)相同、輸入數(shù)據(jù)相同的卷積神經(jīng)網(wǎng)絡(luò)模塊分別生成2列獨(dú)立數(shù)據(jù),2個神經(jīng)網(wǎng)絡(luò)模塊在不同訓(xùn)練需求下向不同方向收斂,進(jìn)而進(jìn)入2個卷積神經(jīng)網(wǎng)絡(luò),分別生成特征碼的高32位(由雙精度浮點(diǎn)型變量強(qiáng)制轉(zhuǎn)化而來)和低32位(由雙精度浮點(diǎn)型變量強(qiáng)制轉(zhuǎn)化而來)。其中,生成高32位特征碼的神經(jīng)網(wǎng)絡(luò)在另一路神經(jīng)網(wǎng)絡(luò)輸出端取1路補(bǔ)充數(shù)據(jù)。最終疊加為一個64位特征碼。詞頻特征碼與文風(fēng)特征碼的生成邏輯架構(gòu)基本一致,僅其輸入數(shù)據(jù)有所差異,生成詞頻特征碼的輸入數(shù)據(jù)為電子書經(jīng)過詞頻提取算法后的詞頻序列數(shù)據(jù),生成文風(fēng)特征碼的輸入數(shù)據(jù)為電子書的原始文本數(shù)據(jù)[11-12]。

      2個特征碼被提取后,與會員閱讀習(xí)慣特征碼進(jìn)行比較和合并,機(jī)器學(xué)習(xí)算法會判斷會員閱讀習(xí)慣特征碼與圖書的2個特征碼的相似度,給出推薦序列,且會員執(zhí)行借閱后,其會員特征碼會根據(jù)圖書的2個特征碼進(jìn)行刷新改寫。該過程的邏輯架構(gòu)如圖4所示。

      圖4 特征碼應(yīng)用及轉(zhuǎn)換機(jī)制邏輯架構(gòu)圖

      圖4中,使用二值化神經(jīng)網(wǎng)絡(luò),給出一個[0,1]區(qū)間上的判斷結(jié)果,經(jīng)過神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,少部分圖書會偏向1.000方向,作為推薦篩選結(jié)果書目,其余大部分圖書偏向0.000方向,在推薦系統(tǒng)中被篩選屏蔽。會員借閱時,詞頻特征碼與文風(fēng)特征碼聯(lián)通會員特征碼一起被輸入到一個卷積神經(jīng)網(wǎng)絡(luò)模塊中,生成合并后的新會員特征碼,該特征碼會對會員卡數(shù)字化信息進(jìn)行重新賦值,用于后續(xù)判斷過程。在新會員特征碼的生成算法中,實(shí)體書借閱時間、電子書和有聲書的瀏覽時間等會作為其他控制變量用于新會員特征碼的生成計算過程。

      上述特征碼比較過程獨(dú)立在前文所述的傳統(tǒng)圖書推薦流程之外,形成該研究中創(chuàng)新提出的基于機(jī)器學(xué)習(xí)的圖書推薦算法,用于前文4種推薦需求的第1種推薦需求中。該算法將徹底杜絕傳統(tǒng)算法的以下兩點(diǎn)不足:①傳統(tǒng)算法受制于圖書借閱卡基本信息的不完備性,圖書借閱卡中不論是關(guān)鍵詞、書名還是摘要信息,均無法全面表達(dá)圖書的類型信息,而使用該推薦算法后,當(dāng)神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量和隱藏層規(guī)模等達(dá)到一定兩邊基數(shù)后,系統(tǒng)可以更充分判斷會員的后續(xù)借閱行為;②傳統(tǒng)算法與該創(chuàng)新算法相結(jié)合,將該算法作為優(yōu)先推薦門類,在其他推薦板塊仍然保留傳統(tǒng)推薦算法的推薦結(jié)果,可以使兩者形成有益互補(bǔ)[13]。

      4 該算法對啟發(fā)式借閱流程的實(shí)際支持效果

      4.1 仿真條件下的效果測試

      首先對該算法的神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,訓(xùn)練模式為在MATLAB環(huán)境下搭建鏡像仿真平臺,電子化實(shí)體圖書原始資料和圖書借閱卡原始資料拷貝自公共圖書館真實(shí)資料,訓(xùn)練數(shù)據(jù)來自會員借閱記錄,即根據(jù)會員之前借閱記錄和下次借閱記錄,推測一個推薦范圍,使推薦范圍內(nèi)圖書出現(xiàn)在該推薦范圍中。實(shí)際訓(xùn)練過程中,選擇2019年及2020年全年的借閱記錄,使用其中18個月數(shù)據(jù)作為原始訓(xùn)練數(shù)據(jù),6個月數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。根據(jù)個人閱讀習(xí)慣,選取前6位推薦和前20位推薦,最終驗(yàn)證結(jié)果如表1所示。

      表1 仿真環(huán)境下的驗(yàn)證結(jié)果

      表1中,t值與P值來自SPSS大數(shù)據(jù)分析軟件中的雙變量t校驗(yàn)分析,用于比較的差異性并提供差異性結(jié)果的信度。當(dāng)t<10.000且P<0.01時,認(rèn)為2組數(shù)據(jù)具有顯著的統(tǒng)計學(xué)差異,且t值越小證明差異性越大,P值越小證明差異性結(jié)果信度越高。表1中,使用該系統(tǒng)后,前6位重點(diǎn)推薦書目中,會員借閱量從0.271冊提升到0.893冊,即借閱率從4.5%提升到14.9%,提升了3.3倍,前20位推薦書目中,會員借閱量從0.639冊提升到1.580冊,即借閱率從3.2%提升到7.9%,提升了2.5倍。該借閱率提升的量變引起了質(zhì)變,即會員從前20位推薦書目中必然選擇借閱1冊,使推薦效率大幅度提升,會員對推薦書目的依從性大幅度增強(qiáng)。

      4.2 啟發(fā)式借閱系統(tǒng)試運(yùn)行結(jié)果

      在上述仿真分析的基礎(chǔ)上,該研究成果論證階段,推出了與傳統(tǒng)借閱系統(tǒng)平行的借閱系統(tǒng),會員可以在使用借閱推薦系統(tǒng)時選擇使用新系統(tǒng)或者傳統(tǒng)系統(tǒng)檢索圖書。2021年1月20日至今,使用新系統(tǒng)完成借閱檢索的會員2761人,人均使用5.27次,即該系統(tǒng)先后服務(wù)借閱過程14 550人次,比較會員使用該系統(tǒng)后選擇借閱圖書的位置,得到表2。

      表2 會員借閱過程推薦位置使用率的比較結(jié)果

      表2中,推薦位的相關(guān)算法有直接差異,具體表現(xiàn)在該系統(tǒng)使用的推薦算法結(jié)合了前文所述的機(jī)器學(xué)習(xí)推薦算法,之前系統(tǒng)的推薦算法是根據(jù)關(guān)鍵詞檢索的傳統(tǒng)推薦算法。使用該系統(tǒng)后,推薦位給出的書目,會員接受度和認(rèn)可度更高,具體表現(xiàn)在之前系統(tǒng)中75.27%的借閱行為需要通過會員主動搜索才可以確定借閱書目,而使用該系統(tǒng)后,會員主動搜索的借閱行為占比下降到了28.79%,可以推算出,推薦成功率從24.73%提高到71.21%,提升2.9倍。表2中,雙變量t校驗(yàn)結(jié)果,t<10.000,P<0.01,具有顯著的統(tǒng)計學(xué)差異。

      在驗(yàn)證過程中,為了評價會員對系統(tǒng)推薦效果的主觀評價,要求使用過該系統(tǒng)的會員做出主觀滿意度評價,滿分10分,最低0分,參加該主觀評價的會員量為851人,占全部使用過該系統(tǒng)會員2761人的30.8%,其評價結(jié)果如表3所示。

      表3 會員主觀評價結(jié)果匯總表

      表3中,使用該系統(tǒng)后,會員對該系統(tǒng)的主觀評價明顯高于對之前系統(tǒng)的評價,平均分從7.52提升到8.93,提升幅度為18.75%。該數(shù)據(jù)經(jīng)過雙變量t校驗(yàn),t<10.000,P<0.01,具有顯著的統(tǒng)計學(xué)差異。

      5 總結(jié)

      該研究核心創(chuàng)新點(diǎn)在于引入基于卷積神經(jīng)網(wǎng)絡(luò)、二值化神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法,讓系統(tǒng)的推薦書目更符合會員的借閱預(yù)期書目,實(shí)現(xiàn)啟發(fā)式借閱推薦模式。經(jīng)過仿真實(shí)驗(yàn)和試運(yùn)行,會員對推薦位置書目的借閱量顯著增加。因?yàn)樵撗芯渴褂昧俗畛跫壍纳窠?jīng)網(wǎng)絡(luò)架構(gòu),所以神經(jīng)網(wǎng)絡(luò)設(shè)計過程未展開論述,后續(xù)研究中,將從軟硬件兩方面全面升級神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)更深度地數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)過程,使啟發(fā)式借閱模式的算法效率進(jìn)一步提升。

      猜你喜歡
      實(shí)體書詞頻電子化
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      書海飄香 了解5款“實(shí)體書”閱讀APP
      電腦愛好者(2021年3期)2021-02-06 10:19:45
      推進(jìn)外匯窗口服務(wù)電子化
      中國外匯(2019年13期)2019-10-10 03:37:48
      1 我省市級國庫集中支付電子化系統(tǒng)首次上線運(yùn)行
      山西財稅(2019年3期)2019-02-19 10:16:10
      朗讀節(jié)目《見字如面》同名實(shí)體書出版
      出版人(2017年8期)2017-08-16 10:57:07
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      汽車電子化,沒有假設(shè)
      汽車科技(2015年1期)2015-02-28 12:14:46
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      沈陽城建檔案進(jìn)入電子化時代
      贡山| 太仓市| 楚雄市| 阿尔山市| 桐庐县| 阳朔县| 惠东县| 克什克腾旗| 临桂县| 三门峡市| 博乐市| 巴林右旗| 南乐县| 万全县| 柏乡县| 锡林浩特市| 司法| 富川| 新绛县| 连南| 鄂伦春自治旗| 白河县| 山阴县| 合作市| 酉阳| 镇江市| 崇左市| 嘉义县| 延边| 天气| 德昌县| 毕节市| 九龙坡区| 清新县| 石门县| 蒙阴县| 吉安市| 哈尔滨市| 永寿县| 左权县| 霞浦县|