肖 玥 李念祖 謝 鵬
(首都圖書館,北京100021)
機(jī)器學(xué)習(xí)作為人工智能的核心技術(shù),已經(jīng)滲透到各個方面,從蘋果的Siri、微軟的 Cortana 、再到淘寶的“猜你喜歡”等無一不是應(yīng)用機(jī)器學(xué)習(xí)的案例。直到2016年谷歌基于機(jī)器學(xué)習(xí)技術(shù)的AlphaGo擊敗世界圍棋冠軍李世石,人們開始逐漸關(guān)注機(jī)器學(xué)習(xí)技術(shù)。在大數(shù)據(jù)時代,機(jī)器學(xué)習(xí)憑借其在處理海量數(shù)據(jù)方面的先天優(yōu)勢以及良好的性能和效果,可以在智慧圖書館建設(shè)中發(fā)揮重要的作用。
2020年4月,筆者在中國知網(wǎng)數(shù)據(jù)庫中以“機(jī)器學(xué)習(xí)”為關(guān)鍵詞進(jìn)行檢索,經(jīng)閱讀摘要剔除非相關(guān)文獻(xiàn),圖情研究領(lǐng)域與該主題相關(guān)的文獻(xiàn)共計77篇,其中張坤等介紹了機(jī)器學(xué)習(xí)在圖書情報領(lǐng)域個性化推薦服務(wù)、智能信息檢索和自動文本分類三個方面的研究熱點[1],劉瀏等提出了機(jī)器學(xué)習(xí)在圖書情報領(lǐng)域中智能問答、文本信息處理、信息服務(wù)、學(xué)術(shù)評價四個方面的應(yīng)用前景[2];其余文獻(xiàn)多數(shù)是通過算法實驗對機(jī)器學(xué)習(xí)在文獻(xiàn)自動分類進(jìn)行可行性的驗證或是對個性化推薦系統(tǒng)進(jìn)行對比研究[3][4][5]。目前有關(guān)機(jī)器學(xué)習(xí)在智慧圖書館中應(yīng)用方面的研究較少,且對機(jī)器學(xué)習(xí)在智慧圖書館中的應(yīng)用場景的梳理與歸納也不夠全面。因此本文在根據(jù)現(xiàn)有研究的基礎(chǔ)上,從智慧圖書館資源、服務(wù)、管理三個方面入手梳理機(jī)器學(xué)習(xí)在智慧圖書館中的應(yīng)用場景,并提出機(jī)器學(xué)習(xí)技術(shù)落地圖書館應(yīng)用的發(fā)展建議。
機(jī)器學(xué)習(xí)(Machine Learning),是人工智能技術(shù)的一項核心技術(shù)方法,其實質(zhì)就是利用算法來分析和處理數(shù)據(jù),使機(jī)器從中學(xué)習(xí)并做出推斷或預(yù)測,進(jìn)而模擬或?qū)崿F(xiàn)人類的行為的過程。機(jī)器學(xué)習(xí)技術(shù)強(qiáng)調(diào)的是“學(xué)習(xí)”的過程,通過對不斷增加的大量數(shù)據(jù)樣本進(jìn)行分析,逐步建立起預(yù)測模型并通過“訓(xùn)練”過程不斷修正和完善,一般來說,樣本數(shù)量越多,“訓(xùn)練”過程越多,預(yù)測模型就越趨近于完善,預(yù)測模型所產(chǎn)出的結(jié)果就越精準(zhǔn)。
按學(xué)習(xí)方式進(jìn)行分類,機(jī)器學(xué)習(xí)可以分為淺層學(xué)習(xí)方式和深度學(xué)習(xí)方式,二者的區(qū)別在于機(jī)器學(xué)習(xí)中的“特征”是否由人為設(shè)定,以及訓(xùn)練時所需數(shù)據(jù)量大小。淺層學(xué)習(xí)方式的“特征”是一般由人為構(gòu)造的,即:在訓(xùn)練模型前先由專家通過分析哪些“特征”是重要的,然后機(jī)器通過分析訓(xùn)練數(shù)據(jù)中的這些特征的數(shù)據(jù),學(xué)習(xí)“怎樣的特征的組合會導(dǎo)致怎樣的結(jié)果”,進(jìn)而產(chǎn)生相應(yīng)的模型,在訓(xùn)練過程中,其使用的訓(xùn)練數(shù)據(jù)量不必很大,過量的數(shù)據(jù)量反而會影響淺層學(xué)習(xí)的效率。深度學(xué)習(xí)(deep learning),最早由杰夫·辛頓(Geoffrey Hinton)于2006年提出,是機(jī)器學(xué)習(xí)研究中的一個備受關(guān)注的新領(lǐng)域,深度學(xué)習(xí)通過模擬人腦神經(jīng)元間的連接、對外界刺激的感知和傳導(dǎo)來獲取對事物的認(rèn)識、解釋和判斷[6],深度學(xué)習(xí)進(jìn)行訓(xùn)練前一般不必預(yù)先設(shè)定“特征”,而是使用多層神經(jīng)網(wǎng)絡(luò)進(jìn)行自動學(xué)習(xí)獲取“特征”,學(xué)習(xí)從淺層順次開始,上一層學(xué)習(xí)得出的數(shù)據(jù)會作為下一層的輸入數(shù)據(jù),由淺層的初級特征逐步學(xué)習(xí)到深層的高級特征,本質(zhì)上是一個從全局到局部再到細(xì)節(jié)特征,每一層都在分段學(xué)習(xí)的學(xué)習(xí)過程。由于深度學(xué)習(xí)需要自動學(xué)習(xí)獲取“特征”,因此需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,其次由于其模擬神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),在龐大訓(xùn)練集下,深度學(xué)習(xí)的性能要優(yōu)于淺層學(xué)習(xí)。
在古籍?dāng)?shù)字化方面,古籍文字的識別是核心內(nèi)容。由于古籍文字與現(xiàn)代印刷體文字不同,其屬于手寫字體,古籍文字的書寫風(fēng)格、筆畫、形態(tài)各異,同時還會存在因年代久遠(yuǎn)出現(xiàn)的筆畫模糊、缺失等現(xiàn)象,因此傳統(tǒng)OCR(光學(xué)字符識別)技術(shù)并不能很好地處理手寫文字的識別,給古籍?dāng)?shù)字化工作帶來不小的挑戰(zhàn)。以卷積神經(jīng)網(wǎng)絡(luò)等為代表的深度學(xué)習(xí)技術(shù)突破了傳統(tǒng)OCR技術(shù)只能識別印刷字體的局限,在手寫字體識別方面已有顯著成果。2011年ICDAR脫機(jī)手寫體漢字識別競賽中,IDSIA團(tuán)隊首次將卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于手寫漢字識別,其識別準(zhǔn)確率達(dá)到92.18%[7];隨后在2013年的ICDAR手寫漢字比賽中,來自富士通公司的團(tuán)隊使用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)算法并獲得了脫機(jī)手寫漢字識別的第一名,識別率達(dá)94.77 %,而來自英國華威大學(xué)的 Graham 利用深度稀疏卷積神經(jīng)網(wǎng)絡(luò)的方法,獲得了聯(lián)機(jī)手寫漢字識別第一名,識別率高達(dá)97.39%[8]??梢娚疃葘W(xué)習(xí)方法相比于傳統(tǒng)方法,能達(dá)到更高的識別率,顯示出深度學(xué)習(xí)在該領(lǐng)域的強(qiáng)大潛力。在圖情界,已有學(xué)者開始嘗試進(jìn)行基于深度學(xué)習(xí)技術(shù)的古籍漢字識別研究,以期為古籍漢字元數(shù)據(jù)加工提供一種可行的解決方案。郭利敏等通過數(shù)據(jù)生成技術(shù)構(gòu)建訓(xùn)練集773個漢字、約 24 萬個訓(xùn)練樣本,通過 TensorFlow平臺進(jìn)行20輪迭代訓(xùn)練并測試,測試結(jié)果顯示識別準(zhǔn)確率為61.09%,在增加訓(xùn)練樣本數(shù)量后準(zhǔn)確率提升為66.28%,指出訓(xùn)練樣本字體的多樣性有助于提升CNN網(wǎng)絡(luò)的識別率[9]。
在古籍整理的符號標(biāo)注、箋注方面,機(jī)器學(xué)習(xí)技術(shù)也同樣有著巨大的價值和潛力。古籍大多沒有標(biāo)注斷句的標(biāo)點符號,需要人工辨清古文含義后再進(jìn)行標(biāo)注,對標(biāo)注人員的專業(yè)性要求極高且工作量巨大,若利用機(jī)器學(xué)習(xí)技術(shù)對大量已進(jìn)行古籍標(biāo)注的樣本進(jìn)行訓(xùn)練,構(gòu)建古籍標(biāo)注模型,則可以實現(xiàn)古籍符號標(biāo)注工作的自動化或是作為人工標(biāo)注的輔助手段,明顯提高工作效率及準(zhǔn)確度。在古籍箋注方面,由于生僻字句需要工作人員在查閱大量文獻(xiàn)的基礎(chǔ)上才能進(jìn)行正確箋注,工作極為繁瑣,利用機(jī)器學(xué)習(xí)在大數(shù)據(jù)處理方面的優(yōu)勢則同樣可以實現(xiàn)古籍的自動或半自動化箋注功能,提高以箋注的效率和準(zhǔn)確率。
基于機(jī)器學(xué)習(xí)方法的文本分類則可以輔助識別古籍的文體風(fēng)格特征,非常適用于解決古籍真?zhèn)伪鎰e、寫作年代判定等問題,在古籍辨?zhèn)畏矫嬗蟹浅4蟮陌l(fā)展前景。目前已有學(xué)者做過基于機(jī)器學(xué)習(xí)的古籍辨?zhèn)窝芯?,施建軍運(yùn)用SVM支持向量機(jī)技術(shù),以44個文言虛字頻率為特征向量,對《紅樓夢》120回進(jìn)行了分類研究,結(jié)果顯示從第81回開始的后40回和前80回在寫作風(fēng)格上存在明顯差別,從技術(shù)的角度確認(rèn)了《紅樓夢》前80回和后40回為兩人所作[10]。
3.1.2 知識發(fā)現(xiàn)與預(yù)測
機(jī)器學(xué)習(xí)通過聚類及層次分析模型,將文獻(xiàn)中的知識概念實體間的隱性關(guān)聯(lián)關(guān)系揭示出來,形成知識概念關(guān)聯(lián)圖譜;通過分析文獻(xiàn)的引證、合作等關(guān)系,揭示知識用戶群體的集群關(guān)系;通過對文獻(xiàn)的知識單元、時間、空間多維度的學(xué)習(xí)和推理揭示文獻(xiàn)中知識單元的演化與流動軌跡并進(jìn)行趨勢預(yù)測。Qinsight是國外一個應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的用于生物醫(yī)學(xué)文獻(xiàn)的AI知識發(fā)現(xiàn)平臺,它使用生物醫(yī)學(xué)優(yōu)化的神經(jīng)網(wǎng)絡(luò)和其他AI方法來模擬專家的大腦如何發(fā)現(xiàn)最相關(guān)的信息,辨別關(guān)鍵事實并發(fā)現(xiàn)關(guān)鍵概念,此外還提供先進(jìn)的視覺分析來總結(jié)結(jié)果,預(yù)測趨勢并發(fā)現(xiàn)文獻(xiàn)中的隱藏聯(lián)系[11]。國內(nèi)知識發(fā)現(xiàn)系統(tǒng)可參考Qinsight知識發(fā)現(xiàn)與機(jī)器學(xué)習(xí)融合的經(jīng)驗,將深度學(xué)習(xí)引入知識發(fā)現(xiàn)系統(tǒng),在圖書館檢索系統(tǒng)中提供知識概念關(guān)聯(lián)圖譜,提升文獻(xiàn)知識單元層面的智慧性。
3.2.1 個性化資源檢索
基于機(jī)器學(xué)習(xí)的個性化資源檢索,從功能上可以分為個性化檢索排序以及個性化關(guān)鍵詞預(yù)測兩種。前者的功能是實現(xiàn)檢索結(jié)果的個性化推薦及個性化排序;后者的功能是實現(xiàn)檢索詞的個性化預(yù)測。
相關(guān)性分析顯示,周圍神經(jīng)病變、心臟自主神經(jīng)功能存在相似性,存在以下特征:①正中神經(jīng)與心臟自主神經(jīng)功能關(guān)系更為密切;②SCV與心臟自主神經(jīng)功能關(guān)系更為密切??赡茉驗椋赫猩窠?jīng)在臂部損傷時可累及全部分支,手并非承重的肢體,不容易受到大血管病變的影響,其能夠更真實的反映高血糖所致的神經(jīng)損傷,提示心臟自主神經(jīng)損傷也容易受到高血糖的影響[6]。SCV能夠更好的反映靜止?fàn)顟B(tài)下的神經(jīng)功能,更好的反映高血糖神經(jīng)損傷情況,不容易受到運(yùn)動狀態(tài)、方式等因素的影響,不容易受到干擾。
個性化檢索排序,即:通過采集用戶檢索行為數(shù)據(jù)(如:檢索詞、檢索策略等)以及內(nèi)容偏好數(shù)據(jù)(如:瀏覽、下載或收藏文獻(xiàn)內(nèi)容的主題、瀏覽的時常等)進(jìn)行機(jī)器學(xué)習(xí),對用戶行為及偏好特征進(jìn)行建模,進(jìn)而預(yù)測與用戶檢索內(nèi)容主題相關(guān)或是用戶可能感興趣的其他主題文獻(xiàn),并將預(yù)測結(jié)果按照用戶興趣偏好程度或是檢索行為偏好程度進(jìn)行排序,呈現(xiàn)在用戶的檢索界面上。例如:Exlibris公司開發(fā)的Primo檢索系統(tǒng)可根據(jù)個性化方式對檢索結(jié)果進(jìn)行排序,通過選擇不同偏好特征并賦予不同權(quán)重的方式對檢索結(jié)果進(jìn)行優(yōu)化,此外該系統(tǒng)還可以通過分析用戶的搜索日志、客戶反饋等情況,不斷增強(qiáng)和優(yōu)化Primo相關(guān)性排名技術(shù)。
檢索詞個性化預(yù)測主要是通過對用戶歷史檢索數(shù)據(jù)以及內(nèi)容偏好數(shù)據(jù)進(jìn)行學(xué)習(xí),從而對用戶即將要輸入的檢索詞進(jìn)行預(yù)測,在檢索欄的下拉列表中提供與用戶檢索主題相關(guān)或者用戶可能感興趣的規(guī)范化的檢索詞,并且這些規(guī)范表達(dá)的檢索詞隨著用戶在搜索欄中添加更多檢索詞而不斷進(jìn)行調(diào)整及變化。目前,圖書館還未出現(xiàn)個性化預(yù)測檢索的相關(guān)應(yīng)用,但類似的Google、百度等搜索引擎通過基于熱門搜索的預(yù)測搜索算法均可以實現(xiàn)對用戶的檢索查詢的預(yù)測。
3.2.2 個性化推薦
基于機(jī)器學(xué)習(xí)的個性化推薦服務(wù),是通過收集用戶的基本身份數(shù)據(jù)、內(nèi)容偏好數(shù)據(jù)、社交數(shù)據(jù)等進(jìn)行機(jī)器學(xué)習(xí),從多個維度的數(shù)據(jù)中提取用戶興趣的關(guān)鍵特征,描繪出完整的用戶畫像,進(jìn)而實現(xiàn)資源、在線教育、通知信息的個性化定制推送。例如:用戶是一名23歲,專業(yè)為計算機(jī)科學(xué)的研究生,近兩月借閱或是檢索的文獻(xiàn)主要集中于機(jī)器學(xué)習(xí)相關(guān)的專著、期刊及學(xué)位論文,并在豆瓣圖書中關(guān)注收藏了兩本有關(guān)機(jī)器學(xué)習(xí)前沿內(nèi)容的圖書。在通過獲取用戶上述信息進(jìn)行機(jī)器學(xué)習(xí)后,描繪出該用戶畫像,發(fā)現(xiàn)該用戶可能是關(guān)注于機(jī)器學(xué)習(xí)的學(xué)術(shù)研究型用戶,因此個性化推薦系統(tǒng)會向該用戶推薦與機(jī)器學(xué)習(xí)相關(guān)的高被引期刊及碩博學(xué)位論文、權(quán)威作者的專著、相關(guān)國際學(xué)術(shù)會議論文以及在線視頻課程等在內(nèi)的資源;此外還會向用戶推送近期舉辦的關(guān)于機(jī)器學(xué)習(xí)方面的講座信息通知;個性化推薦系統(tǒng)會根據(jù)該用戶收藏關(guān)注的圖書與館藏情況進(jìn)行匹配,提示該用戶其收藏的圖書在館內(nèi)有可借復(fù)本。
類似的個性化推薦已被阿里巴巴、美團(tuán)點評等電商企業(yè)廣泛應(yīng)用。目前基于機(jī)器學(xué)習(xí)的個性化推薦服務(wù)在圖書館界尚未出現(xiàn)應(yīng)用實例,但已經(jīng)有學(xué)者開始關(guān)注機(jī)器學(xué)習(xí)在個性化推薦中的應(yīng)用[12][13],研究結(jié)果表明用戶畫像在圖書館個性化推薦方面具有一定的促進(jìn)作用。
3.2.3 個性化參考咨詢
清華大學(xué)圖書館的“小圖”、上海圖書館“圖小二”是目前圖書館界具有代表性的基于機(jī)器學(xué)習(xí)的個性化咨詢服務(wù),其實現(xiàn)方式是采用有監(jiān)督的機(jī)器學(xué)習(xí)方式,但采用這種監(jiān)督機(jī)器學(xué)習(xí)的弊端就是在訓(xùn)練模型前必須要進(jìn)行大量的數(shù)據(jù)清洗和加工工作,如果訓(xùn)練數(shù)據(jù)質(zhì)量不佳會導(dǎo)致模型出現(xiàn)偏差,常常導(dǎo)致聊天機(jī)器人的回答準(zhǔn)確度不高。若引入深度學(xué)習(xí)技術(shù),能比較好地解決這一問題,數(shù)據(jù)加工上不需要過多處理僅進(jìn)行簡單的數(shù)據(jù)分類即可,降低了數(shù)據(jù)加工的難度。
此外,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)技術(shù),可以實現(xiàn)更多元化的智慧圖書館智能咨詢服務(wù)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理領(lǐng)域已經(jīng)取得了統(tǒng)治地位,使用CNN構(gòu)建機(jī)器學(xué)習(xí)模型不僅可以較為精確地識別圖像,而且還能理解圖像所包含的內(nèi)容及其相互關(guān)系,并通過自然語言表進(jìn)行表達(dá)。Google的研究成果表明,將計算機(jī)視覺和語言模型通過CNN與RNN網(wǎng)絡(luò)疊加進(jìn)行合并訓(xùn)練,所得到的系統(tǒng)可以自動生成一定長度的文字文本,甚至能夠完整講述一張圖片內(nèi)所包含的故事[14]。將CNN應(yīng)用于圖書館智慧咨詢服務(wù),則可以實現(xiàn)基于圖像的參考咨詢,通過深度學(xué)習(xí)的圖像理解模型和聊天模型為兒童、老人等不便使用文字語言或是不同語種的用戶提供更多元化、有針對性的咨詢途徑以及更精準(zhǔn)的問題解答。同時,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在語音處理方面的表現(xiàn)也十分突出,微軟公司推出的深度網(wǎng)絡(luò)語音識別系統(tǒng),可以對比音素更小的建模單元(senones)進(jìn)行建模,該系統(tǒng)大幅度地減少了以往語音識別系統(tǒng)的相對誤差,基準(zhǔn)測試字詞錯誤率為18.5%[15]。這類語音識別應(yīng)用類似于微軟公司的Cortana語音助手,如果該成果應(yīng)用于圖書館中,則可以實現(xiàn)聾啞、視障人群的個性化咨詢服務(wù)。
3.3.1 采購決策
采訪的決策影響著館藏資源建設(shè)的質(zhì)量,但在實踐工作中,無論是由采購人員進(jìn)行決策還是由讀者進(jìn)行采購決策往往都不能帶來滿意的效果,因此就需要將二者進(jìn)行結(jié)合,通過機(jī)器學(xué)習(xí)形成適當(dāng)?shù)牟少從P蛯崿F(xiàn)二者的平衡,一方面通過讀者基本身份數(shù)據(jù)、歷史借閱等數(shù)據(jù)進(jìn)行學(xué)習(xí)得出讀者偏好,另一方面通過館藏情況、歷史采訪數(shù)據(jù)、采購預(yù)算、文獻(xiàn)評價等形成采訪偏好,并通過大量訓(xùn)練進(jìn)行學(xué)習(xí)賦予讀者偏好以及采訪偏好不同權(quán)重形成采購模型,為文獻(xiàn)采訪工作提供科學(xué)的決策依據(jù)。目前,基于機(jī)器學(xué)習(xí)的智能文獻(xiàn)采訪尚未在圖書館中有完整的應(yīng)用,但機(jī)器學(xué)習(xí)技術(shù)在圖書館的借閱量預(yù)測方面則可以提供一些有價值的參考。美國韋恩州立大學(xué)圖書館利用機(jī)器學(xué)習(xí)技術(shù)正在開發(fā)一個對館藏資源的借閱預(yù)見分析軟件,以更好預(yù)測圖書館館藏的使用情況,這個仍在開發(fā)中的應(yīng)用程序使用美國國會圖書館分類號來預(yù)測書籍被借閱的可能性[16]。目前有關(guān)基于機(jī)器學(xué)習(xí)的智能采訪的應(yīng)用案例還未出現(xiàn),但已經(jīng)有部分學(xué)者開始關(guān)注機(jī)器學(xué)習(xí)在圖書館采購決策方面的應(yīng)用,主要集中在使用不同機(jī)器學(xué)習(xí)算法構(gòu)建或優(yōu)化采購模型方面[17][18][19]。
3.3.2 文獻(xiàn)自動分類
自動文本分類應(yīng)用機(jī)器學(xué)習(xí)技術(shù),通過大量已編目的文獻(xiàn)數(shù)據(jù)進(jìn)行分詞預(yù)處理并提取特征進(jìn)行學(xué)習(xí),推理生成文獻(xiàn)分類模型,并通過不斷的訓(xùn)練進(jìn)行修正最終得到一個分類準(zhǔn)確率較高的模型以進(jìn)行正式文獻(xiàn)分類工作?;跈C(jī)器學(xué)習(xí)的文獻(xiàn)自動分類常用的方法有樸素貝葉斯法、KNN、決策樹法、SVM(支持向量)等,其中SVM是文本分類近年來最重要的進(jìn)展之一。隨著深度學(xué)習(xí)的引入,以BP神經(jīng)網(wǎng)絡(luò)、CNN卷積神經(jīng)網(wǎng)絡(luò)等為代表的深度學(xué)習(xí)方法也開始應(yīng)用于文獻(xiàn)自動分類中。王昊等將機(jī)器學(xué)習(xí)算法中的 BP 神經(jīng)網(wǎng)絡(luò)引入到書目分類中,建立了以機(jī)器學(xué)習(xí)為基礎(chǔ)的書目層次分類系統(tǒng)模型,并以部分類目圖書作為樣本,對模型的可行性與合理性進(jìn)行了論證和分析[20],其研究基本解決了未進(jìn)行主題標(biāo)注情況下書目如何進(jìn)行自動分類的問題。郭利敏將卷積神經(jīng)網(wǎng)絡(luò)引入到了文獻(xiàn)自動分類,構(gòu)建了基于題名、關(guān)鍵詞的多層次卷積神經(jīng)網(wǎng)絡(luò)模型,使之能夠根據(jù)文獻(xiàn)的題名和關(guān)鍵詞自動給出中圖分類號,并對7000多篇待加工的文獻(xiàn)做中圖法分類預(yù)測,一級分類準(zhǔn)確率為75.39%,四級準(zhǔn)確率為57.61%[21],證明該模型有著較低的錯誤率?;跈C(jī)器學(xué)習(xí)的文獻(xiàn)自動分類,在節(jié)省人力成本的同時保證了分類的準(zhǔn)確性,使得文獻(xiàn)標(biāo)引工作更加自動化、智慧化。目前,基于機(jī)器學(xué)習(xí)的文獻(xiàn)自動分類還處于探索研究階段,在圖書館界尚未出現(xiàn)應(yīng)用的實例。
3.3.3 智能排架
目前,圖書館普遍使用基于RFID 技術(shù)的智能圖書定位系統(tǒng)來進(jìn)行智能排架,但RFID因屏蔽或反射容易產(chǎn)生無法定位的情況。為了克服RFID的缺點,提高定位的準(zhǔn)確率,一些學(xué)者試圖引入機(jī)器學(xué)習(xí)技術(shù)對單字符的索書號進(jìn)行字符識別,將識別后的索書號與保存的圖書架位信息進(jìn)行比較從而判斷亂架圖書的位置。陳旭等人采用多閾值及Seed-Filling 種子填充方法提取索書號區(qū)域圖像并進(jìn)行索書號分割處理,通過BP神經(jīng)網(wǎng)絡(luò)對索書號字符進(jìn)行識別,經(jīng)實驗得出索書號符識別率達(dá)到94%,且BP神經(jīng)網(wǎng)絡(luò)相比于以往的霍夫變換法對索書號的識別率更高[22]。李俊男在原有RFID 技術(shù)的基礎(chǔ)上,設(shè)計了一個基于深度學(xué)習(xí)的圖書館架序智能識別系統(tǒng),該系統(tǒng)首先對書架RFID標(biāo)簽進(jìn)行掃描并對存在亂架情況的書架進(jìn)行拍照,經(jīng)邊緣檢測、直線分割對索書號區(qū)域圖像進(jìn)行字符識別和分割,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的字符識別模型對索書號進(jìn)行識別,比較所識別的索書號大小,以此來判斷當(dāng)前圖書的順序是否正確[23]。當(dāng)前機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域被廣泛應(yīng)用,智慧圖書將深度學(xué)習(xí)技術(shù)引入智能排架中,一方面可以解決小型圖書館因經(jīng)費不足無法購買RFID設(shè)備而無法實現(xiàn)智能排架功能的情況,另一方面也可以作為原有RFID智能圖書定位系統(tǒng)對索書號識別的輔助技術(shù)以提高定位的準(zhǔn)確率。
機(jī)器學(xué)習(xí)技術(shù)可以滲透到圖書館資源、服務(wù)、管理等各方面,提升圖書館服務(wù)及管理的智慧性。但從上述應(yīng)用場景來看,目前機(jī)器學(xué)習(xí)在圖書館中的實踐應(yīng)用非常少,僅僅在個性化資源檢索、個性化參考咨詢方面有少量的實踐應(yīng)用,在其他應(yīng)用場景方面大多還停留在研究層面,在這種背景下,圖書館如何引入機(jī)器學(xué)習(xí)技術(shù),如何推進(jìn)機(jī)器學(xué)習(xí)技術(shù)落地智慧圖書館也是當(dāng)前值得研究的問題。
國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》將人工智能發(fā)展提升到極高的戰(zhàn)略地位,彰顯國家層面對于人工智能發(fā)展戰(zhàn)略布局的高度重視。機(jī)器學(xué)習(xí)作為人工智能技術(shù)的重要組成部分,圖書館應(yīng)給與足夠的重視,加強(qiáng)推進(jìn)機(jī)器學(xué)習(xí)技術(shù)落地的頂層設(shè)計。由全國圖書館標(biāo)準(zhǔn)化技術(shù)委員會主導(dǎo)制定圖書館人工智能服務(wù)在資源、技術(shù)、服務(wù)等方面的具體標(biāo)準(zhǔn),對圖書館應(yīng)用機(jī)器學(xué)習(xí)等各類人工智能技術(shù)的應(yīng)用范圍及條件、數(shù)據(jù)收集及存儲、監(jiān)督機(jī)制等作出明確規(guī)范,確保圖書館在政策文件指導(dǎo)下應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。
在發(fā)展初期側(cè)重個性化資源檢索、知識發(fā)現(xiàn)與預(yù)測、個性化參考咨詢這類用戶需求度較高的服務(wù);發(fā)展中期側(cè)重文獻(xiàn)自動分類、智能排架、古籍?dāng)?shù)字化等可以提升業(yè)務(wù)工作效率的應(yīng)用場景;發(fā)展后期,隨著機(jī)器技術(shù)實踐成果的經(jīng)驗累積以及與其他人工智能技術(shù)的融合發(fā)展,可以著重在個性化推薦、智能采訪等高智能化應(yīng)用方面進(jìn)行落地。
在現(xiàn)階段,委托開發(fā)、合作開發(fā)是當(dāng)前機(jī)器學(xué)習(xí)技術(shù)落地圖書館的主要實現(xiàn)途徑。個性化資源檢索、知識發(fā)現(xiàn)與預(yù)測等對平臺數(shù)據(jù)(如:數(shù)據(jù)庫瀏覽及下載記錄等)依賴性較強(qiáng)的服務(wù)適宜采用委托開發(fā)的方式,如:Exlibris Primo檢索系統(tǒng)、Qinsight知識發(fā)現(xiàn)平臺等都是由商業(yè)機(jī)構(gòu)進(jìn)行開發(fā),圖書館可直接購買該服務(wù)實現(xiàn)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用落地;而個性化推薦等對圖書館用戶數(shù)據(jù)(性別、年齡、借閱記錄等)及平臺數(shù)據(jù)依懶性均較強(qiáng)的服務(wù)更適宜采用合作開發(fā)方式,由圖書館提供用戶的基本借閱信息,平臺商業(yè)機(jī)構(gòu)提供用戶在平臺瀏覽數(shù)據(jù)等信息,進(jìn)行合作開發(fā)構(gòu)建個性化推薦服務(wù)。此外,文獻(xiàn)自動分類、智能采訪、智能排架等對圖書館業(yè)務(wù)數(shù)據(jù)依賴性較強(qiáng)但開發(fā)專業(yè)度較高的應(yīng)用,在現(xiàn)階段也適宜與商業(yè)機(jī)構(gòu)進(jìn)行合作開發(fā),圖書館應(yīng)充分參與平臺功能設(shè)計、底層架構(gòu)、系統(tǒng)對接、開放接口應(yīng)用等模塊,實現(xiàn)圖書館豐富業(yè)務(wù)經(jīng)驗與商業(yè)機(jī)構(gòu)先進(jìn)開發(fā)技術(shù)的優(yōu)勢互補(bǔ)。
圖書館應(yīng)著重關(guān)注數(shù)據(jù)的獲取途徑、數(shù)據(jù)獲取的隱私保護(hù)。在數(shù)據(jù)獲取途徑方面,圖書館應(yīng)擴(kuò)大數(shù)據(jù)收集的范圍進(jìn)行多維度的數(shù)據(jù)采集,重點采集如:數(shù)據(jù)庫登錄頻率、登錄時間及停留時長、文獻(xiàn)瀏覽及下載等在內(nèi)的數(shù)據(jù)庫使用信息,借閱、收藏、預(yù)約圖書等在內(nèi)的圖書集成管理系統(tǒng)使用信息,在線申請、預(yù)約培訓(xùn)活動等活動信息,咨詢FAQ、課題檢索、科技查新、代檢代查等參考咨詢平臺使用信息,以及對圖書館的微博、微信公眾號評價的反饋信息等,通過全方面、多維度的采集用戶信息,使個體用戶在不同數(shù)據(jù)間進(jìn)行互補(bǔ),增強(qiáng)用戶行為數(shù)據(jù)的可靠性,以提高用戶畫像構(gòu)建的準(zhǔn)確程度;此外,在獲取用戶行為數(shù)據(jù)的同時,圖書館也有保障用戶隱私的義務(wù),在獲取用戶行為數(shù)據(jù)前,需要在資源數(shù)據(jù)庫、圖書館集成管理系統(tǒng)、活動預(yù)約平臺、參考咨詢系統(tǒng)、微信公眾平臺等應(yīng)用平臺中對所采集用戶信息的范圍、使用目的進(jìn)行明確說明及告知,在獲得用戶的信息使用許可后,方可進(jìn)行采集。