錢 晶
近幾年,在人工智能、云計算、大數(shù)據(jù)、虛擬現(xiàn)實、5G等新興技術的驅(qū)動下,有關智能導航、智能盤點、智能分揀、自助借還、參考咨詢、讀者分析等智能化服務已經(jīng)逐步應用于圖書館業(yè)務工作中,這些智能化服務不僅提高了讀者的體驗滿意度,而且使得圖書館在采分編工作中節(jié)省了大量人力,為更好地服務于讀者提供了充分條件。人工智能作為目前全球的前沿技術之一,一旦與圖書館相結(jié)合將對未來圖書館的發(fā)展帶來深刻性影響[1]。王世偉認為以智能技術為前提,通過大數(shù)據(jù)分析與應用,可以達到促進圖書館業(yè)務發(fā)展的目的[2]?;诖?,筆者認為在應用人工智能等技術的基礎上,圖書館將智能技術與傳統(tǒng)采分編工作進行深度融合,將幫助館員更好地處理相關采分編業(yè)務工作,成為圖書館采分編業(yè)務的發(fā)展趨向。本著“人機采分編協(xié)同”來實現(xiàn)一種人類與機器協(xié)同完成圖書館采分編業(yè)務的狀態(tài),本文基于圖書館采分編工作模式,建構(gòu)了人機協(xié)同框架,并就需要注意的問題探討了實現(xiàn)人機采分編協(xié)同的策略,以期提高圖書館人機采分編協(xié)同實踐。
采分編工作是圖書館文獻資源建設的傳統(tǒng)業(yè)務,也是業(yè)務性最強、復雜度最高、難度最大的一項業(yè)務工作,是圖書館提供文獻保障和讀者服務的基礎[3]。圖書館的日常采訪工作主要是采訪人員依據(jù)本館采訪經(jīng)費預算,結(jié)合館藏特色,按照采訪條例,期采(根據(jù)中標書商提供的書目清單采訪)或現(xiàn)采(現(xiàn)場采訪)圖書。但伴隨圖書出版量劇增、圖書質(zhì)量良莠不齊的情況,期采或現(xiàn)采的圖書存在學科比例失衡、低水平重復出版、同質(zhì)化出版嚴重的問題,主要原因在于現(xiàn)有的采訪方式經(jīng)常導致書目信息的滯后性和選書范圍的局限性。采訪人員通常憑借經(jīng)驗選購圖書,缺乏與讀者的互動,難以把握讀者需求,采購入館的圖書與讀者期望存在一定差距。圖書館每年購進大量新書,而讀者卻經(jīng)常找不到自己所需的圖書,有些書甚至出現(xiàn)零借閱的情況。此外,一本圖書從采訪到閱覽室上架供讀者借閱,共要完成十余道工序,周期長,導致采購的新書到上架時變成了“舊書”,使很多讀者無法借閱一些當時熱門的圖書,難以最大限度地滿足讀者閱讀需求。
圖書館對于到館新書主要是分編人員依據(jù)《中國圖書館分類法》和《中國分類主題詞表》對圖書進行分類標引,依據(jù)《新版中國機讀目錄格式使用手冊》和《中國文獻編目規(guī)則》對圖書進行客觀著錄,從而形成書目數(shù)據(jù),為讀者提供圖書檢索服務。目前在分編工作流程中,圖書館的分編工作主要有三種形式:(1)在全國聯(lián)合編目的背景下,圖書館多采用下載套用聯(lián)編中心書目數(shù)據(jù)的方式;(2)沒有下載套用到數(shù)據(jù)的,需要人工對這部分圖書進行分編;(3)部分圖書館采用分編業(yè)務外包的方式?,F(xiàn)階段,許多圖書館采用三種形式相結(jié)合的方式進行圖書分編。在這一整套的分編流程中,工作人員雖然經(jīng)驗豐富,但長年累月反復從事同一工作內(nèi)容,難免會疲憊、厭倦和懈怠,容易出現(xiàn)工作效率低、差錯率高等現(xiàn)象,抑制了工作人員的積極性和創(chuàng)造性;對于外包分編的圖書,外包人員知識水平欠缺、流動性大,也會導致分編質(zhì)量低,加大了館員對數(shù)據(jù)審校的難度,難以提高工作效率。因此,針對目前圖書館的采分編工作現(xiàn)狀,筆者從提高采分編工作的效率和質(zhì)量的角度來構(gòu)建人機采分編協(xié)同模式,以期實現(xiàn)采分編領域的智能化發(fā)展,提升圖書館資源建設和服務的水平。
將圖像識別、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能等新興技術應用到圖書館采分編業(yè)務中,利用機器翻譯、自然語言處理等技術[4],快速采集、整理各類信息,精準高效匹配計算,可以實現(xiàn)采分編智能化操作,具體分為人機采訪協(xié)同、人機分類協(xié)同和人機編目協(xié)同三部分工作流程。
將人工控制與智能采訪二者相結(jié)合的人機采訪協(xié)同工作流程,既可以保障本館文獻資源建設特色,保證館藏結(jié)構(gòu)的系統(tǒng)性、科學性和合理性,同時又能夠滿足讀者個性化需求,不僅可以提升采訪效率,更能調(diào)動廣大讀者的積極性,吸引更多讀者參與到圖書采訪中來,真正體現(xiàn)圖書館“以人為本”的服務理念,提高館藏文獻的利用率,解決館藏資源和讀者需求契合度不高的問題。在采訪工作應用智能技術方面,圖書館可通過決策樹、歸納邏輯程序設計、聚類分析等運算方法,利用人工智能的神經(jīng)網(wǎng)絡技術,分析圖書薦購信息、讀者偏好和價格等數(shù)據(jù),建立圖書訂購決策模型,實現(xiàn)人工智能在圖書采訪方面的應用[5]73。
首先,采訪人員可以利用用戶畫像、數(shù)據(jù)挖掘、云計算等技術,從本館讀者信息數(shù)據(jù)庫中讀者的性別、年齡、學歷、職業(yè)等方面入手,通過讀者的檢索痕跡和閱讀軌跡,實時分析解讀其閱讀行為和借閱情況,推測閱讀偏好,評估閱讀危機,獲取讀者個性化信息[6]。采訪人員匯集這些信息并分析整合,可以快速、全面地掌握讀者需求,篩選出讀者滿意的書目。
其次,利用VR技術[7]將書商提供的書單轉(zhuǎn)換成VR虛擬書目,構(gòu)建虛擬書架,供讀者翻閱。每條書目都提供書名、著者、出版社、目錄、前言、內(nèi)容提要等信息,并配有封面、封底圖片,還可以提供音頻、視頻等媒體資料,讀者可以身臨其境地像翻閱紙質(zhì)書目一樣隨意選擇感興趣的圖書,對目標書目勾選,還可以進行留言、評注、添加標簽等操作。這種由讀者參與采訪的“VR+采訪”方式,可以解決傳統(tǒng)采訪模式書目信息不直觀、讀者參與度低的問題,有效激發(fā)讀者的熱情,吸引更多讀者參與到圖書采訪中來。
最后,采訪人員將讀者個性化信息與書商提供的書單相結(jié)合,利用數(shù)學模型和人工智能算法進行圖書采訪量化,通過深度分析,挖掘讀者檢索關鍵詞,以學科讀者面、學科文獻利用率、學科適藏文獻出版狀況為影響因子,采用量化分析方法,在遵守本館采選條例的基礎上,對價格、復本量等進行綜合評價,構(gòu)建出一種準確、實時的智能采訪模型[5]72,以便科學合理地制定采購書單。
圖書智能分類,即智能描述圖書主題內(nèi)容,讓智能系統(tǒng)“看到”圖書的內(nèi)涵,對其進行揭示,并通過規(guī)范主題詞和分類號呈現(xiàn)出來。智能分類以《中國分類主題詞表》與《中國圖書館分類法》為基礎,建立二者內(nèi)部關聯(lián)所形成的自然語言、主題語言、分類語言知識庫,形成相互間的映射關系,為文本抽詞、關鍵詞提取、主題詞關聯(lián)、分類號匹配等一系列標引分類工作提供所需資源[8]。
目前,國內(nèi)已有一些比較成熟的軟件和方法用于文獻的分詞、特征詞提取、快速聚類等,如:NLPIR分詞系統(tǒng),是一整套對原始文本集進行處理和加工的軟件[9];基于卷積神經(jīng)網(wǎng)絡的特征詞提取方法,能夠準確提取到圖書的特征詞;LDA概率模型,是一個三層貝葉斯概率模型,它可以從粗的粒度層面實現(xiàn)特征詞提取及快速聚類[10]103-105。另外,侯漢清教授團隊研發(fā)的ST-index系統(tǒng)是基于中圖法的自動分類系統(tǒng),系統(tǒng)內(nèi)置《中國分類主題詞表》和《漢語主題詞表》等,采用語義相似和字面相似相結(jié)合的匹配算法,獲取主題詞和分類號[11];上海交通大學研制的自動分類系統(tǒng)主要用于外文書刊,通過掃描圖書抽取關鍵詞,提取《美國國會圖書館分類法》的分類號,采用映射方法對應《中國圖書館分類法》的分類號[12]?!吨袊诸愔黝}詞表》Web版與《中國圖書館分類法》Web版,也為智能分類提供了理論基礎。由此,在人機分類協(xié)同工作流程構(gòu)建過程中,我們需要做好以下幾個方面。
首先,將《中國分類主題詞表》與《中國圖書館分類法》導入分類系統(tǒng)數(shù)據(jù)庫中,建立二者的雙向?qū)?,即“主題詞—分類號”對應與“分類號—主題詞”對應。然后,運用機器人自動翻頁、掃描、智能圖像識別技術對圖書的題名頁、作者關鍵詞、目錄、前言、摘要、章節(jié)、段落、全文文本信息等可以揭示圖書內(nèi)涵的關鍵內(nèi)容進行掃描,獲取圖片形式的PDF文件,通過OCR識別技術,再將文字、數(shù)字信息等轉(zhuǎn)換為文本信息,完成圖片到文本的自動轉(zhuǎn)換。
其次,通過智能系統(tǒng)利用自然語言處理技術對圖書相關內(nèi)容信息進一步識別處理和數(shù)據(jù)挖掘,進行分詞和降噪等一系列處理,從中抽取能夠反映圖書內(nèi)容的特征詞,其中應著重對題名和摘要進行特征詞的提取。再對這些特征詞進行詞頻統(tǒng)計,生成共現(xiàn)矩陣,分析共現(xiàn)關系,實現(xiàn)關鍵詞的快速聚類[10]107-108,從而挖掘關鍵詞集。
最后,借助“關鍵詞—主題詞”對應表進行映射,自動提取和計算,找到關鍵詞相對應的主題詞,再利用可視化工具ECharts中的散點圖模塊,生成可視化表示。在可視化圖像中,觀察各個主題詞的空間分布情況,展示出其重要程度,揭示各主題詞之間的相關性與權重[13],得到準確的主題詞結(jié)果,自動錄入書目數(shù)據(jù)的主題分析字段。最終,可通過“主題詞—分類號”對應關系得到相匹配的分類號,自動錄入分類法字段,完成智能分類操作。
圖書智能編目,即智能描述圖書物理特征,讓智能系統(tǒng)“看到”圖書的物理信息,并將這些信息分別匹配到相應字段中,實現(xiàn)自動編目。20世紀70年代,OCLC的Automated Title Page Cataloguing系統(tǒng)應用OCR識別技術,對圖書題名頁進行識別,再通過編目規(guī)則進行編目,生成書目數(shù)據(jù),正確率可達到89%;1984年,英國??巳卮髮W的Davies和James采用Prolog語言研制出第一個編目專家系統(tǒng);隨后,瑞典Linkkoping大學的Hjerppe研制了以選取款目檢索點核心的Esscape系統(tǒng);1986年,美國威斯康星大學開發(fā)了MITI/MARC編目專家系統(tǒng)[14]。目前,全國圖書館聯(lián)合編目中心(OLCC)的數(shù)據(jù)共建共享奠定了智能編目的基礎,可通過其ALEPH系統(tǒng)中的責任者規(guī)范庫實現(xiàn)對圖書的個人責任者和團體責任者的識別,并實現(xiàn)規(guī)范統(tǒng)一著錄。
首先,利用工業(yè)機器人對圖書進行翻頁、測量尺寸等操作,多個CCD工業(yè)相機[15]73-74實時掃描圖書的封面、題名頁、版權頁、封底等所有可讀標識,智能收集題名、責任者、版本、語種、出版項、叢書、載體形態(tài)等圖書信息。
其次,基于OCR識別技術,對獲取的數(shù)據(jù)進行整合處理,通過計算機的自動數(shù)據(jù)提取、智能計算、自我分析、對比數(shù)據(jù)庫已有數(shù)據(jù)等技術,將采集到的信息轉(zhuǎn)換成計算機可識別的語義數(shù)據(jù)。
最后,由系統(tǒng)按照編目標準與相關規(guī)范,自動將語義數(shù)據(jù)導入各個對應的編目字段中,如題名與責任說明字段、版本說明字段、出版發(fā)行字段、載體形態(tài)項字段、叢編字段等,并同時做好子字段、指示符等部分的著錄。最終,形成某一圖書的完整且具有檢索意義的書目數(shù)據(jù),完成圖書的智能編目流程。
圖書館采分編業(yè)務在人機協(xié)同過程中,也不能只依賴智能系統(tǒng)而忽視人員的主觀能動作用,在采分編工作中需要時刻注意把握和解決以下一些問題。
在智能采訪過程中,必須要以采訪人員制定合理的館藏結(jié)構(gòu)體系為基礎,采訪人員應掌握采購決策權,客觀認識讀者的個性化閱讀需求,將其用在推薦圖書上而不是決定采購上。采訪人員可以先融合用戶借閱信息,分析趨勢與瓶頸,借此結(jié)合書單信息評估每一本圖書的采購需求,然后按照本館采選原則、購書經(jīng)費比例,結(jié)合館藏特色,科學配置圖書采購資源,從而合理控制讀者自主采購權限。此外,圖書采購入館供讀者借閱后,采訪人員還應對圖書的借閱情況進行跟蹤調(diào)查,收集讀者反饋信息,及時了解圖書利用率,根據(jù)讀者評價調(diào)整采購內(nèi)容,加大優(yōu)質(zhì)圖書供給量,提高文獻采訪質(zhì)量,實現(xiàn)圖書采購資源的合理配置,充分發(fā)揮館藏資源的作用。
在圖書的智能分類工作中,為了保證圖書相關信息在轉(zhuǎn)換過程中正確匹配,需及時更新升級數(shù)據(jù)庫。《中國圖書館分類法》Web版與《中國分類主題詞表》Web版會實時修訂更新,增、改、刪一些分類號和主題詞的相關內(nèi)容。如在《中國圖書館分類法》Web版中新增了“TN929.538 第五代移動通信系統(tǒng)(5G)”類目;將“K555.6”對應類名由原來的“馬其頓”修改為“北馬其頓”;在《中國分類主題詞表》Web版中將“磁場”的代項“磁力線重聯(lián)”“磁場重聯(lián)”刪除等。因此,在前期導入數(shù)據(jù)庫后,應利用物聯(lián)網(wǎng)技術手段,設置一種自動更新機制,與二者網(wǎng)站相關聯(lián),實現(xiàn)主題詞和分類號的實時更新。
同時也需重視人工干預和審校。分類法中設置了類目復分、仿分和冒號組配等,有些復雜類目甚至會涉及多層次復分、仿分,智能分類系統(tǒng)無法完成這些操作時需要工作人員進行干預,將這部分圖書抽調(diào)出來進行人工分類標引。此外,經(jīng)過智能分類的圖書,工作人員也要注意做好數(shù)據(jù)的審校處理,審核主題詞是否完全匹配圖書本體內(nèi)容,分類號是否完全匹配主題詞和圖書本體內(nèi)容。對于不合格的數(shù)據(jù),審校人員應進行手工修改,使之成為合格的書目數(shù)據(jù)。人機分類協(xié)同具體流程如圖1所示:
圖1 人機分類協(xié)同工作流程
在智能編目系統(tǒng)的助力下,圖書編目工作的速度和準確率雖然有所提高,規(guī)范化與智能化也得以保障,但在編目方面還有很多問題需要工作人員根據(jù)具體情況,憑借專業(yè)知識和工作經(jīng)驗,仔細研究,認真、反復確認進行處理,在圖書實體中查找線索,才能作出正確判斷,最終完成編目工作。如在下載套用聯(lián)編數(shù)據(jù)時,對于同一ISBN對應多條數(shù)據(jù)的現(xiàn)象,若智能系統(tǒng)無法識別、分辨出該圖書相應的正確數(shù)據(jù),則應由人工完成數(shù)據(jù)確認工作并下載套用;此外,對于編目過程中經(jīng)常會出現(xiàn)的跟號現(xiàn)象、集中著錄還是分散著錄的現(xiàn)象等,如果由智能技術直接生成索書號,而系統(tǒng)沒有“考慮”跟號或集中、分散著錄,就會造成書目數(shù)據(jù)和索書號的錯誤、擺架位置的混亂,給讀者查找圖書帶來困難。
因此,圖書編目在智能系統(tǒng)完成一條書目數(shù)據(jù)后,必須經(jīng)過人工檢查和修改,審校人員參照圖書實體,對書目數(shù)據(jù)各個字段著錄的準確度和完整度等進行審核,做好數(shù)據(jù)質(zhì)量控制。人機編目協(xié)同具體流程如圖2所示。
圖2 人機編目協(xié)同工作流程
在網(wǎng)絡環(huán)境下,面對信息時代的發(fā)展和要求,技術驅(qū)動、以人為本的人機協(xié)同,將成為未來圖書館采分編業(yè)務的常態(tài)。圖書館需要推動采分編工作在智能時代的健康、可持續(xù)發(fā)展[16]56。因此,在圖書館實現(xiàn)智能采分編系統(tǒng)的狀態(tài)下,一定要做好人機采分編協(xié)同策略。
采分編人員在認識到智能技術可以提高采訪效率、提升館藏文獻利用率、優(yōu)化分編流程、確保數(shù)據(jù)質(zhì)量等優(yōu)勢的基礎上,客觀認識自身知識儲備的局限性,主動增強自我學習能力,學習先進的采分編智能技術,給采分編工作注入新鮮血液。同時,工作人員要發(fā)揮專業(yè)優(yōu)勢,將實踐經(jīng)驗與系統(tǒng)設計相結(jié)合,將專業(yè)知識與智能技術相融合,做更有創(chuàng)造性的工作,如數(shù)據(jù)監(jiān)控、規(guī)范控制、數(shù)據(jù)維護等[15]72,積累更強的業(yè)務能力,快速有效地應對業(yè)務方式與流程的更新,提升采分編的自動化和智能化水平,提高工作質(zhì)量和效率。采分編人員還應時刻具備創(chuàng)新意識,主動鉆研智能化采分編系統(tǒng)的功能和運行模式,嘗試進行系統(tǒng)的開發(fā)設計,促進智能系統(tǒng)的準確、穩(wěn)定、可用[17],積極轉(zhuǎn)換角色,從書目數(shù)據(jù)的“制造者”轉(zhuǎn)變成為“智造者”,從而具備更加專業(yè)、全面的決策能力。
智能采分編系統(tǒng)來自于人類的設計,是人類智慧的產(chǎn)物,只有按照人類的算法、程序和要求執(zhí)行,才能達到預期效果。人始終處于主導地位,發(fā)揮主導作用,承擔著設計者、監(jiān)管者、決策者和引導者的角色[16]60-61。因此,采分編人員在享受智能技術帶來的便利與高效的同時,應清楚地認識到這些優(yōu)勢只有在人類充分的前期準備、中期干預、后期決策的基礎上才能完美體現(xiàn)并發(fā)揮價值。在采訪工作流程中,人工制定讀者閱讀特征和行為采集的規(guī)則和標準,人工設計和開發(fā)個性化精準服務,人工決策基于讀者閱讀需求的最終采購書單;在分類和編目工作流程中,人工設計分編流程和模式,人工干預處理復雜分編問題,人工審校書目數(shù)據(jù)、控制數(shù)據(jù)質(zhì)量;在系統(tǒng)優(yōu)化升級環(huán)節(jié),人工通過實際操作作出評估并提出具體升級內(nèi)容,指導機器深度學習,引導智能系統(tǒng)的發(fā)展方向。在智能技術的背景下,只有充分發(fā)揮人的主觀能動性,調(diào)動其積極性和創(chuàng)新性,合理利用智能技術為采分編業(yè)務服務,才能真正實現(xiàn)智能化作業(yè),推動傳統(tǒng)采分編模式向智能模式轉(zhuǎn)變。
為了提高采分編智能化系統(tǒng)的效率,機器需要對系統(tǒng)內(nèi)已有的數(shù)據(jù)進行大規(guī)模的反復學習和訓練,不斷優(yōu)化人工智能算法,才能完善采分編能力。智能采分編系統(tǒng)的深度學習將更好地實現(xiàn)人工智能對采分編人員感知的模擬,并能夠像采分編人員一樣進行思考[18]。例如,命令智能采訪系統(tǒng)不斷學習館藏數(shù)庫中已有圖書類型,通過計算與整理,分析出館藏特色、采選規(guī)則(包括單價、復本量等)和讀者需求,自動與備選采訪數(shù)據(jù)進行匹配運算,經(jīng)過篩選,保留符合條件的數(shù)據(jù),最終生成最優(yōu)化采購訂單[19]。又如,命令智能分編系統(tǒng)大量學習館藏數(shù)據(jù)庫中已有書目數(shù)據(jù),并由此產(chǎn)生序列實體之間語義關系和規(guī)則特征的模板,然后利用該模板進行機器預測[20]。通過反復訓練分類和編目內(nèi)容,提高識別、提取有效信息的能力,提高數(shù)據(jù)信息與字段之間精準對應的能力,提高篩選高頻詞的能力,提高關鍵詞、主題詞、分類號關聯(lián)的能力。重點要對不同類型圖書的分編數(shù)據(jù)和復雜情況的分編數(shù)據(jù)進行深度學習,促使智能分編系統(tǒng)模仿人類思維,獲得近似人類大腦的綜合分析能力,以解決智能分編過程中出現(xiàn)的各類問題。另外,加強機器深度學習,還需要通過對自動分編結(jié)果的審核與分析,發(fā)現(xiàn)錯誤集中的類型,對這部分圖書重新收集實例、重點訓練,完善智能分編能力。除此之外,還要注意數(shù)據(jù)的維護,不斷更新學習數(shù)據(jù),及時增補新數(shù)據(jù),促使自主調(diào)整模型參數(shù),保障智能分編結(jié)果的準確性。
人機采分編協(xié)同是人類智慧和機器智能之間平衡、融合的發(fā)展模式,是人類與智能技術之間的交流。在這樣的智能系統(tǒng)中,雖然采分編工作效率和質(zhì)量都有所提高,但也不可避免存在著不容忽視的風險。由于人類和機器分別具備不同性質(zhì)的智能,任何一個環(huán)節(jié)出現(xiàn)二者對接的偏差或脫節(jié),都有可能導致整個智能系統(tǒng)出現(xiàn)錯誤,甚至崩潰;智能技術收集讀者信息、分析讀者閱讀習慣等,加大了私人信息公開化的風險;隨著機器對人類行為越來越多的模仿和學習,以及深度學習效果的顯現(xiàn),機器逐漸呈現(xiàn)出一種“擬主體性”[21],這是否會沖擊人類自身的價值,是否會影響人類智慧的發(fā)揮;人類過度依賴機器,將會導致自身實踐能力的削弱;人類對機器過度干預與控制,將會阻礙智能技術的發(fā)展等。以上這些假設發(fā)生的現(xiàn)象提醒我們在智能系統(tǒng)實際運行過程中,要時刻做好風險防控,重視人類對規(guī)則和標準的制定,規(guī)范智能技術的操作,實時指導和監(jiān)督智能機器的運行;在加強機器智能人性化發(fā)展的同時,注重人類思維和行為的嚴謹性,減少情緒和認知偏差帶來的主觀錯誤等。