• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機器學習在圖書館特藏文獻信息資源建設(shè)中的應用探究

      2021-05-29 07:12:46解登峰
      蘭臺世界 2021年5期
      關(guān)鍵詞:特藏涉海書目

      李 靚 解登峰

      作為最能體現(xiàn)圖書館個性、亮點與特色的資源,特藏資源(或特色資源)是圖書館資源的重要組成部分,“被置于圖書館內(nèi)涵建設(shè)與外延發(fā)展的交叉點上,既是圖書館內(nèi)涵的個性化標記,也是代表文化的標志性高地。特色資源能夠彌補圖書館間館藏同質(zhì)化嚴重這一根本性缺陷,使圖書館在精神取向上獲得較大提升”[1]。

      一、特藏文獻建設(shè)的“智慧化”發(fā)展需要

      1.特藏文獻建設(shè)的概念與價值。特藏指按照一定的主題,遵循一定的收藏原則,經(jīng)長期積累而形成或者經(jīng)購買等渠道收集的比較完整的或具有相當數(shù)量的藏書,這些藏書并在相關(guān)學科領(lǐng)域內(nèi)造成一定的影響[2]。具體來說,特藏指只有本館擁有而別館卻不具備,或本館收藏豐富而別館卻相對貧乏的各種館藏資源。

      它的含義應該包括兩個方面,一是指圖書館收藏的獨具特色的那部分信息資源;二是指圖書館建設(shè)起來的信息資源體系所具有的特色[3]。保存珍貴的館藏資源,彰顯圖書館獨特的歷史文化積淀,以及建設(shè)某一主題或具有專業(yè)特色的資源來支持本校的學科建設(shè)或本地區(qū)的相關(guān)研究,是特藏最具代表性的兩個功能[4]。簡言之,特藏資源體現(xiàn)了一個圖書館特有的品位與風格,是某個圖書館與其他圖書館資源差異的所在。比如,中國海洋大學圖書館的“海洋文庫”,就是中國海洋大學圖書館獨具特色的資源。

      美國研究型圖書館協(xié)會(Association of Research Libraries,ARL)在《作為核心的特藏》報告中指出:由于特藏(special collections)的卓越特性,特藏建設(shè)可以為研究型圖書館的發(fā)展提供豐富的機會,以實現(xiàn)其教學和科研任務(wù)[5]。在館藏資源日益同質(zhì)化的當下,特藏資源日益成為圖書館聲譽、地位及核心競爭力的根本保障,建設(shè)特色鮮明的館藏體系成為圖書館界的共識,加強特藏文獻建設(shè)也成為圖書館資源建設(shè)的發(fā)展趨勢。

      2.傳統(tǒng)模式無法適應新需求。與圖書館一般資源建設(shè)模式相同,特藏文獻建設(shè)模式主要由館員采訪和專家采訪兩種模式構(gòu)成。兩者中,館員采訪是目前圖書館特藏文獻建設(shè)的主要模式,主要依據(jù)書商、出版社提供的出版物目錄,由館員依托主觀的采訪經(jīng)驗作出決策。

      具體而言,目前圖書館特藏文獻建設(shè)主要采用人工逐條通讀并予以標記的方法,在這個過程中,重點關(guān)注的字段是題名、叢編、提要、使用對象、主題詞及分類法。由于特藏文獻建設(shè)的特藏關(guān)鍵詞普遍較為明顯,因此與一般資源采訪決策活動相比,特藏文獻建設(shè)決策依據(jù)往往更為客觀,采訪過程相對程式化,采訪決策的不確定因素也較小。

      眾所周知,隨著圖書館的發(fā)展進入智慧化時代,圖書館文獻資源建設(shè)工作隨之日趨“大數(shù)據(jù)化”,現(xiàn)有的特藏文獻建設(shè)工作卻始終處于在海量文獻中人工識別、篩選、采集特藏資源的狀態(tài),導致特藏文獻人工采訪耗時、耗力的弊端日益暴露,不僅使特藏文獻建設(shè)的完整性毫無保障,無法滿足工作要求,而且也耗費了本就緊張的人力資源。因此,圖書館特藏文獻建設(shè)走上“智慧化”進程已經(jīng)迫在眉睫,亟需開發(fā)“智慧化”工具,以實現(xiàn)特藏文獻建設(shè)的“智慧化”發(fā)展。

      二、基于機器學習理論的解決途徑

      1.人工智能時代的來臨。1956年,在達特茅斯大學對非生物智能研究的夏季會議(Dartmouth會議)上,以約翰·麥卡錫和明斯基為代表的一批數(shù)學、心理學、神經(jīng)學、信息論、計算機科學等學科的學者提議將人工智能確立為一門獨立的學科,第一次在公開場合使用“Artificial Intelligence”這一名詞,被認為是“人工智能(AI)”正式誕生的標志[6]。人工智能的定義隨時間推移而演變,《人工智能標準化白皮書》(2018版)將其定義為:“人工智能是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,是感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)與應用系統(tǒng)。”[7]

      迄今,人工智能作為一門交叉前沿學科已有六十余年的發(fā)展歷史,在諸多應用領(lǐng)域取得了舉世矚目的成就。近年來,隨著大數(shù)據(jù)、機器學習、云計算、物聯(lián)網(wǎng)等的興起,人工智能應用領(lǐng)域愈來愈廣,且已滲透到生活中各個行業(yè)。圖書館作為信息技術(shù)應用的先行者,對信息技術(shù)的發(fā)展有著高度的敏感性,持續(xù)關(guān)注人工智能技術(shù)的應用。Smith在1976年對人工智能在圖書館信息檢索系統(tǒng)中扮演角色和潛在作用進行了調(diào)查[8]?!?017新媒體聯(lián)盟地平線報告:圖書館版》將人工智能技術(shù)列為4—5年內(nèi)重點關(guān)注的技術(shù)之一[9]。人工智能在圖書館領(lǐng)域的應用為圖書館的發(fā)展帶來劃時代的改變,推動圖書館由“傳統(tǒng)”向“智慧”轉(zhuǎn)型。

      2.機器學習的理論背景。1959年,IBM公司的計算機科學專家亞瑟·塞繆爾提出了“機器學習”這一術(shù)語,并將它定義為:可以提供計算機能力而無需顯示編程的研究領(lǐng)域。機器學習是人工智能研究領(lǐng)域中極其重要的研究方向,也是發(fā)展最快的分支,是一門多領(lǐng)域交叉學科,涉及概率論、統(tǒng)計學、優(yōu)化理論、算法復雜度理論等多門學科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)并使之不斷改善自身的性能[10]。

      機器學習的主要內(nèi)容是研究如何從數(shù)據(jù)中構(gòu)建模型的學習算法。有了學習算法之后,將訓練數(shù)據(jù)集提供給它,算法就能根據(jù)這些數(shù)據(jù)構(gòu)建模型,從而使用模型進行預測,因此機器學習的一個核心內(nèi)容就是研究學習算法[11]。在機器學習的過程中,系統(tǒng)不斷進行自我完善和自我改進,當再次進行同樣或相似工作的時候,就能更好地完成目標。

      機器學習包括監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習通過對數(shù)據(jù)的學習和訓練,獲得對應數(shù)據(jù)隱含規(guī)律的模型,對事實真相進行描述,并能夠利用模型,進行有效預測[12]。監(jiān)督學習是建立在人類已有的經(jīng)驗基礎(chǔ)上,對事物進行一定的描述、概括、分類,讓監(jiān)督學習算法對數(shù)據(jù)進行訓練和學習,獲得可靠的描述模型,圖書館現(xiàn)有的數(shù)據(jù),絕大部分為有標記數(shù)據(jù),因此人工智能圖書館當前主要采用監(jiān)督學習技術(shù)[13]。

      3.機器學習工具的功能和作用。隨著我國文化產(chǎn)業(yè)的發(fā)展,圖書出版量劇增,一方面,為開展特藏資源建設(shè)工作創(chuàng)造了條件,提供了豐富的選擇;但另一方面,出版信息數(shù)據(jù)劇增導致的信息過載使特藏文獻的完整性無法得到保障,特藏文獻信息資源建設(shè)工作的質(zhì)量和效率由于圖書館人力資源的有限亦隨之下降。如何解決有限的人力資源與不斷加重的信息過載問題之間的矛盾,成為特藏資源建設(shè)工作的當務(wù)之急。

      在圖書館特藏文獻信息資源建設(shè)工作中引入機器學習工具,可以充分利用機器學習的優(yōu)勢,使其在由采訪館員工作經(jīng)驗構(gòu)建的現(xiàn)有特藏文獻資源數(shù)據(jù)中不斷進行監(jiān)督學習,從復雜、多維的數(shù)據(jù)中掌握特藏文獻內(nèi)在本質(zhì)特征,構(gòu)建特藏文獻的描述模型,并最終實現(xiàn)特藏文獻資源的自動識別。

      將機器學習引入特藏文獻信息資源建設(shè),使特藏文獻信息資源建設(shè)工作實現(xiàn)由人工篩選向機器自動識別的轉(zhuǎn)化,不僅可以解放圖書館人力資源,進一步提高館員的工作效率與工作質(zhì)量;還將構(gòu)建出更加符合讀者興趣需求和特藏文獻信息資源建設(shè)需要的模型,從而不斷提高機器識別的準確性與讀者滿意度;同時,還可有效促進圖書館特藏文獻信息資源建設(shè)工作更快發(fā)展,在特藏文獻信息資源建設(shè)領(lǐng)域真正實現(xiàn)“智慧化”,并為機器學習在圖書館資源建設(shè)工作中的全面應用探索全新的解決方案。

      將機器學習引入特藏文獻信息資源建設(shè)工作,基于機器學習算法開發(fā)機器學習工具,在特藏文獻建設(shè)工作中發(fā)揮具體而實際的輔助作用,不僅可以提高特藏文獻建設(shè)工作的質(zhì)量與效率,而且能切實解決圖書館人力資源有限與數(shù)據(jù)信息過載的現(xiàn)實矛盾,對于推動特藏文獻建設(shè)和資源建設(shè)工作的智慧化進程是一條行之有效的解決途徑。

      三、引入機器學習的創(chuàng)新性與可行性

      1.創(chuàng)新性分析。要了解將機器學習應用于特藏文獻建設(shè)的理論創(chuàng)新價值,需要研究截至目前該領(lǐng)域的文獻發(fā)表情況。2019年10月,以“Cnki中國知網(wǎng)”為數(shù)據(jù)來源,以“智慧圖書館”為主題搜索文獻發(fā)文量,從檢索結(jié)果可以看出,我國圖書館界對智慧圖書館的研究熱度和發(fā)展速度從2010年開始進入快速增長期,隨后呈現(xiàn)出“井噴式”的發(fā)展態(tài)勢,關(guān)于智慧圖書館的研究現(xiàn)已進入并將繼續(xù)維持熱點狀態(tài),其研究和實踐都在快速發(fā)展過程中(圖1)。然而,同樣在“Cnki中國知網(wǎng)”搜索“智慧圖書館”研究關(guān)鍵詞矩陣圖,卻未見資源建設(shè)領(lǐng)域相關(guān)研究(圖2)。

      以“智慧圖書館”和“資源建設(shè)”為關(guān)鍵詞檢索智慧圖書館在資源建設(shè)領(lǐng)域的研究現(xiàn)狀,顯示相關(guān)文獻數(shù)量為0;以“機器學習”和“圖書館”為關(guān)鍵詞檢索機器學習在圖書館方向應用的研究現(xiàn)狀,顯示相關(guān)文獻數(shù)量為7;以“機器學習”和“文獻”為關(guān)鍵詞檢索機器學習在館藏文獻方面應用的研究現(xiàn)狀,顯示相關(guān)文獻數(shù)量為2;以“機器學習”和“資源建設(shè)”及“機器學習”和“特藏”為關(guān)鍵詞檢索機器學習在圖書館資源建設(shè)領(lǐng)域及特藏文獻建設(shè)領(lǐng)域應用的研究現(xiàn)狀,顯示相關(guān)文獻數(shù)量均為0??梢?,智慧圖書館研究和探討的領(lǐng)域雖有一定廣度,但仍集中在宏觀理念層面,截至目前,在資源建設(shè)領(lǐng)域進行機器學習的研究現(xiàn)狀尚屬空白。將機器學習應用于圖書館特藏文獻建設(shè)領(lǐng)域,開發(fā)機器學習工具用于特藏文獻建設(shè)工作,可使圖書館特藏文獻建設(shè)領(lǐng)域走向“智慧化”,亦可推動“智慧圖書館”的研究與實踐,在學術(shù)層面極具研究價值。

      2.可行性分析。在當今不斷繁榮的文獻出版背景下,圖書館特藏文獻建設(shè)的采訪目標主要由新出版書目數(shù)據(jù)和尚未采訪的歷史書目數(shù)據(jù)組成,而采訪館員在圖書館文獻資源建設(shè)工作中處理的書目數(shù)據(jù)為MARC數(shù)據(jù)。MARC即機器可讀目錄(Machine Readable Catalog)的英文縮寫,簡稱機讀目錄,就是以代碼形式和特定結(jié)構(gòu)記錄在計算機存儲介質(zhì)(磁帶、磁盤、光盤)上的用計算機識別和閱讀的目錄,MARC是國際性的機讀目錄格式標準[14]。

      MARC數(shù)據(jù)受控于MARC格式標準、分類法、敘詞表等,具有標準的結(jié)構(gòu),屬于格式化數(shù)據(jù),利于特征信息的提取。因此,圖書館特藏資源識別所依賴的特征信息都有規(guī)范的格式化表達,所需學習及處理的書目數(shù)據(jù)有標準的結(jié)構(gòu),有利于實現(xiàn)特征信息的提取。

      在圖書館特藏文獻建設(shè)工作中,傳統(tǒng)的人工識別方式,通過人工逐條通讀書目數(shù)據(jù)中的題名、作者、主題詞、關(guān)鍵詞、出版社、出版時間、ISBN號、叢編、分類號、提要、使用對象等基本字段,發(fā)現(xiàn)符合特藏特征的信息后,作為特藏文獻予以標記。而機器學習識別同樣是對特藏文獻特征信息的識別與篩選,與人工識別所依據(jù)的字段相同,字段的信息語義與自然語言語義亦相同。機器完全可以通過學習掌握特藏資源特征信息,并對數(shù)據(jù)項目進行自動識別判斷,通過機器來學習特藏文獻特征以輔助或代替人工處理海量書目數(shù)據(jù)具有技術(shù)與工作的邏輯可行性。在新書出版種類繁多,采訪館員無法完整、全面地收集,更無法處理幾十萬至百萬條數(shù)量級的數(shù)據(jù)時,機器學習識別凸顯出了更快、更全的顯著優(yōu)勢。

      四、基于機器學習特藏文獻推薦系統(tǒng)開發(fā)與實踐

      機器學習可以深入數(shù)據(jù)內(nèi)部和細節(jié),模仿人類思維機制和決策過程[15]。筆者研究團隊通過以下四個步驟來實現(xiàn)基于機器學習特藏文獻推薦系統(tǒng)——中國海洋大學涉海文獻推薦系統(tǒng)的開發(fā)與實踐。

      1.數(shù)據(jù)儲備。不同于通過編程告訴計算機如何計算來完成特定的任務(wù),機器學習是一種數(shù)據(jù)驅(qū)動方法,這意味著方法的核心是數(shù)據(jù)。對機器學習來說,往往需要大量的數(shù)據(jù),才能獲得準確的學習和預測結(jié)果。因此,開發(fā)基于機器學習特藏文獻推薦系統(tǒng)首先應通過國家圖書館、商業(yè)數(shù)據(jù)庫、新華書店等銷售商、網(wǎng)絡(luò)搜索引擎等多種渠道全面收集圖書出版信息,并全面收集館藏特藏文獻書目數(shù)據(jù),用作開發(fā)特藏文獻推薦系統(tǒng)所需的訓練數(shù)據(jù)、測試數(shù)據(jù)和建模數(shù)據(jù)等儲備數(shù)據(jù)。

      通過隨機采樣,筆者研究團隊提取2009—2020年每年約2萬條書目數(shù)據(jù),合計248719條,其中涉海書目數(shù)據(jù)共8509條,占比3.42%。將數(shù)據(jù)集隨機等分為10份,其中6份作為訓練集,2份作為驗證集,2份作為測試集。隨后,將原始數(shù)據(jù)集通過數(shù)據(jù)清洗、數(shù)據(jù)變化等方式,統(tǒng)一數(shù)據(jù)結(jié)構(gòu),剔除“噪聲”數(shù)據(jù),并在整理過程中檢查數(shù)據(jù)合法性與完整性,補全不完整數(shù)據(jù)。

      2.特征工程。特征工程,即通過特征提取、特征變換等方法將數(shù)據(jù)轉(zhuǎn)換成全新的帶有衍生特征的樣本數(shù)據(jù)。以海洋文獻為例,海洋文獻特征工程是指整理近年新書書目數(shù)據(jù)、涉海古文獻書目數(shù)據(jù)、民國涉海圖書書目數(shù)據(jù)、海洋文庫書目數(shù)據(jù),用以構(gòu)建建模需要的測試數(shù)據(jù),在識別涉海圖書和理解書目數(shù)據(jù)的基礎(chǔ)上,通過屬性選擇和數(shù)據(jù)抽樣方法,確定用來識別目標的數(shù)據(jù)特征。特征工程是機器學習后期進行分析、預測、識別的先決條件,直接影響最終學習結(jié)果準確性,是開發(fā)基于機器學習特藏文獻推薦系統(tǒng)的重要基礎(chǔ)。

      為全面標記涉海圖書特征,研究團隊十余年來分別對涉海古文獻[16]、民國時期涉海圖書[17]、截至2020年中國海洋大學圖書館館藏涉海圖書等涉海圖書進行了分析。對由特藏文獻構(gòu)成的訓練數(shù)據(jù)進行分批次的訓練和學習,如訓練數(shù)據(jù)中的題名、作者、主題詞、關(guān)鍵詞、出版社、出版時間、ISBN號、叢編、分類號、提要、使用對象等字段信息,重點學習MARC數(shù)據(jù)中的200字段(題名與責任者)、225字段(叢編項)、330字段(提要文摘附注)、606字段(學科名稱主題)和690字段(中圖分類號)。對于訓練數(shù)據(jù)中的題名、作者、關(guān)鍵詞、出版社、使用對象等字段信息的屬性內(nèi)容,經(jīng)過預處理后調(diào)用jieba庫進行分詞處理,得到中文分詞文本作為Word2vec工具(gensim庫)的輸入,使用Skip-gram模型進行訓練,構(gòu)建中文詞向量。而對于中圖分類號、出版社等帶有類別信息的字段,則將其進行One-Hot編碼,模型的代碼實現(xiàn)基于Google開源的機器學習框架TensorFlow,離散化能提升模型的非線性能力。

      此階段,筆者研究團隊共收集涉海圖書二級分類號386個,其中出現(xiàn)即可判定涉海圖書的二級分類號103個,需要組配主題詞、高頻詞才能識別涉海圖書的二級分類號283個;共收集涉海主題詞2594個,其中出現(xiàn)即可判定涉海圖書的主題詞1240個,需要組配高頻詞、分類號才能識別涉海圖書的主題詞1354個;共收集涉海高頻詞471個。在此基礎(chǔ)上形成語義網(wǎng)絡(luò),為機器學習算法設(shè)計提供參考,如2020年涉海圖書題名語義網(wǎng)絡(luò)(局部)(圖3,見下頁)。

      圖3 2020年涉海圖書題名語義網(wǎng)絡(luò)(局部)

      3.模型的建立與訓練。為了對模型進行充分的實驗驗證,筆者研究團隊先進行了詞向量的預訓練,同時基于TensorFlow框架實現(xiàn)了模型,隨后利用pythonflask注冊到j(luò)ava spring-cound eureka,進行微服務(wù)調(diào)用的線上部署。涉海文本識別是一個明顯的二分類任務(wù),將注意力機制引入模型中,更多地專注于提取文本序列中字與字之間的影響力,從而實現(xiàn)基于BiLSTM-Attention的文本二分類命名實體識別模型,該模型由Embedding模塊、BiLSTM模塊及Self-Attention-CRF模塊組成,其框架結(jié)構(gòu)見下圖(圖4)。

      圖4 基于BiLSTM-Attention的文本二分類命名實體識別模型框架圖

      模型具體實現(xiàn)步驟為:對待分類文本進行預處理,通過Embedding模塊將經(jīng)過分詞處理后的輸入文本表示成向量的形式,將Embedding模塊對應的向量輸入至BiLSTM模塊中進行上下文特征的提取,然后將BiLSTM模塊的輸出輸入至Attention模塊中,最后得到文本分類結(jié)果。其中,Embedding模塊主要負責將輸入的中文詞語轉(zhuǎn)換成向量的形式,每個詞語對應的向量由預訓練得到的詞向量構(gòu)成,中文詞向量來源于詞向量工具在中文語料庫上的語言模型訓練結(jié)果;BiLSTM模塊的輸入為Embedding模塊的輸出,使用雙向LSTM結(jié)構(gòu)提取輸入文本的上下文特征,該模塊由LSTM前向?qū)?、LSTM后向?qū)雍推唇訉咏M成;Attention模塊主要完成文本分類任務(wù),其輸入為BiLSTM模塊的輸出,輸出為該文本的分類結(jié)果。

      LSTM即長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Neural Network),是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種變體。LSTM通過“門”向單元狀態(tài)中添加或從中移除信息,每個“門”由sigmoid函數(shù)和逐點乘法運算組成,sigmoid函數(shù)輸出0到1之間的數(shù)值,描述了信息可以通過門限的程度,0為不讓任何信息通過,1為讓所有信息通過?!伴T”通過權(quán)重參數(shù)和偏置參數(shù)對信息進行篩選,決定信息通過多少,這些參數(shù)在網(wǎng)絡(luò)訓練過程中得到。每個LSTM單元通過遺忘門、輸入門和輸出門三個“門”來控制信息對單元狀態(tài)的影響。

      在此階段后期,需要依托搜集并整理的測試數(shù)據(jù),對所建立的應用模型進行訓練,使用構(gòu)建好的應用模型對測試數(shù)據(jù)進行預測和數(shù)據(jù)標記。采用人工抽查的方法,將應用模型數(shù)據(jù)標記與人工標記進行比對,計算出模型數(shù)據(jù)標記的誤差,得出應用模型的使用滿意度和性能評估指標,并在下一次輸出結(jié)果前自我校正。在這個過程中,需要不斷增加測試數(shù)據(jù)的數(shù)量,從而使應用模型從錯誤中不斷吸取經(jīng)驗。在模仿人工識別的過程中,應用模型把每一條測試數(shù)據(jù)都看作獨立認知對象,通過持續(xù)的自我學習、自我訓練和自我修正,不斷調(diào)試模型參數(shù),在這個過程中實現(xiàn)自我優(yōu)化,逐漸提高預測的準確性,最終完成特藏文獻推薦系統(tǒng)的開發(fā)。

      4.推薦系統(tǒng)的完善?;跈C器學習特藏文獻推薦系統(tǒng)開發(fā)完成后,要繼續(xù)分階段導入測試書目數(shù)據(jù)集,由推薦系統(tǒng)獨立處理,計算出符合特藏要求列入采訪目錄的文獻信息,以測試推薦系統(tǒng)在限定條件下進行最優(yōu)化特藏文獻建設(shè)決策的效率與準確率,在優(yōu)化過程中不斷提高推薦系統(tǒng)算法的性能。

      后期,根據(jù)特藏文獻建設(shè)日常接觸到的數(shù)據(jù)類型、文件格式,實現(xiàn)推薦系統(tǒng)對多種類型數(shù)據(jù)的規(guī)范、兼容及轉(zhuǎn)換,以滿足圖書館特藏文獻建設(shè)多元化的實際工作要求,同時實現(xiàn)推薦系統(tǒng)的統(tǒng)計分析、提取規(guī)范詞匯表等功能,最終達到甚至超過人工標準的特藏文獻建設(shè)效果。在實際工作中,推薦系統(tǒng)會及時根據(jù)自身的不足,不斷在特藏文獻建設(shè)的全過程實現(xiàn)系統(tǒng)的完善、優(yōu)化與升級。特藏文獻自動識別完成后,采訪館員還需要對推薦系統(tǒng)的識別結(jié)果進行最終的審核。

      五、特藏文獻推薦系統(tǒng)應用效果及評價

      下圖為筆者研究團隊現(xiàn)已開發(fā)出的特藏文獻推薦系統(tǒng)——中國海洋大學涉海文獻推薦系統(tǒng)工作界面(圖5),該推薦系統(tǒng)支持ISO文件格式及Excel文件格式的數(shù)據(jù)包輸入,識別結(jié)果支持Excel文件輸出。

      圖5 中國海洋大學涉海文獻推薦系統(tǒng)工作界面

      為驗證所開發(fā)涉海文獻推薦系統(tǒng)的有效性,得到該推薦系統(tǒng)科學的應用效果及評價,筆者在圖書供應商的征訂目錄中選取了最新的7個征訂目錄,將7個書目數(shù)據(jù)包中的合計11044條書目記錄作為樣本數(shù)據(jù)。在機器識別前,先由特藏采訪館員按每天1000條書目數(shù)據(jù)的工作量進行人工識別,隨后通過涉海文獻推薦系統(tǒng)進行機器識別,二者的識別結(jié)果對比如下表所示(表1)。

      表1 書目數(shù)據(jù)測試結(jié)果

      通過分析表1中數(shù)據(jù)可以發(fā)現(xiàn):在11044條書目記錄中,共有217條涉海圖書書目數(shù)據(jù),占比為1.965%;人工識別出170條,共漏檢52條,漏檢率為0.471%,共錯檢5條,錯檢率為0.045%;機器識別出298種,共漏檢20條,漏檢率為0.181%,共錯檢101條,錯檢率為0.915%。隨后,對上述數(shù)據(jù)進行比對分析可以發(fā)現(xiàn)。

      1.機器識別效率極高,成本極低。以樣本數(shù)據(jù)為例,在11044條書目記錄中,涉海書目數(shù)據(jù)僅有217條,占比僅為1.965%,這凸顯出特藏文獻數(shù)量少這一基本特征,目前我國每年出版50多萬種圖書,以人工識別的方式在這50多萬種圖書中發(fā)現(xiàn)比例極低的涉海及其他特藏文獻,需要占用大量人力與大量時間,這與圖書館日漸緊張的人力資源之間呈現(xiàn)出不可調(diào)和、日益加劇的矛盾。面對同樣的樣本數(shù)據(jù)檢測任務(wù),人工識別需要大約10天的檢測時間才能完成,機器識別則僅需不到10分鐘即可。毫無疑問,機器識別的引入對于圖書館特藏文獻建設(shè)工作的效率提升而言,無疑是飛躍式的質(zhì)變。因此,基于機器學習開發(fā)的特藏文獻推薦系統(tǒng)可以成為人工識別工作的有效補充,能夠幫助圖書館采訪館員在浩如煙海的海量文獻中高效、便捷地發(fā)現(xiàn)和補足所需用的特藏文獻。

      2.機器識別的漏檢率較低,錯檢率較高。通過觀察表1中的數(shù)據(jù)可以看出,機器學習的漏檢率僅為人工識別漏檢率的38.462%,可以較好地解決人工識別由于數(shù)據(jù)量巨大、人力不足等原因造成的漏檢問題。與漏檢率較低相對應的是,機器學習的錯檢率較高,這主要源于機器學習工具建立在書目文本信息基礎(chǔ)之上,對自然語言的正確認知能力有限,尤其在面對帶有修辭性質(zhì)的自然語言時,極易造成機器錯檢。比如,當文本信息出現(xiàn)“知識的海洋”“文字的海洋”等看似與“海洋”相關(guān)但本意并非涉海的字眼時,機器識別就會錯將其歸為涉海圖書。正是由于機器識別的這一局限性,在樣本數(shù)據(jù)中,機器識別的錯檢率高達0.915%,是人工識別錯檢率的20余倍。因此,后期尚需不斷加強數(shù)據(jù)訓練及調(diào)試,以更好地應對此類特殊情況,從而提高機器識別的正確率。

      3.將人工識別與機器識別有機結(jié)合。在特藏文獻建設(shè)的實際工作中,需要將人工識別與機器識別有機結(jié)合,具體情況具體分析地加以利用。比如,在日常特藏文獻建設(shè)工作中,應以人工識別為主,在人工識別后輔以機器識別進行二次篩選,從而有效避免人工識別對特藏文獻的漏檢現(xiàn)象及機器識別錯檢率較高的問題;而在特藏文獻的缺藏分析與補藏工作中,當面對幾十萬條數(shù)量級的書目數(shù)據(jù)時,機器識別的效率優(yōu)勢就得以充分凸顯,此時則需以機器識別為主,先使用機器識別進行初步篩選,隨后由采訪館員對機器識別的結(jié)果進行最終的審核與判斷。只有將二者有機結(jié)合、相輔相成、互相補充、協(xié)同發(fā)力,才能更有效地促進圖書館特藏文獻建設(shè)工作。

      六、結(jié)語

      從本研究來看,基于機器學習實現(xiàn)特藏文獻資源的自動識別,緩解了信息過載,提升了特藏文獻資源建設(shè)工作的質(zhì)量和效率,證實了機器學習應用理論、技術(shù)與算法有效,機器識別是人工識別的有效補充。隨著圖書館發(fā)展進入智慧化時代,資源建設(shè)走向智慧化也成為必然,基于機器學習的特藏文獻建設(shè)改變了資源建設(shè)工作,智慧化理論研究與實踐落后于圖書館其他業(yè)務(wù),但要真正實現(xiàn)資源建設(shè)的智慧化愿景,還需進一步實踐印證和理論研究。

      猜你喜歡
      特藏涉海書目
      推薦書目《初春之城》
      都市人(2022年3期)2022-04-27 00:44:57
      涉海翻譯語言服務(wù)人才培養(yǎng)現(xiàn)狀與問題研究①
      數(shù)字環(huán)境下高校圖書館特藏資源建設(shè)探析
      戰(zhàn)略管理導向下涉海企業(yè)全面預算審計體系研究
      今日財富(2020年3期)2020-01-30 02:24:04
      基于管理創(chuàng)新涉海企業(yè)投資審計運行機制研究
      高校圖書館特藏建設(shè)工作探微
      美國康奈爾大學圖書館特藏發(fā)展與實踐研究*
      我校圖書館特藏建設(shè)的實踐與探討
      本刊郵購書目
      “涉?!背烧Z的文化透視
      成都市| 辛集市| 高陵县| 方山县| 密云县| 大化| 柯坪县| 瓮安县| 东光县| 大厂| 祁阳县| 滨海县| 电白县| 元谋县| 辉县市| 霍邱县| 嘉祥县| 绥化市| 五家渠市| 华安县| 共和县| 北票市| 凌源市| 循化| 上饶市| 闽清县| 大洼县| 金昌市| 灵宝市| 武功县| 宝清县| 东方市| 南宁市| 萨迦县| 桂东县| 明水县| 公主岭市| 孟州市| 拉萨市| 聂荣县| 勐海县|