王 劍
(營口理工學(xué)院圖書館 遼寧營口 115014)
1956年,J.McCarthy[1]在美國達特茅斯會議上正式提出人工智能(Artificial Intelligence,簡稱AI)概念。在過去的64年中,人工智能取得了國內(nèi)外的廣泛關(guān)注和長足發(fā)展。我國政府非常重視人工智能的發(fā)展。2017年被稱為我國人工智能發(fā)展的元年,因為這年我國首次將人工智能寫入《政府工作報告》,并且出臺了《新一代人工智能發(fā)展規(guī)劃》[2]。人工智能已經(jīng)成為第四次產(chǎn)業(yè)革命的核心技術(shù),成為我國經(jīng)濟發(fā)展的新動力,并影響著我們生活的方方面面。
人工智能也推動著圖書館的發(fā)展,受到了國內(nèi)外圖書館界的關(guān)注。國際圖書館協(xié)會和機構(gòu)聯(lián)合會(International Federation of Library Associations and Institutions,簡稱IFLA)多次提到人工智能,認為人工智能是未來發(fā)展趨勢之一[3]。美國圖書館協(xié)會(American Library Association,簡稱ALA)認為人工智能將改變高校的教學(xué)與研究模式[4]?,F(xiàn)如今人工智能在圖書館的應(yīng)用以人工智能設(shè)備為主,涉及到科研服務(wù)、檢索服務(wù)、學(xué)科服務(wù)的較少。美國羅德島大學(xué)圖書館人工智能實驗室是首個高校圖書館人工智能實驗室[5],為高校圖書館人工智能服務(wù)做出了有益的嘗試。日本國立國會圖書館在2013年成立了實驗室,并重點研究下一代數(shù)字圖書館,在實驗室中應(yīng)用了許多人工智能技術(shù)。本文以日本國立國會圖書館人工智能實驗室作為研究案例,以期豐富圖書館人工智能服務(wù)方面的研究成果。
人工智能已經(jīng)成為我國圖書館界的研究熱點之一,在中國知網(wǎng)已經(jīng)收錄了200余篇相關(guān)文獻。特別是從2017年以來,我國圖書情報核心期刊發(fā)表了不少與人工智能相關(guān)的論文,且發(fā)文數(shù)量呈上升趨勢。2017年《圖書與情報》分2期發(fā)表了10篇圖書館與人工智能相關(guān)的論文,帶動了國內(nèi)圖書館界人工智能的研究熱潮。這些發(fā)表的論文主要圍繞以下主題展開:一是人工智能在圖書館各服務(wù)領(lǐng)域的應(yīng)用,董同強[6]、宮平[7]、夏晶[5]、王紅等學(xué)者[8]分別從學(xué)科服務(wù)、繪本閱讀和教育領(lǐng)域、服務(wù)模式等方面探索人工智能在圖書館的應(yīng)用;二是空間建設(shè)的影響,蒲姍姍[9]、鄭鐵亮[10]等人從人工智能服務(wù)下的圖書館空間設(shè)計、建筑造型等方面深入研究;三是對圖書館人工智能服務(wù)的理性思考。祝鳳云[11]認為圖書館應(yīng)用人工智能服務(wù)具有信息泄露、網(wǎng)絡(luò)攻擊、虛假信息等風(fēng)險,所以圖書館應(yīng)做好相應(yīng)的應(yīng)對措施。歐陽愛輝[12]認為圖書館應(yīng)用人工智能服務(wù)存在相關(guān)法律不明、具體服務(wù)內(nèi)容缺乏法律指引、損害救濟等配套機制缺失等問題,所以圖書館要做好法律困惑的解決設(shè)計。麻思蓓和許燕[13]認為人工智能存在局限性,帶來一定的倫理挑戰(zhàn),所以圖書館的人工智能服務(wù)應(yīng)做好相應(yīng)的評估工作,規(guī)避相應(yīng)的法律及倫理風(fēng)險,做好館員信息素養(yǎng)培訓(xùn)等工作。楊九成等學(xué)者[14]認為圖書館人工服務(wù)存在技術(shù)、制度、理念、倫理等方面的缺陷,建議在圖書館應(yīng)用人工智能服務(wù)時從文化回歸到人本管理。王文敏和高軍[15]等人認為人工智能在圖書館領(lǐng)域有著作權(quán)侵權(quán)風(fēng)險。綜上所述,我國有關(guān)圖書館人工智能服務(wù)的研究不少,且研究的切入點也較多,但對圖書館人工智能實驗室研究的較少。雖然有學(xué)者對美國羅德島大學(xué)圖書館實驗室進行研究,但偏向于在教育領(lǐng)域的應(yīng)用,而日本國立國會圖書館人工智能實驗室則傾向于將人工智能技術(shù)應(yīng)用到數(shù)據(jù)庫檢索、資源建設(shè)等
圖書館核心業(yè)務(wù)上。
日本人工智能學(xué)會成立于1986年,推動著日本人工智能技術(shù)的發(fā)展,迄今已經(jīng)取得第五代計算機、極限作業(yè)機器人等成就。2016年日本設(shè)立“人工智能技術(shù)戰(zhàn)略會議”,并在《日本再興戰(zhàn)略2016》中提出大力支持日本人工智能發(fā)展[16]。2017年日本推出《下一代人工智能推進戰(zhàn)略》,明確人工智能技術(shù)的發(fā)展方向。2018年日本在《新產(chǎn)業(yè)構(gòu)造藍圖》中指出將人工智能應(yīng)用到智能汽車、醫(yī)療等領(lǐng)域??梢娙毡緦θ斯ぶ悄馨l(fā)展非常重視。
日本國立國會圖書館實驗室(Lab of National Diet library, Japan,簡稱NDL Lab)正式成立于2013年[17],利用先進的信息技術(shù)應(yīng)用到新的數(shù)字圖書館服務(wù)中。由于NDL Lab使用了許多人工智能技術(shù),本文將NDL Lab稱為日本國立國會圖書館人工智能實驗室。NDL Lab是人工智能技術(shù)實驗的場所,待技術(shù)成熟之后再推向社會。NDL Lab的人工智能服務(wù)發(fā)展不錯,于2019年應(yīng)邀在IFLA做相關(guān)報告[18]。
“下一代數(shù)字圖書館”是NDL Lab最主要的服務(wù)內(nèi)容,為日本國立國會圖書館搜索提供實驗研究而開發(fā)的數(shù)字圖書館系統(tǒng),將機器學(xué)習(xí)和國際圖像互操作性框架(International Image Interoperability Framework,簡稱IIIF)應(yīng)用到搜索引擎領(lǐng)域,目前支持全文搜索和圖像搜索兩大功能[19]。“下一代數(shù)字圖書館”能為讀者提供自動生成的檢索結(jié)果目錄,并自動判斷翻頁方向。“下一代數(shù)字圖書館”可檢索的內(nèi)容為版權(quán)保護期已過,進入公有領(lǐng)域的數(shù)字化材料,以技術(shù)工程(NDC5類)、勞資關(guān)系(NDC6類)和藝術(shù)書籍(NDC7)為主,截至2019年有58 000種數(shù)字化材料。在2019年IFLA世界圖書館與圖書館大會《圖書館:第114屆會議的對話——信息技術(shù)和大數(shù)據(jù)的知識管理》上,日本發(fā)表論文《數(shù)字圖書館的新功能:增強國立國家圖書館的可發(fā)現(xiàn)性》進行了系統(tǒng)闡述[18]。
(1)全文搜索。全文搜索支持讀者使用OCR軟件生成帶有關(guān)鍵詞的全文材料。在關(guān)鍵詞搜索框中輸入內(nèi)容即可獲得,并支持在線閱讀和下載。以輸入人工智能的英文簡稱AI為例,共檢索出7 935個相關(guān)記錄,第一條結(jié)果如圖1所示。京都高等工蕓學(xué)校1933年出版的圖書《Saibi 33》中有5處提到AI,分別出現(xiàn)在文字段落和圖片中??梢娙乃阉鞑粌H支持段落文字,也支持圖片中的文字部分。
圖1 以“AI”為關(guān)鍵詞進行檢索的部分結(jié)果
(2)圖像搜索?!跋乱淮鷶?shù)字圖書館”為讀者使用自動裁剪功能進行圖像搜索,從圖書館系統(tǒng)中自動提取相似圖像,支持4種搜索方式:從樣本中搜索圖片、從元數(shù)據(jù)中搜索圖片、從本地圖像中搜索圖片和從插圖中搜索圖片。①從樣本中搜索圖片是指為讀者提供幾張圖片,讀者選擇其中一張跟自己檢索意愿最接近的圖片進行搜索,系統(tǒng)將為讀者返回許多相似的圖片供讀者選擇;②從元數(shù)據(jù)中搜索圖片是指讀者輸入相應(yīng)的關(guān)鍵詞,系統(tǒng)為讀者返回系列相關(guān)主題的圖片,如以“造船”進行檢索可獲得578個與造船有關(guān)的圖片結(jié)果;③從本地圖像中搜索圖片是指讀者可在本地上傳自己的圖片進行匹配檢索;④從插圖中搜索圖片是指讀者可在該系統(tǒng)進行繪畫,再根據(jù)讀者的繪畫進行系統(tǒng)匹配?!跋乱淮鷶?shù)字圖書館”的圖像檢索技術(shù)提供多種檢索方式,并且進行圖像自動提取和匹配,滿足讀者的多方面需求。
NDC預(yù)測器(NDC predictor)是NDL Lab的一項通過機器學(xué)習(xí)來猜測日語十進制分類技術(shù)[20]。NDC預(yù)測器的機器學(xué)習(xí)技術(shù)源于Facebook AI Research開發(fā)的FastText(外部站點),用于分類。一般來說,分類類型越少,NDC預(yù)測器的準確性越高。NDC預(yù)測器1~3位數(shù)的準確性分別為86%、82%和76%。讀者可在NDC預(yù)測器的搜索框中輸入自己的問題,給的信息越具體,結(jié)果的準確性越高,給的信息越寬泛,結(jié)果的準確性越低。以NDC預(yù)測器提供的案例1“Dolittle博士的《嘎巴布書》新譯本:休·洛夫廷(Hugh Lofting)的系列特別版(Shoichiro Kawai翻譯)”為例。由于該案例非常具體,具體到了作者、書籍名、譯者和版本等,所以其檢索結(jié)果的準確性也很高。檢索結(jié)果“933/美國文學(xué)—小說物語”的置信度為0.998。置信度在0~1之間,數(shù)值越大表明準確性越高。
MIMA搜索是NDL Lab為讀者提供的一種搜索和可視化系統(tǒng)[21],包含了日本國立國會圖書館92萬項書目信息和71萬項目錄信息,通過這些文檔的語義關(guān)系而進行數(shù)據(jù)挖掘和可視化展示。MIMA搜索檢索到文檔的結(jié)果一般由帶有“點”和“線”的圖形結(jié)構(gòu)表示。文檔之間的語義關(guān)系越強,它們將越靠近圖放置,反之則更遠,以可視化的圖像直觀地理解文檔之間的關(guān)系。本次研究以“人工智能”為關(guān)鍵詞,在MIMA的搜索結(jié)果如圖2所示。從圖2可知,在MIMA搜索系統(tǒng)中形成了7大與人工智能相關(guān)的群組,其中圖形最大的是與“智能檢查”有關(guān)。
圖2 以“人工智能”為關(guān)鍵詞在MIMA的搜索結(jié)果
除了圖形展示,MIMA還提供了作者、出版地、出版年份、出版機構(gòu)、語言分類等多種分類方式,讀者可以根據(jù)自己的需要進行精煉并形成相應(yīng)的可視化圖形。
(1)聯(lián)合錄入。Hoso-Digi[22]是NDL Lab推出用于聯(lián)合錄入和文本校對進入公眾領(lǐng)域的圖書。該系統(tǒng)由隸屬于日本數(shù)字人文學(xué)會(Japanese Association for Digital Humanities,簡稱JADH)的子委員會SIGTranscribe JP的長崎實驗室人文與信息科學(xué)研究所首席研究員開發(fā)。Hoso-Digi旨在通過眾包的方式,讓許多參與者輸入和校對文本,從而提高NDL Lab讀者的便利性。目前Hoso-Digi已經(jīng)在“下一代數(shù)字圖書館”中進行應(yīng)用。
(2)圖像提取。Kokudeco Image Wall[23]也是長崎實驗室人文與信息科學(xué)研究所首席研究員開發(fā),支持讀者將圖片和圖表從日本國立國會圖書館數(shù)字館藏的頁面中提取出來,并形成縮略圖。在該縮略圖中有該書面的簡要介紹及原文獲取的相關(guān)鏈接。截至2019年3月,在Kokudeco Image Wall系統(tǒng)中已注冊了2 002卷(22 321例)數(shù)據(jù)。
(3)關(guān)聯(lián)搜索服務(wù)。為了讓讀者能獲取更多的文獻,NDL Lab推出了國家信息學(xué)研究所特聘副教授安部武史(Takeshi Abe)開發(fā)的電子閱讀支持系統(tǒng)[24],支持將來自于維基百科等非NDL自身擁有的信息源的相關(guān)參考信息推送給讀者。該系統(tǒng)通過OCR軟件識別處理錯誤信息,并通過人工更正錯誤,從而支持閱讀功能正常運行。
人工智能在圖書館的應(yīng)用最為常見的是智能設(shè)備的投入,如圖書排架機器人、智能咨詢機器人等。但日本國立國會圖書館非常重視在數(shù)字圖書館建設(shè)中應(yīng)用人工智能技術(shù),并于2011年就開始嘗試,2013年更是設(shè)立專門機構(gòu)NDL Lab,從而大力促進人工智能技術(shù)的應(yīng)用。NDL Lab在近7年的時間里取得了“下一代數(shù)字圖書館”、NDC預(yù)測器、MIMA搜索等有代表性的人工智能技術(shù)成果。由于人工智能技術(shù)在研發(fā)和應(yīng)用過程中會出現(xiàn)許多不確定性,可能會給圖書館帶來技術(shù)、法律和道德風(fēng)險,故日本國立國會圖書館通過成立NDL Lab進行人工智能技術(shù)研發(fā)是非常有必要的。人工智能技術(shù)在NDL Lab應(yīng)用成熟之后,再將其推廣到現(xiàn)有的數(shù)字圖書館系統(tǒng)中。NDL Lab幫助日本國立國會圖書館提高了數(shù)字圖書館的搜索水平,豐富了讀者的搜索結(jié)果。
①為了提高可搜索性,NDL Lab在“下一代數(shù)字圖書館”中使用了OCR技術(shù),從而幫助讀者能進行全文搜索。②為了提升讀者的圖像搜索準確性,NDL Lab通過深度學(xué)習(xí)方法DeepLab V3+,首先提取讀者提供的圖像領(lǐng)域,再通過相似度和分辨率進行快速匹配,從而實現(xiàn)圖像的自動剪切搜索技術(shù)。③“下一代數(shù)字圖書館”中的書籍都是進入公共領(lǐng)域的,年代久遠,故存在變色而難以讀取的難題。為了解決這個問題,NDL Lab通過深度學(xué)習(xí)方法pix2pix對原圖進行矯正而獲得白度圖像,從而提升了圖像的可讀性。④日本國立國會圖書館的數(shù)字館藏通常采用縱向布局的數(shù)字化資料,但不適合智能手機和平板電腦終端使用。為了適合智能終端上查看圖像,NDL Lab使用語義分割方法在展開位置自動分割,逐頁顯示,并自動刪除多余的背景,因此圖像會顯示出更大的尺寸,從而自動適應(yīng)智能終端設(shè)備。
NDL Lab通過“NDL數(shù)字圖書館咖啡廳”和“城市數(shù)據(jù)挑戰(zhàn)賽”兩種活動,促使更多人使用日本國立國會圖書館的數(shù)字資源。
(1)“NDL數(shù)字圖書館咖啡廳”。為了加強公共圖書館與科研人員、讀者的聯(lián)系,也為了將日本國立國會圖書館的各項數(shù)字資源得到充分的利用,NDL Lab于2016年以講座的形式推出“NDL數(shù)字圖書館咖啡廳”。該講座每次僅限20個人參與,受到日本高校和科研機構(gòu)的歡迎。自2016年以來,NDL Lab每年都舉辦“NDL數(shù)字圖書館咖啡廳”,舉辦次數(shù)從2016年的一年一次增加到一年兩次?!癗DL數(shù)字圖書館咖啡廳”主要探索數(shù)字圖書館相關(guān)的研究和最新趨勢,并介紹NDL的最新發(fā)展技術(shù)等。
(2)城市數(shù)據(jù)挑戰(zhàn)賽。為了讓日本國立國會圖書館的數(shù)據(jù)能夠在各個領(lǐng)域得到利用,日本國立國會圖書館于2019年舉辦了城市數(shù)據(jù)挑戰(zhàn)賽,以期利用開放數(shù)據(jù)解決區(qū)域性問題,并得到了京都市政府的大力支持。城市數(shù)據(jù)挑戰(zhàn)賽的數(shù)據(jù)來源廣泛,具體包括日本國立國會圖書館提供的“參考協(xié)作數(shù)據(jù)庫”中注冊的圖書館和檔案館、相關(guān)地方政府發(fā)布的數(shù)據(jù)、相關(guān)門戶網(wǎng)站提供的圖文博檔單位。日本國立國會圖書館希望參與者能通過這些數(shù)據(jù)解決實際問題。
NDL Lab無論是人工智能研發(fā),還是活動舉辦都有不少強有力的合作伙伴。在人工智能研發(fā)方面,NDL Lab分別與Facebook、JADH、國家信息學(xué)研究所等合作,分別推出NDC預(yù)測器、聯(lián)合錄入、圖像提取和關(guān)聯(lián)搜索等服務(wù)。在活動舉辦方面,與京都市政府合作進行城市數(shù)據(jù)挑戰(zhàn)賽,并與其他機構(gòu)推出各種開放數(shù)據(jù)挑戰(zhàn)賽??梢娕c其他機構(gòu)進行人工智能服務(wù),不僅可以實現(xiàn)技術(shù)上的強強聯(lián)合,還能降低活動經(jīng)費,從而達到雙贏局面。
在我國圖書館發(fā)展中,數(shù)字圖書館建設(shè)顯得越來越重要,特別是高校圖書館越來越重視數(shù)字圖書館建設(shè)。越來越多圖書館愿意投入更多的經(jīng)費購買數(shù)字資源。但在圖書館人工智能服務(wù)方面,我國圖書館更多是停留在購買智能硬件設(shè)備輔助圖書館進行讀者咨詢、圖書盤點等工作,減少圖書館工作人員的工作量。在我國,將人工智能技術(shù)應(yīng)用到數(shù)字圖書館建設(shè)中的案例并不多。2017年武漢大學(xué)與百度合作建設(shè)人工智能圖書館,包括了智能檢索和數(shù)據(jù)追蹤等技術(shù)[5]。
數(shù)字圖書館建設(shè)對于我國圖書館的發(fā)展顯得越來越重要。所以我國圖書館應(yīng)重視人工智能技術(shù)在數(shù)字圖書館中的應(yīng)用。全文搜索與圖像搜索是提升讀者搜索體驗的重要途徑。NDL Lab通過多種機器學(xué)習(xí)方法實現(xiàn)了自動剪切搜索、圖像白度美化處理、智能終端屏幕自適應(yīng)等功能,提升了讀者的資源可獲取性和搜索體驗。目前我國圖書館的數(shù)字資源普遍通過采購的形式而獲得,缺少自主研發(fā),且對全文搜索及多種圖像搜索技術(shù)也相對不足。所以我國有條件的圖書館可在技術(shù)部門的基礎(chǔ)上成立人工智能實驗室,嘗試將人工智能技術(shù)應(yīng)用到數(shù)字圖書館建設(shè)中。同時應(yīng)謹慎處理可能面臨的法律、道德和技術(shù)風(fēng)險,待各方面成熟之后再推向讀者。
圖書館人工智能建設(shè)的目的在于讓更多的讀者了解并使用這些技術(shù),從而發(fā)揮其價值。正所謂建設(shè)是為了利用,NDL Lab為了促進數(shù)據(jù)和服務(wù)的使用打造了“NDL數(shù)字圖書館咖啡廳”和“城市數(shù)據(jù)挑戰(zhàn)賽”兩個活動品牌。為了促進數(shù)據(jù)和服務(wù)利用,我國圖書館可在以下渠道進行推廣:一是通過官網(wǎng)、微信公眾號、微博、抖音短視頻等渠道向讀者公布最新的數(shù)據(jù)資源及人工智能服務(wù)進展情況;二是定期開展人工智能論壇,邀請相關(guān)專家學(xué)者,并組織感興趣的讀者參與,形成品牌效應(yīng);三是與高校的大數(shù)據(jù)、人工智能等相關(guān)專業(yè)合作,聯(lián)合舉辦數(shù)據(jù)使用大賽,讓讀者了解數(shù)據(jù),并掌握數(shù)據(jù)解決問題。
人工智能是未來圖書館發(fā)展的主要趨勢,已經(jīng)得到了廣泛的認可。圖書館人工智能建設(shè),需要大量的經(jīng)費和技術(shù)投入。
在技術(shù)投入方面,圖書館可能相對欠缺,需要外部技術(shù)支持。如NDL Lab就借助了Facebook、JADH、國家信息學(xué)研究所等的技術(shù)力量,聯(lián)合開發(fā)人工智能技術(shù)。我國圖書館可嘗試與百度、騰訊和阿里巴巴聯(lián)合開發(fā)數(shù)字圖書館中的人工智能技術(shù),百度和武漢大學(xué)圖書館的合作就是個很好的案例。圖書館人工智能有助于數(shù)字人文建設(shè),故圖書館也可爭取數(shù)字人文工作人員共同研發(fā)人工智能技術(shù)。除了加強外部合作外,我國圖書館的技術(shù)人員應(yīng)掌握人工智能技術(shù)前沿及發(fā)展趨勢,讓圖書館人工智能發(fā)展與時俱進。
在經(jīng)費投入方面,圖書館需要投入不少的經(jīng)費用于設(shè)備采購、技術(shù)研發(fā)和活動推廣。為了減少圖書館在人工智能方面的經(jīng)費壓力,我國圖書館也可加強外部合作。如在設(shè)備采購方面,圖書館可爭取智能終端廠商以提供產(chǎn)品免費展覽為由,降低產(chǎn)品的采購價格,甚至讓廠商贈送該產(chǎn)品;在技術(shù)研發(fā)方面,圖書館可爭取與外部機構(gòu)進行聯(lián)合開發(fā),知識產(chǎn)權(quán)共同所有;在活動推廣方面,圖書館可爭取相關(guān)的機構(gòu)聯(lián)合開展。如NDL Lab的“城市數(shù)據(jù)挑戰(zhàn)賽”獲得了京都市政府的支持。我國圖書館也可邀請相關(guān)的政府機構(gòu)或者智能終端廠商、數(shù)字圖書館供應(yīng)商在活動推廣時進行相應(yīng)的贊助活動,從而降低圖書館人工智能活動推廣經(jīng)費壓力。
日本國立國會圖書館非常重視對進入公有領(lǐng)域文獻的開發(fā)利用。NDL Lab開發(fā)的“下一代數(shù)字圖書館”、NDC預(yù)測器、Hoso-Digi等服務(wù)都是面向進入公有領(lǐng)域的文獻。進入公有領(lǐng)域的文獻不會產(chǎn)生知識產(chǎn)權(quán)問題,同時也是人類文明智慧的產(chǎn)物。我國擁有幾千年的歷史文明,擁有豐富的進入公有領(lǐng)域的文獻。所以我國圖書館非常有必要對進入公有領(lǐng)域的文獻進行開發(fā),并通過人工智能技術(shù)加強這些文獻的使用。有些圖書館通過數(shù)字人文技術(shù)將古籍文獻進行開發(fā)利用,如上海圖書館開發(fā)了數(shù)字人文項目的開放數(shù)據(jù)平臺,以家譜、手稿檔案、古籍等創(chuàng)建文獻知識庫。在對進入公有領(lǐng)域文獻的開發(fā)利用過程中,不僅可使用數(shù)字人文技術(shù),也可如NDL Lab那樣使用人工智能技術(shù)。
圖書館人工智能實驗室具有平臺優(yōu)勢,可吸引國內(nèi)外人工智能機構(gòu)、專家學(xué)者共同參與,提升圖書館人工智能服務(wù)水平。我國圖書館可根據(jù)實際情況,在創(chuàng)客空間和數(shù)字人文中心等基礎(chǔ)上摸索出適合圖書館自身的人工智能服務(wù)發(fā)展路徑。