石博文
人工智能(AI)是研究用計算機來模仿人腦所從事的推理、證明、識別、學習、思考等活動的理論、方法和技術,被工業(yè)界稱為第四次工業(yè)革命。近年來,隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等的發(fā)展,各大科技巨頭公司都在布局人工智能,許多領域都在尋找突破口,對AI的研究和應用如火如荼。本文在分析人工智能發(fā)展情況的基礎上,研究了AI在數(shù)字檔案館中的應用,并對人工智能時代數(shù)字檔案館的發(fā)展進行了思考。
一、人工智能蓬勃發(fā)展
(一)人工智能發(fā)展概況
1956年在美國的達特茅斯大學召開的學術研討會中提出了“人工智能”這一術語,標志著這門學科的正式誕生。人工智能的發(fā)展先后經(jīng)歷了三次熱潮:二十世紀五六十年代,以圖靈測試為標志,人工智能在研究者中掀起第一次熱潮;二十世紀八九十年代的第二次熱潮中,語音識別是最具代表性的突破性進展之一;2006年至今,深度學習攜手大數(shù)據(jù)引領第三次AI浪潮,深度學習成為至今乃至未來很長一段時間引領人工智能發(fā)展的核心技術。
進入21世紀后,許多國家都在積極探索人工智能。2016年10月,美國白宮科技政策辦公室發(fā)布題為Preparing for the Future of Artificial Intelligence和The National Artificial Intelligence Research and Development Strategic Plan兩份報告;英國也發(fā)布了Artificial Intelligence: opportunities and implications for the future of decision making(2016)等報告,兩國均將人工智能發(fā)展列為國家核心戰(zhàn)略。我國目前也在致力于人工智能的研究。2017年3月,人工智能首次被寫入全國政府工作報告,指出要加快培育壯大包括人工智能在內的新興產(chǎn)業(yè),中國人工智能迎來真正的新元年。7月,國務院印發(fā)《新一代人工智能發(fā)展規(guī)劃的通知》,提出“把人工智能發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動謀劃”,這是首部國家層面的人工智能發(fā)展規(guī)劃。2018年,人工智能再次被寫入政府工作報告,同樣是寫進政府工作報告,但與2017年不同的是提出了“加強新一代人工智能研發(fā)應用”。
(二)人工智能研究的基本內容
人工智能研究涉及內容廣泛,包括“知識表示、搜索技術、機器學習、求解數(shù)據(jù)和知識不確定性問題的各種方法等?!彪S著人工智能理論研究的發(fā)展和成熟,人工智能的應用領域更加寬廣,應用的效果也更加顯著。人工智能的應用領域則包括專家系統(tǒng),如診斷和治療細菌感染疾病的咨詢系統(tǒng)MYCIN、修理原油儲油槽之專家系統(tǒng)SECOFOR、制造和運輸行程安排的專家系統(tǒng)ISA、探礦專家系統(tǒng)PROSPECTOR等;自然語言處理,自然語言處理技術包括機器翻譯、自然語言理解、文字識別、文字碼等;人工神經(jīng)網(wǎng)絡,在信息領域中的應用體現(xiàn)在信息處理、模式識別等方面,其中模式識別近些年被廣泛應用到指紋識別、遙感圖像識別、手寫字符識別、人臉識別等方面;自動定理證明,其理論價值和應用范圍不局限于數(shù)學領域,如醫(yī)療診斷、信息檢索、規(guī)劃制定和難題求解等都可以轉化為相應的定理證明問題;機器人,如亞馬遜公司的倉儲機器人、專門遞送包裹的無人機、教育機器人和家庭機器人等。
人工智能已深入各行各業(yè),包括交通、金融、教育、醫(yī)療等領域,并發(fā)展成為行業(yè)熱點。許多行業(yè)面臨著智能化轉型的迫切需要,檔案館也不例外。如何抓住人工智能發(fā)展機遇,打造新時代智慧檔案是檔案館必須要思考的問題。2018年4月,國家檔案局科研所與科大訊飛簽署全面戰(zhàn)略合作協(xié)議,雙方將利用人工智能打造智慧檔案并成立聯(lián)合實驗室,共同構建新型人工智能智慧檔案行業(yè)標準,共同推動人工智能技術在檔案管理中的應用,共同打造“檔案超腦”新業(yè)態(tài)。這是檔案領域對人工智能時代做出的一次積極回應,“檔案事業(yè)從此進入人工智能的新時代”。
二、人工智能在數(shù)字檔案館中的應用
AI在數(shù)字檔案館的中可應用的技術包括自然語言處理、模式識別、專家系統(tǒng)、模糊邏輯等,可應用領域分布在檔案的收集、整理、存儲、利用等環(huán)節(jié)。
(一)檔案收集
除接收常規(guī)電子檔案外,網(wǎng)絡采集與獲取的數(shù)字檔案信息資源至關重要,是對數(shù)字檔案館館藏的有效補充。而網(wǎng)絡信息資源的采集和獲取就需要智能Agent技術,我們所熟知的谷歌爬蟲和百度蜘蛛就采用了這一技術。通過智能Agent,采集分布在其他數(shù)字檔案館、政府信息資源庫、行業(yè)數(shù)據(jù)庫、網(wǎng)站的數(shù)字檔案信息,捕獲具有地方特色的檔案和關系公眾利益的民生檔案等,以豐富館藏內容,優(yōu)化館藏結構。
(二)檔案整理
智能OCR識別。檔案全文數(shù)據(jù)庫是數(shù)字檔案館資源建設的主體,而庫內檔案信息資源并非數(shù)字化檔案的簡單堆積,而是應能對檔案內容進行引用、檢索等操作。因此,對傳統(tǒng)形式檔案進行數(shù)字化加工后,還必須將其轉化為真正文本形態(tài)的電子檔案。光學字符識別(OCR)技術可將圖片、照片上的文字內容直接轉換為可編輯的文本,但傳統(tǒng)OCR僅適用于經(jīng)過嚴格排版的文字,而對于不太規(guī)整的手寫卷宗則難以識別。但通過人工神經(jīng)網(wǎng)絡的輔助,可以對手寫字體和數(shù)字等進行識別。梵蒂岡秘密檔案館(Vatican Secret Archives)的Codice Ratio項目,就是利用人工智能和OCR軟件的組合對館內手寫古文進行識別,且該軟件手寫字母識別準確率已達96%。
檔案著錄和標引。檔案著錄是在編制檔案目錄時,對檔案文件的分類號、主題詞、摘要、時間、檔號、文種等記錄項進行分析和揭示的過程;檔案標引是賦予檔案規(guī)范化檢索標識的過程。檔案著錄和標引是輔助檢索的重要手段,是編制檔案檢索工具和建立檔案數(shù)據(jù)庫的前提。但大數(shù)據(jù)時代的到來,給人工進行檔案著錄標引帶來了巨大的工作量和壓力。人工智能就能夠幫助人類緩解這一工作壓力,通過對檔案中的人名、地名、時間等進行自動識別,提取著錄標引信息,形成檔案目錄,甚至編制檔案摘要。
(三)檔案存儲
智能檔案實體存儲。檔案館庫是傳統(tǒng)檔案存儲的“棲身之所”,也是數(shù)字檔案資源保存的“母體”;此外,用戶對館舍空間體驗的要求越來越高。因此,隨著人工智能技術和物聯(lián)網(wǎng)技術的發(fā)展,建設數(shù)字檔案館智能化建筑具有必要性和可行性。數(shù)字檔案館館舍建筑智能化包括兩部分:一是內部設施物聯(lián)化。首先,通過物聯(lián)網(wǎng)技術,將檔案館內資源進行預先定義、感知和采集,為智能化管理打下基礎。其后,借助人工智能語音識別、視頻識別技術進行情景感知信息的收集,再通過信息收集后的數(shù)據(jù)挖掘技術,實現(xiàn)對館舍資源的控制和調配,如檔案工作者可通過智能手機來對所查檔案進行定位。二是建筑系統(tǒng)智能化,包括智能照明系統(tǒng)、智能通風系統(tǒng)、智能消防系統(tǒng)、智能安保系統(tǒng)、智能溫濕度控制系統(tǒng)等。例如,采用機器視覺技術,包括聲音識別、指紋識別、虹膜識別等智能識別技術建立起的智能安防系統(tǒng),為檔案實體安全存儲提供保障。
檔案信息安全智能保護。檔案安全存儲不僅包括檔案實體的安全,還包括檔案信息安全;而人工智能技術又能為檔案信息安全提供保障,這體現(xiàn)在智能防火墻和智能入侵檢測技術在數(shù)字檔案館中的應用上。智能防火墻技術“從技術特征上,是利用統(tǒng)計、記憶、概率和決策的智能方法來對數(shù)據(jù)進行識別,并達到訪問控制的目的?!痹摷夹g能識別進入數(shù)字檔案館的惡意流量數(shù)據(jù),能阻斷病毒惡意傳播,并對檔案館內部局域網(wǎng)進行監(jiān)控和管理。智能入侵檢測技術引入了AI領域的專家系統(tǒng)、人工神經(jīng)網(wǎng)絡、數(shù)據(jù)挖掘等技術,以此對惡意入侵進行有效監(jiān)控和阻斷。
(四)檔案利用
谷歌很早就開始用機器學習技術幫助搜索引擎完成結果排序,計算網(wǎng)頁排序的數(shù)學模型及模型中的每一個參數(shù)不完全是由人預先定義的,而是由計算機在大數(shù)據(jù)的基礎上,通過復雜的迭代過程自動學習得到的。谷歌搜索已經(jīng)是一個絕大部分由人工智能技術支撐的新一代搜索引擎。近年來,隨著語言識別、自然語言理解、知識圖譜、個性化推薦、網(wǎng)頁排序等技術在谷歌、百度等搜索引擎的應用,他們已經(jīng)成為世界上最大的知識引擎和個人助理。
本文認為商業(yè)搜索引擎成功的案例值得數(shù)字檔案館借鑒,數(shù)字檔案館可以將機器學習、自然語言理解、專家系統(tǒng)、語言識別等技術應用到檢索工作中,打造智能化、個性化、交互式的檢索工具,實現(xiàn)以下功能:一是拓展檔案資源搜索數(shù)據(jù)來源,打破數(shù)字檔案館之間、與其他信息機構間和網(wǎng)絡信息資源之間的鴻溝,并突破語言限制。二是實現(xiàn)檔案搜索智能問答,借助機器學習,把搜索查詢轉化為可回答問句的交互形式,提升交互效果;三是優(yōu)化文獻資源利用搜索呈現(xiàn)技術,通過深度學習算法,實現(xiàn)對用戶屬性、狀態(tài)、興趣等信息的判斷,借助知識圖譜,為用戶推送感興趣的檔案信息,使搜索結果更加人性化,為用戶提供更好的查檔體驗。
三、人工智能時代數(shù)字檔案館發(fā)展的思考
(一)檔案工作者的未來發(fā)展
創(chuàng)新工廠創(chuàng)始人李開復曾提出“五秒鐘準則”,即“一項本來由人從事的工作,如果人可以在5秒鐘以內對工作中需要思考和決策的問題做出相應的決定,那么,這項工作就有非常大的可能被人工智能技術全部或部分取代?!奔毤毾雭恚F(xiàn)在的檔案工作大部分具有機械性、可重復性,被取代的概率很高。檔案工作者應該具有“危機意識”,需不斷進行繼續(xù)教育和自我提升,提高檔案人員在工作中的知識含量和腦力運用,使自身成為不可或缺的人才。一是培養(yǎng)自身創(chuàng)新意識。李彥宏曾說:“人工智能時代需要更有創(chuàng)意的人才。” “五秒鐘準則” 并不意味著所有“5秒”以內的工作將被取代,相反,很多工作將會轉變?yōu)樾碌墓ぷ鳈C會。人工智能時代檔案事業(yè)的發(fā)展需要具有創(chuàng)新和學習能力的人才,需要檔案人員在新的工作機會下提供更多創(chuàng)意。二是提高自身數(shù)據(jù)素養(yǎng)。人工智能迅速發(fā)展的基礎是大數(shù)據(jù),只有在大數(shù)據(jù)的支撐下人工智能才能發(fā)揮作用。對檔案工作者來說,保持數(shù)據(jù)敏感性,掌握大數(shù)據(jù)收集、分析、處理和利用大數(shù)據(jù)進行決策的能力,是提高自身含金量的方法。
(二)利用服務的變革
人工智能時代,檔案工作者不進行自我改進和提升,就極有可能被取代;而數(shù)字檔案館不對利用服務進行創(chuàng)新和變革,就有可能被邊緣化,甚至走向消亡。人工智能技術在檔案利用服務變革中的作用體現(xiàn)在以下:一是開展精準的智能信息服務。數(shù)字檔案館可基于大數(shù)據(jù)對用戶信息進行收集,獲取檔案用戶的信息利用興趣、習慣、專業(yè)領域等內容,通過模糊邏輯,向用戶進行精準、個性化、高質量地知識推送。如2017年兩會期間光明日報推出的人工智能融媒體產(chǎn)品“小明AI兩會”,用戶只要用手機拍一張全國兩會代表委員的照片,小明就能識別出照片的身份信息,并以人物圖譜的形式,展示與其關注同樣領域的其他代表委員。二是通過人工智能產(chǎn)品,如機器人提供參考咨詢等服務。機器人技術基于機器學習和自然語言處理,這種目前已應用于商業(yè)和圖書館領域的機器人可以為數(shù)字檔案館進行館內導航和提供參考咨詢服務。如甘肅敦煌市圖書館2017年引進的機器人“小圖”,不僅可以幫助讀者搜索書籍、詢問館藏,而且可與用戶進行聊天、講笑話、跳舞唱歌等互動。2015年義烏市檔案館也引進了機器人,用以講解侵華日軍細菌戰(zhàn)罪行及“義烏兵抗倭”的故事,但功能較少。數(shù)字檔案館可以學習圖書館的相關經(jīng)驗,引入人工智能產(chǎn)品,提升服務質量。
總之,隨著社會與科學技術的不斷進步,人工智能將滲入到我們工作和生活的各個方面。人工智能正迅速與工業(yè)、商業(yè)、金融業(yè)、服務業(yè)等行業(yè)融合,推動經(jīng)濟和社會不斷演變。人工智能時代,數(shù)字檔案館應當不斷進行技術創(chuàng)新,將人工智能與數(shù)字檔案館融合,真正實現(xiàn)“AI+數(shù)字檔案館”,創(chuàng)造數(shù)字檔案館新的發(fā)展生態(tài)。
(作者單位:上海海關學院)