• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      新一代信息技術在檔案工作中的運用及啟示
      ——以歐盟“時光機”項目為例

      2022-11-22 21:21:13程妍妍李劍鋒國防大學政治學院
      浙江檔案 2022年4期
      關鍵詞:檔案館時光數(shù)字化

      程妍妍 李劍鋒 孫 筠/國防大學政治學院

      “時光機”項目(Europe Time Machine)是歐盟耗資100萬歐元,未來十年重點發(fā)展的六個旗艦研究項目之一,將為歐盟在全球技術競賽中創(chuàng)造競爭優(yōu)勢。作為項目的主要發(fā)起方和參與方之一,檔案機構(gòu)不僅負責提供歷史檔案數(shù)據(jù),也發(fā)揮提供領域知識模型、技術驗證的作用。本文一方面研究該項目信息技術在檔案工作中的應用,另一方面也探討信息技術應用對檔案工作帶來的影響和啟示,以期對我國檔案工作在未來社會的定位和發(fā)展提供思路和借鑒。

      1 “時光機”項目發(fā)展概況

      2019年,歐盟“時光機”項目正式啟動,該項目對加強歐洲的凝聚力、經(jīng)濟和社會發(fā)展產(chǎn)生強烈、長期和積極的影響,為促進各級決策層批判性思維形成、加強歐洲集體認同感以及提高科技競爭力作出突出貢獻,并促進整個歐盟知識密集型和創(chuàng)意部門的創(chuàng)業(yè)和就業(yè)。項目目標是使用最先進的信息技術挖掘歐洲海量的文化遺產(chǎn),創(chuàng)建一個合作性的數(shù)字信息系統(tǒng),描繪歐洲經(jīng)濟、社會、文化和地理跨時代的演變,并向各領域提供免費的信息利用,支持未來科學和技術發(fā)展。項目應用大規(guī)模計算和數(shù)字化基礎設施,從復雜的歷史檔案中抽取信息,如將中世紀的手稿和歷史檔案轉(zhuǎn)化為可用的知識,并采用地理數(shù)據(jù)可視化和在線地圖構(gòu)建技術展現(xiàn)出歐洲發(fā)展歷程。該項目指出,項目成果將是人類對歷史和未來進行新的批判性思考的關鍵資源,能夠進一步提升人類對歷史的理解程度,“給歷史增加新的維度”[1],能夠為歷史學家、政策制定者和公眾提供新的見解,有助于從日常生活到學術、專業(yè)領域和政治事務的決策制定。項目參與方包括40多個城市的600多家機構(gòu),主要有提供數(shù)據(jù)資源的機構(gòu),如博物館、檔案館、圖書館等,以及提供高新信息技術的企業(yè)等,其中參與的檔案機構(gòu)包括法國國家檔案館、日內(nèi)瓦國家檔案館、巴黎檔案館、安特衛(wèi)普市檔案館、克拉根福檔案館等。

      2 “時光機”項目技術的檔案應用

      “時光機”項目應用了一系列前沿信息技術,特別是基于醫(yī)學斷層掃描的檔案數(shù)字化、機器學習為代表的人工智能技術等的深度應用,檔案機構(gòu)是信息技術應用最大的受益者之一,既提升了效率,也開拓了前所未有的想象空間。從“時光機”項目在歐盟各檔案機構(gòu)的應用實踐來說,這些信息技術主要應用于檔案資源數(shù)字化與識別、檔案資源數(shù)據(jù)挖掘與關聯(lián)、檔案資源利用與呈現(xiàn)等。其中檔案資源的數(shù)字化只是第一步,數(shù)字化之后必須進行文檔的識別與轉(zhuǎn)錄、文檔的組件提取、實體消歧義、知識組織與提取以及圖像檢索、增強/虛擬現(xiàn)實(AR/VR)呈現(xiàn)利用、地理數(shù)據(jù)整合等一系列工作。

      2.1 檔案資源數(shù)字化與識別技術

      “時光機”項目的重要工作之一就是對歷史檔案材料的數(shù)字化,從目前歐盟各國數(shù)字化進度來看,進展緩慢。如芬蘭國家檔案館目前只有4%的檔案材料進行數(shù)字化[2],按照目前的數(shù)字化速度,這項工作將需要200年,其他國家也不同程度的存在類似問題。因此,“時光機”項目的首要任務是應用新技術加速數(shù)字化,并處理數(shù)字化后的海量數(shù)據(jù)。該項目一是采用新型檔案數(shù)字化技術。傳統(tǒng)檔案數(shù)字化工作采用掃描儀等設備完成,該項目可以在無需打開歷史檔案的情況下,對檔案進行掃描識別。如項目參與者瑞士洛桑理工學院和威尼斯佛斯卡里大學合作研究一種類似于醫(yī)學X射線斷層掃描的數(shù)字化方法[3],該方法首先對歷史檔案的書寫成分進行分析,歷史檔案的書寫字跡主要使用鐵和碳元素,使用X射線層析成像技術(X-ray tomography)對這些特殊成分進行掃描成像,從投影圖像集中逐頁提取信息,形成掃描圖像。這種方法保護珍貴易損的歷史檔案,成本低速度快,有廣闊應用前景。如威尼斯檔案館中有數(shù)十萬封古老材料制成的遺囑檔案,傳統(tǒng)掃描會損壞檔案,應用該掃描技術有效防止風險;又如芬蘭商業(yè)文件中心檔案館應用該技術對館藏100年前的古老檔案進行數(shù)字化。二是采用基于卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡的深度學習方法對手寫文本自動識別轉(zhuǎn)錄[4],如該項目對威尼斯國家檔案館數(shù)百萬張數(shù)字化的18世紀財政文件進行自動識別轉(zhuǎn)錄。首先檔案專家花了2年的時間用于圖像注釋,人工轉(zhuǎn)錄形成23000余張圖像片段,這些圖像中包含55000個威尼斯人名和地名,然后將帶注釋的數(shù)據(jù)集用來訓練和測試深度學習體系結(jié)構(gòu),最終計算機自動轉(zhuǎn)錄研究搜索用例的性能水平大約是90%的字符正確率,與人工轉(zhuǎn)錄相比,計算機在這項轉(zhuǎn)錄任務中的表現(xiàn)優(yōu)于人工。

      2.2 檔案資源數(shù)據(jù)挖掘與關聯(lián)技術

      “時光機”項目對歷史檔案數(shù)字化后形成大量圖像文檔,將這些數(shù)字化圖像轉(zhuǎn)換為結(jié)構(gòu)化、鏈接關系的數(shù)據(jù)并不簡單,需要采用一系列方法。在這方面,該項目主要應用了以下技術:一是文檔組件提取分割技術。項目參與者瑞士洛桑理工學院的數(shù)字人文實驗室開發(fā)名為dhSegment文檔分割通用深度學習框架[5]用于歷史檔案處理,依靠卷積神經(jīng)網(wǎng)絡預測像素特征,提供圖像處理操作自動提取文檔組件,如文檔框、多邊形、線條、蒙版等。二是稀疏歷史數(shù)據(jù)關聯(lián)技術[6]。項目重點研究了人物實體記錄鏈接系統(tǒng),將多個涉及同一人物實體的多個歷史文檔相互關聯(lián)。在這個過程中,需要進行實體消歧義、實體鏈接、識別人物實體、聚合實體的多源信息等工作,最后重建關于該實體的文檔網(wǎng)絡。如當檔案館的多份檔案中涉及到同一個人物實體時,可以將這個人視為是網(wǎng)絡中的一個節(jié)點,當同一個文檔中存在多個人物實體時,可以視為這些人物實體之間存在關聯(lián),通過分析這種關聯(lián),網(wǎng)絡節(jié)點不斷增多,開始成長為一個巨大的網(wǎng)絡,就像科學家從 Facebook 或 Twitter 數(shù)據(jù)中繪制社交網(wǎng)絡一樣。這個網(wǎng)絡可以幫助歷史學家發(fā)現(xiàn)大量隱藏在檔案信息中的人物實體的關系、生活細節(jié)以及社會地位等信息。又如該項目在芬蘭國家檔案館開展的WarSampo子項目,為86萬用戶提供有關二戰(zhàn)歷史的開放數(shù)據(jù)服務。該項目使用關聯(lián)數(shù)據(jù)技術從多樣化數(shù)據(jù)源中將已故軍人實體和其所在的作戰(zhàn)區(qū)域、軍事單位、作戰(zhàn)事件等數(shù)據(jù)進行關聯(lián),可以自動重組二戰(zhàn)軍人的生活故事。數(shù)據(jù)源包括美國國家檔案館中約26000份原始戰(zhàn)爭日記、與日記相關的約10000個軍事單位的活動信息、數(shù)千篇關于戰(zhàn)爭回憶錄的雜志文章、16萬張真實照片檔案等。用戶既可以尋找在戰(zhàn)爭中已故軍人的信息,也可以在歷史地圖中瀏覽和該名軍人相關的作戰(zhàn)區(qū)域、軍事單位等相關信息。三是元知識編碼技術。歷史知識從根本上是不確定的,對歷史事件的特定描述通常是基于一系列的來源和基于這些來源的一系列解釋和推理形成的。項目采用語義網(wǎng)絡技術對歷史知識進行編碼,同時詳細記錄將歷史來源與給定編碼關聯(lián)起來的知識序列。

      2.3 檔案資源利用與呈現(xiàn)技術

      該項目提供圖像檢索和地理信息時間線展示等各類利用方式。一是歷史照片檔案檢索利用技術[7]。照片檔案是社會歷史的快照,是人類視覺記憶的寶庫,構(gòu)成了價值無法估量的文化資產(chǎn)。檔案機構(gòu)的主要任務是保護這些文化資產(chǎn)并將其傳播。照片檔案傳統(tǒng)檢索方式是對照片著錄信息進行檢索,檢索效果有限。利用“時光機”項目,第一創(chuàng)建新工具,幫助檔案工作者完成新照片數(shù)據(jù)的分類、注釋和索引任務;第二應用人工智能,提出在照片檔案檢索中將搜索范式從基于關鍵字轉(zhuǎn)向基于語義。如該項目對威尼斯Cini基金會約100萬張照片檔案(1300—1900年)進行數(shù)字化并創(chuàng)建專用檢索工具,使用卷積神經(jīng)網(wǎng)絡(CNN)深度學習方法,將圖像數(shù)據(jù)庫的每一幅畫與1000個特征相關聯(lián),這些特征代表能夠?qū)?jīng)過訓練的卷積神經(jīng)網(wǎng)絡的卷積層。每幅畫與高維空間中的一個點相關聯(lián),當一個圖像查詢被發(fā)送到搜索引擎時,按照它們與查詢的距離進行結(jié)果排序。在檢索出相似結(jié)果時,再采用代數(shù)公式運算精確圖像查詢結(jié)果。又如巴塞羅那自治大學計算機視覺中心參與的深度檔案館(Deep Archive)子項目,該項目關注歷史照片檔案的識別與檢索。照片檔案中人們的服飾、發(fā)型、生活環(huán)境、使用的工具甚至自然風光等,都能揭示照片檔案的語義特征和照片之間的關聯(lián),能夠推斷照片的形成時間,或是揭示照片內(nèi)容所反映的地點,從而利用人工智能技術將同一時間或地點的照片進行聚類,形成語義網(wǎng)絡,供高級搜索或可視化工具訪問。二是地圖數(shù)據(jù)時間線動態(tài)展現(xiàn)技術。在“時光機”項目中,有專門做地圖業(yè)務的商業(yè)公司,通過從歷史檔案中提取地理信息,結(jié)合地圖技術進行展現(xiàn)。如MapTiler公司制作的動態(tài)地圖模擬顯示了標志性的威尼斯里亞托橋如何在鹽沼中建造,以及該地區(qū)定期被火災破壞和隨后的重建過程。該公司地圖產(chǎn)品還包括威尼斯地圖,能夠?qū)⑼崴箽v史通過時間線的方式動態(tài)展現(xiàn)。地理數(shù)據(jù)由時間戳標記,標明建筑的開始日期和持續(xù)日期。地圖旁邊有時間線,用戶可以將該地圖和現(xiàn)代地圖、衛(wèi)星地圖或掃描的歷史檔案地圖進行比較。數(shù)據(jù)可以以3D形式提供利用,包括選擇建筑物的名稱、時間段和其他信息。

      3 “時光機”項目技術的檔案應用啟示

      3.1 信息技術應用催生檔案工作新的增長點

      尋求和高新技術的結(jié)合是檔案工作煥發(fā)生命力的關鍵。傳統(tǒng)的社會認知,檔案工作和其他文化遺產(chǎn)行業(yè)一樣,是一門單純消耗性的工作,而信息技術的應用挖掘出了檔案資源的含金量,使其真正成為一種有價值的資產(chǎn),也為檔案工作服務社會提供了新的增長空間,檔案工作為社會服務的重要性更加凸顯。檔案資源這種新的資產(chǎn)將成為一種社會經(jīng)濟加速器,推動教育、政府決策制定、智能旅游、智慧城市、環(huán)境建模等新興領域的服務和產(chǎn)品發(fā)展。如教育方面,“時光機”項目在威尼斯檔案館重點發(fā)展威尼斯4D模型,將城市地圖信息關聯(lián)歷史檔案數(shù)據(jù),在威尼斯部分大學的學士和碩士課程已經(jīng)使用了項目成果用于教學和科研;城市建設方面,法國古斯塔夫·埃菲爾大學資助和支持的“檔案城市”項目,提出利用城市建設檔案的新方法,通過整合城市歷史檔案,規(guī)劃未來城市建設,項目成果不僅為研究人員、歷史學家和檔案工作者使用,還被當?shù)卣咧贫ㄕ?、城市運營商以及渴望參與城市建設的普通市民利用;疫情防控方面,該項目和瑞士洛桑理工學院的流行病學專家合作,通過對威尼斯檔案館中的人口病例檔案和死亡檔案進行數(shù)據(jù)挖掘和關聯(lián),通過研究17世紀中葉瘟疫蔓延導致威尼斯三分之一人口死亡的原因,結(jié)合現(xiàn)代的疫情數(shù)據(jù),對現(xiàn)代流行性疾病的預防和防控研究提供分析和支持;科學研究方面,該項目為科學研究的各個分支提供了支持,如倫敦政治經(jīng)濟學院專家指出“傳統(tǒng)經(jīng)濟學的理論缺乏足夠的數(shù)據(jù)支撐,歐洲金融檔案館存有大量的銀行歷史交易檔案,這些檔案有助于改變我們對金融市場運作方式的理解,傳統(tǒng)的檔案館利用,我每天只可能查閱利用三份檔案,但是‘時光機’項目將徹底改變游戲規(guī)則,通過對普通人員的交易檔案的關聯(lián)處理,我們可以得到更多數(shù)據(jù),從而得出經(jīng)濟學正確有依據(jù)的結(jié)論”[8]。

      3.2 信息技術應用呼喚檔案工作跨界合作

      “時光機”項目是歐盟各國集體攻關、跨界合作的典型,各國、各行業(yè)、各領域都是其受益者。該項目初期在威尼斯檔案館中進行先驅(qū)性實驗和驗證,進而由點至面擴展到整個歐盟的文化遺產(chǎn)機構(gòu),并計劃將所有參與機構(gòu)的信息資源鏈接成網(wǎng),形成歐盟下一代旗艦項目之一?!皶r光機”項目聯(lián)合了來自科學、技術和文化遺產(chǎn)的杰出專家和主要機構(gòu),會員類型分為個人會員和機構(gòu)會員,合作方式靈活多樣,包括以下三種。第一,本地“時光機”項目。機構(gòu)如果正在進行或已經(jīng)完成了一個旨在挖掘和可視化歷史檔案數(shù)據(jù)的項目都可以注冊為本地“時光機”,一旦注冊,有以下幾方面優(yōu)勢。一是可以在“時光機”項目網(wǎng)站享有獨立的主頁空間發(fā)布項目成果,加強本地項目在整個歐盟知名度,獲取更多的支持和合作的可能性;二是可分享本地項目經(jīng)驗、工具、知識和最佳實踐;三是“時光機”項目會提供代碼庫、輔助開發(fā)等工具,加快本地項目檔案資源的開發(fā)和挖掘??梢钥闯?,一旦注冊為本地“時光機”項目,這種合作方式是雙向和相互促進的。第二,項目支持服務。對于一些缺乏經(jīng)費或技術支持的機構(gòu),“時光機”項目提供資助機會、尋求合作伙伴或項目聯(lián)盟,檔案機構(gòu)可以獲得資金來源和技術,獲得更大的創(chuàng)新成就。第三,通過參與征求意見流程共同設計“時光機”項目的技術框架。為確保項目技術選擇達成共識,便于開放開發(fā)和評估,建立請求評議(Request For Comments,簡稱RFC)維護組,任何人都可以編寫RFC,并遵循一定的規(guī)則提交,RFC編輯會指導編寫和進行規(guī)范。從該項目的合作機制來看,實現(xiàn)了資源合作、經(jīng)驗合作和技術合作,因此,檔案工作者需要具備合作性的思維。一是檔案行業(yè)要打破行業(yè)內(nèi)和行業(yè)間的壁壘,實現(xiàn)數(shù)據(jù)合作。因為對歷史知識的挖掘需要大數(shù)據(jù)集,任何一家檔案機構(gòu)的數(shù)據(jù)都不能獨立成為大數(shù)據(jù),小數(shù)據(jù)集難以形成可靠完整的分析來源和產(chǎn)生可信的分析結(jié)果。二是技術經(jīng)驗合作。信息技術在檔案機構(gòu)的應用需要經(jīng)歷技術的實驗、試用和驗證,機構(gòu)的經(jīng)驗共享,一家用,各家學,能夠有力地加快技術應用發(fā)展速度。最佳實踐路徑是從國家層面發(fā)起類似“時光機”項目,如由我國電子文件管理部際聯(lián)席會議發(fā)起,企業(yè)、檔案機構(gòu)、圖書館等文化遺產(chǎn)機構(gòu)、高等院校等共同合作完成,形成大規(guī)模技術攻關團隊,形成集體經(jīng)驗和智慧,加快技術成熟的周期。

      3.3 信息技術應用驅(qū)動檔案工作理論和實踐更新

      信息技術應用于檔案工作,除對現(xiàn)有工作環(huán)節(jié)進行升級改造以外,也會啟發(fā)新的思考。一是對檔案工作傳統(tǒng)理論的影響。在“時光機”項目發(fā)起的“前言:21世紀的私人和公共檔案館(2022年)”“檔案中新的數(shù)字指數(shù)技術創(chuàng)新(2021年)”“檔案和知識社會(2020年)”等研討會中,來自檔案機構(gòu)和國際檔案理事會的專家代表深入討論信息技術對檔案來源、全宗、檔案背景等傳統(tǒng)理論的影響,認為傳統(tǒng)檔案管理理論在信息社會中存在局限性,但也可以在數(shù)字世界中找到新的生命,與其爭論傳統(tǒng)檔案理論在信息技術背景下的存活問題,不如用信息技術理念來解讀傳統(tǒng)的檔案管理理論。二是對檔案工作實踐的影響?!皶r光機”項目使檔案館突破了自身機構(gòu)的限制,使檔案館能夠直接連接到數(shù)字人文等新社區(qū)。信息技術也讓檔案機構(gòu)從傳統(tǒng)的歷史館藏中產(chǎn)生了新的見解,通過新穎的檢索形式和檢索系統(tǒng)使檔案利用多元化。如在關聯(lián)數(shù)據(jù)技術的視角下,檔案的檢索利用發(fā)生明顯變化。傳統(tǒng)檔案檢索依賴于檔案的原始整理順序和檔案的來源,但是當不同全宗、不同案卷的檔案通過內(nèi)容關聯(lián)數(shù)據(jù)鏈接到一起,原始的整理順序和來源成為多種檔案利用方式之一。正如檔案學者Yeo[9]指出的,文件內(nèi)容的邏輯關系超過了文件自身的背景關系,并且文件在更廣闊的背景下產(chǎn)生了更多的關聯(lián)。在新的視角下,文件會和除其形成機構(gòu)之外的其他機構(gòu)產(chǎn)生更多的關系。因此,檔案的檢索利用可能會更多的轉(zhuǎn)向內(nèi)容驅(qū)動的方法,和傳統(tǒng)按來源為主的檢索方法一起,形成互補的模式。又如檔案的著錄工作,技術的深度應用可以自動提取文檔內(nèi)容的重要實體和形成知識圖譜,基于卷積運算的神經(jīng)網(wǎng)絡系統(tǒng)技術可以自動識別圖像檔案中的人物、事件等,那么傳統(tǒng)的檔案著錄環(huán)節(jié)是否可以取消或者簡化?因此,技術應用可能會導致傳統(tǒng)檔案業(yè)務流程中底層建構(gòu)的理論和實踐發(fā)生顛覆性變化。

      3.4 信息技術應用要求檔案工作人員能力升級

      信息技術在檔案管理中的深層次應用,這一發(fā)展將對未來檔案人員的能力素質(zhì)產(chǎn)生巨大的影響?!皶r光機”項目絕不是單純的技術應用,即使是最先進的人工智能技術,也依賴于檔案工作者對檔案知識的深度了解。如“時光機”項目就需要大量的檔案學者對訓練集中的檔案信息進行注釋,為深度學習提供背景信息,而在識別用特定文字和代碼書寫的檔案材料時,單純的技術是無法完成的,需要檔案工作者的深度參與,提供專業(yè)知識。因此,“時光機”項目是技術和檔案人員的結(jié)合,缺一不可。從這點上說,未來檔案工作人員僅會收集和存儲信息是不夠的,只有具備對檔案資源訪問、使用和解釋的能力才能適應時代對檔案人員的高要求,才能將數(shù)據(jù)轉(zhuǎn)化為洞察力,并將存儲轉(zhuǎn)化為記憶,從歷史記憶的守護者變成歷史記憶的守護和解釋者。即使是發(fā)展到人工智能社會,技術和檔案工作人員相互之間也并非處于相互取代的關系,檔案工作者應當學會研究技術、應用技術,利用人類的優(yōu)勢彌補技術的弱點,開闊視野,積極和社會科學、復雜系統(tǒng)等跨領域合作,培養(yǎng)時代的檔案工作新思維新能力。

      猜你喜歡
      檔案館時光數(shù)字化
      Chapter 2 Childhood time第2章 童年時光
      家紡業(yè)亟待數(shù)字化賦能
      永遠向前的時光
      哈哈畫報(2021年12期)2021-02-28 07:48:45
      高中數(shù)學“一對一”數(shù)字化學習實踐探索
      高中數(shù)學“一對一”數(shù)字化學習實踐探索
      休閑時光
      漫時光
      小演奏家(2018年11期)2018-01-07 04:21:56
      關于縣級檔案館館藏檔案開發(fā)利用的思考
      全省部分檔案館新館掠影
      浙江檔案(2017年10期)2017-03-31 06:27:31
      數(shù)字化制勝
      宁夏| 林州市| 重庆市| 新河县| 恩施市| 天门市| 游戏| 滁州市| 长武县| 普安县| 绥宁县| 普定县| 长治市| 兴和县| 上饶市| 衡阳市| 定结县| 阿拉善盟| 科技| 松原市| 拜泉县| 阳高县| 宁明县| 临清市| 平遥县| 桐城市| 临颍县| 澄城县| 高安市| 阿图什市| 沈丘县| 哈尔滨市| 修武县| 青岛市| 南澳县| 藁城市| 托里县| 霍山县| 和龙市| 三明市| 中超|