• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)

      2021-03-02 07:51陳嘉鈺
      檔案管理 2021年1期
      關(guān)鍵詞:數(shù)據(jù)化數(shù)字檔案館

      陳嘉鈺

      摘? 要:本文認(rèn)為數(shù)字技術(shù)為智慧檔案館奠定了數(shù)字化的基礎(chǔ),智慧技術(shù)則能使數(shù)字技術(shù)更加智能化;只有通過運(yùn)用物聯(lián)網(wǎng)、云計(jì)算、云存儲等技術(shù)來提高檔案館系統(tǒng)的數(shù)據(jù)傳輸與計(jì)算能力、應(yīng)用擴(kuò)展能力和安全存儲能力,才能促進(jìn)智慧檔案館持續(xù)健康的發(fā)展。

      關(guān)鍵詞:智慧檔案館;數(shù)字檔案館;數(shù)據(jù)化

      Abstract: This article believes that digital technology has laid the foundation for digitization of Intelligent Archive, and smart technology can make digital technology more intelligent; only through the use of Internet of Things, cloud computing, cloud storage and other technologies to improve the data transmission and computing capabilities of the archives system, Application scalability and secure storage capabilities can promote the sustainable and healthy development of Intelligent Archive.

      Keywords: Intelligent Archive; Digital Archives; Digitalization

      檔案館是各類信息資源的主要保存和服務(wù)機(jī)構(gòu),長期致力于數(shù)字記憶保護(hù)工作,其中既包括文本內(nèi)容的長期保存,也包括元數(shù)據(jù)的有效獲取。[1]面對大數(shù)據(jù)時代這一新型學(xué)術(shù)需求,智慧檔案館數(shù)據(jù)化管理應(yīng)當(dāng)借助數(shù)字技術(shù),提高資源的語義化、智慧化水平,擴(kuò)大信息共享的范圍和深度,積極創(chuàng)新服務(wù)方式和方法。

      1 智慧檔案館數(shù)據(jù)化管理的必要性

      1.1 檔案數(shù)據(jù)化轉(zhuǎn)型。檔案館收藏和保存了社會活動中的各政府機(jī)構(gòu)和職能機(jī)構(gòu)的重要文件、特殊手稿以及具有文化、歷史和文學(xué)意義的珍貴資料。檔案通常屬于未公開發(fā)表的唯一版本資料,更具有珍貴性與稀缺性的特點(diǎn)。另外,檔案的史料價(jià)值和證據(jù)價(jià)值也決定了其必然成為網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)中的主力軍。新環(huán)境下,檔案館必須轉(zhuǎn)換思路,變藏為用,變被動為主動。

      檔案數(shù)據(jù)化轉(zhuǎn)型指的是在檔案中,以數(shù)據(jù)作為載體和表現(xiàn)形式的那部分檔案,其外延既包括檔案內(nèi)容、結(jié)構(gòu)、背景數(shù)據(jù),也包括非檔案內(nèi)容本身但檔案產(chǎn)生的軟硬件環(huán)境數(shù)據(jù)、檔案業(yè)務(wù)活動過程中產(chǎn)生的數(shù)據(jù)以及應(yīng)該歸檔但未進(jìn)行歸檔的政務(wù)數(shù)據(jù)等,既具有檔案性也具有數(shù)據(jù)性。

      1.2 做好數(shù)據(jù)的前端控制和版本的永續(xù)存儲。對于數(shù)據(jù)的質(zhì)量控制和長期存儲來說,檔案館具有理論和經(jīng)驗(yàn)優(yōu)勢。檔案專家應(yīng)該積極加入數(shù)據(jù)的前端控制和版本的永續(xù)存儲方案設(shè)計(jì)、實(shí)施和維護(hù)的各個階段中,幫助實(shí)現(xiàn)數(shù)字環(huán)境下的動態(tài)、原生數(shù)字?jǐn)?shù)據(jù)進(jìn)行實(shí)施數(shù)據(jù)采集、質(zhì)量監(jiān)控和版本的永續(xù)存儲,以備后期人文研究查考、利用。[2]因此,必須保證數(shù)據(jù)安全、可靠、完整??勺x的措施付諸數(shù)據(jù)“采集-處理-呈現(xiàn)”的全過程中,才可以有效防止數(shù)據(jù)的丟失和損壞。檔案專家應(yīng)該積極介入專題數(shù)據(jù)庫及服務(wù)平臺的建設(shè),在系統(tǒng)設(shè)計(jì)階段實(shí)行前端控制,對數(shù)據(jù)生成和管理質(zhì)量進(jìn)行監(jiān)控,保證項(xiàng)目的后續(xù)實(shí)施效果和版本的永續(xù)存儲。

      2 智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)路徑

      2.1 數(shù)字技術(shù)支持讓檔案數(shù)字資源有了更為寬廣的生存空間。盡管網(wǎng)絡(luò)技術(shù)和數(shù)字技術(shù)飛速發(fā)展,讓檔案數(shù)字資源有了更為寬廣的生存空間,存儲技術(shù)、搜索技術(shù)、編目技術(shù)的出現(xiàn)使檔案數(shù)字資源各個管理環(huán)節(jié)更加趨于自動化、智能化、高效化,并且管理成本也在大幅降低。但對于其中檔案內(nèi)容的數(shù)字化來說,智慧技術(shù)并不能取代數(shù)字技術(shù)。智慧檔案館對實(shí)體檔案可以運(yùn)用射頻識別標(biāo)簽實(shí)現(xiàn)泛在感知,可以運(yùn)用3D庫房技術(shù)實(shí)現(xiàn)實(shí)時監(jiān)測,但將實(shí)體檔案轉(zhuǎn)化成為不受時空利用限制的數(shù)字化資源則需要數(shù)字技術(shù),數(shù)字技術(shù)將傳統(tǒng)載體檔案進(jìn)行掃描、轉(zhuǎn)錄等,以數(shù)字信號形式保存在計(jì)算機(jī)中,同時還可以結(jié)合數(shù)字技術(shù)實(shí)現(xiàn)聲影檔案展示,為用戶提供虛擬體驗(yàn)。如果沒有數(shù)字技術(shù)實(shí)現(xiàn)的數(shù)字化館藏,那么智慧檔案館的智慧將要大打折扣。

      2.2 數(shù)字技術(shù)將人工智能與傳統(tǒng)文字識別技術(shù)進(jìn)行結(jié)合。傳統(tǒng)的文字識別技術(shù)是將圖像進(jìn)行二值化和灰度化后,將文字作為前景信息,其他部分作為背景信息,通過區(qū)分兩者的明暗不同來判別哪些是識別區(qū)域,再對文字識別區(qū)域進(jìn)行切割和分類,最后基于統(tǒng)計(jì)模型進(jìn)行糾錯和識別。但傳統(tǒng)識別方法在面對復(fù)雜的識別環(huán)境時難以提高識別準(zhǔn)確率,如多語言混合、低分辨率、非均勻光照、藝術(shù)字體、復(fù)雜版式等情況,研究人員為了克服這些難點(diǎn),嘗試了很多種方法。近年隨著深度學(xué)習(xí)的興起,打破了傳統(tǒng)OCR的技術(shù)瓶頸。傳統(tǒng)的機(jī)器學(xué)習(xí)需要先確定特征和標(biāo)簽,然后用一系列算法對這些數(shù)據(jù)進(jìn)行計(jì)算,然后保存模型,最后對分類的準(zhǔn)確性進(jìn)行預(yù)測。這種方法有其缺點(diǎn),如果提取的特征數(shù)量過多,可能會因?yàn)槠蛴谀硞€特征而出現(xiàn)過擬合的情況,如果提取的特征數(shù)量過少,則可能沒辦法進(jìn)行精確分類,出現(xiàn)欠擬合的情況。

      傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法采用全連接的網(wǎng)絡(luò)結(jié)構(gòu),一個28×28的矩陣可能需要11萬多個參數(shù),參數(shù)實(shí)在太多,計(jì)算量巨大,在圖像識別中顯然不是很適合。于是開始考慮卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的思想是在識別一個物體時,通常通過某個局部特征就能識別出該物體為何,并不需要全部識別,所以也可以通過局部特征識別整體而不是全連接的方式。卷積神經(jīng)網(wǎng)絡(luò)通過卷積神經(jīng)元提取上一層圖像的局部特征在自身所在隱層單元上映射成一個平面,并通過同平面層具有同一神經(jīng)元權(quán)重值來保證特征映射具有位移不變性和旋轉(zhuǎn)不變性,同時特征提取后還有一個亞取樣層或稱下采樣層,用來求局部平均和二次特征提取,以提高神經(jīng)網(wǎng)絡(luò)的畸變?nèi)萑棠芰?。[5]這種方法的優(yōu)點(diǎn)是,只需對初始值進(jìn)行設(shè)置,隨后機(jī)器通過自適應(yīng)和自學(xué)習(xí)的過程不斷調(diào)整卷積核的數(shù)量和滑動步長,而且參數(shù)數(shù)量可以減少幾個量級。

      2.3 數(shù)字技術(shù)實(shí)現(xiàn)智慧檔案館管理功能的全面感知。智慧檔案館在檔案實(shí)體、檔案內(nèi)容信息和檔案管理信息上具備全面感知特點(diǎn),在數(shù)據(jù)運(yùn)算和存儲方面采用“自有”和“云”的雙模模式,能通過利用移動數(shù)字信息查閱服務(wù)中心等現(xiàn)有信息發(fā)布利用平臺和三網(wǎng)融合實(shí)現(xiàn)泛在應(yīng)用,最后從上到下,從內(nèi)到外,全面運(yùn)用所有技術(shù)進(jìn)行綜合管理。

      智慧檔案館期望通過運(yùn)用物聯(lián)網(wǎng)、云計(jì)算、云存儲等技術(shù)來提高檔案館系統(tǒng)數(shù)據(jù)傳輸與計(jì)算能力、應(yīng)用擴(kuò)展能力和安全存儲能力,但由于沒有相關(guān)成功案例參考,建設(shè)過程中遇到資金不足、人才短缺、技術(shù)難關(guān)、政策支持和法律規(guī)范缺失等問題,需要長期的建設(shè)和研究,才能促進(jìn)智慧檔案館持續(xù)健康發(fā)展。[6]

      3 智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)價(jià)值

      3.1 智慧檔案館數(shù)據(jù)化實(shí)現(xiàn)檔案的“活化”。智慧檔案館館藏?cái)?shù)據(jù)化管理功能的價(jià)值主要體現(xiàn)在兩個方面[3]:一方面體現(xiàn)在檔案數(shù)據(jù)中,檔案數(shù)據(jù)這一部分本身即具備數(shù)據(jù)特征,是智慧檔案館館藏的數(shù)據(jù)基礎(chǔ)。另一方面是對數(shù)字化館藏進(jìn)行數(shù)據(jù)化,通過將數(shù)字態(tài)檔案轉(zhuǎn)變?yōu)閿?shù)據(jù)態(tài),實(shí)現(xiàn)檔案的“活化”,使檔案可以被計(jì)算機(jī)檢索、組織、復(fù)用等,從而進(jìn)行內(nèi)容管理和智能分析。

      在智慧檔案館的建設(shè)中,物聯(lián)網(wǎng)的應(yīng)用是其中一大創(chuàng)新,其前端設(shè)備層承擔(dān)整個檔案館環(huán)境內(nèi)的各類信息感知服務(wù),包括射頻識別、傳感器、視頻監(jiān)控系統(tǒng)等,這些前端設(shè)備每時每刻都在與周圍環(huán)境交互,產(chǎn)生實(shí)時數(shù)據(jù)。相比于數(shù)字檔案館的數(shù)字化特征主要體現(xiàn)在數(shù)字態(tài)館藏上,智慧檔案館的數(shù)據(jù)化特征已不僅體現(xiàn)在館藏層面上,還體現(xiàn)在管理過程中的各個方面,包括了檔案與檔案之間、檔案與人之間、人與人之間交互的所有數(shù)據(jù),數(shù)據(jù)化特征已經(jīng)滲透到智慧檔案館管理的方方面面。

      3.2 實(shí)現(xiàn)數(shù)據(jù)化帶來了智慧檔案館管理理念的改變。數(shù)字檔案館的館藏主要有傳統(tǒng)載體檔案、數(shù)字化館藏以及原生電子文件等三種類型。原生電子文件種類很多,包括文本文件、圖形文件、數(shù)據(jù)文件、圖像文件、聲音文件、影像文件和命令文件等,[4]涵蓋了非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化三種類型文件,其中對文本文件的管理相比于數(shù)字檔案館的紙質(zhì)數(shù)字化檔案來說,減少了圖像轉(zhuǎn)變?yōu)槲淖值倪^程。

      數(shù)字化館藏則多以PDF、JPEG、MP3等數(shù)字態(tài)形式存儲,針對不同格式進(jìn)行數(shù)據(jù)化轉(zhuǎn)換的方式不盡相同,其中紙質(zhì)檔案的內(nèi)容除了文本,可能還包含圖像信息,在對此類檔案的數(shù)字態(tài)成果進(jìn)行數(shù)據(jù)化時,關(guān)鍵在于將圖像形式的檔案轉(zhuǎn)變?yōu)槲谋疚募?。通常采用OCR技術(shù)對圖像內(nèi)容進(jìn)行文字識別,隨著多年的發(fā)展,OCR識別的準(zhǔn)確率不斷提高,有些公司的OCR產(chǎn)品聲稱可達(dá)到99%的準(zhǔn)確率,但運(yùn)用OCR并不是一勞永逸的,還需要后期進(jìn)行人工核對和糾正,成本較高。經(jīng)過OCR識別后,可采用PDF雙層格式存儲來避免后續(xù)轉(zhuǎn)換的麻煩,PDF雙層格式是將圖像層置于上層,而文本置于底層,這樣既能保證用戶對檔案內(nèi)容進(jìn)行文檔操作,又能保證檔案的傳輸安全。OCR是全文檢索的基礎(chǔ),但如果想要實(shí)現(xiàn)檔案內(nèi)容智能服務(wù),還遠(yuǎn)遠(yuǎn)不夠。

      經(jīng)過OCR識別后的文本內(nèi)容多為非結(jié)構(gòu)化或半結(jié)構(gòu)化,原生電子文件的類型更加多樣化,為了有效利用不同結(jié)構(gòu)類型的檔案,首先應(yīng)對非結(jié)構(gòu)化和半結(jié)構(gòu)化的文檔進(jìn)行結(jié)構(gòu)化處理,處理的顆粒度可以根據(jù)需要按照章節(jié)、段落或句子等來拆分,拆分后形成一個個XML片段,再對這些片段打上標(biāo)簽,目的是為多維度檢索做鋪墊。標(biāo)簽的另一個作用是為人工智能打下基礎(chǔ),利用海量檔案內(nèi)容對機(jī)器進(jìn)行訓(xùn)練,使機(jī)器能夠?qū)?nèi)容分類做出判斷,將分類結(jié)果與人工標(biāo)識的標(biāo)簽進(jìn)行抽樣檢查,計(jì)算出人工智能分類的準(zhǔn)確率,再進(jìn)行調(diào)整。人工智能分類只是檔案內(nèi)容智能管理的一個部分,還需利用其他技術(shù),如知識挖掘技術(shù)對檔案內(nèi)容進(jìn)行深度分析和總結(jié),才能實(shí)現(xiàn)檔案內(nèi)容的智能知識推送。

      檔案從傳統(tǒng)介質(zhì)到數(shù)字態(tài),再到數(shù)據(jù)態(tài)的轉(zhuǎn)變,體現(xiàn)了管理顆粒度由粗到細(xì)的不斷深入。每次轉(zhuǎn)變都離不開技術(shù)的進(jìn)步,同時也帶來了管理理念的沖擊和改變。

      參考文獻(xiàn):

      [1]劉瀟.檔案信息化與數(shù)字化的發(fā)展趨勢分析[J].陜西檔案,2020(08): 35-37.

      [2]盧鈺.電子文件管理的前端控制原則[J].蘭臺世界,2016(12): 52-56.

      [3]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)研究,2019(10): 52-60.

      [4]王英,蔡盈芳,黃磊.電子文件管理[M].清華大學(xué)出版社,2016.

      [5]尹文楓,梁玲燕,彭慧民等.卷積神經(jīng)網(wǎng)絡(luò)壓縮與加速技術(shù)研究進(jìn)展[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020(09): 16-25.

      [6]李樺.談智慧檔案館建設(shè)的認(rèn)識誤區(qū)及對策[J].北京檔案,2020(06): 33-35.

      (作者單位:鄭州輕工業(yè)大學(xué) 來稿日期:2020-10-04)

      猜你喜歡
      數(shù)據(jù)化數(shù)字檔案館
      數(shù)字檔案館建設(shè)對檔案管理體制的影響分析
      “互聯(lián)網(wǎng)+”背景下的智能互聯(lián)汽車數(shù)據(jù)化媒體服務(wù)
      淺議企業(yè)數(shù)字檔案館建設(shè)
      臺灣數(shù)位典藏計(jì)劃對內(nèi)地?cái)?shù)字檔案發(fā)展的啟示
      淺析人力資源管理的E化
      對“未來教室”的初步探索
      檔案管理和檔案服務(wù)
      基于臨床病歷數(shù)據(jù)化的名老中醫(yī)經(jīng)驗(yàn)傳承方法學(xué)研究
      金昌市| 肃南| 建始县| 佛坪县| 西藏| 濮阳县| 天峻县| 三河市| 左权县| 洪江市| 淮北市| 津南区| 长兴县| 仙桃市| 芦山县| 桃园市| 敦化市| 增城市| 元阳县| 铅山县| 板桥市| 大城县| 通道| 紫云| 南昌市| 新沂市| 寿宁县| 那曲县| 太谷县| 大宁县| 右玉县| 丰台区| 星座| 西和县| 兴海县| 丹棱县| 元朗区| 定日县| 洪湖市| 东乌珠穆沁旗| 浏阳市|