• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      檔案大數(shù)據(jù)采集和抽取研究

      2018-01-23 20:59:34路宏偉楊蓬勃
      山西檔案 2018年3期
      關(guān)鍵詞:紙質(zhì)

      文 / 路宏偉 楊蓬勃

      2017年12月27日,國家檔案局局長李明華在全國檔案局長館長會議上強(qiáng)調(diào),當(dāng)前屬于“大數(shù)據(jù)”時代,我國要加速檔案工作轉(zhuǎn)型升級。據(jù)館藏檔案數(shù)據(jù)顯示,“十一五”末我國館藏檔案已達(dá)到3.92億余卷(件),絕大多數(shù)檔案數(shù)據(jù)存留于政府機(jī)關(guān)和社會各行各業(yè),形成了海量檔案數(shù)據(jù)。由于目前檔案數(shù)據(jù)采取雙軌制管理,大多數(shù)檔案數(shù)據(jù)的采集和抽取難以滿足大數(shù)據(jù)時代要求,檔案大數(shù)據(jù)的金融價值難以實(shí)現(xiàn)。

      一、檔案大數(shù)據(jù)概念

      檔案大數(shù)據(jù)是指檔案業(yè)務(wù)活動中與檔案及檔案業(yè)務(wù)活動密切相關(guān)的各種有價值、難以在短時間分析處理的數(shù)據(jù)集[1]。檔案大數(shù)據(jù)包括在檔案數(shù)據(jù)交換、存儲和處理過程中產(chǎn)生的三類檔案數(shù)據(jù):第一,在檔案數(shù)據(jù)爆炸式增長過程中,短時間內(nèi)每個參與信息交換的檔案數(shù)據(jù)節(jié)點(diǎn)都接收并存儲大量數(shù)據(jù);第二,在國家檔案局頒布的《紙質(zhì)檔案數(shù)字化規(guī)范》的實(shí)施過程中,紙質(zhì)檔案數(shù)字化存儲帶來了大量可被利用的檔案數(shù)據(jù);第三,隨著人工智能等技術(shù)的發(fā)展,檔案數(shù)據(jù)二次處理會產(chǎn)生更多全新、高價值的檔案數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)與檔案工作的交匯融合持續(xù)加深,檔案大數(shù)據(jù)已取代傳統(tǒng)概念上的檔案數(shù)據(jù)信息化。

      目前國內(nèi)檔案大數(shù)據(jù)采集和抽取存在諸多問題,大量檔案數(shù)據(jù)難以被人工智能深度學(xué)習(xí)和利用,導(dǎo)致檔案大數(shù)據(jù)無法被商業(yè)化利用而失去應(yīng)有的金融價值。

      二、采集和抽取檔案大數(shù)據(jù)過程中存在的主要問題

      首先,檔案大數(shù)據(jù)采集缺乏統(tǒng)一標(biāo)準(zhǔn)[2],導(dǎo)致檔案大數(shù)據(jù)系統(tǒng)處理困難。當(dāng)前新檔案數(shù)據(jù)采集已基本實(shí)現(xiàn)自動化,但各家檔案館仍遵循“所需即所用”的觀念,根據(jù)自身發(fā)展需要與設(shè)想進(jìn)行檔案數(shù)據(jù)采集,導(dǎo)致各家檔案館數(shù)據(jù)采集內(nèi)容和格式的標(biāo)準(zhǔn)不一致,未能實(shí)現(xiàn)檔案大數(shù)據(jù)的標(biāo)準(zhǔn)化采集。而在舊檔案數(shù)據(jù)的處理過程中,為便于永久保存和快捷抽取,檔案館需將重要的紙質(zhì)版檔案轉(zhuǎn)化為電子檔案,此過程中各家檔案館電子檔案格式也存在不統(tǒng)一的問題,致使人工智能難以識別、讀取和分析上述檔案大數(shù)據(jù),可能出現(xiàn)檔案數(shù)據(jù)采集遺漏現(xiàn)象。檔案大數(shù)據(jù)采集標(biāo)準(zhǔn)的缺乏既不利于檔案大數(shù)據(jù)資源開放共享,也不利于人工智能系統(tǒng)對海量檔案數(shù)據(jù)的深入挖掘,導(dǎo)致檔案數(shù)據(jù)資源無法被充分利用。

      其次,檔案大數(shù)據(jù)抽取工作中存在“信息孤島”現(xiàn)象[3],導(dǎo)致檔案大數(shù)據(jù)的交換和共享困難。在檔案大數(shù)據(jù)抽取過程中存在兩個問題:第一,并非所有檔案大數(shù)據(jù)源都對外提供開放的檔案數(shù)據(jù)抽取接口;第二,提供接口的檔案大數(shù)據(jù)源對外抽取接口標(biāo)準(zhǔn)也不一致,難以實(shí)現(xiàn)檔案大數(shù)據(jù)的交換和共享。此外,不同檔案系統(tǒng)供應(yīng)商的硬件和軟件系統(tǒng)也互不兼容,各檔案館間難以實(shí)現(xiàn)檔案數(shù)據(jù)的交換與共享,導(dǎo)致檔案大數(shù)據(jù)無法實(shí)時抽取到有效數(shù)據(jù),阻礙檔案大數(shù)據(jù)平臺的數(shù)據(jù)整合,最終致使各檔案數(shù)據(jù)源如同散落的“信息孤島”。

      再次,紙質(zhì)檔案難以與電子檔案大數(shù)據(jù)實(shí)時同步,無法滿足檔案大數(shù)據(jù)對紙質(zhì)檔案的實(shí)時抽取和追溯需求。運(yùn)用雙軌制檔案管理,將紙質(zhì)檔案和電子檔案進(jìn)行整合管理,既是對傳統(tǒng)歷史檔案或社會記憶的一種重構(gòu)和維系,也是對電子檔案文件的一種保守和折中管理辦法[4]。紙質(zhì)檔案對檔案大數(shù)據(jù)而言具有重要意義。它可對電子檔案數(shù)據(jù)進(jìn)行追溯、核準(zhǔn)、備份、監(jiān)督和糾偏。因此,檔案大數(shù)據(jù)的真實(shí)性和可靠性遠(yuǎn)高于其它大數(shù)據(jù)系統(tǒng),具有獨(dú)特的商業(yè)價值。但各檔案館在實(shí)際管理過程中,因資金、技術(shù)等原因?qū)е挛锫?lián)網(wǎng)、區(qū)塊鏈等新型軟硬件技術(shù)未能用于紙質(zhì)檔案管理,紙質(zhì)檔案的存放狀態(tài)、位置和內(nèi)容信息難以與電子檔案大數(shù)據(jù)實(shí)時同步,仍需人工輔助完成,難以體現(xiàn)檔案大數(shù)據(jù)的獨(dú)特商業(yè)價值,最終影響其金融價值。

      第四,檔案大數(shù)據(jù)的金融價值未能深入挖掘,導(dǎo)致檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn)化建設(shè)資金缺乏。檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn)化建設(shè)需要大量人力、財(cái)力和物力,僅靠政府財(cái)政撥款難以完成,阻礙了檔案大數(shù)據(jù)系統(tǒng)的發(fā)展,亟需金融資本支持。研究表明,目前對檔案數(shù)據(jù)的利用主要是出于工作需要進(jìn)行統(tǒng)計(jì)分析,僅是對檔案數(shù)據(jù)進(jìn)行直接反映,無法利用大數(shù)據(jù)及相關(guān)技術(shù)對檔案資源進(jìn)行充分挖掘。究其原因,主要是缺乏統(tǒng)一的檔案大數(shù)據(jù)采集和抽取標(biāo)準(zhǔn),難以構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,導(dǎo)致檔案大數(shù)據(jù)的商業(yè)和盈利模式缺乏而無法實(shí)現(xiàn)金融價值。

      第五,檔案大數(shù)據(jù)的抽取缺乏國家安全和個人隱私評級系統(tǒng)支持,導(dǎo)致檔案大數(shù)據(jù)抽取受限。一方面,如果檔案大數(shù)據(jù)所涉及的信息可直接或間接連接查詢追溯到某人,則此類信息就能定位到個人隱私信息,如身份、肖像、姓名、個人消費(fèi)習(xí)慣以及宗教信仰等,而上述信息均涉及個人隱私問題;另一方面,檔案數(shù)字資源是國家和社會充分挑選并保存下來的真實(shí)歷史記錄,其中涉及大量國家機(jī)密。由于檔案大數(shù)據(jù)涉及國家安全和個人隱私問題,因此建立完善的檔案大數(shù)據(jù)國家安全和個人隱私評級系統(tǒng)勢在必行[5]。

      三、采集和抽取檔案大數(shù)據(jù)中問題的解決方案

      “檔案數(shù)據(jù)正在成為一種重要的戰(zhàn)略資產(chǎn)”已是檔案行業(yè)共識,擁有檔案數(shù)據(jù)的部門和企業(yè)也必然成為檔案大數(shù)據(jù)的直接受益者。但由于檔案大數(shù)據(jù)采集、抽取標(biāo)準(zhǔn)不一致以及檔案大數(shù)據(jù)國家安全和個人隱私評級系統(tǒng)的缺乏,檔案大數(shù)據(jù)難以變成戰(zhàn)略資產(chǎn),導(dǎo)致檔案數(shù)據(jù)擁有者無法獲益。為了解決上述問題,亟需構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,明確商業(yè)模式和盈利模式,吸引金融資本參與建設(shè)檔案大數(shù)據(jù)平臺,在保障檔案大數(shù)據(jù)國家安全和個人隱私前提下,實(shí)現(xiàn)檔案大數(shù)據(jù)的經(jīng)濟(jì)效益和社會效益。

      (一)建立檔案大數(shù)據(jù)國家安全和個人隱私評級系統(tǒng),實(shí)現(xiàn)檔案大數(shù)據(jù)的合規(guī)性采集和抽取

      在檔案大數(shù)據(jù)平臺價值挖掘的過程中,隨著檔案大數(shù)據(jù)采集和抽取流程不斷復(fù)雜化,檔案大數(shù)據(jù)與互聯(lián)網(wǎng)的結(jié)合進(jìn)一步增加了國家機(jī)密泄漏風(fēng)險(xiǎn)和個人隱私暴露風(fēng)險(xiǎn)。因此,必須通過建立各類檔案大數(shù)據(jù)的國家安全和個人隱私評級系統(tǒng),針對各類檔案大數(shù)據(jù)需求設(shè)立不同權(quán)限,實(shí)現(xiàn)檔案大數(shù)據(jù)的合規(guī)性采集和抽取。此外,檔案大數(shù)據(jù)國家安全和個人隱私評級系統(tǒng)應(yīng)定期得到維護(hù)和完善,確保與時俱進(jìn),滿足政府對檔案大數(shù)據(jù)的國家安全和個人隱私監(jiān)管要求。

      在國家相關(guān)檔案管理和隱私保護(hù)等法規(guī)的基礎(chǔ)上,通過建立檔案大數(shù)據(jù)的國家安全和個人隱私評級系統(tǒng),持續(xù)探索合理隱私保護(hù)前提下的檔案大數(shù)據(jù)挖掘和共享商業(yè)模式,既是檔案大數(shù)據(jù)平臺建設(shè)的必備前提,也是實(shí)現(xiàn)檔案大數(shù)據(jù)金融價值的重要基礎(chǔ)。

      (二)構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,統(tǒng)一檔案數(shù)據(jù)采集和抽取標(biāo)準(zhǔn)

      構(gòu)建檔案大數(shù)據(jù)產(chǎn)業(yè)鏈,在核心企業(yè)引領(lǐng)下,上下游企業(yè)互動,有助于真正實(shí)現(xiàn)檔案大數(shù)據(jù)的商業(yè)價值和金融價值。

      1.明確檔案大數(shù)據(jù)數(shù)據(jù)的采集者和提供者。目前檔案館作為檔案大數(shù)據(jù)的合法采集者、提供者和擁有者,屬于檔案大數(shù)據(jù)產(chǎn)業(yè)鏈的核心企業(yè)之一,但受制于事業(yè)單位身份,難以將檔案數(shù)據(jù)轉(zhuǎn)變?yōu)榻?jīng)營性資產(chǎn)。首先,檔案館應(yīng)創(chuàng)新檔案數(shù)據(jù)的管理模式,將檔案數(shù)據(jù)的所有權(quán)和經(jīng)營權(quán)分離,在滿足國家檔案管理相關(guān)法規(guī)的前提下,將合規(guī)性檔案數(shù)據(jù)有償授權(quán)給關(guān)聯(lián)企業(yè)和第三方平臺經(jīng)營。其次,應(yīng)針對不同行業(yè)和部門的檔案信息,統(tǒng)一檔案大數(shù)據(jù)的采集標(biāo)準(zhǔn),實(shí)現(xiàn)有償標(biāo)準(zhǔn)化采集。最后,應(yīng)鼓勵檔案大數(shù)據(jù)源提供標(biāo)準(zhǔn)化數(shù)據(jù)交換接口,并通過第三方平臺完成檔案數(shù)據(jù)源的抽取和共享,整合全國的檔案大數(shù)據(jù),快速建設(shè)我國的檔案大數(shù)據(jù)平臺。

      2.明確檔案大數(shù)據(jù)軟硬件設(shè)施提供者。檔案大數(shù)據(jù)軟件系統(tǒng)提供者主要包括“檔案大數(shù)據(jù)軟件技術(shù)集成商”“云存儲服務(wù)商”和“大數(shù)據(jù)挖掘服務(wù)商”。檔案大數(shù)據(jù)軟件技術(shù)集成商負(fù)責(zé)提供檔案大數(shù)據(jù)采集和抽取的軟件技術(shù)服務(wù),檔案大數(shù)據(jù)云存儲服務(wù)商負(fù)責(zé)對內(nèi)提供檔案大數(shù)據(jù)云存儲服務(wù)、對外提供檔案大數(shù)據(jù)交換服務(wù),而檔案大數(shù)據(jù)挖掘服務(wù)商負(fù)責(zé)提供檔案大數(shù)據(jù)分析和決策服務(wù)。

      檔案大數(shù)據(jù)硬件設(shè)施供應(yīng)者主要包括“紙質(zhì)檔案數(shù)據(jù)采集設(shè)備生產(chǎn)商”“紙質(zhì)檔案狀態(tài)監(jiān)測與位置定位設(shè)備生產(chǎn)商”以及“紙質(zhì)檔案數(shù)據(jù)與電子數(shù)據(jù)自動追溯與同步設(shè)備生產(chǎn)商”,三者分別負(fù)責(zé)提供“紙質(zhì)檔案的電子數(shù)據(jù)自動采集設(shè)備”“紙質(zhì)檔案狀態(tài)與定位的低功耗物聯(lián)網(wǎng)設(shè)備”以及“追溯與同步原始紙質(zhì)檔案數(shù)據(jù)的自動化設(shè)備”。

      3.構(gòu)建檔案大數(shù)據(jù)商業(yè)模式。伴隨著檔案數(shù)據(jù)商業(yè)價值的挖掘,檔案大數(shù)據(jù)商業(yè)模式將會對檔案產(chǎn)業(yè)鏈的發(fā)展產(chǎn)生巨大影響。借鑒其他大數(shù)據(jù)平臺的商業(yè)模式,檔案大數(shù)據(jù)商業(yè)模式可分為“檔案數(shù)據(jù)交易模式”“檔案信息服務(wù)模式”和“第三方檔案數(shù)據(jù)服務(wù)模式”。

      (1)檔案數(shù)據(jù)交易模式。檔案數(shù)據(jù)交易模式主要指檔案數(shù)據(jù)采集者通過直接買賣檔案大數(shù)據(jù)獲利,進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的當(dāng)期金融價值,而檔案數(shù)據(jù)的反復(fù)銷售則是檔案數(shù)據(jù)采集者不斷完善檔案大數(shù)據(jù)的主要動力。通過建立檔案數(shù)據(jù)交易模式,促使各檔案數(shù)據(jù)源采集者自發(fā)按照統(tǒng)一標(biāo)準(zhǔn)采集檔案大數(shù)據(jù),進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的交換和共享,最終實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)效益。

      (2)檔案信息服務(wù)模式。檔案信息服務(wù)模式是指檔案大數(shù)據(jù)供應(yīng)者深入挖掘檔案大數(shù)據(jù)的潛在價值獲利,進(jìn)而實(shí)現(xiàn)檔案大數(shù)據(jù)的遠(yuǎn)期金融價值,如提供其他大數(shù)據(jù)平臺無法提供的精準(zhǔn)“征信服務(wù)”。檔案信息服務(wù)模式要求檔案數(shù)據(jù)擁有者同時具備檔案數(shù)據(jù)采集和挖掘能力,促使檔案數(shù)據(jù)擁有者最大限度地挖掘檔案大數(shù)據(jù)的潛在價值。

      (3)第三方檔案數(shù)據(jù)服務(wù)模式。第三方檔案數(shù)據(jù)服務(wù)模式是指檔案數(shù)據(jù)采集者和數(shù)據(jù)挖掘者之外的第三方平臺通過專注提供第三方檔案數(shù)據(jù)獲利。第三方檔案數(shù)據(jù)服務(wù)平臺不但通過各種渠道搜集、交換、聚合和加工檔案大數(shù)據(jù),而且整合與檔案大數(shù)據(jù)相關(guān)的其他行業(yè)數(shù)據(jù),最終通過該平臺提供檔案數(shù)據(jù)交易和挖掘服務(wù),以輕資產(chǎn)方式運(yùn)營檔案大數(shù)據(jù)平臺獲利。

      4.構(gòu)建檔案大數(shù)據(jù)盈利模式。檔案大數(shù)據(jù)平臺既可從檔案大數(shù)據(jù)的消費(fèi)市場實(shí)現(xiàn)當(dāng)期獲利,也可通過資本市場股權(quán)增值實(shí)現(xiàn)遠(yuǎn)期獲利。由于缺乏建設(shè)檔案大數(shù)據(jù)平臺的資金,應(yīng)當(dāng)在資本市場吸引風(fēng)險(xiǎn)投資,快速整合檔案大數(shù)據(jù),建設(shè)全國性的檔案大數(shù)據(jù)平臺,盡快占領(lǐng)檔案大數(shù)據(jù)消費(fèi)市場。此方式既有利于檔案大數(shù)據(jù)的快速整合與檔案大數(shù)據(jù)產(chǎn)業(yè)鏈的快速構(gòu)建,又有利于檔案大數(shù)據(jù)商業(yè)模式的快速確立,最終實(shí)現(xiàn)檔案大數(shù)據(jù)的金融價值。

      猜你喜歡
      紙質(zhì)
      紙質(zhì)手表
      一定要重視紙質(zhì)書的閱讀
      家教世界(2023年25期)2023-10-14 15:47:18
      一定要重視紙質(zhì)書的閱讀
      中國石材界多家紙質(zhì)媒體退出行業(yè)
      石材(2022年4期)2022-06-15 08:55:24
      四川省圖書館發(fā)布2019年閱讀報(bào)告
      愛尚書香(2020年3期)2020-06-24 06:16:20
      紙質(zhì)文物保護(hù)修復(fù)的傳統(tǒng)與現(xiàn)代分析
      全媒體時代紙質(zhì)圖書出版思考
      新聞傳播(2016年3期)2016-07-12 12:55:46
      環(huán)十二烷用于紙質(zhì)文物保護(hù)時受溫度影響研究
      紙質(zhì)書與《北京是個好地方》
      紙質(zhì)讀物的困境與出路
      无棣县| 麦盖提县| 仁怀市| 屯门区| 湖州市| 牙克石市| 通江县| 遵化市| 五大连池市| 精河县| 芮城县| 永修县| 茂名市| 成都市| 镇康县| 剑川县| 昌都县| 黔东| 吉木萨尔县| 苗栗县| 广河县| 边坝县| 文登市| 沂源县| 会东县| 泸州市| 沅江市| 平潭县| 荥阳市| 黄浦区| 平湖市| 武强县| 阳朔县| 丹阳市| 苏尼特右旗| 哈巴河县| 唐河县| 墨玉县| 河南省| 新化县| 黔西|