韋艷玲
摘 要:大數(shù)據(jù)時代下,檔案信息化建設(shè)成為了檔案事業(yè)發(fā)展的重要方向,對檔案信息化建設(shè)展開探討具有十分重要的意義。本文分析了大數(shù)據(jù)時代下,交通規(guī)劃勘察設(shè)計行業(yè)檔案信息化建設(shè)面臨的機(jī)遇和挑戰(zhàn),并對大數(shù)據(jù)技術(shù)在檔案信息化建設(shè)中的應(yīng)用進(jìn)行了詳細(xì)的介紹。
關(guān)鍵詞:大數(shù)據(jù);交通規(guī)劃勘察;檔案信息化;建設(shè)
1 引言
交通規(guī)劃勘察設(shè)計行業(yè)是可以承接公路、橋隧、交通工程、水運(yùn)勘察設(shè)計、工程咨詢、建筑等多種建設(shè)項目的綜合型企事業(yè)單位。就交通規(guī)劃勘察設(shè)計部門來說, 在項目建設(shè)過程中所形成的具有保存價值的設(shè)計圖紙、文字材料、數(shù)據(jù)、聲音圖像等均應(yīng)歸入科技檔案。在大數(shù)據(jù)時代下,檔案信息化建設(shè)成為了經(jīng)濟(jì)與社會發(fā)展的必然趨勢,各項先進(jìn)技術(shù)的發(fā)展為檔案信息化建設(shè)帶來了巨大的機(jī)遇,同時也對檔案信息化建設(shè)提出了新的要求。如何做好交通規(guī)劃勘察設(shè)計檔案信息化建設(shè),提高檔案資源的利用效率是當(dāng)前的一個重要課題。
2 大數(shù)據(jù)給檔案工作帶來的機(jī)遇和挑戰(zhàn)
大數(shù)據(jù)是時代發(fā)展的必然趨勢,它作為一種技術(shù)、一種理念,其出現(xiàn)對交通規(guī)劃勘察設(shè)計行業(yè)檔案部門來講既是機(jī)遇又是挑戰(zhàn)。
(1)利于檔案價值的挖掘。隨著全國各級各類檔案館館藏檔案數(shù)字化的快速推進(jìn)以及數(shù)據(jù)的增加,可供分析與利用的檔案數(shù)據(jù)正在匯聚成數(shù)量宏大的海量信息。大數(shù)據(jù)技術(shù)的應(yīng)用,更利于從中挖掘出蘊(yùn)藏的巨大知識寶藏。
(2)有利于檔案資源共享。大數(shù)據(jù)技術(shù)的應(yīng)用為真正實(shí)現(xiàn)資源共享提供了條件。大數(shù)據(jù)技術(shù)可以將交通規(guī)劃勘察設(shè)計行業(yè)檔案間的共享數(shù)據(jù)資源進(jìn)行整合,共同構(gòu)筑信息共享空間,這樣各地的檔案館就可以分享由大量系統(tǒng)連接在一起而形成的信息。
(3)檔案數(shù)據(jù)存儲能力的挑戰(zhàn)。檔案行業(yè)直接面對著對社會原始記錄的收集、整理、鑒定、保管、檢索、利用等任務(wù)。在大數(shù)據(jù)時代,系統(tǒng)將會面對TB級的數(shù)據(jù)集,急速增長的數(shù)據(jù)對交通規(guī)劃勘察設(shè)計行業(yè)檔案的存儲能力提出了極大的挑戰(zhàn)。
(4)檔案數(shù)據(jù)安全問題的挑戰(zhàn)。數(shù)據(jù)安全對交通規(guī)劃勘察設(shè)計行業(yè)檔案來說至關(guān)重要。檔案信息資源的開發(fā)和利用會涉及檔案信息的泄密、檔案信息的丟失和篡改等問題。因此,檔案館在應(yīng)用大數(shù)據(jù)技術(shù)時需要注意這些潛在的風(fēng)險,通過采取新的措施來應(yīng)對這些風(fēng)險的發(fā)生。
3 大數(shù)據(jù)技術(shù)在檔案信息化建設(shè)中的應(yīng)用
隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)在各行業(yè)的運(yùn)用促進(jìn)了生產(chǎn)效率的極大提高。
因此,在交通規(guī)劃勘察設(shè)計行業(yè)檔案管理工作中,相關(guān)部門要加快交通檔案信息的數(shù)字化設(shè)計,提高交通檔案工作的質(zhì)量,交通規(guī)劃勘察設(shè)計行業(yè)檔案信息化建設(shè)不僅包括無紙化辦公模式,還包括對當(dāng)前各種室內(nèi)紙質(zhì)檔案的數(shù)字化建設(shè)。
3.1 高質(zhì)量檔案數(shù)據(jù)采集及存儲,為檔案管理精細(xì)化奠定基礎(chǔ)
交通規(guī)劃勘察設(shè)計行業(yè)檔案資料數(shù)據(jù)類型繁多, 有Office 文檔、純文本、圖片資料以及包含基礎(chǔ)地形圖、現(xiàn)狀專題圖、規(guī)劃設(shè)計成果圖等多種圖件的AutoCAD 文件, 并且數(shù)據(jù)量巨大, 文件數(shù)目極多。因此要保證新系統(tǒng)能夠高效安全地管理檔案資料, 良好的數(shù)據(jù)庫設(shè)計成為關(guān)鍵之所在。高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)技術(shù)發(fā)揮效能的前提,大數(shù)據(jù)技術(shù)只有在高質(zhì)量的大數(shù)據(jù)環(huán)境下才能提取出隱含的、有用的信息。數(shù)據(jù)采集層要收集不同數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),為交通規(guī)劃勘察設(shè)計行業(yè)檔案數(shù)據(jù)挖掘的后續(xù)工作做好準(zhǔn)備。同時,數(shù)據(jù)存儲是為數(shù)據(jù)處理和計算、特別是為應(yīng)用服務(wù)的,交通規(guī)劃勘察設(shè)計行業(yè)檔案數(shù)據(jù)存儲和管理必須研發(fā)高效的數(shù)據(jù)存儲模型、存取技術(shù)與交換算法,盡可能大地提升數(shù)據(jù)存取的速度、效率以及存儲管理的靈活性和適應(yīng)性。
3.2 基于語義本體和靜態(tài)離線排序策略,凸顯檔案管理模式精細(xì)化
經(jīng)過各種渠道獲取的檔案數(shù)據(jù)種類繁雜、結(jié)構(gòu)多樣,而傳統(tǒng)的檔案著錄和標(biāo)引難以適應(yīng)數(shù)字化檔案信息描述和利用的要求,成為制約檔案信息資源開發(fā)利用的瓶頸。當(dāng)前,交通規(guī)劃勘察設(shè)計行業(yè)檔案數(shù)據(jù)管理中所遇到的手工著錄標(biāo)引工作效率極低、機(jī)器自動標(biāo)引精確度無法保證,以及其內(nèi)容查詢的智能化程度不高,無法同時保證較高的查全率和查準(zhǔn)率等當(dāng)前亟待解決的關(guān)鍵問題。
3.2.1 基于語義本體的檔案數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換 現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大幅度增長的趨勢,這些資源將成為館藏的重要來源,在傳統(tǒng)的信息檢索技術(shù)基礎(chǔ)之上,利用語義處理技術(shù)可以進(jìn)一步實(shí)現(xiàn):①查詢擴(kuò)展,使用誤導(dǎo)詞義消歧技術(shù)對查詢詞匯進(jìn)行詞義判定;②查詢優(yōu)化,避免擴(kuò)展查詢詞的“主題偏移”,采用詞匯語義相關(guān)性度量;③結(jié)果評價,基于向量空間模型計算檢索返回文檔與用戶查詢的語義相關(guān)性;④個性化推薦,綜合利用多項數(shù)據(jù)源(語義數(shù)據(jù),歷史評分?jǐn)?shù)據(jù))和數(shù)據(jù)挖掘方法(如圖1所示)。由此使得人們需要將結(jié)構(gòu)復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的或便于處理結(jié)構(gòu)的數(shù)據(jù),如對檔案系統(tǒng)運(yùn)行日志資料等數(shù)據(jù),就需要轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),形成檔案統(tǒng)一的語言。
從技術(shù)層面上分析探討在人工智能領(lǐng)域中得到應(yīng)用的本體理論以及檔案數(shù)據(jù)本體構(gòu)建過程中的原則、目標(biāo)、主要技術(shù)等問題,實(shí)現(xiàn)對檔案數(shù)據(jù)內(nèi)容信息資源描述的結(jié)構(gòu)化、有序化、規(guī)范化以及管理利用的自動化、智能化和動態(tài)化。
3.2.2 基于靜態(tài)離線排序策略的檔案智能檢索 面對大量的檔案信息,對檔案進(jìn)行有效搜索是建立檔案數(shù)據(jù)過程中的關(guān)鍵步驟。使用基于語義的智能檢索方法有效解決檢索精度低、個性化程度不高、檢索召回率低、返回文檔太多、排序不合理等問題,實(shí)現(xiàn)檔案數(shù)據(jù)的智能檢索?;谠摲椒ㄑ邪l(fā)語義智能檢索系統(tǒng),能夠檢索到與關(guān)鍵字相關(guān)的信息,如同義、近義及上下位關(guān)系,從而提高了檢索的査全率和查準(zhǔn)率,并在一定程度上解決“信息過載”間的問題。
3.3 檔案數(shù)據(jù)深度挖掘分析,反映檔案管理精細(xì)化思維模式
為了使交通規(guī)劃勘察設(shè)計行業(yè)檔案數(shù)據(jù)深度挖掘與用戶需求雙向控制達(dá)到最優(yōu),檔案數(shù)據(jù)挖掘需要從包括對用戶檔案數(shù)據(jù)的挖掘及檔案數(shù)據(jù)同用戶的多種相關(guān)分析兩方面著手。
3.3.1 基于用戶的檔案數(shù)據(jù)挖掘 通過對用戶數(shù)據(jù)深度挖掘做到精確洞察,精準(zhǔn)服務(wù),提升檔案用戶認(rèn)同感,實(shí)現(xiàn)檔案服務(wù)價值。一是對用戶信息進(jìn)行數(shù)據(jù)挖掘。提取用戶的信息需求,查看用戶訪問服務(wù)器時留下的日志文件,跟蹤用戶行為,推測用戶興趣,提供個性化利用服務(wù)。二是對用戶統(tǒng)計檢索和瀏覽記錄進(jìn)行挖掘。例如,利用統(tǒng)計分析的方法,通過分析用戶對檔案目錄的點(diǎn)擊率,選取點(diǎn)擊率高的檔案進(jìn)行數(shù)字化;通過分析用戶檢索時使用的檔案檢索詞,充實(shí)和完善數(shù)據(jù)倉庫中的檢索關(guān)鍵詞,以提高查準(zhǔn)率;通過統(tǒng)計分析用戶對網(wǎng)頁的訪問頻率,進(jìn)而開展深層次的信息服務(wù)。
3.3.2 數(shù)據(jù)相關(guān)關(guān)系洞察及趨勢分析 無論是檔案資源和用戶數(shù)據(jù),通過挖掘得到的僅是某一方面的數(shù)據(jù),這些數(shù)據(jù)往往是孤立的數(shù)據(jù)點(diǎn),因此,要使這些數(shù)據(jù)集成為一個完整的網(wǎng)絡(luò),必須對數(shù)據(jù)網(wǎng)絡(luò)后面的數(shù)據(jù)關(guān)系進(jìn)行深人分析。如單對檔案收集情況進(jìn)行挖掘,得到的僅是檔案人員與檔案之間的關(guān)系;對檔案利用情況進(jìn)行挖掘,得到的僅僅是檔案與用戶之間的數(shù)據(jù)關(guān)系。然而,要想精準(zhǔn)洞察檔案之間、用戶之間及檔案與用戶之間的關(guān)系,必須將以上各個孤立的數(shù)據(jù)點(diǎn)進(jìn)行整合,得到一個完整的檔案數(shù)據(jù)網(wǎng)絡(luò),這樣才能對檔案發(fā)展、社會服務(wù)等趨勢做到更為準(zhǔn)確的預(yù)測。
3.4 檔案管理系統(tǒng)三維可視化,提升檔案數(shù)據(jù)管理應(yīng)用價值
所謂數(shù)字檔案館實(shí)物檔案可視化,就是運(yùn)用計算機(jī)技術(shù),在展示實(shí)物檔案顯性信息的基礎(chǔ)上兼顧隱性信息的挖掘,實(shí)現(xiàn)實(shí)物檔案的數(shù)字化和實(shí)物檔案管理、實(shí)物檔案利用的可視化。實(shí)物檔案數(shù)字化屬于檔案信息采集,在此不做贅述。下文筆者從以下兩個方面進(jìn)行討論:其一,運(yùn)用物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)實(shí)物檔案管理的可視化;其二,通過互聯(lián)網(wǎng)平臺實(shí)現(xiàn)實(shí)物檔案利用的可視化。實(shí)現(xiàn)數(shù)字檔案館的可視化,需要應(yīng)用虛擬現(xiàn)實(shí)技術(shù)。
通過虛擬現(xiàn)實(shí)技術(shù)在計算機(jī)網(wǎng)絡(luò)上對交通規(guī)劃勘察設(shè)計行業(yè)檔案館進(jìn)行真實(shí)的模擬,以營造出類似實(shí)體檔案館的功能和氛圍。虛擬檔案館模擬類似于傳統(tǒng)檔案館的真實(shí)環(huán)境,其宗旨是為網(wǎng)上用戶創(chuàng)建比傳統(tǒng)檔案館更為舒適方便的閱覽及檢索利用的環(huán)境和條件,更好地實(shí)現(xiàn)檔案館的網(wǎng)上服務(wù)功能。
4 結(jié)語
綜上所述,大數(shù)據(jù)時代下,交通規(guī)劃勘察設(shè)計行業(yè)檔案信息化建設(shè)對提高檔案信息化水平,確保檔案信息的安全,提高檔案資源的利用率具有十分重要的作用。因此,相關(guān)檔案工作人員要合理應(yīng)用大數(shù)據(jù)技術(shù),完善檔案信息管理體系制度,加強(qiáng)檔案信息化建設(shè)工作,從而促進(jìn)檔案事業(yè)的健康、可持續(xù)發(fā)展。
參考文獻(xiàn)
[1]葉丹麗.大數(shù)據(jù)時代企業(yè)檔案信息化建設(shè)[J].黑龍江科技信息.2017(01)
[2]關(guān)紹鵬.大數(shù)據(jù)時代事業(yè)單位檔案信息化建設(shè)的現(xiàn)狀與發(fā)展途徑探討[J].赤子(上中旬).2016(23)