摘 要: 在信息化大數(shù)據(jù)時(shí)代,人們習(xí)慣了運(yùn)用便捷直觀的方式處理信息,傳統(tǒng)的紙質(zhì)檔案的信息檢索方法與處理技術(shù)顯得非常的耗時(shí)費(fèi)力,難以能滿足人們運(yùn)用檔案信息的技術(shù)需求。立足互聯(lián)網(wǎng)信息技術(shù)優(yōu)勢(shì),開發(fā)檔案信息的數(shù)據(jù)庫(kù),實(shí)現(xiàn)查閱檔案的新信息技術(shù)化手段,在檔案信息挖掘和大數(shù)據(jù)的創(chuàng)新應(yīng)用方面,取得顯著成效。本文分析了檔案信息的大型數(shù)據(jù)庫(kù)挖掘技術(shù)可行性,提出了積極地建議,展示了廣闊的應(yīng)用前景。
關(guān)鍵詞: 大數(shù)據(jù);檔案數(shù)據(jù);數(shù)據(jù)挖掘
1 大數(shù)據(jù)技術(shù)的概念。
人們利用信息技術(shù)建立資源龐大的信息庫(kù),形成較為豐富的大數(shù)據(jù),以網(wǎng)站、網(wǎng)頁(yè)和相關(guān)軟件的方式,高密度匯集各個(gè)領(lǐng)域的數(shù)據(jù)信息,形成人們共享的信息資源,由于該數(shù)據(jù)庫(kù)是眾多信息資源的整合與收集得來(lái)的,故稱為“大數(shù)據(jù)”,其實(shí),就是信息資源庫(kù)的一個(gè)稱謂。
1.1 大數(shù)據(jù)的時(shí)代背景。
隨著互聯(lián)網(wǎng)信息技術(shù)的廣泛應(yīng)用,計(jì)算機(jī)、智能手機(jī)的普及,人們的生產(chǎn)生活的各個(gè)方面,幾乎離不開數(shù)據(jù)信息的應(yīng)用。因此,大數(shù)據(jù)的開發(fā)應(yīng)用勢(shì)在必行。大數(shù)據(jù)的建立,方便了人們的快速了解各類信息,提高了人們知識(shí)面,擴(kuò)大了人們的認(rèn)知范圍和空間。
1.2 、大數(shù)據(jù)的內(nèi)容。
大數(shù)據(jù)的主要內(nèi)容就是對(duì)模塊數(shù)據(jù)信息的有機(jī)整合,建立規(guī)范的數(shù)學(xué)模型,對(duì)原始數(shù)據(jù)信息進(jìn)行分析、處理,是互聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)支持條件下的新興的智能技術(shù)的應(yīng)用形式和手段,為人們提供快捷便的信息服務(wù)軟件設(shè)備。
1.3 大數(shù)據(jù)技術(shù)具有的的基本特征
一是信息容量十分龐大。每一個(gè)數(shù)據(jù)庫(kù)都會(huì)有很多的信息模塊,每一個(gè)模塊又包含門類齊全的各種信息;利用芯片對(duì)龐大的信息群體集中整理和歸類收集。二是信息的多樣化。不同的網(wǎng)站、不同的行業(yè)都有不同門類的數(shù)據(jù)庫(kù),信息資源共享程度較大,呈現(xiàn)不同方面、不同門類多樣化的的信息。三是應(yīng)用價(jià)值很高。各種信息資源的共享,方便了人們的生活、工作和學(xué)習(xí),應(yīng)用價(jià)值性極高。
2 檔案數(shù)據(jù)信息的挖掘技術(shù)
2.1 基本概念。
紙質(zhì)或?qū)嵨餀n案再利用過(guò)程中,信息檢索非常麻煩,要根據(jù)需要信息的門類、條款,逐一檢索,耗時(shí)、費(fèi)力,還往往出錯(cuò),影響工作效率。互聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)的廣泛應(yīng)用,為檔案信息數(shù)據(jù)技術(shù)的開發(fā)創(chuàng)造了條件。檔案數(shù)據(jù)信息挖掘技術(shù),就是利用信息技術(shù)構(gòu)建檔案檢索體系具體實(shí)踐。
2.2 該技術(shù)的內(nèi)容特點(diǎn)
檔案從紙質(zhì)文字和實(shí)物信息開發(fā)為規(guī)范的數(shù)據(jù)信息,其技術(shù)特點(diǎn)一是工程量大;二是開掘過(guò)程十分復(fù)雜;三是能夠利用相關(guān)軟件優(yōu)化模型;四是能夠?qū)ο嚓P(guān)信息進(jìn)行分析和處理;五是由于信息量過(guò)于龐大,細(xì)微的錯(cuò)誤在所難免。
2.3 該技術(shù)的實(shí)踐應(yīng)用
檔案數(shù)據(jù)信息開掘技術(shù)的實(shí)踐應(yīng)用,表現(xiàn)了信息技術(shù)很多優(yōu)勢(shì),對(duì)檔案資料的開發(fā)應(yīng)用提供了新的平臺(tái)。一是該技術(shù)根據(jù)不同用戶的相關(guān)的不同需求收集和處理大量的信息,完善充實(shí)檔案數(shù)據(jù)庫(kù),確保檔案數(shù)據(jù)信息的個(gè)性化處理;二是實(shí)現(xiàn)了信息共享,不同用戶、不同信息模塊之間相互關(guān)聯(lián),信息共享。所有的檔案信息都可以進(jìn)行全網(wǎng)搜索。三是軟件系統(tǒng)能夠自動(dòng)把相似信息實(shí)施歸類匯總,匯集于一個(gè)信息模塊,以方便人們利用檔案過(guò)程中,效率更高,查閱檢索更方便。
3 大數(shù)據(jù)條件下檔案數(shù)據(jù)信息挖掘系統(tǒng)和挖掘技術(shù)
3.1 大數(shù)據(jù)庫(kù)中檔案數(shù)據(jù)信息挖掘系統(tǒng)
3.1.1 關(guān)聯(lián)規(guī)則用于檔案數(shù)據(jù)挖掘
關(guān)聯(lián)規(guī)則就是在大量的信息中,把關(guān)聯(lián)密度較大信息,進(jìn)行有效組合,利用信息技術(shù)歸類整理,突出特別的效果。在檔案數(shù)據(jù)信息挖掘過(guò)程中,利用關(guān)聯(lián)規(guī)則,主要就是把不同用戶信息實(shí)施整合處理,通過(guò)這些信息分析和預(yù)測(cè)用戶的生活和工作的特征、狀況。有效的輔助檔案的運(yùn)行和管理。其顯著的技術(shù)優(yōu)勢(shì),就是能夠挖掘相關(guān)聯(lián)的信息,滿足客戶的延伸需求。
3.1.2 分類信息化技術(shù)用于檔案數(shù)據(jù)挖掘
進(jìn)行檔案數(shù)據(jù)的開發(fā)挖掘處理,也可以按照一定的標(biāo)準(zhǔn)對(duì)用戶人群實(shí)施分類,參照不同人群不同的信息處理方法以及不同的檢索條件,使用戶分類更為細(xì)致。憑借更細(xì)的分類結(jié)果,更方便對(duì)各種不同信息的了解,明確不同用戶間的相互關(guān)系,并進(jìn)行合理的分組整合,創(chuàng)建信息索引條目,以輔助檔案的利用。
3.1.3 分層聚類方法用于檔案數(shù)據(jù)挖掘
在檔案數(shù)據(jù)信息開掘過(guò)程中,用聚類分割的方法比較不同的檔案數(shù)據(jù)信息處理程序,進(jìn)行優(yōu)化處理,完善需要的分類表,突出科學(xué)、高效的特點(diǎn),這種技術(shù)方法可以說(shuō)是最簡(jiǎn)便、最優(yōu)化的技術(shù)措施,用于檔案數(shù)據(jù)信息的開掘較為適合。
3.2 大數(shù)據(jù)庫(kù)視角下的檔案數(shù)據(jù)信息挖掘技術(shù)
3.2.1 庫(kù)存管理技術(shù)。
一般的庫(kù)存管理技術(shù),在信息的綜合運(yùn)用上,有獨(dú)特的優(yōu)勢(shì),該技術(shù)應(yīng)用于檔案的管理數(shù)據(jù)信息的開掘中,適應(yīng)了檔案數(shù)據(jù)信息的實(shí)際開掘需要,該技術(shù)信息存儲(chǔ)量極大,而且門類分工規(guī)范,信息模塊既分割又關(guān)聯(lián),能獨(dú)立運(yùn)用,又能資源共享。
3.2.2 空間檔案信息挖掘技術(shù)
這種技術(shù)是新興的數(shù)據(jù)信息技術(shù),目前,理論體系和應(yīng)用體系尚不健全,屬于實(shí)驗(yàn)應(yīng)用階段,從實(shí)際發(fā)展的狀況來(lái)看,該技術(shù)用于農(nóng)業(yè)、軍事的檔案資料數(shù)據(jù)化構(gòu)建,有著廣闊的發(fā)展前景??臻g檔案信息挖掘技術(shù)的應(yīng)用在廣泛程度上,現(xiàn)階段與庫(kù)存管理技術(shù)沒(méi)有可比性,但從長(zhǎng)遠(yuǎn)發(fā)展進(jìn)行比較,前者的優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)強(qiáng)于后者,開發(fā)空間和開發(fā)利用潛力相當(dāng)大。尤其適用于檔案數(shù)據(jù)開掘的需要。
結(jié) 語(yǔ)
信息化時(shí)代,大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,創(chuàng)新拓展了人們的生活、生產(chǎn)和學(xué)習(xí)的空間,檔案數(shù)據(jù)開掘就是一個(gè)具體的實(shí)踐,需要人們?cè)诓粩嗟匮芯刻剿髦校M(jìn)一步開發(fā)新的形式,使各類服務(wù)更人性化。
參考文獻(xiàn)
[1]魏巍.基于大數(shù)據(jù)的檔案數(shù)據(jù)深度挖掘的探索[J].黑龍江檔案,2017,(06):66.
[2]吳曉文,孫杰,楊帆.大數(shù)據(jù)背景下海洋檔案數(shù)據(jù)挖掘研究[J].辦公室業(yè)務(wù),2017,(19):186-187.
[3]張偉.檔案大數(shù)據(jù)挖掘流程與技術(shù)研究[J].蘭臺(tái)世界,2017,(17):35-38.
[4]王春英.大數(shù)據(jù)技術(shù)在檔案管理中的應(yīng)用研究[J].黑龍江檔案,2016,(02):48.
作者簡(jiǎn)歷
姜冬梅(1973.01),女,漢族,山東省煙臺(tái)市人,煙臺(tái)市萊山區(qū)政務(wù)服務(wù)管理辦公室科長(zhǎng),館員,大學(xué)本科,研究方向?yàn)闄n案管理。