(內(nèi)蒙古自治區(qū)圖書館 內(nèi)蒙古呼和浩特 010020)
數(shù)字圖書館是利用現(xiàn)代數(shù)字技術(shù)來處理以及存儲多種形式的文獻。這些文獻之中包含了論文、書目以及相關(guān)的期刊雜志,甚至包含了音頻文獻。顯而易見,這些數(shù)據(jù)擁有不同的性質(zhì),存儲方式也存在著一些差異。傳統(tǒng)的人工數(shù)據(jù)集合方式很難將每時每刻產(chǎn)生的信息進行很好的處理以及保存。因此,研究大數(shù)據(jù)時代圖書館異構(gòu)數(shù)據(jù)集成這一主題就顯得尤為重要。
在當(dāng)下,類似微博、微信等社交平臺以及其他新型得信息發(fā)布方式層出不窮。各個國家都采取了相應(yīng)的措施來迎接大數(shù)據(jù)時代。并且根據(jù)現(xiàn)處的大數(shù)據(jù)時代,很多傳統(tǒng)企業(yè)發(fā)生了轉(zhuǎn)型。利用不斷普及的現(xiàn)代網(wǎng)絡(luò)技術(shù),數(shù)字圖書館的理念也衍生出來,它的產(chǎn)生也具有一定的現(xiàn)實意義。
1.大數(shù)據(jù)的規(guī)模性大數(shù)據(jù)的多樣性代表著大量的數(shù)據(jù)都沒有穩(wěn)定的結(jié)構(gòu),其中包含著結(jié)構(gòu)、半結(jié)構(gòu)以及非結(jié)構(gòu)化數(shù)據(jù)。
2.大數(shù)據(jù)的高速型意味著大數(shù)據(jù)應(yīng)該實時產(chǎn)生,并且根據(jù)用戶的需要提供一定的數(shù)據(jù)分析。
3.大數(shù)據(jù)的價值型意味著大數(shù)據(jù)的價值并不重要,沒有特別多的意義。但是把這些大量的數(shù)據(jù)進行綜合以及探究就能夠發(fā)現(xiàn)很多更具價值的信息。
這個數(shù)量是極為龐大的。以2010-2017年的數(shù)據(jù)增長情況為例,制作了以下的圖表。情況可見表格以及折線圖。
年份 2010 2011 2012 2013 2014 2015 2016 2017數(shù)據(jù)總量(TB) 426 819 865 906 1020 1280 1450 1677
將我國從2010年到2017年的數(shù)據(jù)總量進行對比能夠很清晰的發(fā)現(xiàn)數(shù)據(jù)的總量變化非常大,增加幅度高。這從上文的圖表中能夠得到明確的數(shù)量變化。
數(shù)字圖書館內(nèi)存資源具有多樣性特征。這其中包括了傳統(tǒng)的文獻資源,例如,期刊雜志以及圖書,還出現(xiàn)了新型的文獻資源。例如,讀者的反饋以及網(wǎng)絡(luò)資源。因此,數(shù)字圖書館的信息結(jié)構(gòu)具有多種多樣的特征,單調(diào)的數(shù)據(jù)整理方式很難將這些數(shù)據(jù)完整存儲起來。除此以外,數(shù)字圖書館內(nèi)的資源總量十分龐大并且還在不停地發(fā)展。最后一個也是比較重要的一點:信息技術(shù)在不斷的發(fā)展后,用戶也提高了對數(shù)字圖書館信息服務(wù)的要求,他們不僅僅滿足于對資源進行查詢的一些服務(wù),而是轉(zhuǎn)變?yōu)楦泳哂猩顚右饬x的數(shù)據(jù)分析。因此,數(shù)字圖書館應(yīng)該改變服務(wù)方式,深入探究存在的價值。
當(dāng)前,雖處在大數(shù)據(jù)時代,但是數(shù)字圖書館數(shù)據(jù)集成過程中依舊存在著很多問題。(1)傳統(tǒng)的數(shù)據(jù)分類形式單調(diào),只有一種或者幾種。(2)沒有固定的結(jié)構(gòu),異構(gòu)數(shù)據(jù)中結(jié)構(gòu)化與非結(jié)構(gòu)化占比更加大。(3)用戶擁有了更加復(fù)雜的需求。因此,對這些數(shù)據(jù)進行有效集成并且挖掘它們存在的含義是現(xiàn)如今數(shù)字圖書館亟待解決的問題。這就必須利用分布式的存儲形式。(4)但是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在對系統(tǒng)的開拓性方面產(chǎn)生較大的局限性,都是先擁有原來的數(shù)據(jù)形式,再擁有的數(shù)據(jù)。很多的數(shù)據(jù)都沒有辦法進行確定的形式,而現(xiàn)如今的數(shù)據(jù)在不斷的增加并且形式種類繁多。
這種方式是將各個場地分布的數(shù)據(jù)進行篩選之后集合到數(shù)據(jù)倉庫中。這種技術(shù)注重對數(shù)據(jù)的高度掌控,利用這種集合方式將大量數(shù)據(jù)集合在一起,形成數(shù)據(jù)倉庫。這整個技術(shù)模型中包含了異構(gòu)管理系統(tǒng)綜合數(shù)據(jù)庫、接口組件、應(yīng)用系統(tǒng)以及外部數(shù)據(jù)源、Oracle等。
為了更好的解決數(shù)據(jù)異構(gòu)的問題,學(xué)者又提出了一個新概念:中間件。中間件是處于平臺和實際應(yīng)用的一種服務(wù)類型,不同類型的平臺以及應(yīng)用需要利用不同形式的中間件。這種服務(wù)能夠讓讀者直接進行數(shù)據(jù)查詢,而非直接在數(shù)據(jù)庫內(nèi)進行搜索。
這種方式簡化了對異構(gòu)數(shù)據(jù)源的訪問源,實現(xiàn)了系統(tǒng)與系統(tǒng)之間的簡易互動,解決了異構(gòu)的交互的難題,能夠更好的存儲大量數(shù)據(jù)。而圖書館數(shù)據(jù)繁多,利用這個技術(shù)能夠理清數(shù)據(jù)。
數(shù)字圖書館數(shù)據(jù)集成過程中依舊存在著很多問題。傳統(tǒng)的數(shù)據(jù)分類形式單調(diào),只有一種或者幾種,并且這沒有固定的結(jié)構(gòu),異構(gòu)數(shù)據(jù)中結(jié)構(gòu)化與非結(jié)構(gòu)化占比更加大。這能夠更好的、更加高效地將海量的數(shù)據(jù)進行有效集成,并且進行完整的存儲以及處理,給予用戶更好的數(shù)據(jù)使用體驗。