鐘建坤 陳紀欽
關鍵詞:云計算;大數(shù)據(jù);信息檢索技術
云計算下的大數(shù)據(jù)網(wǎng)絡信息檢索技術,是在利用云計算技術對信息實現(xiàn)自動分析、挖掘后,通過優(yōu)化云計算資源來實現(xiàn)自動化分析和挖掘,實現(xiàn)個性化的服務、決策的過程。以大數(shù)據(jù)為基礎的網(wǎng)絡信息檢索技術,以云計算為手段,能夠?qū)⒕W(wǎng)絡信息檢索技術與現(xiàn)代科學技術有機結合起來,形成一種全新的、新型服務模式。網(wǎng)絡信息檢索技術通過云計算等技術實現(xiàn)網(wǎng)絡信息的檢索、分析、挖掘,以為用戶提供更加高效、便捷的信息服務。
一、云計算與大數(shù)據(jù)的相關概述
大數(shù)據(jù),是伴隨互聯(lián)網(wǎng)發(fā)展起來的新興事物,也是我國IT 產(chǎn)業(yè)發(fā)展的一個重要方向。大數(shù)據(jù)主要包括三大部分,即存儲與處理系統(tǒng),包括云計算平臺、數(shù)據(jù)庫系統(tǒng)、網(wǎng)絡系統(tǒng)及相關的服務系統(tǒng)等。云計算是通過云計算平臺提供計算、存儲、網(wǎng)絡服務的一種新型計算模式,旨在為用戶節(jié)省資源、降低成本,并提高用戶體驗。此外,隨著網(wǎng)絡技術、計算機技術等信息技術發(fā)展進程的不斷加速,云計算也更加廣泛地應用于經(jīng)濟社會之中。從傳統(tǒng)應用系統(tǒng)向云計算平臺轉(zhuǎn)型是互聯(lián)網(wǎng)發(fā)展過程中必然會出現(xiàn)的一個發(fā)展趨勢。一方面它給我們帶來了前所未有的技術;另一方面也給傳統(tǒng)行業(yè)帶來了前所未有的挑戰(zhàn)。因此,云計算對應用軟件開發(fā)人員、數(shù)據(jù)科學家、軟件開發(fā)人員來說具有十分重要的價值。
二、大數(shù)據(jù)網(wǎng)絡信息檢索技術
大數(shù)據(jù)網(wǎng)絡信息檢索技術是針對網(wǎng)絡信息特點和海量用戶需求發(fā)展起來的大數(shù)據(jù)網(wǎng)絡技術與應用技術。且大數(shù)據(jù)網(wǎng)絡信息檢索技術是通過數(shù)據(jù)收集、數(shù)據(jù)建模等方面的研究成果來實現(xiàn)大數(shù)據(jù)計算、挖掘、應用等方面的技術方法。因此,大數(shù)據(jù)網(wǎng)絡信息檢索技術,對大數(shù)據(jù)有著十分重要的作用。
(一)大數(shù)據(jù)網(wǎng)絡信息儲存
大數(shù)據(jù)網(wǎng)絡信息儲存數(shù)據(jù)庫的構成包括兩個部分:一是存儲,即數(shù)據(jù)的對象存儲;二是數(shù)據(jù)處理,即數(shù)據(jù)的內(nèi)容處理。存儲主要是將數(shù)據(jù)存儲到內(nèi)存中去進行存儲,計算主要是將數(shù)據(jù)計算到字節(jié)級的存儲。其大數(shù)據(jù)的網(wǎng)絡信息儲存內(nèi)容具體如表1 所示。
1. 分布式存儲技術
分布式存儲技術主要是通過一系列復雜的技術實現(xiàn)數(shù)據(jù)的統(tǒng)一管理,將多個用戶數(shù)據(jù)集中起來,然后通過分布式存儲技術將各個用戶的數(shù)據(jù)集中起來,再利用分布式存儲技術對各個用戶的數(shù)據(jù)存儲。因此,分布式存儲的主要優(yōu)點是數(shù)據(jù)保存的安全性與效率比較高,另外還可以將大數(shù)據(jù)作為數(shù)據(jù)的存儲對象進行利用。但是在數(shù)據(jù)存儲方面存在著成本較高且性能不穩(wěn)定的不足之處[1]。因此要想實現(xiàn)大規(guī)模的存儲,就需要將數(shù)據(jù)集中起來儲存好,在數(shù)據(jù)儲存方面也需要采用存儲技術,來進行大數(shù)據(jù)存儲的研究開發(fā),才能夠獲得良好的經(jīng)濟效益。
2. 系統(tǒng)內(nèi)存存儲技術
系統(tǒng)內(nèi)存存儲技術是大數(shù)據(jù)系統(tǒng)的核心,它是一種動態(tài)內(nèi)存存儲技術,可以有效地提高系統(tǒng)對大數(shù)據(jù)資源的利用率,實現(xiàn)數(shù)據(jù)庫的快速擴容,并且支持了在復雜環(huán)境下保持系統(tǒng)性能的優(yōu)化。該技術是目前最先進的內(nèi)存存儲技術,也是大數(shù)據(jù)系統(tǒng)的核心技術。目前,大數(shù)據(jù)系統(tǒng)內(nèi)存存儲技術主要分為兩種類型:第一種是異構內(nèi)存技術,主要有分布式內(nèi)存技術及異構的數(shù)據(jù)庫技術;第二種是融合內(nèi)存技術,主要有MongoDB 及HBase 兩種技術。其中異構內(nèi)存技術具有很高的擴展性,可以廣泛應用于多核處理器中。因此,異構內(nèi)存技術已經(jīng)成為大數(shù)據(jù)時代信息存儲技術的核心。
(二)元數(shù)據(jù)的具體應用
元數(shù)據(jù)是存儲在數(shù)據(jù)庫中的數(shù)據(jù)集合,一般是由一組數(shù)據(jù)文件組成,在建立數(shù)據(jù)庫的過程中,需要對這些數(shù)據(jù)文件進行排序、抽取、轉(zhuǎn)換、提取,以獲取相應的記錄。目前元數(shù)據(jù)主要用于對數(shù)據(jù)庫相關知識的解讀,以及對新應用、新問題的發(fā)現(xiàn)或預測,以及對數(shù)據(jù)庫知識圖譜、高級分析工具等軟件程序上使用。而在傳統(tǒng)存儲結構中,往往只存儲簡單類型的源代碼。但是傳統(tǒng)結構化數(shù)據(jù)在數(shù)據(jù)庫中具有不可替代性,在使用時需要對傳統(tǒng)結構化信息進行分析后,再形成可執(zhí)行文件保存在數(shù)據(jù)庫中[2]。因此,其在數(shù)據(jù)庫系統(tǒng)架構中起著至關重要的“連接”作用。
(三)WEB 信息收集與檢索
從當前的信息社會發(fā)展來看,信息的種類越來越豐富,并且是一個非常具有包容性的信息資源,人們不僅可以在網(wǎng)上直接訪問到所需要的信息,而且還可以通過網(wǎng)站的鏈接來實現(xiàn)在線交易等。對于WEB 系統(tǒng),在獲取信息的過程中,主要有兩種方法:一種是直接在網(wǎng)站上輸入需要的內(nèi)容,這種方式存在信息質(zhì)量差的不足之處;另一種是通過查詢網(wǎng)站的信息來獲取內(nèi)容與信息,這種方式也存在著一定的問題。因此,針對這兩種方法,在WEB 的信息收集與檢索過程中,就必須采用良好且準確的信息獲取流程與相應的方式,來對信息的質(zhì)量問題加以保障。
三、網(wǎng)絡信息的收集與檢索
(一)網(wǎng)頁收錄
大數(shù)據(jù)是指在信息技術快速發(fā)展的背景下新出現(xiàn)的以數(shù)據(jù)量增長為特征的信息結構。它的特征是數(shù)據(jù)規(guī)模龐大、分布廣泛,并且數(shù)據(jù)的可收集性極強。數(shù)據(jù)的形式多種多樣,它可以是自然數(shù),可以是互聯(lián)網(wǎng)的URL數(shù)據(jù),也可以是通過各類的數(shù)據(jù)源來獲取數(shù)據(jù),可以是文本、圖片、視頻等信息,也可以是其他類型的數(shù)據(jù)。在傳統(tǒng)的網(wǎng)頁的分類中。它分為多種分類類型,如以中文為例:HTML 類網(wǎng)站分類,就是按照其所處環(huán)境分類來劃分的。在每個分類下再細分出若干個子分類,如游戲、購物、新聞資訊以及信息等。
(二)數(shù)據(jù)檢索
數(shù)據(jù)檢索是大數(shù)據(jù)分析的核心內(nèi)容,是為了實現(xiàn)數(shù)據(jù)的最優(yōu)化和效率最大化而采用的技術,是云計算下大數(shù)據(jù)應用最為關鍵的一個部分。很多企業(yè)都需要通過數(shù)據(jù)檢索,來獲取業(yè)務系統(tǒng)中需要的數(shù)據(jù)信息,為企業(yè)經(jīng)營決策提供依據(jù)。在企業(yè)中也存在著大量的數(shù)據(jù)資源需要存儲、查詢,存儲也就是在使用的過程中不斷地進行學習、優(yōu)化和改進。這就要求企業(yè)要將大量應用系統(tǒng)的數(shù)據(jù)進行檢索,并對其進行整理分類、關聯(lián)、提取、清洗,等處理之后再進行分析,以提高其使用效率并減少因重復而造成的經(jīng)濟損失與浪費[3]。
(三)檢索過程
大數(shù)據(jù)檢索,即為用戶將需要處理的數(shù)據(jù)集中起來處理。通過分析海量數(shù)據(jù),并采用不同的檢索模型,來達到提升用戶服務效率和準確性的目的。根據(jù)傳統(tǒng)的Hadoop 等數(shù)據(jù)庫檢索模型,大數(shù)據(jù)檢索主要包括三個階段:第一階段是基于對海量用戶數(shù)據(jù)集的檢索;第二階段是基于業(yè)務用戶數(shù)據(jù)集,如:搜索、社交網(wǎng)絡等檢索;第三階段才是基于核心業(yè)務用戶數(shù)據(jù)集的檢索。此外,在對數(shù)據(jù)庫進行研究分析時,主要的研究內(nèi)容包括:如何將分散的、可訪問的、結構化和非結構化數(shù)據(jù)組合起來,建立一個數(shù)據(jù)庫。從內(nèi)容來看,數(shù)據(jù)庫分為分布式數(shù)據(jù)庫、非結構化數(shù)據(jù)庫和表數(shù)據(jù)庫。從結構來看,分布式數(shù)據(jù)庫和非結構化數(shù)據(jù)庫分別通過將不同的屬性放在不同對象上,從而構建出了不同類型的查詢系統(tǒng)、查詢引擎、擴展功能。
四、云計算在大數(shù)據(jù)網(wǎng)絡信息檢索技術中的應用
(一)云計算中私有云的具體應用
隨著互聯(lián)網(wǎng)的快速發(fā)展,信息和數(shù)據(jù)的價值不斷提高,各大企業(yè)都開始將IT 部門轉(zhuǎn)移到互聯(lián)網(wǎng)上,利用互聯(lián)網(wǎng)技術來提供信息服務。云計算中的私有云主要用于IT 部門,企業(yè)IT 部門將自己的計算資源和存儲資源等向私有云平臺遷移。從使用效果上看,私有云能夠很好地滿足IT 部門的業(yè)務需求。其主要應用如表2 所示。
1. 解決企業(yè)信息安全問題
通過應用大數(shù)據(jù),私有云可以很好地保護企業(yè)的重要信息,使企業(yè)可以有效地應對網(wǎng)絡攻擊,保障企業(yè)信息安全。在使用私有云模式時,企業(yè)可以將自己的服務器搬到私有云平臺上運行,實現(xiàn)安全托管功能。采用云計算技術在保證數(shù)據(jù)存儲信息安全的同時,能夠有效地解決企業(yè)存儲的數(shù)據(jù)存在著數(shù)據(jù)丟失和泄露等問題[4]。此外,在企業(yè)內(nèi)部還可以使用私有云模式做數(shù)據(jù)共享;在數(shù)據(jù)共享過程中,也無需擔心存儲在企業(yè)內(nèi)任何服務器與其他服務器之間存在著數(shù)據(jù)丟失和泄露等問題,從而更好地實現(xiàn)了企業(yè)內(nèi)部員工對私有云平臺數(shù)據(jù)的共享訪問,提升了企業(yè)內(nèi)部資源利用率,以及大幅度地降低企業(yè)辦公成本。
2. 支持企業(yè)業(yè)務不斷創(chuàng)新
為了保證業(yè)務處理過程中的數(shù)據(jù)安全,企業(yè)一般采用防火墻、入侵檢測、密鑰管理等安全技術,來保障業(yè)務核心數(shù)據(jù)安全。但同時企業(yè)自身缺乏相應的IT 人才,如果采用普通安全技術,這些專業(yè)人員的需求和精力有限。如果企業(yè)業(yè)務發(fā)展需要大量人力,又缺少技術人員來保障服務能力,這時候私有云就是一個很好的選擇。與傳統(tǒng)IT 技術相比,私有云平臺可提供更多的支持,在支持業(yè)務創(chuàng)新方面具有獨特優(yōu)勢。此外,基于云平臺能夠提供實時備份及安全監(jiān)控等服務以滿足客戶需求;且能夠更好地對業(yè)務擴展與個性化服務進行優(yōu)化。
3. 減少IT 人員工作強度
云計算環(huán)境下,IT 人員可將自己的資源向私有云遷移,并通過提供相應服務或技術來實現(xiàn)資源的有效利用,大大降低了IT 人員的工作強度,并提高了IT 人員的工作效率,同時避免了IT 人員出現(xiàn)重復勞動的現(xiàn)象。目前,在國內(nèi)已經(jīng)有一些大型的IT 企業(yè)開始使用云計算環(huán)境的私有云平臺進行數(shù)據(jù)遷移。用戶可通過云平臺提供相關的服務,這樣用戶既可以輕松管理自己的虛擬資源,又可以靈活操作其軟件資源或其他資源。
(二)網(wǎng)絡環(huán)境中云計算技術應用
云計算作為一種商業(yè)模式,在全球范圍內(nèi)得到了廣泛推廣,也正在各個行業(yè)中得到了廣泛運用。伴隨著互聯(lián)網(wǎng)技術的發(fā)展,網(wǎng)絡環(huán)境正變得越來越復雜多變,所以傳統(tǒng)企業(yè)需要尋找一個安全可靠、可擴展且適合自身需求的環(huán)境來開展業(yè)務,才能不斷提升自身競爭力。例如,存儲和計算系統(tǒng)會變得非常昂貴和難以維護,并且需要一個專門用以管理云計算的服務器來提供高效率;許多企業(yè)沒有足夠先進的網(wǎng)絡設施確保數(shù)據(jù)能夠安全地傳輸;或者IT 服務需要快速升級、更換和擴展等等;云計算在一定程度上都可以對這些問題進行解決。
(三)實現(xiàn)信息檢索中的計算資源
如今計算技術的日益優(yōu)化,網(wǎng)絡信息檢索技術所使用的計算資源已經(jīng)從最開始的“CPU+ 內(nèi)存部分”逐漸擴展到“硬盤+ 內(nèi)存部分”“CPU+ 內(nèi)存”以及內(nèi)存的擴展等多種方式。其中硬盤存儲數(shù)據(jù)通常以磁盤和光盤組合的方式進行。由于磁盤存儲數(shù)據(jù)占用內(nèi)存較小,因此可以將其當作磁盤存儲計算資源;而光盤存儲數(shù)據(jù)相對較為復雜,需要一定的計算資源支持才能使用。因此,針對網(wǎng)絡信息檢索技術來說,若想要利用大數(shù)據(jù)進行挖掘分析并不是一件十分簡單的事情,還需要更加深入的研究來加以解決。
(四)提高計算機的資源處理能力
隨著計算機技術的發(fā)展,能夠充分發(fā)揮出計算機硬件資源優(yōu)勢的云計算就是一種新興的計算資源應用模式。云計算在網(wǎng)絡信息檢索技術中應用的關鍵技術在于,提高數(shù)據(jù)庫信息系統(tǒng)資源處理能力,使其更快地在互聯(lián)網(wǎng)中得到應用。通過云計算技術可使大數(shù)據(jù)在企業(yè)內(nèi)部的應用更高效更便捷,使其更加適應信息化社會的發(fā)展需要[5]。當前,我國企業(yè)網(wǎng)絡信息檢索技術還不夠成熟,用戶對于網(wǎng)絡信息檢索技術要求不高,也不具備強大的網(wǎng)絡信息檢索能力。因此,我們應該大力發(fā)展云計算技術以提高計算機資源處理能力,從而能夠?qū)崿F(xiàn)更加高效的網(wǎng)絡信息檢索技術應用。
(五)拓展網(wǎng)絡信息檢索應用范圍
以云計算為基礎,可以在一定程度上拓展網(wǎng)絡信息檢索技術的應用范圍。例如,可以利用云計算技術為用戶提供信息查詢服務,這是一種基于云計算的信息查詢服務模式。用戶通過使用云計算來完成網(wǎng)絡信息的檢索目標,那么就可以利用這種模式對網(wǎng)絡信息進行分析和挖掘,并在其分析結果的基礎上確定查詢的目標或范圍,從而將網(wǎng)絡信息轉(zhuǎn)化成為有價值高效率的信息內(nèi)容或信息形式。借助云計算這種網(wǎng)絡信息查詢的模式服務用戶,將會極大地提高用戶在網(wǎng)絡信息檢索中的便利性和準確性。
五、結束語
綜上所述,在信息檢索領域中,基于云計算的大數(shù)據(jù)檢索技術與網(wǎng)絡信息檢索技術的融合是一個非常好的發(fā)展方向,其不僅能夠為信息檢索提供更加高效的解決方案,還可以實現(xiàn)資源協(xié)同辦公,為用戶提供更多便利。此外,云計算大數(shù)據(jù)技術已經(jīng)在互聯(lián)網(wǎng)領域發(fā)揮了巨大應用,但由于技術的不成熟,目前仍存在一定程度上的安全隱患。因此,要積極推動該技術在互聯(lián)網(wǎng)領域的應用和普及,建立安全可信的網(wǎng)絡環(huán)境,以確保為用戶提供更好的服務,進而促進我國大數(shù)據(jù)行業(yè)的良好發(fā)展。