陳永強(qiáng)
?
數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用
陳永強(qiáng)
廣東省電信規(guī)劃設(shè)計院有限公司,廣東 廣州 510630
在大數(shù)據(jù)時代,信息資源是最有價值的信息。在信息量極大、極豐富的網(wǎng)絡(luò)中,如何選擇對自己有用的信息是一個重要課題。在傳統(tǒng)的信息資源利用過程中,搜索引擎可以查詢到各種信息,但是只限于查詢信息,對信息的深入挖掘力度不夠,因此導(dǎo)致信息的價值得不到體現(xiàn)?;诖?,對數(shù)據(jù)挖掘技術(shù)在信息網(wǎng)絡(luò)檢索過程中的應(yīng)用策略進(jìn)行了分析與探討。
數(shù)據(jù)挖掘;網(wǎng)絡(luò)信息檢索;數(shù)據(jù)應(yīng)用
當(dāng)今社會已進(jìn)入信息時代。計算機(jī)信息技術(shù)已成為工作和生活中的常用技術(shù)?;ヂ?lián)網(wǎng)為人們的交流以及信息傳遞過程帶來了便利。網(wǎng)絡(luò)環(huán)境中產(chǎn)生了巨大的信息數(shù)據(jù)量,催生了大數(shù)據(jù)技術(shù)。在海量的信息數(shù)據(jù)中想要尋找自己所需要的信息,想要挖掘各種網(wǎng)絡(luò)信息數(shù)據(jù)中的核心內(nèi)容,并非易事。數(shù)據(jù)挖掘技術(shù)是挖掘信息技術(shù)的主要技術(shù)之一,可以滿足人們的信息基本需求,能夠從大量的網(wǎng)絡(luò)信息資源中篩選出自己所需要的信息,并且能夠深入分析信息,挖掘出信息中隱含的知識和價值。數(shù)據(jù)挖掘技術(shù)是在信息檢索技術(shù)的基礎(chǔ)上發(fā)展起來的一種新技術(shù)。首先要通過信息檢索,得出一定范圍內(nèi)的數(shù)據(jù)信息,然后才能對這些信息進(jìn)行挖掘和分析,從而使得更多隱性知識可以被挖掘出來。數(shù)據(jù)挖掘過程還能拓展信息數(shù)據(jù)的檢索范圍,在檢索的過程中實現(xiàn)對數(shù)據(jù)的深入挖掘,真正發(fā)揮出信息資源的價值。
網(wǎng)絡(luò)是人們生活中的重要工具。通過網(wǎng)絡(luò)人們可以完成各種工作,可以開展娛樂,也可以滿足自己的精神文化需求。人們生活中的方方面面都可以在網(wǎng)絡(luò)上進(jìn)行。網(wǎng)絡(luò)上的信息資源量巨大、豐富,涉及各行各業(yè),如工業(yè)、農(nóng)業(yè)、文學(xué)、航天、地理、醫(yī)療、娛樂等,每個領(lǐng)域都有大量的網(wǎng)絡(luò)信息[1]。在網(wǎng)絡(luò)信息資源的利用過程中,信息的利用方式也發(fā)生了巨大的改變,計算機(jī)和互聯(lián)網(wǎng)是網(wǎng)絡(luò)信息資源的載體。在利用網(wǎng)絡(luò)信息資源的時候也要利用計算機(jī)技術(shù)。
第一,信息量巨大。網(wǎng)絡(luò)信息資源已不再以MB計算,而是以ZB為單位計算。網(wǎng)絡(luò)信息資源的信息量非常大,種類繁多,主要的信息數(shù)據(jù)有文本、圖像、音頻、視頻等,類型越來越豐富。網(wǎng)絡(luò)信息資源的內(nèi)容不是單一的。不僅存在健康的、積極正面的消息,而且也有很多消極的、虛假負(fù)面的消息;不僅包括個人信息,而且也包括政府信息。
第二,網(wǎng)絡(luò)信息資源管理機(jī)制多樣化。由于網(wǎng)絡(luò)信息資源數(shù)量巨大,而且信息資源的管理難度較大,缺乏統(tǒng)一的管理機(jī)制,因此在網(wǎng)絡(luò)中信息數(shù)據(jù)存在很大的安全隱患。一些黑客和不法分子可能通過計算機(jī)技術(shù)、病毒等入侵用戶的計算機(jī)系統(tǒng),獲取一些信息,從而威脅用戶的信息安全。
第三,網(wǎng)絡(luò)信息資源的質(zhì)量參差不齊。隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)信息資源的更新速度十分快。不僅有專業(yè)的信息平臺發(fā)布信息,而且人們也是發(fā)布信息的主體,也可以成為信息的發(fā)送方和接收方。日常生活中產(chǎn)生了多種多樣的信息,導(dǎo)致網(wǎng)絡(luò)信息的監(jiān)管比較困難,內(nèi)容多樣化,質(zhì)量參差不齊。
第四,交流更多元化。信息化時代背景下,網(wǎng)絡(luò)信息資源的類型十分豐富,涉及的行業(yè)、領(lǐng)域等都不相同,給用戶之間的信息交流提供了很好的渠道和平臺。人們可以利用網(wǎng)絡(luò)查詢自己想要的信息,并且能夠?qū)@些網(wǎng)絡(luò)信息進(jìn)行加工,從而使得分散的網(wǎng)絡(luò)信息整合成為完整的信息,形成信息網(wǎng)絡(luò)。
在網(wǎng)絡(luò)信息技術(shù)發(fā)展的過程中,對網(wǎng)絡(luò)信息挖掘技術(shù)的研究也越來越深入,信息數(shù)據(jù)的挖掘能力有了很大程度的提升。網(wǎng)絡(luò)信息挖掘主要包括以下幾個方面。
在海量信息系統(tǒng)中,信息的類型多種多樣。對各種信息數(shù)據(jù)進(jìn)行挖掘,實質(zhì)是對信息的內(nèi)容進(jìn)行分析,從海量信息內(nèi)容中挖掘出最有價值的部分。傳統(tǒng)的信息利用往往只是利用信息的表層信息,利用了信息的表層價值,但有的網(wǎng)絡(luò)信息資源需要通過專業(yè)的工具或者方法獲取,比如用戶通過提問而動態(tài)生成的結(jié)果就屬于深入挖掘產(chǎn)生的信息。還有一些私人的網(wǎng)絡(luò)數(shù)據(jù),普通的檢索技術(shù)是不能檢索出來的。數(shù)據(jù)挖掘技術(shù)對應(yīng)的是數(shù)據(jù)的深層次應(yīng)用。在分析數(shù)據(jù)的過程中,多種不同類型的數(shù)據(jù)信息,比如文字、圖像、視頻等信息資源,都是數(shù)據(jù)挖掘和分析的對象[2]。
在整合網(wǎng)絡(luò)信息過程中會產(chǎn)生不同的網(wǎng)絡(luò)信息結(jié)構(gòu),對網(wǎng)絡(luò)信息的結(jié)構(gòu)形式進(jìn)行挖掘、分析,也是了解數(shù)據(jù)的本質(zhì),是對數(shù)據(jù)進(jìn)行充分利用的關(guān)鍵。結(jié)構(gòu)挖掘是一種結(jié)合互聯(lián)網(wǎng)開展的信息挖掘方式,其目的就是要對Web和網(wǎng)頁結(jié)構(gòu)中的各種隱性知識以及隱藏的數(shù)據(jù)進(jìn)行挖掘,然后將這些網(wǎng)頁中的信息整合起來,形成規(guī)范的、統(tǒng)一的分類,并且通過不同網(wǎng)頁之間相互聯(lián)系,建立起數(shù)據(jù)之間的相互聯(lián)系,讓用戶在某一個網(wǎng)頁中挖掘信息的時候也能瀏覽到相關(guān)的數(shù)據(jù)和網(wǎng)頁結(jié)構(gòu)。
網(wǎng)絡(luò)信息的使用目的各不相同,其具體的使用目的是根據(jù)網(wǎng)絡(luò)信息的類型確定的。在分析網(wǎng)絡(luò)信息用法的時候,首先要了解這些網(wǎng)絡(luò)數(shù)據(jù)的實際意義。網(wǎng)絡(luò)信息的用法挖掘針對的是用戶在使用網(wǎng)絡(luò)的過程中所產(chǎn)生的各種信息數(shù)據(jù),側(cè)重于信息的使用過程。例如,用戶在使用瀏覽器搜索信息、查詢相關(guān)文件的時候,瀏覽器就會記載相關(guān)的信息等。這些都是用戶在使用信息的時候留下的痕跡。對網(wǎng)絡(luò)信息用法進(jìn)行挖掘,就可以對瀏覽器、服務(wù)器中的一些隱藏的信息進(jìn)行挖掘,從而了解用戶使用網(wǎng)絡(luò)以及使用信息的行為習(xí)慣。根據(jù)大數(shù)據(jù)技術(shù)的分析結(jié)果,對用戶的習(xí)慣做出相應(yīng)的判斷和分析,實現(xiàn)對用戶的高效管理。
網(wǎng)絡(luò)搜索引擎是網(wǎng)絡(luò)信息利用過程中的關(guān)鍵。搜索引擎是搜索信息的工具,能及時搜索網(wǎng)絡(luò)中的信息,但對數(shù)據(jù)的深入分析和挖掘的能力較弱,所以在使用搜索引擎的時候只能根據(jù)用戶給出的關(guān)鍵詞收集網(wǎng)絡(luò)信息數(shù)據(jù),無法處理用戶給出的模糊樣本信息,而且也不能對網(wǎng)絡(luò)數(shù)據(jù)未來的變化趨勢進(jìn)行預(yù)測和統(tǒng)計。網(wǎng)絡(luò)信息挖掘中往往不止使用一種技術(shù),而是多種技術(shù)的相互融合,只有這樣才能發(fā)揮數(shù)據(jù)檢索和挖掘的功能。
網(wǎng)絡(luò)的快速發(fā)展導(dǎo)致網(wǎng)絡(luò)上的信息量巨大,信息過載、信息超載的現(xiàn)象十分嚴(yán)重。網(wǎng)絡(luò)上有各種各樣的信息。有的信息資源是有價值的,有的卻是虛假的、負(fù)面的,毫無應(yīng)用價值。數(shù)據(jù)挖掘通常都和信息過濾技術(shù)相互配合使用,在挖掘信息的時候就會自動過濾一些不相關(guān)的、虛假的消息,從而使得網(wǎng)絡(luò)中留下來的、呈現(xiàn)給用戶的信息是一些健康的、積極的、有價值的信息。為了實現(xiàn)信息過濾,在挖掘網(wǎng)絡(luò)信息數(shù)據(jù)之前,系統(tǒng)一般會對網(wǎng)絡(luò)文檔的信息進(jìn)行初次過濾,然后根據(jù)用戶的搜索情況對搜索到的數(shù)據(jù)進(jìn)行分類,減少了挖掘處理的數(shù)據(jù)量,提高了數(shù)據(jù)質(zhì)量以及用戶處理信息的效率。另外,數(shù)據(jù)的挖掘本身也是對網(wǎng)絡(luò)信息進(jìn)行過濾的過程,其中最重要的是個性化。因為不同的用戶需要不同的信息,在信息檢索和信息挖掘過程中必須根據(jù)用戶的挖掘行為得出相應(yīng)的數(shù)據(jù)信息。因為現(xiàn)階段大數(shù)據(jù)技術(shù)的應(yīng)用十分廣泛,通過大數(shù)據(jù)技術(shù)可以及時了解用戶的瀏覽習(xí)慣,了解用戶感興趣的信息的領(lǐng)域、范疇,使用戶在挖掘信息的時候可以自動篩選,給用戶提供相應(yīng)的信息。經(jīng)過過濾技術(shù)的應(yīng)用,系統(tǒng)在給用戶推薦相關(guān)信息的時候,這些網(wǎng)頁以及信息的內(nèi)容是已被過濾掉的,剩余的信息就是高質(zhì)量的優(yōu)質(zhì)信息,可以提高用戶服務(wù)質(zhì)量[3]。
可視化技術(shù)與數(shù)據(jù)挖掘技術(shù)是兩個相互補(bǔ)充的技術(shù)。這兩個領(lǐng)域相互關(guān)聯(lián)性強(qiáng)。通常來講,如果可以將一個業(yè)務(wù)問題轉(zhuǎn)化成多維度的、可比較的、層次性問題,那么就可以通過數(shù)據(jù)可視化工具以及可視化技術(shù)對該業(yè)務(wù)進(jìn)行分析、評估,解決業(yè)務(wù)中的各種實際問題。通過信息挖掘產(chǎn)生的信息具有很高的信息利用價值。這些知識都能成為預(yù)示未來的信息,通過可視化技術(shù)可以很好地揭示信息之間的關(guān)系。在信息挖掘過程中,可視化技術(shù)可以使得整個信息的檢索和挖掘過程變得可視、可控制,而且有助于了解用戶的信息需求和使用信息網(wǎng)絡(luò)的習(xí)慣,還可以使用一些比較直觀的圖像來實現(xiàn)信息檢索目的,提高用戶的檢索效率。此外,圖像的可視化也加深了用戶對各種數(shù)據(jù)信息的理解,有助于提高信息資源的利用效率。
綜上所述,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息資源越來越多。如何從海量信息中挖掘出有用的信息,是未來計算機(jī)信息技術(shù)領(lǐng)域研究的重點內(nèi)容之一。在信息數(shù)據(jù)的利用過程中,必須加強(qiáng)對數(shù)據(jù)挖掘技術(shù)的應(yīng)用,利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)對數(shù)據(jù)的深層次挖掘、分析,發(fā)揮數(shù)據(jù)信息的價值。
[1]董慧,唐敏. 數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用[J]. 情報雜志,2010,29(b06):153-156.
[2]張敬. 數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的類型及應(yīng)用[J]. 數(shù)字技術(shù)與應(yīng)用,2012(1):144.
[3]張欣,郭廣楠,張瑜. 數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用[J]. 電腦迷旬刊,2013(5):40-41.
Data Mining and Its Application in Network Information Retrieval
Chen Yongqiang
Guangdong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630
In the era of big data, information resources are the most valuable information. In the network with great and abundant information, how to choose the useful information is an important topic. In the process of using the traditional information resources, the search engine can query the information, but only the information is limited to the information, so the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. The value can not be reflected. The paper analyzes and discusses the application strategy of data mining technology in information network retrieval process.
data mining; network information retrieval; data application
TP311.13;TP391.3
A