劉敏 楊陽 武警山西省總隊
社會經(jīng)濟的不斷發(fā)展與時代的變革,人們加大了對數(shù)據(jù)挖掘的重視,為了進一步了解和掌握大數(shù)據(jù)信息,人們加大了對大數(shù)據(jù)的研究分析。本文接下來先對大數(shù)據(jù)挖掘相關(guān)問題進行了有效的闡述,便于我們對于大數(shù)據(jù)信息的進一步了解。
大數(shù)據(jù)挖掘從大面上的意思就是指技術(shù)人員通過從海量的數(shù)據(jù)信息中提取到那部分自己所需的信息。也就是指從大量的、不完善的、信息不清晰的信息數(shù)據(jù)中,抽絲剝繭的找到對人類有效發(fā)展的信息和知識的“尋找”過程。其具體的操作流程是工作人員早在海量的信息數(shù)據(jù)中利用分析處理工具對數(shù)據(jù)與模型之間的關(guān)系進行詳細的研究分析,并在尋找的過程中幫助使用者尋找數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,明確數(shù)據(jù)信息,因此,對大數(shù)據(jù)的有效挖掘是目前人們解決信息不足問題的重要手段。從數(shù)據(jù)本身角度來看,一般對大數(shù)據(jù)的挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)挖掘?qū)嵤┻^程、數(shù)據(jù)變換、知識評估和模式評估等步驟。
大數(shù)據(jù)則是通過對海量數(shù)據(jù)信息內(nèi)容的高速采集,對數(shù)據(jù)進行發(fā)現(xiàn)和解析的過程,是目前一種新型的從海量數(shù)據(jù)中摘取重要數(shù)據(jù)的技術(shù)結(jié)構(gòu)平臺,具有提取信息速度快、種類繁雜、字母體量大、價值高等特點。
在對大數(shù)據(jù)的挖掘過程中可以發(fā)現(xiàn),大數(shù)據(jù)挖掘中不僅涉及到了數(shù)據(jù)倉庫、模式識別以及建模技術(shù),還涉及到了機器學等多個領(lǐng)域內(nèi)的專業(yè)理論知識和專業(yè)技能。其中存在的數(shù)據(jù)統(tǒng)計、人工智能技術(shù)和數(shù)據(jù)倉庫是現(xiàn)階段大數(shù)據(jù)挖掘中的至關(guān)重要的三道技術(shù)支柱。
大數(shù)據(jù)時代下,目前我國的數(shù)據(jù)形式屬于剛發(fā)展階段,主要還是以對數(shù)據(jù)的挖掘為主體內(nèi)容,也就是加深對大數(shù)據(jù)挖掘概念的進一步理解,對大數(shù)據(jù)的挖掘是人們進一步了解和掌握大數(shù)據(jù)的基礎(chǔ)。大數(shù)據(jù)和數(shù)據(jù)挖掘都是以提取對人類發(fā)展更有效的信息而進行的數(shù)據(jù)信息挖掘,從表面層次看,兩者之間沒有顯著的區(qū)別,但隨著對數(shù)據(jù)挖掘的不斷深入就會發(fā)現(xiàn),數(shù)據(jù)挖掘的針對目標不只限于少量的數(shù)據(jù),對海量數(shù)據(jù)同樣適用,只是在挖掘方法和挖掘技術(shù)上進行了有效的改變與更新,并更換了一種新的叫法成為“大數(shù)據(jù)”,其次,大數(shù)據(jù)的關(guān)鍵點不在于“大”,而是挖掘者需要轉(zhuǎn)變自身傳統(tǒng)的思想觀念,采用新型的思想和新型的技術(shù)手段對海量的數(shù)據(jù)進行解析,并有效提取其中的有用信息數(shù)據(jù),這樣就可以對社會未來的發(fā)展形勢進行有效的預(yù)估工作,同時還可以根據(jù)其中所包含的結(jié)構(gòu)形式,創(chuàng)新新型的產(chǎn)品和服務(wù)工程。因此大數(shù)據(jù)與數(shù)據(jù)的挖掘在一定的時期內(nèi)仍處于相互共存的形式,究其兩者之間的差別就在于如何實現(xiàn)數(shù)據(jù)價值的最大化。
大數(shù)據(jù)是數(shù)據(jù)發(fā)掘產(chǎn)業(yè)化的重要表現(xiàn),數(shù)據(jù)的價值在于數(shù)據(jù)關(guān)鍵信息的提取,利益則是技術(shù)價值的重要體現(xiàn),數(shù)據(jù)挖掘作為專業(yè)技術(shù)領(lǐng)域當中的一種專業(yè)性名詞,在高端的商業(yè)領(lǐng)域當中也是需要修飾和升級的?,F(xiàn)階段的大數(shù)據(jù)的有效發(fā)展已逐漸成為了增強我國市場經(jīng)濟競爭力的至關(guān)重要的因素的一種,被譽為創(chuàng)新發(fā)展和生產(chǎn)力進一步提升的下一個戰(zhàn)略目標,得到了各國的高度重視,相關(guān)國家的各個政府部門在對大數(shù)據(jù)的發(fā)展上給予了最大程度的幫助與支持,甚至將其有效發(fā)展升級到了國家的戰(zhàn)略發(fā)展層次上。
非結(jié)構(gòu)化處理流程的內(nèi)容主要包含了對數(shù)據(jù)信息方面的采集工作、網(wǎng)頁分類和網(wǎng)頁預(yù)處理等三個重要階段的內(nèi)容。
第一、信息采集。信息采集是指將沒有規(guī)則、順序的信息從海量的網(wǎng)頁數(shù)據(jù)當中分門別類的提取出來,并對其進行有效的數(shù)據(jù)庫存整理錄入的過程。由于這些技術(shù)型的工作大部分是由具有專業(yè)技術(shù)能力的采集人員完成的,因此所采集到的信息具有一定的局限性,而且基于對成本和性能的考慮,達不到對整個網(wǎng)絡(luò)進行全面覆蓋閱覽的目的,因此在對信息的采集方面技術(shù)人員要先考慮其是否有被訪問的價值,然后在研究以哪種形式對web進行訪問,最大程度的提升對有用信息的采集率。
第二、網(wǎng)頁分類。網(wǎng)頁分類是指專業(yè)的數(shù)據(jù)信息處理人員利用對數(shù)據(jù)挖掘算法得出的分類模型,從而對數(shù)據(jù)進行有效的分類處理,并得出對人類有價值的數(shù)據(jù)信息。目前對于數(shù)據(jù)挖掘中人們所面臨的重大問題就是對于網(wǎng)頁的分類,由于對物品進行有效的分類,可以幫助人們正確的認識世界,所以分類問題對于人類發(fā)展來說至關(guān)重要。
第三、網(wǎng)頁預(yù)處理。網(wǎng)頁預(yù)處理就是通過對數(shù)據(jù)進行一對一的篩選過程,確保信息的準確性和使用價值,主要是對網(wǎng)頁進行的去重處理,基于對URL的去重對比上,通常適用于對哈希算法。在信息內(nèi)容的對比去重上則采用的是信息指紋的文本相似度算法,不管哪種方法,都是對網(wǎng)頁進行的去重處理。首先,先要對文檔的內(nèi)容進行分解處理,采用部分結(jié)合文檔的體征進行的集中表達,這樣主要是為了簡化特征比較計算相似度。其次是針對與特征相對應(yīng)的壓縮碼進行專業(yè)的處理,節(jié)省存儲空間,提高比較速度。最后對文檔的相似度進行逐一計算,根據(jù)文檔特征的重合比例來確定是否對文檔進行處理。
綜上所述,大數(shù)據(jù)時代下,對大數(shù)據(jù)的挖掘已成為未來時代發(fā)展的必然發(fā)展條件,是整個數(shù)據(jù)應(yīng)用過程的核心環(huán)節(jié)。通過對大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法的內(nèi)容分析可以得出,大數(shù)據(jù)的解析是通過把海量數(shù)據(jù)進行逐一篩選、分門別類,并按順序整合錄入數(shù)據(jù)庫后,找出對人類未來發(fā)展有用的信息。通過對信息價值的進一步分析,充分了解當前大數(shù)據(jù)的結(jié)構(gòu),并對其進行嚴格的把控,對數(shù)據(jù)采集應(yīng)用的有效發(fā)展具有重要意義。