李明陽(yáng) 林靜旭 廣州大學(xué)
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘
——從應(yīng)用的角度看大數(shù)據(jù)挖掘
李明陽(yáng) 林靜旭 廣州大學(xué)
大數(shù)據(jù)時(shí)代是指信息化時(shí)代,信息爆炸的時(shí)代背景下,信息、數(shù)據(jù)、資源能內(nèi)容大量出現(xiàn)且充斥在我們的生活中。針對(duì)大數(shù)據(jù)的挖掘,旨在將大數(shù)據(jù)所包含的信息內(nèi)容進(jìn)行分析,明確其各自之間存在的關(guān)系。本文中針對(duì)大數(shù)據(jù)的挖掘,主要是從大數(shù)據(jù)的定義、特點(diǎn)出發(fā),從而來了解大數(shù)據(jù)的內(nèi)涵。
大數(shù)據(jù)時(shí)代 數(shù)據(jù)挖掘 數(shù)據(jù)應(yīng)用
目前,關(guān)于大數(shù)據(jù)的研究表明,大數(shù)據(jù)從數(shù)據(jù)信息的表現(xiàn)和實(shí)際應(yīng)用兩方面觀察,存在不一樣的特性。具體來講,從表現(xiàn)上來分析,大數(shù)據(jù)具有大量、多樣、高速以及價(jià)值四個(gè)特征。首先,信息化時(shí)代下大數(shù)據(jù)的數(shù)量是龐大的,第二,在此基礎(chǔ)上,這些龐大的數(shù)量以各種各樣的形式和類型表現(xiàn)出來,如我們通常查看的圖片、視頻、音頻文件等,第三,互聯(lián)網(wǎng)的全面普及以及信息技術(shù)的更新,使得信息數(shù)據(jù)的傳播越來越迅速,而且信息數(shù)據(jù)處理的速度也有了翻天覆地的變化。第四,這些數(shù)據(jù)所蘊(yùn)含的價(jià)值是巨大的,我們可以通過搜索、查詢、處理等方式來分析這些數(shù)據(jù)信息所包含的數(shù)據(jù),從而使這些信息數(shù)據(jù)更具有價(jià)值意義。從大數(shù)據(jù)的實(shí)際應(yīng)用層面分析,大數(shù)據(jù)具有變化性、真實(shí)性、波動(dòng)性以及可視化性四個(gè)特征。信息處理技術(shù)的更新,使得對(duì)大數(shù)據(jù)的處理更加的快速和便捷,而且在新的趨勢(shì)下,大數(shù)據(jù)可視化能夠有效的促進(jìn)數(shù)據(jù)處理的速度,提升信息數(shù)據(jù)的效率,能夠更加直觀的方便獲取信息價(jià)值,充分的發(fā)揮信息數(shù)據(jù)的作用。
目前,國(guó)內(nèi)外針對(duì)大數(shù)據(jù)理論和實(shí)踐的研究非常之多,對(duì)于大數(shù)據(jù)的理解也各不相同。根據(jù)實(shí)際調(diào)查發(fā)現(xiàn),目前對(duì)大數(shù)據(jù)的定義主要包含以下幾種觀點(diǎn):大數(shù)據(jù)是多類型的海量數(shù)據(jù);大數(shù)據(jù)是規(guī)模龐大、并且具有一定的復(fù)雜性和時(shí)效性的數(shù)據(jù)集合,而且這類數(shù)據(jù)集合需要使用特定的工具,且在一定的時(shí)效內(nèi)才能對(duì)其進(jìn)行處理;大數(shù)據(jù)是一種信息類的資源和資產(chǎn),非常具有價(jià)值,但是其需要通過更為先進(jìn)科學(xué)的處理手段,才能更好的發(fā)揮其作用。綜上所述,大數(shù)據(jù)是一種來源于實(shí)際生活中,在實(shí)際生活中應(yīng)用實(shí)踐所產(chǎn)生的信息數(shù)據(jù),對(duì)于大數(shù)據(jù)的發(fā)掘是因?yàn)閷?shí)踐所需要,通過一定的方式和媒介,將數(shù)據(jù)信息挖掘出來,并加以處理,將其應(yīng)用到實(shí)踐當(dāng)中,從而產(chǎn)生更加具有價(jià)值的信息以及作用。
信息化時(shí)代背景下,數(shù)據(jù)的價(jià)值在于其產(chǎn)生-挖掘-收集這一流程,其中最為關(guān)鍵,同是也最具有意義的在于對(duì)于數(shù)據(jù)的挖掘。一般情況下,我們將海量的數(shù)據(jù)進(jìn)行處理和分析,根據(jù)分析,大數(shù)據(jù)的挖掘具有應(yīng)用性、工程性、集合性以及交叉性四個(gè)特征。具體來講,大數(shù)據(jù)挖掘的應(yīng)用性表現(xiàn)在,大數(shù)據(jù)挖掘的原因在于,實(shí)踐過程中需要數(shù)據(jù)信息作為支撐,所以需要對(duì)大數(shù)據(jù)進(jìn)行挖掘和采用,而大數(shù)據(jù)挖掘后得到的信息數(shù)據(jù),是要應(yīng)用到實(shí)踐當(dāng)中的,因此,大數(shù)據(jù)挖掘具有應(yīng)用性。大數(shù)據(jù)挖掘的工程性在于,大數(shù)據(jù)挖掘的過程是一個(gè)復(fù)雜化、組合型的過程,需要依靠多方面的支持來輔助進(jìn)行的,針對(duì)大數(shù)據(jù)的挖掘需要利用到計(jì)算算法、處理以及分析,還包括實(shí)際的數(shù)據(jù)應(yīng)用,而且這個(gè)過程中對(duì)大數(shù)據(jù)來講,需要準(zhǔn)備好數(shù)據(jù)資源,對(duì)其進(jìn)行管理、處理以及分析,然后將所獲取的信息數(shù)據(jù)重新應(yīng)用驗(yàn)證,因此可見大數(shù)據(jù)挖掘具有工程性。而大數(shù)據(jù)挖掘的集合性和交叉性分別在于,大數(shù)據(jù)的挖掘包括對(duì)于大數(shù)據(jù)的發(fā)現(xiàn)、探索、分析;相似信息的挖掘、序列發(fā)掘等類型,以具體的大數(shù)據(jù)挖掘應(yīng)用為例,針對(duì)這個(gè)數(shù)據(jù)的挖掘以及后期的應(yīng)用是涉及到多個(gè)內(nèi)容以及功能的,這些內(nèi)容和功能的使用都需要以技術(shù)、理論作為支撐,交叉性在于大數(shù)據(jù)挖掘包含多個(gè)學(xué)科知識(shí)、理論和技術(shù)的使用。
根據(jù)上文所述,大數(shù)據(jù)挖掘的關(guān)鍵在于挖掘信息的意義,即通過技術(shù)、理論等方式所挖掘的信息是否具有實(shí)用性和適用性。具體來講,針對(duì)大數(shù)據(jù)的挖掘是需要將大數(shù)據(jù)的應(yīng)用性挖掘出來。
以企事業(yè)單位為例,企事業(yè)單位的大數(shù)據(jù)庫(kù)涉及企事業(yè)單位內(nèi)部各個(gè)部門、崗位以及職員的信息數(shù)據(jù),其所包含的信息內(nèi)容具有復(fù)雜性和多樣性,針對(duì)這類單位的大數(shù)據(jù)挖掘,首先需要對(duì)單位內(nèi)部的信息數(shù)據(jù)進(jìn)行重新收集,將各個(gè)部門的信息數(shù)據(jù)進(jìn)行整合,是一項(xiàng)大工程,需要企事業(yè)單位領(lǐng)導(dǎo)階層的理解和全力支持,對(duì)下屬部門進(jìn)行溝通和要求,為大數(shù)據(jù)的收集提供便利。另外,對(duì)大數(shù)據(jù)的挖掘最終是要將處理后的信息數(shù)據(jù)應(yīng)用于實(shí)踐中,對(duì)所獲取的數(shù)據(jù)進(jìn)行檢驗(yàn),查驗(yàn)其是否具有意義和價(jià)值,因此也同樣需要領(lǐng)導(dǎo)人員的支持和支撐。
除此之外,基于數(shù)據(jù)的復(fù)雜性、多樣性、瑣碎性以及關(guān)聯(lián)性,導(dǎo)致所挖掘的大數(shù)據(jù)具有一定的模糊性,企事業(yè)單位也存在不明確信息數(shù)據(jù)的用途等可能性,這種情況下,可能就會(huì)造成數(shù)據(jù)挖掘和處理部門工作的難度增大,阻礙數(shù)據(jù)挖掘的進(jìn)程。因此,在大數(shù)據(jù)挖掘的過程中,數(shù)據(jù)挖掘處理部門需要和數(shù)據(jù)來源部門進(jìn)行詳細(xì)的溝通,明確數(shù)據(jù)挖掘的要求和目的,然后再進(jìn)行數(shù)據(jù)的收集和挖掘,通過長(zhǎng)時(shí)間的溝通和嘗試,來挖掘具有實(shí)用性的大數(shù)據(jù)。
總而言之,信息化時(shí)代下,大數(shù)據(jù)挖掘的目的在于將所挖掘處理的信息數(shù)據(jù)再次應(yīng)用到實(shí)踐中,因此,信息數(shù)據(jù)挖掘部門在進(jìn)行大數(shù)據(jù)挖掘工作中,務(wù)必要明確數(shù)據(jù)挖掘的來源、用途,才能確保所挖掘的數(shù)據(jù)和應(yīng)用具有關(guān)聯(lián)性,才能保證最終獲取的數(shù)據(jù)具有價(jià)值,避免無(wú)用之功。
[1]田志民,梁品超,任艷紅,彭程.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J/OL].當(dāng)代教育實(shí)踐與教學(xué)研究,2017,(10):4(2017-10-16).
[2]李翼,孟莉. 大數(shù)據(jù)條件下的數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J/OL]. 電子技術(shù)與軟件工程,2017,(18):198(2017-09-27).