李靜燕
摘要:計(jì)算機(jī)技術(shù)的飛速發(fā)展,帶動(dòng)社會(huì)各項(xiàng)事業(yè)共同進(jìn)步,其中大數(shù)據(jù)時(shí)代的來(lái)臨為更多的行業(yè)帶來(lái)新的發(fā)展契機(jī)。不僅科研單位對(duì)數(shù)據(jù)的獲取與挖掘提高了重視,企業(yè)發(fā)展對(duì)數(shù)據(jù)的內(nèi)容和可靠性也產(chǎn)生較強(qiáng)的依賴性。在這種背景下,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為一種主流技術(shù),在大數(shù)據(jù)的發(fā)展中發(fā)揮著重要的作用。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘技術(shù);分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)09-0230-01
數(shù)據(jù)挖掘技術(shù)是基于計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的新型技術(shù),通常也可以稱之為數(shù)字處理技術(shù)。具體指的是對(duì)各大企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u(píng)估等一系列操作,目的是實(shí)現(xiàn)全局?jǐn)?shù)據(jù)的優(yōu)化。大數(shù)據(jù)技術(shù)跟以往抽樣方式有很大的不同,大數(shù)據(jù)技術(shù)通過(guò)對(duì)全局?jǐn)?shù)據(jù)進(jìn)行全面分析,保證分析的可靠性。大數(shù)據(jù)技術(shù)的優(yōu)點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:高數(shù)量、高速度、多元化以及高價(jià)值。
1 大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)概述
1.1 大數(shù)據(jù)技術(shù)的發(fā)展情況
在一定的時(shí)間范圍內(nèi),有些數(shù)據(jù)不能通過(guò)常規(guī)的軟件進(jìn)行捕捉、管理和處理,我們將這些數(shù)據(jù)的集合稱為大數(shù)據(jù)。海量的數(shù)據(jù)信息和高強(qiáng)度的數(shù)據(jù)處理能力是大數(shù)據(jù)技術(shù)的兩個(gè)重要內(nèi)容,這也是不同于傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的兩個(gè)重要方面。大數(shù)據(jù)技術(shù)的主要用途在于完成對(duì)大型復(fù)雜數(shù)據(jù)模塊的高效分析,具體工作包括對(duì)數(shù)據(jù)的收集、分析、共享以及傳輸?shù)?。超前性也是大?shù)據(jù)分析的重要特點(diǎn)。不同于傳統(tǒng)的數(shù)據(jù)處理方式,大數(shù)據(jù)分析技術(shù)具有一定的預(yù)測(cè)性,完成分析之后,能夠及時(shí)對(duì)數(shù)據(jù)進(jìn)行提取,保證數(shù)據(jù)分析的實(shí)際價(jià)值。在分析過(guò)程中還會(huì)發(fā)現(xiàn)數(shù)據(jù)之間新的聯(lián)系以及新的信息,這對(duì)于多個(gè)領(lǐng)域的發(fā)展具有重要的作用。
1.2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是基于計(jì)算機(jī)技術(shù)和大數(shù)據(jù)發(fā)展的新型學(xué)科,數(shù)據(jù)挖掘技術(shù)起源于上世紀(jì)80年代,當(dāng)時(shí)的數(shù)據(jù)挖掘在本質(zhì)上跟現(xiàn)在有較大的區(qū)別??蒲泄ぷ髡邔?duì)大數(shù)據(jù)的研究最初只是為了推動(dòng)人工智能技術(shù)的發(fā)展。數(shù)據(jù)挖掘技術(shù)本質(zhì)上是一個(gè)對(duì)數(shù)據(jù)進(jìn)行挖掘并創(chuàng)新的過(guò)程。因此挖掘過(guò)程中對(duì)目標(biāo)數(shù)據(jù)也有一定的要求,目標(biāo)數(shù)據(jù)應(yīng)該具備以下特征:隱蔽性、具有挖掘價(jià)值以及挖掘潛力,從而保證數(shù)據(jù)挖掘工作的意義。數(shù)據(jù)挖掘者需要在隨機(jī)、模糊、冗雜的數(shù)據(jù)庫(kù)對(duì)目標(biāo)數(shù)據(jù)完成挖掘,這也是最主要的工作方式。從商業(yè)經(jīng)濟(jì)層面來(lái)講,數(shù)據(jù)挖掘技術(shù)還有一個(gè)重要的意義,就是通過(guò)分析完成對(duì)數(shù)據(jù)規(guī)律和價(jià)值信息的獲取,這些數(shù)據(jù)規(guī)律對(duì)公司的重要決策確定具有重要的指導(dǎo)意義。
2 大數(shù)據(jù)中的算法分析
大數(shù)據(jù)技術(shù)處理的數(shù)據(jù)量龐大,并且呈現(xiàn)出來(lái)的是無(wú)規(guī)律的隨機(jī)狀態(tài),通過(guò)挖掘技術(shù)獲取數(shù)據(jù)的價(jià)值時(shí),應(yīng)該對(duì)算法有一定的要求。常用的大數(shù)據(jù)算法有神經(jīng)網(wǎng)絡(luò)算法和灰色關(guān)聯(lián)度分析。
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)算法主要是通過(guò)神經(jīng)網(wǎng)絡(luò)系統(tǒng)對(duì)神經(jīng)元的控制處理形成最終的算法。整個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)包含大量的神經(jīng)元,不同神經(jīng)元之間通過(guò)具有調(diào)節(jié)性的連接權(quán)值完成,如圖1所示。
大規(guī)模并行處理、分布式信息存儲(chǔ)、良好的自組織自學(xué)習(xí)能力等是神經(jīng)網(wǎng)絡(luò)系統(tǒng)的主要特點(diǎn)。神經(jīng)網(wǎng)絡(luò)是處理神經(jīng)元集合的一種計(jì)算方式,主要目的在于有效解決生物神經(jīng)元的大集群?jiǎn)栴},這些生物神經(jīng)元之間通過(guò)軸突完成連接。另外,由于神經(jīng)元之間相互連接,相互影響,因此單一神經(jīng)元對(duì)與之連接的神經(jīng)元的激活狀態(tài)會(huì)產(chǎn)生不同程度的抑制作用。單一的神經(jīng)元還有將輸入值組合求和的功能。每個(gè)神經(jīng)元本身還具有容納閾值函數(shù)和限制函數(shù)的能力,因此信號(hào)在不同神經(jīng)元之間傳遞時(shí),需要沖破限制。這一功能已經(jīng)被應(yīng)用于編程的困難任務(wù)中。神經(jīng)網(wǎng)絡(luò)算法的特征體現(xiàn)在包含具有一些動(dòng)力系統(tǒng)的認(rèn)知模型參數(shù)中的知識(shí),這對(duì)于高級(jí)人工智能的發(fā)展大有裨益。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)度分析也是一種常用的大數(shù)據(jù)算法的分析方式,數(shù)據(jù)因素在發(fā)展趨勢(shì)上會(huì)呈現(xiàn)一定的相同性和不同性,對(duì)這些相同和不同進(jìn)行歸納分析的過(guò)程就是灰色關(guān)聯(lián)度分析的過(guò)程。在數(shù)據(jù)信息上,可以定義兩個(gè)理想狀態(tài),即沒(méi)有信息的黑色情況和具有完美信息的白色情況。而實(shí)際中的狀態(tài)就是介于兩者之間的灰色狀態(tài)?;疑珷顟B(tài)的內(nèi)容較多,即有部分是已知信息,也包含部分未知信息。而灰色情況的信息質(zhì)量形成在于信息的絕對(duì)缺乏到信息完整存在的過(guò)渡?;疑闆r具有一定的不確定性,因此灰色分析可以有效得出關(guān)于解決方案的相關(guān)內(nèi)容。在實(shí)際應(yīng)用上,灰色分析主要用于篩選最優(yōu)方案,改善問(wèn)題的解決方式。
2.3 大數(shù)據(jù)平臺(tái)的設(shè)計(jì)
在計(jì)算機(jī)技術(shù)發(fā)展的衍生技術(shù)中,虛擬化技術(shù)在一定程度上促進(jìn)了大數(shù)據(jù)技術(shù)的發(fā)展和云平臺(tái)的搭建。虛擬化技術(shù)還可以實(shí)現(xiàn)數(shù)據(jù)資源的有效整合,并將數(shù)據(jù)資源中的高質(zhì)量數(shù)據(jù)進(jìn)行處理并存儲(chǔ)。借助職能設(shè)備,將資源進(jìn)行合理分配,進(jìn)而不斷優(yōu)化自身系統(tǒng)。優(yōu)化主要體現(xiàn)在以下三個(gè)層面:
(1)平臺(tái)層。大數(shù)據(jù)本身的存儲(chǔ)方式和管理技術(shù),能夠?qū)?shù)據(jù)進(jìn)行高效處理,為科研活動(dòng)的開(kāi)展保駕護(hù)航。
(2)功能層。采用擴(kuò)展法對(duì)目標(biāo)數(shù)據(jù)進(jìn)行挖掘,通過(guò)建立數(shù)據(jù)模型,可以有效完成云計(jì)算以及分布的處理能力,改善數(shù)據(jù)的處理效率。
(3)服務(wù)層。借助于WEB與Open API的大數(shù)據(jù)挖掘處理技術(shù),可以在副I大數(shù)據(jù)的環(huán)境下完成數(shù)據(jù)的分析,優(yōu)化端口管理方式和流程,改善端口智能配置,加強(qiáng)數(shù)據(jù)的交換,科學(xué)合理地實(shí)現(xiàn)大數(shù)據(jù)的共享。受到管理層次的影響,應(yīng)該通過(guò)合理控制輸入輸出保證數(shù)據(jù)的高效交換。
3 結(jié)語(yǔ)
綜上所述,盡管數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了一定的發(fā)展階段,但新背景下的數(shù)據(jù)挖掘技術(shù)依然有較大的發(fā)展空間,尤其在特殊領(lǐng)域的應(yīng)用中,這種前景更加明朗。因此研究這項(xiàng)技術(shù),對(duì)于創(chuàng)造更大的經(jīng)濟(jì)效益和社會(huì)效益具有重要作用。
參考文獻(xiàn)
[1]楊華昆.大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)[J].電腦編程技巧與維護(hù),2015,(24):22.
[2]孔志文.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].電子技術(shù)軟件,2015,(23):68.
[3]石靜靜.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)探討[J].數(shù)字技術(shù)與應(yīng)用,2016,(03):92.
[4]孫勤紅.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及應(yīng)用[J].電子技術(shù),2016,(06):72.endprint