關(guān)鍵詞:大數(shù)據(jù)背景;數(shù)學(xué);數(shù)據(jù)處理;數(shù)據(jù)挖掘
一、數(shù)學(xué)發(fā)展現(xiàn)狀及其與大數(shù)據(jù)的關(guān)系
眾所周知,數(shù)學(xué)是理科類的一門基礎(chǔ)學(xué)科,歷來被各個(gè)高校高度重視,為此,清華和北大還專門設(shè)立了數(shù)學(xué)科學(xué)研究中心,對(duì)數(shù)學(xué)理論知識(shí)進(jìn)行專門的探索。隨著時(shí)代的發(fā)展,數(shù)學(xué)領(lǐng)域的研究成果越來越豐富,但是可供研究的領(lǐng)域越來越窄,從牛頓和萊布尼茨發(fā)明微積分直至今天,數(shù)學(xué)研究的方向已被一一攻克。因此,如果今天想在數(shù)學(xué)這塊領(lǐng)域有所突破,已經(jīng)困難重重。當(dāng)前,數(shù)學(xué)在專業(yè)建設(shè)中處于非常被動(dòng)的地位。但是隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)處理與分析需要數(shù)學(xué)知識(shí)提供更多的專業(yè)支持。
大數(shù)據(jù)(Bid Data)是指超過傳統(tǒng)數(shù)據(jù)庫處理能力的數(shù)據(jù),是需要新的處理模式才能有更強(qiáng)的決策力、洞察力從而適應(yīng)大量和多樣化的信息資產(chǎn)[1]。由此可見,大數(shù)據(jù)作為一種新的信息資產(chǎn)源,需要具備特定的處理模式,也才能擁有獨(dú)特的元素,它所具備的這種特定的處理模式,必須由數(shù)學(xué)這門學(xué)科作為基礎(chǔ)。意思就是,如果缺乏數(shù)學(xué)知識(shí),那么大數(shù)據(jù)也就不具備任何意義,不僅不具備特定的處理模式,更無從談起對(duì)信息資產(chǎn)的應(yīng)用。因此,對(duì)數(shù)學(xué)及其知識(shí)額運(yùn)用,是大數(shù)據(jù)背景下的急切需要。
二、大數(shù)據(jù)背景下數(shù)學(xué)知識(shí)應(yīng)用的重要意義
大數(shù)據(jù)背景下,數(shù)學(xué)知識(shí)的應(yīng)用影響主要在大數(shù)據(jù)的處理及數(shù)學(xué)挖掘兩個(gè)方面。IBM公司將大數(shù)據(jù)的特征概括為“3V”,Velocity(快速)、 Volume(規(guī)模)和 Variety(多樣化),而如今人們又加上了Value(低價(jià)值密度)和Veracity(真實(shí)性)兩個(gè)特性[2]。也就是人們今天提到的“5V”。這就說明,大數(shù)據(jù)不僅能容量大量、多樣化、真實(shí)性的數(shù)據(jù),而且具有快速的數(shù)據(jù)與處理能力。權(quán)威根據(jù)統(tǒng)計(jì)數(shù)字表明,權(quán)世界每年的數(shù)據(jù)增長都在50%以上,而且這一數(shù)值還在不斷增加。這些不斷增加膨脹的數(shù)據(jù)是需要專業(yè)的數(shù)學(xué)知識(shí)來進(jìn)行統(tǒng)計(jì)與處理,才能在實(shí)踐中不斷得到應(yīng)用。同時(shí),在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘也有很重要的意義,其誕生也與大數(shù)據(jù)背景密切相關(guān)。在數(shù)據(jù)挖掘剛剛產(chǎn)生之時(shí),其被專家們解釋為“從大量的、模糊的、不完整的、雜亂的數(shù)據(jù)當(dāng)中提取潛在的有用的信息隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中但又有潛在價(jià)值的信息”在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘已經(jīng)被應(yīng)用于通信、教育、科研、機(jī)械制造等各個(gè)產(chǎn)業(yè)領(lǐng)域,并且數(shù)據(jù)挖掘在人工智能領(lǐng)域也發(fā)揮重要的作用[3]。在數(shù)據(jù)挖掘過程中,同樣也少不了數(shù)學(xué)知識(shí)的運(yùn)用,一旦脫離數(shù)學(xué)知識(shí),它便無法提取數(shù)據(jù)中潛在的有價(jià)值的信息,獲取的數(shù)據(jù)也將無任何意義。
三、大數(shù)據(jù)背景下數(shù)學(xué)的應(yīng)用
(一) 數(shù)學(xué)在數(shù)據(jù)處理當(dāng)中的運(yùn)用
在大數(shù)據(jù)中,如果需要對(duì)數(shù)據(jù)進(jìn)行正確有效的分析,首先要進(jìn)行的就是收集與初步處理這些數(shù)據(jù)。同時(shí),大數(shù)據(jù)在使用的過程中對(duì)于時(shí)效性有著很高的要求,因此,就必須對(duì)數(shù)據(jù)處理的時(shí)間進(jìn)行嚴(yán)格的把控,也就意味著在數(shù)據(jù)處理的效率以及處理的結(jié)構(gòu)上要求都及其嚴(yán)格。本身原始數(shù)據(jù)自身所具備的特質(zhì),也會(huì)很大程度上影響對(duì)數(shù)據(jù)的收集與處理。比如,在對(duì)一個(gè)大數(shù)據(jù)進(jìn)行信息收集與處理的過程當(dāng)中當(dāng),如果原始數(shù)據(jù)有很大的干擾因素,比如噪聲,就會(huì)對(duì)我們進(jìn)行數(shù)據(jù)處理帶來很大的不便。這個(gè)時(shí)候,為了確保數(shù)據(jù)準(zhǔn)確無誤,大數(shù)據(jù)就會(huì)對(duì)數(shù)據(jù)進(jìn)行早期的預(yù)處理。這時(shí)候,為了使處理效率得到提升,在運(yùn)用大數(shù)據(jù)的過程中,數(shù)學(xué)知識(shí)當(dāng)中大量的分析方法就會(huì)大顯身手。通常情況下,大數(shù)據(jù)所運(yùn)用的分析方法為統(tǒng)計(jì)分析法,描述性分析法如、相關(guān)性分析法等。舉個(gè)例子,當(dāng)一個(gè)數(shù)據(jù)需要對(duì)模型或參數(shù)進(jìn)行判斷或者檢驗(yàn)時(shí),就會(huì)運(yùn)用回歸分析法來對(duì)大數(shù)據(jù)進(jìn)行估計(jì),并建立起科學(xué)的數(shù)學(xué)模型。
(二)數(shù)學(xué)在數(shù)據(jù)挖掘當(dāng)中的運(yùn)用
在實(shí)踐過程中,數(shù)據(jù)挖掘以其應(yīng)用型、集合性和交叉性為主要特點(diǎn),在數(shù)據(jù)挖掘過程中,一般所采用的方法為神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析法及聚類分析法等。而其中的聚類分析法,如今被廣泛應(yīng)用于醫(yī)學(xué)、心理學(xué)及市場(chǎng)營銷等各個(gè)方面,可以說聚類分析法是數(shù)據(jù)挖掘當(dāng)中最為常用的一種數(shù)學(xué)分析方法[4]。聚類分析法在操作的過程中一般會(huì)采用目標(biāo)函數(shù)模糊、灰色關(guān)聯(lián)分析及區(qū)間值算法等數(shù)學(xué)學(xué)科知識(shí):其一,目標(biāo)函數(shù)模糊。這種方法首先要對(duì)數(shù)據(jù)進(jìn)行標(biāo)定和標(biāo)準(zhǔn)化,然后建立與其相對(duì)應(yīng)的模糊矩陣,利用直接聚類、模糊等價(jià)矩陣等手段來對(duì)關(guān)鍵指標(biāo)及數(shù)據(jù)集的聚集。同時(shí),還能夠通過編網(wǎng)法和最大數(shù)法等手段進(jìn)行數(shù)據(jù)聚類,這種方法目前在時(shí)效性、維度的處理及伸縮性等方面都非常優(yōu)越,在大部分的數(shù)據(jù)挖掘及老百姓的日常生活中都得到了廣泛的使用。其二,灰色關(guān)聯(lián)分析。這種分析方法的主要功能在于,它可以通過當(dāng)前數(shù)據(jù)中的幾何曲線主要作用,是其可以通過當(dāng)前數(shù)據(jù)中幾何曲線當(dāng)中的幾何圖形來判斷當(dāng)前大數(shù)據(jù)中各個(gè)數(shù)據(jù)的相關(guān)性。若幾何圖形越接近,其關(guān)聯(lián)性越大,反之,關(guān)聯(lián)性則越小。在對(duì)數(shù)據(jù)挖掘當(dāng)中,灰色關(guān)聯(lián)分析法一般會(huì)被運(yùn)用于樣本數(shù)據(jù)不充足,同時(shí)樣本也存在殘缺性的一些特殊情況當(dāng)中。其三,區(qū)間值算法。在數(shù)據(jù)挖掘過程中,區(qū)間值算法的特點(diǎn)在于其可以對(duì)“比較型”的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,或是對(duì)固定取值范圍的數(shù)據(jù)進(jìn)行比較分析。這種分析方法目前也很受歡迎。在實(shí)際操作過程中,被廣泛應(yīng)用的區(qū)間值算法通常有以下三種,數(shù)與區(qū)間聚類法、矩陣與區(qū)間聚類法及區(qū)間與區(qū)間聚類法。這三種方法都能夠高效、準(zhǔn)確地統(tǒng)計(jì)與分析系統(tǒng)內(nèi)的各類信息。
四、結(jié)語
由此可見,在大數(shù)據(jù)背景下中,數(shù)學(xué)這門學(xué)科與大數(shù)據(jù)有著千絲萬縷的關(guān)聯(lián),并在大數(shù)據(jù)運(yùn)用中擔(dān)當(dāng)者不可替代的角色,尤其是在數(shù)據(jù)處理與數(shù)據(jù)挖掘這兩個(gè)重要方面,它的作用尤為重要。因此,在大數(shù)據(jù)時(shí)代,數(shù)學(xué)作為一門重要的學(xué)科,能有效確保大數(shù)據(jù)的實(shí)用性與有效性。
參考文獻(xiàn):
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
[2]王淵.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析的主要變化[J].商,2016(30):201+200.
[3]孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(05):1-4.
[4]林潘能.淺談大數(shù)據(jù)挖掘中數(shù)學(xué)的運(yùn)用[J].現(xiàn)代交際,2018(09):253+252.
作者簡(jiǎn)介:肖引昌(1978-08),男,廣西北海人,漢族,北海職業(yè)學(xué)院,講師,研究生學(xué)歷,研究方向:數(shù)學(xué)教育。