楊楠
摘要:雖然社會經(jīng)濟和技術(shù)在不斷發(fā)展,但在經(jīng)濟統(tǒng)計方面仍然存在數(shù)據(jù)庫復雜且繁冗,數(shù)據(jù)質(zhì)量不高等問題。這主要是由于缺乏對數(shù)據(jù)處理方法等缺乏深層次的分析和探索,導致數(shù)據(jù)價值的缺失。本文主要從數(shù)據(jù)的預處理步驟、數(shù)據(jù)挖掘在經(jīng)濟統(tǒng)計中的體現(xiàn)、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟系統(tǒng)中的可行性分析,以及數(shù)據(jù)挖掘領域中的關聯(lián)規(guī)則和決策樹四個方面進行簡要的分析。
關鍵詞:數(shù)據(jù)挖掘技術(shù);經(jīng)濟統(tǒng)計;應用探索
傳統(tǒng)的數(shù)據(jù)處理主要是通過數(shù)理統(tǒng)計學的相關知識或者軟件,對經(jīng)濟數(shù)據(jù)進行開發(fā)、分析等。但這種方式的開發(fā)形式具有較為單一、缺少時代性、缺乏深度等缺點。數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的數(shù)據(jù)處理具有篩除虛假數(shù)據(jù)、提高數(shù)據(jù)的質(zhì)量和利用率等優(yōu)勢,對于提高經(jīng)濟統(tǒng)計水平具有重要影響,因此做好相關內(nèi)容的研究是非常有必要的。
一、數(shù)據(jù)的預處理步驟
1.數(shù)據(jù)清理。數(shù)據(jù)清理主要是工作人員通過采用適當?shù)姆椒ㄅc手段,對數(shù)據(jù)中缺失、破損以及噪音等進行清除,進而保證數(shù)據(jù)質(zhì)量的一種數(shù)據(jù)處理方式。工作人員在不同情況下,需要采用不同的數(shù)據(jù)清理方式,主要的方法有預測法、平滑法、頻率統(tǒng)計法和均值法[1]。例如,如果數(shù)據(jù)為空值或者為噪音數(shù)據(jù)時,通常采用平滑法或均值法。而如果是對于數(shù)據(jù)的缺失或者破損,則通常采用的是預測法。
2.數(shù)據(jù)集成。數(shù)據(jù)來源于不同的數(shù)據(jù)源,要想將其變?yōu)橐粋€整體,則需要對其進行分析、處理,而這個過程就是數(shù)據(jù)集成。在具體實際操作中,首先需要各地區(qū)的統(tǒng)計局對數(shù)據(jù)進行收集,完成收集工作以后,需要對數(shù)據(jù)進行集成。需要注意的是,技術(shù)在進行數(shù)據(jù)的集成時,應盡量避免數(shù)據(jù)的冗余、數(shù)據(jù)的模式集成等問題的出現(xiàn)。
3.數(shù)據(jù)變換。數(shù)據(jù)變換主要是通過方式或手段,將數(shù)據(jù)轉(zhuǎn)變?yōu)樗枰问降倪^程,它主要包括泛化和規(guī)范化兩種。數(shù)據(jù)的泛化主要是指將低層次的數(shù)據(jù)用高層次的數(shù)據(jù)進行取代,而數(shù)據(jù)的規(guī)范化主要包括最大最小值的規(guī)劃、零均值的規(guī)范化等。
3.數(shù)據(jù)的離散化及概念分層。在實際的操作中,數(shù)據(jù)具有連續(xù)性的特點,但在當前的數(shù)據(jù)算法中,能夠?qū)?shù)據(jù)的連續(xù)性進行有效處理的方法還非常有限。數(shù)據(jù)的離散化是通過將數(shù)據(jù)進行區(qū)間劃分,然后將實際數(shù)據(jù)用標號進行取代,進而保持數(shù)據(jù)連續(xù)性的過程。而概念分層是通過對數(shù)據(jù)層次概念進行提升,進而減少數(shù)據(jù)收集量的過程[2]。例如,數(shù)據(jù)的離散及分層概念在銀行的應用,可以為銀行帶來可觀的效益。匯豐銀行通過對客戶群進行分類,從中找到最有價值的用戶,使其當年的營銷費用降低了30%左右。
二、數(shù)據(jù)挖掘在經(jīng)濟統(tǒng)計中的體現(xiàn)
數(shù)據(jù)挖掘在經(jīng)濟統(tǒng)計中的體現(xiàn)主要表現(xiàn)在:第一數(shù)據(jù)的準備、選擇、處理方面。該方面的內(nèi)容在經(jīng)濟統(tǒng)計中主要表現(xiàn)為對所需要探究的問題的相關數(shù)據(jù)進行收集,然后對其進行適當?shù)奶幚?,使?shù)據(jù)能夠更好的為后續(xù)工作的開展進行服務;第二,數(shù)據(jù)的挖掘。工作人員需要對數(shù)據(jù)的類型以及特點進行劃分,然后通過選取恰當?shù)倪\算方法對其進行統(tǒng)計、計算,進而發(fā)掘數(shù)據(jù)的利用價值;第三,分析數(shù)據(jù)結(jié)果。在完成數(shù)據(jù)的挖掘工作以后,需要對數(shù)據(jù)的結(jié)果進行評估、分析,對結(jié)果進行適當?shù)恼{(diào)整,使其更加科學、客觀;第四,數(shù)據(jù)的運用。簡單的說就是將數(shù)據(jù)應用到具體的實踐當中,發(fā)揮其價值,進而更好的服務于經(jīng)濟活動。
三、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟系統(tǒng)中的可行性分析
1、 較高的有效性。數(shù)據(jù)挖掘技術(shù)是一種數(shù)據(jù)深加工技術(shù),其實際應用中具有較高的有效性,具體表現(xiàn)為:第一,高效化處理累積的經(jīng)濟統(tǒng)計數(shù)據(jù)。對經(jīng)濟統(tǒng)計數(shù)據(jù)進行較高的處理,對于加強管理者的管理,為其決策提供、客觀、真實的數(shù)據(jù)資料,推動其決策的科學性,進而促使其管理水平的提升,詳見表1;第二,有目的性的分析。在數(shù)據(jù)進行再加工的過程中,可以更加有目的性的進行數(shù)據(jù)的處理,從而使其最大限度的服務于管理者[3]。
2、 較強的應用性。隨著社會經(jīng)濟的快速發(fā)展,經(jīng)濟管理部門的分類越來越多,并且需要的信息數(shù)據(jù)也有所區(qū)別。傳統(tǒng)的數(shù)據(jù)統(tǒng)計手段,不能有效的滿足社會發(fā)展的需求。而作為系統(tǒng)工具的數(shù)據(jù)挖掘系統(tǒng),可以通過對數(shù)據(jù)的分類、深加工等方式,滿足不同部門對數(shù)據(jù)的需求,促進經(jīng)濟管理部門管理水平提升的同時,實現(xiàn)數(shù)據(jù)資源價值的發(fā)揮。數(shù)據(jù)挖掘技術(shù)在商店的零售方面發(fā)揮的價值體現(xiàn),以GUS(HOME SHOPPING GROUP)為例,他們通過利用數(shù)據(jù)挖掘技術(shù),對商品的銷售量進行了預測,不僅使其庫存成本降低了3.8%,還促進其銷售量的增加,為其獲得了更高的經(jīng)濟效益。
四、數(shù)據(jù)挖掘領域中的關聯(lián)規(guī)則及決策樹
1.關聯(lián)規(guī)則。關聯(lián)規(guī)則在數(shù)據(jù)挖掘領域發(fā)揮著重要的作用,對于提升其靈活性等具有重要影響。關聯(lián)規(guī)則主要反映的是數(shù)據(jù)集合中與屬性相關的聯(lián)系,進而通過對其頻繁的模式、關聯(lián)的模式等進行搜索查詢,進而尋找被人忽視或遺忘的事件。挖掘數(shù)據(jù)的關聯(lián)規(guī)則,能夠?qū)Υ蠓秶鷥?nèi)的與之密切聯(lián)系的行業(yè)及數(shù)據(jù)內(nèi)容進行查詢,可以憑借不同屬性的數(shù)據(jù)進行查找[4]。在具體的實際應用當中,被人們熟知的、存在密切聯(lián)系的關系的屬性,被稱為平凡規(guī)則。平凡規(guī)則的應用可以對數(shù)據(jù)的質(zhì)量進行辨別,是消除虛假數(shù)據(jù)的重要方式與手段,圖1采用了source insight軟件,對匯豐銀行的可視化數(shù)據(jù)挖掘進行了分析(如圖1所示)。
圖1匯豐銀行可視化的數(shù)據(jù)挖掘結(jié)果
2.決策樹。決策樹算法是經(jīng)濟統(tǒng)計中數(shù)據(jù)挖掘的一種常見方法,這種方法直觀性較強,能夠較為清晰的對數(shù)據(jù)進行展示,如圖2所示。但發(fā)揮其效用的關鍵在于工作人員對建樹和剪枝階段的構(gòu)建。通常情況下,決策樹分為兩個方面的內(nèi)容:第一,構(gòu)建決策樹模型。在對模型的構(gòu)建過程中,需要通過訓練集使決策樹的輪廓進行構(gòu)建,然后對其內(nèi)容進行精細化處理;第二,分類處理數(shù)據(jù)。工作人員在完成決策樹整體的構(gòu)建以后,需要將數(shù)據(jù)輸入,填充其內(nèi)容。需要注意的是,工作人員在輸入數(shù)據(jù)時,需要從根節(jié)點處進行錄入,然后對其進行測試、記錄。在進行到葉子節(jié)點時,需要對數(shù)據(jù)進行類化處理[5]。
圖2天氣對于人出行的影響
結(jié)語
綜上所述,在未來的經(jīng)濟統(tǒng)計發(fā)展中,數(shù)據(jù)挖掘的發(fā)展前景是非常光明的。其對數(shù)據(jù)的深層次處理,可以有效減少虛假數(shù)據(jù)的存在,提高數(shù)據(jù)的質(zhì)量,為企事業(yè)單位計劃的制定提供重要的數(shù)據(jù)支持,進而促進其工作效率的提升,經(jīng)濟效益的發(fā)展,促使其創(chuàng)造更多的社會價值,最大限度的發(fā)揮數(shù)據(jù)的作用和價值。(作者單位:長春工業(yè)大學)
參考文獻:
[1]宋淑彩,祁愛華,王劍雄等.面向Web的數(shù)據(jù)挖掘技術(shù)在網(wǎng)站優(yōu)化中的個性化推薦方法的研究與應用[J].科技通報,2012,28(2):117-119.
[2]李勛,龔慶武,楊群瑛等.基于數(shù)據(jù)挖掘技術(shù)的保護設備故障信息管理與分析系統(tǒng)[J].電力自動化設備,2011,31(9):88-91.
[3]羅美淑,劉世勇,夏春艷等.數(shù)據(jù)挖掘技術(shù)在教學評價中的應用研究[J].教育探索,2013,(2):81-82.
[4]王祥斌.數(shù)據(jù)挖掘技術(shù)在入侵檢測系統(tǒng)中的應用研究[J].計算機測量與控制,2012,20(2):321-323,348.