◎李愛民
數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用
◎李愛民
伴隨著社會(huì)的發(fā)展,我國(guó)的經(jīng)濟(jì)水平已經(jīng)達(dá)到了一定的高度,同時(shí),也形成了一個(gè)非人腦可分析的復(fù)雜的經(jīng)濟(jì)關(guān)系體系。經(jīng)濟(jì)統(tǒng)計(jì)需要先進(jìn)的技術(shù)和高效率的數(shù)據(jù)處理手段,現(xiàn)代統(tǒng)計(jì)分析技術(shù)的應(yīng)用已經(jīng)成為了時(shí)代發(fā)展的必然。本文首先對(duì)數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容和發(fā)展歷程進(jìn)行了介紹,并分析了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用的優(yōu)勢(shì),并就幾種應(yīng)用方法進(jìn)行了分析。
數(shù)據(jù)挖掘技術(shù)作為現(xiàn)代統(tǒng)計(jì)分析技術(shù)之一,在經(jīng)歷統(tǒng)計(jì)中的應(yīng)用具有很大的優(yōu)勢(shì),同時(shí)由于其自身特點(diǎn),可以一定程度上提升數(shù)據(jù)深加工的效率。時(shí)代在發(fā)展,面對(duì)當(dāng)前這個(gè)龐雜繁瑣的經(jīng)濟(jì)統(tǒng)計(jì)體系,高效率的先進(jìn)現(xiàn)代化處理手段的應(yīng)用已經(jīng)成為了一種趨勢(shì),這些技術(shù)的應(yīng)用會(huì)改善我國(guó)當(dāng)前數(shù)據(jù)龐雜繁瑣難以“深加工”的現(xiàn)狀。筆者擬將對(duì)數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用進(jìn)行分析。
數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容。所謂數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程。從20世紀(jì)70年代開始,平均的通訊量以每年幾倍的速度增長(zhǎng)。一直到1995年,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長(zhǎng)起來(lái),成為目前Internet的主要應(yīng)用。數(shù)據(jù)挖掘技術(shù)發(fā)展的第三個(gè)階段是EC(Electronic Commerce),即電子商務(wù)階段,IBM、HP和Sun等國(guó)際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。隨著SaaS(Software as a service)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng),延長(zhǎng)了電子商務(wù)鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨(dú)立的學(xué)科——數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。
工作效率較高。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用是存在很大優(yōu)勢(shì)的,由于其自身操作特點(diǎn),工作效率會(huì)較其他技術(shù)來(lái)說(shuō)會(huì)高出很多。數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)深加工技術(shù),其本身是具有很強(qiáng)的目的性的,在實(shí)踐活動(dòng)的應(yīng)用中,一般會(huì)有兩種表現(xiàn)形式,即對(duì)積累的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行高效化處理以及對(duì)現(xiàn)有的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行高效化分析,不論是哪一種,都深深地體現(xiàn)了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)應(yīng)用中的高效性。
綜合應(yīng)用性強(qiáng)。數(shù)據(jù)挖掘技術(shù)不同于其他現(xiàn)代數(shù)據(jù)處理手段,其并不是單一的數(shù)據(jù)處理技術(shù),而是一個(gè)數(shù)據(jù)處理系統(tǒng),所以在系統(tǒng)中可以完成操作者對(duì)數(shù)據(jù)的多種分析需求,具有很強(qiáng)的綜合應(yīng)用性。隨著社會(huì)的發(fā)展,經(jīng)濟(jì)管理部門對(duì)數(shù)據(jù)的需求量日漸龐大,但由于其所在部門中分工不同,對(duì)數(shù)據(jù)的處理需求也不盡相同。而數(shù)據(jù)挖掘技術(shù)則很好地適應(yīng)了這一現(xiàn)狀,作為一個(gè)數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)挖掘技術(shù)剛好可以滿足不同部門的不同數(shù)據(jù)處理需求,具有很強(qiáng)的綜合應(yīng)用性。
宏觀數(shù)據(jù)庫(kù)可作為數(shù)據(jù)挖掘技術(shù)應(yīng)用的支持。數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)不同于其他的現(xiàn)代化數(shù)據(jù)處理技術(shù),因?yàn)閿?shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫(kù)作為支持,在實(shí)際應(yīng)用中與其他現(xiàn)代數(shù)據(jù)處理技術(shù)相比具有很大的優(yōu)勢(shì)。當(dāng)前經(jīng)濟(jì)管理體系的運(yùn)轉(zhuǎn)對(duì)數(shù)據(jù)有著不同的需求,但是當(dāng)前的數(shù)據(jù)采集手段仍然具有很大的局限性,這一問(wèn)題嚴(yán)重影響著經(jīng)濟(jì)管理部門做出的決策。而數(shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫(kù)作為支持,就能在很大程度上改善當(dāng)前的數(shù)據(jù)收集現(xiàn)狀。
預(yù)處理方法。雖然數(shù)據(jù)挖掘技術(shù)有宏觀數(shù)據(jù)庫(kù)作為支持,卻并不能完全代替數(shù)據(jù)收集系統(tǒng)的作用,數(shù)據(jù)挖掘技術(shù)仍然是基于數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)深加工手段,數(shù)據(jù)預(yù)處理是主要應(yīng)用方法之一。數(shù)據(jù)預(yù)處理的主要內(nèi)容包括——數(shù)據(jù)的不真實(shí)、不準(zhǔn)確、不正確、不同經(jīng)濟(jì)體系間數(shù)據(jù)差別較大等問(wèn)題。只有將數(shù)據(jù)挖掘技術(shù)應(yīng)用到預(yù)處理后的數(shù)據(jù)中,才能得到實(shí)際應(yīng)用中所期望的處理結(jié)果,滿足不同經(jīng)濟(jì)管理部門間的數(shù)據(jù)處理需求。
決策樹方法。在通過(guò)數(shù)據(jù)挖掘技術(shù)獲得所需的數(shù)據(jù)處理結(jié)果后,對(duì)數(shù)據(jù)的整合和分析就顯得尤為重要。分析數(shù)據(jù)的輸出作為數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)之一,對(duì)經(jīng)濟(jì)管理部門做出的決策有著直接的影響。決策樹是常見的分析方法之一,首先需要利用訓(xùn)練集建立并精簡(jiǎn)出一棵決策樹,進(jìn)而利用構(gòu)建完畢的決策樹進(jìn)行數(shù)據(jù)輸出的分類,同時(shí)還需要注意后續(xù)的“剪枝”環(huán)節(jié)。
集成化處理方法。集成化處理方法主要分為模式集成和冗余問(wèn)題兩方面。由于當(dāng)前的信息采集主要源于民間或者一線數(shù)據(jù)處理部門,在后期的數(shù)據(jù)應(yīng)用過(guò)程中需要對(duì)數(shù)據(jù)和相應(yīng)模式進(jìn)行集成化處理,便于后期應(yīng)用。同時(shí)對(duì)于處理好的數(shù)據(jù)也要進(jìn)行冗余清除,以保證數(shù)據(jù)庫(kù)中的數(shù)據(jù)量保持在一個(gè)相對(duì)較低的水平。
本文首先對(duì)數(shù)據(jù)挖掘技術(shù)的主要內(nèi)容和發(fā)展歷程進(jìn)行了介紹,并分析了數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中應(yīng)用的優(yōu)勢(shì),主要包括——工作效率較高、綜合應(yīng)用性強(qiáng)、有宏觀數(shù)據(jù)庫(kù)作為數(shù)據(jù)挖掘技術(shù)應(yīng)用的支持,并就幾種應(yīng)用方法(預(yù)處理方法、決策樹方法、集成化處理方法)進(jìn)行了分析。希望可以起到拋磚引玉的作用,在大數(shù)據(jù)時(shí)代中,為我國(guó)經(jīng)濟(jì)統(tǒng)計(jì)方面的發(fā)展做出貢獻(xiàn)。
(作者單位:駐馬店農(nóng)業(yè)學(xué)校)