農(nóng)林 東營市統(tǒng)計局
數(shù)據(jù)挖掘技術是近些年出現(xiàn)的一種新型經(jīng)濟統(tǒng)計分析方法,雖然該技術的某些使用性能仍需改進,但目前其應用已對高效經(jīng)濟統(tǒng)計產(chǎn)生了積極作用。數(shù)據(jù)挖掘技術的穩(wěn)定性、高效準確性能讓工作人員更輕松地完成相關工作,深入分析數(shù)據(jù),總結更多對經(jīng)濟分析有價值的信息,提高其在經(jīng)濟統(tǒng)計中的應用價值。
數(shù)據(jù)挖掘是指更深層次地評估分析收集的信息數(shù)據(jù),總結可以用于指導實際工作的信息資料。在經(jīng)濟統(tǒng)計中,由于經(jīng)濟數(shù)據(jù)信息量龐大,且各種信息數(shù)據(jù)之間具有復雜的關聯(lián)性,數(shù)據(jù)來源具有一定的不確定性,有時無法提供全面準確的數(shù)據(jù)資料。面對這些未經(jīng)處理的數(shù)據(jù)信息,如果不能對其進行有效分析,將無法發(fā)揮這些數(shù)據(jù)的重要價值。利用數(shù)據(jù)挖掘技術,對其展開深層次的評估分析,去除不確定的數(shù)據(jù)信息,能為后期的工作提供可信賴的數(shù)據(jù)資料,使工作人員更加快捷高效地利用資源。數(shù)據(jù)挖掘還有另一種含義,即將實際經(jīng)濟數(shù)據(jù)與結論對比參考,以制定更加符合經(jīng)濟發(fā)展規(guī)律的決策。
在數(shù)據(jù)化時代背景下,應用數(shù)據(jù)挖掘能使經(jīng)濟統(tǒng)計中的具體問題信息化。該過程對各學科的技術要求較高,主要內(nèi)容有開展相關技術準備工作、建立數(shù)據(jù)庫的基本理論、識別各類數(shù)據(jù)信息、快捷統(tǒng)計分析及總結數(shù)據(jù)、預估潛在數(shù)據(jù)價值、預判某些風險因素、明確呈現(xiàn)重要數(shù)據(jù)信息,更好地發(fā)揮經(jīng)濟統(tǒng)計的重要作用。在很多地區(qū)經(jīng)濟管理部門的管理方式與統(tǒng)計模式都比較傳統(tǒng),難以為經(jīng)濟管理活動提供服務。在實際運用過程中,對數(shù)據(jù)統(tǒng)計工作造成了很大的影響,導致工作效率低下,工作質(zhì)量不高,甚至影響數(shù)據(jù)統(tǒng)計工作的整體進步。
只有合理分析有價值的數(shù)據(jù)信息,才能得出更符合經(jīng)濟規(guī)律的結論。在數(shù)據(jù)信息搜集環(huán)節(jié),受各種因素的影響,可能導致數(shù)據(jù)信息不準確,數(shù)據(jù)中包含與經(jīng)濟基本規(guī)律相違背的內(nèi)容。在經(jīng)濟統(tǒng)計中,數(shù)據(jù)的預處理極為關鍵,也是數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中應用的重要表現(xiàn),具體包含以下內(nèi)容。
數(shù)據(jù)清理是經(jīng)濟統(tǒng)計分析過程中常用的技術手段,其能完善數(shù)據(jù)信息欠缺的資料,去除與實際經(jīng)濟情況相差較大及與經(jīng)濟規(guī)律相違背的內(nèi)容,提高收集數(shù)據(jù)內(nèi)容的整體質(zhì)量。目前,廣泛使用的技術方式為均值法、平滑分析法、數(shù)據(jù)預估法以及概率統(tǒng)計分析。這些方法需要結合經(jīng)濟統(tǒng)計的實際情況使用。對于干擾數(shù)據(jù)或數(shù)據(jù)信息不完整的情況,一般使用均值法或數(shù)據(jù)預估方法。平滑分析法是在均值法的基礎上平均一定的數(shù)據(jù),然后再將其形成一組新的數(shù)據(jù)。例如,在統(tǒng)計企業(yè)產(chǎn)值時,企業(yè)未提供年度經(jīng)營數(shù)據(jù)信息,此時就可以使用數(shù)據(jù)預估及均值法,匯總企業(yè)近五年的數(shù)據(jù),再求均值,進而預估企業(yè)本年度的實際經(jīng)營情況,得出與企業(yè)實際經(jīng)營相符合的經(jīng)濟統(tǒng)計結果。
(1)模式集成。在模式集成過程中,需要將數(shù)據(jù)信息與實際的經(jīng)濟問題相對應,同時分類匯總各種數(shù)據(jù)格式,要求系統(tǒng)能自主地分析判斷上述內(nèi)容。例如,一些統(tǒng)計單位提供的數(shù)據(jù)格式為“stcl_id”,在現(xiàn)有的數(shù)據(jù)庫中并未包含此格式的內(nèi)容,這就要求系統(tǒng)能分析其所包含的數(shù)據(jù)信息,總結其數(shù)據(jù)特點并將其集成于現(xiàn)有的數(shù)據(jù)格式中,實現(xiàn)對多樣化格式數(shù)據(jù)的有效處理。避免后期分析數(shù)據(jù)時,出現(xiàn)資料無法打開或缺失現(xiàn)象。
(2)冗余問題。如果一組數(shù)據(jù)信息的結果會對另一組數(shù)據(jù)產(chǎn)生明顯影響,那么該組數(shù)據(jù)就具有冗余屬性。常見的生產(chǎn)總值就具有明顯的冗余屬性,其數(shù)據(jù)特性受國家總?cè)丝诩敖?jīng)濟發(fā)展價值的影響。因此,在經(jīng)濟統(tǒng)計中,可以通過對具有該屬性的數(shù)據(jù)進行相關聯(lián)信息分析,合理預估經(jīng)濟發(fā)展中難以統(tǒng)計的數(shù)據(jù),達到經(jīng)濟統(tǒng)計的目的。
數(shù)據(jù)挖掘的方式有很多種,其中預處理方法是比較基礎的一種方法,是數(shù)據(jù)發(fā)掘前的收集工作。數(shù)據(jù)挖掘技術需要在基礎信息的前提下進行整理和分析,但是基礎信息的收集并不在其工作范圍內(nèi),這就需要一種收集方式來彌補數(shù)據(jù)挖掘的前瞻內(nèi)容,而預處理方法恰恰可以做到這一點,所以預處理方法是數(shù)據(jù)挖掘的前提,從而沒有辦法代替預處理方式的功能。預處理方法可以將信息中的出入較大、不正確的內(nèi)容剔除,這種處理方式叫作數(shù)據(jù)清理。數(shù)據(jù)清理有很多種形式,比較常見的是均值法。均值法可以將數(shù)據(jù)有效地填入空缺的數(shù)據(jù)中去,對數(shù)據(jù)挖掘起到很重要的作用。預處理方式以及數(shù)據(jù)清理方式中的均值法都是有效幫助數(shù)據(jù)挖掘的方法,通過具體的操作來提高數(shù)據(jù)的準確性。
數(shù)據(jù)挖掘技術的關聯(lián)規(guī)則十分關鍵。在實際應用環(huán)節(jié),其可以整合分析與數(shù)據(jù)信息相關的屬性,合理反映整個數(shù)據(jù)的特性。例如,在規(guī)律查找數(shù)據(jù)系統(tǒng)信息與各數(shù)據(jù)之間的因果關系時,往往能發(fā)現(xiàn)傳統(tǒng)經(jīng)濟統(tǒng)計的常見問題。使用關聯(lián)規(guī)則進行經(jīng)濟統(tǒng)計,可以在更大范圍內(nèi)搜集信息資料,并實現(xiàn)全面的數(shù)據(jù)處理。根據(jù)行業(yè)內(nèi)某一屬性的具體信息搜集與該屬性相關的其他重要數(shù)據(jù)資料。在經(jīng)濟統(tǒng)計的實際應用中,數(shù)據(jù)挖掘可以合理評估數(shù)據(jù)信息的準確性與質(zhì)量,在此基礎上,關聯(lián)規(guī)則能確定這些數(shù)據(jù)是否具有一致性,并準確篩選錯誤信息,提高經(jīng)濟統(tǒng)計數(shù)據(jù)質(zhì)量。例如,在統(tǒng)計某些省份的生產(chǎn)總值時,發(fā)現(xiàn)各產(chǎn)業(yè)的數(shù)據(jù)信息不足以證明其生產(chǎn)總值有一定的增長,然而該省份提供的生產(chǎn)總值數(shù)據(jù)明顯高于前一年的數(shù)據(jù),此時應用關聯(lián)規(guī)則,能發(fā)現(xiàn)員工統(tǒng)計疏忽或地方數(shù)據(jù)信息造假而導致的失誤信息。
綜上所述,數(shù)據(jù)挖掘技術不僅可以使得數(shù)據(jù)變得更加有深度和廣度,還可以使得數(shù)據(jù)更加準確,出現(xiàn)虛假數(shù)據(jù)內(nèi)容的概率縮小,改善數(shù)據(jù)質(zhì)量,另一方面還可以深層次地挖掘數(shù)據(jù)之間的聯(lián)系,可以有效提高數(shù)據(jù)關聯(lián)度,從而使得數(shù)據(jù)信息更加準確。