楊磊
摘 要:統(tǒng)計(jì)數(shù)據(jù)處理是提升數(shù)據(jù)質(zhì)量的一個(gè)重要的手段。主要包括數(shù)據(jù)的審查、數(shù)據(jù)的清理以及數(shù)據(jù)的轉(zhuǎn)換等等。根據(jù)數(shù)據(jù)處理的對(duì)象以及不同的目標(biāo),統(tǒng)計(jì)數(shù)據(jù)可以使用的處理問(wèn)題的方法有很多,最主要的方式就是進(jìn)行探索性的分析以及非正常狀態(tài)的處理等,還需要選用比較恰當(dāng)?shù)姆椒ㄟM(jìn)行數(shù)據(jù)統(tǒng)計(jì)的處理,有利于保證數(shù)據(jù)的真實(shí)性和有效性等等。
關(guān)鍵詞:統(tǒng)計(jì)數(shù)據(jù);處理理論;方法探究
1 統(tǒng)計(jì)數(shù)據(jù)處理理論
數(shù)據(jù)的處理屬于數(shù)據(jù)挖掘中的一個(gè)主要的概念,主要指的是在對(duì)數(shù)據(jù)進(jìn)行挖掘的之前,能夠針對(duì)海量的數(shù)據(jù)進(jìn)行噪聲數(shù)據(jù)以及其他的一些不和諧的數(shù)據(jù)采取一些措施,目的就是為了保證數(shù)據(jù)的真實(shí)性以及可靠性。對(duì)數(shù)據(jù)處理的概念進(jìn)行相應(yīng)的拓展以及處理,最主要的對(duì)象就是包括數(shù)據(jù)以及調(diào)查的對(duì)象,能夠形成數(shù)據(jù)的處理,他的范圍也更加的廣闊、內(nèi)容也是更加的豐富,使用的主要的方法也是最多的[1]。
2 統(tǒng)計(jì)數(shù)據(jù)處理的意義
統(tǒng)計(jì)數(shù)據(jù)主要用于調(diào)查的過(guò)程中,能夠與不同的調(diào)查者進(jìn)行分析,所選取的抽樣的方式是否合理與結(jié)果有著非常緊密的聯(lián)系。利用信息的收回系統(tǒng)就能夠主觀的去記錄相應(yīng)的數(shù)據(jù),因?yàn)閿?shù)據(jù)的錄入的功能過(guò)程中出現(xiàn)失誤,能夠出現(xiàn)錯(cuò)誤性的字段,進(jìn)而能夠記錄丟失的數(shù)據(jù)。在進(jìn)行正式的數(shù)據(jù)分析以前,必須要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行處理,為了對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行診斷以及提升。
數(shù)據(jù)處理的公布系統(tǒng)不斷的加入,就要求我們國(guó)家的統(tǒng)計(jì)數(shù)據(jù)的程序進(jìn)一步加強(qiáng),對(duì)數(shù)據(jù)的可信程度進(jìn)行加強(qiáng),在市場(chǎng)體制的不斷改革之下,政府對(duì)于數(shù)據(jù)的可信程度提出了更高的要求[2],能夠不斷的反應(yīng)經(jīng)濟(jì)的整體運(yùn)行的趨勢(shì)以及統(tǒng)計(jì)數(shù)據(jù),數(shù)據(jù)也一定要及時(shí)和準(zhǔn)確,能夠及時(shí)的反應(yīng)經(jīng)濟(jì)的運(yùn)行的統(tǒng)計(jì)。
社會(huì)各界對(duì)于統(tǒng)計(jì)數(shù)據(jù)的需求也在逐漸的增加,對(duì)于數(shù)據(jù)的質(zhì)量要求也在逐漸的提高,數(shù)據(jù)質(zhì)量確不能夠滿足現(xiàn)狀,為了解決這個(gè)矛盾,人們經(jīng)常在各個(gè)角度去完善統(tǒng)計(jì)制度,構(gòu)建各個(gè)方面的合理化的指標(biāo),適當(dāng)?shù)氖褂煤侠淼恼{(diào)查分析額方法,不能夠忽略統(tǒng)計(jì)數(shù)據(jù)的處理這個(gè)步驟,缺少對(duì)于檢測(cè)以及數(shù)據(jù)質(zhì)量關(guān)鍵性的步驟的研究的手段。
3 數(shù)據(jù)處理的過(guò)程
整體概括來(lái)說(shuō),統(tǒng)計(jì)數(shù)據(jù)的處理主要包括幾個(gè)大的步驟。首先就是數(shù)據(jù)的審查,數(shù)據(jù)的審查就是為了保證滿足數(shù)據(jù)的最低的要求,內(nèi)容就是包括能否能夠?qū)嶋H的調(diào)查一致,利用整體的統(tǒng)計(jì)觀點(diǎn)進(jìn)行分析,檢查各個(gè)字段的數(shù)據(jù)類(lèi)型進(jìn)行檢查,字段的大小可以根據(jù)實(shí)際所測(cè)的數(shù)據(jù)來(lái)確定,可以將其分為大小、平均數(shù)據(jù)等等幾個(gè)類(lèi)型。其次,就是數(shù)據(jù)的清理工作,在審查的過(guò)程中如果能夠發(fā)現(xiàn)比較明顯的錯(cuò)誤的話,就需要選取適當(dāng)?shù)姆椒ㄟM(jìn)行數(shù)據(jù)的清理工作,將數(shù)據(jù)變?yōu)橛杏玫男畔?,?shù)據(jù)的清理還包括對(duì)重復(fù)性數(shù)據(jù)進(jìn)行刪除的工作。第三,就是數(shù)據(jù)的轉(zhuǎn)換。數(shù)據(jù)的轉(zhuǎn)換最主要強(qiáng)調(diào)的就是分析的對(duì)象的可比性能,不同的字段因?yàn)橛?jì)量的單位有很大的差距[3],很容易就引起結(jié)果出現(xiàn)一定的誤差,分析上述過(guò)程的其他的一些要求,也需要在分析之前進(jìn)行數(shù)據(jù)的變換,其中最主要的就是隨數(shù)據(jù)進(jìn)行沒(méi)有量綱進(jìn)行處理。最后,就需要數(shù)據(jù)的驗(yàn)證工作,這個(gè)步驟目的就是為了初步去評(píng)估數(shù)據(jù)是否滿足統(tǒng)計(jì)分析的一些具體的要求,決定是否需要進(jìn)一步去加強(qiáng)或者減少數(shù)據(jù)的數(shù)量。還需要利用整體的數(shù)據(jù)構(gòu)建模型,使用線性的模型進(jìn)行相關(guān)性的分析,以此來(lái)確保能夠把不錯(cuò)誤的信息傳輸給數(shù)據(jù)庫(kù)。
以上的幾個(gè)主要的步驟就是一個(gè)由淺及深的一個(gè)過(guò)程,能夠進(jìn)行整體化的分析需要,進(jìn)一步檢測(cè)數(shù)據(jù)是否能夠進(jìn)行協(xié)調(diào),以此來(lái)確保數(shù)據(jù)的優(yōu)質(zhì)分析階段。對(duì)已經(jīng)發(fā)現(xiàn)的問(wèn)題進(jìn)行及時(shí)的處理[4],以及正確的診斷性的工作。
4 統(tǒng)計(jì)數(shù)據(jù)處理的方法體系
首先,就是進(jìn)行探索式的分析。描述性的統(tǒng)計(jì)技術(shù)主要就是針對(duì)數(shù)據(jù)進(jìn)行的一項(xiàng)統(tǒng)計(jì),頻數(shù)的分析就是為了利用非連續(xù)性的頻數(shù)表,報(bào)告出整體的變量的個(gè)數(shù),進(jìn)而能夠確定整體的統(tǒng)計(jì)分量的數(shù)值。在進(jìn)行探索式的分析的時(shí)候,需要使用圖形對(duì)數(shù)據(jù)進(jìn)行直觀的考察,使得我們能夠認(rèn)識(shí)到數(shù)據(jù)接近的程度是否有其他的數(shù)據(jù)摻入其中,數(shù)據(jù)是否出現(xiàn)了間隙[5]。
其次,就是缺失值的處理,缺失的數(shù)據(jù)的產(chǎn)生通過(guò)探討缺失的數(shù)據(jù)是否根據(jù)有關(guān)數(shù)據(jù)進(jìn)行界定,缺失的數(shù)據(jù)就會(huì)隨機(jī)出現(xiàn),就能夠缺失的數(shù)據(jù)進(jìn)行研究,對(duì)于變量進(jìn)行研究,這是不能夠忽略的。對(duì)于缺失的數(shù)據(jù)的處理方法也是需要進(jìn)一步磨滅的。
最后,就是需要異常值處理。異常值又稱(chēng)為孤立的一點(diǎn),異常處理的首要的任務(wù)就是檢測(cè)孤立的點(diǎn)[6],異常值就是數(shù)據(jù)處理的質(zhì)量的問(wèn)題,也是客觀事物的真實(shí)性的反映,檢測(cè)出異常值以后必須要確定檢測(cè)值的異常,進(jìn)行統(tǒng)一的幾輛以及距離的確定,這都屬于偏離的方法。
5 結(jié)語(yǔ)
統(tǒng)計(jì)數(shù)據(jù)的處理是在數(shù)據(jù)的采集以后,進(jìn)行數(shù)據(jù)的處理,再進(jìn)行使用。從統(tǒng)計(jì)數(shù)據(jù)處理的過(guò)程來(lái)看,無(wú)論是數(shù)據(jù)還是整體的數(shù)據(jù),能夠進(jìn)行描述以及探索性的分析。隨著數(shù)據(jù)的本身的質(zhì)量的好壞以及要求的高低,對(duì)于方法的使用各有側(cè)重。
參考文獻(xiàn)
[1]吳忠良;;統(tǒng)計(jì)數(shù)據(jù)對(duì)農(nóng)業(yè)生產(chǎn)的理論指導(dǎo)與實(shí)踐[J];甘肅農(nóng)業(yè);2006年03期
[2]陳震;陳維默;;淺談數(shù)據(jù)挖掘技術(shù)[A];福建省科協(xié)第五屆學(xué)術(shù)年會(huì)數(shù)字化制造及其它先進(jìn)制造技術(shù)專(zhuān)題學(xué)術(shù)年會(huì)論文集[C];2005年
[3]謝文;翟均平;胡娟;;玉米數(shù)據(jù)庫(kù)管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年12期
[4]章鐘基;提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的探討[J];統(tǒng)計(jì)研究;1989年03期
[5]余芳東;國(guó)外統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的涵義及評(píng)價(jià)和管理[N];中國(guó)信息報(bào);2002年
[6]黃樹(shù)顏;回歸方法的數(shù)據(jù)預(yù)處理及其應(yīng)用[J];統(tǒng)計(jì)研究;1986年02期