李東輝
山東省臨沂市羅莊區(qū)統(tǒng)計局 山東臨沂 276000
統(tǒng)計數(shù)據(jù)的質(zhì)量包括統(tǒng)計數(shù)據(jù)是否精準(zhǔn),是否出現(xiàn)大量的錯誤,統(tǒng)計數(shù)據(jù)是否是實際所需要的數(shù)據(jù)類型,對實際的業(yè)務(wù)是否具有參考價值。工業(yè)企業(yè)的發(fā)展和未來計劃離不開對于工業(yè)統(tǒng)計數(shù)據(jù)的分析,因此數(shù)據(jù)質(zhì)量的好壞對于整個事業(yè)的發(fā)展都具有很重要的意義,數(shù)據(jù)質(zhì)量的重要性不言而喻[1]。并且,數(shù)據(jù)收集是數(shù)據(jù)的源頭所在,數(shù)據(jù)質(zhì)量的優(yōu)劣,直接決定后續(xù)研究的質(zhì)量,因此對于統(tǒng)計調(diào)查數(shù)據(jù)質(zhì)量的評估顯得尤為重要,只有通過分析質(zhì)量好的數(shù)據(jù)才能得出于實際發(fā)展所匹配的信息。
一個不嚴(yán)謹(jǐn)?shù)亩x是,將數(shù)據(jù)質(zhì)量評估程序應(yīng)用于數(shù)據(jù)集并最終獲取評價對象質(zhì)量狀態(tài)。直白的說,就是依據(jù)一個相對完整的評估框架,按照一套確定的步驟和流程,從整體上考量某個或某些數(shù)據(jù)集對特定業(yè)務(wù)應(yīng)用的滿足程度,能很好滿足業(yè)務(wù)應(yīng)用的數(shù)據(jù)集我們稱其質(zhì)量較好,反之則質(zhì)量較差。
統(tǒng)計數(shù)據(jù)的質(zhì)量評估也叫統(tǒng)計數(shù)據(jù)的預(yù)處理,就是通過各種方法對數(shù)據(jù)進(jìn)行必要的篩查,審核以及排序等工作。目的是提高數(shù)據(jù)的質(zhì)量,篩選一些質(zhì)量過低的數(shù)據(jù),為后續(xù)的分析工作減輕負(fù)擔(dān),數(shù)據(jù)的質(zhì)量評估主要分為三個處理步驟,即數(shù)據(jù)審核,數(shù)據(jù)篩選和數(shù)據(jù)排序[2]。
通過設(shè)計調(diào)查等各種方法得到的原始數(shù)據(jù)。不可能做到準(zhǔn)確無誤,也不能做到全部質(zhì)量在線。因此需要對原始數(shù)據(jù)進(jìn)行深人細(xì)致的數(shù)據(jù)審核工作,最大限度地剔除并修正數(shù)據(jù)差錯,提高統(tǒng)計數(shù)據(jù)的質(zhì)量,這樣方可為后續(xù)統(tǒng)計分析奠定良好的數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)審核主要包括兩個方面內(nèi)容:
(1)全面性審核。主要核對應(yīng)調(diào)查的單位是否齊全,應(yīng)調(diào)查的內(nèi)容是否有遺漏。
(2)及時性審核。主要審核是否按規(guī)定的時間獲取相應(yīng)數(shù)據(jù)資料,數(shù)據(jù)是否滿足時效性的要求。
數(shù)據(jù)審核中的準(zhǔn)確性審核是最為主要的,費時費力,難度較大。
經(jīng)過數(shù)據(jù)審核,對發(fā)現(xiàn)的錯誤數(shù)據(jù)可以采用相應(yīng)方法進(jìn)行補充、修正,但對于某些無法進(jìn)行修補的數(shù)據(jù),或者不符合調(diào)查分析要求的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)篩選。
數(shù)據(jù)篩涉包括兩方面的內(nèi)容:
(1)將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除。
(2)是根據(jù)匯總的需要將符合某種或某些條件的數(shù)據(jù)篩選出來,而將不符合特定條件的數(shù)據(jù)先予以剔除。
數(shù)據(jù)排序使雜亂無序的數(shù)據(jù)呈現(xiàn)規(guī)律性的順序排列,不僅可以為后續(xù)的數(shù)據(jù)分析提供方便,而且在很多時候,排序本身就是進(jìn)行統(tǒng)計分析的目的之一。
此外,統(tǒng)計數(shù)據(jù)的質(zhì)量高低取決于統(tǒng)計數(shù)據(jù)的誤差大小。統(tǒng)計數(shù)據(jù)的誤差通常是指搜集到的統(tǒng)計數(shù)據(jù)與客觀現(xiàn)實之間的差距。研究人員在進(jìn)行問題研究時,應(yīng)了解存在數(shù)據(jù)誤差的可能性,因為采用錯誤的數(shù)據(jù)所得出的結(jié)論將比不使用數(shù)據(jù)更令人擔(dān)憂。
而統(tǒng)計數(shù)據(jù)都來源于樣本的調(diào)查,所以統(tǒng)計數(shù)據(jù)的誤差一般分為兩類,一類是抽樣誤差,一類是非抽樣誤差
(1)抽樣誤差。抽樣誤差是抽樣調(diào)查所特有的誤差,只有概率抽樣技術(shù)才有抽樣誤差,而且只要進(jìn)行概率抽樣,就必然存在抽樣誤差,抽樣誤差是不可避免的,但是這種誤差可以計算和控制。比如選擇誤差小的抽樣方法、引人輔助變量構(gòu)造復(fù)雜估計量、增大樣本容量等,都可以減小抽樣誤差。
(2)非抽樣誤差。非抽樣誤差,是指除抽樣的隨機性以外的其他各種原因引起的誤差,它在調(diào)查中普遍存在,在概率抽樣、非概率抽樣、其他的全面和非全面調(diào)查中,非抽樣誤差都有可能存在。
目前市面上很多的工業(yè)企業(yè)的數(shù)據(jù)分析師們都有一個通病,就是拿到一項工業(yè)統(tǒng)計數(shù)據(jù)后,就會立刻開始對統(tǒng)計數(shù)據(jù)進(jìn)行統(tǒng)計分析,希望能夠快速及時的發(fā)現(xiàn)數(shù)據(jù)背后隱藏的企業(yè)運行信息和工業(yè)發(fā)展的相關(guān)知識。但是忙活了很久才發(fā)現(xiàn)并不能提煉出太多的有用信息,甚至很多統(tǒng)計數(shù)據(jù)是與工業(yè)發(fā)展?fàn)顩r不符合的,因此浪費了大量的時間和精力。造成這一情況的一個重要因素就是在分析數(shù)據(jù)之前,忽視了對統(tǒng)計數(shù)據(jù)質(zhì)量的評估。
為了得到的統(tǒng)計數(shù)據(jù)更加具有可分析性和可信度,對于數(shù)據(jù)的質(zhì)量評估不可缺少,在質(zhì)量評估的過程中,我們需要注意兩個質(zhì)量評估原則。
在實際工業(yè)發(fā)展中,工業(yè)統(tǒng)計數(shù)據(jù)的分析一定都是為實際業(yè)務(wù)服務(wù)的,所以并不是所有的工業(yè)統(tǒng)計數(shù)據(jù)都是有價值的,也不是任何誤差小的統(tǒng)計數(shù)據(jù)都是有質(zhì)量的數(shù)據(jù)。只有緊密圍繞業(yè)務(wù)需求統(tǒng)計出來的,對工業(yè)的發(fā)展有參考價值的數(shù)據(jù)才是有價值,質(zhì)量高的數(shù)據(jù)。因此,在統(tǒng)計數(shù)據(jù)質(zhì)量評估和篩查的時候要清楚的辨認(rèn)相關(guān)的數(shù)據(jù),不相關(guān)的數(shù)據(jù),不論質(zhì)量多高,對于工業(yè)發(fā)展本身確實毫無價值的話,也屬于質(zhì)量低下的數(shù)據(jù)[3]。
通常,對于工業(yè)統(tǒng)計數(shù)據(jù)的分析、挖掘的最終目的是希望可以通過數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)于工業(yè)發(fā)展的知識和信息,從而對實際的業(yè)務(wù)或產(chǎn)品進(jìn)行優(yōu)化和改進(jìn)。但是如果我們統(tǒng)計的數(shù)據(jù)本身的質(zhì)量就十分參差不齊,甚至質(zhì)量低下,那自然也很難能夠通過這樣質(zhì)量低下的數(shù)據(jù)得出工業(yè)發(fā)展有用的結(jié)論,甚至還有可能得到錯誤的結(jié)論。所以,進(jìn)行科學(xué)、客觀的數(shù)據(jù)質(zhì)量評估是非常必要且十分重要的。
當(dāng)前普遍的觀點認(rèn)為,數(shù)據(jù)質(zhì)量要素受行業(yè)領(lǐng)域、數(shù)據(jù)類型和應(yīng)用目的等因素的影響極大,不存在面向所有領(lǐng)域和資源類型的普適性數(shù)據(jù)質(zhì)量框架。但針對一個具體行業(yè)背景下的特定數(shù)據(jù)類型和業(yè)務(wù)目標(biāo),建立一組質(zhì)量維度和指標(biāo)體系是可行的。
對于目前我國的工業(yè)企業(yè)層面的數(shù)據(jù)分析應(yīng)用,常見的數(shù)據(jù)質(zhì)量分為以下八個維度:
(1)完整性。工業(yè)統(tǒng)計數(shù)據(jù)的完整性與數(shù)據(jù)庫的完整性整體概念并不相同,工業(yè)統(tǒng)計數(shù)據(jù)的完整性用以描述數(shù)據(jù)集合對于具體業(yè)務(wù)的目標(biāo)的覆蓋程度,可以從文字和記錄兩個方面分析。
(2)可理解性??衫斫庑灾笜?biāo)用來表述數(shù)據(jù)集是否能清晰的反應(yīng)業(yè)務(wù)邏輯,字段和取值的具體意義是否明確。
(3)一致性。一致性通常用來描述數(shù)據(jù)在不同維度的連貫性,包括數(shù)據(jù)集之間的橫向連貫性和時間維度的縱向連貫性。一致性并不意味著數(shù)值上的絕對相同,而是數(shù)據(jù)收集、處理的方法和標(biāo)準(zhǔn)的一致。
(4)可獲得性。可獲得性用來描述實際業(yè)務(wù)需要的數(shù)據(jù)獲取的難易程度,包括采集、清理、轉(zhuǎn)化等多個環(huán)節(jié)。
(5)準(zhǔn)確性。準(zhǔn)確性主要反應(yīng)數(shù)據(jù)集是否能夠精準(zhǔn)無誤的反應(yīng)真是業(yè)務(wù)情況,準(zhǔn)確性是數(shù)據(jù)質(zhì)量的重要組成部分。
(6)可靠性。反應(yīng)數(shù)據(jù)集合是否值得信賴,包括數(shù)據(jù)采集、數(shù)據(jù)處理過程是否可靠等。
(7)相關(guān)性。是指數(shù)據(jù)集中包含的屬性是否能很好的描述業(yè)務(wù)目標(biāo),是否能清晰的解答業(yè)務(wù)問題。第一節(jié)我們說到,我們對數(shù)據(jù)質(zhì)量的定義是看數(shù)據(jù)集是否能很好的滿足業(yè)務(wù)需求,相關(guān)性是數(shù)據(jù)質(zhì)量的核心維度。相關(guān)性的常用指標(biāo)主要就是數(shù)據(jù)字段相關(guān)度。
(8)時效性。時效性可以理解為時間維度的數(shù)據(jù)相關(guān)性,即業(yè)務(wù)需求的時間范圍和數(shù)據(jù)集表示的時間范圍之間的關(guān)聯(lián)程度。比如我們需要分析今年第一季度的工業(yè)發(fā)展概況,但是統(tǒng)計數(shù)據(jù)是去年第二季度的,這種情況就是極端的時效性差。
質(zhì)量評估方法,即采用何種方式對數(shù)據(jù)質(zhì)量進(jìn)行評估,如何評定和刻畫質(zhì)量水平。數(shù)據(jù)質(zhì)量評價方法主要分為定性和定量方法。
(1)定性法。定性法一般包括:
第三方評測法:主要是指將統(tǒng)計數(shù)據(jù)集合交由第三方的評測機構(gòu)和組織,對數(shù)據(jù)的質(zhì)量進(jìn)行評估,第三方評測法的有點有三個,一是可以節(jié)省人力成本,第三方評估的技術(shù)正在朝著智能化方向發(fā)展,隨著云計算、大數(shù)據(jù)等新技術(shù)的更新,自動化評估體系正在逐步完善,這能節(jié)省大量的人力成本;二十可以讓第三方數(shù)據(jù)評估機構(gòu)分擔(dān)相關(guān)的數(shù)據(jù)質(zhì)量風(fēng)險;三是可以得到專業(yè)評估機構(gòu)出具的第三方數(shù)據(jù)質(zhì)量評估報告和證明,使得數(shù)據(jù)質(zhì)量更具有權(quán)威性[4]。
用戶反饋法:用戶反饋法在工業(yè)統(tǒng)計數(shù)據(jù)中用處不大,主要是針對一些第三產(chǎn)業(yè)和服務(wù)業(yè)等企業(yè)進(jìn)行產(chǎn)品升級以及服務(wù)改造等作為參考的。
專家評議法:專家評議法相對于以上兩種更加具有權(quán)威性,專業(yè)人士對于數(shù)據(jù)質(zhì)量的評議和評估使得數(shù)據(jù)的可參考性會大大提升,數(shù)據(jù)的質(zhì)量也會提高。
(2)定量法.定量評價方法是指按照數(shù)量分析方法,從客觀量化角度對數(shù)據(jù)資源進(jìn)行的優(yōu)選與評價。
定量法一般包括:
統(tǒng)計分析法:統(tǒng)計分析法指通過對數(shù)據(jù)的規(guī)模,獲取途徑等客觀關(guān)系的分析研究,最終篩選出合適的數(shù)據(jù)集合并且將質(zhì)量較差的數(shù)據(jù)剔除,借以達(dá)到對數(shù)據(jù)質(zhì)量的有效評估,為后續(xù)數(shù)據(jù)分析工作提供高質(zhì)量數(shù)據(jù)的一種評估方法
內(nèi)容評估法:內(nèi)容評估法主要就是對數(shù)據(jù)的內(nèi)容質(zhì)量進(jìn)行評估,將于企業(yè)發(fā)展無關(guān)但是卻正確的數(shù)據(jù)篩選出來,留下真正意義上有參考價值的數(shù)據(jù)。
(3)綜合評價法。綜合方法將定性和定量兩種方法有機地集合起來,從兩個角度對數(shù)據(jù)資源質(zhì)量進(jìn)行評價。常見的綜合評價法包括:層次分析法、缺陷數(shù)據(jù)扣分法等。
對具體業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估是以業(yè)務(wù)需求為中心進(jìn)行的。數(shù)據(jù)資源不同于實體產(chǎn)品,具有用途個性化、多樣化、不穩(wěn)定等特點。因此,必須首先了解具體業(yè)務(wù)針對特定數(shù)據(jù)資源的需求特征才能建立針對性的評估指標(biāo)體系。
確定當(dāng)前評估工作應(yīng)用的數(shù)據(jù)集的范圍和邊界,明確數(shù)據(jù)集在屬性、數(shù)量、時間等維度的具體界限。需要說明的是,評估對象既可以是數(shù)據(jù)項也可以是數(shù)據(jù)集,但一定是一個確定的靜態(tài)的集合。
數(shù)據(jù)質(zhì)量維度是進(jìn)行質(zhì)量評估的具體質(zhì)量反映,如正確性、準(zhǔn)確性等。它是控制和評估數(shù)據(jù)質(zhì)量的主要內(nèi)容。因此,首先要依據(jù)具體業(yè)務(wù)需求選擇適當(dāng)?shù)臄?shù)據(jù)質(zhì)量維度和評估指標(biāo)。另外,要選取可測、可用的質(zhì)量維度作為評估指標(biāo)準(zhǔn)則項,在不同的數(shù)據(jù)類型和不同的數(shù)據(jù)生產(chǎn)階段,同一質(zhì)量維度有不同的具體含義和內(nèi)容,應(yīng)該根據(jù)實際需要和生命階段確定質(zhì)量維度。
數(shù)據(jù)質(zhì)量評估在確定其具體維度和指標(biāo)對象后,應(yīng)該根據(jù)每個評估對象的特點,確定其評估方法。對于不同的評價對象一般是存在不同的測度的,以及需要不同的實現(xiàn)方法支持,所以應(yīng)該根據(jù)質(zhì)量對象的特點確定其測度和實現(xiàn)方法。
就是根據(jù)前面四步確定的質(zhì)量對象、質(zhì)量范圍、測量及其實現(xiàn)方法實現(xiàn)質(zhì)量評測的活動過程。評估數(shù)據(jù)的質(zhì)量應(yīng)當(dāng)由多個質(zhì)量維度的評測來反映,單個數(shù)據(jù)質(zhì)量測量是不能充分、客觀評價由某一數(shù)據(jù)質(zhì)量范圍所限定的信息的質(zhì)量狀況,也不能為數(shù)據(jù)集的所有可能的應(yīng)用提供全面的參考,多個質(zhì)量維度的組合能提供更加豐富的信息。
評估后要對結(jié)果進(jìn)行分析:對評估的數(shù)據(jù)與結(jié)果進(jìn)行對比分析,確定是否達(dá)到指標(biāo);對評估的方案的有效性進(jìn)行分析,確認(rèn)是不是合適等[5]。最后應(yīng)將質(zhì)量評價結(jié)果和數(shù)據(jù)質(zhì)量評價過程匯總并報告。在完整的數(shù)據(jù)質(zhì)量評價結(jié)果和報告中,應(yīng)該包括全部上述內(nèi)容。
現(xiàn)如今,工業(yè)統(tǒng)計數(shù)據(jù)在數(shù)據(jù)處理的過程中已經(jīng)稱為不可或缺的一個重要環(huán)節(jié),評估工業(yè)統(tǒng)計數(shù)據(jù)質(zhì)量的方法有很多種,具體要應(yīng)用哪一種質(zhì)量評估方法一方面取決于數(shù)據(jù)的多少,數(shù)據(jù)的類型以及數(shù)據(jù)的用處,另一方面取決于工業(yè)發(fā)展的階段和企業(yè)的類型。有效的數(shù)據(jù)質(zhì)量評估可以幫助企業(yè)篩選出有用的數(shù)據(jù),剔除質(zhì)量低下的,相關(guān)性不大的數(shù)據(jù),并且?guī)椭嚓P(guān)部門確定質(zhì)量高的數(shù)據(jù),可以極大的減輕數(shù)據(jù)分析工作的負(fù)擔(dān),提高數(shù)據(jù)分析的效率,節(jié)省大量的人力,物力和財力。