王志之
【摘 要】當(dāng)前審計人員所面臨的原始資料,正由傳統(tǒng)手工憑證、賬簿和報表,逐步被具有高度抽象和關(guān)聯(lián)的電子數(shù)據(jù)所代替。然而審計數(shù)據(jù)一般情況下不是拿來就能用的,需要進行一定的處理才能更好的使用。本文從審計獲取的原始數(shù)據(jù)存在的質(zhì)量問題入手,通過對數(shù)據(jù)預(yù)處理的來談如何改善審計所采集的原始數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可分析性。
【關(guān)鍵詞】審計;數(shù)據(jù)質(zhì)量 ; 數(shù)據(jù)預(yù)處理
取得被審計單位數(shù)據(jù)后,下一步該怎么做呢,直接進行審計分析?但由于各種因素影響,導(dǎo)致被審計單位現(xiàn)有電子數(shù)據(jù)存在這樣或那樣的臟數(shù)據(jù),主要表現(xiàn)為數(shù)據(jù)不完整、數(shù)據(jù)錯誤、數(shù)據(jù)重復(fù)等。這些有質(zhì)量問題的數(shù)據(jù)會影響后續(xù)數(shù)據(jù)分析的結(jié)果。因此,對這些臟數(shù)據(jù)進行質(zhì)量分析和預(yù)處理來改善數(shù)據(jù)質(zhì)量是非常必要的。審計數(shù)據(jù)預(yù)處理是指在數(shù)據(jù)質(zhì)量分析的基礎(chǔ)上通過數(shù)據(jù)清理和轉(zhuǎn)換,從而把大批雜亂無章的數(shù)據(jù)集中和提煉出來的過程,為進一步分析審計數(shù)據(jù)做好鋪墊。
一、數(shù)據(jù)預(yù)處理的必要性
1.被審計單位數(shù)據(jù)質(zhì)量問題普遍存在
雖然大部分被審計單位對信息系統(tǒng)和數(shù)據(jù)管理越來越重視,但是現(xiàn)實審計過程中發(fā)現(xiàn)由于被審計信息系統(tǒng)管理薄弱,系統(tǒng)維護不到位,人員水平不足,人員變動頻繁等因素影響,數(shù)據(jù)質(zhì)量問題仍然比較突出,數(shù)據(jù)中大量的錯誤的,不合規(guī)的數(shù)據(jù)。這些問題的存在嚴重影響了數(shù)據(jù)分析工作的開展。所以進行數(shù)據(jù)質(zhì)量分析和預(yù)處理是非常重要的。
2.被審計單位數(shù)據(jù)來源多樣化帶來了數(shù)據(jù)不一致性
審計過程中多渠道獲取數(shù)據(jù),可以提高審計結(jié)果準確性,全面性。我們獲取的數(shù)據(jù)有財務(wù)數(shù)據(jù),有業(yè)務(wù)臺賬數(shù)據(jù),有電子表格數(shù)據(jù),有數(shù)據(jù)庫數(shù)據(jù)。數(shù)據(jù)來源的差異,必然給審計工作帶來數(shù)據(jù)的不一致性問題。
二、數(shù)據(jù)質(zhì)量分析主要方面
數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)預(yù)處理的基礎(chǔ),研究審計數(shù)據(jù)質(zhì)量的意義在于,通過研究審計數(shù)據(jù)質(zhì)量的表現(xiàn)形式、產(chǎn)生原因、對審計風(fēng)險的影響,進而確定那些方面要進行預(yù)處理,為審計數(shù)據(jù)預(yù)處理提供指導(dǎo),提高審計工作效率,控制審計風(fēng)險。審計數(shù)據(jù)質(zhì)量分析主要從完整性、準確性、一致性、相關(guān)性等幾個方面進行評估分析。
1.數(shù)據(jù)完整性指數(shù)據(jù)源中需要數(shù)值的字段中數(shù)值缺失的程度
如果審計數(shù)據(jù)中需要數(shù)值的字段大量為空值或者缺省值,則數(shù)據(jù)的完整性較差。
2.數(shù)據(jù)準確性指數(shù)據(jù)源中數(shù)據(jù)值與客觀真實數(shù)據(jù)值的一致程度
常見的不準確數(shù)據(jù)主要有:違法常規(guī),如手機號碼尾數(shù)不是11位;多值嵌套,如姓名為“張三、李四”;采用簡稱,如公司名稱為“山水集團”等等。上述幾種數(shù)據(jù)錯誤是比較直觀的,在實際操作過程中,大量的數(shù)據(jù)無法直觀的判斷數(shù)據(jù)是否準確,需要通過一定方法進行驗證,主要有規(guī)則驗證法和匯總比較法。
(1)規(guī)則驗證法:根據(jù)相應(yīng)數(shù)據(jù)應(yīng)該遵循的規(guī)則,在規(guī)則庫中定義相應(yīng)的業(yè)務(wù)規(guī)則,通過規(guī)則檢測,判定每條記錄是否符合所定義的業(yè)務(wù)規(guī)則。如果記錄不符合所定義的業(yè)務(wù)規(guī)則,則該記錄含有錯誤數(shù)據(jù)。例如身份證號碼驗證。
(2)匯總比較法:主要用于對數(shù)值從總體上進行檢查核對的方法,通過總體數(shù)據(jù)與其他相關(guān)聯(lián)數(shù)據(jù)比對,將個體之和與對應(yīng)數(shù)據(jù)比較。例如將業(yè)務(wù)系統(tǒng)數(shù)字總額和財務(wù)系統(tǒng)、報表數(shù)比較分析,從總體上評估數(shù)據(jù)的準確性。
3.數(shù)據(jù)一致性指數(shù)據(jù)源中數(shù)據(jù)對一組約束的滿足程度
數(shù)據(jù)不一致主要表現(xiàn)為數(shù)據(jù)格式不一致,例如同一屬性數(shù)據(jù)有的是數(shù)值型,有的是字符型;有的日期是日期型,有的是時間型。同一信息,在不同的應(yīng)用中有不同的格式。例如,字段“日期”在A中的格式為“YYYY-MM-DD”,在B中格式為“MM/ DD/YY”,在C中格式又為“DDMMYY”。
4.數(shù)據(jù)相關(guān)性是指數(shù)據(jù)與審計目的的關(guān)聯(lián)程度
在采集數(shù)據(jù)時,往往來不及對被審計系統(tǒng)及數(shù)據(jù)做詳細的了解與分析,因此并不知道哪些數(shù)據(jù)重要,哪些數(shù)據(jù)不重要。通常是確定一個范圍后把數(shù)據(jù)全部采集過來,再想辦法加工整理??紤]到數(shù)據(jù)的全面和豐富,以及數(shù)據(jù)采集的風(fēng)險,在采集數(shù)據(jù)時一般都寧多勿缺,故采集到的審計數(shù)據(jù)往往會有許多重復(fù),且數(shù)據(jù)量巨大。審計目的不同,對數(shù)據(jù)需求不同,有些數(shù)據(jù)不在審計要求范圍內(nèi),則關(guān)聯(lián)性不大。
三、數(shù)據(jù)預(yù)處理主要內(nèi)容
1.數(shù)據(jù)清洗
數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)錯誤的一道程序,針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)方法如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘等清洗規(guī)則進行“清洗”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),從而提高數(shù)據(jù)質(zhì)量。當(dāng)然,數(shù)據(jù)清洗還包括對重復(fù)記錄進行刪除、檢查數(shù)據(jù)一致性。如何對數(shù)據(jù)進行有效的清洗和轉(zhuǎn)換使之成為符合數(shù)據(jù)挖掘要求的數(shù)據(jù)源是影響數(shù)據(jù)挖掘準確性的關(guān)鍵因素,但是異構(gòu)數(shù)據(jù)庫在語法和語義上存在較大差異,很難找到一般性的方法。
錯誤數(shù)據(jù)的清洗,當(dāng)錯誤記錄數(shù)較少時,可通過人工修正。當(dāng)錯誤記錄數(shù)相當(dāng)大時,通過人工修正顯然不太現(xiàn)實??梢詫㈠e誤數(shù)據(jù)篩選出來,與其他數(shù)據(jù)區(qū)別對待,如有進一步分析價值,則單獨進行分析,沒有分析價值時可以忽略該部分數(shù)據(jù)。遺漏值數(shù)據(jù)清洗,則需要補全遺漏值,一般使用人工補充或者從相關(guān)數(shù)據(jù)源推測最可能值補充等方法,必要的時候也可以忽略相應(yīng)數(shù)據(jù)。當(dāng)某一字段屬性缺失的數(shù)量所占比例較高時,忽略缺失值必然會降低數(shù)據(jù)分析的性能,同樣,人工補充的措施也行不通;使用全局常量、平均值或推測的最可能的值填充時,雖然填入的值可能不正確,但與其他措施相比,還是充分考慮現(xiàn)存數(shù)據(jù)的最多信息,盡可能的保留和其他數(shù)據(jù)之間的聯(lián)系。
2.數(shù)據(jù)轉(zhuǎn)換
審計軟件和數(shù)據(jù)庫管理軟件所處理的數(shù)據(jù)都是基于一定的數(shù)據(jù)結(jié)構(gòu)。當(dāng)輸入數(shù)據(jù)不滿足軟件處理的需求時,必須對它進行轉(zhuǎn)換。因此數(shù)據(jù)轉(zhuǎn)換是改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可分析性的重要內(nèi)容。數(shù)據(jù)轉(zhuǎn)換主要包括數(shù)據(jù)環(huán)境轉(zhuǎn)換和數(shù)據(jù)類型轉(zhuǎn)換兩個方面:
(1)數(shù)據(jù)環(huán)境轉(zhuǎn)換。審計實踐中,不同單位,或者同一單位不同數(shù)據(jù)使用多種不同的數(shù)據(jù)庫,常用的數(shù)據(jù)庫種類有SQLServer,oracle,DB2,mysql等,由于審計人員時間和精力有限不可能去熟悉多種數(shù)據(jù)庫,通常對其中一兩個數(shù)據(jù)庫比較熟悉也比較習(xí)慣,因此如何將不同數(shù)據(jù)環(huán)境下數(shù)據(jù)轉(zhuǎn)換成審計人員熟悉的數(shù)據(jù)庫環(huán)境中是開展審計分析工作的重要前提。可以通過專業(yè)工具或者數(shù)據(jù)庫軟件進行轉(zhuǎn)換,也可以通過使用ODBC進行數(shù)據(jù)采集,審計人員通過ODBC訪問接口直接訪問被審計單位信息系統(tǒng)的數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)換成需要的格式。如Oracle可以通過ODBC將數(shù)據(jù)庫中的指定表導(dǎo)出到MDB數(shù)據(jù)庫。
(2)數(shù)據(jù)類型轉(zhuǎn)換。數(shù)據(jù)類型轉(zhuǎn)換主要有類型相容和不相容兩種情況。類型相容指的是一種類型數(shù)據(jù)的值域通過相應(yīng)的轉(zhuǎn)換函數(shù)轉(zhuǎn)換到另一種類型的值域上,這種轉(zhuǎn)換不會丟失數(shù)據(jù)的精確度。類型相容的轉(zhuǎn)換被認為是無損的轉(zhuǎn)換,如整型到字符型的轉(zhuǎn)換;類型不相容的轉(zhuǎn)換被認為是有損的轉(zhuǎn)換,如字符型到整型的轉(zhuǎn)換。在一般情況下,數(shù)據(jù)庫軟件會自動完成數(shù)據(jù)類型的轉(zhuǎn)換,例如,SQLServer可以直接將字符數(shù)據(jù)類型或表達式與datetime數(shù)據(jù)類型或表達式比較當(dāng)表達式中用了integer、smallint或tinyint時,SQLServer也可將integer數(shù)據(jù)類型或表達式轉(zhuǎn)換為smallint數(shù)據(jù)類型或表達式,這稱為隱式轉(zhuǎn)換。如果不能確定SQLServer是否能完成隱式轉(zhuǎn)換或者使用了不能隱式轉(zhuǎn)換的其它數(shù)據(jù)類型,就需要使用數(shù)據(jù)類型轉(zhuǎn)換函數(shù)做顯式轉(zhuǎn)換了。此類函數(shù)有兩個:cast、convert。
3.數(shù)據(jù)合并
通過將多源數(shù)據(jù)匯集起來,將相同或相似類型的數(shù)據(jù)合并到一起,便于通過審計軟件或者數(shù)據(jù)庫管理軟件進行集中分析。數(shù)據(jù)合并主要分為橫向合并和縱向合并兩種。橫向合并增加的數(shù)據(jù)屬性數(shù),橫向合并要求,兩個數(shù)據(jù)文件至少有一個名稱相同的變量,此變量是合并時的重要依據(jù),稱為“關(guān)鍵變量”。縱向合并,不同數(shù)據(jù)文件中具有含義的數(shù)據(jù)要有相同的變量名,且數(shù)據(jù)類型也最好相同,否則需要人工處理,加大工作量。如在城鄉(xiāng)低保審計中獲取的低保數(shù)據(jù)通常是分成各個鄉(xiāng)鎮(zhèn)形成多張表,而這些表機構(gòu)一致,可以通過縱向合并,便于后續(xù)審計分析中進行批量分析處理。
審計過程可以看成一個持續(xù)的信息加工和專業(yè)判斷過程,通過數(shù)據(jù)質(zhì)量分析來發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,進而通過數(shù)據(jù)預(yù)處理來改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可分析性,數(shù)據(jù)預(yù)處理的過程雖然無法直接展現(xiàn)審計成果,但卻是在現(xiàn)有數(shù)據(jù)基礎(chǔ)上進一步進行審計分析不可回避的一項工作,有利于后續(xù)審計分析工作得以順利的開展。
參考文獻:
[1] 李巍,何曉蕾.提高審計數(shù)據(jù)分析的質(zhì)量的對策[J].管理工程師,2013(6).
[2] 張進,易仁萍,陳偉.計算機審計中電子數(shù)據(jù)的清理研究[J].審計研究,2004(6).
[3] 吳沁紅.信息系統(tǒng)審計內(nèi)容分析[J].財會月刊,2008(10).endprint