程平 (教授/博導) 常吉 夏會 (副教授)
(重慶理工大學會計學院 重慶理工大學云會計大數(shù)據(jù)智能研究所 重慶 400054)
以大數(shù)據(jù)、云計算、人工智能和機器人流程自動化為代表的新一代信息技術(shù)蓬勃發(fā)展與廣泛應用,對會計領域的理論和實踐產(chǎn)生了深刻的影響。大數(shù)據(jù)作為核心技術(shù)之一,它的運用使得財務會計工作的重點由原先的編制憑證、記賬、結(jié)賬、編制報表等轉(zhuǎn)向數(shù)據(jù)的收集、存儲、加工、傳遞和查詢上,同時對會計信息的呈現(xiàn)、獲取、使用方式和質(zhì)量產(chǎn)生了較大的影響,促使財務會計向業(yè)財融合方向發(fā)展。在大數(shù)據(jù)時代,財務會計與管理會計的深度融合,本質(zhì)上就是體現(xiàn)為業(yè)財融合,而業(yè)財融合的關鍵是要實現(xiàn)企業(yè)內(nèi)部的財務數(shù)據(jù)、業(yè)務數(shù)據(jù)與外部多維數(shù)據(jù)的全面融合。大數(shù)據(jù)技術(shù)助推業(yè)財融合,幫助會計信息使用者能更好地掌握和理解數(shù)據(jù),能夠?qū)崟r、精準地洞察和理解市場經(jīng)濟現(xiàn)象和規(guī)律。
多年來,大數(shù)據(jù)及相關技術(shù)在會計領域的應用一直是業(yè)界關注的重點。尹建芳等(2020)在闡述人工智能背景下會計轉(zhuǎn)型發(fā)展三種觀點的基礎上,進一步對企業(yè)會計面臨的機遇與挑戰(zhàn)進行了分析,探索了財務會計與管理會計未來的發(fā)展趨勢。丁勝紅(2019)采用歷史文獻法梳理會計核算流程的演變規(guī)律,采用演繹與歸納法構(gòu)建大數(shù)據(jù)會計核算理論體系,采用嫁接法重構(gòu)大數(shù)據(jù)會計核算云端化流程。陳文軍(2015)在探討大數(shù)據(jù)、云計算在數(shù)據(jù)存儲和處理方面對完善管理會計的職能所發(fā)揮作用的基礎上,論述了在管理會計發(fā)展領域所產(chǎn)生的重要影響。劉鳳委(2017)分析了大數(shù)據(jù)對管理會計各項職能的影響,并從會計行業(yè)發(fā)展角度提出了未來會計從業(yè)人員所面臨的嚴峻挑戰(zhàn)。吳勇等(2019)在梳理大數(shù)據(jù)和管理會計相關概念的基礎上,立足于數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)分析和數(shù)據(jù)應用四個關鍵階段,重構(gòu)面向大數(shù)據(jù)分析全生命周期的管理會計應用系統(tǒng)功能架構(gòu),進而從需求驅(qū)動、供給推動以及外部環(huán)境影響三個方面,提出基于大數(shù)據(jù)分析的管理會計應用系統(tǒng)的實施思路和實現(xiàn)路徑。
現(xiàn)有文獻對大數(shù)據(jù)技術(shù)在財務會計、管理會計領域的應用從挑戰(zhàn)、職能影響、流程重構(gòu)以及功能框架等方面進行了多維度的探索,對豐富大數(shù)據(jù)技術(shù)與會計結(jié)合的研究做出了非常積極的貢獻,然而這些研究對會計大數(shù)據(jù)的內(nèi)涵和具體的技術(shù)實現(xiàn)還缺乏清晰、深入、系統(tǒng)的研究。有鑒于此,本文從會計大數(shù)據(jù)的內(nèi)涵、內(nèi)容框架和技術(shù)實現(xiàn)三方面嘗試為會計大數(shù)據(jù)建立比較系統(tǒng)的理論和方法體系提供參考。
會計大數(shù)據(jù),目前業(yè)界還沒有統(tǒng)一的概念界定。本文基于對會計數(shù)據(jù)和會計信息的理解,結(jié)合大數(shù)據(jù)技術(shù)的內(nèi)涵和特征對會計大數(shù)據(jù)進行定義。會計大數(shù)據(jù)是建立在互聯(lián)網(wǎng)和云計算基礎之上,面向會計核算、會計管理和會計決策應用場景,對企業(yè)內(nèi)外部產(chǎn)生的大規(guī)模、多樣化的會計數(shù)據(jù)進行采集、存儲、處理、計算與分析的一系列數(shù)據(jù)處理技術(shù)。簡單的說,會計大數(shù)據(jù)就是大數(shù)據(jù)及相關技術(shù)在財務會計體系、管理會計體系中的應用,它是以傳統(tǒng)會計體系為核心,并在原來的基礎上增加了一個技術(shù)處理手段,并未使傳統(tǒng)會計體系發(fā)生根本變化。
會計大數(shù)據(jù)的概念中所指的會計數(shù)據(jù)不只包含傳統(tǒng)財務會計下的會計數(shù)據(jù),還包括來自企業(yè)業(yè)務信息系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),以及外部或者互聯(lián)網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁)和非結(jié)構(gòu)化數(shù)據(jù)(如圖像、文本等)。會計大數(shù)據(jù)除了能夠完成財務會計的會計核算和會計監(jiān)督職能,還能夠通過業(yè)財數(shù)據(jù)融合和大數(shù)據(jù)挖掘技術(shù),完成管理會計的預測、決策、規(guī)劃、控制和評價職能。
會計大數(shù)據(jù)是大數(shù)據(jù)及相關技術(shù)在財務會計體系、管理會計體系中的具體應用,可以從會計的職能層面對會計大數(shù)據(jù)的內(nèi)容進行詮釋,其框架如圖1所示。
圖1 會計大數(shù)據(jù)的內(nèi)容框架
財務會計是現(xiàn)代企業(yè)的一項重要的基礎性工作,它通過一系列會計程序提供決策有用的信息,并積極參與經(jīng)營管理決策,提高企業(yè)經(jīng)濟效益,服務于市場經(jīng)濟的健康有序發(fā)展。財務會計大數(shù)據(jù)是大數(shù)據(jù)及相關技術(shù)在財務會計中的應用,具體體現(xiàn)為大數(shù)據(jù)及相關技術(shù)在會計核算和監(jiān)督職能中的具體實現(xiàn)。
1.核算。核算職能是對以貨幣計量的經(jīng)濟活動進行確認、計量、記錄和報告。傳統(tǒng)信息化模式下的會計核算工作,財務人員基本被定位在收集單據(jù)、定制憑證、復核、結(jié)賬、報告、歸檔等工作的軟件操作,其處理的數(shù)據(jù)主要是結(jié)構(gòu)化類型的會計數(shù)據(jù)。而在財務會計大數(shù)據(jù)下,財務人員所面對的不只是會計數(shù)據(jù)和原始單據(jù),而更多的是海量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)的類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并且更多的是非結(jié)構(gòu)化數(shù)據(jù)。財務人員需要收集和分析會計數(shù)據(jù)和業(yè)務數(shù)據(jù),并將有用的數(shù)據(jù)放置在合理的資源中,通過高效的核算流程輸出有價值的會計信息。財務會計大數(shù)據(jù)下,大數(shù)據(jù)采集、存儲、處理和計算使得會計核算更為精細。例如,企業(yè)在進行成本核算時,不管采用什么方法,重點都是要確定成本定額的大小。在財務會計大數(shù)據(jù)下,企業(yè)通過采集、存儲海量數(shù)據(jù),來分析同行業(yè)企業(yè)的成本定額標準,從而根據(jù)企業(yè)的財務狀況,制定一個更加合理的成本定額標準。所以,財務會計大數(shù)據(jù)能夠讓企業(yè)的會計成本核算更加精細化,為企業(yè)節(jié)約成本。財務會計大數(shù)據(jù)下,大數(shù)據(jù)的傳播、處理和計算的速度提升了會計核算的及時性。例如,企業(yè)在發(fā)出或者購進貨物時,只需要將購進或者發(fā)出貨物的單價和數(shù)量輸入系統(tǒng)內(nèi)就可以將這些數(shù)據(jù)立即傳輸給會計核算人員,馬上進行會計處理和分析,這有利于相關管理和決策者在最佳時間點做出選擇。財務會計大數(shù)據(jù)下,大數(shù)據(jù)使財務會計報告更加及時。大數(shù)據(jù)技術(shù)將推動財務報告從定期報告向?qū)崟r報告轉(zhuǎn)化,大數(shù)據(jù)的特點就是數(shù)據(jù)的處理速度非???,實時報告是大數(shù)據(jù)技術(shù)與會計的完美結(jié)合,極大地促進了財務會計報告的及時性,使投資者等財務報告使用者能隨時了解企業(yè)的財務狀況和未來的發(fā)展趨勢。
2.監(jiān)督。監(jiān)督職能是會計人員在進行會計核算的同時,對特定主體經(jīng)濟業(yè)務的真實性、合法性和合理性進行的審查。在大數(shù)據(jù)背景下,審查的對象由憑證、賬簿等轉(zhuǎn)變?yōu)槎喾N類型的會計數(shù)據(jù)。在財務會計大數(shù)據(jù)下,會計監(jiān)督工作迫切需要利用大數(shù)據(jù)技術(shù)對自身加以優(yōu)化完善,而這主要體現(xiàn)在會計數(shù)據(jù)的大量化、多樣化、高效化這三個方面,通過打通財務部門與采購部門、生產(chǎn)部門、銷售部門之間的數(shù)據(jù)信息壁壘,推動會計監(jiān)督數(shù)據(jù)的融合與共享,實現(xiàn)對會計數(shù)據(jù)的全天候、不間斷的主動式監(jiān)督。在財務會計大數(shù)據(jù)下,大數(shù)據(jù)技術(shù)應用于會計信息歸集、處理、分析,通過對各個流程數(shù)據(jù)的匯總與對比,借助非結(jié)構(gòu)化數(shù)據(jù)的提取利用,可以加強會計內(nèi)部監(jiān)督的職能,為不同的使用者提供高質(zhì)量的會計信息。當前,基于大數(shù)據(jù)背景下的會計職能早已從反映過去向著預測未來轉(zhuǎn)變,財務報告也從事后報告向著實時報告加以轉(zhuǎn)型。所以,結(jié)合大數(shù)據(jù)技術(shù)與大數(shù)據(jù)思維,為會計監(jiān)督工作構(gòu)建一個行之有效的防范機制,對可能存在的風險問題加以防控,是加強事前、事中監(jiān)督的關鍵。
需要注意的是,在財務會計大數(shù)據(jù)下,由于非結(jié)構(gòu)化數(shù)據(jù)的比例增加,會計信息結(jié)構(gòu)日益復雜,會計監(jiān)督工作中傳統(tǒng)的統(tǒng)一的信息判斷標準開始失效,因此,需要對會計信息的質(zhì)量標準提出新的觀察維度,會計監(jiān)督工作需要在信息的數(shù)量與精確性之間找到有效平衡。
管理會計是面向企業(yè)內(nèi)部的會計,是從數(shù)據(jù)到?jīng)Q策的一個過程。對于管理會計,大數(shù)據(jù)的理念和技術(shù)為企業(yè)管理層合理配置資源和優(yōu)化決策并對當前和未來的經(jīng)濟活動進行預測、決策、規(guī)劃、控制和考核評價提供了更多可能。從某種程度上來說,大數(shù)據(jù)是預測分析、決策分析、成本控制等管理會計職能得以良好運用的基礎。此外,大數(shù)據(jù)還可以突破當前管理會計工作的限制,實現(xiàn)高效的信息管理與存儲,深入挖掘相關數(shù)據(jù)的價值,以此提高管理會計在實際工作中的效率。管理會計大數(shù)據(jù)是大數(shù)據(jù)及相關技術(shù)在管理會計中的應用,具體體現(xiàn)為大數(shù)據(jù)及其相關技術(shù),尤其是分類、聚類、關聯(lián)、預測等數(shù)據(jù)挖掘算法在會計預測、決策、規(guī)劃、控制、考核評價職能中的具體實現(xiàn)。在數(shù)據(jù)挖掘算法中,常見的分類算法有C4.5、簡單貝葉斯法、SVM、KNN、AdaBoost、CART 等算法,聚類算法有 K-Means、EM等,關聯(lián)算法有Aprior、FP-G、FreeSpan及prefixspan等算法,預測算法有人工神經(jīng)網(wǎng)絡、時間序列預測等算法。
1.預測。預測是管理會計的一個重要職能,它是對歷史數(shù)據(jù)用一定的統(tǒng)計方法進行銷售預測、成本預測、利潤預測等,比較常用的預測方法有因果預測和回歸分析。傳統(tǒng)的預測方法都有一個共同的缺陷,就是為了節(jié)約成本要對數(shù)據(jù)進行簡單處理,這使得預測結(jié)果的準確性受到影響。而在管理大數(shù)據(jù)下,通過數(shù)據(jù)挖掘技術(shù),利用趨勢分析、時間序列分析等方法,將數(shù)據(jù)進行整理、存儲、分析、挖掘,將有助于更好地預測銷售、成本、資金等信息,進而提高預測的準確度,比如對市場調(diào)研的數(shù)據(jù)分析可以幫助企業(yè)建立更加科學規(guī)范的銷售預測體系。
2.決策?,F(xiàn)代管理會計的主要職責之一是為決策部門提供決策支持。企業(yè)的經(jīng)營決策主要包括戰(zhàn)略目標決策、短期經(jīng)營決策、長期經(jīng)營決策等,這些決策的產(chǎn)生都需要大數(shù)據(jù)分析的支持,而這正是需要管理會計大數(shù)據(jù)的地方。在管理會計大數(shù)據(jù)下,通過積累的大量歷史數(shù)據(jù)和利用統(tǒng)計學、機器學習、數(shù)據(jù)挖掘等技術(shù),能夠讓依賴于個人經(jīng)驗的決策讓位于理性的數(shù)據(jù)決策。例如,貸款不是靠信貸員的主觀判斷而是由模型預測結(jié)果來決定是否給予貸款、利率應該是多少;零售店不是靠管理人員判斷采購哪些產(chǎn)品及采購數(shù)量,而是依賴于模型數(shù)據(jù)分析的結(jié)果給出判斷依據(jù);定價決策可能不單純依賴成本,而是結(jié)合客戶特征、偏好與以往購買行為,甚至能夠針對每一個客戶給出不同的定價。在管理會計大數(shù)據(jù)下,決策方式的轉(zhuǎn)變使得企業(yè)更智能化,并且由于企業(yè)掌握數(shù)據(jù)的獨特性,能夠構(gòu)建基于自身的核心競爭力,無法被其他企業(yè)簡單模仿,也不用擔心具有豐富經(jīng)驗的員工離職給企業(yè)帶來嚴重的損失。
3.規(guī)劃。規(guī)劃是企業(yè)選擇和制定正確戰(zhàn)略的基礎,是對未來整體性、長期性、基本性問題的思考和考量,是通過編制各種計劃和預算實現(xiàn)的。它要求在最終決策方案的基礎上,將事先確定的有關經(jīng)濟目標分解落實到有關預算中去,從而合理有效地組織協(xié)調(diào)企業(yè)供、產(chǎn)、銷及人、財、物之間的關系,并為控制和責任考核創(chuàng)造條件。管理會計以面向未來為基點,以決策為主體,幫助企業(yè)管理者對未來進行戰(zhàn)略規(guī)劃,為決策提供最優(yōu)信息,為企業(yè)的預算提供決策依據(jù)。非財務信息是企業(yè)進行戰(zhàn)略規(guī)劃的基礎,宏觀環(huán)境、行業(yè)競爭度、價值鏈等非財務信息有助于企業(yè)選擇正確的戰(zhàn)略行動,而管理會計大數(shù)據(jù)的應用將有力提升企業(yè)在規(guī)劃方面的能力。在應用過程中,利用大數(shù)據(jù)技術(shù),如網(wǎng)絡搜尋、關鍵詞獲取等,全面掌握行業(yè)環(huán)境、價值鏈等各類關鍵信息,可以輔助企業(yè)進行戰(zhàn)略決策;此外,大量運營的非財務數(shù)據(jù)有助于提升企業(yè)投資規(guī)劃能力,如利用水質(zhì)監(jiān)測積累的大數(shù)據(jù)來提高污水處理企業(yè)投資收益分析能力等。
4.控制。控制職能就是將經(jīng)濟活動的事前控制和事中控制有機地結(jié)合起來,通過事前確定科學可行的各種標準,根據(jù)執(zhí)行過程中實際與計劃發(fā)生的偏差進行原因分析,并及時采取措施加以調(diào)整、改進,確保經(jīng)濟活動的正常進行。管理會計中的流程管理和內(nèi)部控制等,將極大地加強企業(yè)對運營的控制,從而保證運營效率??刂频年P鍵在于事先確定的標準,而明確標準的基礎在于對企業(yè)研發(fā)、采購、生產(chǎn)、營銷等各環(huán)節(jié)關鍵信息的掌握,尤其是非財務信息數(shù)據(jù)的積累、分析與應用,是最大限度地改進控制能力、提高企業(yè)整體運營效率的關鍵。大數(shù)據(jù)時代強調(diào)對企業(yè)日常經(jīng)營管理活動進行全面記錄與分析,這將對控制效率的提升具有決定性作用。管理會計大數(shù)據(jù)下的控制職能可以采用指標體系,將數(shù)據(jù)量化后建模達到計算指標的目的,進行偏差的查找,還可發(fā)揮監(jiān)測的作用。但是偏差的前提是有一個衡量標準,大數(shù)據(jù)的數(shù)據(jù)計算能力能夠滿足這一前提。大數(shù)據(jù)能夠完善目前管理會計工具的應用,比如用作業(yè)成本法來核算成本時,利用互聯(lián)網(wǎng)收集基于作業(yè)層面的數(shù)據(jù),從而使得直接費用更真實,間接費用也容易找到分配的因子,更好地實現(xiàn)成本控制的目標。大數(shù)據(jù)還能夠系統(tǒng)地管理成本,傳統(tǒng)成本控制和管理所需的信息來自于企業(yè)內(nèi)部,但在管理會計大數(shù)據(jù)下,企業(yè)可以將外部信息收集起來與內(nèi)部信息結(jié)合,以達到全面、系統(tǒng)地控制成本。
在利用非財務信息進行控制方面,成本控制的關鍵則取決于各項成本信息的細化與分析,從而形成控制的基本標準。沒有對日常大量關鍵非財務信息的存儲與分析,要想實現(xiàn)精確的控制異常艱難。以非財務信息為基礎的控制將更具及時性,能夠讓企業(yè)更快速地采取措施、糾正錯誤。
5.考核評價。管理會計履行“考核評價經(jīng)營業(yè)績”的職能,是通過建立責任會計制度來實現(xiàn)的,即在各部門各單位及每個人均明確各自責任的前提下,逐級考核責任指標的執(zhí)行情況,找出成績和不足,從而為獎懲制度的實施和未來工作提供必要的依據(jù)。作為管理會計,其評價對象不是企業(yè),而是組織內(nèi)部的個人、分支機構(gòu)或業(yè)務條線;其評價標準不一定是財務信息,而是有賴于大量非財務信息或經(jīng)調(diào)整后的財務信息,以此來規(guī)避財務信息評價的缺陷。目前,大量企業(yè)管理控制與評價的標準都來自于數(shù)據(jù)管理。企業(yè)管理中經(jīng)常通過數(shù)據(jù)來查看、評價員工的工作動態(tài)及績效考核,績效評價一直以來都是管理會計工作的一大難題,其難點之一在于實際評價時難以收集到所有與績效有關的信息,不管用什么樣的評價方法都不能完全客觀、準確地評價績效高低。一方面,為了提高員工績效考核的科學性和合理性,管理會計有必要通過對大數(shù)據(jù)的收集、整理和分析,遵循先進且公平的考核和獎懲制度,當員工的積極性受到極大鼓舞,這種激情將快速地反饋至企業(yè),促使企業(yè)實現(xiàn)強勁的發(fā)展。另一方面,在評價客戶信用方面,利用管理會計大數(shù)據(jù)可以準確評價客戶信用,預測企業(yè)風險??蛻裟芊癜雌谥Ц端坟浛睿瑳Q定了企業(yè)需要承擔壞賬風險的大小。通過建立管理會計大數(shù)據(jù)平臺,構(gòu)建多維數(shù)據(jù)庫,從不同渠道獲得客戶不同維度的數(shù)據(jù),可以將事后分析轉(zhuǎn)為事先引導。針對責任成本制的企業(yè),成本中心、利潤中心和投資中心都需要利用大數(shù)據(jù)倉庫的數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)進行責任預算的編制以及實際中心數(shù)據(jù)和相關市場數(shù)據(jù)的確定,并且通過實際數(shù)據(jù)和預算數(shù)據(jù)的對比分析,對各中心的績效做出評價與考核。在管理會計大數(shù)據(jù)下,對評價職能的徹底改變還在于以往的評價角度更強調(diào)基于效率與效益的內(nèi)部評價,由于擁有大量客戶評價反饋信息作為評價基準,并且是從客戶價值角度出發(fā)給出的直接評價,將進一步完善與拓展現(xiàn)有管理會計業(yè)績評價工具,提升管理會計工具應用水平。
會計大數(shù)據(jù)是一套完整的“場景+需求+數(shù)據(jù)+技術(shù)”的解決方案,其本質(zhì)是運用大數(shù)據(jù)采集、預處理、存儲與管理、計算、分析與挖掘、可視化一系列關鍵技術(shù)來服務財務會計體系和管理會計體系的應用場景。
大數(shù)據(jù)采集通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類型的海量數(shù)據(jù)。大數(shù)據(jù)采集從數(shù)據(jù)源上可以分為四類:Web數(shù)據(jù)(包括網(wǎng)頁、視頻、音頻、動畫、圖片等)、日志數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、其他數(shù)據(jù)(感知設備數(shù)據(jù)等)?;ヂ?lián)網(wǎng)上會產(chǎn)生大量的日志、網(wǎng)頁、音頻、視頻等Web數(shù)據(jù),價值密度較低,收集難度大。數(shù)據(jù)庫數(shù)據(jù)主要源自會計信息系統(tǒng)和業(yè)務信息系統(tǒng),其中,會計信息系統(tǒng)包含了大量的以財務會計為主的結(jié)構(gòu)化數(shù)據(jù)、價值密度高,收集難度較小,而業(yè)務信息系統(tǒng)包含了大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的管理會計大數(shù)據(jù)。感知設備上的數(shù)據(jù)包括大量音頻、視頻和圖片數(shù)據(jù),價值密度較低,收集難度大,可以從數(shù)據(jù)服務提供商處直接獲取,這些數(shù)據(jù)屬于管理會計大數(shù)據(jù)范疇。
傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。大數(shù)據(jù)采集技術(shù)面臨著諸多挑戰(zhàn):一方面數(shù)據(jù)源的種類多,數(shù)據(jù)的類型繁雜,數(shù)據(jù)量大,并且產(chǎn)生的速度快;另一方面需要保證數(shù)據(jù)采集的可靠性和高效性,同時還要避免數(shù)據(jù)重復。
和傳統(tǒng)的數(shù)據(jù)采集技術(shù)相比,大數(shù)據(jù)采集技術(shù)有兩個特點:(1)大數(shù)據(jù)采集通常采用分布式架構(gòu)。大數(shù)據(jù)采集的數(shù)據(jù)流量大,數(shù)據(jù)集記錄條數(shù)多,傳統(tǒng)的單機采集方式,在性能和存儲空間上都無法滿足需求。(2)多種采集技術(shù)混合使用。大數(shù)據(jù)采集不像普通數(shù)據(jù)采集那樣單一,往往是多種數(shù)據(jù)源同時采集,而不同的數(shù)據(jù)源對應的采集技術(shù)通常不一樣,很難有一種平臺或技術(shù)能夠統(tǒng)一采集所有的數(shù)據(jù)源,因此大數(shù)據(jù)采集時,往往是多種技術(shù)混合使用,要求更高。傳統(tǒng)企業(yè)會使用傳統(tǒng)的關系型數(shù)據(jù)庫 MySQL 和 Oracle 等來存儲數(shù)據(jù),隨著大數(shù)據(jù)時代的到來,Redis、MongoDB 和HBase 等 NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的存儲。企業(yè)通過在采集端部署大量數(shù)據(jù)庫,并在這些數(shù)據(jù)庫之間進行負載均衡和分片,來完成大數(shù)據(jù)采集工作。此外,會計大數(shù)據(jù)采集還包括感知設備數(shù)據(jù)采集,它是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。大數(shù)據(jù)智能感知系統(tǒng)需要實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量會計大數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等,其關鍵技術(shù)包括針對會計大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等。
大數(shù)據(jù)預處理是指針對財務會計大數(shù)據(jù)和管理會計大數(shù)據(jù)實施的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等一系列數(shù)據(jù)操作,達到審核、篩選、排序等目的,它區(qū)別于大數(shù)據(jù)分析階段的數(shù)據(jù)處理。當采集到的數(shù)據(jù)量較小時,只需要簡單的數(shù)據(jù)處理就可以得到有效的數(shù)據(jù),但是大數(shù)據(jù)復雜的特點意味著在獲取數(shù)據(jù)時,得到的部分數(shù)據(jù)是臟數(shù)據(jù),也就是說,源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯嶋H的會計業(yè)務毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的會計業(yè)務邏輯等。由于臟數(shù)據(jù)無法進行數(shù)分析和挖掘,所以需要對大數(shù)據(jù)進行預處理。
數(shù)據(jù)清洗是保證數(shù)據(jù)質(zhì)量的重要手段之一。并不是所有采集到的數(shù)據(jù)都是有價值的,有些數(shù)據(jù)可能與分析和挖掘需求無關,有些甚至是完全錯誤的干擾項。因此要對數(shù)據(jù)過濾、去噪,從而提取出有效的數(shù)據(jù)。數(shù)據(jù)清洗包括對缺失值、噪音數(shù)據(jù)和不一致數(shù)據(jù)的處理。對于缺失值,可用全局常量、屬性均值、可能值填充或者直接忽略該數(shù)據(jù)等方法處理。對于噪音數(shù)據(jù),即數(shù)據(jù)中存在著錯誤、或偏離期望值的數(shù)據(jù),可用分箱(對原始數(shù)據(jù)進行分組,然后對每一組內(nèi)的數(shù)據(jù)進行平滑處理)、聚類、計算機人工檢查和回歸等方法去除噪音。對于不一致的數(shù)據(jù),可以進行手動更正。數(shù)據(jù)集成是把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機的集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
在這個過程中需要重點解決模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測與處理三個問題。數(shù)據(jù)變換是指對數(shù)據(jù)進行規(guī)范化處理,從一種表示形式變換為另一種表現(xiàn)形式的過程,以達到適用于大數(shù)據(jù)分析和挖掘的目的,它包括平滑、聚集、離散化、規(guī)范化、屬性構(gòu)造和概念分層方式。數(shù)據(jù)規(guī)約是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,包括維規(guī)約、數(shù)量規(guī)約和數(shù)據(jù)壓縮三個方面。
大數(shù)據(jù)存儲與管理是對海量的財務會計大數(shù)據(jù)和管理會計大數(shù)據(jù)進行歸檔、整理和共享的過程。在大數(shù)據(jù)下,由于從不同渠道獲得的數(shù)據(jù)通常缺乏一致性,數(shù)據(jù)結(jié)構(gòu)混雜,且數(shù)據(jù)不斷增長,更何況任何計算機都會有內(nèi)存容量、硬盤容量、處理器速度等物理上的限制,因此,對于那些希望從比存儲和使用成本更高的會計數(shù)據(jù)中獲得價值的企業(yè)和組織來講,有效的會計大數(shù)據(jù)存儲和管理變得比以往任何時候都更加重要。比如,對單機系統(tǒng)來說,即使及時不斷提升硬件配置也很難跟上數(shù)據(jù)規(guī)模增長的速度,也需要在硬件限制和性能之間做出取舍。大數(shù)據(jù)存儲與管理技術(shù)需要重點解決會計大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)汝P鍵問題,具體包括海量文件的存儲與管理,海量小文件的傳輸、索引和管理,海量大文件的分塊與存儲,系統(tǒng)可擴展性與可靠性方面的內(nèi)容。大數(shù)據(jù)存儲與管理技術(shù)對整個會計大數(shù)據(jù)系統(tǒng)至關重要,其好壞直接影響到整個會計大數(shù)據(jù)系統(tǒng)的性能表現(xiàn)。大數(shù)據(jù)存儲技術(shù)的核心是Hadoop的分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和分布式實時列式存儲數(shù)據(jù)庫管理系統(tǒng) HBase(Hadoop Database)等。
大數(shù)據(jù)存儲和管理并不只是被定義為接收、存儲、組織和維護創(chuàng)建的財務會計大數(shù)據(jù)和管理會計數(shù)據(jù),它還意味著包括更多的內(nèi)容:對數(shù)據(jù)進行分類;聚合、收集和解析數(shù)據(jù)的元數(shù)據(jù);保護數(shù)據(jù)和元數(shù)據(jù)不受自然和人為中斷的影響;在內(nèi)部部署和地理上移動數(shù)據(jù),以進行共享、歸檔、復制、數(shù)據(jù)保護、存儲系統(tǒng)技術(shù)更新和遷移,并訪問所需的分析引擎,從而對該數(shù)據(jù)進行更深入的研究;在進行一次或多次移動后,保持用戶和應用程序?qū)?shù)據(jù)的透明訪問;提供用戶可定義的策略,這些策略可自動移動、復制和刪除數(shù)據(jù);部署人工智能和機器學習以優(yōu)化和自動化大多數(shù)數(shù)據(jù)管理功能;搜索數(shù)據(jù)并提供可行的信息和見解;使數(shù)據(jù)符合個人識別信息法律和法規(guī);將數(shù)據(jù)管理擴展到數(shù)百PB甚至EB級別。
大數(shù)據(jù)計算包括分布式離線計算框架MapReduce、分布式內(nèi)存計算框架Spark、流式實時計算框架Storm等技術(shù)。在會計大數(shù)據(jù)的實際應用中,應該根據(jù)具體的業(yè)務需求選擇對應的解決方案。比如對于離線、非實時、靜態(tài)數(shù)據(jù)的處理,可以選用批處理方案;對于在線、實時、動態(tài)的數(shù)據(jù)處理或者低延遲的場景,則可以選用流處理方案。
MapReduce作為典型的離線計算框架,其思想來自于Google公司2004年發(fā)表的論文,用于在集群環(huán)境下處理海量的、結(jié)構(gòu)復雜的數(shù)據(jù)文件。MapReduce通過對輸入的數(shù)據(jù)集進行切分,形成若干獨立的數(shù)據(jù)塊,由Map任務對各個數(shù)據(jù)塊進行處理,得到處理的中間結(jié)果;對結(jié)果進行Shuffle操作,實現(xiàn)對結(jié)果的排序,并在此基礎上對結(jié)果進行Reduce操作,實現(xiàn)對數(shù)據(jù)的匯總。事實上,MapReduce是一個基于集群的高性能并行計算平臺,采用“分而治之”的思想把對大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個主節(jié)點管理下的各分界點共同完成,然后通過整合各個節(jié)點的中間結(jié)果得到最終結(jié)果。
Spark是一種與Hadoop相似的開源集群環(huán)境,專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,利用主控節(jié)點、工作節(jié)點和協(xié)調(diào)節(jié)點實現(xiàn)集群的狀態(tài)維護和配置管理。Spark不同于MapReduce的是,其Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。
隨著越來越多的場景對Hadoop的MapReduce高延遲無法容忍,比如網(wǎng)站統(tǒng)計、推薦系統(tǒng)、預警系統(tǒng)、金融系統(tǒng)(高頻交易、股票)等,大數(shù)據(jù)實時處理解決方案(流計算)的應用日趨廣泛,目前已是分布式技術(shù)領域關注的重點,而Storm更是流計算技術(shù)中的主流技術(shù)之一。Storm為用戶提供了豐富的服務和編程接口,大大提高了用戶管理的效率,降低了學習和開發(fā)的門檻。此外,Storm提供了可靠性保障,不僅提供對分布式的組件級的容錯,而且提供不丟失數(shù)據(jù)的記錄及容錯保證,這為實時分析、在線學習和挖掘等提供了開放、強大的解決方案。
大數(shù)據(jù)分析和挖掘都是從財務會計和管理會計數(shù)據(jù)中提取一些有價值的信息,會計大數(shù)據(jù)分析更多在于利用工具和專業(yè)知識分析數(shù)據(jù)。
大數(shù)據(jù)分析是將采集到的大量財務大數(shù)據(jù)和管理會計大數(shù)據(jù)通過匯總、理解并消化,旨在發(fā)現(xiàn)數(shù)據(jù)的價值。最初的數(shù)據(jù)分析來源于統(tǒng)計學家和經(jīng)濟學家的一些理論,進而結(jié)合一定的實際應用場景解決問題,更多的是偏重于業(yè)務層次的。常見的大數(shù)據(jù)分析編程工具包括SAS、R、SPSS等。大數(shù)據(jù)分析常用的手段是基于數(shù)據(jù)倉庫的OLAP聯(lián)機分析處理。在會計大數(shù)據(jù)環(huán)境下,以特定主題為導向,數(shù)據(jù)倉庫將各個業(yè)務系統(tǒng)中與分析有關的數(shù)據(jù)通過ETL操作整理在一起,實現(xiàn)對目標數(shù)據(jù)的管理和維護。在此基礎上,利用OLAP分析工具對數(shù)據(jù)進行切塊、切片、旋轉(zhuǎn)、上鉆、下取等操作,有利于從不同維度、不同粒度對數(shù)據(jù)進行觀察理解,提取和總結(jié)有價值的知識。在會計大數(shù)據(jù)的實際應用環(huán)境中,數(shù)據(jù)倉庫和OLAP通常采用Hive工具實現(xiàn)對用戶的動態(tài)多維分析,包括跨維計算和建模等。這里的Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,主要用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載,它是一種可以存儲、查詢和分析存儲Hadoop中的大規(guī)模數(shù)據(jù)的機制。在進行會計大數(shù)據(jù)分析之前,需要從業(yè)務和財務的角度,對數(shù)據(jù)分析的維度數(shù)據(jù)進行規(guī)劃和定義。
大數(shù)據(jù)挖掘是從海量的財務會計和管理會計數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的技術(shù)。通常利用統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等技術(shù)實現(xiàn)。常用的大數(shù)據(jù)挖掘工具包括Rapid Miner、Orange、Weka、Knime、Apache Mahout、SSDT(SQL Server數(shù)據(jù)工具)、Sisense、IBM SPSS Modeler、Oracle數(shù)據(jù)挖掘等。其中Rapid Miner、Orange、Weka、Knime、Apache Mahout 等均是開源工具,側(cè)重于對數(shù)據(jù)的挖掘分析和可視化操作,而Apache Mahout是基于Hadoop的一個機器學習庫,主要關注分類、聚類和協(xié)同過濾問題,用于從海量數(shù)據(jù)中找到人們未知的、可能有用的、隱藏的規(guī)則。常用的會計大數(shù)據(jù)挖掘方法主要有分類、回歸分析、聚類、關聯(lián)規(guī)則等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。
大數(shù)據(jù)可視化是將財務會計大數(shù)據(jù)和管理會計大數(shù)據(jù)以不同的視覺表現(xiàn)形式呈現(xiàn)出來,包括相應信息單位的各種屬性和變量,通過表達、建模,以及對立體、表面、屬性、動畫的顯示,對數(shù)據(jù)加以可視化解釋,清晰有效地傳達與溝通信息。大數(shù)據(jù)可視化的基本思想是將存儲財務會計和管理會計大數(shù)據(jù)的數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。圖表、動態(tài)圖的形式可將數(shù)據(jù)更加直觀地展現(xiàn)給用戶,從而減少用戶的閱讀和思考時間,以便更好地做出決策。在企業(yè)的年度匯報或者分析中,銷售部門、采購部門或生產(chǎn)部門等可以通過大數(shù)據(jù)可視化將年度內(nèi)銷售、采購、生產(chǎn)商品的數(shù)量、成本、單價等有效展示出來,通過高效的方式刻畫和呈現(xiàn)數(shù)據(jù)反映的本質(zhì)問題,豐富視覺效果,以直觀、生動、易理解的方式呈現(xiàn)給管理層以做出戰(zhàn)略決策與調(diào)整。
傳統(tǒng)的數(shù)據(jù)可視化工具僅僅將數(shù)據(jù)加以組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)信息。隨著大數(shù)據(jù)時代的來臨,已經(jīng)不再滿足于使用傳統(tǒng)的數(shù)據(jù)可視化工具來對數(shù)據(jù)倉庫中的數(shù)據(jù)進行抽取、歸納及簡單的展現(xiàn)。新型的會計大數(shù)據(jù)可視化必須能夠滿足大數(shù)據(jù)需求,必須快速收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,并根據(jù)新增的數(shù)據(jù)進行實時更新。會計大數(shù)據(jù)可視化工具種類繁多,其中零編程工具包括Tableau、Microsoft Power BI等。
大數(shù)據(jù)技術(shù)與會計結(jié)合的概念眾多,內(nèi)涵差異較大,學術(shù)界還缺乏統(tǒng)一的共識?;诖?,本文針對大數(shù)據(jù)及相關技術(shù)在會計領域的應用,定義了會計大數(shù)據(jù)的概念,提出了會計大數(shù)據(jù)的內(nèi)容框架,并從大數(shù)據(jù)的采集、預處理、存儲和管理、計算、分析與挖掘、可視化方面對會計大數(shù)據(jù)的技術(shù)實現(xiàn)進行了深入闡述。本文的研究可以為會計大數(shù)據(jù)的理論和方法體系建設奠定初步基礎,能夠為會計大數(shù)據(jù)的相關研究和具體應用提供參考和借鑒。