• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)環(huán)境下商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)研究

      2017-03-25 02:21:03呂勁松王志成王秦輝
      軟科學(xué) 2017年1期
      關(guān)鍵詞:審計商業(yè)銀行大數(shù)據(jù)

      呂勁松 王志成 王秦輝

      摘要:在分析大數(shù)據(jù)環(huán)境下商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)特點的基礎(chǔ)上,結(jié)合當前大數(shù)據(jù)領(lǐng)域處理和分析非結(jié)構(gòu)化數(shù)據(jù)的主流技術(shù),提出商業(yè)銀行審計云平臺構(gòu)建過程中在非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用分類、采集存儲、處理分析等方面的數(shù)據(jù)規(guī)劃標準,為大數(shù)據(jù)環(huán)境下規(guī)范商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)審計提供參考。

      關(guān)鍵詞:大數(shù)據(jù);審計;商業(yè)銀行;非結(jié)構(gòu)化數(shù)據(jù)

      DOI:10.13956/j.ss.1001-8409.2017.01.30

      中圖分類號:F239文獻標識碼:A 文章編號:1001-8409(2017)01-0141-04

      Abstract: This paper analyzes the characteristics of unstructured data of commercial bank auditing in big data environments, combined with the mainstream technology of processing and analyzing unstructured data in the current field of big data, and proposes the data planning standards of application, classification, acquisition, storage, processing and analysis of unstructured data in the process of constructing the cloud platform of commercial bank auditing. In the end, it provides reference for standardizing the unstructured data audit of commercial bank in big data environments.

      Key words:big data; audit; commercial bank; unstructured data

      當前商業(yè)銀行審計中對數(shù)據(jù)的研究和分析仍以結(jié)構(gòu)化數(shù)據(jù)為主,隋學(xué)深等構(gòu)建了基于支持向量機的銀行貸款風(fēng)險等級分類模型來識別貸款風(fēng)險等級分類的真實性[1],呂勁松等構(gòu)建了商業(yè)銀行信貸資產(chǎn)質(zhì)量審計的數(shù)據(jù)挖掘算法體系[2],隨著國家審計不斷推進大數(shù)據(jù)環(huán)境下的數(shù)據(jù)審計建設(shè),呂勁松等提出依托商業(yè)銀行建立審計數(shù)據(jù)分析平臺,形成“總體分析、發(fā)現(xiàn)疑點、分散核查、系統(tǒng)研究”的審計模式[3],陳偉等探討了大數(shù)據(jù)環(huán)境下電子數(shù)據(jù)審計的方法,給出了大數(shù)據(jù)環(huán)境下開展電子數(shù)據(jù)審計的相關(guān)建議[4]。然而大數(shù)據(jù)的激增更多地來自非結(jié)構(gòu)化數(shù)據(jù),國家審計對非結(jié)構(gòu)化數(shù)據(jù)的研究和運用還處于簡單的文本檢索階段[5],在大數(shù)據(jù)環(huán)境下,尚未有系統(tǒng)性地對非結(jié)構(gòu)化數(shù)據(jù)進行綜合利用和審計分析的研究。國家審計在構(gòu)建商業(yè)銀行審計云平臺的過程中,深刻認識到僅包含結(jié)構(gòu)化數(shù)據(jù)構(gòu)建標準的云平臺是不完整的,因此,在構(gòu)建商業(yè)銀行審計云平臺的背景下研究大數(shù)據(jù)環(huán)境下非結(jié)構(gòu)化數(shù)據(jù)規(guī)劃具有重要意義。

      1大數(shù)據(jù)環(huán)境下商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)特點

      大數(shù)據(jù)是指無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合[6]。商業(yè)銀行本身就是生產(chǎn)大量數(shù)據(jù)的傳統(tǒng)行業(yè),隨著其各類業(yè)務(wù)虛擬渠道的拓展和交易實時性的需求增長,商業(yè)銀行數(shù)據(jù)更加凸顯出海量性(Volume)、多樣性(Variety)、價值密度低(Value)和高速性(Velocity)的四V特征,其中占絕大多數(shù)的是非結(jié)構(gòu)化數(shù)據(jù)[7]。

      非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不固定,沒有預(yù)定義的數(shù)據(jù)模型,無法用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)種類繁多,商業(yè)銀行基本上擁有涵蓋所有類型的非結(jié)構(gòu)化數(shù)據(jù),既包括系統(tǒng)自己產(chǎn)生的,也包括與客戶交換產(chǎn)生的,也有通過爬網(wǎng)、購買等手段獲取的,這些數(shù)據(jù)按照格式分為電子文檔、圖像、音頻、視頻、XML或HTML等類別。

      非結(jié)構(gòu)化數(shù)據(jù)類型多樣,各家商業(yè)銀行同種類型的非結(jié)構(gòu)化數(shù)據(jù)也有很大的差異,為了能夠在整合各家商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進行數(shù)據(jù)分析挖掘,實現(xiàn)各審計場景對非結(jié)構(gòu)化數(shù)據(jù)的利用,需要在對非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用、采集、存儲和處理分析等方面構(gòu)建利于審計實現(xiàn)的標準。

      2商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用與分類標準

      在審計過程中,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用一直是相輔相成的,通過對被審計單位的非結(jié)構(gòu)化數(shù)據(jù)進行分析,有助于正確評價被審計單位內(nèi)部控制的健全性、合理性和有效性;評估被審計單位控制風(fēng)險水平;掌握被審計單位重大經(jīng)濟決策情況,發(fā)現(xiàn)違法違紀線索,確定審計重點。

      對電子文檔類數(shù)據(jù),如業(yè)務(wù)審批文件、規(guī)章制度、會議紀要及記錄等,在審計大數(shù)據(jù)云平臺架構(gòu)下,通過構(gòu)建統(tǒng)一的檢索平臺,實現(xiàn)對所有數(shù)據(jù)資源的智能化檢索,有助于全面掌握相關(guān)信息,打開思路進行關(guān)聯(lián)分析;通過對所有文本進行挖掘分析,獲得文本內(nèi)容的摘要,并對重要信息進行提示,提高對文本類數(shù)據(jù)進行分析的效率;通過文本去重技術(shù),能夠快速識別相似文本,鎖定疑點范圍。

      對系統(tǒng)日志、應(yīng)用日志類文件進行分析,可以追溯可疑的系統(tǒng)操作,借助關(guān)鍵字告警、信息分析統(tǒng)計,模式識別等技術(shù),在海量日志信息中挖掘潛在的安全風(fēng)險、及時發(fā)現(xiàn)安全隱患及系統(tǒng)違規(guī)操作,發(fā)現(xiàn)疑點。

      對網(wǎng)絡(luò)信息,包括新聞資訊、博客論壇、社交媒體等渠道的數(shù)據(jù)進行輿情監(jiān)控,通過語義分析,自動識別相關(guān)負面信息,結(jié)合審計事項,為判斷疑點提供數(shù)據(jù)支持。

      對圖片、圖像、音頻、視頻等多媒體數(shù)據(jù)的分析,主要用于真?zhèn)舞b別、身份鑒定等方面,比如通過語音識別技術(shù),將會議錄音轉(zhuǎn)換為文本進行挖掘處理;通過印章、筆跡圖像的自動提取和比對,發(fā)現(xiàn)偽造的文書、合同;通過聲音識別、人臉識別等技術(shù)鑒定人員身份等。

      3商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)采集與存儲標準

      31采集標準

      商業(yè)銀行審計中,面對的非結(jié)構(gòu)化數(shù)據(jù)主要來自被審計單位生成、采集或購買的數(shù)據(jù),以及一些必要的外部數(shù)據(jù),比如來自互聯(lián)網(wǎng)的相關(guān)信息等。對于已有的商業(yè)銀行非結(jié)構(gòu)化數(shù)據(jù),審計可以利用系統(tǒng)接口傳輸或者批量復(fù)制數(shù)據(jù)的方式進行數(shù)據(jù)采集,對于來自互聯(lián)網(wǎng)的外部數(shù)據(jù),可以采用網(wǎng)絡(luò)爬取的方式采集數(shù)據(jù)。

      (1)建立特定系統(tǒng)接口傳輸數(shù)據(jù)。對于商業(yè)銀行的信息系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),在保密性要求不高的情況下,可以考慮在該信息系統(tǒng)中設(shè)置特定的接口供審計云平臺連接和訪問,便于根據(jù)審計需求,按照一定的頻度、內(nèi)容、范圍等限定條件,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的自動采集。

      (2)批量復(fù)制。在保密性要求很高的情況下,出于數(shù)據(jù)安全考慮,對于此類非結(jié)構(gòu)化數(shù)據(jù),可以采用批量復(fù)制到移動存儲設(shè)備中,再從移動存儲設(shè)備復(fù)制到審計云平臺中對應(yīng)的商業(yè)銀行子云的方式實現(xiàn)數(shù)據(jù)采集。

      (3)網(wǎng)絡(luò)爬取。對于外部網(wǎng)絡(luò)資源數(shù)據(jù),可以采用爬網(wǎng)技術(shù),例如使用Nutch、Heritrix等工具,通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式,根據(jù)設(shè)置好的爬網(wǎng)作業(yè)從指定的網(wǎng)站將非結(jié)構(gòu)化數(shù)據(jù)抽取出來,通過相應(yīng)的轉(zhuǎn)換處理,以結(jié)構(gòu)化的方式存儲到審計云平臺中[8]。此種方式也支持圖片、音頻、視頻等文件或附件的采集,并將附件與正文進行自動關(guān)聯(lián)。

      32存儲標準

      早期的非結(jié)構(gòu)化數(shù)據(jù)主要存儲在數(shù)據(jù)庫表的大對象字段或者以文件的方式存儲在文件系統(tǒng)中,為了解決非結(jié)構(gòu)化數(shù)據(jù)增長帶來的問題與挑戰(zhàn),目前基本上都采用分布式系統(tǒng)來實現(xiàn)面向查詢、分析的海量非結(jié)構(gòu)數(shù)據(jù)存儲,比如分布式文件系統(tǒng)[9]、分布式鍵值系統(tǒng)[10]等。

      圖1是商業(yè)銀行審計云平臺系統(tǒng)架構(gòu)規(guī)劃,該平臺將系統(tǒng)和數(shù)據(jù)進行集中,提供統(tǒng)一的存儲環(huán)境,從而為跨行,甚至今后的跨專業(yè)數(shù)據(jù)分析和深度挖掘提供支撐條件。在這個架構(gòu)中各商業(yè)銀行仍然存儲本行的數(shù)據(jù),其數(shù)據(jù)庫可以是同構(gòu)的,也可以是異構(gòu)的,審計云平臺通過數(shù)據(jù)抽取、轉(zhuǎn)換、加載后,將結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)分別存儲到不同的存儲平臺,并按照不同銀行,或者不同業(yè)務(wù)品種(如個人貸款、對公貸款等)來建立集群。在應(yīng)用層,除了可以通過聯(lián)機方式向?qū)徲嫾哼M行數(shù)據(jù)查詢并展現(xiàn)查詢結(jié)果外,還可以將數(shù)據(jù)進行抽取并加載到分析挖掘環(huán)境,提供分析挖掘功能。此外,通過報表平臺將分析或挖掘結(jié)果加工形成報表,傳輸給管理層駕駛倉可以為管理決策者提供直觀易覽的圖形化結(jié)果。

      審計云平臺中,非結(jié)構(gòu)化數(shù)據(jù)的存儲采用Hadoop[11]分布式處理架構(gòu),該架構(gòu)結(jié)合了MapReduce(并行處理)[12]、YARN(作業(yè)調(diào)度)[13]和HDFS(分布式文件系統(tǒng))[9]。HDFS為海量的數(shù)據(jù)提供了存儲,MapReduce為海量的數(shù)據(jù)提供了計算,該架構(gòu)實現(xiàn)對商業(yè)銀行海量業(yè)務(wù)數(shù)據(jù)的PB級數(shù)據(jù)存儲。

      文本類非結(jié)構(gòu)化數(shù)據(jù)常以二進制大對象字段存儲在數(shù)據(jù)庫中,便于管理;對于規(guī)模巨大的商業(yè)銀行非結(jié)構(gòu)化歷史性數(shù)據(jù),如電子影像文檔等,一般采用磁盤文件、光盤、數(shù)據(jù)庫(存放索引)等多種技術(shù)平臺實現(xiàn)該類數(shù)據(jù)的存儲與查詢訪問。

      4商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)處理與分析標準

      41處理標準

      非結(jié)構(gòu)化數(shù)據(jù)處理的目的主要是構(gòu)建干凈完整的非結(jié)構(gòu)化數(shù)據(jù)集,剔除垃圾數(shù)據(jù)。對于純粹的非結(jié)構(gòu)化數(shù)據(jù),例如影像、圖片等,無法簡單地從存儲內(nèi)容中提取有用信息,一般對其進行的處理是提取相應(yīng)的元數(shù)據(jù);對于大量的半結(jié)構(gòu)化數(shù)據(jù),如系統(tǒng)日志等,因其具有一定的結(jié)構(gòu),可以通過特定方法和工具將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。

      411四面體模型

      為了對不同類型的非結(jié)構(gòu)化數(shù)據(jù)進行處理,需要對這些非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一描述,基于描述性信息實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的管理和操作。對非結(jié)構(gòu)化數(shù)據(jù)的描述分為三類,分別是基于關(guān)鍵字的語義描述、基于底層特征的描述和基于概念的語義描述。所以非結(jié)構(gòu)化數(shù)據(jù)可以由基本屬性、語義特征、底層特征以及原始數(shù)據(jù)四部分構(gòu)成,而且這四部分的數(shù)據(jù)之間存在各種聯(lián)系,稱為非結(jié)構(gòu)化數(shù)據(jù)的四面體數(shù)據(jù)模型[14],如圖2所示。審計云平臺通過構(gòu)建四面體模型抽取出非結(jié)構(gòu)化數(shù)據(jù)的語義特征、基本屬性、底層特征等元數(shù)據(jù)進行存儲。

      (1)語義特征:以文字表達的非結(jié)構(gòu)化數(shù)據(jù)特有的語義屬性。如對會議紀要、規(guī)章制度等數(shù)據(jù)而言,語義特征一般指內(nèi)容摘要、主題說明等。該屬性非必備屬性。

      (2)基本屬性:指非結(jié)構(gòu)化數(shù)據(jù)都具有的一般屬性,這些屬性不涉及數(shù)據(jù)的語義。包括名稱、類型、創(chuàng)建者、創(chuàng)建時間等。

      (3)底層特征:通過各種專用處理技術(shù)(如圖像、語音、視頻等處理技術(shù))獲得的非結(jié)構(gòu)化數(shù)據(jù)特性。例如電話錄音的格式、時長要求、比特率等相關(guān)技術(shù)屬性。

      (4)原始數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)的原生態(tài)文件。

      412中間層模型建設(shè)標準

      根據(jù)上述四面體模型對商業(yè)銀行各類非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建統(tǒng)一的數(shù)據(jù)管理模型標準,從語義特征、基本屬性、底層特征幾個方面來刻畫所有非結(jié)構(gòu)化數(shù)據(jù)所具有的特征,實現(xiàn)對來自不同銀行、不同類型的非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲與處理,該非結(jié)構(gòu)化數(shù)據(jù)中間層模型如表1所示。

      在此標準下,將不同類別的非結(jié)構(gòu)化數(shù)據(jù)的特征抽取出來,實現(xiàn)對所有非結(jié)構(gòu)化數(shù)據(jù)以統(tǒng)一的數(shù)據(jù)模式進行存儲和處理,例如,對于某文本類數(shù)據(jù)“某行第二次行長辦公會議紀要.doc”可抽取出如表2所示特征,形成四面體結(jié)構(gòu)。

      四面體模型的特點在于語義特征與底層特征進行一體化表達的集成性;圖像、文本、視頻、音頻等多種異構(gòu)數(shù)據(jù)表達的統(tǒng)一性;支持語義特征、底層特征動態(tài)變化的可擴展性和簡單性?;谒拿骟w模型構(gòu)建的非結(jié)構(gòu)化數(shù)據(jù)管理模型,能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)的統(tǒng)一存儲與關(guān)聯(lián)操作,從而更好地支持大數(shù)據(jù)的深度處理。

      42分析標準

      由于非結(jié)構(gòu)化數(shù)據(jù)的形式多樣、格式多樣,必要的算法和工具是挖掘非結(jié)構(gòu)化數(shù)據(jù)價值所不可或缺的。目前較多應(yīng)用是對文檔、網(wǎng)頁等其中蘊含的文字說明進行分析,對于如影像、語音等數(shù)據(jù)進行深度分析挖掘的應(yīng)用較少(即使挖掘,一般也是先轉(zhuǎn)換為可識別的文字描述)。在此以文本類數(shù)據(jù)作為重點進行分析。

      要實現(xiàn)對文本的處理分析,首先前提是對文本進行預(yù)處理,預(yù)處理包含分詞和去重。分詞是將文本切分成詞匯的組合,結(jié)合補充了審計專業(yè)詞匯的詞庫,對詞匯進行統(tǒng)計分析,在對詞匯的含義及詞匯間關(guān)系分析的基礎(chǔ)上,實現(xiàn)語義分析,使得機器能夠更好地理解詞匯組成的文本;去重是去除相似文本,減少后續(xù)文本分析過程中不必要的重復(fù)分析成本,避免統(tǒng)計分析時重復(fù)統(tǒng)計導(dǎo)致誤差,去重可以通過相似哈希算法快速對海量文本相似程度進行計算,找出內(nèi)容相同或者相似的文本。

      預(yù)處理后,再對文本利用詞頻統(tǒng)計、語義分析、文本特征提取等技術(shù)進行處理,實現(xiàn)對文本的相似性檢索等操作。此外通過文本主題分析模型、關(guān)聯(lián)關(guān)系分析模型、文本分類分析模型、情感分析模型等多種語義模型的組合分析,能夠深度挖掘文本信息中的價值。

      文本主題分析模型:從文本中提取主題預(yù)測能力最強(TF-IDF值最大)的若干特征詞作為主題詞來描述文本的主題[15]。其中TF-IDF值表示特征詞在文檔中的權(quán)重(TF表示特征詞在當前文檔中出現(xiàn)的頻率,出現(xiàn)得越多,權(quán)重越大;IDF代表特征詞在所有文檔中出現(xiàn)的頻率,出現(xiàn)得越少,說明特征詞的區(qū)分度越大,權(quán)重越大)。以某銀行一篇文章的內(nèi)容“關(guān)于借記卡小額賬戶管理費的一點建議”為例,其中“借記卡”“小額賬戶”“管理費”在文中出現(xiàn)次數(shù)較多,且在所有文本中出現(xiàn)的次數(shù)較少,將成為該文本的主題詞。

      文本關(guān)聯(lián)分析模型:通過文本關(guān)聯(lián)分析,找出文本之間、特征詞之間的潛在語義關(guān)聯(lián)。方法為建立文本-特征詞矩陣,其值為特征詞在文本中根據(jù)TF-IDF方法計算得到的權(quán)重值,之后根據(jù)文本-特征詞矩陣,以特征詞為維度建立多維向量空間模型[16],通過在多維空間中構(gòu)建文本特征向量,向量的長度代表文本長度,方向代表了文本主題特征,計算兩個文本向量的夾角余弦值(余弦值為1,兩文本方向一致,主題一致;余弦值為0,兩文本方向垂直,主題無關(guān)),代表語義關(guān)聯(lián)度,從而得到主題相關(guān)聯(lián)的文章集。

      文本情感分析模型:建立情感詞典,目前互聯(lián)網(wǎng)上已有不少公開資源,主要分為正面詞、負面詞、程度詞等。從文本中提取情感詞匯,根據(jù)詞匯的出現(xiàn)頻率、在所有文檔中的區(qū)分度及情感程度,計算情感詞在文本中的權(quán)重。將各情感詞的權(quán)重累加即可得到文檔的情感傾向數(shù)值。

      文本分類模型:通過樸素貝葉斯方法構(gòu)建具有學(xué)習(xí)能力的自動分類器[17]。人工對一定數(shù)量的文本進行分類,用已標注分類的文本對分類器進行訓(xùn)練,統(tǒng)計文本中的特征詞在分類中出現(xiàn)的概率,基于貝葉斯定理計算一篇文檔屬于一個分類的概率,通過比較概率,最終判定文檔的分類歸屬。

      對XML數(shù)據(jù)可以將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)進行分析,對圖像、音頻、視頻等類型數(shù)據(jù)主要通過相應(yīng)的識別技術(shù),提取其原始特征、物理特征或者語義特征作進一步的分析應(yīng)用。

      5結(jié)論與研究展望

      大數(shù)據(jù)環(huán)境下,為了構(gòu)建商業(yè)銀行審計云平臺,實現(xiàn)對海量非結(jié)構(gòu)化數(shù)據(jù)的高效處理和挖掘分析,本文較全面分析了商業(yè)銀行審計中可能應(yīng)用到的非結(jié)構(gòu)化數(shù)據(jù)類型和場景,從審計工作需要角度,結(jié)合當前大數(shù)據(jù)處理的主流技術(shù),提出以四面體為基本存儲模型、以Hadoop為基本存儲架構(gòu)、以文本挖掘為基本分析方法的商業(yè)銀行審計非結(jié)構(gòu)化數(shù)據(jù)采集、存儲、處理、分析的數(shù)據(jù)規(guī)劃標準,為大數(shù)據(jù)環(huán)境下商業(yè)銀行審計對非結(jié)構(gòu)化數(shù)據(jù)的處理和分析提供參考。

      本文為商業(yè)銀行審計云平臺構(gòu)建提出了非結(jié)構(gòu)化數(shù)據(jù)規(guī)劃標準建設(shè)的思路和框架,尚未進行實證研究,具有一定的局限性。對該框架的實現(xiàn)和驗證是接下來的一項核心工作,此外建設(shè)大數(shù)據(jù)審計云平臺,充分拓展非結(jié)構(gòu)化數(shù)據(jù)尤其是多媒體數(shù)據(jù)的分析應(yīng)用領(lǐng)域,推進數(shù)據(jù)規(guī)劃標準建設(shè)從理論到實踐仍需進一步深入研究。

      參考文獻:

      [1]隋學(xué)深,喬鵬,等. 基于支持向量機的貸款風(fēng)險等級分類真實性審計研究[J].審計研究,2014(3):21-25.

      [2]呂勁松,王志成,等.基于數(shù)據(jù)挖掘的商業(yè)銀行對公信貸資產(chǎn)質(zhì)量審計研究[J].金融研究,2016(7):150-159.

      [3]呂勁松,王忠.金融審計中的數(shù)據(jù)分析[J].審計研究, 2014(5):26-31.

      [4]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法[J].計算機科學(xué), 2016, 43(1):8-13.

      [5]趙輝,范志城,許永池.基于關(guān)鍵字檢查的方法在非結(jié)構(gòu)化審計數(shù)據(jù)分析中的運用[J].中國內(nèi)部審計,2010(10):58-61.

      [6]Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity[R]. McKinsey Global Institute, 2011.

      [7]Overpeck J T, Meehl G A, Beny S, et al. Dealing with Data[J]. Science, 2011,331(6018):639-806.

      [8]Pesaranghader A, Mustapha N. Web Focused Crawlers[M]. LAP LAMBERT Academic Publishing, 2013.

      [9]K Shvachko, et al. The Hadoop Distributed File System[C]. 26th IEEE (MSST2010) Symposium on Massive Storage Systems and Technologies, New York, USA, 2010. 1-10.

      [10]Zhu H, Zhou M, Xia F, et al. Efficient Star Join for Column-oriented Data Store in the MapReduce Environment[C]. Washington DC, USA: Web Information Systems and Applications Conference(WISA), 2011 Eighth. IEEE, 2011.13-18.

      [11]Borthakur D. The Hadoop Distributed File System: Architecture and Design[J]. Hadoop Project Website, 2007, 11(11):1-10.

      [12]Wikipedia. Map Reduce[EB/OL]. http://en.wikipedia.org/wiki/Map Reduce, 2016-6-5.

      [13]Vinod Kumar Vavilapalli, Arun C Murthy, Chris Douglas, et al. Apache Hadoop YARN:Yet Another Resource Negotiator[C].Santa Clara, CA, USA: The Fourth ACM Symposium on Cloud Computing,2013.1-16.

      [14]Li W, Lang B. A Tetrahedral Data Model for Unstructured Data Management[J]. Science China Information Sciences, 2010, 53(8): 1497-1510.

      [15]Anil K, Probal C. On Visualization and Aggregation of Nearest Neighbor Classifiers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1592-1602.

      [16]張東禮,汪東升,鄭緯民. 基于VSM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[J].清華大學(xué)學(xué)報(自然科學(xué)版),2003,43(9):1255-1291.

      [17]Levent K, Thomas A, Hahram S. A Network Intrusion Detection System Based on a Hidden Naive Bayes Multiclass Classifier [J]. Expert Systems with Application, 2012, 39(18):13492-13500.

      (責(zé)任編輯:石琳娜)

      猜你喜歡
      審計商業(yè)銀行大數(shù)據(jù)
      商業(yè)銀行資金管理的探索與思考
      關(guān)于加強控制商業(yè)銀行不良貸款探討
      財險公司核心業(yè)務(wù)系統(tǒng)內(nèi)部控制審計重點和方法淺析
      淺談工程結(jié)算審計的方法與實踐經(jīng)驗
      商(2016年27期)2016-10-17 05:38:55
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      從國家治理看審計反腐倡廉的作用
      工程造價審計中存在的問題與對策
      我國商業(yè)銀行海外并購績效的實證研究
      我國商業(yè)銀行風(fēng)險管理研究
      云南省| 涪陵区| 布尔津县| 英德市| 清远市| 白水县| 潜江市| 绥阳县| 鄄城县| 邯郸县| 安阳市| 三江| 诸城市| 三河市| 佛冈县| 徐闻县| 乌鲁木齐市| 麟游县| 东乌珠穆沁旗| 瑞丽市| 开鲁县| 仲巴县| 河东区| 林口县| 绩溪县| 荆门市| 博白县| 太白县| 宜章县| 湄潭县| 三穗县| 南昌市| 德惠市| 偏关县| 手机| 双柏县| 武定县| 宁夏| 天水市| 措勤县| 红原县|