摘 要:本文對(duì)基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)進(jìn)行了研究,旨在處理金融領(lǐng)域管理龐大的財(cái)務(wù)數(shù)據(jù)以及更好地應(yīng)對(duì)不斷增長的數(shù)據(jù)挑戰(zhàn)。本文在設(shè)計(jì)財(cái)務(wù)大數(shù)據(jù)智能分析系統(tǒng)總架構(gòu)的基礎(chǔ)上,對(duì)系統(tǒng)軟件部分進(jìn)行了詳細(xì)地分析設(shè)計(jì)。其中數(shù)據(jù)收集與預(yù)處理主要負(fù)責(zé)獲取原始數(shù)據(jù),同時(shí)確保收集數(shù)據(jù)的質(zhì)量與一致性。特征工程提取主要為聚類算法提供有意義的特征,以更好地捕捉數(shù)據(jù)的模式和結(jié)構(gòu)。聚類建模算法分析是系統(tǒng)的核心部分,其將財(cái)務(wù)數(shù)據(jù)劃分為不同的簇,整理數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)。數(shù)據(jù)可視化可將復(fù)雜的聚類結(jié)果以直觀的方式呈現(xiàn)給用戶。系統(tǒng)性能測試對(duì)測試結(jié)果進(jìn)行研究,說明系統(tǒng)在財(cái)務(wù)大數(shù)據(jù)分析中具有有效性和可行性。
關(guān)鍵詞:聚類算法;財(cái)務(wù)大數(shù)據(jù);智能分析
中圖分類號(hào):TU 753" " " " 文獻(xiàn)標(biāo)志碼:A
隨著信息技術(shù)的迅猛發(fā)展和金融行業(yè)的數(shù)字化轉(zhuǎn)型,金融領(lǐng)域積累了大量的財(cái)務(wù)數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含豐富的信息和潛在的價(jià)值[1]。但大數(shù)據(jù)時(shí)代的到來為金融機(jī)構(gòu)帶來前所未有的機(jī)遇和挑戰(zhàn),在這種背景下,基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)成為該領(lǐng)域內(nèi)的重點(diǎn)研究對(duì)象。本文旨在探討如何利用聚類算法,智能地分析和處理財(cái)務(wù)大數(shù)據(jù),為金融決策提供更深入的見解和支持,通過構(gòu)建財(cái)務(wù)大數(shù)據(jù)智能分析系統(tǒng)的總構(gòu)架,探討如何利用聚類算法、特征提取等技術(shù),利用該系統(tǒng)對(duì)財(cái)務(wù)大數(shù)據(jù)進(jìn)行智能分析和處理。通過本文的研究,以期為金融機(jī)構(gòu)和企業(yè)提供一種處理和分析財(cái)務(wù)大數(shù)據(jù)的強(qiáng)大工具和方法,同時(shí),本研究有望為數(shù)據(jù)科學(xué)和人工智能領(lǐng)域提供一個(gè)復(fù)雜數(shù)據(jù)分析和智能處理的實(shí)際案例。
1 財(cái)務(wù)大數(shù)據(jù)智能分析系統(tǒng)總架構(gòu)
基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)設(shè)計(jì),首先需要構(gòu)建相應(yīng)的系統(tǒng)總框架,系統(tǒng)總框架的設(shè)計(jì)包括財(cái)務(wù)大數(shù)據(jù)智能分析系統(tǒng)的硬件部分設(shè)計(jì)和軟件部分設(shè)計(jì)。其中,硬件部分需要有服務(wù)器和客戶機(jī)等,軟件部分由財(cái)務(wù)數(shù)據(jù)收集與預(yù)處理、特征工程提取、聚類建模算法分析以及數(shù)據(jù)可視化4個(gè)方面組成,總框架設(shè)計(jì)如圖1所示?;诰垲愃惴ǖ呢?cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)總框架主要是由硬件設(shè)計(jì)與軟件設(shè)計(jì)組成的。硬件設(shè)計(jì)主要是由服務(wù)器、SSD固態(tài)硬盤、網(wǎng)絡(luò)交換機(jī)以及ADC不間斷電源組成的。其次從不同數(shù)據(jù)源中獲取財(cái)務(wù)數(shù)據(jù),對(duì)收集的數(shù)據(jù)進(jìn)行分類,并對(duì)篩查數(shù)據(jù)的質(zhì)量進(jìn)行預(yù)處理,將預(yù)處理后的數(shù)據(jù)輸送至特征工程提取,對(duì)數(shù)據(jù)進(jìn)一步優(yōu)化,由聚類建模算法將財(cái)務(wù)數(shù)據(jù)分成具有相似特征的群組(簇),最后通過數(shù)據(jù)可視化將聚類結(jié)果以圖形和可視化方式呈現(xiàn)。通過將硬件和軟件設(shè)計(jì)有機(jī)結(jié)合,可以有效地挖掘財(cái)務(wù)數(shù)據(jù)的潛在價(jià)值,為金融領(lǐng)域的決策制定提供強(qiáng)大的工具和方法。
2 軟件設(shè)計(jì)
2.1 財(cái)務(wù)數(shù)據(jù)收集與預(yù)處理
財(cái)務(wù)數(shù)據(jù)收集是系統(tǒng)的起始點(diǎn),其主要任務(wù)是從多個(gè)數(shù)據(jù)源(數(shù)據(jù)庫、日志和外部數(shù)據(jù)提供)中獲取財(cái)務(wù)數(shù)據(jù),數(shù)據(jù)預(yù)處理是系統(tǒng)運(yùn)行的前提,為特征工程和聚類建模提供干凈、一致的數(shù)據(jù)[2]。具體數(shù)據(jù)收集與預(yù)處理流程如圖2所示。
由圖2可知,在系統(tǒng)進(jìn)行數(shù)據(jù)收集階段,財(cái)務(wù)數(shù)據(jù)收集與預(yù)處理模塊確保其能夠有效地連接這些數(shù)據(jù)源并從中提取數(shù)據(jù),將收集的數(shù)據(jù)傳輸至數(shù)據(jù)預(yù)處理進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,以便于后續(xù)處理和分析。在數(shù)據(jù)清洗階段,系統(tǒng)會(huì)檢測并糾正數(shù)據(jù)中的重復(fù)記錄、處理數(shù)據(jù)丟失或不完整以及處理數(shù)據(jù)中的異常值等錯(cuò)誤情況,通過數(shù)據(jù)清洗使數(shù)據(jù)集更干凈、一致,減少噪聲和錯(cuò)誤,同時(shí)將原始數(shù)據(jù)從不同的單位或度量標(biāo)準(zhǔn)轉(zhuǎn)換為一致的格式并進(jìn)行數(shù)值化、編碼等操作轉(zhuǎn)換,滿足分析和建模的需求。在轉(zhuǎn)換財(cái)務(wù)數(shù)據(jù)過程中,會(huì)存在數(shù)據(jù)值缺失的情況,需要填充缺失值、刪除包含缺失值的記錄,或者使用插值方法進(jìn)行填補(bǔ)或處理這些缺失值。在處理財(cái)務(wù)數(shù)據(jù)的過程中,數(shù)據(jù)會(huì)存在異常值,這會(huì)導(dǎo)致分析結(jié)果產(chǎn)生錯(cuò)誤,當(dāng)檢測數(shù)據(jù)異常值階段會(huì)在數(shù)據(jù)輸入錯(cuò)誤或者反映特殊情況時(shí),顯示數(shù)據(jù)中與其他數(shù)據(jù)點(diǎn)明顯不同的值,并發(fā)出預(yù)警信號(hào)。
2.2 特征工程提取
特征工程是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中非常重要的一個(gè)環(huán)節(jié),主要涉及從原始數(shù)據(jù)中選擇、構(gòu)造或轉(zhuǎn)換特征,以提高后續(xù)聚類算法的效果和性能。特征工程的主要目標(biāo)是減少數(shù)據(jù)的維度、提高數(shù)據(jù)可分性和消除冗余特征,從而更好地捕捉財(cái)務(wù)數(shù)據(jù)的本質(zhì)特征。具體步驟如下。
2.2.1 選擇提取特征
在特征選擇的過程中,用方差閾值選擇最具信息量和相關(guān)性的特征,將其保留,去除不相關(guān)或冗余的特征。具體方差閾值的計(jì)算過程如公式(1)所示。
(1)
式中:V(x)為特征x的方差;n為樣本數(shù)量;xi為每個(gè)樣本的特征值;u為特征x的均值,方差值越大,說明數(shù)據(jù)的分布越分散,方差值越小,數(shù)據(jù)分布越集中。當(dāng)方差值低于預(yù)定的閾值時(shí),將該特征刪除。
2.2.2 構(gòu)造轉(zhuǎn)換特征
創(chuàng)建新的特征以捕捉數(shù)據(jù)中的模式,特征工程將不同特征進(jìn)行組合或計(jì)算統(tǒng)計(jì)指標(biāo)來創(chuàng)建新特征。使用交互特征創(chuàng)建2個(gè)或多個(gè)特征之間的交互項(xiàng),以捕捉這些特征之間的關(guān)聯(lián)性。具體方差閾值的計(jì)算如公式(2)所示。
X(i)=x1·x2" " " " " " " " " (2)
式中:X(i)為新的特征交互信息;x1與x2分別為兩個(gè)原始特征或變量,可以是數(shù)據(jù)集中的任何特征。在交互特征的計(jì)算過程中將簡單的特征相乘,以創(chuàng)造新的特征,這個(gè)新特征會(huì)捕捉到原始特征之間的關(guān)系。
2.2.3 PCA特征降維
降維是特征工程中的關(guān)鍵步驟之一,用于減少數(shù)據(jù)的維度,同時(shí)保留盡可能多的信息。高維數(shù)據(jù)可能會(huì)增加計(jì)算復(fù)雜性、降低模型性能并出現(xiàn)維度災(zāi)難問題。主要適應(yīng)主成分分析(PCA)線性降維技術(shù),通過線性變換將原始高維特征投影到一個(gè)新的低維子空間。PCA的主要目標(biāo)是最大化投影后數(shù)據(jù)的方差,并保留盡可能多的信息。PCA的步驟如下。
計(jì)算原始特征的協(xié)方差矩陣C,如公式(3)所示。
(3)
式中:m為樣本數(shù)量;x為每個(gè)特征的數(shù)據(jù)集;xt為x的轉(zhuǎn)置。選擇前k個(gè)特征值對(duì)應(yīng)的特征向量,其中k是希望保留的維度,將數(shù)據(jù)投影到由選定的特征向量構(gòu)成的子空間,將原始數(shù)據(jù)X投影到由選定的k個(gè)特征向量構(gòu)成的子空間,得到新的特征矩陣Y。計(jì)算如公式(4)所示。
Y=X·VK" " " " " " "(4)
式中:Y為降維后的數(shù)據(jù)集;X為原始數(shù)據(jù);VK為由選定的特征向量構(gòu)成的矩陣??傊?,特征工程需要建立在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,以進(jìn)一步優(yōu)化數(shù)據(jù)。
2.3 聚類建模算法分析
聚類建模算法用于將財(cái)務(wù)數(shù)據(jù)分成具有相似特征的群組(簇),其目標(biāo)是識(shí)別數(shù)據(jù)中的模式、趨勢和群組,以便進(jìn)一步智能分析和決策支持[3]。聚類建模算法會(huì)選擇適當(dāng)?shù)木垲愃惴ǎò↘均值、層次聚算法)和設(shè)置相關(guān)參數(shù),以便將數(shù)據(jù)分組成有意義的簇。聚類建模算法具體包括以下兩個(gè)計(jì)算部分。
2.3.1 K均值聚類
聚類建模算法中的特定子集是一種迭代聚類算法,其將數(shù)據(jù)點(diǎn)劃分為K個(gè)簇,其中,K為預(yù)先指定的簇的數(shù)量,目標(biāo)是最小化每個(gè)簇內(nèi)數(shù)據(jù)點(diǎn)與其所在簇的中心點(diǎn)(質(zhì)心)之間的距離平方和。具體距離計(jì)算如公式(5)所示。
(5)
式中:d(x,y)為兩點(diǎn)之間的距離;xiyi為兩點(diǎn)的特征值。K均值聚類對(duì)數(shù)據(jù)分布有明顯的假設(shè),即每個(gè)簇都是凸形的且具有相等的方差,其不僅對(duì)異常值敏感,也對(duì)初始質(zhì)心的選擇敏感。
2.3.2 層次聚類
層次聚類是聚類建模算法中一種自下而上或自上而下的聚類方法,其創(chuàng)建一棵樹形結(jié)構(gòu)(樹狀圖或樹狀圖譜)來為數(shù)據(jù)的層次結(jié)構(gòu),可以根據(jù)需要將樹剪枝,以得到不同數(shù)量的簇。主要步驟如圖3所示。
由圖3可知,初始化將每個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)獨(dú)立的簇,形成初始的簇集合。計(jì)算每對(duì)簇之間的相似性或距離,根據(jù)相似性度量,選擇最相似的兩個(gè)簇合并成一個(gè)新的簇,該步驟會(huì)構(gòu)建一棵樹形結(jié)構(gòu),每個(gè)節(jié)點(diǎn)代表一個(gè)簇。然后重復(fù)執(zhí)行相似性度量與合并相似簇這2個(gè)步驟,不斷合并最相似的簇,直到達(dá)到預(yù)定的停止條件。最終構(gòu)建一個(gè)樹狀圖譜顯示數(shù)據(jù)點(diǎn)和簇的層次結(jié)構(gòu),根據(jù)需要,可以在樹狀圖上選擇切割點(diǎn)以得到不同數(shù)量的簇。
總之,聚類建模需要經(jīng)過特征工程提取的數(shù)據(jù)集,并將聚類結(jié)果反饋給數(shù)據(jù)可視化模塊以展示結(jié)果。
2.4 數(shù)據(jù)可視化
在基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)中,數(shù)據(jù)可視化是將數(shù)據(jù)以圖形或圖像的形式呈現(xiàn),幫助用戶更好地理解數(shù)據(jù)、發(fā)現(xiàn)模式和趨勢、傳達(dá)信息和支持決策。具體流程如圖4所示。
由圖4可知,聚類結(jié)果可視化是數(shù)據(jù)可視化的首要步驟,通過將數(shù)據(jù)點(diǎn)按簇標(biāo)記或著色,展示了數(shù)據(jù)的整體結(jié)構(gòu)。特征重要性可視化將聚類結(jié)果可視化后的數(shù)據(jù)簇的形成和特征進(jìn)行區(qū)分,用戶可以看到數(shù)據(jù)點(diǎn)如何分布到不同簇中。主要使用特征分裂貢計(jì)算樹的特征重要性得分,計(jì)算如公式(6)所示。
(6)
式中:Sc為樹t中特征f的分裂貢獻(xiàn);nt為樹t中的節(jié)點(diǎn)數(shù)量;I(f)為指示函數(shù),若節(jié)點(diǎn)i使用特征f進(jìn)行分裂,則為1,否則為0。Gl為左子樹的不純度,Gr為右子樹的不純度,Gt為樹t的總不純度。簇內(nèi)數(shù)據(jù)分布可視化進(jìn)一步對(duì)每個(gè)簇內(nèi)部的數(shù)據(jù)結(jié)構(gòu)的理解進(jìn)行深化,通過繪制簇內(nèi)的直方圖或密度圖,用戶可以識(shí)別簇內(nèi)的數(shù)據(jù)分布形狀和特點(diǎn),也可以根據(jù)簇內(nèi)數(shù)據(jù)分布的標(biāo)準(zhǔn)差計(jì)算,衡量數(shù)據(jù)點(diǎn)相對(duì)于均值的離散程度,計(jì)算如公式(7)所示。
(7)
式中:SD為標(biāo)準(zhǔn)差;n為簇內(nèi)數(shù)據(jù)點(diǎn)的數(shù)量;xmin為數(shù)據(jù)均值;xi為每個(gè)數(shù)據(jù)點(diǎn)的值。
決策支持可視化是整個(gè)流程的最終目標(biāo),將聚類結(jié)果、特征重要性和其他業(yè)務(wù)信息集成在一起,幫助用戶在決策過程中更好地理解數(shù)據(jù)背后的信息,同時(shí)將聚類結(jié)果傳遞給決策者,允許用戶進(jìn)一步探索數(shù)據(jù)并進(jìn)行實(shí)際決策。通過以上步驟之間的聯(lián)系,確保數(shù)據(jù)可視化流程的完整性和連貫性,使用戶能夠全面理解財(cái)務(wù)數(shù)據(jù)的聚類結(jié)構(gòu),并將其應(yīng)用于實(shí)際業(yè)務(wù)決策中。
3 測試結(jié)果與分析
3.1 測試準(zhǔn)備
為了保證基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)運(yùn)行的穩(wěn)定性與可靠性,對(duì)該系統(tǒng)進(jìn)行模擬試驗(yàn),測試系統(tǒng)的性能。試驗(yàn)測試須準(zhǔn)備Dell PowerEdge系列服務(wù)器,具備512GB SSD大容量的固態(tài)硬盤;HPE的網(wǎng)絡(luò)交換機(jī)、防火墻以及APC不間斷電源等硬件設(shè)備,確保其配置能保證試驗(yàn)的順利進(jìn)行。
3.2 測試結(jié)果
對(duì)基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)測試所得的數(shù)據(jù)進(jìn)行分析,并生成詳細(xì)的試驗(yàn)報(bào)告。測試數(shù)據(jù)見表1。
由表1可知,正常類的聚類準(zhǔn)確度為98%,異常類為96%。這表明系統(tǒng)對(duì)正常類和異常類進(jìn)行聚類時(shí)表現(xiàn)良好,準(zhǔn)確率較高。正常類的聚類算法執(zhí)行時(shí)間為15ms,異常類為18ms。正常類的執(zhí)行時(shí)間略短于異常類。低延遲對(duì)于實(shí)時(shí)或快速響應(yīng)的系統(tǒng)非常關(guān)鍵,這表明正常類的較低執(zhí)行時(shí)間是系統(tǒng)一個(gè)積極的性能特征。正常類的系統(tǒng)故障次數(shù)為2次,而異常類為4次,這表明較低的故障次數(shù)使系統(tǒng)處理正常類數(shù)據(jù)時(shí)更可靠。正常類的數(shù)據(jù)處理吞吐量為350行/s,異常類為280行/s,較高的吞吐量表明系統(tǒng)能夠有效地處理大量數(shù)據(jù),但是需要保證對(duì)異常類數(shù)據(jù)的處理與正常類數(shù)據(jù)一樣高效??傊?,根據(jù)測試數(shù)據(jù),基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)表現(xiàn)出一定的性能優(yōu)勢,尤其是在聚類準(zhǔn)確度、低延遲和系統(tǒng)穩(wěn)定性方面。但仍需要技術(shù)人員關(guān)注異常類數(shù)據(jù)的處理性能,提高系統(tǒng)穩(wěn)定性。
4 結(jié)語
綜上所述,本文探討了基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù),通過系統(tǒng)總架構(gòu)的設(shè)計(jì),詳細(xì)分析了數(shù)據(jù)收集與預(yù)處理、特征工程提取、聚類建模算法分析以及數(shù)據(jù)可視化等關(guān)鍵組成部分,以更好地進(jìn)行財(cái)務(wù)大數(shù)據(jù)處理,通過對(duì)該系統(tǒng)一系列的性能指標(biāo)進(jìn)行測試試驗(yàn),得到基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)在聚類準(zhǔn)確度、低延遲和系統(tǒng)穩(wěn)定性方面表現(xiàn)優(yōu)良。因此,基于聚類算法的財(cái)務(wù)大數(shù)據(jù)智能分析處理技術(shù)系統(tǒng)能幫助企業(yè)更好地處理和分析財(cái)務(wù)大數(shù)據(jù),也期待該系統(tǒng)未來能夠在這一領(lǐng)域有更多創(chuàng)新和進(jìn)步。
參考文獻(xiàn)
[1]林姝瓊.人工智能基于企業(yè)財(cái)務(wù)大數(shù)據(jù)的應(yīng)用[J].商場現(xiàn)代化,2022(12):147-149.
[2]劉彩霞.云計(jì)算在計(jì)算機(jī)數(shù)據(jù)處理中的應(yīng)用發(fā)展[J].數(shù)字技術(shù)與應(yīng)用,2022,40(10):55-57.
[3]張哲.基于聚類分析算法的思政課程實(shí)效性量化評(píng)估建模分析[J].自動(dòng)化技術(shù)與應(yīng)用,2022,41(6):166-168,186.