基于K-means算法的某高校各二級單位報銷聚類分析統(tǒng)計研究

2024-05-13 16:08:23楊澤

信息系統(tǒng)工程 2024年4期

楊澤

摘要：近年來，隨著國際形勢的變化和我國經濟社會發(fā)展的內在需要，國家對高校的經費投入逐漸加大，高校管理者如何管好、用好相關經費具有現實意義。選取某高校17個二級單位2022年全年的預約單量、經費執(zhí)行進度以及問題單率等三個特征變量的數據進行K-means算法統(tǒng)計分析，研究結果顯示K-means聚類算法可以有效反映出該高校各二級單位報銷情況，為科學化評估經費使用情況提供決策參考依據，并為學校財務信息化建設提供支撐。

關鍵詞：K-means；聚類分析；執(zhí)行進度；機器學習

一、前言

近年來，隨著高等教育事業(yè)的蓬勃發(fā)展，高校各項經費穩(wěn)步增長，配套的經費使用管理制度也在不斷更新和完善，師生們在進行財務報銷時發(fā)生問題的數量也隨著報銷頻率的升高而不斷增加[1]。與此同時，對于許多高校管理者而言，如何及時有效地對二級單位的報銷情況進行考評并督促二級單位不斷改進完善成為擺在高校管理者面前的一個難題?？荚u方法選擇不當也會使各個二級單位產生不解與質疑。預約單量、問題單率以及經費執(zhí)行進度作為重要的財務指標，可以很大程度上反映出高校各個二級單位的經費執(zhí)行情況、財務預約工作量以及對財務規(guī)章制度的理解掌握程度。通過利用這些指標對若干不同二級單位進行聚類，有利于高校管理者對二級單位進行評估與考核，對整個學校事業(yè)發(fā)展可以起到正向推進作用。相比于主觀性比較強的評委打分形式，采用機器學習聚類算法對客觀數據進行分類更容易讓二級單位負責人與基層工作人員信服，可以有效降低矛盾和沖突的發(fā)生。然而，現階段對于高校各個二級單位財務報銷評估與分類的研究較少，評估指標的選取也缺乏統(tǒng)一的標準。

K-means算法作為一種易收斂、操作性強的機器學習算法[2]，在電力、圖像處理、高校管理等領域取得了廣泛的應用[3-4]。鑒于K-means聚類算法[5]優(yōu)秀的聚類效果，本文采用該算法對某高校各二級單位財務報銷情況進行統(tǒng)計研究，以達到通過利用這些指標對不同二級單位進行聚類的目的，便于高校管理機構進行評估與考核。

二、數據挖掘和聚類分析

（一）數據挖掘

數據挖掘技術有許多細分領域，較為主流的方向是機器學習、數理統(tǒng)計、神經網絡、數據庫、模式識別等。數據挖掘是數據庫知識發(fā)現（Knowledge-Discovery in Databases，KDD）中的一個步驟。數據庫知識發(fā)現這個概念最早是在第11屆國際聯(lián)合人工智能學術會議上提出的，通常是指通過算法搜索隱藏于大量的數據中有價值信息的過程，是一種深層次的數據分析與處理方法。隨著數據挖掘技術的不斷成熟，應用領域也不斷擴大。數據挖掘對于不同數據領域可以應用不同的數據分析方法，其中聚類分析就是一種重要的分析方法[6]。

（二）聚類分析

聚類分析是數據挖掘中的經典算法之一，是指通過數據點的相似性將數據分為若干個集合，每個集合中的數據點之間比其他集合中的數據點相似性更高。簡單來說，聚類就是將數據集按照不同相似特征歸類為一個個子集，也就是許多個“類”。聚類分析應用十分廣泛，不同的聚類分析算法存在各自不同的特點和應用場景，其在經濟、管理、醫(yī)學、心理學、氣象預報、地質勘探、生物分類等諸多領域都取得了很好的效果。

三、K-means聚類分析算法

（一）K-means聚類分析算法簡介

K-means算法是James MacQueen于1967年提出的，屬于一種無監(jiān)督、可迭代的機器學習算法。該算法需要提前給定分類簇的數目k，并隨機選擇樣本點作為每個簇的初始中心，不斷計算每個樣本點與初始中心之間的歐氏距離。樣本點與初始中心的歐氏距離作為標準來衡量樣本點之間的相似度，歐氏距離值越小的樣本點與初始中心的相似度越高，反之，相異程度越高。將距離最近的初始中心歸為一簇，并對簇的中心進行重新選取。重復上述過程，直至各個簇中心位置不再發(fā)生變化，樣本數據也完成劃分，至此算法結束。

兩個樣本點x與y之間的歐氏距離表達式為：

（1）

（二）K-means聚類分析算法的優(yōu)點

K-means算法作為無監(jiān)督的機器學習算法，具備以下優(yōu)點：第一，邏輯簡單、效率較高。由于具有迭代的特性，K-means算法在少量樣本聚類的情況下也能達到很好的聚類效果，該算法時間復雜度較低。第二，對于數據集是數值類型的情況，K-means算法聚類效果更好。第三，K-means優(yōu)化了監(jiān)督學習樣本分類不合理的地方。

四、數據的獲取與處理

（一）數據獲取與指標選擇

本文所用的數據取自某高校2022年財務數據，選取該高校17個二級單位作為研究對象進行聚類分析，進而得出這些二級單位報銷情況的評估。所獲取的數據字段包括各個二級單位的年度撥款數、年度執(zhí)行數、年度預約單總量以及問題預約單總量。通過年度執(zhí)行數與年度撥款數的比值可以得到各個二級單位的年度經費執(zhí)行率，通過問題預約單總量與年度預約單總量的比值可以得到各個二級單位的問題單率。選取年度經費執(zhí)行率、預約單總量以及問題單率這三個指標，分別表征這些二級單位的經費執(zhí)行情況、財務預約工作量以及對財務規(guī)章制度的把控程度，可以有效對各個二級單位的財務報銷情況進行區(qū)分。

17個二級單位對應的三個指標數據如表1所示。

（二）使用K-means算法對數據進行聚類分析

將17個二級單位分成三類，即優(yōu)秀、合格與不合格，分別對應的類代碼是：1、2和3。對于K-means算法可以將k的值設定為k=3。將表1的數據作為原始數據集導入MATLAB軟件，經過運行程序得到的聚類結果如表2所示。對聚類結果進行可視化展示見圖2。

由表2可以看出，這3類分別有4個、10個和3個單位。第1類有單位A、單位D、單位I和單位M；第2類有單位B、單位C、單位E、單位F、單位G、單位H、單位J、單位K、單位N和單位O；第3類有單位L、單位P和單位Q。

從圖2的K-means聚類結果可視化也可以看出，該算法非常直觀地將所有樣本點劃分成3個類，表明對于樣本量較少的數值類型數據集，K-means算法的聚類效果非常明顯。

五、將K-means聚類分析算法應用于某高校各二級單位報銷統(tǒng)計效果

第一，有效降低主觀性評估手段帶來的矛盾。如果單純依靠若干個評委打分統(tǒng)計評比的話，不僅會耗費大量的時間和人力、物力，還會因為過程的不透明引發(fā)各種矛盾和沖突。從前文的分析結果也可以看出，采用K-means聚類分析算法對各個二級單位的分類非常直觀，更容易讓基層員工信服。

第二，將對多個二級單位的劃分量化為對數據的處理。K-means算法的優(yōu)勢之一就是對數值類型數據集具有較好的聚類準確度，所以在評估過程中可以將一些指標經過統(tǒng)計后的數據信息通過K-means算法的數據處理，快速準確地對這些二級單位進行分類，進而使主管部門實時掌握這些二級單位的財務狀況以及報銷進度情況，以便及時調整工作計劃并安排下一階段的部署實施。

第三，不同指標綜合評估，得到的評估結果更具全面性。與傳統(tǒng)的評估方法單純依靠某個指標不同，K-means算法通過將年度經費執(zhí)行率、預約單總量以及問題單率這三個指標綜合進行聚類分析，指標所反映的二級單位的經費執(zhí)行情況、財務預約工作量以及對財務規(guī)章制度的理解掌握程度可以全面表征各個二級單位財務狀況的健康程度。

六、完善K-means聚類分析算法應用的建議

為了擴大K-means聚類分析算法在高校財務報銷統(tǒng)計中的應用，本文提出幾點建議：

第一，隨著國家教育經費的投入力度不斷加大以及學校申請的科研經費增長迅猛，許多學校為了做大做強某些優(yōu)勢研究方向，紛紛組建許多科研團隊。這些科研團隊在經費等方面擁有更多的自主權，這也是高校落實國家“放管服”改革的要求。許多較大的科研團隊規(guī)?？氨刃⌒偷膶W院（研究所），在學校層面也有對這些科研團隊的財務報銷情況進行評估的需求。K-means算法操作簡便，速度較快，可以滿足學校主管部門對于這些科研團隊聚類分析的需要。

第二，本文選取的三項指標在描述各個二級單位財務報銷狀況時稍顯單薄，無法全面衡量出各個二級單位的真實情況。在這種情況下非常有必要增加一些指標。根據前文所述K-means算法對于數值類型的數據集合具有比較好的聚類準確度，然而許多指標并非數值類型。對應于本文所關注的對象高校各個二級單位就有許多指標不是數值類型，例如，有些二級單位有專職財務人員或者財務秘書，有些二級單位則沒有。對于這種非數值類型的指標可以將其進行“數值化”，即有財務人員或者財務秘書的單位該指標標記為1，沒有的話標記為0。通過增加指標數量全面評估各個二級單位財務報銷情況。

第三，本文采用的K-means算法需要提前給定需要劃分類別的數目，即需要提前給定k值，對聚類結果有很大影響。除此以外，本文選取的三項指標權重都是相同的，但在實際工作中權值未必一樣。對于這種情況，有些學者采用熵值法賦權，有些研究人員采用基于變異系數的歐氏距離實現特征賦權，還有人采用AHP和熵值法相結合的方式為各個指標賦權。這些都表明傳統(tǒng)的K-means算法并不是完美的，需要與其他算法結合并改進，完善對各個二級單位的財務報銷聚類分析模型，優(yōu)化聚類算法的時間復雜度與聚類效果。

七、結語

針對高校管理者對各個二級單位評估考核的現實困境，本文提出將K-means聚類算法應用于高校財務分析。通過將某高校2022年17個二級單位的財務數據作為研究對象進行聚類分析，進而得出這些二級單位報銷情況的評估，即17個二級單位評估為優(yōu)秀、合格與不合格的單位分別為4個、10個和3個。實驗結果驗證了K-means算法在對高校各二級單位報銷統(tǒng)計聚類的可行性及有效性。

參考文獻

[1]郭美彤，陳鈺怡，毛彧，等.探索星級評定機制在改善高校財務報銷管理中的作用——以S高校為例[J].教育財會研究，2022，33（05）：63-69.

[2]羅鑫帥，高洋.基于改進型K-means算法的高校研究生成績畫像研究[J].陜西教育，2023（07）：49-51.

[3]查香云，呂國良.基于K-means聚類分析的高校論文統(tǒng)計研究[J].浙江理工大學學報，2017，38（05）：478-482.

[4]謝旭，施學鴻，楊柳，等.一種基于K-means的電力傳感網信任決策方法[J].傳感技術學報，2023，36（10）：1643-1648.

[5]李鵬，李強，馬味敏，等.基于K-means聚類的路面裂縫分割算法[J].計算機工程與設計，2020，41（11）：3143-3147.

[6]王世純，許新華，黃嘉成，等.K-means聚類算法在高校學生成績分析中的應用研究[J].湖北師范大學學報（自然科學版），2019，39（03）：113-118.

責任編輯：張津平、尚丹