摘 要:我國(guó)正在步入人口老齡化社會(huì),政府為保障老人的每日三餐,在各地購(gòu)買養(yǎng)老助餐服務(wù),服務(wù)過程中出現(xiàn)虛假服務(wù)、盜用冒用等問題,威脅到政府和老人的財(cái)產(chǎn)安全,故提出E-ARLL算法對(duì)數(shù)據(jù)異常進(jìn)行檢測(cè)。該方法使用Pearson相關(guān)系數(shù)和ANOVA(方差分析)對(duì)原始數(shù)據(jù)集進(jìn)行劃分特征訓(xùn)練集和特征驗(yàn)證集,然后,將特征訓(xùn)練集輸入到E-ARLL算法模型中,基于集成學(xué)習(xí)(Ensemble Method)思路,根據(jù)劃分好數(shù)據(jù)集的線性關(guān)系選擇適合的算法進(jìn)行異常檢測(cè)。實(shí)驗(yàn)結(jié)果表明,提出的方法對(duì)養(yǎng)老助餐服務(wù)數(shù)據(jù)異常檢測(cè)表現(xiàn)出良好的性能,最終異常數(shù)據(jù)識(shí)別率為99.4%,為政府購(gòu)買服務(wù)的可信性帶來了新的驗(yàn)證方法,具有深遠(yuǎn)的意義。
關(guān)鍵詞:異常檢測(cè);集成算法;養(yǎng)老服務(wù)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)08-0171-06
DOI:10.19850/j.cnki.2096-4706.2024.08.037
0 引 言
隨著人口老齡化的加深,老年人“吃飯難”的矛盾日漸突出,為解決老年人“用餐難”問題,中國(guó)各地紛紛出實(shí)招,通過社區(qū)自辦、和企業(yè)餐館合作等方式探索社區(qū)老人助餐服務(wù)模式[1],通過這種服務(wù)模式給社區(qū)老人帶來暖心的餐飲供應(yīng)。然而在服務(wù)過程中,存在著一些養(yǎng)老服務(wù)數(shù)據(jù)可信問題,如老人助餐卡盜刷、代刷,服務(wù)機(jī)構(gòu)虛假服務(wù)、謊報(bào)服務(wù)數(shù)量等問題。這些問題的存在不僅會(huì)影響老年人的生活質(zhì)量,還對(duì)社會(huì)養(yǎng)老服務(wù)穩(wěn)定發(fā)展造成不良影響。因此,解決數(shù)據(jù)可信問題對(duì)提高養(yǎng)老服務(wù)質(zhì)量、促進(jìn)社會(huì)發(fā)展具有重要意義。
當(dāng)前對(duì)于異常檢測(cè)的分類主要分為三種:?jiǎn)吸c(diǎn)異常、上下文異常、集體異常。對(duì)于單點(diǎn)數(shù)據(jù)檢測(cè),使用較多的方法是隨機(jī)森林(Random Forest, RF)算法,如Zhang [2]等學(xué)者提出隨機(jī)森林結(jié)合極端梯度提升,建立風(fēng)電機(jī)組故障檢測(cè)框架,提高檢測(cè)精確度;Sadaf [3]等學(xué)者采用自編碼器結(jié)合孤立森林對(duì)霧計(jì)算環(huán)境下數(shù)據(jù)包進(jìn)行二進(jìn)制分類;Xu [4]等學(xué)者提出改進(jìn)孤立森林算法(SA-iForest),在UCI數(shù)據(jù)集中驗(yàn)證該算法的準(zhǔn)確性和效率。這些方法對(duì)于異常點(diǎn)與其他數(shù)據(jù)點(diǎn)有明顯差異能有效分類,而養(yǎng)老服務(wù)數(shù)據(jù)中數(shù)據(jù)特征存在多種異常數(shù)據(jù),也包含時(shí)序特征數(shù)據(jù),該部分需要采用上下文異常檢測(cè)方法進(jìn)行識(shí)別。
而具有時(shí)序特征的數(shù)據(jù)現(xiàn)有的長(zhǎng)短期記憶算法(Long Short Term Memory, LSTM)[5]算法和Prophet算法各有優(yōu)劣。如Nabipour [6]等學(xué)者對(duì)于股票走勢(shì)進(jìn)行預(yù)測(cè),使用RNN結(jié)合LSTM算法對(duì)比其他算法預(yù)測(cè)精度更高;Fan [7]等學(xué)者對(duì)于快速固化爐熱過程的數(shù)據(jù)使用MLP-LSTM混合算法進(jìn)行分析,驗(yàn)證了算法的可靠性;ChikkaKrishna [8]等學(xué)者基于Fb-Prophet和Neural-Prophet開發(fā)了STTP模型,進(jìn)行對(duì)道路車流量的預(yù)測(cè);趙英[9]等學(xué)者結(jié)合LSTM算法和Prophet算法對(duì)機(jī)房溫度進(jìn)行建模,通過對(duì)兩種算法模型進(jìn)行非線性組合得出較好的預(yù)測(cè)結(jié)果;還有一些采用機(jī)器學(xué)習(xí)的方法來實(shí)現(xiàn)異常數(shù)據(jù)的檢測(cè),如Nikravesh [10]等學(xué)者對(duì)商業(yè)試驗(yàn)移動(dòng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)未需求,采用SVM、MLP、MLPWD算法進(jìn)行試驗(yàn)驗(yàn)證。上述方法對(duì)于具有長(zhǎng)期時(shí)序性特征的數(shù)據(jù)具有很好的識(shí)別效果,但上述方法對(duì)于不同的異常情況魯棒性較弱,和特征訓(xùn)練集之間擬合度不佳。
為了解決這一問題,董紅瑤等[11]提出引入領(lǐng)域容差關(guān)系選擇集成分類算法,此方法構(gòu)建多個(gè)基分類器進(jìn)行加權(quán)集成最終預(yù)測(cè)分類結(jié)果,復(fù)雜度較高。在養(yǎng)老助餐服務(wù)領(lǐng)域助餐點(diǎn)設(shè)備算力有限,需要減少模型復(fù)雜度。
本文的數(shù)據(jù)集中包括時(shí)序特征,也有非線性特征等,因此對(duì)單點(diǎn)異常采用隨機(jī)森林和邏輯回歸進(jìn)行分類,對(duì)上下文異常采用長(zhǎng)短期記憶進(jìn)行識(shí)別,能針對(duì)性地檢測(cè)出特征訓(xùn)練集中的異常,再將檢測(cè)結(jié)果進(jìn)行集合,提高模型檢測(cè)精確度,更具可靠性。
1 系統(tǒng)模型構(gòu)建與方法設(shè)計(jì)
1.1 相關(guān)工作
本文收集了從2022年6月1日到2023年4月16日某市124個(gè)助餐點(diǎn)每日的用餐數(shù)據(jù),涵蓋了鳳陽(yáng)縣、瑯琊區(qū)、明光市、南譙區(qū)、天長(zhǎng)市下的39個(gè)街道,數(shù)據(jù)總量是303 828條。數(shù)據(jù)特征包括:姓名、類別、助餐點(diǎn)名稱、用餐類型、就餐方式、錄入方式、套餐價(jià)格、補(bǔ)貼金額、自付金額、創(chuàng)建日期、創(chuàng)建時(shí)間、區(qū)和街道,共計(jì)13個(gè)特征。通過對(duì)數(shù)據(jù)的分析,發(fā)現(xiàn)主要存在三種異常:
1)助餐點(diǎn)異常。若一個(gè)老人在一段時(shí)間內(nèi)頻繁切換助餐點(diǎn)用餐,那么可能存在異常情況,比如身份冒用或者錯(cuò)誤輸入數(shù)據(jù)。
2)補(bǔ)貼金額異常:每人每天的補(bǔ)貼金額是有上限的,若老人在一天內(nèi)補(bǔ)貼金額超過上限,或者補(bǔ)貼金額數(shù)值不對(duì),那么可能存在異常情況,比如系統(tǒng)故障或者老人信息錄入異常。
3)用餐類型異常。不同助餐點(diǎn)對(duì)于用餐類型的時(shí)間判斷標(biāo)準(zhǔn)不同,若存在數(shù)據(jù)用餐類型與時(shí)間對(duì)應(yīng)不上,那么可能存在異常情況,比如系統(tǒng)延遲。
針對(duì)以上三種異常情況,本文提出多模型集成的異常點(diǎn)檢測(cè)方法,采用RF、LR和LSTM算法對(duì)數(shù)據(jù)進(jìn)行分類,并將其預(yù)測(cè)結(jié)果和預(yù)測(cè)概率輸出。下一步將三種異常檢測(cè)的預(yù)測(cè)概率作為新的特征輸入到神經(jīng)網(wǎng)絡(luò)中,調(diào)整模型參數(shù),目的是找到最優(yōu)的檢測(cè)結(jié)果。
1.2 數(shù)據(jù)預(yù)處理
對(duì)各124個(gè)助餐點(diǎn)收集到的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)其中含有重復(fù)值、數(shù)據(jù)格式不一致等情況,為確保數(shù)據(jù)的準(zhǔn)確性、一致性和可靠性,本文對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、特征選擇和特征轉(zhuǎn)換等操作,得到更有利于分析建模的數(shù)據(jù)集。
1.2.1 數(shù)據(jù)清洗
對(duì)數(shù)據(jù)集特征值為文本信息時(shí),以部分老人在類別(A類、B類、C類、C1類、…、C4類、D類)特征是空值為例,類別和補(bǔ)貼金額存在著相關(guān)性,計(jì)算相同補(bǔ)貼金額對(duì)應(yīng)的類別的眾數(shù)填充到類別特征,以下是算式描述:
(1)
其中xb表示類別,xh表示補(bǔ)貼金額,Mode表示補(bǔ)貼金額對(duì)應(yīng)類別的眾數(shù),xbempty表示需要填充的空值。
對(duì)于特征訓(xùn)練集的特征為數(shù)值信息時(shí),以創(chuàng)建時(shí)間為空值為例,數(shù)據(jù)集是按照數(shù)據(jù)上傳采集順序排序的,存在數(shù)據(jù)為一天第一條或者最后一條,單以上下條數(shù)據(jù)的均值是無法合理填充的,將用餐類型作為條件,進(jìn)行缺失值填充,以下是算式描述:
(2)
其中xq表示創(chuàng)建時(shí)間,xd表示用餐類型,ξ表示隨機(jī)數(shù)(ξ取10分鐘以內(nèi)),若xd(j-1) ≠ xdj ≠ xd(j+1)時(shí)選取該用餐類型合理的時(shí)間范圍內(nèi)隨機(jī)時(shí)間進(jìn)行填充,如圖1所示填充空值。
1.2.2 特征編碼
數(shù)據(jù)集中存在較多的非數(shù)值型特征,其姓名特征包含的特征值種類較多,采用標(biāo)簽編碼,降低空間開銷,例如:[“張三”“李四”“王五”]編碼為[1,2,3]。其他非數(shù)值型特征采用獨(dú)熱編碼,如表1所示,類型分為8種,根據(jù)每個(gè)類別的序列ID,只有唯一獨(dú)熱編碼與其對(duì)應(yīng)。
通過數(shù)據(jù)預(yù)處理,得到完整且易于機(jī)器識(shí)別的數(shù)據(jù)集,易于后續(xù)的算法分析和建模。
1.2.3 特征選擇
數(shù)據(jù)特征中包含多種類型的特征,對(duì)于數(shù)字特征之間采用Pearson相關(guān)系數(shù)來衡量連續(xù)變量之間的線性關(guān)系,如補(bǔ)貼金額和套餐價(jià)格等數(shù)字特征。對(duì)于一些非數(shù)字特征對(duì)其進(jìn)行編碼,轉(zhuǎn)換成適合模型使用的數(shù)字形式,采用ANOVA(方差分析)比較多個(gè)組的均值是否相等,如類別和補(bǔ)貼金額等。對(duì)三種異常情況選定好相關(guān)特征后,重新構(gòu)建子數(shù)據(jù)集D1、D2和D3,以供研究使用。
2 E-ARLL算法
本文提出E-ARLL(Ensemble Method-Artificial Neural Network Integration Logistic Regression, Random Forest and Long Short Term Memory)算法對(duì)數(shù)據(jù)異常進(jìn)行檢測(cè)。研究針對(duì)三種異常情況將數(shù)據(jù)集拆分為三個(gè)子數(shù)據(jù)集D1、D2和D3,補(bǔ)貼金額異常為非線性數(shù)據(jù)集,同時(shí)特征較多數(shù)據(jù)量大,選擇隨機(jī)森林算法處理,能夠有著精度高、抗擬合能力強(qiáng)的優(yōu)點(diǎn);用餐類型異常為線性數(shù)據(jù)集,采用邏輯回歸算法更大程度的擬合數(shù)據(jù);助餐點(diǎn)異常為時(shí)序性相關(guān)數(shù)據(jù)集,選取長(zhǎng)短期記憶算法挖掘數(shù)據(jù)中存在的時(shí)序信息。將三種算法的預(yù)測(cè)概率作為人工神經(jīng)網(wǎng)絡(luò)算法的輸入,在隱藏層對(duì)該三維數(shù)據(jù)映射到高緯空間,再輸出新的預(yù)測(cè)值進(jìn)行評(píng)估,組合模型圖如圖2所示。
2.1 隨機(jī)森林分類器
以決策樹作為基學(xué)習(xí)器,在每一輪決策樹訓(xùn)練過程中加入隨機(jī)特征選擇,對(duì)于每個(gè)決策樹節(jié)點(diǎn)隨機(jī)選擇一個(gè)包含k個(gè)特征的子集,,k表示整數(shù),然后再選擇一個(gè)最優(yōu)劃分屬性。通過每個(gè)特征的信息增益來確定最佳的分裂點(diǎn)。設(shè)有R個(gè)類Cr,r = (1, 2, 3, …, K),| Cr |表示屬于類Cr的樣本個(gè)數(shù),,設(shè)特征X有m個(gè)不同的取值{x1, x2, x3, …, xm},根據(jù)特征X的取值,將D1劃分為m個(gè)子集D11, D12, D13, …, D1m,| Dli |表示Dli個(gè)數(shù)據(jù)集樣本的個(gè)數(shù),Dir表示記子集Dli中屬于Cr的樣本集合,| Dir |表示Dir的樣本個(gè)數(shù),信息增益算法如下:
1)計(jì)算數(shù)據(jù)集D1的經(jīng)驗(yàn)熵H(D1):
(3)
2)計(jì)算特征X對(duì)數(shù)據(jù)集D1的經(jīng)驗(yàn)熵H(D1 | A):
(4)
3)計(jì)算信息增益:
(5)
不同的特征具有不同的信息增益,信息增益大的特征具有更強(qiáng)的分類能力,如下所示:
(6)
yrf表示RF(Random Forest)算法的預(yù)測(cè)值,RF表示預(yù)測(cè)模型。
2.2 邏輯回歸分類器
選擇sigmoid函數(shù)作為激活函數(shù),對(duì)D2數(shù)據(jù)集進(jìn)行分析,采用隨機(jī)梯度下降法對(duì)隨機(jī)產(chǎn)生的一個(gè)初始值ω0進(jìn)行不斷的迭代,得到最終的ω*,以下是邏輯回歸模型:
(7)
(8)
ylr表示LR(Logistic Regression)算法的預(yù)測(cè)值。
2.3 長(zhǎng)短期記憶網(wǎng)絡(luò)分類器
對(duì)D3數(shù)據(jù)集進(jìn)行分析,通過輸入門、輸出門和遺忘門來影響數(shù)據(jù)模型,最終決定每一個(gè)時(shí)間點(diǎn),要忘記多少,記住多少,輸出多少,保障核心要素會(huì)隨著時(shí)間不停改變但是又能一直傳播下去。
(9)
ylstm表示LSTM(Long Short Term Memory)算法的預(yù)測(cè)值,LSTM表示預(yù)測(cè)模型。
2.4 神經(jīng)網(wǎng)絡(luò)分類器
神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)分為輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。本研究輸入層節(jié)點(diǎn)為x = [ yrf, ylr, ylstm],經(jīng)過隱藏層處理,將輸出結(jié)果表示為:
(10)
其中θ表示節(jié)點(diǎn)之間的權(quán)重值,y表示預(yù)測(cè)結(jié)果。
2.5 模型評(píng)估
設(shè)用餐數(shù)據(jù)集" 表示訓(xùn)練的數(shù)據(jù)集, 表示對(duì)應(yīng)的標(biāo)簽,其中 ,數(shù)據(jù)集中包含n個(gè)樣本,將每條數(shù)據(jù)表示為 ,每條數(shù)據(jù)具有m個(gè)特征,其中i ∈ [1, m],將一個(gè)數(shù)據(jù)經(jīng)過不同模型后產(chǎn)生的結(jié)果為:
(11)
在本研究中,最終分類的結(jié)果會(huì)出現(xiàn)以下四種情況:
若yi == 1,則為真正類(True Positive, TP),該類樣本數(shù)為:
(12)
若yi = 0,= 1,則為假負(fù)類(False Negative, FN),該類樣本數(shù)為:
(13)
若yi = 1,= 0,則為假正類(False Positive, FP),該類樣本數(shù)為:
(14)
若yi = 0,= 0,則為真負(fù)類(True Negative, TN),該類樣本數(shù)為:
(15)
準(zhǔn)確率(Accuracy):準(zhǔn)確率是真正類和真負(fù)類數(shù)量占總樣本數(shù)的比例,算式表示為:
(16)
召回率(Recall):召回率(也被稱為真陽(yáng)性率或靈敏度)是真正類的數(shù)量占實(shí)際為正類的比例,算式表示為:
(17)
精確率(Precision):精確率是真正類的數(shù)量占所有被預(yù)測(cè)為正類的比例,算式表示為:
(18)
F1值(F1 Score):F1值是精確度和召回率的調(diào)和平均數(shù),同時(shí)考慮召回率和精確率兩個(gè)因素,算式如下:
(19)
ROC(Receiver Operating Characteristic curve):ROC曲線評(píng)估模型分類準(zhǔn)確率,它顯示在不同閾值下的真陽(yáng)性率(True Positive Rate, TPR)與假陽(yáng)性率(False Positive Rate, FPR)之間的關(guān)系,算式如下:
(20)
(21)
本文目標(biāo)是找到一個(gè)綜合評(píng)估指標(biāo)最高的模型,令M表示模型的集合,m表示選擇的模型,目標(biāo)函數(shù)為:
(22)
3 仿真實(shí)驗(yàn)與結(jié)果分析
養(yǎng)老助餐服務(wù)切實(shí)保障老人的就餐安全及便利,為獨(dú)居老人提供熱乎飯,為社會(huì)增添人文關(guān)懷。本研究對(duì)象為某市助餐點(diǎn)的用餐數(shù)據(jù),檢測(cè)異常數(shù)據(jù),為老人提供安全可靠的服務(wù)。傳統(tǒng)算法進(jìn)行異常檢測(cè)只考慮了部分相關(guān)特征,不具備完整性,無法對(duì)數(shù)據(jù)集進(jìn)行全面分析,導(dǎo)致部分異常難以檢測(cè)出來,本實(shí)驗(yàn)對(duì)數(shù)據(jù)集特征,通過不同的相關(guān)性進(jìn)行特征分類,將數(shù)據(jù)集劃分成三個(gè)子數(shù)據(jù)集,對(duì)三個(gè)子數(shù)據(jù)集中存在的異常分別進(jìn)行檢測(cè),再運(yùn)用集成學(xué)習(xí)的思想,用神經(jīng)網(wǎng)絡(luò)對(duì)結(jié)果再次檢測(cè),以獲得更好的性能和泛化能力,實(shí)驗(yàn)環(huán)境如表2所示。
3.1 單異常點(diǎn)檢測(cè)
本文通過124個(gè)助餐點(diǎn)收集到的大量數(shù)據(jù) ,訓(xùn)練適合數(shù)據(jù)特征的機(jī)器學(xué)習(xí)模型,優(yōu)化參數(shù)提高各個(gè)模型的分類準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3主要是描述RF、LR和LSTM算法在準(zhǔn)確性、召回率、精確率和F1值的性能,RF算法根據(jù)六個(gè)特征,包括:姓名、類別、用餐類型、創(chuàng)建日期、創(chuàng)建時(shí)間和補(bǔ)貼金額。決策樹選擇10棵,進(jìn)行預(yù)測(cè),結(jié)果表明RF算法在負(fù)樣本(真實(shí)樣本為負(fù)類)的分類上表現(xiàn)較好,但在正類樣本(真實(shí)樣本為正類)的識(shí)別上存在問題,可能是因?yàn)閿?shù)據(jù)中負(fù)樣本較少,導(dǎo)致模型將樣本預(yù)測(cè)為多數(shù)類(正類),以最大程度提高Accuracy,但是降低了Recall。LR和LSTM算法在正類樣本(真實(shí)為正類)的識(shí)別上表現(xiàn)較好,可能因?yàn)槟P瓦^于“寬容”對(duì)于較多樣本都傾向于預(yù)測(cè)為正類,從而提高Recall??傮w數(shù)據(jù)在預(yù)測(cè)的F1值上都達(dá)到93%以上。
3.2 組合模型對(duì)比
圖4為驗(yàn)證數(shù)據(jù)集前100條數(shù)據(jù)的三種算法預(yù)測(cè)概率,可以看出對(duì)負(fù)類的判別上RF算法檢測(cè)值更多,LR算法更偏向于將數(shù)據(jù)判別為正類。本文通過ANN對(duì)三種算法的預(yù)測(cè)概率進(jìn)行加權(quán)平均的方法,不斷地調(diào)整權(quán)重,達(dá)到最優(yōu)的模型分類性能。對(duì)比投票和平均的方法分別進(jìn)行實(shí)驗(yàn)檢測(cè)。
圖5主要比較了基于投票、平均和ANN三種算法組合方法在準(zhǔn)確性、召回率、精確率、F1值和RUC方面的性能,實(shí)驗(yàn)結(jié)果表明,采用ANN進(jìn)行加權(quán)平均的方法在本項(xiàng)目中取得了最佳的預(yù)測(cè)性能,各方面性能都較于另兩種方法更優(yōu)秀,預(yù)測(cè)F1值高達(dá)99.6%,對(duì)比投票和平均的方法提高1%,同時(shí)由圖5看出在ROC曲線中ANN和平均的方法AUC值是相似的,對(duì)于分類的預(yù)測(cè)性能表現(xiàn)較好。實(shí)驗(yàn)表明ANN方法對(duì)于預(yù)測(cè)任務(wù)具有較好的泛化能力和分類性能。
4 結(jié) 論
本文提出了基于某市助餐點(diǎn)收集到的用餐數(shù)據(jù),采用集成學(xué)習(xí)的思路設(shè)計(jì)一種E-ARLL異常檢測(cè)模型。所提出的異常檢測(cè)方法主要分為兩個(gè)部分,首先采用RF、LR和LSTM對(duì)原始數(shù)據(jù)集進(jìn)行分析,得到不同特征下對(duì)數(shù)據(jù)分類的預(yù)測(cè)概率,最后利用ANN對(duì)得到的預(yù)測(cè)概率進(jìn)行訓(xùn)練,獲得最終的預(yù)測(cè)結(jié)果,并計(jì)算評(píng)估指標(biāo),該模型F1值達(dá)到99.6%,這個(gè)結(jié)果表明本文的算法在該數(shù)據(jù)集上表現(xiàn)出非常出色的分類性能,能夠準(zhǔn)確地將樣本分類為正類和負(fù)類,并且能夠捕捉到大部分正類樣本,同時(shí)盡可能地避免將負(fù)樣本錯(cuò)誤地預(yù)測(cè)為正類,證明了模型的穩(wěn)健性和優(yōu)越性。
然而該數(shù)據(jù)集正負(fù)樣本不均衡,導(dǎo)致準(zhǔn)確率和精確率較低,召回率較高,對(duì)于負(fù)樣本的預(yù)測(cè)不夠準(zhǔn)確,后續(xù)的研究會(huì)針對(duì)該方面,采用類別平衡技術(shù)、權(quán)重調(diào)整等方法,提高對(duì)負(fù)樣本的識(shí)別率,提高模型的整體效果。在應(yīng)用該算法到實(shí)際應(yīng)用場(chǎng)景時(shí),還需要對(duì)數(shù)據(jù)和模型進(jìn)一步驗(yàn)證和優(yōu)化,以確保該模型的可靠性和穩(wěn)定性。
參考文獻(xiàn):
[1] 李盈盈,劉奕.智慧養(yǎng)老背景下社區(qū)養(yǎng)老服務(wù)優(yōu)化研究 [J].社會(huì)科學(xué)前沿,2023,12(10):5866-5873.
[2] ZHANG D H,QIAN L Y,MAO B J,et al. A Data-driven Design for Fault Detection of Wind Turbines Using Random Forests and XGBoost [J].IEEE Access,2018,6:21020-21031.
[3] SADAF K,SULTANA J. Intrusion Detection Based on Autoencoder and Isolation Forest in Fog Computing [J].IEEE Access,2020,8:167059-167068.
[4] XU D,WANG Y J,MENG Y L,et al. An Improved Data Anomaly Detection Method Based on Isolation Forest [C]//2017 10th International Symposium on Computational Intelligence and Design (ISCID).Hangzhou:IEEE,2017:287-291.
[5] YU Y,SI X S,HU C H,et al. A Review of Recurrent Neural Networks:LSTM Cells and Network Architectures [J]. Neural computation,2019,31(7):1235-1270.
[6] NABIPOUR M,NAYYERI P,JABANI H,et al. Predicting Stock Market Trends Using Machine Learning and Deep Learning Algorithms Via Continuous and Binary Data;a Comparative Analysis [J].IEEE Access,2020,8:150199-150212.
[7] FAN Y J,XU K K,WU H,et al. Spatiotemporal Modeling for Nonlinear Distributed Thermal Processes Based on KL Decomposition, MLP and LSTM Network [J].IEEE Access,2020,8:25111-25121.
[8] CHIKKAKRISHNA N K,RACHAKONDA P,TALLAM T. Short-Term Traffic Prediction Using Fb-PROPHET and Neural-PROPHET [C]//2022 IEEE Delhi Section Conference (DELCON).New Delhi:IEEE,2022:1-4.
[9] 趙英,翟源偉,陳駿君,等.基于LSTM-Prophet非線性組合的時(shí)間序列預(yù)測(cè)模型 [J].計(jì)算機(jī)與現(xiàn)代化,2020(9):6-11+18.
[10] NIKRAVESH A Y,AJILA S A,LUNG C-H. Mobile Network Traffic Prediction Using MLP,MLPWD,and SVM [C]//2016 IEEE International Congress on Big Data (BigData Congress).San Francisco:IEEE,2016:402-409.
[11] 董紅瑤,申成奧,李麗紅.基于鄰域容差熵選擇集成分類算法 [J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2023,55(6):15-21.
作者簡(jiǎn)介:胡俊杰(1997—),男,漢族,安徽合肥人,碩士研究生,研究方向:深度學(xué)習(xí)。
收稿日期:2024-01-23
基金項(xiàng)目:滁州學(xué)院校級(jí)重點(diǎn)科研項(xiàng)目(2022XJZD09);安徽省高校自然科學(xué)研究重大項(xiàng)目(2022AH040149)
Abnormal Detection Method of Pension Meal Service Data Based on E-ARLL Algorithm
HU Junjie, HUANG Meng
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract: China is entering an aging society. In order to ensure the three meals a day for the elderly, the government purchases pension meal services in various places. The 1 services, embezzlement, 1ly use and other problems in the service process threaten the property security of government and the elderly, so this paper proposes E-ARLL algorithm to detect abnormal data. This method uses Pearson correlation coefficient and ANOVA to divide the original dataset into the feature training set and the feature verification set, and then the feature training set is input into the E-ARLL algorithm model. Based on the thinking of Ensemble Method, the suitable algorithm is selected for abnormal detection according to the linear relationship of the divided dataset. The experimental results show that the proposed method shows good performance on the abnormal detection of pension meal service data, and the final abnormal data identification rate is 99.4%. It brings new verification methods to the credibility of government purchasing services, which has profound significance.
Keywords: abnormal detection; integrated algorithm; pension service