摘 要:針對異議信息預警精準度不足的問題,進行基于數(shù)據(jù)挖掘的招標代理機構異議信息智能預警研究。通過清洗、補充、歸一化等預處理步驟,提高數(shù)據(jù)的質(zhì)量和一致性。使用數(shù)據(jù)挖掘技術從預處理后的海量數(shù)據(jù)中提取異議信息特征,減少計算復雜度,進一步關聯(lián)度分析,識別重要的異議信息,采用卷積運算和誤差修正提高異議信息的識別精度。最后,根據(jù)信息異議指數(shù)確定預警等級,生成預警報告。經(jīng)試驗證明,設計方法F1值大于0.85,錯誤預警數(shù)量占總預警數(shù)量的比例<1%,可以提供決策支持和風險管理。
關鍵詞:數(shù)據(jù)挖掘;招標代理機構;異議信息;預警;歸一化;關聯(lián)度分析
中圖分類號:TH 17" " " " 文獻標志碼:A
招標代理機構的招標代理信息是否合理和科學直接影響項目的經(jīng)濟收益。為了發(fā)現(xiàn)存在異議的信息并進行準確評估和預警,招標代理機構需要提升管理信息化水平,并應用智能預警技術。然而,面對大量的異議信息,對其進行有效預警存在困難。有研究者提出將BP卷積神經(jīng)網(wǎng)絡技術與隨機森林算法相結合,利用隨機森林算法分類異議信息,并使用BP卷積神經(jīng)網(wǎng)絡對信息進行綜合分析,識別特征并進行預警分析。然而,BP卷積神經(jīng)網(wǎng)絡的學習能力在迭代過程中逐漸減弱,導致預警結果不準確。采用數(shù)據(jù)挖掘技術效率高,可以挖掘海量信息的關聯(lián)關系,被廣泛應用于各領域。因此,針對目前的問題,提出了基于數(shù)據(jù)挖掘的招標代理機構異議信息智能預警研究。
1 招標代理機構異議信息處理
首先,對招標代理機構異議信息清洗,將原始數(shù)據(jù)格式統(tǒng)一,并將相同字符的數(shù)據(jù)定義為重復數(shù)據(jù)。針對重復數(shù)據(jù),僅保留一份,刪除多余的信息。其次,識別招標代理機構異議信息缺失數(shù)據(jù)并補充處理[1]。通常情況下招標代理機構異議信息數(shù)據(jù)具有連續(xù)性,且服從正態(tài)分布,缺失數(shù)據(jù)符合以下條件,如公式(1)所示。
x+|v-u|≥3a " " " " " "(1)
式中:x表示招標代理機構異議信息;v表示招標代理機構異議信息數(shù)據(jù)值的均值;u表示招標代理機構異議信息標準差;a表示空間最近鄰異議信息。
將待處理異議信息代入上述公式中,如果公式(1)中關系成立,則判定該異議信息為缺失數(shù)據(jù);如果公式(1)中關系不成立,則判定該異議信息為正常數(shù)據(jù)。將識別的缺失數(shù)據(jù)用均值填補,完成招標代理機構異議信息缺失值補充處理。
最后對招標代理機構異議信息歸一化處理。招標代理機構異議信息種類不同,數(shù)據(jù)量綱方面存在較大的差異,因此采用歸一化算法對招標代理機構異議信息歸一化,如公式(2)所示。
(2)
式中:x*表示歸一化處理后的招標代理機構異議信息;x*表示缺失值補充處理后的招標代理機構異議信息;minx*表示招標代理機構異議信息最小值;minx*表示招標代理機構異議信息最大值。
2 基于數(shù)據(jù)挖掘的異議信息特征提取
利用數(shù)據(jù)挖掘技術對處理后的招標代理機構異議信息進行關聯(lián)分析,提取異議信息特征。具體步驟如下:將歷史異議信息上傳到數(shù)據(jù)庫中,構建數(shù)據(jù)挖掘知識庫,知識庫中均為異議信息,無正常信息[2]?;跀?shù)據(jù)挖掘技術,將待分析的招標代理機構信息與知識庫中異議信息關聯(lián)度分析,確定2組信息之間的關聯(lián)度,根據(jù)關聯(lián)度判斷信息樣本是否為異議信息以及信息的異議程度,由此提取異議信息特征。
假設構建的數(shù)據(jù)挖掘知識庫為G,從知識庫中隨機抽選一組完整的異議信息,將其定義為項目集,項目集中異議信息數(shù)量為該項目集長度,如果待挖掘的招標代理機構信息樣本與項目集存在關聯(lián)關系,則2組信息之間具有較大的支持度和置信度。根據(jù)2組招標代理機構信息特征和條件概率,計算信息與項目集之間的支持度,如公式(3)所示。
q(x*,y)=A(V∩N) " " (3)
式中:q(x*,y)表示挖掘招標代理機構信息x*與數(shù)據(jù)挖掘知識庫中隨機抽取的事務項y之間的支持度;A表示數(shù)據(jù)挖掘條件概率;V表示挖掘招標代理機構信息x*屬性特征集合;N表示數(shù)據(jù)挖掘知識庫中隨機抽取的事務項y屬性特征集合。
支持度可以反映招標代理機構信息為異議信息的支持程度。根據(jù)挖掘招標代理機構信息x*與隨機抽取的事務項y之間的支持度,計算2組信息之間的置信度,其計算過程如公式(4)所示。
(4)
式中:p(x*,y)表示挖掘招標代理機構信息x*與數(shù)據(jù)挖掘知識庫中隨機抽取的事務項y之間的置信度。置信度可以反映招標代理機構信息為異議信息的可信程度[3]。
根據(jù)挖掘招標代理機構信息x*與數(shù)據(jù)挖掘知識庫中隨機抽取的事務項y之間的支持度與置信度,計算兩組招標代理機構信息與事物項的關聯(lián)度,如公式(5)所示。
(5)
式中:α表示挖掘招標代理機構信息x*與數(shù)據(jù)挖掘知識庫中隨機抽取的事務項y的關聯(lián)度。關聯(lián)度可以反映出挖掘招標代理機構信息x*與異議信息的關聯(lián)程度,數(shù)值越高,則表示挖掘招標代理機構信息x*異議程度越高。
根據(jù)信息與異議信息之間的關聯(lián)度計算出招標代理機構信息x*異議指數(shù),如公式(6)所示。
b=max[0,1-max(α)] " " (6)
式中:b表示招標代理機構信息x*的異議指數(shù)。
考慮到在數(shù)據(jù)挖掘過程中可能存在誤差,為了保證后續(xù)招標代理機構異議信息預警精度,采用卷積運算和誤差修正法對上文計算的招標代理機構信息異議指數(shù)進行誤差修正[4]。
以2組招標代理機構信息的異議指數(shù)卷積和為代表,將每組招標代理機構的異議指數(shù)看作是一個序列,通過卷積操作將這兩個序列進行組合,生成一個新的代表性異議指數(shù)。使用不同的卷積核(即3-GRAM和5-GRAM)來獲取不同的局部區(qū)域內(nèi)的數(shù)據(jù)元素組合。
假設有兩個招標代理機構的異議指數(shù)序列X和Y,其長度分別為N和M。對于每個位置(i,j),定義一個3×5的卷積核,對X和Y進行卷積操作,得到一個新的代表性異議指數(shù)。
以滑動窗口形式對輸入異議指數(shù)進行局部區(qū)域內(nèi)的異議指數(shù)數(shù)據(jù)元素組合,如公式(7)所示。
R=f(δc+b) " " " " " " (7)
式中:R表示卷積運算后的特征矩陣;δ表示初始化的權重矩陣;c表示卷積網(wǎng)絡中的異議指數(shù)數(shù)據(jù);b表示偏置向量。
在卷積操作后,為了引入非線性特性,采用PELU(Parametric ReLU)激活函數(shù)進行轉(zhuǎn)換。將卷積結果作為PELU函數(shù)的輸入,得到一個非線性映射后的結果。如公式(8)所示。
(8)
激活函數(shù)在>0的區(qū)域內(nèi)有常數(shù)梯度,這使異議指數(shù)在該區(qū)域內(nèi)可以平穩(wěn)傳播,而不會出現(xiàn)梯度彌散的問題,從而防止梯度彌散對異議指數(shù)的分析產(chǎn)生不利影響。當激活函數(shù)的輸入≤0時,其梯度為0,在這一區(qū)域內(nèi),數(shù)據(jù)不會發(fā)生傳播和更新。這一特性在處理招標代理機構的異議信息時可以用來過濾掉一些無效或錯誤的信息。
經(jīng)過卷積運算過濾掉無效或錯誤的異議指數(shù)后,引入誤差修正方法,補償異議指數(shù)結果,如公式(9)所示。
b*=b·ψPELU " " (9)
式中:b*表示修正后的招標代理機構信息x*的異議指數(shù);Ψ表示誤差修正系數(shù),通常情況下該系數(shù)取值為0.01。
通過修正處理后,得到招標代理機構信息x*異議指數(shù),異議指數(shù)可以反映招標代理機構信息的異議性程度,將其作為信息特征,完成基于數(shù)據(jù)挖掘的異議信息特征提取,為后續(xù)招標代理機構異議信息預警等級評定奠定基礎。
3 異議信息預警
基于招標代理機構異議信息智能預警需求,根據(jù)信息異議指數(shù)確定預警等級,此次設計5個預警級別,分別為異議性非常低、異議性比較低、異議性一般、異議性比較高、異議性非常高[5],由這5個預警級別建立招標代理機構異議信息智能預警等級集合,如公式(10)所示。
K={k1,k2,k3,k4,k5] " " " (10)
式中:K表示招標代理機構異議信息智能預警等級集合;k1表示招標代理機構信息異議性非常低;k2表示招標代理機構信息異議性比較低;k3表示招標代理機構信息異議性一般;k4表示招標代理機構信息異議性比較高;k5表示招標代理機構信息異議性非常高。
信息異議指數(shù)值范圍在0~100,每個預警等級都對應一個信息異議指數(shù)區(qū)間,根據(jù)信息異議指數(shù)所在區(qū)間,確定預警等級。如果信息異議指數(shù)值在區(qū)間0~20,說明招標代理機構信息異議性非常低,招標代理機構信息爭議性非常小,信息基本正常、合理,預警等級為一級;如果信息異議指數(shù)值在20~40,則說明招標代理機構信息異議性比較低,招標代理機構信息爭議性比較小,信息比較正常、合理,預警等級為二級;如果信息異議指數(shù)值在40~60,則說明招標代理機構信息異議性一般,招標代理機構信息爭議性一般,信息趨于正常、合理,預警等級為三級;如果信息異議指數(shù)值在60~80,則說明招標代理機構信息異議性比較高,招標代理機構信息爭議性比較大,信息基本不正常、不合理,預警等級為四級;如果信息異議指數(shù)值在80~100,則說明招標代理機構信息異議性非常高,招標代理機構信息爭議性非常大,信息完全不正常、不合理,預警等級為5級。按照以上評判規(guī)則,確定招標代理機構異議信息預警等級,實現(xiàn)了基于數(shù)據(jù)挖掘的招標代理機構異議信息智能預警。
4 試驗論證
4.1 試驗準備與設計
采用OTQHKSH數(shù)據(jù)包對本文所提方法的預警性能進行檢驗,數(shù)據(jù)包包括300家招標代理機構異議信息,共8000Byte,通過對異議信息進行處理和挖掘,提取異議信息特征,并對招標代理機構異議信息進行預警綜合分析,對異議信息智能預警,隨機選擇10個招標代理機構異議信息樣本,其預警結果見表1。
通過對招標代理機構異議信息數(shù)據(jù)挖掘,共識別到297個異議信息,異議指數(shù)范圍在11.62~89.62,進行297次預警響應,其中包括一級預警56次,二級預警34次,三級預警106次,四級預警51次,五級預警50次。
4.2 試驗結果與討論
試驗為對比試驗形式,選擇基于BP卷積神經(jīng)網(wǎng)絡的預警方法(MKDI)和基于隨機森林模型的預警方法(WRRE)對本文所提方法對比。試驗先后對招標代理機構異議信息智能預警的F1指標和錯誤預警數(shù)量進行了檢驗。試驗對以上2個評價指標值進行統(tǒng)計,結果為圖1、圖2。
從圖1中3種方法F1值對比可以看出,本文所提方法F1平均水平為8.98,MKDI方法F1平均水平為6.45,WRRE方法F1平均水平為0.54,按照F1值由大到小排序為本文方法、MKDI、WRRE,本文方法F1值最高,證明本文方法預警結果的準確性最好。
從圖2中三種方法錯誤預警數(shù)量情況來看,對于300個招標代理機構異議信息預警,本文所提方法總錯誤預警數(shù)量為6個,MKDI方法總錯誤預警數(shù)量為17個,WRRE方法總錯誤預警數(shù)量為23個,本文所提方法錯誤預警數(shù)量最少。
通過以上對比得出試驗結論:本文方法對于招標代理機構異議信息智能預警效果最好,方法利用數(shù)據(jù)挖掘技術提取到異議信息特征,通過對招標代理機構信息異議性定性分析,確定預警等級,有效保證了預警精度,設計方法在招標代理機構異議信息智能預警方面具有良好的適用性。
5 結語
招標代理機構異議信息預警是智慧招標代理機構信息管理體系中重要組成部分,對異議信息精準地預警能夠為招標代理機構管理提供可靠的依據(jù)和支撐,能夠有效降低招標代理風險。此次結合數(shù)據(jù)挖掘技術優(yōu)勢,將該項技術應用到招標代理機構異議信息預警中,提出了一種新的預警思路,有效提高了招標代理機構異議信息預警精度和預警的智能化和自動化水平,具有良好的現(xiàn)實意義。此次研究還有一定的理論意義,為招標代理機構異議信息智能預警提供了有力的參考依據(jù)。
參考文獻
[1]蔡天潤.數(shù)據(jù)挖掘技術在構建銀行個人客戶金融負債流失預警模型中的應用[J]. 科技通報,2023,39(6):44-49.
[2]黃方亮,許歡慶,沈同平,等.基于數(shù)據(jù)挖掘的智能學習效果預警管理系統(tǒng)設計與試驗研究[J].通化師范學院學報,2022,43(12):84-89.
[3]梁樹杰.基于數(shù)據(jù)挖掘技術的學習預警系統(tǒng)的研究與實現(xiàn)[J].電子技術與軟件工程,2022(23):202-205.
[4]畢波,陳永春,謝毫,等.多源數(shù)據(jù)挖掘下潘謝礦區(qū)深部灰?guī)r水突水預警研究[J].煤田地質(zhì)與勘探,2022,50(2):81-88.
[5]林旭杰.基于數(shù)據(jù)挖掘算法的煤礦安全隱患預警研究及應用分析[J].現(xiàn)代信息科技,2022,6(4):141-144.