左航
(國網(wǎng)鄭州供電公司,河南 鄭州 450000)
第一種方法稱為基于均勻性分析的數(shù)據(jù)缺失被動(dòng)(MDP)方法。第二種方法是加權(quán)低秩近似法(WLRA)。2 種方法對人為生成的不完全數(shù)據(jù)進(jìn)行分析,并用平均同余系數(shù)對原始完整數(shù)據(jù)進(jìn)行參數(shù)恢復(fù)能力檢驗(yàn)。
B 為n ×t 矩陣,C 為m ×t 矩陣,D 為按降序排列的奇異值的t ×t 對角矩陣。設(shè)Br,Cr和Dr表示B、C 和D 對應(yīng)于r 廣義奇異值的部分。
并且
獲得上述解決方案至少有2 個(gè)不同的標(biāo)準(zhǔn):一個(gè)是
uj是權(quán)的r 元素向量,和表示任意矩陣Y。
另一個(gè)是
通過文獻(xiàn)概括(4)推導(dǎo)出MDP 方法:
其中:
簡化最小化過程。上述最小化問題為
F 服從于(7)。改為
其中:
(12)寫成:
其中
(14)相對于(7),F(xiàn) 的最小化等價(jià)于
(16)通過廣義本征方程得到
MCAR 條件下的食物和癌癥數(shù)據(jù):數(shù)據(jù)集是文獻(xiàn)[10]編譯的一個(gè)小數(shù)據(jù)集。規(guī)定的比例(10、20 和30)隨機(jī)(MCAR)初始完整數(shù)據(jù)。首先將PCA 應(yīng)用于原始完整數(shù)據(jù),發(fā)現(xiàn)第一個(gè)我們的組分占總變異的70.8、14.1、6.2 和5.3。
表1 食品和癌癥數(shù)據(jù)組分負(fù)荷恢復(fù):同余系數(shù)的均值和標(biāo)準(zhǔn)差(括號內(nèi))
有2 個(gè)具有經(jīng)驗(yàn)意義的組成部分,一個(gè)是強(qiáng)的,另一個(gè)是相對弱的。決定檢查1 ~3 的組分?jǐn)?shù)量。表1 總結(jié)了主要結(jié)果。表中的第一列表示提取組分的維度。第二列表示刪失率。接下來的兩列顯示了2 種方法獲得的組分負(fù)荷一致性系數(shù)的平均值和標(biāo)準(zhǔn)差。少量組件和低刪失率的回收率極佳。隨著維數(shù)和刪失率的增加,恢復(fù)率下降。然而2 種方法的恢復(fù)惡化率并不一致。
本文考察了它們的參數(shù)恢復(fù)能力,作為缺失數(shù)據(jù)比例、解的維數(shù)和刪失中非隨機(jī)性程度的函數(shù)。在MCAR 情況下,當(dāng)數(shù)據(jù)的維數(shù)和缺失比例較小時(shí),所有方法都能很好地工作。隨著這些因素的增加,它們的性能下降,但使用 WLRA 方法時(shí),惡化速度往往更快??梢蕴峁┑囊粋€(gè)一般性建議是,都應(yīng)保持組件數(shù)量盡可能減少。高維解往往會增加提取弱分量的機(jī)會,這總是不利于參數(shù)恢復(fù)。