摘 要:本文針對402家供應(yīng)商進(jìn)行量化分析排名。首先,整體分析A、B、C的需求量,整體的供貨量,誤差在某范圍內(nèi)的訂單數(shù)。然后,個體分析每家供應(yīng)商,確定評價指標(biāo),用主成分分析法各供應(yīng)商按供應(yīng)的原材料對應(yīng),將這個結(jié)果作為第一個指標(biāo)。最后,利用SPSS求解,給出最終的供應(yīng)商排名。
關(guān)鍵詞:量化分析;主成分分析;SPSS
一、研究背景
某生產(chǎn)企業(yè)所用原材料總體可分為A、B、C三種類型。企業(yè)每年按 48 周安排生產(chǎn),需要提前制定 24 周的原材料訂購和轉(zhuǎn)運(yùn)計(jì)劃,企業(yè)需要根據(jù)產(chǎn)能要求確定需要的供應(yīng)商和訂貨量,確定轉(zhuǎn)運(yùn)商,并讓轉(zhuǎn)運(yùn)商將供應(yīng)商每周的供貨量轉(zhuǎn)運(yùn)到企業(yè)倉庫。該企業(yè)每周的產(chǎn)能為2.82萬立方米,每立方米產(chǎn)品需消耗的各類材料用量以及各類原料的采購單價和儲存費(fèi)用。本文建立數(shù)學(xué)模型對402家供應(yīng)商的供貨特征進(jìn)行量化分析,確定50家最重要的供應(yīng)商。
二、基于主成分分析的模型
1.模型的建立
(1) 利用主成分分析算法對商家數(shù)量進(jìn)行數(shù)學(xué)降維
問題一要求對 402 家原材料供應(yīng)商進(jìn)行量化分析,建立反映保障企業(yè)生產(chǎn)重要性的數(shù)學(xué)模型,并從中選出 50 家最重要的供應(yīng)商。即從多個存在一定相關(guān)性的變量之間,當(dāng)變量的個數(shù)較多且變量之間存在復(fù)雜的關(guān)系時,增加了問題分析的難度??梢圆捎弥鞒煞址治鏊惴▉斫鉀Q這個問題,主成分分析是一種數(shù)學(xué)降維的方法,該方法主要將原來眾多具有一定相關(guān)性的變量,重新組合成為一種新的相互無關(guān)的綜合變量。
(2) 主成分分析算法相關(guān)介紹
基本概念:主成分分析,英文簡寫 PCA(Principal Component Analysis),提取數(shù)據(jù)集的主要特征成分,忽略次要特征成分,達(dá)到降維目的。
(3) 主成分分析算法特點(diǎn)
PCA 通過線性變換,將 N 維空間的原始數(shù)據(jù)變換到一個較低的 R 維空間(R 在降維過程中,不可避免地要造成信息損失。如原來在高維空間可分的點(diǎn),在低維空間可能變成一個點(diǎn),變得不可分。因此,要在降維過程中盡量減少這種損失。 特征之間的相關(guān)性越弱,則特征就越應(yīng)該作為主要成分被保留。 反之,如果兩個特征有較高的相關(guān)性,則只保留其中一個特征即可。為使樣本投影到低維空間后盡可能分散,它們的方差要盡可能大。 (4) 主成分分析算法的基本思想 數(shù)據(jù)集 X 有 N 個特征,M 個樣本。若將每個樣本用列向量 xj(j=1,2,...,M)表示,則該數(shù)據(jù)集可以用下面的矩陣表示: 選擇 N 個 R 維的正交基 pi(i=1,2,...,R)組成的矩陣: 所謂正交可以理解為兩個向量 Pij(i≠j)相互垂直,即一個向量在另一個向量的投影為 0。 通過正交基將維數(shù) N 降到 R 后,可能帶來的一個問題是原本在 N 維空間可分的點(diǎn),在 R 維空間變得不可分。 例如在三維空間上,位于垂直于某坐標(biāo)平面的一條直線上的不同點(diǎn),投影到該坐標(biāo)平面上后成為一個點(diǎn),從而使樣本的可區(qū)分性喪失,造成信息丟失。 為了避免這類問題,降維的一個基本原則是,降維后的點(diǎn)(或投影后的值)在新的低維空間里盡可能的分散。 于是 PCA 問題就變成一個正交基的優(yōu)化問題,即尋找一組最優(yōu)正交基,使得將 N 維數(shù)據(jù)集的樣本點(diǎn)投影到 R 維空間后,新的樣本點(diǎn)在 R 維空間盡可能的分散。 方差是刻畫樣本分散程度的統(tǒng)計(jì)量。對特征xj(j=1,2,…,M),其方差為: 為了簡化計(jì)算,將 xj 平移μ個單位,則樣本均值變換為 0。 用 a 表示變換過的 x,上式變換為: 方差值越大,則特征 aj(j=1,2,...,M)的各個分量越分散。另外,對多維特征空間,如果兩個特征是線性相關(guān)的,則這兩個特征是冗余的,只保留一個即可。因此,降維后的特征間應(yīng)盡可能不相關(guān)??坍嬏卣飨嚓P(guān)關(guān)系的統(tǒng)計(jì)量是協(xié)方差。協(xié)方差表示了兩個隨機(jī)變量 X,Y 同向(或反向)變化的程度。其絕對值越大,則同向(反向)變化的程度越明顯,說明兩者相關(guān)性越強(qiáng)。其值越接近 0,說明兩者同向(反向)變化的程度越不明顯,說明兩者的相關(guān)性越弱。 對降維問題來說,希望保留下來的特征兩兩間是不相關(guān)的。因此要使其協(xié)方差的絕對值盡量小。由于各個特征經(jīng)過平移,均值已為 0,因此有式: 特征均值為 0 的情況下,兩個特征的協(xié)方差簡潔地表示為其內(nèi)積除以元素?cái)?shù) M。 當(dāng)協(xié)方差為 0 時,表示兩個特征完全獨(dú)立。 為了讓協(xié)方差為 0,選擇基的方向一定是正交的。 則降維問題的優(yōu)化目標(biāo)為:將一組 N 維向量降為 R 維(R 大于 0,小于 N),其目標(biāo)是選擇 R 個單位(模為 1)正交基,使得原始數(shù)據(jù)變換到這組基上后,各特征兩兩間協(xié)方差為 0,而特征的方差則盡可能大。 即在正交約束下,取最大的 R 個方差。 多個特征兩兩間的協(xié)方差可以通過協(xié)方差矩陣來表示。 將數(shù)據(jù)集 X 的特征進(jìn)行 0 均值以后記為 A,即式: N 維特征向量的協(xié)方差矩陣: PCA 的優(yōu)化目標(biāo)是在新的低維空間,特征間的協(xié)方差為 0,特征維數(shù)為 R.則應(yīng)該尋找一個能使上式變換為形如下式的 R 階對角方陣: 且對角線元素應(yīng)是前式中對角線上前 R 個最大的元素,以滿足特征方差越大數(shù)據(jù)越分散的要求。 令 P 為 R×N 單位對角矩陣: 至此,使用 P 將特征 0 均值化的 N 維數(shù)據(jù)集,降維至 R 維。 實(shí)際應(yīng)用時,還需要保證留下來的 R 維空間中的特征內(nèi)積(方差)之和最大,以使樣本盡可能分散。 因此,要調(diào)整 P 的行向量與式(6-17)中對角線上最大的前R 個值相適應(yīng),以保證選擇的 R 維向量方差之和最大。 對 M 條 N 維特征數(shù)據(jù),PCA 算法步驟可以描述如下: (1) 將原始數(shù)據(jù)按列組成 N 行 M 列矩陣 X; (2) 將 X 的每一行(代表一個特征)進(jìn)行零均值化,即減去這一行的均值; (3) 求出協(xié)方差矩陣 C=; (4) 求出協(xié)方差矩陣的特征值及對應(yīng)的特征向量; (5) 將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣,取前 R 行組成矩陣 P; (6) Y=PX 即為降維到 R 維后的數(shù)據(jù)。 本題主要采用主成分分析算法來求解問題。 2.模型的分析 (1) 利用 SPSS 進(jìn)行主成分分析求解 使用 SPSS 軟件對本模型進(jìn)行主成分分析,根據(jù)近五年某 402 家企業(yè)訂貨量和供應(yīng)商供貨量中的數(shù)據(jù),對表格中的數(shù)據(jù)分別進(jìn)行量化處理,并將因子分析-選項(xiàng)-系數(shù)顯示方式選擇“按大小排序”,得到關(guān)于訂貨量和供貨量的成分分析圖。其中二者總方差累計(jì)的數(shù)據(jù)分別為 89.636%(供貨量總方差解釋圖)和 89.727%(訂貨量總方差解釋圖),相差并不大。但是比較二者的前 50 項(xiàng)主成分總方差分析圖發(fā)現(xiàn),前 50 項(xiàng)二者的總方差累計(jì)的數(shù)據(jù)分別為 80.814%(供貨量總方差解釋圖)和 69.604%(訂貨量總方差解釋圖),因此在從 402 家供應(yīng)商中選擇主要的 50 家供應(yīng)商時,由供貨量進(jìn)行主成分分析的結(jié)果時更準(zhǔn)確。 (2) 從成分矩陣中選擇前 50 項(xiàng)得出最重要的 50 家供應(yīng)商將因子分析-選項(xiàng)-系數(shù)顯示方式選擇“按大小排序”,得到關(guān)于供貨量的成分矩陣圖。從中選擇前 50 項(xiàng),即可確定最重要的 50 家供應(yīng)商。 故對 402 家供應(yīng)商的供貨特征進(jìn)行量化分析,建立反映保障企業(yè)生產(chǎn)重要性的主成分分析模型,確定 50 家最重要的供應(yīng)商為 S259、S032、S401、S145、S389、S097、S164、S187、S399、S220、S278、S079、S018、S053、S061、S370、S106、S311、S316、S243、S302、S020、S029、S198、S043、S391、S107、S118、S230、S087、S354、S309、S274、S325、S171、S101、S052、S050、S006、S377、S021、S047、S249、S091、S398、S109、S048、S179、S205、S192。 3.模型評價 (1) 模型的優(yōu)點(diǎn) 主成分分析法的優(yōu)點(diǎn):第一,可消除評價指標(biāo)之間的相關(guān)影響。第二,可減少指標(biāo)選擇的工作量。第三,當(dāng)評級指標(biāo)較多時還可以在保留絕大部分信息的情況下用少數(shù)綜合指標(biāo)代替原指標(biāo)進(jìn)行分析,主成分分析中各主成分是按方差大小依次排列順序的,在分析問題時,可以舍棄一部分主成分,只取前后方差較大的幾個主成分來代表原變量,從而減少了計(jì)算工作量。 (2) 模型的缺點(diǎn) 主成分分析法的缺點(diǎn):主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切。 參考文獻(xiàn): [1]楊玲玲,馬良,張慧珍.多目標(biāo)0-1規(guī)劃的混沌優(yōu)化算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(12):4486-4488. [2]馬龍,盧才武,顧清華,陳曉妮.多目標(biāo)0-1規(guī)劃問題的元胞狼群優(yōu)化算法研究[J].運(yùn)籌與管理,2018,27(3):18. [3]孫明濤,曹慶奎.基于遺傳算法的供應(yīng)鏈企業(yè)訂購方案優(yōu)化模型[J].2004,21(2):87. [4]蘇學(xué)能,劉天琪,曹鴻謙,焦慧明,于亞光,何川,沈驥.基于Hadoop架構(gòu)的多重分布式BP神經(jīng)網(wǎng)絡(luò)的短期負(fù)荷預(yù)測方法[J].中國電機(jī)工程學(xué)報(bào),2017,37(17):4967. [5]楊海民,潘志松,白瑋.時間序列預(yù)測方法綜述[J].計(jì)算機(jī)科學(xué),2019,46(1):22. [6]韓曉龍,李上,楊全業(yè).基于遺傳算法的戰(zhàn)略供應(yīng)鏈集成研究[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(2). 作者簡介:侯星竹(2001.12- ),女,漢族,遼寧省鐵嶺市人,渤海大學(xué)數(shù)學(xué)科學(xué)學(xué)院,本科在讀