李國鋒,王 莉,肖遠淑
(1.阿克蘇職業(yè)技術(shù)學(xué)院機電工程系,新疆阿克蘇 843000;2.阿克蘇地區(qū)高級技工學(xué)校紡織系,新疆阿克蘇 843000;3.新疆大學(xué)紡織與服裝學(xué)院,烏魯木齊 830046)
?
基于主成分聚類分析評價棉花品質(zhì)的研究
李國鋒1,王莉2,肖遠淑3
(1.阿克蘇職業(yè)技術(shù)學(xué)院機電工程系,新疆阿克蘇843000;2.阿克蘇地區(qū)高級技工學(xué)校紡織系,新疆阿克蘇843000;3.新疆大學(xué)紡織與服裝學(xué)院,烏魯木齊830046)
摘要:采用中國纖維檢驗局公布的“中國棉花質(zhì)量分析報告”的8項指標作為原始指標,利用SPSS主成分分析法和聚類分析法對不同地區(qū)的細絨棉品質(zhì)進行分析,篩選出特征根累計貢獻率86.931%的3個主成分,對選出的主成分進行系統(tǒng)聚類分析,將棉花品質(zhì)按相似性分為三類地區(qū)。結(jié)果表明:各類地區(qū)間棉花品質(zhì)差距較大,第二類地區(qū)具有在顏色級、馬克隆值指標的優(yōu)勢,第三類地區(qū)棉花品質(zhì)整體較差。研究結(jié)果對棉花采購和紡織企業(yè)生產(chǎn)具有重要的參考作用。
關(guān)鍵詞:棉花品質(zhì);主成分分析;聚類分析
紡織企業(yè)在配棉時習(xí)慣上將品級指標作為主要指標,原料購買時也通常以品級的高低作為主要選擇指標。隨著國家棉花質(zhì)量檢驗體制改革的深入,HVI儀器化檢驗方式進一步得到大面積的普及[1],已成為棉花品級檢驗領(lǐng)域的發(fā)展趨勢。長期以來,一些加工企業(yè)按照棉花產(chǎn)區(qū)進行加工,片面理解棉花品級指標,將不同地區(qū)的棉花混用,以得到期望的質(zhì)量,客觀地對產(chǎn)品質(zhì)量產(chǎn)生了不利的影響。全面、準確地掌握我國棉花品質(zhì),有利于加強宏觀調(diào)控,引導(dǎo)紡織產(chǎn)業(yè)健康有序發(fā)展[2]。
本文擬對我國15個不同地區(qū)及新疆兵團的棉花品質(zhì)進行主成分分析和系統(tǒng)聚類分析,找出棉花品質(zhì)中顏色級、軋工質(zhì)量、長度、長度28mm以上占比、馬克隆值、斷裂比強度、斷裂比強度中等檔以上占比、長度整齊度指數(shù)等指標之間的關(guān)系;在揭示這些指標成分分布特征的基礎(chǔ)上,對不同產(chǎn)地棉花質(zhì)量做了綜合評價;在此基礎(chǔ)上,進行系統(tǒng)聚類分析,將棉花性能相似的細絨棉聚集為一類,為原棉接批、計算機配棉提供科學(xué)理論指導(dǎo)[3]。
1.1方法的選取
為科學(xué)、綜合地評價棉花質(zhì)量,GB 1103.1—2012《棉花 第1部分:鋸齒加工 細絨棉》規(guī)定了棉花纖維品質(zhì)評價方法。方法給出了反映棉纖維品質(zhì)的核心指標,但由于各地區(qū)的差異性,檢測的各項指標也有較大差異,尤其棉纖維指標過多,評價異常困難,這給棉花交易和企業(yè)配棉帶來了較大的困難。主成分分析是把多個指標化為少數(shù)幾個不相關(guān)的綜合指標,并能最大限度反映原來指標信息[4]。聚類分析方法是按描述事物性質(zhì)的變量之間的相似程度進行分類的一種方法,這類方法可以將多指標的數(shù)據(jù)進行分類[5]。本文采用主成分分析和聚類分析相結(jié)合的方法,先對我國各地區(qū)棉花品質(zhì)進行主成分分析,再進行聚類分析,以此進行棉花品質(zhì)定量化的綜合評價。
1.2指標的選取
選用中國纖維檢驗局公布的“2013/2014年度中國棉花質(zhì)量分析報告”的8個指標進行評價,包括顏色級X1、軋工質(zhì)量X2、長度X3、長度28mm以上占比X4、馬克隆值X5、斷裂比強度X6、斷裂比強度中等檔以上占比X7、長度整齊度指數(shù)X8。其中顏色級為標準級白棉3級以上占比,軋工質(zhì)量為P2及以上占比,長度為逐包檢驗平均長度,馬克隆值為B級以上占比,斷裂比強度為各產(chǎn)棉省份棉花平均斷裂比強度,長度整齊度指數(shù)為各產(chǎn)棉省份棉花平均長度整齊度。
2.1主成分分析
本文選取2013/2014年度中國棉花質(zhì)量分析報告的8項指標相關(guān)數(shù)據(jù)作為分析樣本[6],使用SPSS 19.0軟件作為統(tǒng)計分析工具,對表1中的原始數(shù)據(jù)進行降維處理,經(jīng)KMO檢驗,取樣足夠度的Kaiser-Meyer-Olkin度量值為0.555,大于0.5;Bartlett的Sig為0,小于0.05。因此,滿足正態(tài)分布且具有顯著性,得到相關(guān)系數(shù)的特征值、貢獻率、累積貢獻率以及成分矩陣,分別如表2和表3所示。
表1中國棉花質(zhì)量8項主要品質(zhì)指標
序號地區(qū)顏色級/%軋工質(zhì)量/%長度/mm長度28mm以上占比/%馬克隆值/%斷裂比強度/(cN/tex)斷裂比強度中等檔以上占比/%長度整齊度指數(shù)/%1江蘇46.1999.7429.0086.3852.3529.8999.0783.012浙江24.1699.9927.8843.8540.0528.8499.8982.923安徽11.9399.4227.7331.6041.1329.4199.1782.254江西10.1299.8027.6030.5319.6229.8999.7682.845湖北3.2099.9027.7838.6263.3228.8398.0382.206湖南2.5599.7527.8443.4059.7829.2598.5382.277天津28.1299.1628.1361.7045.8529.1199.4282.258河北52.0699.1728.7687.8763.3229.7498.8182.669山西32.4098.7628.3471.9632.7829.4696.7283.0210山東74.5099.6028.6583.6087.2129.6598.8282.3311河南39.4899.1328.3669.3079.8829.2598.3181.8112陜西95.4299.4628.7785.0791.0127.2673.9482.7413甘肅98.9999.8528.3273.5596.6428.2293.8783.0414新疆地方97.5899.4328.5381.5580.4427.4084.5782.5915新疆兵團95.2397.3728.1963.2886.5126.9073.2782.08
表2KMO和Bartlett的檢驗
Kaiser-Meyer-Olkin度量0.555Bartlett的球形度檢驗近似卡方107.763df28Sig.0
表3相關(guān)系數(shù)的特征值、貢獻率、累積貢獻率
成分初始特征值合計方差/%累積/%提取平方和載入合計方差/%累積/%14.12951.60751.6074.12951.60751.60721.86723.33674.9431.86723.33674.94330.95911.98886.9310.95911.98886.93140.7529.39596.32650.1732.16198.48760.0580.72199.20770.0510.63899.84680.0120.154100.00
由表3可知,相關(guān)系數(shù)的前3個特征根分別為4.129、1.867、0.959,前3個公共因子的累積貢獻率為86.931%。根據(jù)累積貢獻率大于85%的原則,故前3個主成分它能代表棉花品質(zhì)的86.931%的信息,可以認為原來的8個指標能夠綜合成3個主因子,作為評價我國各地區(qū)棉花品質(zhì)的主成分。
由表4可知,成分1(設(shè)為y1)主要由原始變量X1、X3、X4、X5、X6、X7表征,它反映了最多的原始變量的信息,可解釋為棉花的基本特性指標;成分2(設(shè)為y2)主要由原始變量X2、X3、X4、X8表征,可解釋為棉花的長度指標;成分3(設(shè)為y3)主要由原始變量X8表征,為棉花長度整齊度指標。
表4因子載荷矩陣
指標成分123Zscore(顏色級)0.9450.125-0.132Zscore(軋工質(zhì)量)-0.4920.512-0.240Zscore(長度)0.6910.6350.266Zscore(長度28mm以上占比)0.7590.5760.254Zscore(馬克隆值)0.828-0.0580.197Zscore(斷裂比強度)-0.7550.4790.386Zscore(斷裂比強度中等檔以上占比)-0.8270.3920.303Zscore(長度整齊度指數(shù))-0.0110.683-0.685
2.2基于主成分得分建立棉花品質(zhì)評價模型
由于主成分的因子負荷存在正負,各綜合指標難以準確地把握。獲取特征向量,建立y1、y2、y3這3個成分的回歸方程,主成分表達式為:
y1=0.465x1-0.242x2+0.34x3+0.374x4+0.407x5-0.372x6-0.407x7-0.005x8,
y2=0.091x1+0.375x2+0.465x3+0.422x4-0.042x5+0.351x6+0.287x7+0.5x8,
y3=0.128x1+0.523x2+0.648x3+0.588x4-0.059x5+0.489x6+0.4x7+0.697x8.
2.3計算主成分得分及綜合得分
分別計算3個成分分值;根據(jù)特征值的貢獻率大小為分配系數(shù),計算綜合得分,并排序,結(jié)果見表5。
表5中國棉花品質(zhì)成分分值、綜合得分
序號地區(qū)y1分值排序y2分值y3分值綜合得分總排序聚類1江蘇0.05682.6203.6541.078412浙江-1.819130.1930.269-0.8611133安徽-2.25914-1.255-1.750-1.6681434江西-3.13215-0.220-0.307-1.7041535湖北-1.73211-1.151-1.605-1.3541336湖南-1.79412-0.815-1.137-1.2521237天津-0.91310-0.428-0.597-0.6431038河北0.44361.5492.1600.849619山西-0.60790.8371.1660.0228110山東0.86551.1511.6060.9085111河南0.1507-0.622-0.868-0.1729312陜西3.36620.1690.2371.8051113甘肅1.5541.0221.4271.2093114新疆地方2.44830.0360.0511.2782115新疆兵團3.3881-3.088-4.3070.51272
從以上的主成分分析結(jié)果中的綜合得分可以看出,陜西的棉花品質(zhì)綜合評價最高,其次是新疆地方,江西的最差。
聚類分析是一種探索性的分類方法,它將一組數(shù)據(jù)按照本身的內(nèi)在規(guī)律較合理的分為幾類,它避免了憑主觀判斷造成的誤差,使數(shù)據(jù)分析結(jié)果更具客觀性。
3.1聚類分析
利用SPSS軟件對已選定的前三個主成分得分對棉花品質(zhì)進行聚類分析,聚類采用分層聚類過程,聚類方法采用類間“ward法”,距離測度采用歐氏距離法,得到系統(tǒng)聚類分析的譜系圖,見圖1。
圖1 中國棉花品質(zhì)聚類分析譜系
由圖1可見,當(dāng)閾值介于15~25之間時,可以將其分為兩大類,樣本1、8、9、10、12、13、14是一類,樣本2、3、4、5、6、7、11、15為一類,說明棉花品質(zhì)在地區(qū)上存在一定程度相似性;當(dāng)閾值介于10~15之間時,樣本層次聚類分析聚成三類,樣本1、8、9、10、12、13、14是一類,樣本15為一類,樣本2、3、4、5、6、7、11為一類,由于機采棉加工方式的特性,新疆兵團棉花中軋工質(zhì)量為差的比例明顯高于其他省份和全國平均水平。因此,將樣本分為三類更為合適,這為進一步開展棉花品質(zhì)研究提供了依據(jù)。
3.2聚類結(jié)果
根據(jù)主成分聚類結(jié)果,不同類別的細絨棉指標范圍如表6。
表6不同類別的細絨棉指標范圍
指標第一類(1,8,9,10,12,13,14)第二類(15)第三類(2,3,4,5,6,7,11)顏色級/%32.40~98.9995.232.55~39.48軋工質(zhì)量/%98.76~99.8597.3799.13~99.99長度/mm28.00~29.0028.1927.60~28.36長度28mm以上占比/%71.96~87.8763.2830.53~69.30馬克隆值/%32.78~96.6486.5119.62~79.88斷裂比強度/(cN/tex)27.26~29.8926.9028.83~29.89斷裂比強度中等檔以上占比/%73.94~99.0773.2798.03~99.89長度整齊度指數(shù)/%82.33~83.0482.0881.81~82.92
注:顏色級為標準級白棉3級以上占比;軋工質(zhì)量為P2及以上占比;馬克隆值為B級以上占比。
為了更好地比較各類地區(qū)及兵團的棉花質(zhì)量,使結(jié)論更加直觀、清晰,本文分別求出3類地區(qū)的主成分聚類平均得分。設(shè)第一類地區(qū)的主成分聚類平均得分為Z1,第二類地區(qū)的主成分聚類平均得分為Z2,第三類地區(qū)的主成分聚類平均得分為Z3,結(jié)果如下:
Z1=(1.078+0.849+0.022+0.908+1.805+1.209+1.278)/7=1.021,
Z2=0.512,
Z3=(-0.861-1.668-1.704-1.354-1.252-0.643-0.172)/7=-1.093.
從主成分聚類分析結(jié)果和綜合得分可以看出,陜西、新疆地方、甘肅、江蘇、山東、河北和山西排在第一類位,這些地區(qū)的主成分聚類得分皆大于0;新疆兵團排在第二類位;而河南、天津、浙江、湖南、湖北、安徽和江西排在第三類位,這些地區(qū)主成分聚類得分都小于0,分別排在9~15位。從第一主成分排名和綜合排名可以看出,在排序上產(chǎn)生了差別,這是因為在第一主成分沒有超過85%時,其排名可能不夠準確。
從聚類分析譜系圖看,全國細絨棉品質(zhì)大致可分為三類:第一類地區(qū)棉花品質(zhì)最好,第二類地區(qū)棉花品質(zhì)一般,第三類地區(qū)棉花品質(zhì)偏差。將主成分聚類分析的綜合得分和聚類分析分類結(jié)果相結(jié)合,可得出如下結(jié)論:
a) 各類地區(qū)間棉花品質(zhì)差距較大。第一類地區(qū)主成分聚類平均得分為1.021,遠遠高于第三類地區(qū)的得分,在構(gòu)成要素的8個指標中,這些地區(qū)平均指標中6項超過全國水平,可見整體品質(zhì)較好,故該地區(qū)應(yīng)繼續(xù)發(fā)揮優(yōu)勢,推動紡織產(chǎn)業(yè)高速發(fā)展。
b) 第二類地區(qū)的棉花品質(zhì)接近第三類地區(qū),但是新疆兵團棉花品質(zhì)具備在顏色級、馬克隆值指標的優(yōu)勢,其他指標低于全國水平,這與新疆兵團棉花大部分采用機采棉加工有直接的關(guān)系,而且,機采棉在減少“三絲”問題上有獨特的優(yōu)勢,因此,棉花生產(chǎn)加工時需單獨考慮。這也說明單一主成分綜合得分排名并不能完全反映棉花品質(zhì)。
c) 與第一類地區(qū)相比較,第三類地區(qū)的主成分聚類平均得分僅為-1.093,在構(gòu)成要素的8個指標中,這些地區(qū)平均指標中僅4項超過全國水平,這說明這類地區(qū)棉花品質(zhì)整體偏差。因此,需要通過政策扶持,調(diào)整種植結(jié)構(gòu),加大對育種、采摘技術(shù)、加工工藝等方面的專項研究力度,以提高其棉花品質(zhì)。
主成分聚類分析法是對主成分分析與聚類分析方法的綜合利用,利用該方法對全國各地區(qū)棉花品質(zhì)進行綜合評價,其分析結(jié)果客觀。本文通過主成分分析將棉花品質(zhì)的8個評價指標歸結(jié)為三個主成分,代表了棉花品質(zhì)信息的86.931%,這樣,眾多評價指標之間的比較歸結(jié)成了三個主成分的比較。研究結(jié)果認為,不同地區(qū)的棉花品質(zhì)通過主成分聚類分析,可將不同地區(qū)的棉花聚類。因此,研究結(jié)果可為棉花加工企業(yè)收購加工棉花、紡織企業(yè)提供有價值的信息,為涉棉的政府職能部門、行業(yè)組織和相關(guān)企業(yè)研究棉花政策、扶持棉花產(chǎn)業(yè)及指導(dǎo)紡織企業(yè)合理配棉提供合理、科學(xué)的依據(jù)。
參考文獻:
[1] 李國鋒,王莉,阿達來提·阿布力克木.現(xiàn)代棉紡企業(yè)配棉技術(shù)的探討[J].國際紡織導(dǎo)報,2014,42(4):10-12.
[2] 周延.昌吉地區(qū)2011年度棉花質(zhì)量狀況的分析及改進建議[J].農(nóng)產(chǎn)品加工:創(chuàng)新版,2012(5):70-73.
[3] 張莉,李惠軍,李國鋒.基于SPSS的長絨棉聚類分析[J].輕紡工業(yè)與技術(shù),2012,41(5):36-37.
[4] 陳基純,陳忠暖.我國大中城市房地產(chǎn)投資環(huán)境評估與分類研究[J].科技管理研究,2012,32(3):210-214.
[5] 呂巖威,孫慧,周好杰.基于主成分聚類分析的西部地區(qū)經(jīng)濟實力評價[J].科技管理研究,2009,29(12):157-160.[6] 中國纖維檢驗局.中國棉花質(zhì)量分析報告:2013/2014年度[EB/OL].[2015-03-23].http://www.cncotton.com/gnmh/scdt/xh/rd/201409/t20140928_264645.html.
(責(zé)任編輯:康鋒)
收稿日期:2015-03-23
基金項目:阿克蘇地區(qū)科技興阿項目(阿地財教[2014]71號);阿克蘇地區(qū)人才項目(阿地黨組傳(2015)106號)
作者簡介:李國鋒(1983-),男,河南偃師人,講師,主要從事紡織設(shè)備、工藝及計算機應(yīng)用方面的研究。
中圖分類號:TS102.2
文獻標志碼:A
文章編號:1009-265X(2016)01-0005-04
Study on Evaluation of Cotton Quality Based on Principal Component Analysis and Cluster Analysis
LIGuofeng1,WANGLi2,XIAOYuanshu3
(1.Department of Mechanical and Electronic Engineering, Aksu Vocational And Technical College, Aksu,843000, China; 2. Department of Textile,, Aksu Senior Vocational School, Aksu, 843000, China;3.College of Textiles and Clothing, Xinjiang University, Urumqi 830046, China.)
Abstract:The paper uses eight indexes of quality analysis report of Chinese cotton released by China Fiber Inspection Bureau as original indexes. SPSS principal component analysis and cluster analysis are applied to analyze the quality of fine staple cotton in different areas and screen 3 principal components whose accumulative contribution rate of characteristic root is 86.931%. Hierarchical cluster analysis is conducted for selected principal components. Three types of areas are classified according to the similarity of cotton quality. The results show cotton quality in each area has a large gap. The second type of area has such advantages as color level and micronaire value index. Cotton quality in the third type of area is poor. The results has the importamt reference for cotton purchase and production of textile enterprises.
Key words:cotton quality; principal component analysis; cluster analysis