王志剛,吳智威,江勇
(湖南師范大學(xué)信息科學(xué)與工程學(xué)院,長(zhǎng)沙410081)
部隊(duì)被裝管理是后勤的一項(xiàng)重要工作。被裝的適體率和準(zhǔn)確率關(guān)系到部隊(duì)軍人的生活質(zhì)量、軍人形象和戰(zhàn)斗力。傳統(tǒng)被裝管理時(shí)常發(fā)生少、漏或錯(cuò)發(fā)等現(xiàn)象,被裝不適體等問(wèn)題更是普遍。隨著信息技術(shù)的快速發(fā)展,部隊(duì)的指揮和管理體系也快速地朝著數(shù)字化和信息化領(lǐng)域轉(zhuǎn)型,并且取得了巨大的成就[1]。其中,后勤被裝管理系統(tǒng)已由手工卡片記錄的傳統(tǒng)方式轉(zhuǎn)變?yōu)橛?jì)算機(jī)信息系統(tǒng),很好地解決了數(shù)據(jù)存儲(chǔ)和傳輸方面的問(wèn)題。但是在信息采集和更新方面仍然以人工管理為主。隨著部隊(duì)現(xiàn)代化建設(shè)的不斷深化,被裝種類(lèi)也在不斷增加,對(duì)管理也提出了更高的要求,對(duì)提升被裝管理現(xiàn)代化水平具有重要意義[2]。
隨著按尺寸制作(Made To Measurement,MTM)概念的出現(xiàn),被服的號(hào)型設(shè)計(jì)、生產(chǎn)也可以走量身定制、數(shù)據(jù)自動(dòng)采集和三維試衣系統(tǒng)方向發(fā)展,全面實(shí)現(xiàn)信息流、資金流和物流的網(wǎng)絡(luò)化與生產(chǎn)精益化,達(dá)成多方同步作業(yè)、產(chǎn)品展示與量身定制的全流程自動(dòng)化管理。為部隊(duì)制定符合軍人體型特點(diǎn)的號(hào)型表,定量投產(chǎn),避免號(hào)型斷檔和倉(cāng)庫(kù)積壓等現(xiàn)象。
早在上個(gè)世紀(jì)的50年代美軍后勤系統(tǒng)就嘗試計(jì)算機(jī)管理,并于1970年代建成涵蓋物資儲(chǔ)備和補(bǔ)給管理的后勤保障信息化系統(tǒng)。同一時(shí)期,美空軍基于第三代信息技術(shù)建立的后勤計(jì)算中心投入運(yùn)作,并實(shí)現(xiàn)了與各個(gè)職能部門(mén)對(duì)接,形成了從國(guó)防部到師一級(jí)的統(tǒng)一后勤管理系統(tǒng)。在1990年代,美軍又建成了后勤專(zhuān)用網(wǎng)絡(luò),后來(lái)發(fā)展成為全球最大的后勤信息系統(tǒng)[3]。海灣戰(zhàn)爭(zhēng)之后,美軍后勤在原有管理系統(tǒng)基礎(chǔ)上,以可視化為目標(biāo)對(duì)原有系統(tǒng)升級(jí),全軍信息互聯(lián)互通,后勤物資可視程度達(dá)到90%以上[4]。
在伊拉克戰(zhàn)爭(zhēng)中,美軍依托全球資產(chǎn)可視系統(tǒng)之上的后勤指揮自動(dòng)化系統(tǒng),實(shí)現(xiàn)人員、物資和裝備狀態(tài)的實(shí)時(shí)跟蹤,集合了全軍物資系統(tǒng)、運(yùn)輸管理系統(tǒng)、智能識(shí)別技術(shù)和決策輔助系統(tǒng),基本做到后勤保障全程可視化,極大地提高了后勤效益[5]。從2012年開(kāi)始美軍將商用移動(dòng)通信設(shè)備應(yīng)用到了國(guó)防領(lǐng)域[6]。為了利用大量已有數(shù)據(jù),美國(guó)防部設(shè)立了“數(shù)據(jù)到?jīng)Q策”項(xiàng)目,將海量數(shù)據(jù)轉(zhuǎn)換為可用于決策的知識(shí),達(dá)到輔助決策目的[7]。
文獻(xiàn)[8]提出的系統(tǒng)采用C/S結(jié)構(gòu),該設(shè)計(jì)雖然在系統(tǒng)安全性上有優(yōu)勢(shì),但是在維護(hù)更新上存在較大難度。文獻(xiàn)[9]提出了B/S結(jié)構(gòu)的公安被裝管理系統(tǒng),提高了被裝管理的效率,但是這個(gè)系統(tǒng)是針對(duì)公安部門(mén)設(shè)計(jì)的,在業(yè)務(wù)流程和管理方式方面與部隊(duì)特殊的需求有所差異。文獻(xiàn)[10]提出了一個(gè)類(lèi)似于“網(wǎng)購(gòu)”的部隊(duì)被裝自主申領(lǐng)系統(tǒng),軍人使用系統(tǒng)內(nèi)定期劃撥的虛擬貨幣購(gòu)買(mǎi)被裝,這種管理形式具有一定的靈活性,但是用虛擬貨幣自主“網(wǎng)購(gòu)”申領(lǐng)物資對(duì)部隊(duì)內(nèi)務(wù)管理所產(chǎn)生的影響還有待考究。
實(shí)踐方面,在部隊(duì)被裝管理業(yè)務(wù)上,我國(guó)部隊(duì)當(dāng)下使用的被裝管理系統(tǒng)是面向后勤部門(mén)管理人員使用的一個(gè)單機(jī)系統(tǒng),對(duì)量體數(shù)據(jù)還停留在手工采集的階段,這種方式使得管理員收集和錄入數(shù)據(jù)工作量大且出錯(cuò)率高,更改、更新數(shù)據(jù)比較不便,被裝適體率難以滿足要求且容易出現(xiàn)被裝管理工作的混亂。對(duì)普通軍人而言,廣大軍人無(wú)法獲取個(gè)人被裝的狀態(tài)信息,發(fā)放透明度不高,難以做出合理規(guī)劃;無(wú)法及時(shí)更新量體數(shù)據(jù),被裝適體率隨著體型變化而下降。對(duì)量體數(shù)據(jù)而言,目前已知的部隊(duì)被裝管理相關(guān)應(yīng)用中還沒(méi)有對(duì)量體數(shù)據(jù)實(shí)施數(shù)據(jù)挖掘用以制定被裝號(hào)型、預(yù)測(cè)號(hào)型分布的案例。
通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)優(yōu)化被裝號(hào)型和預(yù)測(cè)號(hào)型配比兩大功能,輔助制定被裝投產(chǎn)計(jì)劃,在提高被裝號(hào)型的適體率的同時(shí)控制成本。其中優(yōu)化被裝號(hào)型是采用聚類(lèi)分析方法,預(yù)測(cè)號(hào)型配比采用數(shù)據(jù)挖掘的時(shí)間序列分析方法。決策的過(guò)程如圖1所示。
圖1 決策輔助流程
數(shù)據(jù)倉(cāng)庫(kù)采用“三層結(jié)構(gòu)”,分別為數(shù)據(jù)獲取、存儲(chǔ)和分析邏輯層。模型如圖2所示。
圖2 數(shù)據(jù)倉(cāng)庫(kù)模型圖
因?yàn)槟承┪粗脑蚩赡軐?dǎo)致數(shù)據(jù)產(chǎn)生噪聲、空缺或者不一致,為了獲得高質(zhì)量的數(shù)據(jù)挖掘結(jié)果,需要首先進(jìn)行數(shù)據(jù)預(yù)處理。
(1)數(shù)據(jù)清理。對(duì)于空缺值,用相同屬性的數(shù)據(jù)求平均值替代。對(duì)于隨機(jī)錯(cuò)誤數(shù)據(jù),采用“分箱”方法對(duì)其進(jìn)行平滑;對(duì)于異常數(shù)據(jù),用其附近數(shù)據(jù)的平均值替換,并進(jìn)行局部平滑。
(2)集成和變換。數(shù)據(jù)挖掘所需要的初始數(shù)據(jù)有限時(shí),可以從其他數(shù)據(jù)源導(dǎo)入,包括老式被裝管理系統(tǒng)保留的數(shù)據(jù)、連隊(duì)的統(tǒng)計(jì)數(shù)據(jù)、新兵入伍的登記數(shù)據(jù)等。針對(duì)這些來(lái)源不同的數(shù)據(jù),先進(jìn)行數(shù)據(jù)集成和統(tǒng)一格式,然后進(jìn)行匹配、檢測(cè)和剔除重復(fù)數(shù)據(jù)。
(3)離散化分區(qū)。利用離散化技術(shù),把連續(xù)的各類(lèi)量體數(shù)據(jù)分割成若干個(gè)區(qū)間,區(qū)間大小取決于擬生成號(hào)型的個(gè)數(shù)。
(4)規(guī)約。排除與數(shù)據(jù)挖掘不相關(guān)的屬性,如年齡、職務(wù)等基本信息。對(duì)數(shù)據(jù)進(jìn)行編碼,并進(jìn)行壓縮,以利于提高數(shù)據(jù)挖掘的效率。
量體數(shù)據(jù)是不均等密度連續(xù)分布地、合理地被裝號(hào)型表應(yīng)滿足兩個(gè)要求:①適體性需求,亦即最大限度地使更多軍人能匹配到合適的被裝號(hào)型;②兼顧效益,在滿足①的基礎(chǔ)之上,號(hào)型數(shù)量應(yīng)盡可能少[3-4]。
綜合各類(lèi)算法的優(yōu)劣,K-means算法較適合用于被裝號(hào)型的聚類(lèi),具體方法是給定一個(gè)輸入量k,把n個(gè)數(shù)據(jù)對(duì)象分成k個(gè)聚類(lèi),使得同一個(gè)聚類(lèi)內(nèi)的相似度盡可能高,不同聚類(lèi)之間的相似度盡可能低,相似度是依據(jù)各聚類(lèi)的均值“中心點(diǎn)”來(lái)計(jì)算的。K-means方法首先是隨機(jī)選取k個(gè)數(shù)據(jù)對(duì)象,以這k個(gè)對(duì)象為起始的質(zhì)心,然后計(jì)算其他對(duì)象到質(zhì)心的距離,找出距離最小的數(shù)據(jù)對(duì)象并賦值,作為新的質(zhì)心,然后再重新計(jì)算每個(gè)質(zhì)心的平均值,反復(fù)進(jìn)行這個(gè)過(guò)程,直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂為止[3-5]。
K-means算法比層次聚類(lèi)的計(jì)算速度更快,處理海量數(shù)據(jù)的效率較高且可伸縮,得到的聚類(lèi)更加緊密。但也存在不足:一是對(duì)k的初值比較敏感,不同的初始值會(huì)產(chǎn)生不同的結(jié)果;二是采用隨機(jī)選取k個(gè)點(diǎn)計(jì)算均值,沒(méi)有明確獲取初始化均值的方法;三是不易發(fā)現(xiàn)差別較大的聚類(lèi);四是對(duì)于孤立點(diǎn)和“噪聲”比較敏感,從而影響聚類(lèi)結(jié)果。
針對(duì)K-means對(duì)噪聲敏感的問(wèn)題,選用聚類(lèi)中最居中位置的點(diǎn)取代聚類(lèi)的平均值作為初始質(zhì)心。思路是首先隨機(jī)地選擇每個(gè)聚類(lèi)的參照對(duì)象,其它對(duì)象根據(jù)與參照對(duì)象的距離劃分給最近的聚類(lèi),然后重新選擇質(zhì)心。不斷重復(fù)這個(gè)過(guò)程,以獲取更高質(zhì)量的聚類(lèi)。
改進(jìn)后的算法:
(1)INPUT:包含n個(gè)元素的數(shù)據(jù)集,聚類(lèi)個(gè)數(shù)k;
(2)OUTPUT:k個(gè)聚類(lèi)質(zhì)心;
(3)任意選擇k個(gè)元素作為初始的質(zhì)心;
(4)將剩余對(duì)象賦值給最近的聚類(lèi);
(5)遍歷聚類(lèi)元素,用準(zhǔn)則函數(shù)值最小的元素更新質(zhì)心;
(6)重復(fù)(4)、(5)步驟,直到算法收斂。
實(shí)驗(yàn)從某部現(xiàn)役軍人被裝數(shù)據(jù)庫(kù)選取1000人的量體數(shù)據(jù)進(jìn)行聚類(lèi)。
合理的被裝號(hào)型表是保障適體率的重要基礎(chǔ)。本文用CH(Calinski-Harabasz)指標(biāo)確定號(hào)型數(shù),用改進(jìn)的K-means算法選擇聚類(lèi)中心,找出合理的中間號(hào)型。
(1)選擇特征值
選擇身高、胸圍、肩寬、腰圍、臂長(zhǎng)等指標(biāo)作為聚類(lèi)的特征值。
(2)確定聚類(lèi)個(gè)數(shù)
對(duì)于有n個(gè)樣本的集合,可以劃分聚類(lèi)個(gè)數(shù)k的范圍是 2≤k≤。首先參考CH指標(biāo)估計(jì)聚類(lèi)個(gè)數(shù)如下:
其中:
P是Ci集合內(nèi)的元素,xi是Ci集合的聚類(lèi)中心,xˉ是元素均值。聚類(lèi)個(gè)數(shù)要同時(shí)兼顧節(jié)約成本和聚類(lèi)質(zhì)量,在合理的范圍內(nèi),當(dāng)CH數(shù)值越大,聚類(lèi)的效果越好,被裝適體性越高。當(dāng)CH隨聚類(lèi)個(gè)數(shù)k單調(diào)遞增,意味著聚類(lèi)個(gè)數(shù)越多,聚類(lèi)效果越好。本實(shí)驗(yàn)設(shè)定聚類(lèi)個(gè)數(shù)k=25。
(3)實(shí)驗(yàn)與分析
①用改進(jìn)的K-means對(duì)樣本集合實(shí)施聚類(lèi),結(jié)果如表1所示。
表1 聚類(lèi)結(jié)果
②求相對(duì)平均偏差
分別計(jì)算1000個(gè)樣本與傳統(tǒng)和聚類(lèi)號(hào)型表的對(duì)應(yīng)號(hào)型規(guī)格數(shù)據(jù)集>2%的相對(duì)平均偏差,結(jié)果如表2所示,對(duì)于選定的5個(gè)參數(shù),聚類(lèi)號(hào)型的相對(duì)平均偏差更小,因此根據(jù)聚類(lèi)號(hào)型表生產(chǎn)的被裝也將更加適體。
表2 相對(duì)平均偏差對(duì)比
(4)決策價(jià)值
可以直接把聚類(lèi)號(hào)型作為被裝的版型進(jìn)行投產(chǎn),對(duì)于聚類(lèi)號(hào)型表覆蓋不到的特殊號(hào)型可以從傳統(tǒng)號(hào)型表中選取補(bǔ)充,以保障被裝號(hào)型有更高的覆蓋率。
軍人被裝的量體定制是提高被裝適體性的現(xiàn)實(shí)需要,也能有效地減少浪費(fèi)、降低成本和提升后勤管理水平。本文運(yùn)用K-means聚類(lèi)算法分析某部軍人的量體數(shù)據(jù),把關(guān)鍵特征參數(shù)相近的歸為一個(gè)號(hào)型,得出符合該部軍人體型特征的號(hào)型表。該方法對(duì)于非特殊部隊(duì)被服的定型與投產(chǎn)具有普遍的參考價(jià)值,在很大程度上可以提高軍人的被裝適體率,能有效避免號(hào)型斷碼和冗余等管理問(wèn)題。