許挺 姚力
摘要:目前,企業(yè)信息設備的全壽命生命周期過程涉及數據量大、數據種類多,通過利用大數據技術以及機器學習算法構建科學合理的過程評價機制,提高企業(yè)管理信息設備的運行水平。
關鍵詞:信息設備;大數據;機器學習;評價指標
引言
在當前大數據技術蓬勃發(fā)展的背景下,如何對數據進行整合、交換,以及在分析過程中定位敏感信息、準確有效地保護敏感信息,在信息安全的前提下挖掘數據價值成為當下數據管理者亟待解決的關鍵問題。
1、產品平臺生命周期概念
目前,對于產品平臺學術界還沒有一個統一、權威的定義,但其核心是相同的,即能夠被通用或共享的所有資源都可以視為產品平臺。從動態(tài)發(fā)展的角度,在原有產品族中新增產品,構建新的產品族架構,然而產品平臺的升級更新要比產品族更迭更深入,可以使企業(yè)創(chuàng)造新的細分市場,擴大企業(yè)的市場空間。
技術系統的生命周期理論主要強調技術系統的演化過程,該理論是以需求生命周期、技術生命周期、競爭生命周期為基礎的。產品平臺作為一個復雜的技術系統,在演化進程中產品平臺可以通過創(chuàng)新獲得新生并向更高層次進化。其研究意義在于:產品平臺不斷地創(chuàng)新和升級為企業(yè)提供了持續(xù)生存的基礎;揭示了產品平臺演化過程所具有的類似生命曲線的規(guī)律;提供了一種對產品平臺規(guī)劃、評價與決策模式的依據。本文將產品平臺生命周期(ProductPlat-formLifeCycle,PPLC)定義為在企業(yè)內、外部各種因素的影響下,企業(yè)核心產品技術發(fā)展所經歷規(guī)劃、開發(fā)、成熟和衰退四個階段的過程,這一核心產品技術可以包括用于產品共享和配置的產品零部件結構平臺及其相關的工藝平臺等。在這一過程中,由產品平臺派生出來的一個或多個產品族及其復雜的結構體系都是隨著時間動態(tài)地發(fā)展。在動態(tài)發(fā)展的同時,產品平臺根據市場的需要進行擴展和升級,從而由在新的產品平臺上發(fā)展出新的產品族來滿足市場需求。
2、問題及解決方式
根據引言中提到的問題,確定主要研究解決的方向有三。建立多維度指標評價模型,清楚企業(yè)信息設備現有運行維護管理方式,提煉對不同類別下信息設備運行狀況、經濟狀況以及偏好使用狀況的多維分析指標,對每臺在運設備構建量化的等級評價模型。
信息設備采購預測分析,在多維度評價模型基礎上,結合企業(yè)信息設備管理規(guī)定,對信息設備需要退役的情況進行預判,從而形成信息設備采購的預測。
推送信息設備采購建議,基于信息設備采購預測分析的基礎,對歷史信息設備退役情況和推薦退役情況進行多維度對比,重點分析經濟指標,關注歷史退役情況是否合理。對未來需要退役的信息設備推薦采購建議。
3、實現關鍵
(1)提煉指標,源業(yè)務數據存在質量問題,不同類型設備提煉特性指標難度和工作量極大,故對數據進行清洗,并提煉設備共性指標,主要根據設備運行時長、正常運行時長、故障時長、故障次數綜合判定設備運行質量。
其中,提取和清洗數據的過程尤為重要,直接關系到后續(xù)應用的使用可信度。在提取數據階段中,應按照需求總線矩陣中構建的星型模型,快速建立維度表和業(yè)務行為表,以信息設備被提煉出來的業(yè)務行為為主線,關聯維度表,形成設備業(yè)務行為明細表,方便后續(xù)不同角度分析數據,形成最終分析應用成果。在清洗源端數據過程中,發(fā)現源業(yè)務系統字段存在很多空值、異常、不符合業(yè)務規(guī)則的情況,基于此,我們參考統計學規(guī)則,對于遴選有效信息空值列大于80%的行進行剔除,其余空值情況,對列值分布情況進行分析,在不改變其分布的情況下,填充符合統計學意義的數值。對于異常值的情況,判定是否為無效數據類型,若為無效數據的情況,將其賦予一個無意義的標識值,對于其是有效的狀況,繼續(xù)分類標識,確定其具體的業(yè)務含義。對于不符合業(yè)務的情況,建立數據關聯匹配規(guī)則,根據具體業(yè)務邏輯做動態(tài)可修改的窗口,標記數據點位,做相關業(yè)務確認動態(tài)回填數據,保證數據的有效性。以上提取以及清洗工作完成后,對處理完成的數據是否對應用分析有效進行量化評價,根據評價值迭代數據提取和處理過程,動態(tài)調節(jié)使得最終量化評價分數達到一個閾值后,輸出應用分析的結果。
(2)用L-M算法改進的BP人工神經網絡BP(BackPropagation,反向傳播)人工神經網絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一。BP人工神經網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小。BP神經網絡模型拓撲結構包括輸入層、隱藏層和輸出層。BP人工神經網絡具體工作原理就是通過始末非線性變換,獲得輸出值,每個神經元的狀況會影響下一層對應的神經元,使誤差最快速度下降,通過不斷反復學習訓練,致使誤差達到合適的范圍內,訓練就可以停止,若是期望值誤差值與得到的值相差較大,就將誤差轉移到逆向傳播過程,方向為輸出層——隱含層——輸入層3層,通過這兩個過程往返交替實行,同時修正各層神經元的閾值和權值,收縮誤差,直至輸出值逼近期望值,網絡訓練至此結束,從而完成信息索取和記憶過程。在實際應用中,傳統BP人工神經網絡算法很難勝任,因此出現了很多改進算法。比如:利用動量法改進BP算法、自適應調整學習速率算法、動量-自適應學習速率調整算法、L-M(Levenberg-Marquardt)算法等。本文采用L-M算法,L-M算法比前述幾種算法要快得多,不過對于復雜問題,這種方法需要相當大的存儲空間。但是,隨著以大數據、云計算、人工智能等為代表的新一代信息技術的飛速發(fā)展,計算機高速度運算、海量存儲技術飛速發(fā)展,為L-M算法改進的BP人工神經網絡方法的實用化提供了保證。
4、模型數據處理
4.1質量標準指標數量化
對于通用的產品質量標準數據指標有產品適用壽命、產品功能完善程度、產品外觀新穎程度等指標,對洗衣機產品來說,除了這些通用的質量標準指標外,還有用途分類、容量、洗凈比、洗衣方式、對織物的磨損率、耗水量、耗電量、洗滌噪音值、脫水噪音值、材質等質量標準。
因為產品質量標準數據的有些指標,比如:產品功能完善程度、產品外觀新穎程度等屬性難以用準確的數字來表述,所以得先采用一個恰當的詞匯集合來進行表述。本研究采用的詞匯集合為{高,較高,一般,較低,非常低}五級。接下來需要對詞匯集合做數量化轉換。通常采用模糊數學中的模糊集理論來轉換。
4.2質量標準指標數據標準化
每個質量標準屬性指標實際代表的涵義往往不一樣,其數量級以及量綱往往也不一樣。所以,需要用標準化函數做標準化轉換。
結語
此分析應用采用大數據技術手段對數據進行提取、清洗、分析并利用機器學習算法對指標因子進行動態(tài)調整,對企業(yè)信息設備維護和購買行為進行預判,同時為企業(yè)提供信息設備采購依據,實現降低企業(yè)成本、提質增效的目的。使用維度模型建立數據模型的方式也可為除信息設備之外的其他設備建模進行橫向擴展,適配度強,對不同行業(yè)設備全壽命周期過程的管控有借鑒和推廣意義。
參考文獻
[1]樊峰峰.大規(guī)模數據清洗關鍵技術研究[D].西北工業(yè)大學博士學位論文,2018.
[2]王兆君,岳良文.產品質量標準數據清洗模型及應用研究[J].標準科學,2020(4):88-95.
[3]林森,但斌.面向大規(guī)模定制的產品平臺管理模型[J].管理工程學報,2005,19(1):51-55.