朱柏青,趙 紅,何 非
(1.南京工程學(xué)院 經(jīng)濟(jì)管理學(xué)院,江蘇 南京 211167 )(2.南京理工大學(xué) 機(jī)械工程學(xué)院,江蘇 南京 210094)
基于粗糙集的首臺套重大裝備信息系統(tǒng)數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究
朱柏青1,趙 紅2,何 非2
(1.南京工程學(xué)院 經(jīng)濟(jì)管理學(xué)院,江蘇 南京 211167 )(2.南京理工大學(xué) 機(jī)械工程學(xué)院,江蘇 南京 210094)
網(wǎng)絡(luò)化項(xiàng)目信息管理過程中產(chǎn)生大量異構(gòu)數(shù)據(jù),采用傳統(tǒng)方式對此類數(shù)據(jù)集進(jìn)行分析和處理往往存在特征提取不充分、數(shù)據(jù)疏漏等問題。面向首臺套重大裝備信息系統(tǒng)項(xiàng)目管理數(shù)據(jù)關(guān)鍵技術(shù)研究,構(gòu)建了結(jié)構(gòu)化數(shù)據(jù)收集和規(guī)則的提取方法,并應(yīng)用粗糙集理論和算法進(jìn)行數(shù)據(jù)挖掘分析,提出了若干決策規(guī)則,可為項(xiàng)目評價和管理輔助決策提供依據(jù)。
粗糙集;數(shù)據(jù)挖掘;重大裝備;信息系統(tǒng)
隨著企業(yè)網(wǎng)絡(luò)信息、裝備技術(shù)的不斷發(fā)展,現(xiàn)代制造業(yè)特別是高端裝備制造管理積累了大量的歷史數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著對生產(chǎn)制造和裝備管理具有很高價值的知識和信息,同時隱藏著為首臺(套)重大裝備的認(rèn)定管理提供決策依據(jù)的信息。
各種網(wǎng)絡(luò)技術(shù)的應(yīng)用使得信息共享成為當(dāng)前提高工作效率的有效途徑,無紙化辦公及各種數(shù)據(jù)、文檔的電子化,在方便辦公的同時也產(chǎn)生了極其龐大的電子數(shù)據(jù),隨著時間的推移,數(shù)據(jù)也不斷產(chǎn)生混亂與冗余[1],想要從中及時找出所需要的各種信息成為一件大費(fèi)周折的事。而政府部門作為信息的主要掌控者,面臨著如何科學(xué)有效地處理這樣龐大數(shù)據(jù)的問題。就目前江蘇省內(nèi)首臺(套)重大裝備申報管理項(xiàng)目的數(shù)據(jù)而言,由于其管理信息的廣泛性、復(fù)雜性使得數(shù)據(jù)具有如下特點(diǎn):
a.多維性。由于重大裝備管理信息是源自江蘇省范圍內(nèi)不同區(qū)域的裝備制造企業(yè)的不同年份的數(shù)據(jù)資源,因此這些數(shù)據(jù)具有時間和空間屬性。
b.數(shù)據(jù)類型的多樣性[2]。隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,首臺套重大裝備申報管理數(shù)據(jù)也產(chǎn)生了大量不同的數(shù)據(jù)類型,并進(jìn)行數(shù)字化存儲?,F(xiàn)有的數(shù)據(jù)中包含由數(shù)字值或字母值的字段組成的表格、單據(jù)等結(jié)構(gòu)化數(shù)據(jù);由申請報告、Web文檔構(gòu)成的半結(jié)構(gòu)化數(shù)據(jù);由多媒體記錄的可視化文件,如錄像等形成的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)有2種出口,一種是從數(shù)據(jù)走向數(shù)據(jù)垃圾;另一種是從數(shù)據(jù)走向信息并最終形成知識。
c.多源性。現(xiàn)有的數(shù)據(jù)資源來源不同,有來自之前的歷史材料,有手工錄入的數(shù)據(jù),還有來自各地方經(jīng)信部門匯總的EXCEL表等,數(shù)據(jù)獲取方式不同,統(tǒng)計方式不同,描述形式不同使得數(shù)據(jù)之間存在著很多差異。
這些問題的存在,使得在現(xiàn)有數(shù)據(jù)狀況條件下想要及時獲取所需信息的難度越來越大。針對以上問題,利用數(shù)據(jù)挖掘工具,對各種數(shù)據(jù)進(jìn)行分析處理,提取用戶所需的關(guān)鍵信息。首先搜集數(shù)據(jù),對數(shù)據(jù)進(jìn)行整合分析處理,然后通過建模挖掘,挖掘出相關(guān)的信息,為用戶評價項(xiàng)目的決策制定提供輔助支持。使得系統(tǒng)具有良好的決策支持能力,又有良好的交互能力[3],從而使得重大裝備的推廣應(yīng)用與相關(guān)決策的制定更為高效。
數(shù)據(jù)挖掘是一個多階段遞進(jìn)的、循環(huán)往復(fù)的、多次進(jìn)行人機(jī)交互的過程[4]。挖掘過程示意圖如圖1所示。首先在源數(shù)據(jù)的基礎(chǔ)上通過數(shù)據(jù)采集獲得數(shù)據(jù)集,在一個或多個數(shù)據(jù)集上進(jìn)行數(shù)據(jù)選擇實(shí)施聚焦,接下來使用特定的算法去除其他不相關(guān)數(shù)據(jù)。為達(dá)到減少變量的目的,對有聯(lián)系和有特征的數(shù)據(jù)進(jìn)行編碼變換,根據(jù)不同的特征選用相應(yīng)的數(shù)據(jù)挖掘算法挖掘出潛在的有用信息,通過對挖掘結(jié)果的表達(dá)和解釋轉(zhuǎn)化為人們所需的信息。
圖1 數(shù)據(jù)挖掘過程示意圖
1.1數(shù)據(jù)準(zhǔn)備
在數(shù)據(jù)挖掘的過程中,數(shù)據(jù)的準(zhǔn)備是至關(guān)重要的,如果沒有恰當(dāng)?shù)厮鸭皖A(yù)處理數(shù)據(jù),或者對問題的表述不夠清晰明確,則數(shù)據(jù)挖掘的結(jié)果可能是毫無意義的[5]。
a.數(shù)據(jù)搜集。
數(shù)據(jù)的搜集會影響到結(jié)果的最終解釋,因此數(shù)據(jù)的來源是很關(guān)鍵的。數(shù)據(jù)挖掘過程中的數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。通常情況下,數(shù)據(jù)的產(chǎn)生搜集有兩種方式,一種是數(shù)據(jù)產(chǎn)生過程在計劃控制范圍內(nèi)的,即“有計劃的實(shí)驗(yàn)”,也稱作主動搜集;二是數(shù)據(jù)的產(chǎn)生是隨機(jī)的,即“觀察法”,也稱作被動搜集[6]。本文的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)(所謂結(jié)構(gòu)化數(shù)據(jù)是指由定義明確的包含數(shù)字值或者字母數(shù)字值字段組成的數(shù)據(jù)),且源自于主動搜集。為從大量數(shù)據(jù)中選定出相關(guān)評價指標(biāo),并從中發(fā)現(xiàn)省內(nèi)裝備制造行業(yè)發(fā)展情況,需對該行業(yè)及企業(yè)情況進(jìn)行了解分析,從而確定出可能具有相關(guān)性的信息。表1是根據(jù)需要上報于系統(tǒng)中的表單的部分?jǐn)?shù)據(jù)項(xiàng)(結(jié)構(gòu)化數(shù)據(jù))。
表1 系統(tǒng)表單(部分)
b.數(shù)據(jù)預(yù)處理。
由于實(shí)際系統(tǒng)中的數(shù)據(jù)可能存在不完整、冗余、混亂等問題,在此條件下不能很好地滿足數(shù)據(jù)挖掘的要求,影響數(shù)據(jù)挖掘的執(zhí)行效率,因此在進(jìn)行數(shù)據(jù)挖掘之前對數(shù)據(jù)進(jìn)行預(yù)處理已成為基本要求。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)簡化[7]。
(1)數(shù)據(jù)集成。數(shù)據(jù)的產(chǎn)生方式不同,且數(shù)據(jù)由不同的載體存儲,有文本、MSExcel電子表格等,需要將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來。在本系統(tǒng)中,將所有的數(shù)據(jù)都集成到MySQL數(shù)據(jù)庫中,利用MySQL對數(shù)據(jù)進(jìn)行多角度、多粒度的整合。
(2)數(shù)據(jù)清理。集成后的數(shù)據(jù)有許多問題,如有空缺值、錯誤數(shù)據(jù)等。因此在進(jìn)行清理時,將有空缺值的數(shù)據(jù)分為有多屬性空缺和少部分空缺,對于有多屬性空缺的值,將其去除,少部分空缺值則采用統(tǒng)一規(guī)范標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行填補(bǔ)。對于明顯錯誤的數(shù)據(jù)給予剔除或進(jìn)行改正,如表1中的百分比(R&D占比)只需要填寫數(shù)據(jù)即可,有些用戶在書寫時會添加單位;又如利潤總額(萬元)23 500,某些用戶會寫成23 500萬美元,還有用戶會填寫-23500或235,00,諸如此類的問題需要按要求進(jìn)行統(tǒng)一化處理。
(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)表中可能會出現(xiàn)表示的內(nèi)容相同命名卻不同的字段,如所屬行業(yè)領(lǐng)域、所屬細(xì)分行業(yè)這2個名稱均為同一內(nèi)容,表述方式的不同可能導(dǎo)致數(shù)據(jù)冗余,對此需要了解挖掘的數(shù)據(jù)類型及相關(guān)含義,從而對數(shù)據(jù)進(jìn)行轉(zhuǎn)換減少冗余。
(4)數(shù)據(jù)簡化與離散化。識別數(shù)據(jù)庫中重復(fù)的數(shù)據(jù),利用MySQL數(shù)據(jù)庫中檢測重復(fù)數(shù)據(jù)技術(shù)將重復(fù)的數(shù)據(jù)予以剔除,同時數(shù)據(jù)庫中的數(shù)據(jù)多為連續(xù)型數(shù)據(jù),需要按一定的閾值進(jìn)行數(shù)據(jù)離散化(見表2信息表屬性說明)。
1.2數(shù)據(jù)挖掘
1.2.1粗糙集相關(guān)定義
定義1 令X?U,定義K=為一信息系統(tǒng),其中:U為論域,是對象的有限集合,U={x1,x2,…,xn};A為屬性的全體,A={a1,a2,…,an};V為屬性的值域,V={v1,v2,…,vn};f為信息函數(shù);屬性A=C∪D,C為條件屬性集,D為決策屬性集。
定義2 對X?U,U為論域,R為U上的等價關(guān)系,有序?qū)=(U,R)稱為一個近似空間,若P是R的子集,且P≠?,則∩P為P中全部等價關(guān)系的交集也是一個等價關(guān)系,并且稱為P上的一個不可區(qū)分關(guān)系,記為Ind(P)[8]。
定義3 定義信息決策表為T=,其中U={x1,x2,…,xn},C={c1,c2,…,cm},D=j5i0abt0b,則決策表可構(gòu)造如下對應(yīng)的可辨識矩陣ST:矩陣ST的每一列分別對應(yīng)一個屬性,共有y列,每一行與論域中的一個對象對(xp,xq)對應(yīng),且d{xp}≠d{xq},即xp,xq屬于不同的決策類。設(shè)矩陣中某一元素y((p,q)1)所在的行對應(yīng)對象對(xp,xq),所在列對應(yīng)條件屬性ci,則
定義4 定義T=為一個決策系統(tǒng),其中C的約簡集C′是一非空子集,如果:
Ind(C′,D)=Ind(C,D)
不存在C″?C′,使得Ind(C″,D)=Ind(C,D)。C的約簡記為RedT(C);所有約簡集的交集稱為核,記為CoreT(C)。CoreT(C)=∩RedT(C)。
1.2.2決策表的建立
本實(shí)例算法程序采用Java語言編程,使用Eclipse編程平臺,運(yùn)行環(huán)境為jre1.7.0,使用tomcat7.0作為運(yùn)行服務(wù)器,系統(tǒng)環(huán)境為Windows Server 2008。測試機(jī)硬件環(huán)境配置:硬盤1TB,內(nèi)存2GB。本實(shí)驗(yàn)數(shù)據(jù)來源于江蘇省首臺套重大裝備及關(guān)鍵部件跟蹤應(yīng)用推廣系統(tǒng)。
系統(tǒng)中決策表的建立是基于評價體系基礎(chǔ)上的,列出所有的條件項(xiàng),得到初步的判定表,進(jìn)而對判定表進(jìn)行化簡和屬性簡約,以提高計算效率。根據(jù)現(xiàn)有數(shù)據(jù)建立決策表S=。以2010年的數(shù)據(jù)為例,建立相關(guān)決策信息表并對屬性進(jìn)行說明,令論域U={x1,x2,…,x10},表示10個不同的對象;C={c1,c2,c3,…,c16},16個屬性分別表示與首臺套相關(guān)的專利數(shù)量、發(fā)明專利數(shù)、實(shí)用新型專利數(shù)、上年度銷售收入、出口總額、利潤率、負(fù)債率、技術(shù)開發(fā)費(fèi)/銷售收入、研發(fā)及產(chǎn)業(yè)化投入、申報裝備市場占有率、申報裝備銷售單價、平均年銷售量(臺/套)、累計實(shí)現(xiàn)銷售收入、預(yù)期3年經(jīng)濟(jì)效益、(同一年度)該設(shè)備銷售量/該地區(qū)該類產(chǎn)品總銷售量、專家意見,見表2,由此建立決策屬性表見表3。
表2 信息表屬性說明
表3 信息表
1.2.3屬性約簡
在經(jīng)過數(shù)據(jù)準(zhǔn)備過程,對數(shù)據(jù)進(jìn)行預(yù)處理后,本文在數(shù)據(jù)挖掘過程中運(yùn)用粗糙集理論對數(shù)據(jù)進(jìn)行屬性約簡,粗糙集中屬性約簡可分為屬性約簡和屬性值約簡,在屬性約簡時,人們總希望找到屬性的最小約簡,但這是個NP難題,粗糙集的屬性約簡提供了分辨矩陣,只需要找到較優(yōu)解即可[9]。利用數(shù)據(jù)挖掘理論對數(shù)據(jù)樣本進(jìn)行約簡,減少數(shù)據(jù)量,從而得到屬性約簡。屬性值簡約是針對每條決策規(guī)則,去掉表達(dá)規(guī)則的冗余值,進(jìn)而使決策算法最小化。算法如下:
Step1,搜集相關(guān)數(shù)據(jù)形成相應(yīng)的決策信息系統(tǒng)。
Step2,根據(jù)相關(guān)定義計算分辨矩陣。
Step3,由上步分辨矩陣得出相應(yīng)的核屬性,并將所有符合核屬性的元素歸為0。
Step4,對于所有為非0和1的元素,計算其出現(xiàn)的頻率,將其歸到CoreS(C)中,并將包含此屬性的元素歸為0。
Step5,CoreS(C)即為核心屬性。
根據(jù)上節(jié)分辨矩陣指標(biāo)約簡過程,經(jīng)相關(guān)計算可得到T的分辨矩陣,由分辨矩陣可得系統(tǒng)的核屬性。約簡后的信息表中CoreS={c2,c4,c5,c6,c7,c10,c11,c12,c16},即發(fā)明專利數(shù)、出口總額、利潤率、負(fù)債率、銷售收入、市場占有率、銷售單價、年均銷售量、專家意見,見表4。
1.2.4規(guī)則提取
根據(jù)約簡后的信息表,就可以進(jìn)行決策規(guī)則提取,由以上基于粗糙集的算法得到規(guī)則,可表達(dá)為:
規(guī)則1,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),企業(yè)銷售收入大于2億元,具有一定的技術(shù)研發(fā)投入,利潤率高于10%,且產(chǎn)品有出口,有3個以上首臺套相關(guān)發(fā)明專利,且同一年度該設(shè)備在本地區(qū)銷量比重大于10%,且專家意見為優(yōu)秀,即說明該產(chǎn)品技術(shù)創(chuàng)新程度較高,具有一定的市場競爭力。評價決策:接受。
表4 約簡后的信息表
規(guī)則2,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),企業(yè)銷售收入大于2億元,具有一定的技術(shù)研發(fā)投入,利潤率高于10%,無出口,有1個以上首臺套相關(guān)發(fā)明專利,且同一年度該設(shè)備在本地區(qū)銷量比重處于6%~10%,且專家意見為優(yōu)秀,即說明該產(chǎn)品在該領(lǐng)域具有一定的創(chuàng)新性,且占有一定的市場份額。評價決策:接受。
規(guī)則3,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),銷售收入在100萬元~500萬元之間,具有一定的技術(shù)研發(fā)投入,有2個以上首臺套相關(guān)發(fā)明專利,產(chǎn)品有出口,在國內(nèi)外市場占有一定份額,專家意見為良好。評價決策:待定。
規(guī)則4,企業(yè)負(fù)債率大于70%,無發(fā)明專利,利潤率均處于5%~10%,產(chǎn)品銷售單價高于100萬,說明企業(yè)經(jīng)營不善,且利潤率不高,產(chǎn)品技術(shù)創(chuàng)新一般。評價決策:拒絕。
規(guī)則5,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),利潤率低于10%,有發(fā)明專利,說明此產(chǎn)品只能屬于高新設(shè)備,并不能算是高端裝備。評價決策:待定。
規(guī)則6,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),利潤率高于10%,有發(fā)明專利,產(chǎn)品年均銷售量低于50臺/套,有產(chǎn)品出口,專家認(rèn)定意見為良好,說明產(chǎn)品具備高端裝備條件,但是產(chǎn)品市場容量不足。評價決策:接受。
規(guī)則7,企業(yè)經(jīng)營狀況正常的情況下(負(fù)債率低于70%),無發(fā)明專利,產(chǎn)品無出口,利潤率較低,專家評定意見為一般,說明產(chǎn)品不符合首臺套標(biāo)準(zhǔn)。評價決策:拒絕。
本文介紹了基于數(shù)據(jù)挖掘的信息系統(tǒng)關(guān)鍵技術(shù)及其數(shù)據(jù)挖掘算法,并以粗糙集理論為基礎(chǔ),以省內(nèi)裝備制造業(yè)相關(guān)信息為基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而得出相關(guān)決策規(guī)則,為相關(guān)評定推廣工作提供決策依據(jù)。
[1] 王曉海,吳志剛. 數(shù)據(jù)挖掘:概念、模型、方法和計算[M].北京:清華大學(xué)出版社,2013.
[2] 楊霞.基于粗糙集的數(shù)據(jù)挖掘的應(yīng)用研究[J] .樂山師范學(xué)院學(xué)報,2007(12):67-69.
[3] 張文超.基于數(shù)據(jù)挖掘的高校學(xué)科建設(shè)支持系統(tǒng)研究與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2013.
[4] 易俊宏.基于數(shù)據(jù)挖掘的湖南省政府債務(wù)風(fēng)險預(yù)警研究[D].長沙: 湖南大學(xué),2012.
[5] 李璠.銀行數(shù)據(jù)挖掘的運(yùn)用及效用研究[D].武漢:武漢大學(xué),2012.
[6] 馬躍峰,趙予. 一種基于粗糙集理論的數(shù)據(jù)挖掘算法的研究[J].洛陽大學(xué)學(xué)報,2006(2):56-60.
[7] 印勇. 粗糙集理論在其數(shù)據(jù)挖掘中的應(yīng)用[J].重慶大學(xué)學(xué)報,2004(2):44-46.
[8] 梁循.數(shù)據(jù)挖掘:建模、算法、應(yīng)用和系統(tǒng)[J].計算機(jī)技術(shù)與發(fā)展,2006(1):1-4.
[9] 張震,劉芬.基于數(shù)據(jù)挖掘的金融決策支持系統(tǒng)[J].技術(shù)應(yīng)用,2008(6):66-68.
Themajorequipmentinformationsystembasedonroughsetsandkeytechniquesofdatamining
ZHU Baiqing1, ZHAO Hong2, HE Fei2
(1.Nanjing Institute of Technology, Jiangsu Nanjing, 211167, China)(2.Nanjing University of Science & Technology, Jiangsu Nanjing, 210094, China)
Network project information management process produces a large number of heterogeneous data, the traditional way for such data analysis and processing exist such problems as inadequate feature extraction, data breach. Based on key techniques of information system project management data, it presents more data collection and feature extraction method, applies rough set theory and algorithms for data mining analysis, puts forward some decision rules. This provides the basis for project evaluation and auxiliary decision-making management.
rough set; data mining; major equipment; information system
10.3969/j.issn.2095-509X.2014.10.012
2014-09-13
2013年度江蘇省首臺套重大裝備課題研究計劃( ZB20130920)
朱柏青(1963—),女,湖北荊州人,南京工程學(xué)院副教授,主要研究方向?yàn)橹圃鞓I(yè)信息化。
TP311
A
2095-509X(2014)10-0054-05