葉國權(quán) 崔魁 劉曉光 閆曉陽
摘? 要: 本文首先利用元倉庫將異域、異構(gòu)的軍事物資數(shù)據(jù)庫整合,然后利用關(guān)聯(lián)挖掘中的Apriori算法對整合后的數(shù)據(jù)庫進(jìn)行深度挖掘,用于幫助管理者在數(shù)量龐大的分布、異構(gòu)的物資信息中,快速智能的查準(zhǔn)查全其所需要的數(shù)據(jù),及物資之間隱藏的關(guān)聯(lián)關(guān)系。
關(guān)鍵詞: 元數(shù)據(jù);關(guān)聯(lián);挖掘;整合
中圖分類號: TP39? ? 文獻(xiàn)標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.011
本文著錄格式:葉國權(quán),崔魁,劉曉光,等. 關(guān)聯(lián)挖掘在軍事物資管理中的應(yīng)用[J]. 軟件,2020,41(10):4244+49
【Abstract】: This paper firstly will use the meta warehouse to integrate different places and heterogeneous database of military supplies, then use the Apriori algorithm of the mining association rules to mine the integration of database, used to help managers in the huge number of distributed, heterogeneous information, to find the data they need, and the hidden relationship between the information.
【Key words】: Metadata; Association; Mining; Integrate
0? 引言
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,軍事物資的管理也逐漸實現(xiàn)了信息化,但由于建設(shè)的過程中沒有統(tǒng)一的規(guī)劃,建設(shè)的數(shù)據(jù)庫的結(jié)構(gòu)不同、標(biāo)準(zhǔn)各異,這樣就造成了各部門系統(tǒng)之間交互能力不夠,無法快速對突發(fā)事件做出應(yīng)有的響應(yīng)。目前的數(shù)據(jù)庫系統(tǒng)無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則和預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的關(guān)聯(lián)關(guān)系,導(dǎo)致不能實現(xiàn)物資采購的全盤統(tǒng)籌,降低物資庫存產(chǎn)生的成本。為了解決以上問題,本文將通過元倉庫將異域、異構(gòu)的軍事物資數(shù)據(jù)庫整合,然后利用關(guān)聯(lián)挖掘中的Apriori算法對整合后的數(shù)據(jù)庫進(jìn)行深度挖掘,找到分布在異構(gòu)的數(shù)量庫中的龐大的物資信息之間隱藏的關(guān)聯(lián)關(guān)系,來最終實現(xiàn)物資的快速響應(yīng)和彈性的物資采購策略,降低我們物資的在采購、運輸、倉儲整個環(huán)節(jié)的成本。
1? 關(guān)聯(lián)挖掘技術(shù)
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,那么其中一個變量就能通過其他變量進(jìn)行預(yù)測,這就是關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析是指搜索事務(wù)數(shù)據(jù)庫中的所有細(xì)節(jié)或事務(wù),從中尋找重復(fù)出現(xiàn)概率很高的模式或規(guī)則。關(guān)聯(lián)分析的目的是為了挖掘隱藏在數(shù)據(jù)問的相互關(guān)系,其生成的規(guī)則帶有可信度。關(guān)聯(lián)挖掘技術(shù)是KDD(知識發(fā)現(xiàn))的核心,是我們在信息爆炸的年代尋找知識的有效途徑,其具體的過程如圖1所示。
首先我們將分布在不同地區(qū)的,結(jié)構(gòu)相異的數(shù)據(jù)庫中的數(shù)據(jù)變換清理,利用數(shù)據(jù)集成技術(shù),將清理后的數(shù)據(jù)信息整合,然后通過數(shù)據(jù)挖掘技術(shù)如:關(guān)聯(lián)挖掘、聚類挖掘、神經(jīng)網(wǎng)絡(luò)等對整合后的數(shù)據(jù)進(jìn)行深度發(fā)掘,并通過相應(yīng)信息評估手段,對挖掘的信息評估,最終提取有用的知識。
數(shù)據(jù)挖掘的應(yīng)用除了在知識發(fā)現(xiàn)體系中的應(yīng)用外,在客戶關(guān)系管理、WEB挖掘、基因挖掘等領(lǐng)域也非常的廣泛,具體情況如圖2所示。
2? 利用元倉庫技術(shù)實現(xiàn)數(shù)據(jù)庫整合
近年來,自動識別技術(shù)在全球范圍內(nèi)許多領(lǐng)域得到應(yīng)用和推廣。自動識別技術(shù)是以計算機技術(shù)和通信技術(shù)為基礎(chǔ)的綜合型科學(xué)技術(shù),是信息技術(shù)自動識讀、自動傳輸?shù)接嬎銠C的重要方法和手段。其中主要包括:射頻識別(RFID)技術(shù)、條碼技術(shù)、磁卡技術(shù)、光學(xué)字符識別技術(shù)、視覺識別技術(shù)、聲音識別技術(shù)等。
在以上自動識別技術(shù)中,RFID技術(shù)具有精度高、識別速度快、抗干擾能力強等特點,因此,比其他自動識別技術(shù)具有更廣的應(yīng)用領(lǐng)域。對于需要經(jīng)常進(jìn)行維護(hù)的大型工業(yè)生產(chǎn)設(shè)備,利用RFID標(biāo)簽?zāi)軌驅(qū)崿F(xiàn)準(zhǔn)確的設(shè)備管理,并能夠自動記錄設(shè)備的運行狀況。通過RFID技術(shù)的使用,能夠省略記錄管理的繁瑣手續(xù),并通過操作指令與RFID標(biāo)簽聯(lián)動,防止對設(shè)備的誤操作。因此在這里我們采用了RFID技術(shù)來將物資的信息提取到相應(yīng)的物資管理的數(shù)據(jù)庫中。其原理如圖3所示。
在后勤物資管理系統(tǒng)的建設(shè)過程中,由于沒有進(jìn)行整體的規(guī)劃,系統(tǒng)中使用的數(shù)據(jù)庫的系統(tǒng)不同,數(shù)據(jù)存儲的結(jié)構(gòu)不同,存儲的地點不同,那么如何將這些異域異構(gòu)的數(shù)據(jù)庫進(jìn)行整合,也是擺在我們面前的一個主要的問題。異域異構(gòu)的數(shù)據(jù)庫如圖4所示。
一般來說,目前發(fā)展比較成熟的數(shù)據(jù)集成方法從總體上可分為三種:數(shù)據(jù)倉庫、聯(lián)邦數(shù)據(jù)庫和中間件。這幾種方法特點鮮明,體現(xiàn)了對數(shù)據(jù)集成的不同側(cè)重點。經(jīng)過對數(shù)據(jù)倉庫和聯(lián)邦數(shù)據(jù)庫集成思想的分析研究,針對物資管理數(shù)據(jù)庫的數(shù)據(jù)集成問題,我們提出了一個基于元數(shù)據(jù)的數(shù)據(jù)資源整合方案,該方案繼承了聯(lián)邦數(shù)據(jù)庫集成方法的主要優(yōu)點,利用 CWM(元倉庫)來實現(xiàn)異域異構(gòu)的數(shù)據(jù)庫中元數(shù)據(jù)的提取和整合,來解決傳統(tǒng)數(shù)據(jù)集成中面臨的結(jié)構(gòu)異構(gòu)和語義異構(gòu)難題。
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)或是與數(shù)據(jù)有關(guān)的信息,它對數(shù)據(jù)的結(jié)構(gòu)信息進(jìn)行了詳細(xì)的描述,它是面向某種特定應(yīng)用的用于描述資源屬性的機器可理解的信息。通過規(guī)范語法結(jié)構(gòu)和語義結(jié)構(gòu),使得機器能夠無二義性地表現(xiàn)和獲取信息。圖5是我們利用元倉庫(CWM)提取的元數(shù)據(jù)信息。
3? 關(guān)聯(lián)挖掘在軍事物資數(shù)據(jù)庫的應(yīng)用
我們在前面已經(jīng)介紹了關(guān)聯(lián)挖掘的方法和異構(gòu)數(shù)據(jù)庫整合的方案,下面我們將利用上面的技術(shù)來實現(xiàn)軍事物資管理系統(tǒng),在該系統(tǒng)中我們已經(jīng)利用RFID技術(shù)將數(shù)據(jù)提取到數(shù)據(jù)庫中,并通過CWM將異構(gòu)數(shù)據(jù)庫進(jìn)行了整合,下面我們便是選取合適的關(guān)聯(lián)挖掘的算法來實現(xiàn)該系統(tǒng)。在關(guān)聯(lián)挖掘算法中比較經(jīng)典的有兩種:Apriori算法和FP-Tree算法。利用這兩種算法實現(xiàn)數(shù)據(jù)關(guān)聯(lián)挖掘的示意如圖6所示。
Apriori算法的優(yōu)點是邏輯結(jié)構(gòu)簡單,要求硬件運行環(huán)境較低,但是參與運算的關(guān)聯(lián)項如果過多,那么進(jìn)行關(guān)聯(lián)運算時,運算的量就會成指數(shù)級增長,因此這種方法不適合大關(guān)聯(lián)項的運算。FP-Tree算法是利用二叉樹對大關(guān)聯(lián)項進(jìn)行裁剪,因此不會產(chǎn)生大量的運算,但是我們知道對樹型結(jié)構(gòu)進(jìn)行運算時,需要消耗大量的存儲空間,因此其要求的硬件的資源較高。考慮到我們處理的倉庫中物品關(guān)聯(lián)項的規(guī)模較小,最終采用了Apriori算法,具體實現(xiàn)的代碼如下所示。
L1 = {large 1-itemsets}; 所有1-項目頻集
for (k=2; Lk-1; k++) do begin
Ck=apriori-gen(Lk-1); Ck是k-候選集
for all transactions tD? do begin
Ct=subset(Ck, t); Ct是所有t包含的候選集元素
for all candidates c Ct do
c.count++;
end
Lk={cCk |c.countminsup_count}
end
L= ∪Lk;
for all itemset p Lk-1? ?do
for all itemset qLk-1? ? do
if p.item1=q.item1, …, p.itemk-1 < q.itemk-1
then begin
C= p∞q; 把q的第k–1個元素連到p后
if has_infrequent_subset(C, Lk-1)? then
delete c;? ?刪除含有非頻繁項目子集的侯選元素
else? add c to Ck;
end
Return Ck;
has_infrequent_subset(C, Lk-1),判斷c是否加入到k-侯選集中
下面是我們通過Apriori算法對整合過的數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘后,獲得的物資之間的關(guān)聯(lián)關(guān)系(如圖7),通過該關(guān)系,我們可以清晰的發(fā)現(xiàn),各種物資之間的支持度和置信度,并通過用戶要求的最小支持度和置信度對分析后的數(shù)據(jù)進(jìn)行篩選,找到用戶感興趣的物資關(guān)聯(lián)項。這樣我們就可以利用獲得物資關(guān)聯(lián)項,預(yù)測物資使用的頻率合理的安排物資的采購量,節(jié)省物資的存儲成本,其次我們還可以通過該關(guān)聯(lián)規(guī)則,將關(guān)聯(lián)度較高的物品排放在同一貨架上,優(yōu)化提取路徑,提高物品提取效率等。關(guān)聯(lián)挖掘除了在物資管理中的應(yīng)用外,在軍人病案信息管理中也有廣泛地應(yīng)用,我們可以在病例分析中影響疾病康復(fù)用相關(guān)因素的數(shù)據(jù)進(jìn)行挖掘,以便提高軍人疾病的治愈率。使用Microsoft時序模型預(yù)測醫(yī)院未來的門診工作量,以便為合理安排人、財、物資源提供科學(xué)依據(jù)。如此不但是為醫(yī)院管理者提供了良好分析方法,還為醫(yī)院科研人員提供了新的手段。
4? 結(jié)語
本文將通過元倉庫將異域、異構(gòu)的軍事物資數(shù)據(jù)庫整合,然后利用關(guān)聯(lián)挖掘中的Apriori算法對整合后的數(shù)據(jù)庫進(jìn)行深度挖掘,找到分布在異構(gòu)的數(shù)量庫中的龐大的物資信息之間隱藏的關(guān)聯(lián)關(guān)系,來最終實現(xiàn)物資的快速響應(yīng)和彈性的物資采購策略,但利用單一的數(shù)據(jù)挖掘技術(shù),獲得的數(shù)據(jù)的深度和廣度還有一定的局限性,因此在今后的研究中我們可以把本體引入到我們的體系中,將本體樹建立在數(shù)據(jù)倉庫中的元數(shù)據(jù)庫上,通過本體描述集成在元數(shù)據(jù)庫上的元數(shù)據(jù)信息之間的關(guān)系,從而可以大幅度的提高由元數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的深度。
參考文獻(xiàn)
[1]John Poole等著. 公共倉庫元模型—數(shù)據(jù)倉庫集成標(biāo)準(zhǔn)導(dǎo)論. 彭蓉, 何璐璐等譯. 機械工業(yè)出版社, 2008. 3.
[2]John Poole等著. 公共倉庫元模型開發(fā)指南. 彭蓉, 劉進(jìn)等譯. 機械工業(yè)出版社, 2004. 9.
[3]Meng XF, Zhou LX, WangS. State of the art and trends in database research. Journalof Software, 2004, 15(12): 1822- 1836.
[4]James Pitkow, Peter Pirellis. Mining longest repeating subsequences to predict World Wide Web surfing. 1999, 10, 2(10): 11-14. Berkeley, C USA: USENIX Association.
[5]Alejandro A, Yaisman, Alberto O. Mendelzon Enrique Molina and Pablo Tome. Temporal XMI Model Language and Implementation.
[6]Wirth N. Type Extensions. ACM Transactions on Programming Languages and Systems, 1988, 10(2): 204-214.
[7]何新貴. 人工智能新進(jìn)展[M]. 北京: 清華大學(xué)出版社, 1994.
[8]曾勇, 唐小我. 線性規(guī)劃在非負(fù)權(quán)重最優(yōu)組合預(yù)測計算中的應(yīng)用[J]. 預(yù)測, 1994.