羅賢坤 吳 磊
摘 要:介紹了建立案例索引的兩種不同方法,通過分析將多級(jí)索引應(yīng)用于聚類分析方法,將聚類分析方法應(yīng)用于實(shí)驗(yàn)儀器設(shè)備預(yù)約問題中,具有重要的理論意義和實(shí)用價(jià)值。
關(guān)鍵詞:案例索引;聚類分析;預(yù)約
1 案例索引的建立
1.1 單級(jí)索引
單級(jí)索引比較簡單,適用于案例庫中案例不太多的情況??砂茨硞€(gè)屬性的取值進(jìn)行索引,如在儀器設(shè)備推薦預(yù)約服務(wù)系統(tǒng)中我們可以按照儀器設(shè)備的儀器類別這一屬性進(jìn)行索引。
1.2 多級(jí)索引
多級(jí)索引技術(shù)對于案例庫較龐大的情況很有效,可以提高案例檢索的效率。下面介紹采用采用聚類分析方法來為案例庫建立二級(jí)索引時(shí)的案例組織方法,設(shè)整個(gè)案例庫有N個(gè)案例,Casebase=<casel,case2,…,caseN>,首先對所有的案例進(jìn)行聚類分析(即把相似的案例按某種方法先進(jìn)行歸類),得到M類抽象案例:
AbstractCasebase=<Acasel,Acase2,…,AcaseM>,其中M≤N
這M類抽象案例作為第一級(jí)索引,每類抽象案例中又含有數(shù)個(gè)具體案例,Acasei=<caseil,casei2,…,caseiS>, S為第i類抽象案例中所含具體案例數(shù)量。這些具體案例再按照案例的某項(xiàng)屬性的取值進(jìn)行索引形成第二級(jí)索引,如圖1所示。
2 多級(jí)索引中聚類方法的應(yīng)用
聚類將數(shù)據(jù)對象分組成為多個(gè)類或簇,在同一個(gè)簇中的對象之間具有較高的相似度,而不同的簇中的對象差別較大。聚類分析的方法可以對相似案例進(jìn)行歸類,形成抽象案例以進(jìn)行二級(jí)或多級(jí)索引。我們知道很多多聚類方法,如劃分方法(Partioningmethod)、層次方法(hierarchical method)、基于密度的方法(density-based method)、基于網(wǎng)格的方法(grid-based method)、基于模型的方法(model-based method),它們各有優(yōu)點(diǎn)。聚類中常用的兩類數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)矩陣和相異度矩陣。
數(shù)據(jù)矩陣(data matrix):它用p個(gè)屬性來表現(xiàn)n個(gè)對象(案例),例如用年齡、身高、體重、性別等屬性來表現(xiàn)對象“人”。這種數(shù)據(jù)結(jié)構(gòu)是關(guān)系標(biāo)的形式,或者表示為n×p的矩陣:
相異度矩陣(dissimilarity matrix):存儲(chǔ)n個(gè)對象兩兩之間的近似性,表現(xiàn)形式是一個(gè)n×n的矩陣。
在這里玠(i,j)是對象i和j之間相異性的量化表示,通常是一個(gè)非負(fù)的數(shù)值,當(dāng)對象i和j越相似,其值越接近0;兩個(gè)對象越不同,其值越大。
下面用劃分方法進(jìn)行案例聚類。
給定一個(gè)含N個(gè)案例的案例庫,劃分方法構(gòu)建案例庫的K個(gè)劃分,每個(gè)劃分表示一個(gè)抽象案例,并且K≤N。劃分方法要求用戶輸入抽象案例的數(shù)目K,然后把案例庫中案例劃分為K類抽象案例。K值的確定可以采用統(tǒng)計(jì)的方法獲得。
在實(shí)際應(yīng)用中,絕大多數(shù)聚類過程采用了以下兩個(gè)比較流行的啟發(fā)式方法:
(1)K-平均法,該算法中,每個(gè)抽象案例用其所對應(yīng)的具體案例的平均值來表示。
(2)K-中心點(diǎn)法,該算法中,每個(gè)抽象案例用接近聚類中心的一個(gè)具體案例來表示。
在CBR系統(tǒng)中使用聚類方法只需在系統(tǒng)初次運(yùn)行時(shí)進(jìn)行一次案例聚類,以后就可以快速地進(jìn)行案例的檢索,極大減少了案例檢索的空間,有效地提高了案例檢索效率。當(dāng)有新的案例加入案例庫后只需把它加入最相似的一類抽象案例即可。對于用戶對檢索到的具體案例不滿意的情況,可以綜合同一抽象案例類中的所有具體案例的解決方案,向用戶提供一個(gè)綜合的決策支持。
參考文獻(xiàn)
[1]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2005:223~254.
[2]Watson I.Applying Case-Based Reasoning:Tedmiques for Enterprise Systems[M].San Francisco,California:Morgan Kaufmann Publishers,1997.