龍文佳,張曉峰,張 鏈
(1.湖北大學(xué)知行學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430011;2.三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002)
流程挖掘的目標(biāo)是通過觀察事件日志中記錄的事件來提取與流程相關(guān)的信息[1]。事件日志是包含業(yè)務(wù)流程執(zhí)行(稱為路徑)的數(shù)據(jù)集?,F(xiàn)有的流程挖掘算法可以挖掘事件日志并提供關(guān)于如何執(zhí)行記錄的過程模型(例如Petri 網(wǎng)),這些模型也可以逐步提取[2]。然而,現(xiàn)有政務(wù)和企業(yè)信息系統(tǒng)其業(yè)務(wù)流程的自動(dòng)發(fā)現(xiàn)、一致性檢查、模型演化、性能分析、案例預(yù)測(cè)等智能化處理能力較低,無法滿足新型信息系統(tǒng)的建設(shè)需求。隨著政府和企業(yè)信息系統(tǒng)中事件日志的日益積累,以及對(duì)更好地支持和改進(jìn)系統(tǒng)業(yè)務(wù)流程的迫切需求,流程挖掘技術(shù)得到了業(yè)界的廣泛重視和研究。
聚類在數(shù)據(jù)的探索性分析中應(yīng)用較為廣泛,人們?cè)噲D在他們的數(shù)據(jù)中心識(shí)別具有“相似行為”的群體來認(rèn)知他們的數(shù)據(jù)。業(yè)務(wù)流程聚類是將數(shù)據(jù)對(duì)象分為若干個(gè)組別或者類簇的過程,各組別或類簇內(nèi)部數(shù)據(jù)融合性高,組間或者各類別之間相似性較低[3]。文獻(xiàn)[4]提出了一種基于半監(jiān)督聚類的BPMA 方法,該方法基于改進(jìn)的流程結(jié)構(gòu)樹選擇初始聚類,并通過結(jié)合流程的控制流一致性和活動(dòng)的語義相似性來設(shè)計(jì)約束,以指導(dǎo)聚類過程。關(guān)于路徑聚類的傳統(tǒng)研究可分為兩類:(1)將對(duì)路徑轉(zhuǎn)化為對(duì)向量空間模型的研究[5-7];(2)通過應(yīng)用具有序列距離度量的聚類算法(例如Levensthein 距離)[8-10],對(duì)操作路徑進(jìn)行研究。文獻(xiàn)[11]首先將路徑轉(zhuǎn)化為矢量,在矢量空間使用馬爾科夫聚類對(duì)流程進(jìn)行多個(gè)視角的分組,從而在分組結(jié)果中發(fā)現(xiàn)流程中的主流行為和偏離行為。
為交付有價(jià)值的業(yè)務(wù)流程模型,業(yè)界定義了眾多流程挖掘算法。由于實(shí)際流程的內(nèi)在復(fù)雜性和高度靈活性,算法常生成難以理解的雜亂流程模型,一定程度上增加了流程建模難度。因此,如何提供支持活動(dòng)視圖的路徑聚類方法進(jìn)行流程的聚類,提升聚類準(zhǔn)確性,降低流程建模難度,仍是一個(gè)難題。
本文提出一種基于聚類的流程挖掘方法,為后期驗(yàn)證系統(tǒng)的實(shí)際流程與理論流程的一致性提供理論基礎(chǔ)。將k- means 算法與肘部函數(shù)相結(jié)合的方法應(yīng)用到會(huì)議平臺(tái)以解決傳統(tǒng)的流程挖掘算法在處理會(huì)議平臺(tái)非結(jié)構(gòu)化流程時(shí)遇到的問題,避免生成難以理解的流程模型。將所提流程聚類方法應(yīng)用于金貓匯會(huì)議平臺(tái),通過抽取系統(tǒng)中多種會(huì)議的報(bào)名流程,采用活動(dòng)特征對(duì)會(huì)議注冊(cè)流程進(jìn)行描述,通過業(yè)務(wù)流程中活動(dòng)特征對(duì)會(huì)議業(yè)務(wù)子流程進(jìn)行描述,運(yùn)用k- means 算法并結(jié)合肘部函數(shù)對(duì)向量化的流程進(jìn)行聚類。
圖1 給出了本文研究的整體路線,其中抽取會(huì)議系統(tǒng)報(bào)名流程并進(jìn)行形式化展示是基于文獻(xiàn)[12]的工作進(jìn)行的。
圖1 面向會(huì)議平臺(tái)的流程聚類方法Fig. 1 Process clustering method for the conference platform
大量豐富的事件日志信息有助于活動(dòng)感知的路徑聚類算法的構(gòu)建,同時(shí)可為路徑相似性矩陣提供描述支持。首先擬從事件日志的活動(dòng)視圖中獲取活動(dòng)特征向量模型,然后通過該特征向量模型對(duì)流程路徑進(jìn)行描述,生成路徑向量。視圖、特征向量模型、路徑向量相似性矩陣和聚類矩陣間的對(duì)應(yīng)關(guān)系如表1 所示。
表1 視圖、特征向量模型、路徑向量相似性矩陣和聚類矩陣間對(duì)應(yīng)關(guān)系Tab.1 Corresponding relationship among view,feature vector model,path vector similarity matrix and clustering matrix
基于活動(dòng)信息的流程路徑描述包含以下兩個(gè)主要步驟。
步驟一特征向量模型獲?。禾卣飨蛄磕P蛠碓从诹鞒掏诰蛑袑?shí)際的信息系統(tǒng)。首先獲取實(shí)際信息系統(tǒng)的相關(guān)事件日志信息,然后定義特征對(duì)日志信息進(jìn)行描述。
步驟二信息的路徑向量獲取:依據(jù)事件日志中的路徑信息,利用特征向量模型對(duì)同一日志中不同的路徑進(jìn)行描述,獲取路徑向量,為基于距離的路徑聚類算法的構(gòu)建奠定基礎(chǔ)。
事件日志包含多條流程執(zhí)行路徑,路徑具有唯一性,可從多個(gè)視圖對(duì)路徑進(jìn)行描述(如路徑視圖、組織視圖、性能視圖、控制流視圖)。依據(jù)每種視圖可獲取對(duì)應(yīng)的特征向量模型(如活動(dòng)特征向量模型、資源特征向量模型、性能特征向量模型、轉(zhuǎn)換特征向量模型)。一條路徑T 描述了一個(gè)業(yè)務(wù)流程執(zhí)行的過程,它是活動(dòng)的有限序列,即路徑中的時(shí)間是非遞減的(for 1≤i<j ≤ length(T):timestamp(ei)≤ timestamp(ej))。事件日志L是一個(gè)路徑包,一個(gè)事件日志片段如表2 所示。
表2 一個(gè)事件日志片段Tab. 2 A fragment of event log
由視圖生成的特征向量模型包含:活動(dòng)特征向量模型、資源特征向量模型、性能特征向量模型、轉(zhuǎn)換特征向量模型?;顒?dòng)特征向量模型來源于路徑視圖,主要關(guān)注路徑中的一系列活動(dòng),事件日志中發(fā)現(xiàn)的每種活動(dòng)構(gòu)建為向量模型的一個(gè)特征。一條路徑中具有或不具有某種活動(dòng),通過擁有各種活動(dòng)的數(shù)量來描述該路徑。參考表2 的事件日志,包含7 種不同類型的活動(dòng),分別為
register request(R)、examine thoroughly(ET)、check ticket(CT)、decide(D)、reject request(RR)、examine casually(EC)、pay compensation(PC),因此活動(dòng)特征向量模型具有7 個(gè)特征,每條路徑描述為具有7 個(gè)特征值的向量,每種特征代表一種活動(dòng)。每個(gè)特征的取值描述了該活動(dòng)在一個(gè)路徑中出現(xiàn)的次數(shù)?;顒?dòng)特征向量模型如表3 所示。
表3 活動(dòng)特征向量模型Tab. 3 M odel of active feature vector
通過上述特征向量模型對(duì)路徑進(jìn)行描述,生成路徑向量,為基于距離的活動(dòng)視圖感知的路徑聚類奠定基礎(chǔ)。
基于信息獲取路徑向量是對(duì)路徑的形式化表達(dá)和預(yù)處理,能為基于距離的路徑聚類提供基礎(chǔ)數(shù)據(jù)支撐。由于距離易于定義與計(jì)算,基于距離的算法常用于流程挖掘的研究,算法通常只需一個(gè)參數(shù)(最終類簇?cái)?shù)量或分隔兩個(gè)類簇的最小距離),因此擬采用基于距離的聚類算法對(duì)路徑向量進(jìn)行聚類,生成路徑向量相似性矩陣和聚類矩陣,為矩陣的迭代式更新和聚類模式的漸進(jìn)式收斂提供聚類信息支撐。具體步驟如下。
步驟一路徑向量相似性矩陣構(gòu)建:采用基于距離的聚類算法并結(jié)合路徑向量,研究各種視圖中路徑向量相似性矩陣的構(gòu)建方法,包括活動(dòng)特征、資源特征、性能特征、轉(zhuǎn)換特征中路徑向量相似性矩陣的創(chuàng)建,為聚類矩陣的建立奠定基礎(chǔ)。
步驟二聚類矩陣的構(gòu)建:基于路徑向量相似性矩陣研究聚類矩陣的構(gòu)建方法,即活動(dòng)特征中聚類矩陣的生成,聚類矩陣將相似性較高的路徑向量分配到同一類簇,為相似性矩陣的建立提供支持。
假設(shè)L代表一個(gè)事件日志,L記錄了n條路徑,是特征向量模型集,P是一個(gè)具體的特征向量模型,且P∈。
相似性矩陣SP是一個(gè)(n×n)矩陣,其對(duì)應(yīng)事件日志L和特征向量模型P,矩陣第i行代表路徑向量Ti,Ti∈L,第j列代表路徑向量Tj,Ti∈L。路徑向量間的相似性SP(i,j)= 1- distance(P,Ti,Tj),其中,distance(P,Ti,Tj)是指在特征向量模型P中,路徑向量Ti與Tj間的距離,該距離值落在[0,1]。
依據(jù)SP顯示出的路徑相似性,聚類矩陣CP將日志L中的路徑分組成k個(gè)類簇。CP是一個(gè)(n×k)矩陣,矩陣第i行代表路徑向量Ti,Ti∈L,第j列代表類簇Cj,Cj∈CP。Ti的聚類矩陣為
其中size(Cj)是指Cj類簇中的路徑數(shù)。
通過基于距離的相似性算法對(duì)路徑向量進(jìn)行聚類,生成路徑向量相似性矩陣和聚類矩陣,為相似性矩陣向源于其他特征向量模型聚類矩陣的迭代式投射和更新提供支持。
采用k- means 算法并結(jié)合肘部函數(shù)預(yù)先估算類簇?cái)?shù)量,并為每一類簇分配初始中心。給定具有n個(gè)原子等級(jí)的樣本集AR= {r1,r2,…,rn},k- means 算法首先假定將n個(gè)原子等級(jí)劃分為k個(gè)類簇,k= {1,2,…,β},其中β<n,且β為肘部函數(shù)中斜率出現(xiàn)大幅下降的拐點(diǎn)值。k- means 最小化的問題可以轉(zhuǎn)化為所有數(shù)據(jù)點(diǎn)到其類簇中心的距離之和的最小化問題,定義k- means 的代價(jià)函數(shù)公式為
式中,Ci為第i個(gè)類簇,i= 1,2,…,n,與r()i最近的聚類中心點(diǎn)為μc(i),μk代表類簇k的聚類中心,通常k的取值是隨機(jī)的,這里使用肘部函數(shù)來選擇k的取值。圖2 展示了代價(jià)函數(shù)J與類簇?cái)?shù)k的關(guān)系。由圖2 可知,當(dāng)β取值小于3 時(shí),代價(jià)函數(shù)取值下降較快;當(dāng)β取值大于3 時(shí),代價(jià)函數(shù)取值下降緩慢,所以可以選擇“肘部點(diǎn)”的值作為k的取值。即關(guān)鍵在于依次將k值分別設(shè)定為1、2、3一直到β,重復(fù)執(zhí)行k- means 算法獲取各個(gè)k對(duì)應(yīng)的輸出值,直到在β點(diǎn)的下一個(gè)點(diǎn),函數(shù)的輸出值并未發(fā)生大幅下降(肘部函數(shù)斜率大幅降低),將β點(diǎn)視為拐點(diǎn)。確定β值后,k值也隨之確定,即預(yù)測(cè)的k=β。依此隨機(jī)選取k個(gè)樣本作為各個(gè)類簇的初始中心。
圖2 肘部函數(shù)Fig. 2 Elbow function
k- means 算法依據(jù)預(yù)測(cè)的k值將n個(gè)原子等級(jí)劃分為k個(gè)類簇,算法開始時(shí)隨機(jī)選取k個(gè)樣本作為類簇的初始中心,分別考察樣本集AR中每個(gè)樣本與這些初始中心的距離,依據(jù)距離將每個(gè)樣本分配給與其距離最短的類簇(初始中心),得到k個(gè)類簇聚類結(jié)果。再計(jì)算每個(gè)所獲類簇新的簇中心,即該類簇中所有樣本到初始中心距離的平均值,然后以該平均值作為新的簇中心。不斷迭代上述過程直到目標(biāo)函數(shù)收斂為止,得到最終的聚類結(jié)果。k- means 算法的目標(biāo)函數(shù)為
式中,Ci為第i個(gè)類簇,i= 1,2,…,k。μi是類簇Ci的中心。
公式(2)在一定程度上描述了同一類簇內(nèi)樣本圍繞簇中心的緊密程度,E值越小則同一類簇中樣本間距離越小。
金貓匯是數(shù)字化會(huì)務(wù)服務(wù)在線平臺(tái),它將會(huì)議網(wǎng)站的設(shè)立、數(shù)據(jù)公布、網(wǎng)上注冊(cè)、酒店、車票的收費(fèi)和現(xiàn)場(chǎng)報(bào)道等融為一體,整合了短信、郵件及微信平臺(tái),在平臺(tái)上提供傳統(tǒng)會(huì)議項(xiàng)目流程的“一站式”服務(wù),有力改善了傳統(tǒng)會(huì)議舉行過程中效率低、安全系數(shù)差、銷售業(yè)務(wù)開展難等問題,極大地增強(qiáng)了辦會(huì)效率,大大方便了參會(huì)代表和會(huì)議組織者。本文將金貓匯會(huì)議平臺(tái)作為實(shí)驗(yàn)對(duì)象,抽取其中的業(yè)務(wù)流程進(jìn)行業(yè)務(wù)流程聚類技術(shù)的應(yīng)用。
圖3 展示的是軟件會(huì)議的注冊(cè)流程圖。圖形包含多條子流程,上半部分展示的是登錄系統(tǒng)的功能,其中,任務(wù)“查詢會(huì)議”之后出現(xiàn)選擇分支,可根據(jù)輸入的查詢關(guān)鍵詞(會(huì)議名稱或會(huì)議代碼)執(zhí)行相應(yīng)的任務(wù)。隨后在“點(diǎn)擊報(bào)名”任務(wù)執(zhí)行時(shí),系統(tǒng)會(huì)根據(jù)人員身份進(jìn)行選擇分支中的“登錄”或“注冊(cè)”任務(wù),登錄系統(tǒng)的方式也有多種選擇。圖形下半部分展示了用戶在登錄系統(tǒng)以后可以進(jìn)行的任務(wù)。其中包含了多條選擇分支,包含參會(huì)身份的選擇、參會(huì)人信息的編輯、繳費(fèi)方式的選擇以及發(fā)票信息的編輯等,根據(jù)用戶操作的不同而產(chǎn)生不同的活動(dòng)路徑,從而可以抽取多條子流程。
圖3 軟件會(huì)議注冊(cè)流程圖Fig. 3 Diagram of registration process of Software Conference
圖4 展示了工商管理學(xué)科會(huì)議的注冊(cè)流程圖。工商管理學(xué)科會(huì)議的注冊(cè)流程與軟件會(huì)議的注冊(cè)流程圖“登錄成功”任務(wù)之前的子流程基本相同,但參會(huì)人員成功登錄系統(tǒng)之后的子流程相對(duì)簡(jiǎn)單,僅在“報(bào)名信息填寫”及“參會(huì)人信息填寫”時(shí)執(zhí)行相應(yīng)的選擇分支任務(wù)。
圖4 工商管理學(xué)科會(huì)議注冊(cè)流程Fig. 4 Diagram of registration process of Business M anagement Discipline Conference
圖5 給出了磁性薄膜與納米磁學(xué)會(huì)議的注冊(cè)流程圖。相對(duì)于圖3 所示的流程,磁性薄膜與納米磁學(xué)會(huì)議的注冊(cè)流程中,流程不再執(zhí)行“參會(huì)人員身份”相關(guān)的選擇分支,且無需“填寫參會(huì)專家人數(shù)”,其他子任務(wù)大致與圖3 相同。
圖5 磁性薄膜與納米磁學(xué)會(huì)議注冊(cè)流程圖Fig. 5 Diagram of registration process of M agnetic Thin Film and Nano-Structure M agnetics Conference
圖6 是口腔醫(yī)學(xué)會(huì)議的注冊(cè)流程圖。口腔醫(yī)學(xué)會(huì)議的注冊(cè)流程與軟件會(huì)議的注冊(cè)流程圖同樣是實(shí)現(xiàn)會(huì)議的注冊(cè)報(bào)名功能,但具體實(shí)現(xiàn)細(xì)節(jié)上有細(xì)微的區(qū)別。在口腔醫(yī)學(xué)會(huì)議的注冊(cè)流程中,參會(huì)人員不具有參會(huì)身份選擇這個(gè)分支中,并且由于該會(huì)議具有公益屬性,在該流程中不包含繳費(fèi)相關(guān)的子任務(wù)。
圖6 口腔醫(yī)學(xué)會(huì)議注冊(cè)流程圖Fig. 6 Diagram of registration process of Stomatological Conference
為準(zhǔn)確有效地針對(duì)會(huì)議系統(tǒng)的流程進(jìn)行聚類處理,對(duì)會(huì)議業(yè)務(wù)模型特征所屬的類別和其擁有的特質(zhì)進(jìn)行維度分析是很重要的,它也是使用數(shù)學(xué)方法進(jìn)行模型特點(diǎn)標(biāo)志和量化的前提。
表4 給出了相關(guān)任務(wù)所使用的標(biāo)識(shí),通過標(biāo)識(shí)對(duì)2.1 所述軟件會(huì)議、工商管理學(xué)科會(huì)議、磁性薄膜與納米磁學(xué)會(huì)議、口腔醫(yī)學(xué)會(huì)議的注冊(cè)流程圖中所有的活動(dòng)進(jìn)行標(biāo)識(shí),結(jié)果如圖3~圖6 所示。
表4 會(huì)議系統(tǒng)業(yè)務(wù)流程標(biāo)識(shí)Tab. 4 Business process identification of conference system
通過業(yè)務(wù)流程中活動(dòng)特點(diǎn)來敘述會(huì)議的相關(guān)流程,并且將活動(dòng)特點(diǎn)的表達(dá)變成描述項(xiàng)目模型能不能擁有這些活動(dòng)特點(diǎn)的描述,這樣就可以將會(huì)議業(yè)務(wù)流程活動(dòng)特點(diǎn)看作是擁有離散狀態(tài)0 或1 的二進(jìn)制特征,0 表示該子流程不擁有這個(gè)活動(dòng)特點(diǎn),1 代表該子流程具有該特征。通過0、1 數(shù)字標(biāo)識(shí)從軟件會(huì)議注冊(cè)流程圖抽取業(yè)務(wù)子流程共7 681 條,從工商管理學(xué)科會(huì)議注冊(cè)流程圖抽取業(yè)務(wù)子流程共1 313 條,從磁性薄膜與納米磁學(xué)會(huì)議注冊(cè)流程圖抽取業(yè)務(wù)子流程共992條,從口腔醫(yī)學(xué)注冊(cè)流程圖抽取業(yè)務(wù)子流程共192 條,共計(jì)10 178 條子流程。
將本文抽取的4 類會(huì)議報(bào)名流程的子流程匯集在一起,構(gòu)成一個(gè)47× 10 178 的矩陣。其中一條路徑如下:
圖7 流程聚類結(jié)果示意圖Fig.7 Diagram of process clustering results
通過k- means 算法進(jìn)行聚類分析:新建k個(gè)點(diǎn)當(dāng)作是開始的質(zhì)心,當(dāng)某一點(diǎn)的簇分配結(jié)果變化時(shí),對(duì)數(shù)據(jù)聚集的每一個(gè)點(diǎn),計(jì)算每個(gè)質(zhì)心與數(shù)據(jù)點(diǎn)中的間隔,然后把數(shù)據(jù)點(diǎn)分配給間隔最短的簇,對(duì)每一個(gè)簇,計(jì)算簇中所有點(diǎn)的平均值而且將平均值視作新的質(zhì)心。
圖7 展示了流程聚類的結(jié)果。圖中橫坐標(biāo)表示質(zhì)心所處位置,縱坐標(biāo)表示子流程距離該簇質(zhì)心的距離,藍(lán)色圓點(diǎn)表示會(huì)議報(bào)名的子流程,由于流程矩陣為一個(gè)多維矩陣,并不是一個(gè)二維矩陣,所以聚類結(jié)果在線條上呈現(xiàn)為散列分布的狀況。圖中的藍(lán)色圓點(diǎn)在部分情況下并不代表一個(gè)子流程,而是一個(gè)與質(zhì)心距離相等的子流程集合。由圖可知,當(dāng)k= 2 時(shí),2 個(gè)質(zhì)心分別位于(0,0)、(0,1);當(dāng)k= 3 時(shí),3 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2);當(dāng)k= 4 時(shí),4 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3);當(dāng)k= 5 時(shí),5 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4);當(dāng)k= 6 時(shí),6 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(0,5);當(dāng)k= 7 時(shí),7 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(0,5)、(0,6);當(dāng)k= 8 時(shí),8 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(0,5)、(0,6)、(0,7);當(dāng)k= 9 時(shí),9 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(0,5)、(0,6)、(0,7)、(0,8);當(dāng)k= 10 時(shí),10 個(gè)質(zhì)心分別位于(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(0,5)、(0,6)、(0,7)、(0,8)、(0,9)。
使用k- means 算法對(duì)原子等級(jí)進(jìn)行有效聚類的前提是預(yù)先確定類簇?cái)?shù)量并為每個(gè)類簇分配初始中心,且若初始中心分配不合理,即使準(zhǔn)確預(yù)測(cè)出類簇?cái)?shù)量,聚類結(jié)果可能僅收斂于局部最優(yōu)。將各個(gè)流程到相應(yīng)質(zhì)心的平均距離計(jì)為E,平均距離E的大小反映了同一類簇中樣本對(duì)簇中心的緊密程度,E值越小,同一類簇中的樣本間距離越小,各樣本間也更加集中。針對(duì)k的取值問題,由于無法預(yù)知最優(yōu)的k值,依次將k的取值范圍設(shè)置為[2,10],迭代執(zhí)行k- means 算法獲取各個(gè)k對(duì)應(yīng)的輸出值E,將k值與對(duì)應(yīng)的E值關(guān)系表示如圖8 所示。依據(jù)肘部法則可知,拐點(diǎn)k值為9,由此可知,當(dāng)k= 9 時(shí)各流程收斂程度最高。
圖8 k-E 圖像Fig. 8 Diagram of k-E
將k- means 聚類算法及肘部函數(shù)應(yīng)用到會(huì)議平臺(tái)之中去解決傳統(tǒng)的流程挖掘算法在處理會(huì)議平臺(tái)非結(jié)構(gòu)化流程時(shí)遇到問題,并且避免生成難以理解的流程模型。本文將視角聚焦于流程活動(dòng)視圖(活動(dòng)特征),通過對(duì)流程的標(biāo)識(shí)與量化,運(yùn)用k- means 聚類算法得到具有高一致性和可理解性的流程模型。結(jié)合肘部函數(shù)特點(diǎn),可知當(dāng)k= 9 時(shí),聚類收斂度最高,當(dāng)系統(tǒng)需要添加新的業(yè)務(wù)流程或者對(duì)現(xiàn)有流程進(jìn)行更新的時(shí)候,可以通過9 個(gè)類簇以及質(zhì)心對(duì)業(yè)務(wù)流程進(jìn)行標(biāo)識(shí)與量化,采用杰卡德系數(shù)等方法來計(jì)算業(yè)務(wù)流程模型實(shí)例間的相似性,找到最優(yōu)質(zhì)心,通過該類簇所有的子流程對(duì)新的業(yè)務(wù)流程進(jìn)行改進(jìn)與決策支持。通過本文所提方法可以依據(jù)聚類的結(jié)果對(duì)其他會(huì)議流程提供變更與決策支持。
通過解釋活動(dòng)視圖信息生成活動(dòng)特征向量模型,利用特征向量模型對(duì)系統(tǒng)流程進(jìn)行描述,提出一種基于k- means 和肘部法則的流程聚類方法,對(duì)描述后的流程進(jìn)行聚類,生成聚類結(jié)果,依據(jù)聚類結(jié)果獲取統(tǒng)一聚類模式。進(jìn)而提升流程聚類的準(zhǔn)確性,為降低流程建模難度提供支持。具體包括:提出一種基于活動(dòng)視圖信息的流程路徑描述方法;從系統(tǒng)流程的活動(dòng)視圖中獲取對(duì)應(yīng)的特征向量模型,通過活動(dòng)特征向量模型對(duì)流程執(zhí)行路徑進(jìn)行描述,生成路徑向量,為活動(dòng)視圖感知的路徑聚類奠定基礎(chǔ);提出一種基于k- means 和肘部法則的活動(dòng)視圖感知的路徑聚類算法,即采用k- means 和肘部法則預(yù)測(cè)類簇中心的數(shù)量,依據(jù)預(yù)測(cè)結(jié)果對(duì)路徑向量進(jìn)行聚類,提升聚類準(zhǔn)確性,從而在系統(tǒng)分析的實(shí)際應(yīng)用中降低流程建模的難度。