,,
大數(shù)據(jù)時代,過載的信息一方面給人們帶來了更為廣泛的數(shù)據(jù)來源,另一方面對信息的快速聚合和處理提出了更高的要求,即資源深度開發(fā)與廣度關(guān)聯(lián)。換言之,需要對信息進行更深層次的融合,根據(jù)目標進行耦合,推送智能聚合的結(jié)果。本文面向案例分析,根據(jù)資源深度開發(fā)與廣度關(guān)聯(lián)的需求,提出了一種基于數(shù)據(jù)關(guān)聯(lián)的信息聚合模型,旨在不同類型信息間建立不同角度聚合關(guān)系并進一步形成耦合,并以實例說明該模型在醫(yī)學(xué)信息決策輔助領(lǐng)域的應(yīng)用場景。
信息聚合是指從不同的數(shù)據(jù)源匯集分析相關(guān)信息和解決這些信息在語義方面的異構(gòu)性,并提供基于數(shù)據(jù)源之間關(guān)系、業(yè)務(wù)過程的聚合等功能[1-3]。目前,信息聚合模型在圖書情報領(lǐng)域得到了廣泛的應(yīng)用,包括基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型[4]、將知識聚合模型應(yīng)用于數(shù)字圖書館的智能檢索模型[5]、基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館資源聚合與服務(wù)研究[6]、基于耦合關(guān)系的學(xué)術(shù)信息資源深度耦合分析[7],基于共現(xiàn)與耦合的館藏數(shù)字文獻資源聚合4層模型[8]。以上研究對學(xué)術(shù)資源的聚合進行了深層分析,然而在實際決策支持應(yīng)用系統(tǒng)中,除了學(xué)術(shù)資源之外,還存在領(lǐng)域統(tǒng)計數(shù)據(jù)、信息動態(tài)、案例等大量異構(gòu)資源。因此需要建立一個統(tǒng)一的信息聚合模型,并將這些數(shù)據(jù)用于案例分析,為決策提供支持服務(wù)。
本文基于語義特征,建立了多個二元聚合關(guān)系,并進一步基于多個二元聚合關(guān)系建立了案例之間的耦合,以輔助決策制定。
參考面向政府決策的知識管理系統(tǒng)模型[9],本文結(jié)合領(lǐng)域知識建立了一個決策輔助知識管理系統(tǒng)(圖1),并應(yīng)用語義關(guān)聯(lián)技術(shù)建立了一個信息聚合模型??紤]到政府決策人員在決策時的知識需求,本文選取了靜態(tài)信息、動態(tài)信息和案例信息3類信息,其中靜態(tài)信息包括政策法規(guī)、專家信息、領(lǐng)域統(tǒng)計數(shù)據(jù)、學(xué)術(shù)論文和研究報告,動態(tài)信息主要為行業(yè)動態(tài)等。
圖1 面向決策支持的知識管理系統(tǒng)模型
在該模型中,異構(gòu)資源經(jīng)整合后,規(guī)范存儲為數(shù)據(jù)庫資源。該資源一方面用于建立領(lǐng)域主題詞表,另一方面用于進一步建立索引、提取語義特征。根據(jù)語義特征和領(lǐng)域主題詞表,首先形成案例與各資源的聚合,并進一步形成案例之間的耦合,最終用于決策咨詢。
圖1中的信息聚合模塊所用到的面向決策支持的信息聚合模式如表1所示。關(guān)聯(lián)維度分為案例特征關(guān)聯(lián)維度的不同關(guān)聯(lián)路徑對應(yīng)的聚合模式為基于語義特征的聚合模型,案例評價過程關(guān)聯(lián)維度為基于聚合關(guān)系的耦合模型。
在聚合模型的數(shù)據(jù)關(guān)聯(lián)過程中,不僅考慮了屬性權(quán)重,即相關(guān)性;還結(jié)合了資源的權(quán)威性,即重要性。模型的數(shù)學(xué)描述如下:
式中,d表示文檔,dq代表待決策案例,dc代表候選各個資源類型文檔,f(dq, dc)代表dq和dc的耦合指數(shù),Wn代表字段n的權(quán)重因子,A(dc)代表dc的權(quán)威因子,g代表字段根據(jù)詞匹配的得分。其中,權(quán)威因子A(dc)∈[0,1]。權(quán)威因子A(dc)綜合考慮了資源來源權(quán)威性排序以及發(fā)表時間:資源來源的可靠性越高(如期刊的影響因子值越高),權(quán)威因子A(dc)越高;發(fā)表時間與當(dāng)前時間的時間差越小,權(quán)威因子A(dc)越高。
權(quán)向量 W=(w1,w2,…,wn)滿足wi∈[0,1]。權(quán)重因子wi越大,代表該字段越重要。
權(quán)威因子和權(quán)向量需根據(jù)具體領(lǐng)域進行調(diào)試。
表1 面向決策支持的信息聚合模式
應(yīng)醫(yī)學(xué)情報機構(gòu)強化衛(wèi)生決策情報服務(wù)功能的需求[10],本文把信息聚合模型應(yīng)用于衛(wèi)生信息領(lǐng)域。以一個典型的突發(fā)公共衛(wèi)生事件:中東呼吸綜合癥“MERS”為例,用信息聚合模型對該主題信息進行分析,取排序為前20條的聚合結(jié)果(top 20結(jié)果)。具體的數(shù)據(jù)關(guān)聯(lián)項及其權(quán)重產(chǎn)參數(shù)設(shè)置詳見表2所示。
表2 衛(wèi)生信息領(lǐng)域信息聚合模型關(guān)鍵參數(shù)設(shè)置
根據(jù)表2的數(shù)據(jù)關(guān)聯(lián)項及其權(quán)重設(shè)置,輸入“突發(fā)公共衛(wèi)生事件中東呼吸綜合癥‘MERS’”,系統(tǒng)返回的top 20結(jié)果中出現(xiàn)了有助于輔助決策的信息資源。具體返回的信息舉例如表3所示。
表3 面向公共衛(wèi)生事件的MERS分析的信息聚合結(jié)果舉例
從表3可以看出,通過基于數(shù)據(jù)關(guān)聯(lián)的信息聚合模型以及具體參數(shù)調(diào)試,可在top 20結(jié)果列表中獲取可供決策參考使用的有效信息,包括衛(wèi)生政策、學(xué)術(shù)論文、研究報告和信息動態(tài)等。
本文從信息特征間關(guān)聯(lián)和信息利用過程關(guān)聯(lián)的角度出發(fā),對信息聚合的維度、路徑、模式及其應(yīng)用范圍等進行了較深入的研究,建立了一個基于數(shù)據(jù)關(guān)聯(lián)的信息聚合模型。該模型在醫(yī)學(xué)信息領(lǐng)域的應(yīng)用表明其在特定領(lǐng)域的案例分析中具有可行性??紤]到模型的參數(shù)設(shè)置具有經(jīng)驗性,還存在較大的改進空間。另外,由于模型選取的特征僅利用了基于領(lǐng)域詞典的語義信息,更深層次的語義信息如本體信息,隱含語義信息等,會加強資源挖掘的深度。