• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      可解釋性預(yù)測分析方法的研究

      2022-07-20 08:40:26李慶國
      西北大學學報(自然科學版) 2022年4期
      關(guān)鍵詞:解釋性模糊集分析模型

      李慶國,康 蘊,余 斌

      (1.湖南大學 數(shù)學學院,湖南 長沙 410082; 2.湖南師范大學 信息科學與工程學院,湖南 長沙 410006)

      粗糙集(rough set)理論[1-2]是一種理想的處理復(fù)雜不確定問題的數(shù)學工具。在知識表示上,它通過數(shù)據(jù)集合的近似來描述對象之間的不確定關(guān)系;在知識發(fā)現(xiàn)上,它在保持分類能力不變的前提下,通過屬性約簡導(dǎo)出概念的分類或決策規(guī)則。它被廣泛應(yīng)用于模式識別、不確定性分析、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)和決策等領(lǐng)域。粗糙集模型也是一種典型的粒計算理論模型[3],經(jīng)典的Pawlak粗糙集理論是利用等價類來描述“粒度”,用等價關(guān)系所誘導(dǎo)的劃分來描述粒度空間。從二元關(guān)系來看,基于等價關(guān)系的Pawlak粗糙集模型太過嚴格;從粒度空間來看,Pawlak粗糙集模型刻畫的粒度空間太過寬松,所以經(jīng)典的Pawlak粗糙集遠不能滿足實際應(yīng)用的需求。因此,學者們基于這兩個方面進行改進,提出了一些極具代表意義的拓展的粗糙集模型:模糊粗糙集、粗糙模糊集、概率粗糙集、鄰域粗糙集、覆蓋粗糙集以及各種多粒度粗糙集等,對復(fù)雜的數(shù)據(jù)系統(tǒng)進行屬性約簡和決策[4-6]?;诖植诩碚撛谔幚韽?fù)雜數(shù)據(jù)系統(tǒng)上的優(yōu)勢,學者們提出結(jié)合粗糙集及其拓展模型對復(fù)雜系統(tǒng)進行預(yù)處理,降低數(shù)據(jù)維度,再結(jié)合機器學習進行預(yù)測。如,結(jié)合粗糙集理論及其拓展模型構(gòu)建的社交鏈接的預(yù)測模型[7]、太陽活動預(yù)測模型[8]、痛風預(yù)測[9-10]、零件制造過程質(zhì)量預(yù)測[11]等。另外,Zhao等和Lei等基于粗糙集進行屬性約簡,再分別結(jié)合模糊Bandelet神經(jīng)網(wǎng)絡(luò)和深度學習對葉輪壽命和建筑能耗進行預(yù)測[12-13];Halder等通過構(gòu)造粗糙模糊分類器對微陣列基因表達數(shù)據(jù)進行癌癥預(yù)測[14];Albuquerque等基于粗糙集分類對熱帶河流水質(zhì)進行大規(guī)模預(yù)測[15]。此外,還有直接結(jié)合機器學習理論的技術(shù)來處理預(yù)測問題[16-18]。然而,現(xiàn)有的基于粗糙集理論的預(yù)測分析模型存在以下兩個方面的局限:

      1) 現(xiàn)有的預(yù)測分析模型預(yù)測的結(jié)果缺乏語義信息,存在可解釋性不足的局限性,致使進一步?jīng)Q策管理時會產(chǎn)生不信任預(yù)測結(jié)果的情況。

      2) 粗糙集及其拓展模型是從對象的角度來構(gòu)建,粗糙集中的二元關(guān)系度量的是對象之間的相關(guān)性,在進行預(yù)測時忽略了屬性之間的相關(guān)性對預(yù)測結(jié)果的影響,這將導(dǎo)致預(yù)測分析模型對多屬性系統(tǒng)的預(yù)測可能失效。

      因此,為了突破現(xiàn)有預(yù)測分析模型可解釋性不足的局限性,本文試圖另辟蹊徑,深度融合粗糙集理論,對當前的數(shù)據(jù)進行強化處理,挖掘數(shù)據(jù)系統(tǒng)中屬性之間的相關(guān)性對決策的影響,構(gòu)建一種全新的具有可解釋性的預(yù)測分析方法來保障后續(xù)的決策管理。

      1 面向?qū)傩缘拇植谀:P?/h2>

      現(xiàn)實情況中,對于多屬性系統(tǒng),屬性之間會存在某種關(guān)系,這種關(guān)系可以反饋到對象上,進而影響決策。因此,本文通過分析屬性之間的相關(guān)性,構(gòu)造基于屬性的模糊相似度,進一步分析屬性之間相關(guān)性對對象的影響,進而構(gòu)建粗糙模糊集模型?;趯傩缘哪:嗨贫鹊亩x如下:

      Sγ(a,b)=

      γ∈[0,0.5)

      (1)

      其中:U為論域;f(x,a)表示對象x在屬性a下的模糊隸屬度。然后,基于模糊相似關(guān)系進行粒度刻畫,其定義為

      (2)

      (3)

      在粗糙集理論中,粗糙集上、下近似將論域U劃分為3個區(qū)域,即正域、負域和邊界域。正域是粗糙集的下近似集,正域和邊界域共同構(gòu)成上近似集。從粗糙決策的角度來看,正域表示接受決策,負域表示拒絕決策,邊界域表示延遲決策。只有屬于下近似集才可接受的決策被認為是悲觀決策,而只要屬于上近似集就接受的決策被認為是樂觀決策。因此,本文將悲觀決策認為是從所有強相關(guān)性的屬性(入圍方案)中選擇值(收益)最小的保險決策;樂觀決策認為是從所有強相關(guān)性的屬性(入圍方案)中選擇值(收益)最大的冒險決策?;谶@個角度,可以從所有弱相關(guān)性的屬性(否決方案)中選擇值(收益)最小的決策來定義粗糙模糊集的負域。即

      (4)

      從粗糙模糊集對數(shù)據(jù)處理的角度來分析,其下近似和負域可以強化數(shù)據(jù)之間的區(qū)分性,有利于處理互斥類問題,可以用來構(gòu)建具有可解釋性的趨勢預(yù)測分析模型。

      2 可解釋性預(yù)測分析模型

      本文構(gòu)建的面向?qū)傩缘拇植谀:P陀幸韵聨追矫娴膬?yōu)勢:①從模型構(gòu)建的角度上考慮了屬性之間的相關(guān)性,有益于對象的預(yù)測分析;②模型本身進行數(shù)據(jù)處理時能夠強化原始數(shù)據(jù)區(qū)分性;③模型對論域的劃分是基于各類決策角度的傾向性,能為預(yù)測分析提供可解釋性。因此,本文將結(jié)合面向?qū)傩缘拇植谀:瘉順?gòu)建一種具有可解釋性的趨勢預(yù)測分析模型。

      模型構(gòu)建思路如下:將多屬性系統(tǒng)看作是一個模糊系統(tǒng),每個對象是一個模糊集。將粗糙模糊集下近似(悲觀決策方案)和負域(否決方案)作為可解釋趨勢預(yù)測的目標函數(shù)。為預(yù)測某個備選對象的發(fā)展趨勢,首先,通過訓練集訓練模糊相似關(guān)系,通過聚類方法獲得具有強相關(guān)性的屬性集來刻畫粒度結(jié)構(gòu),再計算備選對象的粗糙模糊下近似和負域;然后,根據(jù)相似度或距離等評估方法來計算備選對象與粗糙模糊下近似和粗糙模糊集負域之間的相似度(或者距離);最后,再對相似度或者距離進行評估,進而實現(xiàn)趨勢預(yù)測的目的,獲得可解釋性的預(yù)測結(jié)果。

      實現(xiàn)該模型的具體步驟如下:

      1) 對數(shù)據(jù)集進行歸一化預(yù)處理。

      2) 構(gòu)建訓練集和測試集。

      3) 基于訓練集,從屬性的角度計算數(shù)據(jù)集的模糊相似關(guān)系,然后,基于某一水平刻畫粒度結(jié)構(gòu)。

      4) 計算測試集的粗糙模糊集上近似、下近似和負域。

      5) 評估測試集中各個備選對象與粗糙模糊下近似和粗糙模糊集負域之間的相似度(或者距離)。

      6) 根據(jù)步驟5)計算的結(jié)果進行趨勢預(yù)測。若與粗糙模糊下近似集更相似或接近,則認為趨向于悲觀決策方案所在類(保守類所代表的具有可解釋性的類別);若與粗糙模糊負域更相似或接近,則認為趨向于否決方案所在類(淘汰類所代表的具有可解釋性的類別)。

      7) 輸出預(yù)測結(jié)果。

      上述是本文提出的可解釋性預(yù)測分析模型的框架,該框架可對步驟3)~步驟6)進行拓展和優(yōu)化。即步驟3)中,屬性之間的相關(guān)性度量,可以采用其他二元關(guān)系進行度量;步驟4)和步驟5)中,可以構(gòu)建其他類型的粗糙集模型,并借助上近似(樂觀決策)和下近似(悲觀決策)進行可預(yù)測模型的構(gòu)建;步驟6)中,除了直接根據(jù)評估值進行判定外,還可以加入超參數(shù),實現(xiàn)3類及以上的可解釋性預(yù)測分析。

      綜上,本文提出的可解釋性預(yù)測分析方法的框架具有可擴展性和廣泛的適用性,對不同的預(yù)測分析問題如分類或聚類問題,均可處理。

      3 實驗對比分析

      3.1 實驗相關(guān)設(shè)置

      為了驗證本文提出的可解釋性預(yù)測分析模型的可行性和有效性,本文將該模型應(yīng)用于二分聚類的預(yù)測分析中。為了便于實驗區(qū)分和識別,將本文提出的模型命名為ARFC模型,并與現(xiàn)有聚類模型進行實驗對比研究,實驗相關(guān)設(shè)置如下:

      1) 選用UCI 數(shù)據(jù)庫(https:∥archive.ics.uci.edu/ml/datasets)中的5個數(shù)據(jù)集進行實驗,數(shù)據(jù)集的描述如表1所示。實驗之前需對數(shù)據(jù)集采用min-max標準化方法進行處理。

      2) 采用ARFC模型進行實驗的過程中,將數(shù)據(jù)集按7∶3的比例劃分訓練集和測試集;且ARFC模型采用余弦距離對備選對象與粗糙模糊下近似和粗糙模糊集負域之間的距離進行評估,以實現(xiàn)可解釋性的二分聚類預(yù)測。

      3) ARFC模型為了獲得最優(yōu)粒度結(jié)構(gòu)下的預(yù)測結(jié)果,需要對模型中的參數(shù)γ和δ進行遍歷。

      4) 選用了6種聚類算法進行了實驗對比研究,分別為:Kmeans++,KFCM,AHC-average,GMM-EM,Apclusterk,Spectral cluster。

      5) 采用了聚類有效性指標對各種聚類算法進行性能評估。其中外部指標5個:ACC (標簽預(yù)測精度),NMI (normalized mutual information),ARI (adjusted Rand index),F值(F-measure),Rand指數(shù) (Rand index)。內(nèi)部指標5個:KL (krzanowski-lai),Ha (hartigan),Hom(homogeneity),Sep (separation),Wtertra(weighted inter-to intra-cluster ratio)。所有指標中,除KL、Ha兩個指標的值越小,表示聚類性能越好,其余指標值越大,則表示聚類性能越好。

      3.2 實驗結(jié)果與分析

      表2為各個數(shù)據(jù)集下,采用ARFC模型進行聚類預(yù)測時,對模型中的參數(shù)γ和δ進行遍歷后獲得的最優(yōu)粒度結(jié)構(gòu)。

      表3~表12是各個數(shù)據(jù)集在不同聚類算法下獲得的聚類有效性評價指標的結(jié)果,其中,AFRC模型的結(jié)果是基于最優(yōu)粒度結(jié)構(gòu)獲得的。圖1~圖10是與表3~表12相對應(yīng)的網(wǎng)狀圖,圖形越接近五邊形(圖形面積越大)代表聚類效果越好。其中,由于KL、Ha兩個內(nèi)部指標的值越小,表示聚類性能越好,為了便于比較,圖6~圖10中的KL和Ha兩個指標是對表8~表12中的KL和Ha兩個指標中的數(shù)據(jù)進行了反比例處理而構(gòu)圖的。

      表1 數(shù)據(jù)集的詳細描述Tab. 1 Detailed description of data set

      表2 AFRC模型在各數(shù)據(jù)集下的最優(yōu)粒度結(jié)構(gòu)Tab.2 Optimal granularity structure of AFRC model under each datasets

      表3 各聚類算法下Cardoor的外部指標結(jié)果Tab.3 External index results of Cardoor under various clustering algorithms

      表4 各聚類算法下VeteranLungCancer的外部指標結(jié)果Tab.4 External index results of VeteranLungCancer under various clustering algorithms

      表5 各聚類算法下Wisconsin的外部指標結(jié)果Tab.5 External index results of Wisconsin under various clustering algorithms

      表6 各聚類算法下Ionosphere的外部指標結(jié)果Tab.6 External index results of Ionosphere under various clustering algorithms

      表7 各聚類算法下Sonar的外部指標結(jié)果Tab.7 External index results of Sonar under various clustering algorithms

      表8 各聚類算法下Cardoor的內(nèi)部指標結(jié)果Tab.8 Internal index results of Cardoor under various clustering algorithms

      表9 各聚類算法下VeteranLungCancer的內(nèi)部指標結(jié)果Tab.9 Internal index results of VeteranLungCancer under various clustering algorithms

      表10 各聚類算法下Wisconsin的內(nèi)部指標結(jié)果Tab.10 Internal index results of Wisconsin under various clustering algorithms

      表11 各聚類算法下Ionosphere的內(nèi)部指標結(jié)果Tab.11 Internal index results of Ionosphere under various clustering algorithms

      表12 各聚類算法下Sonar的內(nèi)部指標結(jié)果Tab.12 Internal index results of Sonar under various clustering algorithms

      圖1 Cardoor的外部指標網(wǎng)狀圖Fig.1 External indicator network of Cardoor

      圖2 VeteranLungCancer的外部指標網(wǎng)狀圖Fig.2 External indicator network of VeteranLungCancer

      圖3 Wisconsin的外部指標網(wǎng)狀圖Fig.3 External indicator network of Wisconsin

      圖4 Ionosphere的外部指標網(wǎng)狀圖Fig.4 External indicator network of Ionosphere

      圖5 Sonar外部指標網(wǎng)狀圖Fig.5 External indicator network of Sonar

      圖6 Cardoor的內(nèi)部指標網(wǎng)狀圖Fig.6 Internal indicator network of Cardoor

      圖7 VeteranLungCancer的內(nèi)部指標網(wǎng)狀圖Fig.7 Internal indicator network of VeteranLungCancer

      圖8 Wisconsin的內(nèi)部指標網(wǎng)狀圖Fig.8 Internal indicator network of Wisconsin

      圖9 Ionosphere的內(nèi)部指標網(wǎng)狀圖Fig.9 Internal indicator network of Ionosphere

      圖10 Sonar的內(nèi)部指標網(wǎng)狀圖Fig.10 Internal indicator network of Sonar

      聚類外部有效性指標結(jié)果可以看出,本文提出的預(yù)測分析模型具有明顯的優(yōu)勢。從內(nèi)部有效性指標結(jié)果來看,數(shù)據(jù)結(jié)果整體往KL和Ha兩個指標偏,反映出本文提出的模型與其他模型存在本質(zhì)上的差異性,這是由于本文模型深度融合了粗糙集理論進行預(yù)測分析。換個角度來說,在一定程度上表明本文提出的預(yù)測模型具有一定的創(chuàng)新性。其創(chuàng)新性主要體現(xiàn)在以下兩個方面:

      1)基于屬性之間的相關(guān)性對預(yù)測分析的影響,本文從對象的角度來度量屬性之間的相關(guān)性,進而構(gòu)建了屬性間模糊相似關(guān)系;

      2)從屬性的角度構(gòu)建粗糙模糊集模型對數(shù)據(jù)進行強化處理,進一步從粗糙決策的角度,構(gòu)建了具有可解釋性的目標預(yù)測函數(shù),進而實現(xiàn)可解釋性預(yù)測。

      4 結(jié)語

      本文提出了一種全新的、具備可解釋性的預(yù)測分析模型。該模型深度融合了粗糙集理論,從屬性的角度構(gòu)建了粗糙模糊集模型來強化原始數(shù)據(jù)區(qū)分性,再基于粗糙決策的角度設(shè)計具有可解釋性的目標函數(shù),進而評估預(yù)測對象與目標函數(shù),來實現(xiàn)可解釋性預(yù)測分析的目的。本文的研究為預(yù)測分析理論與方法提供了創(chuàng)新性的思路和方向。從模型構(gòu)建的框架來看,該模型具有廣泛的適用性,可以進一步拓展和改進不同領(lǐng)域可解釋性預(yù)測分析問題的處理,對研究復(fù)雜系統(tǒng)的預(yù)測分析和決策管理具有重大意義。

      猜你喜歡
      解釋性模糊集分析模型
      著力構(gòu)建可解釋性模型
      基于BERT-VGG16的多模態(tài)情感分析模型
      基于上下截集的粗糙模糊集的運算性質(zhì)
      論行政自由裁量的“解釋性控權(quán)”
      法律方法(2021年4期)2021-03-16 05:35:16
      融媒體時代解釋性報道的發(fā)展之路
      傳播力研究(2017年5期)2017-03-28 09:08:30
      層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
      E-不變凸模糊集
      非解釋性憲法適用論
      全啟發(fā)式語言分析模型
      E-廣義凸直覺模糊集①
      馆陶县| 拜城县| 嘉祥县| 澄城县| 方城县| 鸡东县| 额尔古纳市| 定兴县| 历史| 三江| 腾冲县| 通江县| 疏勒县| 林周县| 泸溪县| 永顺县| 嘉黎县| 衡阳县| 平罗县| 东乡族自治县| 丰原市| 丰台区| 昭苏县| 安宁市| 洞口县| 新泰市| 三原县| 上蔡县| 桐城市| 大城县| 同德县| 元谋县| 宁化县| 阿合奇县| 增城市| 庄河市| 尼玛县| 孟连| 兴国县| 民丰县| 丰县|