趙 靜, 包研科
(1 黔南民族師范學院數(shù)學與統(tǒng)計學院, 貴州都勻 558000; 2 遼寧工程技術大學理學院, 遼寧阜新 123000)
因素空間理論是汪培莊先生于1982 年提出,旨在描述隨機性和模糊性本質(zhì)規(guī)律的數(shù)學理論,與認知科學交互,成為數(shù)據(jù)科學與智能科學的基礎理論和概念與知識表達的普適性框架[1]。 2014 年,汪培莊發(fā)起并主導了因素空間在數(shù)據(jù)科學中的應用問題的討論。 同年,包研科[2-3]在因素分析法的基礎上,結合因素空間理論,提出名為“差轉計算(The set subtraction and rotation calculation,S&R)”的多因素決策算法,并深入討論了其決策過程的深層理論背景和幾何結構。
差轉計算以有監(jiān)督類數(shù)據(jù)為操作對象,挖掘其內(nèi)部蘊含的規(guī)律,表現(xiàn)為“if…,then….”結構的規(guī)則模型,其決策機制是建立在人腦解決分類問題的認知原理之上,在定性因素的多因素分類問題中取得了較好的實測效果[2]。 2017 年,包研科[4]給出定量因素上的差轉計算修正算法,拓展了差轉計算的應用場景。 自差轉計算提出以來,筆者所在團隊進行了大量的算法測試與驗證工作。 文獻[4-5]以及非公開的算法測試結果表明,差轉計算算法在定性變量的樣本數(shù)據(jù)集上,在規(guī)則挖掘效率和泛化性能上優(yōu)于定量變量的樣本數(shù)據(jù)集。
因素空間理論認為決策問題是問題研究所在論域內(nèi)概念的認知過程[5]。 決策過程實質(zhì)是論域內(nèi)研究對象的分類識別問題,從人工認知學角度來講,決策問題應當在條件信息數(shù)據(jù)與決策信息數(shù)據(jù)支撐下回到論域中進行討論樣本的歸屬。 基于此,差轉計算的決策機制是構建條件信息數(shù)據(jù)與決策信息數(shù)據(jù)到論域的凸包,并基于凸包內(nèi)樣本數(shù)據(jù)建立決策準則,誘導出“if…,then…” 語句的推理知識,同決策樹類似。 差轉計算的基本決策過程是基于統(tǒng)計信息構建數(shù)據(jù)空間到認知本體的劃分類,對于差轉計算的某一次決策過程,劃分形成等價類有3 類關系如圖1 所示。
圖1 等價類的3 種關系Fig. 1 Three relationships of equivalence classes
圖1 中A、B、C 表示差轉計算依條件信息數(shù)據(jù)與決策信息數(shù)據(jù)對論域形成的劃分類。 圖1(b)、(c)兩類關系可歸結為線性可分和完全包含關系的分類識別問題,現(xiàn)有算法如感知機、支持向量機等能夠很好解決此類問題。 關鍵問題在于如何有效識別圖1(a)中C區(qū)域中對象的歸屬。
不同分類算法在處理區(qū)域C時采用的方法不同,應用較為廣泛的方式是基于樣本數(shù)據(jù)采用降維技術將數(shù)據(jù)變換到區(qū)域A或B中,存在的風險是數(shù)據(jù)失真,進而可能導致分類結果不準確的情況。 在保證數(shù)據(jù)不失真的情況下,還能有效識別區(qū)域C內(nèi)對象歸屬問題,可以考慮采用升維的方法,從因素空間理論的角度來講,需要引入新的指標,即隱性條件因素的發(fā)現(xiàn),文獻[5]在這個方面做了突破性工作,但尚未進行深入研究。
本文基于因素空間和商集合理論背景下,提出一種基于信息粒度變換的數(shù)據(jù)處理方法,本質(zhì)是變換數(shù)據(jù)觀測視角,在不同視角下對論域進行劃分,形成有效決策知識。 為驗證本文所提方法的有效性,將該方法結合差轉計算,并應用于樣本數(shù)據(jù)為離散型的多因素分類決策問題中。
分類問題是人腦認知過程的主體,分類算法的設計過程應符合人工認知的4 個基本原理[5]。 為方便理解本文工作,就差轉計算所涉及概念進行闡述。
科學研究是在特定研究范圍內(nèi)對存在的問題進行證偽的過程,根本目的在于形成符合人類認知結構的知識,而知識由概念表達,概念的闡述由內(nèi)涵和外延對合構成。 差轉計算的根本目的是基于統(tǒng)計信息挖掘內(nèi)在規(guī)律性知識。
定義1稱問題研究過程中討論的所有對象ui構成的可列集合U為論域,記為式(1):
統(tǒng)計研究過程中,論域U內(nèi)研究對象是有限的,即式(2)
定義2稱滿映射,即f:U→If為定義在U上的因素,即對?ui∈U,在If存在一個性態(tài)特征d,使得f(ui)=d,If是論域U中對象ui在f上表達出的性態(tài)特征構成的集合,稱為f的相態(tài)空間。
實際應用過程中,性態(tài)d存在空置的風險,即統(tǒng)計樣本存在缺失值。 因素空間理論認為缺失值亦是特殊相態(tài)值。
因素按照其發(fā)揮的功能可分為條件因素和結果因素。 本文中若無特殊指代,一般因素指的是條件因素。 以有監(jiān)督數(shù)據(jù)為例,類別或標簽數(shù)據(jù)對應指標即為結果因素,提供決策信息;除結果因素以外的指標稱為條件因素,提供決策條件參考信息。 按照相態(tài)空間數(shù)據(jù)屬性可分為連續(xù)型因素和離散型因素。
定義3設映射滿足:稱為因素f的回溯(Recall)。
回溯是因素的廣義逆映射。 回溯概念的定義為條件信息數(shù)據(jù)與決策信息數(shù)據(jù)回到論域中進行構建劃分提供了方法和工具。 因此,由因素及回溯定義,不論是條件因素,還是結果因素,均具有兩個功能:
(1)因素是概念的本位屬性限定工具,即式(3)和式(4):
其中,[d]f是對象ui由因素f的回溯在論域U中構成的等價類,是概念外延在數(shù)據(jù)科學中的表達。
上述定義不僅建立了基于因素空間理論的數(shù)據(jù)挖掘算法獨特的數(shù)學基礎框架,亦可保證基于數(shù)據(jù)的概念表達內(nèi)涵描述與外延描述的一致性。
差轉計算的算法本質(zhì)就是將決策信息和條件參考信息構成的本體關系映射到條件因素上。
定義4設論域U中樣本容量為n,稱對各個樣本ui的順序編號構成的集合為U的秩序集。 若A是U/f中任意的含有s個對象的等價類, 記為A的秩序子集, 則稱為A的f—表征,記為Rf(A) 。
定義5設f和g是同時定義在論域U上的因素,對稱為等價類[l]g在f上的蹤影(Representation)。定義6稱為因f的相態(tài)排序而形成的第k個聚集子塊(簡稱子塊),滿足式(7)和式(8):
定義7設f和g是同時定義在論域U上的因素,其相態(tài)空間分別記為If、Ig,且If存在序關系,若?t∈If,?l∈Ig,滿足式(9):
則稱式(10)
為因素f對g的預測系數(shù)或決定度,并稱[t]f是[l]g的f決定類,其中pro(★ ) 表示對★求統(tǒng)計頻率。 若則稱f?為優(yōu)勢因素。
為清楚闡述定義4 ~定義7 描述概念及其轉換關系,假定對因素f的相態(tài)排序后形成如圖2 所示的概念轉換示意圖。
圖2 概念轉換示意圖Fig. 2 Concept conversion schematic
圖2 中,表示等價類[l]g由于因素f的相態(tài)空間排序而形成的第k個子塊。 決策問題是關于論域中對象歸屬問題的討論,因素g表征了決策信息,只能提供決策參考,從因素回歸到論域中進行討論是因素空間的基本思想。 因此,決策的本體關系是但決策的觀察是發(fā)生在因素f上的, 算法的表述是差轉計算算法原理如下:
差轉計算的算法原理[2]假定f和g是論域U上的離散型因素,由f和g定義的兩個概念記為
εf(ui,k)=(k,[k]f) 和εg(ui,r)=(r,[r]g),則復合推理句?ui∈U,若f(ui)=k,則g(ui)=r,恒真的充分必要條件是[k]f?[r]g。
基于前述定義及原理,差轉計算實現(xiàn)了由樣本數(shù)據(jù)空間到研究論域的分類決策過程,差轉計算在分類決策過程中的算法步驟:
算法差轉計算
輸入有限樣本數(shù)據(jù)集S見表1。
表1 有限樣本數(shù)據(jù)集STab. 1 Limited sample data sets
初始化:復合推理知識集合R=?;樣本集內(nèi)樣本個數(shù);
過程:差轉計算算法
(1)判斷是否大于0。 是,計算每個因素fi,i=1,2,…,m的決定度;否,算法結束;
(2)定位優(yōu)勢因素f?, 記其決定度為δf?, 轉(3);
(3)判斷δf?是否大于0。 否,則轉(5),算法結束;是,依據(jù)辨識決定類,則轉(4);
(4)形成推理語句R′: 若f?(ui)=t, 則g=l,將R′加入到R中,在S中刪除[t]f?對應數(shù)據(jù),更新S,則轉(1)。
輸出復合推理知識集合R,算法結束。
由上述過程可以看出,差轉計算算法結束的要求有:
(1)刪空操作數(shù)據(jù)集;
(2)在數(shù)據(jù)集非空情形下不能形成有效決定類,此類情形極容易造成決策信息丟失,進而影響算法泛化效果,本文核心工作在于利用粒度信息變換去解決此類情形下的決策問題。
另外,因素空間中因素分析法與差轉計算法在規(guī)則知識發(fā)現(xiàn)的過程中區(qū)別是第(4)步驟的不同,因素分析法既要刪除因素分析表中對應因素,又要刪除因素分析表中決定類對應數(shù)據(jù),而差轉計算僅刪除決定類對應數(shù)據(jù)。 從認知學角度來講,差轉計算更符合人腦辨識事物的過程。
分類決策研究最核心的問題在于辨識圖1 中區(qū)域C內(nèi)的對象的歸屬,存在不能描述不同類型的因素在概念形成過程中的作用的局限[5]。
因素空間中對于區(qū)域C的對象歸屬一般采用不同視角進行辨識,即利用不同因素構建等價類包含關系,但亦避免不了上述局限性。 數(shù)據(jù)科學中,大多算法對區(qū)域C的辨識,在實際應用中一般采用指標間相關性進行降維,將數(shù)據(jù)變換到區(qū)域A或B中,從而實現(xiàn)有效分類,但存在數(shù)據(jù)失真的問題,導致最終分類結果不準確的風險;值得一提的是決策樹算法在此類問題中表現(xiàn)出較好的特性,其決策過程依賴指標同樣本之間的統(tǒng)計數(shù)據(jù)構造指標分類節(jié)點,但亦存在依靠“貪心策略”得出的分類節(jié)點不可回溯,某些樹枝對應的規(guī)則的支持度相對較小,從而規(guī)則的可靠性也較小,很有可能使推理出來的規(guī)則存在系統(tǒng)誤差的問題[4];另外一種依賴統(tǒng)計數(shù)據(jù)構造推理知識的算法是關聯(lián)規(guī)則,其基本過程是采用水平組織逐層搜索的迭代方法形成推理知識,但其過度依賴數(shù)據(jù)樣本的背景空間,推理出的知識亦僅局限于數(shù)值關系表達,不符合人腦辨識事務的基本過程[6]。
為此,本文構造基于統(tǒng)計數(shù)據(jù)中因素升維觀測的粒度變換方法,進而結合差轉計算實現(xiàn)多因素知識挖掘過程。
因素空間中維度變換由因素的析取與合取運算實現(xiàn)。
定義8(因素的析?。?設f和g均為定義在論域U上的因素,稱運算h=f∧g=g∧f為因素f和g的析取運算。
因素的析運算旨在描述因素f和g在概念形成過程中的協(xié)同作用,進一步可理解為概念的分化功能,即析取因素越多,劃分的概念越明確。
其概念外延劃分功能由下述定理實現(xiàn):
定理1[5](析運算基本定理)U/f∧g?U/f°U/g,其中U/f°U/g為商集U/f與U/g的積。
定義9(因素的合?。?設f和g均為定義在論域U上的因素,稱運算c=f∨g=g∨f為因素f和g的合取運算。
因素的合取描述了因素f和g在概念形成過程中的協(xié)同作用,進一步可理解為概念的同化功能,即因素析運算中因素越多,劃分的概念越“粗糙”。
概念外延劃分功能由合運算基本定理實現(xiàn)。
定理2[5](合運算基本定理)U/f∨g?U/f+U/g,其中U/f+U/g為商集U/f與U/g的和。
上述定義及定理既實現(xiàn)了因素空間到數(shù)據(jù)空間的聯(lián)立,又實現(xiàn)了概念內(nèi)涵和外延之間的對合關系,圖1 中區(qū)域C內(nèi)對象的辨識問題實質(zhì)是分化概念對其外延的對合描述問題,是分化和同化的暫時平衡。
定義8、定義9 和定理1、定理2 為新因素的引入及其相態(tài)空間的構造提供了方法,新因素的引入旨在變換觀測角度,或提升觀測維度。
差轉計算在知識挖掘過程中以決定度為決策準則,依據(jù)人工認知基本原理,決定度過低不利于推理知識的形成,決定度過高則影響泛化性能;決定度過低,其樣本反變到圖1 中區(qū)域C內(nèi),無法進行有效辨識,此時,由定義8 可聯(lián)立因素進行升維觀測,旨在發(fā)現(xiàn)能夠辨識樣本的知識,升維的過程既涉及新因素的引入,又涉及新因素相態(tài)空間的構造,實質(zhì)是利用原始樣本數(shù)據(jù)重構數(shù)據(jù)空間。
為描述簡單,假設數(shù)據(jù)升維觀察僅涉及兩兩因素聯(lián)立,多因素聯(lián)立過程以以下步驟外推得到。 設D是論域U上原始有限樣本數(shù)據(jù)集,?fi,fj,i≠j為定義在D上的離散型條件因素,其相態(tài)空間分別為Ifi,Ifj,g為定義在D上的結果因素。 不失一般性,記Ig= {1,2,…,s} ,重構樣本數(shù)據(jù)空間過程中結果因素及其相態(tài)空間保持不變。 重構步驟如下:
輸入有限樣本數(shù)據(jù)集D
過程:數(shù)據(jù)升維算法
步驟1對因素分別求因素fi,fj在D內(nèi)的等價類,即分別代表Ifi,Ifj中相態(tài)種類數(shù);
步驟2求集族C={Cp,q |Cp,q=Ap∩Bq,Ap∈A,Bq∈B,p=1,2,…,n,q=1,2,…,l,Ap∩Bq≠φ};
步驟3求不相交并集族π(C) , 即若?Cz,Cr∈C,Cz≠Cr,Cz∩Cr≠?,在C中刪除Cz,Cr并將Cz∪Cr加入到π(C) 中;
步驟4記聯(lián)立因素為hi,j,此步驟為構造相態(tài)空間Ihi,j。 由步驟3,記則即有
為方便理解重構過程,以實例結合進行闡述。
記待挖掘數(shù)據(jù)集D見表2。
表2 待挖掘數(shù)據(jù)集DTab. 2 The dataset D to be mined
顯然,差轉計算決策準則此時不適用,無法進行有效知識挖掘,需進行數(shù)據(jù)升維觀測,旨在聯(lián)立因素擴大解析能力,形成有效決定類。
輸入有限樣本數(shù)據(jù)集D,即表2
步驟1因素f1在論域中形成的等價類為;因素f2在論域中形成的等價類為
步驟2求集族, 記
則有:
步驟3求不相交并集族π(C) , 判斷C內(nèi)元素是否存在交集,依秩序求交并放入π(C) 內(nèi),顯然C內(nèi)元素不存在交集,則
步驟4重構相態(tài)空間,記h1,2=f1∧f2,則Ih1,2為 {1,2,3,4,5,6}。
輸出變換數(shù)據(jù)集D′,見表3。
表3 變換數(shù)據(jù)集D′Tab. 3 Transformed dataset D′
顯然,在數(shù)據(jù)集D′ 上可以進行差轉計算,并且形成一一對應的知識類。
值得注意的是在較多因素下的因素升維變換觀測很有可能存在組合爆炸的問題,特別是二因素組合帶來的數(shù)據(jù)爆發(fā)式增長,極易帶來模型應用復雜度的提升。 針對這個問題,本文做出如下構想:可以基于因素輪廓構造決定靈敏綜合信息度量,在此基礎上可以衍生到在人工認知角度下的多因素適度組合問題,能夠很大程度上解決這一問題。
為驗證方法的有效性,將本文所提方法結合差轉計算,同時以在知識挖掘過程同為推理算法的決策樹作為對比算法,并以UCI 共享數(shù)據(jù)庫中較為經(jīng)典的Wisconsin Breast Cancer(簡記為WBC)為研究對象,采用留出法按比例9:1 將WBC 數(shù)據(jù)集劃分為訓練集和測試集,分別利用兩種算法對訓練集進行知識挖掘,將挖掘出的知識應用于測試集,采用錯誤率、查準率、查全率、敏感度和F1 綜合度量5 個指標對最終結果進行比較。
本文的知識挖掘及模型泛化過程代碼均基于MATLAB 2016b 根據(jù)差轉計算算法原理設計實現(xiàn),對比算法決策樹C5.0 的知識挖掘和泛化過程在商用軟件see5 上完成。
數(shù)據(jù)集WBC 共計699 個樣本,包含9 類條件因素和兩類結果因素,條件因素名稱、類型及值態(tài)分布見表4。
表4 數(shù)據(jù)集WBC 條件因素名稱及值態(tài)分布Tab. 4 WBC’s conditional factor name and value distribution
數(shù)據(jù)集WBC 有1 個結果因素,包含2 個相態(tài)良性(benign)和惡性(malignant),各有458 和241 個樣例;共有9 個條件因素,每個因素均有10 個相態(tài),相態(tài)值按細胞學特征從1-10 分為10 個等級,值態(tài)1 最接近結果因素的相態(tài)benign,值態(tài)10 最接近結果因素的相態(tài)malignant。
699 個樣本以留出法按9:1 劃分為訓練集和測試集,在良性(benign)和惡性(malignant)兩類別上的樣本數(shù)據(jù)分布見表5。
表5 樣本數(shù)據(jù)分布Tab. 5 Sample data distribution
測試分為兩個階段,分別為知識挖掘階段和知識泛化階段。 差轉計算在訓練集上知識挖掘經(jīng)歷兩個過程,分別是單因素決策知識的提取和雙因素析取運算下決策知識的挖掘,挖掘出的推理語句序列見表6。
表6 規(guī)則知識挖掘結果表Tab. 6 The result of rule-knowledge mining
差轉計算在訓練集上共計操作12 次,前9 次為單因素規(guī)則知識挖掘,第9 次知識挖掘后訓練集非空,剩余426 組樣本數(shù)據(jù);此時單因素不能形成有效決定類,需引入雙因素進行信息粒度變換,變換后樣本維度為426×37,變換數(shù)據(jù)挖掘形成第10~12 組雙因素規(guī)則知識,這個過程僅3 次便使差轉計算收斂,收斂速度很快。 整個知識挖掘過程共計執(zhí)行0.323 s,知識挖掘速度小于在see5 上決策樹知識挖掘時間(0.532 s)。
表6 中知識的依次可解讀為:若因素(2)取值為5 或10 時,則結果為(malignant);若因素(2)取值不為5 或10 時,但因素(1)取值為9 或10 時,則結果為(malignant)。
從機器學習角度來講,知識的泛化一般需要在訓練集和測試集上分別進行。 對于知識在訓練集上的泛化,不論是從差轉計算算法原理,亦或是筆者所作的大量實驗來看,差轉計算均能在訓練集上實現(xiàn)高效決策,準確率幾乎達到100%,表明差轉計算的學習過程不會產(chǎn)生冗余規(guī)則;但決策樹并不能達到這一目標。
另外,差轉計算及決策樹經(jīng)驗推理系統(tǒng)在測試集上的泛化結果見表7 和表8。
表7 差轉計算經(jīng)驗推理系統(tǒng)泛化結果Tab. 7 Generalization results of empirical reasoning systems for set subtraction and rotation calculation
表8 決策樹經(jīng)驗推理系統(tǒng)泛化結果Tab. 8 Generalization results of empirical reasoning systems for decision tree
若著重關注結果malignant,則兩種算法的5 個評估指標結果見表9。
表9 算法評估指標結果Tab. 9 Algorithm evaluation results
可以看出差轉計算學習能力是較好的,其經(jīng)驗推理系統(tǒng)的泛化能力也與決策樹相當,但整體知識的泛化速度要更快。
差轉計算算法本質(zhì)是根據(jù)單一條件信息與決策信息在論域中形成的等價類包含關系誘導出概念知識,但存在不能描述不同類型的因素在概念形成過程中的作用的局限。 為解決這一問題,本文在因素空間及商集合理論的基礎上定義因素析取、合取概念,借此實現(xiàn)數(shù)據(jù)的粒度變換。 實證結論表明本文提出方法是有效的,能夠描述不同類型的因素在概念形成過程中的作用,亦能促使差轉計算快速收斂,同時挖掘出的知識在泛化過程中決策速率快、決策能力與決策樹等同。 另外,本文工作僅作為一個研究基礎,所涉及的概念轉移、因素組合爆炸問題以及知識的修正過程還有待深入研究。