周武慶,康向平,張超
1. 中國煙草總公司 山西省公司,山西 太原 030006 2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006
大數(shù)據(jù)時代,信息化輔助決策在煙草行業(yè)顯得愈發(fā)重要,基于數(shù)據(jù)挖掘和人工智能技術(shù)的煙草信息化系統(tǒng)近年來得到了快速發(fā)展。經(jīng)過十余年的信息化建設(shè),全國煙草行業(yè)的信息化網(wǎng)絡(luò)已初步建成[1]。然而,當(dāng)前煙草信息系統(tǒng)中仍存在一些瓶頸,尤其是輔助決策系統(tǒng)主要依賴于簡單的統(tǒng)計(jì)學(xué)方法,針對現(xiàn)實(shí)中諸多不確定性信息還無法有效處理[2-3]。隨著《煙草行業(yè)信息化發(fā)展規(guī)劃(2014—2020)》的正式發(fā)布,煙草行業(yè)對信息化建設(shè)的深度愈加緊迫,因此有必要研究不確定環(huán)境下的行業(yè)數(shù)據(jù)挖掘方法。
在構(gòu)建面向復(fù)雜問題的輔助決策系統(tǒng)時,通常需要處理兩大任務(wù),即評價或決策信息的表示,以及評價或決策信息的分析處理[4-5]。在信息表示方面,模糊理論將經(jīng)典集合論中隸屬度的取值范圍由0或1推廣到閉區(qū)間[0,1],可有效表示不確定性信息。隨后,諸多推廣模糊數(shù)據(jù)分析模型相繼被提出,從不同的角度完善了不確定性信息的表示手段[6-7]。其中,為了合理描述專家在決策過程中猶豫不決這一心理狀態(tài),美國學(xué)者Smarandache[8]于上世紀(jì)末同時引入了包含隸屬度、猶豫度和非隸屬度的序?qū)肀硎静淮_定性信息,隨后,猶豫模糊分析理論被建立,并在管理決策領(lǐng)域產(chǎn)生了廣泛的影響[9-11]。2015年,Ye[12]進(jìn)一步發(fā)展了猶豫模糊分析理論,提出了一種廣義的猶豫模糊理論,建立了猶豫中智集的概念,其可為煙草輔助決策信息的表示提供有效的理論工具[13-14]。此外,在評價和決策信息分析處理方面,RS理論從確定性規(guī)則與可能性規(guī)則的角度出發(fā),通過下近似集合與上近似集合來進(jìn)行數(shù)據(jù)挖掘,是一種行之有效的管理決策工具[15-18]。在眾多RS模型之中,概率粗糙集(probabilistic rough set,PRS)模型通過引入條件概率,能夠降低錯誤分類對最終決策結(jié)果的影響,可為煙草輔助決策信息的分析提供具有較強(qiáng)穩(wěn)定性和魯棒性的方案[19-21]。
總的來講,針對復(fù)雜的評價和決策問題,傳統(tǒng)統(tǒng)計(jì)學(xué)存在一定局限性,相關(guān)研究正逐步向更高級更復(fù)雜的方向持續(xù)演進(jìn),在此背景下,本文研究,無論是對于豐富相關(guān)理論,還是更好地輔助管理決策,顯然都是有意義的。
通常,在處理復(fù)雜評價和決策問題時,人們往往會從多個不同角度去看待問題,盡管角度不同,結(jié)果會有差異,但綜合起來卻可能是一個相對全面客觀的評價,在這方面,正反兩方面評價就是一種最常見的方式。例如,當(dāng)對一個人的品行進(jìn)行評價時,如果基于正面評價的結(jié)論是:“他是一個有擔(dān)當(dāng)、講責(zé)任、明規(guī)矩的人”,基于反面評價的結(jié)論是“他不是一個卑劣、庸俗、自私的人”,盡管正反兩方面評價出發(fā)點(diǎn)不一樣,但目標(biāo)指向卻是一致的,在此情形下,綜合起來更能充分說明:這個人是一個具有良好品行的人。事實(shí)上,無論是對于什么樣的評價客體,只要是遵循上述評價理念,評價的結(jié)果一般都不會出現(xiàn)太大的偏差。
當(dāng)然,在實(shí)際評價和決策中,除了多視角綜合分析外,可能更需要人們統(tǒng)籌考慮以下影響因素:
1)應(yīng)注重評價人的自身心理狀態(tài)。評價時,評價人可能會猶豫不決。猶豫,說明對事物的評價沒有足夠把握,結(jié)果不一定準(zhǔn)確、可信度較低;相反,不猶豫,則說明可信度較高。事實(shí)上,這樣的心理因素是非常重要的。一定程度上來講,評價人不僅僅是評價主體,同時也是評價客體,需要對自身猶豫心理給出一個客觀合理的評價,只有這樣,才能從根源上客觀反映出評價結(jié)果的合理性。
2)應(yīng)注重評價和決策結(jié)果的不唯一性。以正面評價為例,如果滿分是100分的話,結(jié)論也許是一個范疇,如80~90分,亦或是這個范疇中的多個值,如80分、85分、88分等,這些值可能無法取舍,都具有一定的合理性。在此情形下,如果一味強(qiáng)調(diào)評價結(jié)果的唯一性,而忽視評價結(jié)果的多樣性,那么評價結(jié)果可能是片面的,是不完整的。同樣,對于反面評價,或者是評價人對自身心理狀態(tài)的評價,都可能會面臨評價結(jié)果不唯一這樣的實(shí)際情況。
3)應(yīng)注重評價和決策的模糊性。在確定性邏輯下,人們對于事物的判定結(jié)果只有“0”和“1”兩種情況,非此即彼,二者必居其一。然而,邊界的模糊性是普遍存在的,甚至是像高與底、強(qiáng)與弱、好與壞等這些明顯對立特征的概念也沒有絕對分明的邊界。在此情形下,確定性邏輯盡管簡單易懂易用,但在處理一些復(fù)雜的評價或決策時,往往不利于人們從看似不相關(guān)的復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)一些潛在的有價值的知識。例如,當(dāng)評價一個人是否年輕時,也許沒有一個肯定的回答(用“1”表示),或一個否定的回答(用“0”表示),只能是給出一個介于“0”和“1”之間的中間值,即用“隸屬于年輕人群體的大小程度”去度量這種模糊情況。
在實(shí)際應(yīng)用中,當(dāng)人們統(tǒng)籌考慮上述因素去處理一些相對復(fù)雜的評價和決策問題時,如果僅僅是依賴于一些傳統(tǒng)的評價方法或模型,評價結(jié)果可能會失真,與實(shí)際存在較大的偏差。近年來,盡管相關(guān)研究取得了一定進(jìn)展,但尚處于初始階段,尤其是,猶豫,這種反映評價人心理的客觀事實(shí),在數(shù)據(jù)建模關(guān)鍵步驟中尚未得到足夠的重視,心理學(xué)與統(tǒng)計(jì)學(xué)的融合問題仍有待進(jìn)一步深入研究。
為有效應(yīng)對復(fù)雜數(shù)據(jù)背景下不確定性問題建模、分析與計(jì)算任務(wù),適應(yīng)更復(fù)雜環(huán)境下的評價和決策需求,為解決煙草行業(yè)輔助決策系統(tǒng)在處理不確定性決策信息時存在的局限性,本文統(tǒng)籌考慮正反兩個方面的模糊評價、評價人對自身心理狀態(tài)的評價,以及評價結(jié)果的多樣性,嘗試借助模糊論、概率論,以及RS理論等,從信息表示與信息分析兩個層面出發(fā),去探討一種廣義上的數(shù)學(xué)分析方法。該方法涉及心理因素分析,應(yīng)用范圍較廣,可以為卷煙品牌發(fā)展評價、生產(chǎn)經(jīng)營管理決策提供一定的理論支持,也可以為科學(xué)合理設(shè)計(jì)煙草行業(yè)計(jì)算機(jī)輔助決策系統(tǒng)提供有益參考。
基于上一節(jié)對評價或決策理念的認(rèn)知,本文選用廣義猶豫模糊理論,即基于猶豫中智集作為信息表示工具,其中猶豫中智集的形式化定義為:
對于數(shù)據(jù)集U,一個猶豫中智集A由3個函數(shù)來刻畫,即隸屬函數(shù) C TA:U→int[0,1],猶豫函數(shù)CIA:U→int[0,1]和非隸屬函數(shù) C FA:U→int[0,1],int[0,1]代表[0,1]的冪集。在此意義下,猶豫中智集A被描述為[12]
基于不同的表示方法,展現(xiàn)的內(nèi)容和方式是不一樣的。事實(shí)上,相對于傳統(tǒng)方法,基于猶豫中智集的信息表示相對更為合理,信息量也更為豐富。例如:
模糊理論:隸屬度(單一值),非隸屬度(單一值),如〈 0 .6,0.1〉,其中0.6為隸屬度、0.1為非隸屬度。
猶豫模糊理論:隸屬度(單一值)、猶豫度(單一值)、非隸屬度(單一值),如 〈0 .6,0.1,0.1〉,其中0.6為隸屬度、0.1為猶豫度、0.1為非隸屬度。
廣義猶豫模糊理論(即猶豫中智集):隸屬度(單一值或多個值)、猶豫度(單一值或多個值)、非隸屬度(單一值或多個值),如〈(0.6,0.7),(0.1,0.2),其中0.6和0.7均為隸屬度、0.1和0.2均為猶豫度、0.05和0.1均為非隸屬度。
在信息分析處理方面,傳統(tǒng)方法同樣無法提供考慮錯誤分類對最終結(jié)論影響的機(jī)制,因此本文嘗試引用PRS模型作為信息分析工具。
假設(shè)U是一個數(shù)據(jù)集,(U, R )是一個近似空間,P是一個基于σ代數(shù)的概率度量,則(U, R,P)是一個概率近似空間。常見的概率分布如正態(tài)分布的概率密度函數(shù):
拉普拉斯分布概率密度函數(shù)(:)
伯努利分布概率密度函數(shù):
上述PRS模型,主要是用于數(shù)據(jù)分類處理,即將待評價數(shù)據(jù)集最終劃分為3個不同的類:一類是正域 P OS(X,α,β),正域中的數(shù)據(jù)肯定屬于集合X;一類是邊界域 B ND(X,α,β),邊界域中的數(shù)據(jù)可能包含于集合X;最后一類是負(fù)域 N EG(X,α,β),負(fù)域中的數(shù)據(jù)肯定不屬于集合X。此外,閾值參數(shù)α、β,代表對于決策失誤的容忍度,即專家做出錯誤決策在一定程度下也不會影響正確決策結(jié)論的得出。
在現(xiàn)實(shí)生活中,人們通常會做出各種各樣的評價和決策,但大多數(shù)情況下,這些決策更多是一種匹配性的決策。例如,當(dāng)消費(fèi)者在選擇卷煙品牌時,其購買前,一定是有內(nèi)在訴求的,即每個消費(fèi)者心目中都會有一個理想的品牌,以及相應(yīng)的理想評價集合(即,針對理想品牌每一項(xiàng)評價指標(biāo)預(yù)先給出的理想期待值,如品牌焦油含量要低、卷煙質(zhì)量要過硬、香型要清香、濃香、中間香或雅香、外包裝設(shè)計(jì)要精美、品牌文化要得到認(rèn)同、價格要適中……)。在實(shí)際購買中,當(dāng)面對n個不同的卷煙品牌,消費(fèi)者同樣也會從焦油含量、香型、外包裝設(shè)計(jì)、品牌文化、價格等m個角度做出現(xiàn)場評價(本質(zhì)上是建立n個品牌與m個評價指標(biāo)之間的評價矩陣),與消費(fèi)者內(nèi)心期待相近、相吻合、匹配程度較高的即為消費(fèi)者心儀的卷煙品牌(本質(zhì)上是將理想評價集合與決策矩陣進(jìn)行匹配)。
對于如何匹配,本文引入了條件概率的建模思想。從本質(zhì)上來講,條件概率模型本身就是一個典型的匹配性決策模型,通常,條件概率模型表示為
即在事件B發(fā)生的條件下,事件B和事件A同時發(fā)生的概率。在本文中,決策矩陣可以理解為“條件部分”,對應(yīng)事件B;理想評價集合可以理解為事件A;事件A和B同時發(fā)生的概率可以理解為它們之間的匹配情況。
當(dāng)然,基于上述條件概率思想得到的結(jié)果通常表現(xiàn)為具體的數(shù)值,尚不能給出最終的決策結(jié)論,后續(xù),仍需要通過某種機(jī)制將數(shù)值轉(zhuǎn)化為具體的決策方案。為此,本文擬引入閾值、融入RS理論建模思想,通過對數(shù)據(jù)進(jìn)行篩選,可以進(jìn)一步確定理想評價集合的正域、負(fù)域、邊界域,并最終得到問題的決策方案,其中,正域與理想目標(biāo)最接近,其次分別為邊界域和負(fù)域,正域中方案即為最佳決策方案。
遵循上述建模機(jī)理,本文設(shè)計(jì)了如下數(shù)據(jù)分析模型。
猶豫中智集合A,本文將其下近似集合與上近似集合分別定義為
上述模型是一種多理論融合的形態(tài),也是一種相對通用的知識表示和分析處理框架,能充分體現(xiàn)評價人的主觀意識和決策心理,可以為復(fù)雜情況下相關(guān)評價和決策提供一定的理論支撐。
在卷煙品牌選擇中,上述模型可以勾勒出消費(fèi)者所心儀品牌的范圍,范圍之內(nèi)的區(qū)域稱為正域,范圍之外的區(qū)域稱為負(fù)域,范圍邊界上的區(qū)域稱為邊界域。如果一個品牌經(jīng)過匹配,確定其處于正域,則說明該品牌一定是消費(fèi)者心儀的品牌;相反,確定其處于負(fù)域,則說明該品牌距離消費(fèi)者的訴求還有很大差距;如果一個品牌經(jīng)過匹配,確定其處于邊界域,則說明該品牌介于上述心儀和不心儀兩種情況之間,消費(fèi)者購買欲可能會不太強(qiáng)烈。
本文能為卷煙品牌定性定量分析評價、生產(chǎn)經(jīng)營管理決策提供更為合理的理論支持。以煙草品牌發(fā)展?jié)摿Ψ治鰹槔?,假設(shè)數(shù)據(jù)集U:x1,x2,···,xm是待評價的煙草品牌集合, V :y1,y2,···,yn是由若干個評價指標(biāo)組成的評價指標(biāo)集,A是行業(yè)或企業(yè)針對理想品牌每一項(xiàng)評價指標(biāo)預(yù)先給出的理想評估值。
首先,針對兩個數(shù)據(jù)集U和V,由專家建立U×V上的一個猶豫中智關(guān)系R。在此基礎(chǔ)上,基于
在概率近似空間中,對照理想品牌的指標(biāo)符合性狀態(tài),確定4個待評估品牌與理想目標(biāo)A的匹配情況,在此基礎(chǔ)上,求解A的正域、負(fù)域、邊界域,其中正域中的品牌均為潛力品牌;負(fù)域中的品牌不具有發(fā)展?jié)摿?;邊界域中的品牌為待定品牌,需要進(jìn)一步評估。具體求解步驟如下。
輸入 品牌集U,指標(biāo)集V,理想品牌的理想評估值集A。
輸出 有發(fā)展?jié)摿Φ臒煵萜放啤?/p>
3) 設(shè)定閾值α、β、ε;
6) 依據(jù)正域、負(fù)域、邊界域,確定各類卷煙品牌的發(fā)展?jié)摿?,其中正域中品牌即為潛力品牌?/p>
end
接上例,假設(shè)集合U中包含4個待評價的卷煙品牌x1,x2,x3,x4;集合V中包含5個具體的評價指標(biāo)y1,y2,y3,y4,y5,如品牌市場狀態(tài)、銷售規(guī)模體量、創(chuàng)新性、消費(fèi)者普遍接受程度等指標(biāo);集合A是一個理想評價集合,即針對每一項(xiàng)評價指標(biāo),由行業(yè)或企業(yè)預(yù)先給定的理想評價值,其中
專家給定的閾值:
為簡化分析,暫不考慮ε因素?;谏鲜銮爸眯孕畔?,依據(jù)專家評價意見構(gòu)建U×V上的猶豫中智關(guān)系R,詳見表1。
表1 一個猶豫中智關(guān)系
確定理想目標(biāo)集A的正域、負(fù)域、邊界域:
依據(jù)上述計(jì)算結(jié)果,得到最終決策結(jié)論:
1)正域結(jié)論:品牌x1具有發(fā)展?jié)摿Α?/p>
2)負(fù)域結(jié)論:品牌x4不具有發(fā)展?jié)摿Α?/p>
3)邊界域結(jié)論:品牌x2和x3為待定品牌,需要進(jìn)一步評估。
1) 針對目前多大數(shù)煙草輔助決策系統(tǒng)依賴傳統(tǒng)統(tǒng)計(jì)學(xué)分析,無法對復(fù)雜評價和決策信息有效表示與分析的局限性,本文通過融合RS理論、概率論、模糊論,以及心理學(xué)等,提出了一種合理的數(shù)據(jù)分析模型。
2) 該模型能充分體現(xiàn)評價人的主觀意識和決策心理,具有較強(qiáng)的容錯能力,一定程度上可以為煙草行業(yè)輔助決策系統(tǒng)建設(shè)提供有益參考。