王偉, 武君勝, 朱志祥, 楊文超
1.西北工業(yè)大學(xué) 軟件與微電子學(xué)院, 陜西 西安 710072; 2.西安郵電大學(xué) 物聯(lián)網(wǎng)與兩化融合研究院, 陜西 西安 710061; 3.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 陜西 西安 710072
Gau和Buehrer在1993年提出的Vague集理論[1]是對(duì)Fuzzy集的補(bǔ)充和擴(kuò)展。在處理不確定性信息時(shí),Vague集比傳統(tǒng)的模糊集有更強(qiáng)的表達(dá)能力和靈活性,是一種新型的處理模糊性問(wèn)題的數(shù)學(xué)分析模型。軟集理論[2]是Moldtsov在1999年提出的一種新的處理不確定性和不精確性信息的數(shù)學(xué)工具,該理論引入了參數(shù)化思想,克服了Vague集只能處理部分不確定性信息的不足,在模式識(shí)別、數(shù)據(jù)挖掘、模糊決策、圖像檢索等實(shí)際問(wèn)題中,有很大的應(yīng)用潛力。上述2種理論都從不同角度聚焦信息系統(tǒng)中知識(shí)的不確定、不完備和不精準(zhǔn)等問(wèn)題,在實(shí)際應(yīng)用時(shí)既相互聯(lián)系又相互補(bǔ)充,因此可以進(jìn)行融合,以發(fā)揮各自的優(yōu)勢(shì),彌補(bǔ)各自的不足。針對(duì)Vague集和軟集的融合問(wèn)題,文獻(xiàn)[3-6]將Vague集與軟集理論進(jìn)行結(jié)合,提出了新的Vague軟集模型,并研究了相關(guān)性質(zhì)及系列問(wèn)題,目前已成為一個(gè)新興的研究方向。在基于Vague軟集的不確定信息處理中,判定2個(gè)Vague軟集模式的相似度,是研究基于Vague軟集的知識(shí)劃分、模糊決策及綜合評(píng)判等問(wèn)題[7-9]的前提,吸引了眾多研究者的關(guān)注。
分析發(fā)現(xiàn),Vague軟集的本質(zhì)是具有Vague集區(qū)間特征的軟集。一個(gè)區(qū)間的特征,一般有4個(gè)重要的參數(shù),即其左(右)端點(diǎn)、區(qū)間長(zhǎng)度以及中點(diǎn)等。因此,在研究Vague軟集的相似度量方法時(shí)應(yīng)充分考慮Vague集的所有數(shù)值區(qū)間特征,包括真隸屬度、假隸屬度、猶豫度、核以及Vague值的區(qū)間中心等主要特征?,F(xiàn)有文獻(xiàn)給出的Vague軟集相似度量公式,大多是從部分因素來(lái)衡量Vague軟集的相似度量。如文獻(xiàn)[10-11]提出的Vague軟集相似度量衡量方法只考慮了Vague集的真隸屬度、假隸屬度以及核的差異性,卻忽略了猶豫度和Vague值的區(qū)間中心等特征因素;文獻(xiàn)[12]提出的Vague軟集相似度量公式,重點(diǎn)考慮了真隸屬度、假隸屬度以及猶豫度的差異性,沒(méi)有充分考慮Vague集核以及Vague值區(qū)間中心2個(gè)特征因素;文獻(xiàn)[13]基于歐式距離提出了一種考慮真隸屬度、假隸屬度以及猶豫度差異性的Vague軟集相似度量方法,忽略了Vague集核及區(qū)間中心2個(gè)特征因素;文獻(xiàn)[14]引入?yún)?shù)權(quán)重提出一種Vague軟集相似度量方法,但只考慮了Vague集真隸屬度、假隸屬度以及猶豫度的差異性;文獻(xiàn)[15]提出的Vague軟集相似度量公式只簡(jiǎn)單考慮了Vague集真假隸屬度的差異性。本文在上述研究的基礎(chǔ)上,將Vague值的區(qū)間中心這一重要特征引入Vague軟集相似度理論進(jìn)行研究,并給出了新的Vague軟集相似度量的定義及公理化證明,同時(shí)將結(jié)果應(yīng)用到網(wǎng)絡(luò)輿情綜合決策分析問(wèn)題,對(duì)與此相關(guān)的一些關(guān)鍵問(wèn)題進(jìn)行了探索性研究,本文的相關(guān)研究結(jié)果,可為網(wǎng)絡(luò)輿情評(píng)判等其他綜合決策問(wèn)題提供了理論基礎(chǔ)。
下面對(duì)有關(guān)基礎(chǔ)理論進(jìn)行描述。
Vague軟集模型描述如下:
定義1(Vague軟集) 設(shè)U是一個(gè)論域,E是一個(gè)參數(shù)集,A?E,且F:A→P(U)是一個(gè)映射,即對(duì)?e∈A,F(e)為U上的一個(gè)Vague集,稱(chēng)(F,A)為U上的一個(gè)Vague軟集。
定義2(Vague軟相等) 設(shè)(F,A)、(G,B)為U上的2個(gè)Vague軟集,若A?B,且對(duì)于?e∈A,x∈U,有tF(e)(x)≤tG(e)(x),fF(e)(x)≥fG(e)(x),則稱(chēng)(F,A)軟包含于(G,B)(或稱(chēng)(G,B)軟包含(F,A)),記作(F,A)?~(G,B)(或(G,B)?~(F,A));若有(F,A)?~(G,B)且(G,B)?~(F,A),則稱(chēng)(F,A)與(G,B)Vague軟相等。
定義3(Vague軟集的補(bǔ)集) 設(shè)(F,A)為U上的一個(gè)Vague軟集,稱(chēng)(F,A)c=(Fc,A)為(F,A)的補(bǔ),其中Fc:A→V(U),即對(duì)于?e∈A,x∈U,有:
tFc(e)(x)=fF(e)(x),1-fFc(e)(x)=1-tF(e)(x)
定義4(相對(duì)空的Vague軟集) 設(shè)U是一個(gè)論域,E是一個(gè)參數(shù)集,A?E,(F,A)為U上的一個(gè)Vague軟集,若對(duì)?e∈A,有x∈U,tF(e)(x)=0,1-fF(e)(x)=0,則稱(chēng)(F,A)為U上的一個(gè)相對(duì)空的(相對(duì)于參數(shù)集A)Vague軟集,記為φA。
定義5(相對(duì)全的Vague軟集) 設(shè)U是一個(gè)論域,E是一個(gè)參數(shù)集,A?E,(F,A)為U上的一個(gè)Vague軟集,若對(duì)?e∈A,x∈U,有tF(e)(x)=1,1-fF(e)(x)=1,則稱(chēng)(F,A)為U上的一個(gè)相對(duì)全的(相對(duì)于參數(shù)集A)Vague軟集,記為μA。
文獻(xiàn)[10]提出了Vague軟集間的相似度量應(yīng)滿(mǎn)足的公理化定義:
定義6設(shè)VSS(U)表示論域U上的Vague軟集,E是一個(gè)參數(shù)集,(F,E),(G,E)∈VSS(U),函數(shù)M:VSS(U)×VSS(U)→[0,1]稱(chēng)為Vague軟集間的相似度量。如果其滿(mǎn)足以下條件:
準(zhǔn)則1 有界性:M((F,E),(G,E))∈[0,1];
準(zhǔn)則2 對(duì)稱(chēng)性:M((F,E),(G,E))=M((G,E),(F,E));
準(zhǔn)則3 歸一性:M((F,E),(G,E))=1?(F,E)=(G,E);
準(zhǔn)則4 單調(diào)性:(F,E)?(G,E)?(H,E),則:
M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。
通過(guò)Vague軟集間相似度量的理化定義,可知2個(gè)Vague軟集間的相似度量越大,則這2個(gè)Vague軟集越相似。
針對(duì)已有文獻(xiàn)提出的Vague軟集間相似度量的局限性,下面提出一種新的Vague軟集間相似度量公式,充分考慮了Vague集的真隸屬度、假隸屬度、猶豫度、核以及Vague值的區(qū)間中心等區(qū)間特征因素。
定理1設(shè)U={x1,x2,…,xn}是一個(gè)論域,E={e1,e2,…,em}是一個(gè)參數(shù)集,VSS(U)表示論域U上的Vague軟集,已知(F,E),(G,E)∈VSS(U),則稱(chēng)下式為Vague軟集的相似度量:
M((F,E),(G,E))=
∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|]
式中,πF(ei)(xj)=1-tF(ei)(xj)-fF(ei)(xj)和πG(ei)(xj)=1-tG(ei)(xj)-fG(ei)(xj)分別為2個(gè)Vague軟集F(ei)和G(ei)中元素xj的猶豫度,它表征對(duì)于參數(shù)ei來(lái)說(shuō),現(xiàn)有證據(jù)對(duì)元素xj的棄權(quán)信息。SF(ei)(xj)=tF(ei)(xj)-fF(ei)(xj)和SG(ei)(xj)=tG(ei)(xj)-fG(ei)(xj)分別為2個(gè)Vague軟集F(ei)和G(ei)中元素xj的核,它表征對(duì)于參數(shù)ei來(lái)說(shuō),現(xiàn)有證據(jù)對(duì)元素xj支持和反對(duì)2種力量的對(duì)比。φF(ei)(xj)=1-tF(ei)(xj)+fF(ei)(xj)2和φG(ei)(xj)=1-tG(ei)(xj)+fG(ei)(xj)2分別為2個(gè)Vague軟集F(ei)和G(ei)中元素xj的區(qū)間中心。λi為參數(shù)ei的權(quán)重。
下面證明新的Vague軟集間相似度量是否滿(mǎn)足公理化定義。
證明:
(1) 易知:πF(ei)(xj)∈[-1,1],πG(ei)(xj)∈[-1,1],SF(ei)(xj)∈[-1,1],SG(ei)(xj)∈[-1,1],φF(ei)(xj)∈[0,1],φG(ei)(xj)∈[0,1],|tF(ei)(xj)-tG(ei)(xj)|≤1,|fF(ei)(xj)-fG(ei)(xj)|≤1,又:
|πF(ei)(xj)-πG(ei)(xj)|≤2,|SF(ei)(xj)-SG(ei)(xj)|≤2,|φF(ei)(xj)-φG(ei)(xj)|≤1。因此,
0≤[|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-
SG(ei)(xj)|+|φF(ei)(xj)-φG(ei)(xj)|]≤7;所以,
0≤1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|≤1,
則
0≤∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|]=∑mi=1λi·1=1,0≤M((F,E),(G,E))≤1,有界性成立,即能滿(mǎn)足準(zhǔn)則(1)。
(2) 由于
|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-SG(ei)(xj)|
+|φF(ei)(xj)-φG(ei)(xj)|=|tG(ei)(xj)-tF(ei)(xj)|+|fG(ei)(xj)-fF(ei)(xj)|+|πG(ei)(xj)-πF(ei)(xj)|
+|SG(ei)(xj)-SF(ei)(xj)|+|φG(ei)(xj)-φF(ei)(xj)|,故M((F,E),(G,E))=M((G,E),(F,E)),對(duì)稱(chēng)性成立,即能滿(mǎn)足準(zhǔn)則(2)。
(3) 由于M((F,E),(G,E))=1,故
|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|=0,所以,
|tF(ei)(xj)-tG(ei)(xj)|=|fF(ei)(xj)-fG(ei)(xj)|=
|πF(ei)(xj)-πG(ei)(xj)|=|SF(ei)(xj)-SG(ei)(xj)|
=|φF(ei)(xj)-φG(ei)(xj)|=0
故tF(ei)(xj)=tG(ei)(xj),fF(ei)(xj)=fG(ei)(xj),πF(ei)(xj)=πG(ei)(xj),即,歸一性成立,即能滿(mǎn)足準(zhǔn)則(3)。
(4) 因?yàn)?F,E)?(G,E)?(H,E),所以,
tF(ei)(xj)≤tG(ei)(xj)≤tH(ei)(xj),fF(ei)(xj)≥fG(ei)(xj)≥fH(ei)(xj),則:
|tF(ei)(xj)-tH(ei)(xj)|≥|tF(ei)(xj)-tG(ei)(xj)|,|fF(ei)(xj)-fH(ei)(xj)|≥|fF(ei)(xj)-fG(ei)(xj)|又:SF(ei)(xj)-SH(ei)(xj)=tF(ei)(xj)-tH(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),
SF(ei)(xj)-SG(ei)(xj)=tF(ei)(xj)-tG(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,
|SF(ei)(xj)-SH(ei)(xj)|≥|SF(ei)(xj)-SG(ei)(xj)|;
又:πF(ei)(xj)-πH(ei)(xj)=tH(ei)(xj)-tF(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),
πF(ei)(xj)-πG(ei)(xj)=tG(ei)(xj)-tF(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,
|πF(ei)(xj)-πH(ei)(xj)|≥|πF(ei)(xj)-πG(ei)(xj)|;
又,φF(ei)(xj)-φH(ei)(xj)=12[tH(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fH(ei)(xj)],φF(ei)(xj)-φG(ei)(xj)=12[tG(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fG(ei)(xj)],于是,
|φF(ei)(xj)-φH(ei)(xj)|≥|φF(ei)(xj)-φG(ei)(xj)|。
綜上:
1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+
|fF(ei)(xj)-fG(ei)(xj)|+
|πF(ei)(xj)-πG(ei)(xj)|+
|SF(ei)(xj)-SG(ei)(xj)|+
|φF(ei)(xj)-φG(ei)(xj)|≥
1-17n∑nj=1|tF(ei)(xj)-tH(ei)(xj)|+
|fF(ei)(xj)-fH(ei)(xj)|+
|πF(ei)(xj)-πH(ei)(xj)|+
|SF(ei)(xj)-SH(ei)(xj)|+
|φF(ei)(xj)-φH(ei)(xj)|
即M((F,E),(G,E))≥M((F,E),(H,E))。同理可得,M((H,E),(G,E))≥M((F,E),(H,E)),所以,
M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。單調(diào)性成立,即能滿(mǎn)足準(zhǔn)則(4)。
證畢。
如何基于數(shù)據(jù)挖掘關(guān)鍵技術(shù),實(shí)現(xiàn)高效暢通網(wǎng)上輿情的發(fā)現(xiàn)、分析、評(píng)估、預(yù)警、處置和反饋機(jī)制,是眾多輿情監(jiān)管部門(mén)亟待解決的重要問(wèn)題。對(duì)如何在傳播擴(kuò)散、民眾關(guān)注、內(nèi)容敏感性、信息透明度、響應(yīng)速度等多維度下,對(duì)網(wǎng)絡(luò)輿情事件的安全性進(jìn)行評(píng)估,從而甄別出苗頭性、敏感性、危害性較大的網(wǎng)絡(luò)輿情信息,是其中的關(guān)鍵環(huán)節(jié)。
設(shè)某輿情監(jiān)管部門(mén)擬對(duì)一組網(wǎng)絡(luò)輿情事件的安全性進(jìn)行評(píng)估,從中篩選出最安全的輿情事件,有5個(gè)輿情事件可供研判,分別記為X1,X2,X3,X4,X5,這5個(gè)事件所具有的特征均以參數(shù)集表示:
E={e1,e2,e3,e4,e5}={傳播擴(kuò)散快,政府響應(yīng)快,民眾關(guān)注度高,信息透明度高,內(nèi)容敏感度高}。各參數(shù)的權(quán)重分別為{0.21,0.32,0.15,0.13,0.19,}。設(shè)定論域U僅包含支持和反對(duì)2個(gè)元素,記為U={支持,反對(duì)}。依據(jù)實(shí)際情況,輿情專(zhuān)家對(duì)最安全的輿情事件給出Vague軟集(X,E)的評(píng)價(jià)值如表1所示,專(zhuān)家給出5個(gè)輿情事件的Vague軟集評(píng)價(jià)值如表2~6所示。
表1 最安全事件X的VSS(U)
表2 事件X1的VSS(U)
表3 事件X2的VSS(U)
表4 事件X3的VSS(U)
表5 事件X4的VSS(U)
表6 事件X5的VSS(U)
依據(jù)新的Vague軟集相似度量公式分別計(jì)算事件X1,X2,X3,X4,X5與最安全事件X評(píng)價(jià)值的相似度,結(jié)果如表7所示:
表7 相似度計(jì)算結(jié)果
結(jié)果顯示,事件X1,X2,X3,X4,X5與最安全事件X評(píng)價(jià)值的相似度可按降序排列為:M((X2,E),(X,E))>M((X4,E),(X,E))>M((X5,E),(X,E))>M((X1,E),(X,E))>M((X3,E),(X,E)),可以看出:
事件X2與最安全事件X評(píng)價(jià)值的相似度最高,為0.648,說(shuō)明事件X2的評(píng)價(jià)值最接近最安全事件X的評(píng)價(jià)值,因此事件X2可劃分為安全事件范疇。實(shí)驗(yàn)表明,基于Vague軟集相識(shí)度量的輿情綜合評(píng)判分析方法在實(shí)際問(wèn)題中是有效和實(shí)用的。
為驗(yàn)證新的Vague軟集相似度量方法在大規(guī)模網(wǎng)絡(luò)輿情數(shù)據(jù)集下的綜合評(píng)判效果,本節(jié)基于MapReduce框架模型對(duì)基于Vague軟集相似度量的聚類(lèi)算法并行化以改進(jìn)傳統(tǒng)的Vague軟集聚類(lèi)算法,使其適應(yīng)MapReduce并行編程模型,從而能夠有效地解決海量數(shù)據(jù)下的Vague軟集聚類(lèi)問(wèn)題,以達(dá)到綜合評(píng)判的效果。對(duì)大規(guī)模網(wǎng)絡(luò)輿情數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明,基于改進(jìn)Vague軟集相似度量的聚類(lèi)算法在正確率和加速比性能方面,均優(yōu)于傳統(tǒng)的Vague軟集聚類(lèi)算法。
本實(shí)驗(yàn)在由7臺(tái)計(jì)算機(jī)組成的集群上運(yùn)行,實(shí)驗(yàn)采用了Apache基金會(huì)下的Hadoop分布式框架。將其中1臺(tái)機(jī)器作為主節(jié)點(diǎn)即NameNode (或JobTracker)節(jié)點(diǎn),其余6臺(tái)機(jī)器作為從節(jié)點(diǎn)即Data-Node(或TaskTracker) 節(jié)點(diǎn)。每臺(tái)機(jī)器的硬件配置如下:CPU型號(hào)為Intel Xeon7420四核64位處理器,支持虛擬化,頻率為2.13GHz,內(nèi)存大小為64G,硬盤(pán)大小為6T,操作系統(tǒng)為Ubuntu 13.10,銳捷RG-S2928G-E千兆交換機(jī),開(kāi)發(fā)工具和平臺(tái)為Eclipse 8. 5、JDK 1. 7、Hadoop 2.7.1。
實(shí)驗(yàn)數(shù)據(jù)采用某社情民意大數(shù)據(jù)平臺(tái)采集的真實(shí)微博輿情數(shù)據(jù)。該平臺(tái)通過(guò)約200臺(tái)服務(wù)器群不間斷對(duì)涉及40 000個(gè)全國(guó)、全球重點(diǎn)網(wǎng)站、論壇的150 000個(gè)站點(diǎn),4家國(guó)內(nèi)外微博等數(shù)據(jù)實(shí)時(shí)采集。目前該數(shù)據(jù)集搜集了已覆蓋超過(guò)350 000個(gè)采集點(diǎn),超過(guò)1億的微博博主信息,微博入庫(kù)量1 000萬(wàn)條。實(shí)驗(yàn)擬對(duì)微博熱點(diǎn)話(huà)題進(jìn)行聚類(lèi)研究以綜合評(píng)判,分別從聚類(lèi)的準(zhǔn)確率PRE和查全率REC來(lái)分析聚類(lèi)的質(zhì)量和評(píng)判效果,從算法的加速比Sp來(lái)衡量基于MapReduce的分塊模糊聚類(lèi)并行化的性能和效果。
為了測(cè)試算法的性能,實(shí)驗(yàn)中分別隨機(jī)選取5組數(shù)據(jù)集進(jìn)行測(cè)試,分別包含3 000、10 000、100 000條、500 000條、1 000 000條微博數(shù)據(jù),分別從規(guī)模性、多樣性、高速性、價(jià)值性4個(gè)參數(shù)特征考慮微博的輿情特性,其權(quán)值為{0.29,0.31,0.18,0.22}。對(duì)每一組數(shù)據(jù)分別使用基于MapReduce的Vague軟集相似度量的聚類(lèi)算法運(yùn)行8次,實(shí)驗(yàn)中算法的加速比分析如表8所示:
表8 算法的加速比分析
從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)數(shù)據(jù)集較小時(shí),算法在Hadoop分布式框架下的運(yùn)行時(shí)間比單機(jī)環(huán)境下長(zhǎng),主要是因?yàn)镸apReduce過(guò)程中數(shù)據(jù)集的劃分和聚類(lèi)結(jié)果合并花費(fèi)了較多的時(shí)間;而隨著數(shù)據(jù)量不斷增大時(shí),通過(guò)MapReduce并行化改造后的聚類(lèi)算法在Hadoop分布式框架下的運(yùn)行時(shí)間明顯低于單機(jī)環(huán)境下的運(yùn)行時(shí)間,數(shù)據(jù)量越大則并行計(jì)算的優(yōu)勢(shì)越明顯,Hadoop系統(tǒng)對(duì)大規(guī)模數(shù)據(jù)集的處理能力也越強(qiáng)。實(shí)驗(yàn)表明基于MapReduce的Vague軟集聚類(lèi)算法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)能夠得到較好的加速比。
由于Vague軟集聚類(lèi)評(píng)判結(jié)果受Vague軟集之間相似度閾值選取的影響,因此實(shí)驗(yàn)采用新的相似度量的多個(gè)不同閾值進(jìn)行實(shí)驗(yàn),對(duì)每個(gè)閾值分別求出聚類(lèi)的平均準(zhǔn)確率和平均查全率,結(jié)果表明基于MapReduce的Vague軟集聚類(lèi)算法在5組數(shù)據(jù)集上的平均準(zhǔn)確率和查全率均高于傳統(tǒng)Vague軟集聚類(lèi)算法。實(shí)驗(yàn)結(jié)果如表9所示。
表9 算法的準(zhǔn)確率及查全率比較
分析發(fā)現(xiàn),當(dāng)聚類(lèi)數(shù)據(jù)集規(guī)模較小時(shí),2種算法的準(zhǔn)確率和查全率基本都在0.85以上,但當(dāng)數(shù)據(jù)樣本逐漸增大時(shí),傳統(tǒng)Vague軟集聚類(lèi)算法所得到的準(zhǔn)確率和查全率與基于MapReduce的并行化聚類(lèi)算法有明顯差異,這是由于當(dāng)數(shù)據(jù)量增大時(shí),數(shù)據(jù)集中會(huì)出現(xiàn)很多非球形的不規(guī)則的類(lèi)簇,而傳統(tǒng)Vague軟集聚類(lèi)算法對(duì)于非球形簇并沒(méi)有很好的聚類(lèi)效果?;贛apReduce的Vague軟集并行化聚類(lèi)算法所得到的準(zhǔn)確率和查全率明顯優(yōu)于傳統(tǒng)Vague軟集聚類(lèi)算法。
本文在研究已有Vague軟集相似度量問(wèn)題的基礎(chǔ)上,分析了現(xiàn)有Vague軟集相似度量方法的不足,將Vague集的區(qū)間中心這一Vague集的重要參數(shù)特征引入Vague軟集相似度量方法中開(kāi)展研究,從而提出了一種新的Vague軟集相似度量算法,并給出了公理化證明。通過(guò)對(duì)大規(guī)模輿情數(shù)據(jù)集的綜合評(píng)判實(shí)驗(yàn)結(jié)果表明,該方法是一種有效的基于Vague軟集相似度量的網(wǎng)絡(luò)輿情綜合評(píng)判分析方法。Vague軟集數(shù)學(xué)模型為解決網(wǎng)絡(luò)輿情分析等決策問(wèn)題提供了良好的理論工具和數(shù)學(xué)模型,有較好的應(yīng)用前景。
參考文獻(xiàn):
[1] Gau W L, Buehrer D J. Vague Sets[J]. IEEE Trans on Systems, Man, and Cybmetics, 1993, 23(2): 610-614
[2] Molodtsov D. Soft Set Theory-First Results[J]. Computers & Mathematics with Applications, 1999, 37: 19-31
[3] Wei X, Jian M, Shou W, et al. Vague Soft Sets and Their Properties[J]. Computers & Mathematics with Applications, 2010,59(2): 787-794
[4] Ganeshsree S. Vague Soft Rings and Vague Soft Ideals[J]. International Journal of Pure and Applied Mathematics, 2012, 6(12): 557-572
[5] Yun Y, Young J, Jianming Z. Vague Soft Hemirings[J]. International Journal of Pure and Applied Mathematics, 2011, 62(1): 199-213
[6] Nasruddin H, Khaleed A. Vague Soft Expert Set Theory[J]. AIP Advances, 2013(1522): 953-958
[7] Alhazaymeh K. Generalized Vague Soft Set and Its Applications[J]. International Journal of Pure and Applied Mathematics, 2012, 77(3): 391-401
[8] Alhazaymeh K, Nasruddin H. Interval-Valued Vague Soft Sets and Its Application[J]. Advances in Fuzzy Systems, 2012, 2012(15): 1077-1083
[9] Teng Y, Wang C. Multicriteria Fuzzy Decision-Making Method Based on Vague Soft Sets[J]. Computer Engineering and Applications, 2012, 48(10): 6-8
[10] 王昌. Vague軟集的相似度量及其應(yīng)用[J]. 統(tǒng)計(jì)與決策, 2012, 350(2):115-117
Wang Chang. Similarity Measurement and Application of Vague Soft Sets[J]. Statistics and Decision Making, 2012,350(2):115-117 (in Chinese)
[11] Chang W, An Q. Entropy, Similarity Measure and Distance Measure of Vague Soft Sets and Their Relations[J]. Information Sciences, 2013, 244(20):92-106
[12] 陳文, 余本功. 基于Vague軟集的模糊群決策方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(7):104-107
Chen Wen, YU Bengong. Research on Fuzzy Group Decision Making Method Based on Vague Soft Set[J]. Computer Engineering and Applications, 2014, 50(7):104-107 (in Chinese)
[13] 劉慶,王昌. 基于Vague軟集的投資決策方案優(yōu)選方法研究[J]. 科技通報(bào), 2015, 31(1):4-8
Liu Qing, Wang Chang. Research on Optimized Method of Investment Decision Program Based on Vague Soft Sets[J]. Bulletin of Science and Technology, 2015, 31(1):4-8 (in Chinese)
[14] 劉慶,王昌. 基于Vague軟集相似度量的快速估算模型[J]. 河北大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 34(5):460-474
Liu Qing, Wang Chang. Fast Estimation Model Based on Similarity Measures Between Vague Soft Sets[J]. Journal of Hebei University: Natural Science Edition, 2014, 34(5):460-474 (in Chinese)
[15] 彭新東,楊勇. 區(qū)間值模糊軟集的信息測(cè)度及其聚類(lèi)算法[J]. 計(jì)算機(jī)應(yīng)用, 2015,35(8):2350-2354
Peng Xindong, Yang Yong. Information Measures for Interval-Valued Fuzzy Soft Sets and Their Clustering Algorithm[J]. Journal of Computer Applications, 2015, 35(8):2350-2354 (in Chinese)
西北工業(yè)大學(xué)學(xué)報(bào)2018年2期