成靜, 薛峰, 張逸飛, 張濤, 馬春燕
(1.西安工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,陜西西安710021; 2.西北工業(yè)大學(xué)軟件與微電子學(xué)院,陜西西安710072; 3.西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西西安710072)
移動(dòng)應(yīng)用眾包測試,是將移動(dòng)應(yīng)用眾包測試任務(wù),以自由自愿的方式外包給匿名網(wǎng)絡(luò)測試人員[1],具有靈活方便、可伸縮、成本低、測試場景真實(shí)等顯著優(yōu)勢[2]。但由于其匿名性和非監(jiān)督性,使得眾包測試人員可能存在測試行為欺詐,以獲取最大收益。為此,通常眾包平臺(tái)采用最大期望、最大似然估計(jì)數(shù)算法[3-4]來評(píng)估眾包人員信譽(yù)度,存在運(yùn)算代價(jià)高、實(shí)時(shí)性差等問題;另有學(xué)者提出針對(duì)信譽(yù)評(píng)估的數(shù)據(jù)分類算法[5],卻只適合簡單標(biāo)注類型的眾包任務(wù)。
本文在充分考慮移動(dòng)應(yīng)用眾包測試基本特性的前提下,提出了一種面向復(fù)雜眾包測試任務(wù)的測試人員信譽(yù)度的評(píng)估方法,通過劃分可信與不可信2個(gè)模糊集合,以移動(dòng)應(yīng)用眾包測試任務(wù)發(fā)包方與測試人員相互間的評(píng)分為計(jì)算基礎(chǔ),利用模糊集合理論判斷眾包測試人員對(duì)2個(gè)集合的隸屬程度,計(jì)算評(píng)估眾包測試人員信譽(yù)度。
本節(jié)從人員評(píng)價(jià)機(jī)制、信譽(yù)度評(píng)估模型、信譽(yù)度計(jì)算及更新3個(gè)階段,完成對(duì)移動(dòng)應(yīng)用眾包測試人員信譽(yù)度評(píng)估體系的構(gòu)建。
評(píng)分、評(píng)級(jí)等形式的評(píng)價(jià)機(jī)制已廣泛應(yīng)用于電子商務(wù)類網(wǎng)站之中,可以很好地反映交易雙方的滿意度,也體現(xiàn)了雙方的信任關(guān)系。在眾包測試中,引入這些機(jī)制可以有效地表現(xiàn)出對(duì)測試服務(wù)完成效果的評(píng)價(jià),可以作為評(píng)估信譽(yù)度的基礎(chǔ)數(shù)據(jù)。
圖1表示一個(gè)常用的“5分制”的評(píng)價(jià)打分形式,可以較好地描述對(duì)某一服務(wù)或商品的滿意程度。
非常滿意滿意一般不滿意差5分4分3分2分1分
圖1 5分制評(píng)分
然而,與普通一對(duì)一的互評(píng)模式不同,在移動(dòng)應(yīng)用眾包測試中,通常測試任務(wù)的發(fā)包方與測試人員是一種一對(duì)多的評(píng)價(jià)關(guān)系。測試任務(wù)的發(fā)包方需要對(duì)多名測試人員進(jìn)行評(píng)價(jià),評(píng)估工作量巨大,評(píng)分效果差。
為解決這一問題,本文設(shè)計(jì)了一種偏隱式的評(píng)分方式,即通過記錄任務(wù)發(fā)包方與測試人員的交互行為,將其作為評(píng)分依據(jù),以取代雙方的主動(dòng)評(píng)價(jià)。如表1所示,考慮以發(fā)包方對(duì)測試人員所發(fā)現(xiàn)缺陷的價(jià)值評(píng)價(jià)為標(biāo)準(zhǔn),間接反映測試人員在本次任務(wù)中體現(xiàn)的價(jià)值;也可以通過記錄發(fā)包方是否偏向于使用某一位測試人員來體現(xiàn)對(duì)其認(rèn)可的程度。同樣,表2展示了測試人員對(duì)發(fā)包方的隱式評(píng)價(jià),包括對(duì)發(fā)包方任務(wù)的關(guān)注、參與等行為,以及缺陷評(píng)價(jià)的公正性等。使用偏隱式評(píng)價(jià)的另一優(yōu)勢在于能較大程度地避免評(píng)價(jià)者主觀性或惡意性評(píng)價(jià),使得評(píng)價(jià)結(jié)果更為直接客觀。
表1 任務(wù)發(fā)包方對(duì)測試人員的評(píng)價(jià)
表2 測試人員對(duì)任務(wù)發(fā)包方的評(píng)價(jià)
在得到一系列評(píng)分后,需要對(duì)各項(xiàng)評(píng)分進(jìn)行綜合。這里采用幾何平均數(shù)法對(duì)評(píng)分進(jìn)行綜合處理,公式為:
(1)
采用綜合評(píng)價(jià)機(jī)制的主要目的,是為了獲取移動(dòng)應(yīng)用眾包測試參與雙方的相互反饋信息,進(jìn)而將其作為基礎(chǔ)數(shù)據(jù)開展移動(dòng)應(yīng)用眾包測試信譽(yù)度評(píng)估方法的研究。
通常,信譽(yù)度難以精確量化表示。在眾包測試中,測試人員很難被界定為絕對(duì)可信或不可信,因此適合模糊數(shù)學(xué)理論評(píng)估信譽(yù)度。本文在獲得移動(dòng)應(yīng)用眾包測試任務(wù)發(fā)包方與測試人員的相關(guān)評(píng)價(jià)綜合得分后,利用模糊數(shù)學(xué)理論來構(gòu)建信譽(yù)度評(píng)估模型。
首先,利用模糊集合思想,在以所有移動(dòng)應(yīng)用眾包測試參與人員為范圍定義2個(gè)模糊子集,即“不可信”子集和“可信”子集,進(jìn)而通過判斷每位眾包社區(qū)參與者分別隸屬于2個(gè)集合的程度,見圖2。例如,當(dāng)參與者的可信任程度大于其不可信程度時(shí),即其更偏向信任子集,則認(rèn)為這名參與者是一名可信任人員,否則為不可信。
圖2 眾包人員可信及不可信程度關(guān)系
其次,利用從人員評(píng)價(jià)機(jī)制中獲得的綜合評(píng)價(jià)得分,僅篩選可信任人員的評(píng)分作為被評(píng)價(jià)人員的信譽(yù)計(jì)算基礎(chǔ)。這樣,在移動(dòng)應(yīng)用眾包測試社區(qū)的整體運(yùn)作過程中,每名眾包測試參與人員信譽(yù)的計(jì)算,形成如圖3所示的一種迭代循環(huán)過程。
在整個(gè)眾包測試社區(qū)中,當(dāng)想要獲知哪些測試人員是可以信任時(shí),通過向與測試人員有過任務(wù)接觸的可信任務(wù)發(fā)布人員進(jìn)行確認(rèn)作為其對(duì)測試人員可信的判斷依據(jù)。在眾包測試社區(qū)整體的評(píng)價(jià)過程中,對(duì)一名參與者的評(píng)價(jià)是否可作為判斷另一名參與人員信譽(yù)計(jì)算的依據(jù),主要依賴于這名參與人員本身是否被社區(qū)群體所認(rèn)可,具有最夠的可信度。這樣,每一名參與人員在多次參與測試任務(wù)后,經(jīng)過多輪的信譽(yù)迭代計(jì)算,其信譽(yù)的評(píng)估會(huì)越趨于準(zhǔn)確。
圖3 移動(dòng)應(yīng)用眾包測試社區(qū)人員評(píng)價(jià)過程
下面將詳細(xì)說明移動(dòng)應(yīng)用眾包測試人員信譽(yù)度評(píng)估模型的具體計(jì)算及更新過程。
1) 隸屬度函數(shù)的確定
前面提到,通過劃分出2個(gè)模糊子集“可信”和“不可信”以及使用可信人員提供的綜合評(píng)分來估計(jì)參與者的可信情況。下面先分析一下綜合評(píng)分的特點(diǎn)。
(1) 因采用5分制進(jìn)行評(píng)分,并且根據(jù)評(píng)分的計(jì)算方式可以得出綜合評(píng)分的結(jié)果必然是1~5范圍內(nèi)的實(shí)數(shù);利用幾何平均數(shù)計(jì)算出來的結(jié)果變化趨勢必然是一種呈直線狀的線性趨勢。
(2) 評(píng)分的高低在一定程度上反映出評(píng)價(jià)人對(duì)被評(píng)價(jià)人的信任關(guān)系,評(píng)分越低表明評(píng)價(jià)人對(duì)被評(píng)價(jià)人的不信任;反之,評(píng)分越高則體現(xiàn)為信任。
(3) 根據(jù)圖1所示的5分制評(píng)分標(biāo)準(zhǔn):評(píng)分為3分是最模糊的狀態(tài);評(píng)分為4分及以上的表明評(píng)價(jià)人對(duì)被評(píng)價(jià)人的肯定;而全部評(píng)分為2分及以下的表明評(píng)價(jià)人對(duì)被評(píng)價(jià)人的否定。
根據(jù)上述3個(gè)特點(diǎn),隸屬函數(shù)可以直接套用實(shí)數(shù)域上的常用模糊分布,本文選擇梯形分布作為隸屬函數(shù)。梯形模糊分布如圖4所示。
圖4 梯形模糊分布圖
上述3種隸屬函數(shù)的解析式如下:
(2)
(3)
(2)式中,A(x)表示不信任模糊子集的隸屬度函數(shù)。(3)式中,B(x)則表示信任模糊子集的隸屬度函數(shù)。其分布性態(tài)形如圖5所示。
圖5 隸屬度函數(shù)分布圖形
2) 信譽(yù)度計(jì)算
移動(dòng)應(yīng)用眾包測試參與人員在不斷參與眾包任務(wù)的過程中,對(duì)他的評(píng)價(jià)會(huì)進(jìn)行積累,即每個(gè)參與者均會(huì)有一組評(píng)分,而這一組評(píng)分則形成了被評(píng)價(jià)人員的評(píng)分范圍。如圖6所示,其中C1和C2之間可能就是某位人員的被評(píng)分范圍。
圖6 某被評(píng)價(jià)人員的評(píng)分范圍
在評(píng)估某一位參與人員信譽(yù)度時(shí),須更多關(guān)注該人員表現(xiàn)區(qū)間的變化,即其被評(píng)分范圍的邊界值,如圖6中的C1和C2點(diǎn)。當(dāng)該人員的評(píng)分在該區(qū)間內(nèi)時(shí),表明其信譽(yù)表現(xiàn)屬于正常水平;而當(dāng)該人員的表現(xiàn)小于C1時(shí),說明他有不良信譽(yù)行為;當(dāng)大于C2時(shí),說明參與人員的信譽(yù)得到了更好肯定。
因此,對(duì)于每位參與人員的一組評(píng)分,當(dāng)確定了評(píng)分范圍后,依據(jù)隸屬度函數(shù)分布圖形,使用質(zhì)心法來求出這一組評(píng)分的綜合值,質(zhì)心法的計(jì)算過程如下:
(4)
(5)
式中,ZA表示不可信范圍內(nèi)的質(zhì)心,A(x)表示不可信模糊子集的隸屬度函數(shù);ZB表示可信范圍內(nèi)的質(zhì)心,B(x)表示可信模糊子集的隸屬度函數(shù);a、b表示評(píng)分范圍的邊界值。
圖7 評(píng)分范圍質(zhì)心的計(jì)算
如圖7所示,當(dāng)要計(jì)算C1到C2范圍內(nèi)不可信和可信范圍內(nèi)的質(zhì)心時(shí)。不可信范圍內(nèi)表示求C3-C4-C6運(yùn)動(dòng)軌跡的質(zhì)心,可信范圍內(nèi)表示求C7-C5運(yùn)動(dòng)軌跡的質(zhì)心。
求得質(zhì)心后,將其繼續(xù)帶入(2)式和(3)式即可求得被評(píng)價(jià)人員的一組評(píng)分?jǐn)?shù)據(jù),它們分別隸屬于不可信模糊子集和可信模糊子集的程度。這樣的計(jì)算方式從不可信及可信的雙重角度來審視被評(píng)價(jià)人,使信譽(yù)估計(jì)值更具可信度。于是,可給出如下的綜合信譽(yù)度值的計(jì)算公式:
(6)
表3 一組被評(píng)價(jià)人員的信譽(yù)度計(jì)算
3) 信譽(yù)度更新
在信譽(yù)值的更新方面,需要考慮如下2個(gè)因素:①歷史評(píng)分對(duì)信譽(yù)度計(jì)算的影響,考慮影響力的衰減問題,次數(shù)越近的評(píng)分越能反映出測試人員的當(dāng)前信譽(yù)水平;②不同 評(píng)價(jià)人應(yīng)具備不同影響力,自身可信程度越高的評(píng)價(jià)人,對(duì)他人做出的評(píng)價(jià),自然會(huì)有更高的影響。針對(duì)上述問題,在信譽(yù)度更新的問題上,引入評(píng)分影響力因子來控制每一個(gè)評(píng)分對(duì)眾包測試參與人員信譽(yù)度的影響。
評(píng)分影響力因子的基本作用是確定評(píng)分參與信譽(yù)度評(píng)估計(jì)算的有效次數(shù)。一般而言,信譽(yù)度是一種較為固化的屬性,隨時(shí)間增長的變化緩慢,因此,是以使用次數(shù)而非時(shí)間作為歷史評(píng)分的衰減單位。眾包測試參與人員每次參加一項(xiàng)任務(wù),在獲得新評(píng)分的同時(shí),歷史評(píng)分的影響力會(huì)進(jìn)行一次衰減,當(dāng)某個(gè)評(píng)價(jià)值的影響力因子衰減為0時(shí),則不再影響眾包人員的評(píng)分。
此外,評(píng)分影響力因子還包含對(duì)不良表現(xiàn)的懲罰系數(shù),評(píng)分低則會(huì)加強(qiáng)該評(píng)分存在次數(shù)。這樣,將令眾包測試參人員盡量避免獲取較差的評(píng)分。
評(píng)分影響力因子由(7)式表示,主要由3個(gè)參數(shù)構(gòu)成。其中,α表示評(píng)價(jià)人員不可信程度和可信程度的貼近度,利用質(zhì)心數(shù)據(jù)相減求得,α越小則說明可信和不可信程度越貼近,即該評(píng)價(jià)人的表現(xiàn)較模糊,影響力低;而α越大則說明該評(píng)價(jià)人的表現(xiàn)越不模糊且越好,影響力增大;β是懲罰系數(shù),當(dāng)評(píng)分小于5分制的中值2.5時(shí)開始生效,以2為底數(shù)可以令激活懲罰系數(shù)帶來的數(shù)影響最小,達(dá)到0.5倍;γ是影響力基數(shù),表示一般情況下評(píng)分的影響力,例如設(shè)置為5次。
(7)
圖8 某人員參與t1至t4次任務(wù)的評(píng)分邊界變化
圖8舉例說明了評(píng)分影響力因子的作用。例如,在t1至t4次,某人員參與任務(wù)后邊界值的變化,在t1至t3次時(shí),該人員的最高評(píng)分不斷向上,使得其評(píng)分區(qū)間逐漸向可信任區(qū)間靠攏;但在t4次時(shí)表現(xiàn)較差,評(píng)分突破了原來的最低邊界t1,使得評(píng)分區(qū)間被拉大,增大了評(píng)分區(qū)間所包含的不可信區(qū)間范圍,導(dǎo)致質(zhì)心位置的變化,并影響信譽(yù)度值;同時(shí),t4次評(píng)分將會(huì)持續(xù)比t1至t3次更大的次數(shù),所以該名人員需要在后續(xù)被更好認(rèn)可,否則將會(huì)進(jìn)一步導(dǎo)致信譽(yù)評(píng)分的降低。
由此可見,在加入評(píng)分影響力因子的信譽(yù)度更新機(jī)制后,高信度需要不斷積累而保持,而懲罰機(jī)制的存在,使不良評(píng)分對(duì)信譽(yù)度會(huì)造成更持久的不良影響。
因眾包測試社區(qū)的可用數(shù)據(jù)目前較為稀少,所以本次采取模擬數(shù)據(jù)的方式進(jìn)行實(shí)驗(yàn)驗(yàn)證。首先,通過分析,利用設(shè)置不同的缺陷發(fā)現(xiàn)概率范圍和發(fā)現(xiàn)缺陷可能性概率范圍,來模擬生成6種具備代表類型的測試人員1 000名。根據(jù)測試人員自身水平,將其劃分為優(yōu)秀型、專精型、穩(wěn)定型、學(xué)習(xí)型、欠缺型、欺騙型等6個(gè)類型。其次,針對(duì)每一種測試任務(wù)的情況,設(shè)置缺陷數(shù)范圍和缺陷被發(fā)現(xiàn)概率,來模擬生成測試任務(wù)情況。
從模擬出的1 000名測試人員數(shù)據(jù)中,多次選擇出分別對(duì)應(yīng)優(yōu)秀型、專精型、穩(wěn)定型、學(xué)習(xí)型、欠缺型和欺詐型具有代表性的6名人員數(shù)據(jù),并分析他們在任務(wù)執(zhí)行過程中的信譽(yù)度變化情況。在實(shí)驗(yàn)中,每名參與人員的信譽(yù)度初始值均設(shè)定為0.5,即處于可信與不可信的中間模糊狀態(tài)。圖9分別展示了6名代表人員,分別進(jìn)行5種不同難度任務(wù)10次的信譽(yù)度迭代計(jì)算,以及綜合5種難度情況的20次任務(wù)迭代計(jì)算結(jié)果。
圖9 不同類型測試人員在各類型任務(wù)下的信譽(yù)表現(xiàn)
對(duì)于無缺陷任務(wù),如圖9a)所示,這是一種特殊情況,信譽(yù)度只增加不減少,因此信譽(yù)度變化并不明顯;圖9b)是含有較少數(shù)隱蔽缺陷的任務(wù),這類任務(wù)具備一定難度,因此優(yōu)秀型和專精型人員的信譽(yù)度在高位持續(xù);圖9c)是含有無嚴(yán)重影響缺陷的任務(wù),穩(wěn)定型人員比較擅長此類任務(wù),因此持續(xù)增長,而專精型人員則不適合此類任務(wù),導(dǎo)致信譽(yù)度逐漸下降;圖9d)是一般的普通任務(wù)情況,各類型人員表現(xiàn)為正常水平,信譽(yù)度趨勢劃分顯著符合預(yù)期;圖9e)含有較多的缺陷任務(wù),與缺陷正常水平任務(wù)相比,各類人員的表現(xiàn)均有更為明顯的波動(dòng),主要因?yàn)樵诖罅繙y試缺陷存在的情況下,測試人員因工作量大會(huì)漏掉某些缺陷的發(fā)現(xiàn),而對(duì)于欺詐型人員因?yàn)槿毕莸脑龆?,也因他們使用猜測方式命中缺陷的概率有一定提升;圖9f)是混合執(zhí)行各類型任務(wù)的表現(xiàn),優(yōu)秀型、專精型、穩(wěn)定型人員信譽(yù)度均呈現(xiàn)較為穩(wěn)定的持續(xù)狀態(tài),學(xué)習(xí)型人員則有明顯的上升趨勢;欠缺型人員盡管個(gè)別有突出表現(xiàn),但因表現(xiàn)的不持續(xù)性,信譽(yù)度會(huì)持續(xù)下降;欺詐型與欠缺型人員較為類似,不持續(xù)性更為明顯。
根據(jù)上述實(shí)驗(yàn),當(dāng)測試人員的信譽(yù)突破邊界值時(shí),信譽(yù)指標(biāo)會(huì)有較大幅度的變化,但例如欠缺型和欺詐型人員,因?yàn)閼土P因素的存在,邊界值下限存在的時(shí)間更長,因此信譽(yù)度會(huì)被迅速降低。隨著迭代過程的不斷進(jìn)行,信譽(yù)度將不斷穩(wěn)定并趨于精確。上述實(shí)驗(yàn)初步證明,本文所提出的基于模糊集合的移動(dòng)應(yīng)用眾包測試人員信譽(yù)度評(píng)估方法,在面向不同任務(wù)情況下,能夠?qū)Σ煌愋蜏y試人員的信譽(yù)特征進(jìn)行有效評(píng)估。
本文提出了一種基于模糊集合的移動(dòng)應(yīng)用眾包測試人員信譽(yù)度評(píng)估方法,該方法利用信譽(yù)度的模糊特性,通過可信人員間的迭代評(píng)價(jià),以準(zhǔn)確估計(jì)出眾包測試人員的信譽(yù)水平。下一步,將繼續(xù)圍繞信譽(yù)評(píng)估進(jìn)行擴(kuò)展性研究,包括相近信譽(yù)度人員的行為一致性分析、基于信譽(yù)度的測試任務(wù)結(jié)果可信程度的智能化判斷等,不斷完善眾包測試可信評(píng)估,以提高眾包測試質(zhì)量。