劉 瑩,張 濤,李 坤,李 楠
(西北工業(yè)大學(xué) 軟件與微電子學(xué)院, 西安 710072)
移動應(yīng)用眾包測試人員評價模型
劉 瑩*,張 濤,李 坤,李 楠
(西北工業(yè)大學(xué) 軟件與微電子學(xué)院, 西安 710072)
移動應(yīng)用眾包測試人員具有匿名、非契約的特性,這使得任務(wù)發(fā)布者難以準(zhǔn)確評估眾包測試人員的能力與測試質(zhì)量。針對該問題,提出了一種移動應(yīng)用眾包測試人員層次分析法(AHP)評價模型。該模型從活躍度、測試能力、誠信度等多指標(biāo)分層綜合評估眾包測試人員能力,通過構(gòu)造判斷矩陣、一致性檢驗計算各層次指標(biāo)的組合權(quán)重向量,并引入需求列表與描述列表改進(jìn)本模型,使測試人員與眾包任務(wù)更加匹配。實驗結(jié)果表明,所提模型能夠?qū)崿F(xiàn)對測試人員能力的準(zhǔn)確評估,支持基于評估結(jié)果的眾包測試人員選擇與推薦,提高了移動應(yīng)用眾包測試效率與質(zhì)量。
移動應(yīng)用眾包測試;人員評價;層次分析法;皮爾遜相關(guān)性系數(shù);斯皮爾曼相關(guān)系數(shù)
移動應(yīng)用眾包測試是一種分布式問題解決方案,將過去由員工執(zhí)行的測試任務(wù)以自由自愿的方式外包給匿名網(wǎng)絡(luò)用戶[1-2]。與傳統(tǒng)外包相比,眾包具有自由、高創(chuàng)新度、低成本等優(yōu)勢。但由于眾包測試人員是匿名的,且未與企業(yè)簽訂協(xié)議,導(dǎo)致眾包測試的質(zhì)量難以保證[3]。隨著移動應(yīng)用眾包測試的快速發(fā)展,對移動應(yīng)用眾包測試人員的準(zhǔn)確評價,對于保證眾包測試的質(zhì)量尤為重要。
目前國內(nèi)外針對眾包人員的評價研究甚少,而現(xiàn)有眾包測試研究主要集中在眾包人員的任務(wù)推薦:Ambati等[4]建立了眾包人員的偏好模型;Yuen等[5]創(chuàng)建“眾包人員-眾包任務(wù)”矩陣,并將概率矩陣分解以實現(xiàn)眾包任務(wù)的個人偏好推薦。同時也有不以眾包人員的興趣偏好作為唯一任務(wù)推薦依據(jù)的研究:Geiger等[6]通過對相應(yīng)的學(xué)術(shù)文獻(xiàn)進(jìn)行系統(tǒng)評價提出了個性化任務(wù)推薦機制;Ho等[7]為實現(xiàn)眾包任務(wù)發(fā)起者利益最大化提出了兩階段探索分配算法;李勇軍等[8]提出了技術(shù)能力匹配算法、非技術(shù)能力匹配算法以及綜合匹配算法;肖江輝[9]從測試人員可信度的角度進(jìn)行評價,集成主客觀可信度從而得到可信度計算模型。但以上研究僅與眾包任務(wù)推薦相關(guān),不能用于對眾包人員的評價。
國內(nèi)外學(xué)者也對其他領(lǐng)域的人員評價方法有所研究:Woodruff[10]通過大量數(shù)據(jù)分析匯總出數(shù)據(jù)處理人員的工作績效評估方法;Bolton[11]通過分析學(xué)校管理人員工作中可能出現(xiàn)的問題而對其進(jìn)行評價;陳龍猛[12]設(shè)計了對實驗技術(shù)人員工作評價的數(shù)學(xué)模型;楊振英等[13]運用目標(biāo)-結(jié)構(gòu)法構(gòu)建了軍隊人員信息安全素養(yǎng)評價指標(biāo)評價體系。但是以上人員評價方法不具有普適性,不能直接運用于對移動應(yīng)用眾包人員的評價。
本文針對移動應(yīng)用眾包測試人員評價問題,應(yīng)用層次分析法(Analytic Hierarchy Process, AHP)構(gòu)建移動應(yīng)用眾包測試人員能力綜合評價模型。首先定義分層的眾包測試人員評價指標(biāo)體系,構(gòu)造對比矩陣并經(jīng)過一致性檢驗,獲得組合指標(biāo)權(quán)重,并引入需求列表、描述列表對本模型進(jìn)行優(yōu)化,實現(xiàn)對移動應(yīng)用眾包測試人員的準(zhǔn)確評價。
層次分析法(AHP),也稱層級分析法[14],是一種定性與定量結(jié)合的分析方法,多用于解決存在多目標(biāo)以及不確定性和主觀信息的復(fù)雜問題[15]。
層次分析法的基本步驟如下:
1)建立層次結(jié)構(gòu)模型。在分析問題的基礎(chǔ)上,將問題的各影響因素分為不同的層級,明確各級因素之間的相互作用,建立多層級的指標(biāo)層,應(yīng)注意層次分析結(jié)構(gòu)中的每層元素個數(shù)一般不超過9個,因為同一層次中包含過多元素會給元素兩兩比較帶來不便。
2)構(gòu)造因素對比判斷矩陣。將處在同一層級且對同一上級指標(biāo)有影響的各因素指標(biāo)兩兩對比,依次構(gòu)成對比矩陣,并將對比矩陣A以式(1)表示:
(1)
其中aij為因素i相對因素j而言的重要程度對比結(jié)果,aij的值越大表明因素i相對因素j而言越重要。
3)計算權(quán)重向量。對每一對比矩陣進(jìn)行計算,得出各矩陣的最大特征根及對應(yīng)特征向量。對所得結(jié)果利用一致性指標(biāo)進(jìn)行一致性檢驗,若一致性檢驗通過,則將特征向量進(jìn)行歸一化計算后得出該組因素的權(quán)重向量;若一致性檢驗未通過,則返回步驟2)。
4)計算各層次組合權(quán)重向量。同樣對所得結(jié)果進(jìn)行一致性檢驗,若檢驗通過,則可根據(jù)最終因素權(quán)重向量對結(jié)果進(jìn)行決策,若檢驗未通過則重新構(gòu)建對比矩陣或重新選擇研究方法。
目前國內(nèi)外對于眾包人員的評價研究較少,本文結(jié)合移動應(yīng)用測試的特性,基于現(xiàn)有移動應(yīng)用眾包測試平臺人員組織管理方法,得出了如圖1所示的移動應(yīng)用眾包測試人員評價指標(biāo)體系,共有3個一級指標(biāo)(B1~B3)和11個二級指標(biāo)(C1~C11)。
圖1 移動應(yīng)用眾包測試人員評價指標(biāo)體系Fig. 1 Evaluation index system of mobile application crowdsourcing testers
1)個人活躍度體現(xiàn)了測試人員的效率與參與任務(wù)的數(shù)量。主要包括測試人員對任務(wù)的響應(yīng)速度、響應(yīng)率以及歷史測試記錄中涉及的任務(wù)類型數(shù)目、月平均參與任務(wù)數(shù)目和所有參與任務(wù)總數(shù)。其中響應(yīng)速度(Response Speed, RS)為:
RS=(Ddue-Daccept)/(Ddue-Dcreate)
(2)
式中:Ddue中為任務(wù)的截止日期;Daccept為測試人員接受任務(wù)的日期;Dcreate為任務(wù)創(chuàng)建的日期。
響應(yīng)率(Response Rate, RR)表示任務(wù)的接受率,定義為:
RR=Naccept/Ninvited
(3)
式中:Naccept為測試人員接受的任務(wù)數(shù)目;Ninvited為測試人員接收到邀請的任務(wù)總數(shù)。
2)個人測試能力是對測試人員最重要的評價指標(biāo),因為其直接決定測試質(zhì)量的高低,主要包含客戶對測試人員測試結(jié)果的接受率、測試結(jié)果的平均分、平均加權(quán)Bug數(shù)、平均加權(quán)新Bug數(shù)。其中結(jié)果接受率(Result Accept Rate, RAR)定義為:
RAR=Naccepted/Nall
(4)
式中:Naccepted為客戶認(rèn)可的測試結(jié)果數(shù)目;Nall為測試人員完成的測試總數(shù)。
根據(jù)客戶對測試人員測試結(jié)果的認(rèn)可程度,將滿意度分為四個等級:非常滿意、滿意、一般、不滿意。定義客戶滿意度(Customer Satisfaction Rating, CSR)表達(dá)式為CSR=csrj(j=1,2,…,4),其中csr1=5,csr2=4,csr3=3,csr4=0,則測試結(jié)果平均分(Average Test Result Score, ATRS)定義為:
(5)
其中:resulti表示第i(i∈[1,n])個測試結(jié)果;csrj表示第j(j∈[1,3])級客戶滿意度。
根據(jù)Bug的影響力可以將其劃為不同等級:特別重要、重要、一般、不重要、不是Bug。Bugi為發(fā)現(xiàn)的第i個Bug,Bug嚴(yán)重等級(Bug Severity Level, BSL)的表達(dá)式為BSL=bslj(j=1,2,…,5),其中bsl1=5,bsl2=2,bsl3=1,bsl4=0.5,bsl5=0。
平均加權(quán)Bug數(shù)(Average Weighted Bug Number, AWBN)可以定義為:
(6)
其中newbugi為發(fā)現(xiàn)的第i個新Bug,則平均加權(quán)新Bug數(shù)(Average Weighted New Bug Number, AWNBN)可定義為:
(7)
3)測試人員在眾測平臺的個人誠信度是對其評價的另一重要指標(biāo)。因為測試人員并未與眾包測試平臺及客戶簽訂嚴(yán)格的勞動協(xié)議,測試人員可能因為各類原因無法完成測試任務(wù),甚至?xí)阂馄墼p,這就可能對測試質(zhì)量造成極其嚴(yán)重的影響。其中任務(wù)完成率(Task Completion Rate, TCR)定義為:
TCR=Ncompleted/Napplied
(8)
式中:Ncompleted表示測試人員完成的所有測試任務(wù)數(shù)目;Napplied表示測試人員申請的所有測試任務(wù)數(shù)目。
A表示眾包測試能力,B表示影響A的所有一級指標(biāo):個人活躍度B1,個人測試能力B2,個人誠信度B3。將三個一級指標(biāo)兩兩對比,使用7分位比率排定各指標(biāo)的相對優(yōu)劣等級,經(jīng)專家打分,得出A相對于一級指標(biāo)的判斷矩陣:
(9)
C表示11個二級指標(biāo)。同理可得出個人活躍度B1、個人測試能力B2、個人誠信度B3的判斷矩陣分別如式(10)~(12)所示:
(10)
(11)
(12)
為使層次分析法所得結(jié)果符合邏輯,還需對判斷矩陣進(jìn)行一致性檢驗。一致性檢驗步驟如下:
步驟1 求判斷矩陣的最大特征值及特征向量。
步驟2 計算一致性指標(biāo)CI=(λmax-n)/(n-1)與平均隨機一致性指標(biāo)RI。并規(guī)定CR=CI/RI,若CR<0.1,則認(rèn)為該判斷矩陣具有滿意一致性;若CR=0,則該判斷矩陣具有完全一致性。
步驟3 若判斷矩陣具有滿意一致性,則λmax對應(yīng)的特征向量即為該特征向量所對應(yīng)的權(quán)重向量;若不具有滿意一致性,則修改原矩陣直到具有滿意一致性,再求其權(quán)重向量。
以判斷矩陣A-B為例進(jìn)行計算,得出其最大特征值λmax=3.018 4,CI=(λmax-3)/(3-1)=0.009 2,RI=0.58,并計算出CR=CI/RI=0.015 9<0.1,這說明A-B具有滿意一致性,對應(yīng)的特征向量即為該特征向量所對應(yīng)的權(quán)重向量。
同理得出一級指標(biāo)B1、B2、B3的歸一化權(quán)重、最大特征值λmax以及一致性驗證指標(biāo)CR如表1所示。
通過以上計算可知各判斷矩陣具有滿意一致性,匯總各判斷矩陣的特征向量,得到指標(biāo)權(quán)重表,如表2所示。
由表2中的數(shù)據(jù)可以得出,眾包測試能力與其對應(yīng)的三個一級指標(biāo)模型如下:
A=0.117×B1+0.615×B2+0.268×B3
(13)
三個一級指標(biāo)與其對應(yīng)二級指標(biāo)模型如式(14)~(16)所示:
B1=0.084×C1+0.244×C2+0.479×C3+
0.044×C4+0.149×C5
(14)
B2=0.473×C6+0.073×C7+0.170×C8+0.284×C9
(15)
B3=0.800×C10+0.200×C11
(16)
表1 各級指標(biāo)對應(yīng)判斷矩陣與計算結(jié)果匯總Tab.1 Summary of correspondence judgment matrix and calculation results for indexes at all levels
表2 各級評價指標(biāo)及其權(quán)重值Tab. 2 Evaluation indexes at all levels and their weight values
直接使用上述模型僅能靜態(tài)地評價眾包人員在眾包測試中的能力。要對測試人員進(jìn)行全面客觀的評價,使測試人員與測試任務(wù)更加匹配,還需要考慮企業(yè)對測試人員的具體要求以及測試人員自身的特征。故引入需求列表(Requirement List, RL),其中RL={R0,R1,…,Ri,…,Rn}。將測試人員的身份特征、設(shè)備特征、任務(wù)偏好這三個描述特征引入描述表(Description list, DL),DL={D0,D1,…,Di,…,Dn}。通過RL和DL構(gòu)建n+1行n+1列的測試人員匹配矩陣(Tester Match Matrix, TMM),其表達(dá)式為:
(17)
msii(i=0,1,…,n)表示第i項人員需求與第i項人員描述特征的匹配得分(match score, ms)。msii表達(dá)式如下:
msii=match(Ri,Di); 0≤i≤n
(18)
式中:match表示人員需求與人員描述匹配函數(shù),且match(Ri,Di)∈[0,1]。
測試人員匹配矩陣TMM是一個類單位矩陣,只有主對角線上取值為msii,其余元素均為0。將矩陣TMM的行列式值|TMM|作為n行人員需求與n列人員描述是否全部匹配的依據(jù),若|TMM|=0,則未完全匹配,若|TMM|=1,則完全匹配。|TMM|計算方法如下:
(19)
通過將|TMM|與式(13)的結(jié)果A相乘作為移動應(yīng)用眾包測試人員評價模型的修正,修正后的模型A′的計算方法如式(20)所示:
A′=|TMM|×A
(20)
通過構(gòu)造模型并對其修正,得出最終的移動應(yīng)用眾包測試人員層次分析評價模型,為了驗證該模型在實際評價過程中結(jié)果是否準(zhǔn)確,需要驗證準(zhǔn)確性與單調(diào)性。準(zhǔn)確性用模型評價結(jié)果與移動應(yīng)用眾包測試平臺Testin中的測試人員的總體評分的誤差衡量,誤差越小,說明相關(guān)性越強。單調(diào)性表示模型評價結(jié)果能否準(zhǔn)確預(yù)測總體評分的排序。本文采用皮爾遜相關(guān)性系數(shù)驗證模型的準(zhǔn)確性,采用斯皮爾曼等級相關(guān)系數(shù)驗證模型的單調(diào)性,并對該模型的實際應(yīng)用結(jié)果進(jìn)行分析。
1)皮爾遜相關(guān)性系數(shù)。
皮爾遜相關(guān)性系數(shù)又稱皮爾遜積矩相關(guān)系數(shù)(Pearson Product-Moment Correlation Coefficient, PPMCC)、簡單相關(guān)系數(shù),它描述了兩個定距變量間聯(lián)系的緊密程度[16],一般用r表示,計算公式為:
(21)
式中:N為樣本量;X、Y為兩個變量的觀測值。若r>0,表明兩變量正相關(guān);若r<0,表明兩變量負(fù)相關(guān)。r的絕對值越大表明兩變量的相關(guān)性越強,一般定義為:1)0.6<|r|≤0.8,強相關(guān);2)0.4<|r|≤0.6,中等程度相關(guān);3)0.2<|r|≤0.4,弱相關(guān);4)0.0≤|r|≤0.2,極弱相關(guān)或無相關(guān)。
2)斯皮爾曼等級相關(guān)系數(shù)。
斯皮爾曼等級相關(guān)系數(shù)(Spearman Rank Correlation, SROCC)是依據(jù)等級信息研究兩變量之間相關(guān)關(guān)系的方法[17]。若樣本的樣本容量為n,則n個包含等級數(shù)據(jù)xi、yi的原始數(shù)據(jù)的斯皮爾曼等級相關(guān)系數(shù)ρ計算公式為:
ρ=1-6∑(xi-yi)/[n(n2-1)]
(22)
斯皮爾曼相關(guān)系數(shù)表明獨立變量X和依賴變量Y的相關(guān)方向。當(dāng)X增加,Y趨向于增加時,斯皮爾曼相關(guān)系數(shù)為正;當(dāng)X增加,Y趨向于減少時,斯皮爾曼相關(guān)系數(shù)為負(fù)。當(dāng)X增加、Y沒有任何趨向性時,斯皮爾曼相關(guān)系數(shù)為0;當(dāng)X和Y完全單調(diào)相關(guān)時,斯皮爾曼相關(guān)系數(shù)的絕對值為1。
本文從Testin測試平臺獲取從2016年7月—12月的移動應(yīng)用眾包測試數(shù)據(jù),為了保證數(shù)據(jù)的有效性,僅僅選取活躍用戶作為實驗數(shù)據(jù)來源,其中活躍用戶1 798名,共完成眾包任務(wù)9 865件。
從上述眾測人員中隨機選取100名眾測人員作為實驗評價對象,從Testin測試平臺獲取所選眾包測試人員的測試申請、測試Bug發(fā)現(xiàn)、客戶評價等歷史數(shù)據(jù),采用本文提出的評價模型,分別計算其二級評價指標(biāo),以及通過加權(quán)計算其一級指標(biāo)和最終評價總分。最后基于改進(jìn)模型,優(yōu)化眾測人員的最終評分。
本文通過計算原始模型評分、改進(jìn)后的模型評分與網(wǎng)站評分之間的皮爾遜相關(guān)系數(shù)和皮爾斯曼等級相關(guān)系數(shù)來反映模型評分與網(wǎng)站評分之間的關(guān)聯(lián)度,進(jìn)而反映模型評價的有效性。
通過相關(guān)計算,一級指標(biāo)個人活躍度、個人測試能力及個人誠信度的評分及經(jīng)過本文提出的評價模型評分、改進(jìn)后的模型評分與網(wǎng)站原有評分對比如表3所示。
表3 評價模型的數(shù)據(jù)示例Tab. 3 Data examples for the evaluation model
從表3可以看出,運用原始模型和改進(jìn)后的模型進(jìn)行人員評價,不僅能夠計算出測試人員的能力總體評分,而且能夠計算出模型的一級指標(biāo)如個人活躍度、個人誠信度等的評分,在展現(xiàn)測試人員綜合測試能力的同時,可以通過一級指標(biāo)更加全面地評價眾包測試人員,測試人員也能根據(jù)一級指標(biāo)的評分在自身短板處有所提升。
使用Python語言對經(jīng)預(yù)處理的數(shù)據(jù)進(jìn)行計算,并使用Matlab根據(jù)所選樣本數(shù)據(jù)的散點分布得出皮爾遜相關(guān)性系數(shù)(r(PPMCC))和斯皮爾曼等級相關(guān)系數(shù)(ρ(SROCC)),原始模型及對模型改進(jìn)后的模型相關(guān)性系數(shù)曲線分別如圖2所示。
圖2 不同模型的相關(guān)性系數(shù)曲線Fig. 2 Correlation coefficient curves of different models
圖2(a)中X代表原始模型評價結(jié)果,圖2(b)中X代表改進(jìn)后的模型評價結(jié)果,圖2中Y均代表檢驗數(shù)據(jù)中的網(wǎng)站評分。經(jīng)計算,原始模型與改進(jìn)后模型對應(yīng)的皮爾遜相關(guān)性系數(shù)、斯皮爾曼等級相關(guān)系數(shù)結(jié)果及顯著性檢驗結(jié)果如表4所示。
表4中,原始模型及改進(jìn)后的模型的皮爾遜相關(guān)性系數(shù)r(PPMCC)分別為0.990及0.992,均滿足0.8 表4 相關(guān)性系數(shù)PPMCC和SROCC結(jié)果Tab. 4 Results of correlation coefficients for PPMCC and SROCC 通過皮爾遜相關(guān)性系數(shù)r(PPMCC)驗證了原始模型評價結(jié)果、改進(jìn)后的模型評價結(jié)果與原數(shù)據(jù)集中的移動應(yīng)用眾包測試人員總體執(zhí)行評價數(shù)值相關(guān)性都較強,且改進(jìn)后的模型評價結(jié)果更為準(zhǔn)確。通過斯皮爾曼相關(guān)系數(shù)ρ(SROCC)證明原始模型及改進(jìn)后的模型都能夠較為準(zhǔn)確地預(yù)測原數(shù)據(jù)集中評分的排序,表明移動應(yīng)用眾包測試人員層次分析評價模型較為有效。 由上述實驗結(jié)果可知,本文所提出的模型及修改后的模型評分與該網(wǎng)站的評分在大多數(shù)情況下是極為相近的,且數(shù)據(jù)相近的情況大多出現(xiàn)在用戶參與了大量的眾包測試活動的情況下。雖然網(wǎng)站評分也存在較強的主觀性,但對于參與測試次數(shù)多的用戶,即使單次評價存在較大誤差,出現(xiàn)正負(fù)誤差的概率是相等的,在評價次數(shù)多的情況下正負(fù)誤差抵消,總體誤差值極小。故在目前缺乏對移動應(yīng)用眾包測試人員客觀評價的基準(zhǔn)方法的情況下,可通過計算模型評價結(jié)果與網(wǎng)站評分之間的相關(guān)性來驗證模型評價結(jié)果的準(zhǔn)確性,本文提出的評價模型在樣本數(shù)據(jù)較多時是準(zhǔn)確有效的。 雖然仍有部分經(jīng)原始模型與改進(jìn)后的模型評價得出的結(jié)果與Testin網(wǎng)站評分之間存在較大的偏差,但經(jīng)分析后發(fā)現(xiàn)這些偏差主要出現(xiàn)在參與眾包測試次數(shù)較少的眾測人員身上。此類人員由于參加的眾測次數(shù)較少,累計評價次數(shù)也少,數(shù)據(jù)的可置信度低,因此網(wǎng)站評分不具有客觀性。且本文所提模型中的二級評價指標(biāo)包含了月均參與任務(wù)數(shù)與參與任務(wù)總數(shù)這兩項指標(biāo),表明該模型是綜合考慮了眾測人員參與測試次數(shù)這一因素的,是對網(wǎng)站評價的一種修正,結(jié)果更為客觀,故當(dāng)存在偏差時通過本文模型計算評分應(yīng)比網(wǎng)站評分更為準(zhǔn)確。 本文運用層次分析法,結(jié)合移動應(yīng)用眾包測試的特征,提出移動應(yīng)用眾包測試人員層次分析評價模型。該模型的特點是:1)將移動應(yīng)用測試的實際情況與專家的經(jīng)驗相結(jié)合,使得評價結(jié)果更加科學(xué)和客觀。2)運用層次分析法時分析指標(biāo)考慮較為全面,模型適用性強。3)引入需求列表與描述列表對本模型進(jìn)行改進(jìn),測試人員與測試任務(wù)匹配度更高。通過運用皮爾遜相關(guān)性系數(shù)和斯皮爾曼等級相關(guān)系數(shù)對本文模型進(jìn)行驗證,結(jié)果表明了本文模型及改進(jìn)后的模型的有效性和準(zhǔn)確性。 本文所提出的移動應(yīng)用眾包測試人員層次分析評價模型可對測試人員作出準(zhǔn)確評價,有助于任務(wù)發(fā)布者高效、準(zhǔn)確地對測試人員進(jìn)行篩選。在下一步的研究中,將進(jìn)一步完善模型,引入更加全面的指標(biāo),以實現(xiàn)對移動應(yīng)用眾包測試人員層次分析評價模型更加精確的模擬。 References) [1] HOWE J. Crowdsourcing: why the power of the crowd is driving the future of business [J]. Journal of Consumer Marketing, 2009, 26(4): 305-306 [2] MAO K, CAPRA L, HARMAN M, et al. A survey of the use of crowdsourcing in software engineering [J]. Journal of Systems and Software, 2016, 126(2017): 57-84. [3] 張志強,逄居升,謝曉芹,等.眾包質(zhì)量控制策略及評估算法研究[J].計算機學(xué)報,2013,36(8):1636-1649.(ZHANG Z Q, PANG J S, XIE X Q, et al. Research on crowdsourcing quality control strategies and evaluation algorithm [J]. Chinese Journal of Computers, 2013, 36(8): 1636-1649.) [4] AMBATI V, VOGEL S, CARBONELL J. Towards task recommendation in micro-task markets [C]// Proceedings of the 11th AAAI Conference on Human Computation. Menlo Park: AAAI, 2011: 80-83 [5] YUEN M C, KING I, LEUNG K S. Taskrec: probabilistic matrix factorization in task recommendation in crowdsourcing systems [C].//ICONIP 2012: Proceedings of the 2012 International Conference on Neural Information Processing, LNCS 7664. Berlin: Springer, 2012: 516-525. [6] GEIGER D, SCHADER M. Personalized task recommendation in crowdsourcing information systems — current state of the art [J]. Decision Support Systems, 2014, 65(C): 3-16. [7] HO C J, VAUGHAN J W. Online task assignment in crowdsourcing markets [C]// AAAI’12: Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2012: 45-51. [8] 李勇軍,郭基鳳,緱西梅.軟件“眾包”任務(wù)分配方法[J].計算機系統(tǒng)應(yīng)用,2015,24(2):1-6.(LI Y J, GUO J F, GOU X M. Software task allocation method in crowdsourcing [J]. Computer Systems & Applications, 2015 ,24(2): 1-6.) [9] 肖江輝.基于可信度的眾包協(xié)同測試及其算法實現(xiàn)[D].大連:大連海事大學(xué),2015:6.(XIAO J H. A research on trust-based crowdsourced collaborative testing and algorithm implementation [D]. Dalian: Dalian Maritime University, 2015:6.) [10] WOODRUFF C K. Job performance evaluation of data processing personnel: an empirical study [J]. ACM SIGCPR Computer Personnel,1980, 8(4): 7-10. [11] BOLTON D L. Evaluating Administrative Personnel in School Systems [M]. New York: Teachers College Press,1980: 29-32. [12] 陳龍猛.基于Internet的高校實驗技術(shù)人員工作評價系統(tǒng)開發(fā)[J].實驗室研究與探索,2014,33(6):243-246,251.(CHEN L M. Development of the evaluation system based on the Internet for working performance of college lab technicians [J]. Research and Exploration in Laboratory, 2014, 33(6): 243-246, 251.) [13] 楊振英,萬秋一.軍隊人員信息安全素養(yǎng)評價指標(biāo)體系構(gòu)建研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013(2):67-70.(YANG Z Y, WAN Q Y. Research on the construction of information security literacy evaluation index system [J]. Network Security Technology & Application, 2013(2): 67-70.) [14] 張曉冬.系統(tǒng)工程[M].北京:科學(xué)出版社,2010:142-160.(ZHANG X D. Systems Engineering [M]. Beijing: Science Press, 2010: 142-160.)[15] 邱奇志,周潔,張金保.基于形式概念分析和層次分析法的應(yīng)急管理能力模糊綜合評價法[J]. 計算機應(yīng)用,2014,34(6):1819-1824.(QIU Q Z, ZHOU J, ZHANG J B. Fuzzy comprehensive evaluation method for emergency management capability based on formal concept analysis and analytic hierarchy process [J]. Journal of Computer Applications, 2014, 34(6): 1819-1824.) [16] RODGERS J L, NICEWANDER W A. Thirteen ways to look at the correlation coefficient [J]. American Statistician, 1988, 42(1): 59-66. [17] 張文耀.用斯皮爾曼系數(shù)衡量網(wǎng)絡(luò)的度相關(guān)[D].合肥:中國科學(xué)技術(shù)大學(xué),2016:4.(ZHANG W Y. Measuring mixing patterns in complex networks by Spearman rank correlation coefficient [D]. Hefei: University of Science and Technology of China, 2016:4.) This work is partially supported by the Industrial Science and Technology Research Project of Shaanxi Province (2016GY- 100), the Aerospace Science and Technology Support Program (2014HTXGD), the Aerospace CAST-BISEE Fund (2015MC1001061). LIUYing, born in 1996, M. S. candidate. Her research interests include mobile application testing, crowdsourcing testing. ZHANGTao, born in 1976, Ph. D., associate professor. His research interests include software security, mobile application testing. LIKun, born in 1993, M. S. candidate. His research interests include mobile application testing. LINan, born in 1996, M. S. candidate. Her research interests include software security. Evaluationmodelofmobileapplicationcrowdsourcingtesters LIU Ying*, ZHANG Tao, LI Kun, LI Nan (SchoolofSoftwareandMicroelectronics,NorthwesternPolytechnicalUniversity,Xi’anShaanxi710072,China) Mobile application crowdsourcing testers are anonymous, non-contractual, which makes it difficult for task publishers to accurately evaluate the ability of crowdsourcing testers and quality of test results.To solve these problems, a new evaluation model of Analytic Hierarchy Process (AHP) for mobile application crowdsouring testers was proposed. The ability of crowdsourcing testers was evaluated comprehensively and hierarchically by using the multiple indexes, such as activity degree, test ability and integrity degree. The combination weight vector of each level index was calculated by constructing the judgment matrix and consistency test. Then, the proposed model was improved by introducing the requirement list and description list, which made testers and crowdsourcing tasks match better. The experimental results show that the proposed model can evaluate the ability of testers accurately, support the selection and recommendation of crowdsourcing testers based on the evaluation results, and improve the efficiency and quality of mobile application crowdsourcing testing. mobile application crowdsourcing testing; personnel evaluation; Analytic Hierarchy Process (AHP); Pearson correlation coefficient; Spearman correlation coefficient 2016- 05- 20; 2017- 07- 24。 陜西省工業(yè)科技攻關(guān)項目(2016GY- 100);航天科技支撐計劃項目(2014HTXGD);航天CAST-BISEE基金資助項目(2015MC1001061)。 劉瑩(1996—),女,四川綿陽人,碩士研究生,主要研究方向:移動應(yīng)用測試、眾包測試; 張濤(1976—),男,陜西寶雞人,副教授,博士,主要研究方向:軟件安全、移動應(yīng)用測試; 李坤(1993—),男,陜西西安人,碩士研究生,主要研究方向:移動應(yīng)用測試;李楠(1996—),女,陜西商洛人,碩士研究生,主要研究方向:軟件安全。 1001- 9081(2017)12- 3569- 05 10.11772/j.issn.1001- 9081.2017.12.3569 (*通信作者電子郵箱894749065@qq.com) TP301.4 A4 結(jié)語