葉子成 王幫海
(廣東工業(yè)大學計算機學院 廣東 廣州 510006)
國內(nèi)外大量研究表明,閱讀對某一事物的網(wǎng)絡評論是當前人們獲得信息的重要途徑之一,評論很大程度會影響其對某一事物的看法。在電商平臺中,不良商家為了獲得更大的利益,會利用虛假評論對消費者的消費決策進行誤導。在網(wǎng)絡媒體中,個別媒體團隊會利用虛假評論控制輿論、獲取流量并從中受益。
隨著網(wǎng)絡社交平臺的興起,一種由關鍵意見領袖[1]進行宣傳,運營團隊同時對商品發(fā)表不真實評論的模式隨之流行。關鍵意見領袖負責在單群組或多群組中進行有效的信息傳播,推動粉絲在短時間內(nèi)發(fā)布大量評論,使目標商品在短時間內(nèi)獲得許多真假混雜的評論,增大虛假評論群組的檢測。虛假評論群組[2-3]指的是多個評論者通過組織協(xié)同地對同一個或同一組商品發(fā)表虛假評論。發(fā)布虛假評論的用戶共同構(gòu)成虛假評論群組,群組內(nèi)的個體之間不一定有直接關聯(lián),但通過領導者的組織策劃,虛假評論群組可以有規(guī)模地針對多種商品協(xié)同發(fā)布虛假評論。虛假評論群組的危害性遠遠大于虛假評論者個體的危害性,群組通過組織者的策劃在一段時間內(nèi)發(fā)表大量虛假評論,可以控制目標商品的評論風向,影響正常用戶的消費決策。
現(xiàn)有的針對虛假評論群組檢測的研究工作多采用頻繁項挖掘或聚類算法獲得候選群組,再通過具備領域知識的專家進行人工標注得到候選群組的類別或?qū)θ航M的聯(lián)系及內(nèi)部特征進行分析。Jindal等[4]利用一種排序模型確定虛假評論群組的可疑程度。Lim等[5]認為在同一個群組中評論者們在行為上有以下共性:(1) 更可能集中在一個時間段內(nèi)對某一個商品發(fā)表評論;(2) 群組中的成員對一個商品的評分與真實用戶給出的評分存在偏差,即群組偏差(Group Deviation),群組偏差反映了群組欺詐行為的程度;(3) 虛假評論群組在某一個商品中發(fā)表評論越早,越能控制商品的評價風向,發(fā)表虛假評論的動機也更充足。Xu等[6]在FraudInformer排序算法中利用多組特征(pairwise features)對評論者進行打分和排序,并根據(jù)行為特征對反映的信息判定兩個虛假評論者是否強相關,若強相關,則二者屬于一個虛假評論群組的可能性更高。Xu等[7]基于文獻[6]提出的特征對,用改進的KNN聚類算法和圖分類算法進行聚類。在改進的KNN聚類算法中研究者選擇k個最相似的評論,然后使用投票法判斷通過聚類分類的群組是否屬于虛假評論群組。而在圖分類算法中則通過對目標函數(shù)求最優(yōu)解獲得給每一個評論者所屬的標簽,并未對群組有進一步分析。Ye等[8]引入了網(wǎng)絡足跡分(Network Footprint Score, NFS)的概念用于量化一個商品是否成為虛假評論群組目標的可疑程度以及評論者行為的反常程度,隨后用其所提出的GroupStrainer算法對由可疑商品和可疑評論者構(gòu)成的2-hop子圖進行層次聚類,從而檢測到虛假評論群組。Mukherjee等[2]使用頻繁項挖掘方法找到一組候選群組,再運用GSRank模型對候選群組屬于虛假評論群組的概率進行計算。張琪等[9]根據(jù)虛假評論者的行為指標構(gòu)建帶權評論圖,對可疑子圖進行篩選,確定嫌疑較大的評論者,再使用Louvain社群發(fā)現(xiàn)算法[10]將可疑評論者進行分類。
已有的研究主要針對虛假評論群組的三個方面進行研究:基于群組內(nèi)容和行為特征的檢測方法,基于群組結(jié)構(gòu)的檢測方法,基于網(wǎng)絡結(jié)構(gòu)的檢測方法[11]。本文提出的一種基于評論者相似度矩陣的譜聚類群組檢測算法(Spectral Clustering Group Detection Algorithm based on Reviewer Similarity Matrix,SCGDA),并對檢測出來的候選群組進行分析和研究,補足了文獻 [2,4,9]的不足。與文獻[9]相似的是,SCGDA同樣使用帶權評論者圖作為譜聚類的相似度矩陣。本文工作與其最大的不同之處在于,文獻[9]通過設置閾值基本篩選出可疑用戶,再進行群組結(jié)構(gòu)發(fā)現(xiàn)和分析;而本文工作強調(diào)先對群組進行檢測,再根據(jù)候選群組的內(nèi)部特征進一步判斷所屬類別。此外,文獻[9]在對實驗數(shù)據(jù)預處理階段刪除了不活躍的用戶和產(chǎn)品數(shù)據(jù),本文認為移除部分數(shù)據(jù)雖然有利于降低算法的時間復雜度,考慮到電子商務平臺會對違規(guī)賬號進行封禁,虛假評論群組不得不使用多批賬號發(fā)布虛假評論,這些賬號很大可能就是剛注冊的賬號或是不活躍賬號,同時,移除部分數(shù)據(jù)會改變數(shù)據(jù)集的結(jié)構(gòu),無法有效體現(xiàn)出算法的魯棒性。另外,在關鍵意見領袖模式下,一些基于文本分析進行檢測的算法[12-13]或利用評論爆發(fā)性進行檢測的算法[2,7-8,14-15]表現(xiàn)不佳。SCGDA利用用戶發(fā)布評論的行為特征檢測不同群組,適合對以關鍵意見領袖為核心的虛假評論群組進行檢測。下面將介紹用戶相似度度量指標的選擇和帶權評論者圖的構(gòu)建過程,并利用帶權評論者圖的鄰接矩陣作為相似度矩陣,通過譜聚類的方法完成群組檢測。之后,本文將對不同候選群組進行分析,根據(jù)不同群組特征來度量候選群組的可疑程度,并與其他群組檢測算法進行比較。
許多研究者[4,7,9,16]提出了一些能夠反映虛假評論者或虛假評論群組異常程度的指標,這些指標被廣泛應用于檢測虛假評論或檢測虛假評論者的不同模型中[2,8-9,16-17]。本文使用的帶權評論者圖以用戶作為節(jié)點,因此從用戶的互動行為和自身行為兩個方面選擇了能夠反映評論者異常程度的5個指標:共同評論次數(shù),同一商品的評分相似度,用戶互動次數(shù),積極評分比例和消極評分比例。
共同評論次數(shù)是兩個用戶對相同商品進行過評分的次數(shù),該指標越高,表示兩個用戶在相同商品發(fā)表過評論的次數(shù)越多,這兩個用戶的行為越可疑。
同一商品的評分相似度用于度量兩個用戶在共同評論過的相同商品上給出評分的相似程度。當兩個用戶有過多次共同評論相同商品的經(jīng)歷時,該指標可以進一步反映用戶的異常程度。
用戶互動次數(shù)指的是兩個用戶所發(fā)表的評論收到的互動行為(如認為該評論“有用”)的次數(shù)。虛假評論群組的成員為了提高虛假評論的可信度和曝光率,會采用點贊、認為“有用”等方式進行互動。由于群組大小不同,不同群組成員的互動次數(shù)差異較大,但同一群組成員的互動次數(shù)則比較相近,因此該指標可以反映用戶互動行為的相似程度。
積極(消極)評分比例是用戶給出積極(消極)評分次數(shù)占所有已給出評分次數(shù)的比例,虛假評論者為了抬高或降低商品的平均分,因此給出極端評分的概率遠遠高于普通用戶。利用該指標可以度量極端評分比例,進一步地,利用歐氏距離度量兩個用戶在積極(消極)評分比例上的相似程度。
由于虛假評論群組中的成員具有共謀性,互動行為指標能夠捕獲不同用戶的關聯(lián)行為。對已產(chǎn)生關聯(lián)的可疑用戶,再進一步結(jié)合用戶行為指標可以度量兩個用戶自身行為的相似程度??傊鲜?個指標涵蓋了用戶的互動行為和自身行為,能準確地反映用戶間的相似程度,在這5個指標中得分越相近的用戶在行為上越相似,更可能被認為屬于同一群組。
互動行為指標反映的是一個用戶的行為與其他用戶的行為的關聯(lián)程度。本節(jié)將對共同評論次數(shù)(Co-Reviewing Times, CRT)[9]、同一商品的評分相似度(Similarity of Rating on Same Product, SRSP)[3,9]和用戶互動次數(shù)(Interaction Times, IT)進行介紹。
1.1.1共同評論次數(shù)
文獻[5,9]認為,兩個評論者對同一個商品發(fā)表評論的次數(shù)越多,二者越有可能是同屬一個群組的虛假評論者。由于虛假評論群組的協(xié)同性,在同一群組內(nèi)的成員有更多相同的評論目標,而正常的用戶因用戶性別、年齡、收入和興趣愛好等不同而有不同的消費行為,兩個正常的用戶往往不會出現(xiàn)多次對同一商品均進行評論的現(xiàn)象。因此,本文選擇共同評論次數(shù)[9]作為用戶相似度度量指標。
CRT(n1,n2)=|P1∩P2|
(1)
式中:n1、n2為兩個不同的評論者;P1、P2分別為n1、n2發(fā)表過評論的商品集合。
1.1.2同一商品的評分相似度
同一虛假評論群組的成員往往有共同褒揚或貶低同一商品的目標,因此,屬于同一群組的成員不僅僅在相同商品上有較多的評論次數(shù),即CRT更高,而且對相同商品會給出更相近的評分。本文在文獻[3,9]的基礎上提出同一商品的評分相似度。
(2)
式中:n1、n2為兩個不同的評論者;SP1i、SP2j分別為n1、n2對商品P發(fā)表第i或第j條評價的評分;N1、N2分別為n1、n2在商品P上發(fā)表的評論數(shù)。
1.1.3用戶互動次數(shù)
虛假評論群者通常會在電商平臺上進行互動,如進行給已發(fā)表的虛假評論點贊、評論等互動行為,從而提高評論的可信度和賬號的活躍度。由于虛假評論者往往一人操縱多個賬號,因為操縱者的個人習慣,虛假評論賬號的互動次數(shù)有相似的互動頻率和互動次數(shù)。在此基礎上,本文定義用戶互動次數(shù)(Interaction Times, IT) 來衡量不同賬號間互動行為的相似程度,計算式為:
(3)
式中:C1i、C2i分別表示n1、n2第i種互動行為的次數(shù)。數(shù)據(jù)集中共有N種互動行為。本實驗中,N取3,三種不同的互動行為分別為“發(fā)表的評論被其他用戶認為有用”“發(fā)表的評論被其他用戶認為很酷”“發(fā)表的評論被其他用戶認為有趣”。
用戶行為指標反映的是用戶自身的行為特征,如最大日評論數(shù)(Maximum Number of Reviews, MNR)[18]指的是用戶在單日發(fā)表最多評論的數(shù)目,這是一個異常的用戶行為特征;極端評分比例(Extreme Rating, EXT)[18]指的是用戶給出的極端評分數(shù)量占給出評分數(shù)量的比例。由于虛假評論者的目的往往是大幅提高或降低某個商品的平均分,因此虛假評論者給出的極端評分比例會遠遠高于普通用戶。
本文認為一個群組內(nèi)的評論者有相同的目標,因此虛假評論者給出的好評或差評數(shù)量也會相近。本文對兩個用戶的好評占比和差評占比進行統(tǒng)計,并分別計算兩個用戶給出的好評(差評)比例的相近程度。評分的區(qū)間為[1,5],認為1、2分為差評,4、5分為好評。則用戶的積極評分比例(Positive Rating Ratio, PR)定義為:
(4)
式中:|·|表示該評分出現(xiàn)的次數(shù)。
消極評分比例(Negative Rating Ratio, NR)定義為:
(5)
用歐氏距離度量兩個用戶PR和NR的相似度:
(6)
式中:rn表示為評論者n的PR或NR。
異構(gòu)評論圖(Heterogeneous Review Graph)[19]以用戶、評論和商品作為三種不同類型的節(jié)點,當兩個不同類型的節(jié)點發(fā)生關聯(lián)后則相應地在兩個節(jié)點之間產(chǎn)生一條邊來描述節(jié)點間的關系。不同于異構(gòu)評論圖,張琪等[9]僅以用戶作為節(jié)點,以用戶之間的相似程度作為權重構(gòu)建了帶權評論圖。本文在其工作的基礎上增加了用戶互動次數(shù)、用戶行為指標計算邊的權重,構(gòu)建帶權評論者圖。構(gòu)建過程如下:
(1) 將每個評論者作為一個節(jié)點添加到圖中,構(gòu)成圖G=(V)。
(2) 利用第1節(jié)中提到的用戶相似度度量指標構(gòu)建圖的邊。由于兩名虛假評論者屬于同一群組,則其必然在相同商品中發(fā)表過評論,因此在構(gòu)建圖的邊時先對圖G=(V)中兩兩節(jié)點的所有組合進行遍歷,當且僅當兩兩評論者共同評論過至少一個商品,即共同評論次數(shù)大于0時,在代表這兩個評論者的節(jié)點之間建立一條邊,構(gòu)成無權圖G=(V,E),其中:V表示點集;E表示邊集。
(3) 對所有邊(vi,vj)∈E,分別計算節(jié)點vi、vj之間的共同評論次數(shù)(CRT)、同一商品評分相似度(SPSR)、用戶互動次數(shù)(IT),以及用戶積極(消極)評分比例相似度。
(4) 利用各項度量指標計算所有邊(vi,vj)∈E的權值。張琪等[9]選用的2個造假行為特征各占0.5的權重;Dematis等[20]提出的模型根據(jù)選用的各項評分指標的取值范圍來確定各指標的權重,最終令各項指標在式中占據(jù)相近的比例。本文選用的各度量指標分別衡量節(jié)點不同維度下的相似程度,可以認為各指標的重要性相同。由于各指標的取值區(qū)間不同,因此將其歸一化至[0,1]后取相同權重用于計算權值ω,即:
SimilarityNRij)
(7)
式中:k=5。
譜聚類[21]是一種從圖論演化而來的聚類算法。它的核心思想是對帶權圖進行切割,使得切圖后不同子圖之間邊的權重之和盡可能低,同一子圖內(nèi)邊的權重之和盡可能高。文獻[22]指出譜聚類算法是用圖所對應的矩陣特征向量表示圖的結(jié)構(gòu)特征關系,再對這些特征采用經(jīng)典聚類算法實現(xiàn)聚類。本文算法利用多分類正則切的譜聚類[23]方法對2.1節(jié)中構(gòu)建的帶權評論者圖進行切割。具體地,利用譜聚類進行群組檢測的基本流程如算法1所示。
算法1譜聚類檢測群組
輸入:帶權評論者圖G(V,E),檢測簇的個數(shù)n。
輸出:n個候選群組C=(c1,c2,…,cn)。
1. 由帶權評論者圖G計算鄰接矩陣A、度矩陣D以及拉普拉斯矩陣L=D-A。
2. 根據(jù)式(8)獲得標準化的拉普拉斯矩陣NL:
NL=D-1/2(D-A)D-1/2=D-1/2LD-1/2
(8)
3. 計算NL最小的k個特征值及其對應的特征向量f,k取檢測簇的個數(shù)n。
4. 將各自對應的特征向量f組成v×k大小的特征矩陣f并按行標準化,v為樣本數(shù),即圖G節(jié)點的個數(shù)。
5. 利用K-means方法對f按行進行聚類,檢測得到n個候選群組C=(c1,c2,…,cn)。
Mukherjee等[17]從美國最大點評網(wǎng)站Yelp上分別爬取了芝加哥地區(qū)85家酒店和130家餐廳的評論數(shù)據(jù)分別構(gòu)成Yelp-Hotel和Yelp-Restaurant數(shù)據(jù)集。隨著多年的發(fā)展,Yelp的虛假評論過濾算法具有足夠高的準確率,且在Yelp網(wǎng)頁上,被過濾算法識別出的虛假評論會被置于虛假評論區(qū),而過濾算法認為正常的評論將被置于常規(guī)頁面。Mukherjee等將從商品(酒店或餐廳)的虛假評論區(qū)中爬取的評論數(shù)據(jù)置為正類標簽“Y”,將從商品的常規(guī)頁面爬取的評論數(shù)據(jù)置為負類標簽“N”。此外還從評論者主頁中爬取每一個評論者發(fā)表過的評論(不限于酒店、餐廳商品類別),將沒有出現(xiàn)在常規(guī)頁面的評論認為是被過濾的虛假評論并置為正類標簽“YR”,否則置為負類標簽“NR”。從評論者主頁爬取的數(shù)據(jù)極大豐富了以“用戶”為中心的評論信息,由于爬取的許多用戶曾發(fā)表過虛假評論,因此該數(shù)據(jù)集(涵蓋Y、YR、N、NR四類標簽)是一個不平衡的數(shù)據(jù)集。本文對數(shù)據(jù)集中具有不同虛假評論程度的群組進行檢測,文獻[9,24]表明虛假評論占比超過10%的用戶有較大可能性是虛假評論者,因此虛假評論更多的不平衡數(shù)據(jù)集有利于不同層次群組檢測工作的進行。此外,該數(shù)據(jù)集的虛假評論多以“用戶”為中心進行爬取,因此也適合對聚類后的群組進行內(nèi)部特征分析。
本文在帶權評論者圖構(gòu)建階段,選擇了酒店數(shù)據(jù)集中的評論者ID、商品ID、評論評分和評論被認為是“有用的”次數(shù)、評論被認為是“有趣的”次數(shù)、評論被認為是“很酷的”次數(shù)對邊上權值的計算。由于虛假評論群組中會因賬號異常等原因而更換所控制的賬號,本實驗不做刪除不活躍用戶的預處理,即采用完整的數(shù)據(jù)集進行實驗,數(shù)據(jù)集共有5 132位評論者、688 329條評論、283 291件評論者發(fā)表過評論的商品。
SCGDA可以將數(shù)據(jù)集中5 132位評論者聚類到n個不同的簇中。由于在后續(xù)的工作中需要對群組特征進一步分析,為了更好地體現(xiàn)群組內(nèi)部特征,本文將選取個體大于10的群組進行分析。本文計算了聚類后個體小于10的群組占比,作為簇個數(shù)n的選擇指標,各聚類簇數(shù)下獲得成員數(shù)小于10的群組數(shù)量及所占比例如表1所示。
表1 不同簇數(shù)下聚類獲得個體小于10的群組數(shù)
根據(jù)個體小于10的群組占比,本文選擇了簇數(shù)n=15進行群組檢測。
現(xiàn)有的研究對于虛假評論占一個虛假評論者發(fā)表評論的比例的定義尚不明確。Li等[24]認為被大眾點評(dianping.com)網(wǎng)站檢測出虛假評論占已發(fā)表評論10%以上的用戶為虛假評論者。張琪等[9]檢測出來的12個虛假評論群組中,共有6個群組成員所有成員虛假評論占比為10%以上,所有群組的平均占比達到94.8%;成員占比為15%以上的,所有群組平均占比為86.1%;成員占比為20%以上的,所有群組平均占比為77.8%。綜合上述文獻的研究結(jié)果,可以認為發(fā)表虛假評論占發(fā)表評論10%以上的用戶有較高的可能性是虛假評論者,發(fā)表虛假評論占發(fā)表評論20%以上的用戶可以基本確定是虛假評論者。本文分別對檢測獲得的15個群組中發(fā)布了10%、15%、20%以上虛假評論的人數(shù)進行計算,群組檢測情況以及發(fā)布不同比例虛假評論人數(shù)占比如表2所示。
表2 群組檢測情況及發(fā)布不同比例虛假評論人數(shù)占比
可以看出,除了人數(shù)小于10的群組外,至少有90%的成員發(fā)表虛假評論占比超過10%的群組共有四個,所有群組的大部分成員均發(fā)布了至少10%以上的虛假評論。此外,除了10號和12號群組,其他群組成員發(fā)布的虛假評論均占到所有發(fā)布評論的30%以上,情況十分可疑??紤]到本文使用的數(shù)據(jù)集是一個不平衡的數(shù)據(jù)集,可以認為檢測出來的群組是活躍度不相同的虛假評論群組。
本節(jié)主要介紹用于分析群組特征的幾個指標并利用這些指標對檢測得到的群組進行分析,同時本文選擇K-means、層次聚類兩個經(jīng)典聚類算法,以及Louvain算法這一常用于虛假評論群組檢測的算法對帶權評論者圖進行群組檢測對照實驗,以驗證本文算法的有效性。其中:K-means和層次聚類算法取與本文算法相同的簇數(shù)n=15;Louvain算法是一種基于模塊度的社區(qū)發(fā)現(xiàn)算法,無法預設其檢測群組的數(shù)量。本文通過對該算法的參數(shù)調(diào)整使其檢測的群組數(shù)量最接近本文算法選擇的簇數(shù),Louvain算法檢測獲得13個群組。
3.3.1極端評分比(ExtremeRatingRatio,ERR)
Mukherjee等[18]認為虛假評論者更傾向于發(fā)布極端的評分(在[1,5]的評分區(qū)間中給出1分或5分將被視為極端評分)以控制商品的平均分朝著目標方向變化,因此提出了極端評分(Extreme Rating, EXT)的概念。張琪等[9]利用該指標計算一個群組成員的平均極端評分比作為衡量群組檢測好壞的指標之一。本文對四種方法檢測出的虛假評論群組分別計算極端評分比,其降序排列結(jié)果如表3所示。
表3 不同方法檢測的各虛假評論群組極端評分比
可以發(fā)現(xiàn),Louvain算法和SCGDA對比K-means算法及層次聚類算法均有較好的表現(xiàn),Louvain算法檢測出來的虛假評論群組中有7個ERR更高,而SCGDA檢測出來的群組中有11個群組ERR更高,從圖1可以直觀地看出Louvain算法和SCGDA劃群組的ERR趨勢。
圖1 不同方法檢測的各虛假評論群組極端評分比
可以認為,即使Louvain算法可檢測得15個群組,SCGDA的第14、第15號群組ERR值更高。更高的ERR值意味著群組的可疑程度更高,在該指標下SCGDA表現(xiàn)更好。
3.3.2重復評論比(RepeatedCommentRatio,RCR)
文獻[15]研究認為同一ID在相同商品中發(fā)表多次評論是一種可疑的、不正常的行為。本文將檢測出的虛假評論群組進行統(tǒng)計,重復評論比指的是同一群組中,同一用戶對同一商品進行的重復評論占該群組所有發(fā)布評論的比例。每個群組的重復評論比如圖2所示。
圖2 不同方法檢測的各虛假評論群組重復評論比
可以看出,本文算法與Louvain算法表現(xiàn)更好,而其他算法的表現(xiàn)較差。可以認為,SCGDA檢測的群組中,有3個群組超過10%的評論都是在進行“刷評論”的行為,在實驗中每一種算法都檢測出RCR值趨于0的群組,這是由于這些群組規(guī)模都特別小,發(fā)表評論數(shù)量不多,因此在同一商品上重復評論的可能性也較低。
圖3 不同方法下檢測的各虛假評論群組評分偏差
在評分偏差值較小的前段,本文算法表現(xiàn)明顯優(yōu)于其他算法;在中段各算法的表現(xiàn)差距不明顯,本文算法略優(yōu)于其他算法;在RD值較高的后段,SCGDA及Louvain均略遜于兩類經(jīng)典算法,然而本文算法的表現(xiàn)仍比Louvain算法略優(yōu)。整體而言,本文算法的表現(xiàn)較好。
本文提出的SCGDA將優(yōu)化后的帶權評論者圖和譜聚類算法結(jié)合,并以此完成在Yelp數(shù)據(jù)集中的群組檢測工作,即先針對元數(shù)據(jù)選擇特征,再構(gòu)建帶權評論者圖,最后利用譜聚類算法對其進行檢測獲得不同候選群組。本文選擇了3個常用于群組檢測工作的算法在同一帶權評論者圖上進行群組檢測作為對照實驗,并在“極端評分比”“重復評論比”“評分偏差”三個虛假群組指標上進行比較。實驗結(jié)果表明,本文算法的群組檢測效果整體上要優(yōu)于其他方法。
實際中,評論的正面或反面傾向與被評論對象的形象之間往往有一定的關系,但用戶個體的下一條評論是正例或是反例具有不確定性,且受限于數(shù)據(jù)集,難以對個體是否屬于欺詐者定性說明。未來的工作考慮從評論的正反面和被評論對象的關系進行挖掘,并對帶權評論者圖的構(gòu)建過程和譜聚類方法進行進一步完善,考慮用戶間的潛在聯(lián)系以進一步提升群組檢測的準確度,從而提高本文算法的群組檢測效果。