李金海+何有世
摘要:通過(guò)將研究分解成三個(gè)子任務(wù),對(duì)網(wǎng)絡(luò)數(shù)據(jù)從運(yùn)用PageRank與TrustRank剔除作弊網(wǎng)頁(yè)開始;借助結(jié)合網(wǎng)頁(yè)間主題相關(guān)度、時(shí)間差以及在線評(píng)論比例的權(quán)重的TCPageRank算法,提煉與產(chǎn)品主題高度相關(guān)并包含大量在線評(píng)論數(shù)據(jù)的網(wǎng)頁(yè)集;最后考慮了網(wǎng)頁(yè)與產(chǎn)品主題的相似度以及網(wǎng)頁(yè)的鏈接增幅對(duì)網(wǎng)頁(yè)權(quán)威性的影響,運(yùn)用改進(jìn)的HITS算法,確定在線評(píng)論分析數(shù)據(jù)來(lái)源的權(quán)威網(wǎng)頁(yè)集;而基于MapReduce的矩陣分塊運(yùn)算,降低了算法時(shí)空的復(fù)雜度。并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該方法的可行性與準(zhǔn)確性。
關(guān)鍵詞:在線評(píng)論;PageRank;主題漂移;鏈接增幅
DOI:10.13956/j.ss.1001-8409.2015.04.21
中圖分類號(hào):F71355 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-8409(2015)04-0094-06
Analysis of Reliability Data Source on Online Reviews Information Mining
LI Jinhai, HE Youshi
(School of Management, Jiangsu University, Zhenjiang 212013
)
Abstract:Through resolve the research into three subtasks, starting from operation PageRank and Trust Rank eliminate cheating page of network. Refining web page of high topic relevance by TCPageRank combined topic relevancy between web pages and weight of time difference and reviews on web page. Finally, thought of similarity between page and topic of product and amplification of page have the influence on the web authority, determine the authority of the web page of online review analysis data source by the improved HITS. The partitioning of matrix operation based on Map Reduce, reduces the time and space complexity of the algorithm. And through the simulation experiments it verifies the feasibility and accuracy of the method.
Key words:online reviews; PageRank; topic drift; amplification of page
引言
據(jù)CNNIC報(bào)告,2013年我國(guó)新增網(wǎng)民5千萬(wàn)人,互聯(lián)網(wǎng)普及率近46%,處于世界平均水平之上,其中網(wǎng)絡(luò)購(gòu)物人數(shù)占網(wǎng)民的50%,中國(guó)預(yù)計(jì)將于2015年成為全球最大的網(wǎng)購(gòu)市場(chǎng)[1]。
網(wǎng)絡(luò)購(gòu)物的劣勢(shì)在于無(wú)法親自感受商品,因此越來(lái)越多的網(wǎng)購(gòu)者通過(guò)瀏覽大量的在線評(píng)論來(lái)了解產(chǎn)品以及服務(wù)的口碑,依此作出可靠的決策[2]。
但是面對(duì)海量評(píng)論,消費(fèi)者無(wú)法快速辨別和利用有價(jià)值的信息來(lái)作出正確的決策。因此針對(duì)在線評(píng)論挖掘的研究被學(xué)者們所關(guān)注,Senecal等認(rèn)為在線評(píng)論影響消費(fèi)者的購(gòu)買決定[3]。Popescuam等將在線評(píng)論挖掘細(xì)分為4個(gè)子任務(wù):特征抽取、觀點(diǎn)抽取、極性判斷、結(jié)果的匯總[4]。廖成林等借助亞馬遜商城的樣本進(jìn)行實(shí)證研究,分析了在線評(píng)論有用性的影響因素以及各影響因素之間的作用機(jī)制[5]。龔艷萍基于ELM視角構(gòu)建了消費(fèi)者處理在線評(píng)論的雙重路徑模型,并探討了在線評(píng)論的屬性對(duì)消費(fèi)者采用新技術(shù)產(chǎn)品意愿的影響機(jī)理[6]。
目前關(guān)于在線評(píng)論的研究集中于評(píng)論內(nèi)容挖掘模型以及評(píng)論有用性的研究,鮮有學(xué)者關(guān)注在線評(píng)論數(shù)據(jù)來(lái)源可靠性的研究,而可靠數(shù)據(jù)的獲取是研究的基礎(chǔ)也是關(guān)鍵的一步。
1可靠在線評(píng)論數(shù)據(jù)源的挖掘流程
若要在海量的網(wǎng)絡(luò)數(shù)據(jù)中獲得可靠的評(píng)論數(shù)據(jù),除了優(yōu)秀的網(wǎng)頁(yè)采集工具外,確定所要采集的數(shù)據(jù)來(lái)源是關(guān)鍵。傳統(tǒng)的用于在線評(píng)論分析的數(shù)據(jù)大多數(shù)來(lái)自購(gòu)物網(wǎng)站,這些數(shù)據(jù)來(lái)源的優(yōu)勢(shì)在于分類明確、內(nèi)容精簡(jiǎn)。這些評(píng)論數(shù)據(jù)可以應(yīng)付簡(jiǎn)單的在線評(píng)論的特征挖掘,但是短文本的劣勢(shì)在于句式不完整,缺乏作者主觀情感的表達(dá),不利于評(píng)論的情感分析,而在線評(píng)論信息的有效挖掘不僅是對(duì)產(chǎn)品特征的提取,更是對(duì)作者情感傾向的分析,缺乏情感表達(dá)的在線評(píng)論對(duì)于消費(fèi)者的購(gòu)買決策不能產(chǎn)生決定性的影響。
因此挖掘網(wǎng)絡(luò)中除了購(gòu)物平臺(tái)之外的在線評(píng)論具有必要性,使對(duì)在線評(píng)論研究的數(shù)據(jù)源不再局限于購(gòu)物平臺(tái),擴(kuò)大在線評(píng)論領(lǐng)域的研究邊界。也可以為其他領(lǐng)域研究的數(shù)據(jù)來(lái)源確定提供可行的思路。
本文將從海量網(wǎng)絡(luò)數(shù)據(jù)中確定的可靠的在線評(píng)論數(shù)據(jù)來(lái)源分為三個(gè)子任務(wù),如圖1所示,其中A、B、C是與產(chǎn)品主題相關(guān)的網(wǎng)頁(yè)集合,首先辨別可靠網(wǎng)站A、B、C、D,其次從可靠的網(wǎng)站中提煉出與所需分析產(chǎn)品相關(guān)的主題網(wǎng)站A、B、C,最后從主題網(wǎng)站中確定當(dāng)中的權(quán)威網(wǎng)站A作為在線評(píng)論分析的數(shù)據(jù)來(lái)源。
任務(wù)1需要使用的算法是PageRank,任務(wù)2需要使用的算法是TCPageRank,任務(wù)3使用的算法是HITS。
2關(guān)鍵算法的流程
21PageRank算法及改進(jìn)
PageRank算法是谷歌搜索取得成功的關(guān)鍵技術(shù),是對(duì)網(wǎng)頁(yè)重要性進(jìn)行排序的一種方法[7]。但是在經(jīng)濟(jì)利益的驅(qū)使下,作弊者基于鏈接作弊等手段欺騙PageRank以改變作弊網(wǎng)站的重要性,使得通過(guò)傳統(tǒng)PageRank并不能得到滿意結(jié)果。PageRank表示如下:
v′=βMv+(1-β)e/n(1)
將PageRank以向量的形式表示,利于海量節(jié)點(diǎn)數(shù)的網(wǎng)頁(yè)的PR值計(jì)算,其中β(0<β<1)為阻尼系數(shù),通常取值085,M為轉(zhuǎn)移矩陣,v為本次迭代中所有節(jié)點(diǎn)的PR值組成的向量,n為所有節(jié)點(diǎn)的總量,e為n維單位列向量。
為了解決鏈接作弊,辨別網(wǎng)絡(luò)中的可靠網(wǎng)站,在任務(wù)1中引入TrustRank對(duì)PageRank加以改進(jìn),TrustRank是面向主題的PageRank的變形,這里的“主題”不是網(wǎng)頁(yè)內(nèi)容主題,而是一個(gè)可靠的網(wǎng)頁(yè)集。TrustRank可以避免鏈接作弊的思想,作弊網(wǎng)頁(yè)可以自動(dòng)鏈向可靠網(wǎng)頁(yè),但是可靠網(wǎng)頁(yè)不會(huì)鏈向作弊網(wǎng)頁(yè),因此算法迭代的第一步設(shè)定隨機(jī)跳轉(zhuǎn)集合時(shí)需選擇一個(gè)可靠的網(wǎng)頁(yè)集。
改進(jìn)的PageRank的流程是:①計(jì)算傳統(tǒng)的PR值r;②計(jì)算TR值t;③設(shè)定一個(gè)閥值。
l1=(r-t)/rl1>05作弊網(wǎng)頁(yè)l1≤05正常網(wǎng)頁(yè) (2)
l1表達(dá)的是網(wǎng)頁(yè)P(yáng)R值中屬于垃圾的比例。這樣就可以在任務(wù)1中去掉那些具有較高垃圾質(zhì)量的作弊網(wǎng)頁(yè)。
22TCPageRank算法及改進(jìn)
從式(1)中看出,由于PageRank僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進(jìn)行排序,使得該算法存在主題漂移以及偏重舊網(wǎng)頁(yè)的缺點(diǎn)[8]。因此任務(wù)1中得到的網(wǎng)頁(yè)集雖然很大程度上排除了作弊網(wǎng)頁(yè),但總量仍然過(guò)大,且存在大量非相關(guān)的網(wǎng)頁(yè),產(chǎn)品的更新?lián)Q代對(duì)評(píng)論的新鮮度提出了要求,所以應(yīng)剔除過(guò)時(shí)的評(píng)論或減少它們的影響。
但并不是所有的網(wǎng)頁(yè)都含有在線評(píng)論的內(nèi)容,因此還需要辨別網(wǎng)頁(yè)中含有在線評(píng)論的比例,這主要通過(guò)衡量網(wǎng)頁(yè)中產(chǎn)品特征詞及情感詞占整個(gè)網(wǎng)頁(yè)特征詞的比例來(lái)賦予網(wǎng)頁(yè)不同的影響權(quán)重。
根據(jù)網(wǎng)頁(yè)主題的相關(guān)度來(lái)分配權(quán)重可以有效解決主題漂移問(wèn)題[9],網(wǎng)頁(yè)主題的相關(guān)度通過(guò)向量空間模型計(jì)算,設(shè)網(wǎng)頁(yè)u和v的文檔向量形式:
U=u1,u2,…,um,V=v1,v2,…,vm
其中ui和vi表示特征詞i在各自網(wǎng)頁(yè)中的指標(biāo)值,通過(guò)TF.IDF計(jì)算:
w(v,u)=U·VU×V=∑mi=1uivi∑mi=1u2i∑mi=1v2i(3)
并用W(c)表示網(wǎng)頁(yè)v在網(wǎng)頁(yè)u所有出鏈中所占的權(quán)重,其中F(u)表示u的所有出鏈。
W(c)=W(v,u)∑p∈F(u)W(p,u) (4)
針對(duì)偏重舊網(wǎng)頁(yè)的問(wèn)題,也通過(guò)降低權(quán)重的思想來(lái)降低舊網(wǎng)頁(yè)的主題相關(guān)度,假定網(wǎng)頁(yè)搜索到的時(shí)間t1與其最近一次更新時(shí)間t2的差值越大,則網(wǎng)頁(yè)主題相關(guān)度越低,引入時(shí)間差的權(quán)重函數(shù)W(t):
Wt=dt1-t2 (5)
可以看出,時(shí)間差與權(quán)重成反比,其中d為根據(jù)實(shí)際產(chǎn)品設(shè)定的常數(shù)。
在此基礎(chǔ)上,添加網(wǎng)頁(yè)的在線評(píng)論比例權(quán)重,對(duì)網(wǎng)頁(yè)文檔中產(chǎn)品屬性特征詞的挖掘采用的是Apriori算法,并且結(jié)合了依存句法分析來(lái)提高挖掘精度;在線評(píng)論中情感詞往往是對(duì)產(chǎn)品屬性特征詞的評(píng)價(jià),本文基于HowNet的情感本體庫(kù)采用模板和距離的方法來(lái)提取網(wǎng)頁(yè)中評(píng)論的情感詞,該方法的優(yōu)勢(shì)在于:①模板匹配的速度較快;②在線評(píng)論的文本不同于企業(yè)發(fā)布的產(chǎn)品信息,具有不規(guī)范性,而該方法對(duì)文本的規(guī)范化要求較小。
若網(wǎng)頁(yè)v的文檔向量形式是V=v1,v2,…,vm,共有特征詞m個(gè),設(shè)v經(jīng)過(guò)統(tǒng)計(jì)的產(chǎn)品特征詞有i個(gè),情感詞有j個(gè),則v含有在線評(píng)論的權(quán)重:
W(v)=i+jm-(i+j)m(6)
W(z)=W(c)∑p∈F(u)W(p) (7)
考慮到每個(gè)網(wǎng)頁(yè)含有的文本內(nèi)容總量不同,式(6)、式(7)保證了含有大量文本內(nèi)容同時(shí)含有大量在線評(píng)論的網(wǎng)頁(yè)可以獲得更高的權(quán)重。加入時(shí)間差與評(píng)論數(shù)據(jù)比例的權(quán)重函數(shù)的TCPageRank如下:
v′=βMv×W(c)×W(t)×W(z)+(1-β)e/n(8)
設(shè)定閥值l2,網(wǎng)頁(yè)的TC-PR值大于等于l2的判定為與產(chǎn)品主題高度相關(guān)的網(wǎng)頁(yè)。
23HITS算法及改進(jìn)
HITS算法與PageRank算法的區(qū)別在于,PageRank將網(wǎng)頁(yè)看成只有一維的重要性,而HITS將網(wǎng)頁(yè)看成具有二維的重要性。任務(wù)3的作用是從已確定的海量主題網(wǎng)站中提取一定量的權(quán)威網(wǎng)站作為在線評(píng)論數(shù)據(jù)挖掘的來(lái)源。
HITS是WEB結(jié)構(gòu)挖掘算法,通過(guò)分析網(wǎng)頁(yè)間的鏈接關(guān)系,找出其中的權(quán)威網(wǎng)頁(yè)[10]。但在構(gòu)建WEB鄰接圖時(shí),根集是與主題相關(guān)的,而基集的擴(kuò)展只考慮了與根集的鏈接情況,忽略了主題相關(guān)性,會(huì)引入大量與主題相關(guān)度不大的網(wǎng)頁(yè),這樣最后得到的權(quán)威網(wǎng)頁(yè)并不是需要的。基于TC-PageRank的思想,在基集擴(kuò)展過(guò)程中加入網(wǎng)頁(yè)主題的判斷,使得選入基集的網(wǎng)頁(yè)是與主題高度相關(guān)的。
考慮到網(wǎng)購(gòu)產(chǎn)品更新?lián)Q代較快,關(guān)于產(chǎn)品的在線評(píng)論相應(yīng)地也需要最新的。但是新的在線評(píng)論網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間的鏈接較少,使得權(quán)威值較小。本文認(rèn)為權(quán)威網(wǎng)頁(yè)的確定不僅需要考慮鏈接數(shù)量,也需要考慮網(wǎng)頁(yè)的鏈接增幅情況,若一個(gè)網(wǎng)頁(yè)的鏈接數(shù)快速增長(zhǎng),說(shuō)明它具有一定的參考性?;谏鲜鰞牲c(diǎn)改進(jìn),提出一種混合頁(yè)面相似度和鏈接增幅的HITS算法。
將產(chǎn)品主題和網(wǎng)頁(yè)內(nèi)容用向量表示,產(chǎn)品主題t=t1,t2,…,tn。改進(jìn)后的HITS在選取以及擴(kuò)展根集R時(shí),除了考慮網(wǎng)頁(yè)之間的鏈接關(guān)系,還要將網(wǎng)頁(yè)p與產(chǎn)品主題進(jìn)行相似度計(jì)算,若相似度小于閥值l3,過(guò)濾網(wǎng)頁(yè)p;在此基礎(chǔ)上,計(jì)算權(quán)威值。
相似度的計(jì)算是把每個(gè)網(wǎng)頁(yè)p表示成向量形式:
其中λ、μ是權(quán)重因子,用于平衡網(wǎng)頁(yè)主題相關(guān)性和網(wǎng)頁(yè)鏈接增幅對(duì)網(wǎng)頁(yè)的影響,LT是鏈接矩陣L的轉(zhuǎn)置矩陣,即若存在網(wǎng)頁(yè)j到i的鏈接,則LTij=1,否則LTij=0,設(shè)定閥值l4,權(quán)威值a≥l4的網(wǎng)頁(yè)確定為與產(chǎn)品主題相關(guān)的權(quán)威網(wǎng)頁(yè)。
3實(shí)驗(yàn)仿真
本文以百度搜索引擎作為實(shí)驗(yàn)數(shù)據(jù)來(lái)源,以手機(jī)、電腦、筆記本、相機(jī)作為產(chǎn)品主題,通過(guò)運(yùn)用上述方法確定用于在線評(píng)論信息挖掘分析的可靠數(shù)據(jù)來(lái)源。
用網(wǎng)絡(luò)爬蟲在百度上采集實(shí)驗(yàn)設(shè)定產(chǎn)品主題的網(wǎng)頁(yè),以采集到10萬(wàn)個(gè)網(wǎng)頁(yè)為停止條件。數(shù)據(jù)采集完后,進(jìn)行網(wǎng)頁(yè)預(yù)處理、文本預(yù)處理等操作后,將所需數(shù)據(jù)輸入計(jì)算模塊。如圖2所示。
31實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)網(wǎng)頁(yè)集是在百度搜索引擎上基于產(chǎn)品主題采集來(lái)的,其中包括百度推廣、廣告等大量的噪聲信息,網(wǎng)頁(yè)預(yù)處理用于清洗此類網(wǎng)頁(yè),清洗后的網(wǎng)頁(yè)數(shù)為9萬(wàn)個(gè);而文本預(yù)處理是為了建立網(wǎng)頁(yè)的特征詞向量,以及通過(guò)網(wǎng)絡(luò)日志,記錄下網(wǎng)頁(yè)被搜索到的時(shí)間t1與其最近一次被更新時(shí)間t2的差值及兩次搜索間網(wǎng)頁(yè)鏈接的增幅情況等。
網(wǎng)頁(yè)預(yù)處理的下一步是統(tǒng)計(jì)網(wǎng)頁(yè)的前向與后向鏈接,建立轉(zhuǎn)移矩陣M,維數(shù)為90000×90000,部分轉(zhuǎn)移矩陣:
32基于MapReduce的矩陣計(jì)算
實(shí)驗(yàn)中的矩陣計(jì)算選擇MapReduce[11],是因?yàn)镻ageRank等算法的迭代次數(shù)較多,時(shí)空復(fù)雜度較大,而基于MapReduce的矩陣運(yùn)算,可以通過(guò)矩陣分塊,減少迭代次數(shù),從時(shí)間與空間上都能得到性能的提升。
針對(duì)式(1),向量v表示所有網(wǎng)頁(yè)的PR值,本次實(shí)驗(yàn)中v的維數(shù)只有9萬(wàn),但是系統(tǒng)的實(shí)現(xiàn)是在整個(gè)WEB環(huán)境下的,這時(shí)v的維數(shù)是數(shù)以億計(jì)的,向量v是無(wú)法直接放入內(nèi)存的,而且基于效率考慮,轉(zhuǎn)移矩陣M按列存儲(chǔ),M的每一列都會(huì)與v′的每一分量有關(guān),這時(shí)當(dāng)向v′的某一分量添加某一項(xiàng)時(shí),v′的分量未存儲(chǔ)在內(nèi)存中,導(dǎo)致添加某一項(xiàng)時(shí)需要將頁(yè)面轉(zhuǎn)換到內(nèi)存之后才能完成,這就造成了內(nèi)存抖動(dòng)使計(jì)算時(shí)間呈數(shù)量級(jí)的增長(zhǎng)。
基于此,本文將轉(zhuǎn)移矩陣M分為k2塊,向量v分為k塊,分塊方法如圖3所示。
圖3矩陣分塊示意圖
依據(jù)M的分塊數(shù),設(shè)定k2個(gè)Map任務(wù),每個(gè)Map任務(wù)處理轉(zhuǎn)移矩陣M中的一塊Mij與向量v的一塊vj,其中v的每塊vj輸入給k個(gè)不同的處理Mij(i=1,2,…,k)的Map任務(wù),在處理Mij時(shí)將vj與vj′保留在內(nèi)存中,Mij與vj生產(chǎn)的所有項(xiàng)只用于vj′的計(jì)算。因此v會(huì)在算法中輸入k次,M中的每塊只輸入一次,而向量v相對(duì)于轉(zhuǎn)移矩陣M的大小是可以忽略不計(jì)的,這極大地降低了算法的復(fù)雜度。而且由于Map任務(wù)進(jìn)行了多次組合操作,Map任務(wù)輸出給Reduce任務(wù)的數(shù)據(jù)規(guī)模也被縮減了。
33實(shí)驗(yàn)仿真步驟與結(jié)果
采用10臺(tái)Intel酷睿i5四核,內(nèi)存4G的PC通過(guò)100M/s交換機(jī)互聯(lián),搭建分布式環(huán)境。其中設(shè)定迭代收斂的條件為某節(jié)點(diǎn)的PR值之差小于等于10-6。設(shè)定任務(wù)1中檢測(cè)作弊網(wǎng)頁(yè)的閥值l1=05,初始化向量v=(1,1,…,1)T,即迭代開始時(shí)每個(gè)網(wǎng)頁(yè)的PageRank值為1;任務(wù)2中判定與產(chǎn)品主題相關(guān)的閥值l2=2;任務(wù)3中權(quán)重因子λ=08、μ=02,構(gòu)建WEB鄰接圖時(shí)的閥值l3=01,用于確定權(quán)威網(wǎng)頁(yè)的閥值l4=4。
為了驗(yàn)證本文所提改進(jìn)方法的有效性,先對(duì)改進(jìn)算法精確度進(jìn)行驗(yàn)證,通過(guò)實(shí)驗(yàn)網(wǎng)頁(yè)集經(jīng)過(guò)傳統(tǒng)的PageRank計(jì)算得到的PR值和經(jīng)過(guò)改進(jìn)的PageRank計(jì)算得到的PR值,分別與Google給出的PR值進(jìn)行比較,如圖4所示,橫坐標(biāo)表示9萬(wàn)個(gè)網(wǎng)頁(yè)在經(jīng)過(guò)傳統(tǒng)和改進(jìn)的PageRank計(jì)算得到的PR值與Google 的PR值的差值,縱坐標(biāo)則表示網(wǎng)頁(yè)個(gè)數(shù)。
由圖4可以看出,經(jīng)改進(jìn)的PageRank計(jì)算得到的PR值較傳統(tǒng)PageRank計(jì)算得到的PR值更加接近權(quán)威的Google PR值,其中PR值相同或較接近的網(wǎng)頁(yè)中,改進(jìn)的PageRank的網(wǎng)頁(yè)明顯多于傳統(tǒng)PageRank的網(wǎng)頁(yè);PR值相差較大的網(wǎng)頁(yè)中,傳統(tǒng)PageRank明顯多于改進(jìn)的PageRank;并且經(jīng)過(guò)傳統(tǒng)PageRank計(jì)算的9萬(wàn)個(gè)網(wǎng)頁(yè)的PR值與Google PR值的平均差值為309,而經(jīng)過(guò)改進(jìn)的PageRank計(jì)算的PR值與Google PR值的平均差值只有125,誤差減小了595%。
再進(jìn)行時(shí)間復(fù)雜度的對(duì)比分析,三個(gè)子任務(wù)中都包含矩陣的計(jì)算,其中以任務(wù)2涉及的矩陣運(yùn)算最多,以改進(jìn)的TC-PageRank在傳統(tǒng)的運(yùn)算與基于MapReduce的矩陣運(yùn)算條件下,根據(jù)既定的迭代收斂條件,在不同的網(wǎng)頁(yè)集數(shù)量下,驗(yàn)證兩運(yùn)算的執(zhí)行時(shí)間,并對(duì)比分析傳統(tǒng)環(huán)境下整體挖掘算法消耗時(shí)間與基于MapReduce的矩陣運(yùn)算所消耗的時(shí)間,結(jié)果如圖5所示。
由圖5可以看出,無(wú)論是運(yùn)算單個(gè)任務(wù),還是運(yùn)算整體挖掘算法,基于MapReduce的矩陣運(yùn)算執(zhí)行時(shí)間都小于傳統(tǒng)運(yùn)算所消耗的時(shí)間,并發(fā)現(xiàn)隨著網(wǎng)頁(yè)的增加,基于MapReduce的矩陣運(yùn)算執(zhí)行時(shí)間的增加速率也較小,說(shuō)明基于MapReduce的矩陣運(yùn)算具有較低時(shí)間復(fù)雜度的優(yōu)勢(shì)。
在分析比較了算法的有效性、準(zhǔn)確性及基于MapReduce的矩陣運(yùn)算的及時(shí)性之后,下面將基于百度采集的網(wǎng)頁(yè)集進(jìn)行仿真實(shí)驗(yàn)。流程如下:
(1)利用表1中的lout2和lin2統(tǒng)計(jì)出所有網(wǎng)頁(yè)的前向與后向鏈接,建立轉(zhuǎn)移矩陣M ,運(yùn)用式(1)、式(2)去掉具有較高垃圾質(zhì)量的作弊網(wǎng)頁(yè),依據(jù)PR值得到實(shí)驗(yàn)中采集到的網(wǎng)頁(yè)集中的可靠網(wǎng)頁(yè)集:
P=5,13,15,18,…,2568,…,35841,…,89994
(集合中的數(shù)字是網(wǎng)頁(yè)的標(biāo)識(shí)ID)。
(2)利用表1中的VSM和IDF,運(yùn)用式(3)計(jì)算出網(wǎng)頁(yè)間主題的相關(guān)度w(u,v),根據(jù)式(4)計(jì)算網(wǎng)頁(yè)v在網(wǎng)頁(yè)u中所有出鏈中所占的權(quán)重W(c)。利用表1中的t1和t2,運(yùn)用式(5)計(jì)算網(wǎng)頁(yè)更新時(shí)間差的權(quán)重W(t),利用表1中的v(c)、v(i)及v(j)計(jì)算評(píng)論數(shù)據(jù)占網(wǎng)頁(yè)比例的權(quán)重W(z),結(jié)合式(8),找出可靠網(wǎng)頁(yè)集中與產(chǎn)品主題高度相關(guān)且較新的在線評(píng)論網(wǎng)頁(yè)集:
P=5,13,18,…,2568,…,89994
(3)利用表1中的VSM,結(jié)合式(9)計(jì)算網(wǎng)頁(yè)與產(chǎn)品主題的相似度s,利用表1中l(wèi)out1、lout2、lin1、lin2結(jié)合式(10)、式(11)計(jì)算網(wǎng)頁(yè)p的鏈出增幅lout、鏈入增幅lin,再運(yùn)算式(12)和式(13)算出網(wǎng)頁(yè)集的權(quán)威值a以及導(dǎo)航值h,依據(jù)權(quán)威值a確定權(quán)威網(wǎng)頁(yè)集A=5,18,…,2568,…,最后通過(guò)表1中的ID、URL、Path三項(xiàng),找出網(wǎng)頁(yè)集A代表的網(wǎng)頁(yè)作為在線評(píng)論分析的可靠數(shù)據(jù)來(lái)源。本實(shí)驗(yàn)確定的部分可靠數(shù)據(jù)來(lái)源如表2所示。
通過(guò)對(duì)實(shí)驗(yàn)得到的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)權(quán)威值a較大的網(wǎng)頁(yè)一般集中在中關(guān)村在線、太平洋電腦網(wǎng)以及百度貼吧等國(guó)內(nèi)具有影響力的專業(yè)性論壇上,這是由于這些網(wǎng)頁(yè)時(shí)刻保持更新狀態(tài),并且以本實(shí)驗(yàn)中的產(chǎn)品主題進(jìn)行采集時(shí),它們處于根集位置。另外有些購(gòu)物平臺(tái)對(duì)百度搜索引擎采取了屏蔽措施,這就需要對(duì)這類的網(wǎng)站采用其他網(wǎng)頁(yè)采集方法以彌補(bǔ)在線評(píng)論數(shù)據(jù)的不全面問(wèn)題。
4結(jié)論與展望
在線評(píng)論作為產(chǎn)品口碑傳播的一種新形式,對(duì)消費(fèi)者網(wǎng)購(gòu)的抉擇起著重要的影響,但其中大量的良莠不齊的評(píng)論也影響了消費(fèi)者對(duì)可靠信息的獲取。本文從目前在線評(píng)論數(shù)據(jù)挖掘存在的實(shí)際需求出發(fā),將在線評(píng)論數(shù)據(jù)獲取分成三個(gè)子任務(wù),從辨別作弊網(wǎng)頁(yè)獲取可靠網(wǎng)頁(yè),到提煉出與產(chǎn)品主題高度相關(guān)的網(wǎng)頁(yè),最后從相關(guān)網(wǎng)頁(yè)中確定其中的權(quán)威網(wǎng)頁(yè)作為在線評(píng)論分析的數(shù)據(jù)來(lái)源,三個(gè)任務(wù)循序漸進(jìn)地進(jìn)行,保證了獲取的網(wǎng)頁(yè)集不僅是與產(chǎn)品主題密切相關(guān),而是也保證了數(shù)據(jù)的權(quán)威性,對(duì)消費(fèi)者網(wǎng)購(gòu)決策具有重要的指導(dǎo)意義。
在獲取了可靠的用于在線評(píng)論信息挖掘分析的數(shù)據(jù)源之后,下一步研究工作就是對(duì)這些在線評(píng)論數(shù)據(jù)集進(jìn)行產(chǎn)品特征的提取以及消費(fèi)者情感傾向的分析,以更加直觀的形式呈現(xiàn)給潛在消費(fèi)者,避免了其搜尋閱讀大量在線評(píng)論的不必要性,輔助其快速做出決策,并幫助企業(yè)理解消費(fèi)者對(duì)產(chǎn)品質(zhì)量與服務(wù)的感知,為企業(yè)改進(jìn)產(chǎn)品質(zhì)量與服務(wù)以及制定更加有效的營(yíng)銷策略提供支持。
但是由于學(xué)術(shù)界目前缺乏可靠數(shù)據(jù)源挖掘這方面的研究,因此對(duì)實(shí)驗(yàn)仿真的準(zhǔn)確性并沒(méi)有可靠的評(píng)判標(biāo)準(zhǔn),只能通過(guò)人工排查來(lái)檢驗(yàn)結(jié)果的準(zhǔn)確度,實(shí)驗(yàn)中數(shù)據(jù)規(guī)模較小,依靠人力尚能檢驗(yàn)完,但若是放在系統(tǒng)中基于整個(gè)WEB環(huán)境,那通過(guò)人工檢驗(yàn)結(jié)果的準(zhǔn)確度是不可能完成的,借助簡(jiǎn)單的檢測(cè)方法是完善實(shí)驗(yàn)的重點(diǎn)。
參考文獻(xiàn):
[1]CNNIC.2014年第33次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,2014.
[2]李實(shí),葉強(qiáng),李一軍,等. 挖掘中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征及情感傾向[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):3016-3019.
[3]Senecal S, Nantel J. The Influence of Online Product Recommendations on Consumers Online Choices [J]. Journal of Retailing,2004,80:159-169.
[4]Ghose A, P Ipeirotis, A Sundararajan. The Dimensions of Reputation in Electronic Markets [J]. Working Paper, NewYork University,2005(12) :2.
[5]廖成林,蔡春江,李憶.電子商務(wù)中在線評(píng)論有用性影響因素實(shí)證研究[J].軟科學(xué),2013,27(5):46-50.
[6]龔艷萍,梁樹霖. 在線評(píng)論對(duì)新技術(shù)產(chǎn)品消費(fèi)者采用意愿的影響研究[J].軟科學(xué),2014,28(2):96-105.
[7]Bu Yiming, Huang Tingzhu. An Adaptive Reordered Method for Computing PageRank[J]. Journal of Applied Mathematics, 2013,1-6.
[8]Halu Arda, Mondragon Raul J, Panzarasa, et al. Multiplex PageRank [J]. PLOS ONE,2013,8(10):1-10.
[9]Havelieala T H.Topicsensitive PageRank[C].Proceedings of the 11th International World Wide Web Conference,Hawaii,2002.517-526.
[10]常慶,周明全,耿國(guó)華.基于PageRank和HITS的Web搜索[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,18(7):77-79.
[11]劉義,景寧,陳犖,等.MapReduce框架下基于R_樹的k_近鄰連接算法[J].軟件學(xué)報(bào),2013,24(8):1836-1851.
(責(zé)任編輯:秦穎)