張麗娜,匡泰,姜迪清
(浙江安防職業(yè)技術學院信息工程系,浙江 溫州 325000)
大數據中基于時態(tài)特征和混合式搜索的博客篩選挖掘
張麗娜,匡泰,姜迪清
(浙江安防職業(yè)技術學院信息工程系,浙江 溫州 325000)
針對現存很多博客篩選挖掘方法的相關性程度比較松散以及信息檢索方法的缺陷,提出一種基于時態(tài)特征和混合式搜索的方法??紤]到用戶評論是組合證據的重要來源以及時間因素的影響,提出的方法將博客文章的平均評論數量、消息來源的BM25的相關性分數、最久博客文章的BM25分數和最新相關博文和最舊博文的時間范圍作為時態(tài)特征集。另外,考慮到線性搜索的局部性優(yōu)勢以及差分進化搜索的全局優(yōu)勢,將兩種信息搜索方式組合。實驗使用BlogS06數據集,由博客主頁、XML源文件和其博客入口頁面組成,用于TREC 2007和TREC 2008的博客篩選挖掘實驗。實驗結果表明,提出的方法在運行時間和有效性方面獲得了滿意的效果。
博客篩選挖掘;時態(tài)特征;線性搜索;差分進化;大數據;BM25
近些年,社交網絡及其手機上的應用軟件獲得了巨大的成功,如微信和Facebook,其中,微信擁有最多的使用者,其商業(yè)價值可想而知。而社交網絡的興起和成功也激發(fā)了博客的演變,將其從非正式討論或非正式站點演變成針對特定領域(如科技、時尚和財經)的專業(yè)平臺[1]。創(chuàng)建和管理博客平臺促進了互聯(lián)網上博客社區(qū)的大規(guī)模發(fā)展。這種專業(yè)化信息資源使得博客用戶的興趣復雜化。因此,博客信息搜索挖掘[2]也成了大數據時代的重要研究課題。
博客篩選挖掘一般定義為搜索某一主題博客的過程,可以表述為文本查詢[3]。該任務可以概括為:用某一原理尋找對主題T經常感興趣的博客。對于一個已知主題T,系統(tǒng)應給出主題T的消息來源。
博客篩選挖掘按照提取工作一般可以分為以下兩種。
(1)使用博客消息來源[4]提供的信息,估計博客和某一特定主題的相關性
[5]結合消息來源層面(feed)與博客文章層面的相關分數,采用語言模型以檢索與一個特定查詢相關聯(lián)的消息來源。參考文獻[5]還提出了一個基于維基百科數據提取的查詢擴展技術。其中,文本檢索會議(text retrieval conference,TREC)的博客篩選提取就采用該擴展技術[3,4]。
[6]定義了一種投票模型,博客查詢與該博客相關的文章,檢索到的每篇相關博客文章都被當作對該博客相關性的一次投票。采用不同的文本傾向性處理方法,對于較長篇幅、不同評論和字符權重進行評述,使模型具有傾向識別能力。參考文獻[7]遵循資源選擇原理,綜合利用本體論和Folksonomy的優(yōu)勢,進行二級分類。然后在分類算法的基礎上結合了用戶使用博客興趣,考慮了不同博客的表征信息。然而,對給定的查詢只能給出高排序的博客文章,對高度相關的博客比較有效。參考文獻[8]使用線性搜索(linear search,LS)檢索博客消息來源,LS是信息檢索中一種簡單有效的方法。其參數值被訓練樣本(針對某一特定評價尺度)優(yōu)化,訓練后的參數值使用一個實驗樣本進行評價。用一個或兩個參數值尋求窮舉搜索的最佳參數設定。但優(yōu)化過程是一個瓶頸,其計算成本會伴隨參數數量呈指數增長。另外,多種來源的信息組合問題也可以采用排序學習方法,如粒子群優(yōu)化[9](particle swarm optimization,PSO)和差分進化[10](differential evolution,DE)等。
(2)越過消息來源,嘗試檢測該主題與個人博客間的關聯(lián)性[11]
如博客時間戳、鏈接分析或外部資源提供的信息,但使用頻率相比第一種很小。博客篩選挖掘其實是一個信息融合問題,需要將多種信息組合起來。該過程獲得哪些有效特征以及如何使用這些特征是問題的關鍵?,F有的很多方法相關性程度比較松散,為此,本文組合了多個證據源,將關聯(lián)信號(在博客或文章層面上)與多個異構信號(社會時態(tài)特征)相結合,并使用混合方法檢索信息。本文的主要工作是:提出了一組基于社會性的時態(tài)信息估算博客的相關性;提出了一種混合的博客信息融合方法組合這些信息,以找到潛在的相關博客,整合了全局搜索和局部搜索的優(yōu)點。
2.1 證據組合
一些選定的特征表示內容匹配的證據,與查詢主題相關,而基于時態(tài)或基于社會特征則獨立于查詢。本文利用F代表消息來源,Q表示一個查詢,相關特征查詢用qd_featk(F,Q)表示。為了結合有效的特征,本文對qd_featk(F,Q)做如下歸一化:
其中,C表示消息來源的集合。而獨立查詢特征的正則化為:
其中,F表示消息來源,qi_featk(F)是獨立查詢特征,
C是消息來源集合。這種類型的正則化被廣泛使用,是一種較好的線性檢索方案。本文遵循線性結合方法,從獨立查詢特征和相關查詢特征組合中找到證據。
其中,qd_featnorm是正則化的獨立查詢特征,αi、βj是自由參數。通過線性結合獲得組合證據是一個簡單有效的方法。
2.2 信息檢索模型
一般有兩種不同模型評估文檔間的相關性,即BM25和狄氏(Dirichlet)平滑一元語言模型。BM25基于概率框架[5],本文使用Lemur的BM25匹配函數[12],即:
其中,tft,D是文檔D中t的頻率,tft,D是查詢Q中t的頻率,LD和Lave是文檔D的長度,即整個采集文檔的平均長度。而w則是倒排文檔頻率權值,w定義如下:
其中,N是采集中文檔的總數量,n是包含項t的文檔數量。狄氏平滑一元語言模型如式(6)所示:
其中,D是一個文檔,n是查詢項數量,tf(qi,D)是在D中qi的原始頻率項,|D|是文檔長度,μ是調整平滑度的參數,P(qi|C)是項qi在采集C中的出現概率(一般是最大似然估計量),本文使用默認平化值μ=1 000。
2.3 消息來源層面的相關性特征
消息來源層面上的內容匹配證據已被廣泛應用于消息來源的篩選和提取任務中。本文提出的特征集可捕獲并查詢消息來源的不同子部分(如“標題”“標題+正文”以及“評論”)之間的匹配證據,并應用不同的搜索和查詢擴展模型,使用下文的特征為消息來源相關性建模。
(1)BM25消息來源:標題
通過串聯(lián)所有標題和消息來源的博客文章得到查詢和文檔之間的相關性估計。消息來源中的標題序列是博客討論主題的重要表示方式。
(2)BM25消息來源:標題+正文
BM25和狄氏算法通過串聯(lián)所有標題和消息來源的正文內容以得到查詢和文檔之間的相關性估計[5]。此方法將消息來源全文表現出來,考慮到每篇博客文章的所有內容。
(3)BM25消息來源:評論
BM25和狄氏算法通過串聯(lián)所有與任一博客文章相關聯(lián)的評論以得到查詢和文檔之間的相關性估計。
(4)擴展消息來源:標題+正文
應用相關性反饋 (pseudo relevance feedback,PRF)和查詢擴展(query expansion,QE)是一種高效的方法,一般情況下,基于經典概率模型的信息檢索和語言建模方法是關聯(lián)的,但經典概率模型的主要障礙是需要估計反饋模型,即求相關類的特征詞概率。而相關性模型(RM1 PRF)[13]只使用查詢來估計經典概率模型中的概率,這解決了同義詞和多義詞的區(qū)別,可以產生高精度的關聯(lián)模型。因此本文選擇RM1 PRF方法。RM1模型定義如下:
(5)擴展消息來源:評論
其相當于擴展消息來源——標題+正文,但消息來源代表所有評論的串聯(lián)。
2.4 內消息來源的相關性特征
這些特征并非聚集博客文章的所有內容,而是通過分析查詢和博客文章之間的相關性推斷一個博客的相關性。
(1)查詢和博客文章間最大化BM25的相關性分數,由相關度最高的博客文章決定。
(2)查詢和博客文章之間的平均相關性BM25分數,該特征并未代表相關度最高文章的消息來源,而是選擇計算所有博客中的平均估計相關值。以這種方式可以估計消息來源的反復興趣是否與查詢主題重疊。
(3)查詢和博客文章之間的相關性BM25得分的方差。為得分趨勢建模,以分辨相關消息來源與非相關消息來源。
(4)基于索引消息來源的所有博客文章,對該索引運行查詢,并對屬于某一特定消息來源的博客文章進行計數。因此消息來源中的每個檢索博客文章為一個查詢和消息來源間的相關性進行投票。
以上4個特征集有助于捕獲消息來源相關性的不同方面。第1個和第4個特征關注消息來源中最突出的博客文章,而第2個和第3個特征則分析相關性分數的整體分布,以決定該博客在查詢主題下是否具有反復興趣。
3.1 提出的社會時態(tài)特征
消息來源中的評論流量是衡量博客文章影響度的一個重要指標,通常流行和權威的博客更能吸引群眾的關注,也收到了更多的用戶評論。因此評論成為證據的一個很有意義的來源[14,15]。另外,時間也是一個重要因素。例如,如果相關的博客文章非常過時,那么很可能對用戶無用。因此,時態(tài)信息在消息來源中很重要,而且其有助于理解不同時間的博客主題。
因此總結如下社會和時態(tài)特征集為:博客文章的平均評論數目;消息來源中BM25相關性分數,這有助于確定查詢主題是否被消息來源的最新內容定址;消息來源中最久文章的BM25分數,通過這種方式可以獲得查詢主題是否在早期被消息來源定址;最新的相關博客文章和最舊的相關博客文章之間的時間范圍。本文從所有消息來源中索引所有博客文章,對此索引運行查詢,從每個消息來源中提取最新和最舊的博客文章,然后計算這些成對文章的日期(按天計算)。通常一個時間范圍狹窄的消息來源只會在一個小的時間窗口內定址查詢主題,該消息來源可能比一個時間范圍較大的消息來源的相關度更低。
3.2 混合式搜索
本文的信息融合方法是包含參數的方法,信息通過合適加權組合起來,這里的加權值是式(3)中的參數αi和βj。本文選擇標準差分進化算法執(zhí)行證據融合的權重參數優(yōu)化。此外,還選擇了信息檢索中常用的局部搜索方法(線性搜索),本文整合了這兩種方法的優(yōu)點,即全局和局部搜索方法,并提出一種混合式方法。
線性搜索從參數空間的一個初始隨機點開始,在每個維度中進行搜索,在一個維度中移動每個時間的參數值,同時固定其他維度的參數值。對于每個維度,選擇的樣本點在軸線中有相同的間距,為了評估每個點的最優(yōu)性,計算每個樣本的適應值,并存儲適應性最好的點。通常情況下,LS沿著高預期的方向。而差分進化[16]是一個基于群體的搜索方法,根據一個簡單的向量交叉和變異計算式,結合現有的候選解,創(chuàng)造出新的候選解。其中心思想是使用差分向量在向量群中產生擾動,解決優(yōu)化問題。
對于微博的信息融合檢索問題,本文將差分進化的全局搜索與線性搜索相結合,以利用這兩種方法的優(yōu)點。全局搜索在搜索空間的不同區(qū)域內同時進行探索,而線性搜索則以找到的最佳個體為中心在一個受限的區(qū)域內搜索。利用線性搜索為群體中的個體在鄰近的區(qū)域做導向,對個體進行微調。算法1如下所示。
算法1 混合式算法
(1)將群體隨機初始化
(2)repeat
(3)對于所有的在查詢的博客群體中的個體x
(4)取x1,x2,x3∈博客群體,隨機得到{x1,x2,x3},這里的x彼此不相同
(5)使R={1,…,n},其中,n是鏈長;
(6)for i=1,…,n
(7) ri取自均勻分布U(0,1);
(8) if(i=R)∨(ri<CR)
(9) yi←x1i+F(x2i-x3i);
(10) elseyi=xi;
(11){y=[y1,y2,…,yn]即新產生候選博客個體}
(12)if相關特征查詢函數f(y)<f(x)
(13) 用y替換個體x;
(14)如果該最佳個體的f(x)在三代后沒有得到提高,則從群體中選擇另一個個體;
(15)獲得一個當前最佳個體y,將其作為LS算法的初始隨機點,即LS算法(算法2)的原始隨機點;
(16)判斷是否達到指定迭代次數或終止條件,如果是,則返回滿足要求的個體。
算法2 LS算法
(1)N=每個維度中樣本點的數量,D=維度數量,I=采樣間隔;
(2)選擇一個原始隨機點;
(3)min←max(0,initial_position[d]-);(0是參數下限,d表示第d個維度,d≤D)
(4)max←min(1,initial_position[d]+);(1是參數上限)
(6)獲得最佳原始位置best_position[d]←min;
//定義在原點和新計算點之間的一條線。取在式(1)中每個維度里適應值最高的參數值建立該新點。這條線代表高預期方向;
(7)對于維度中的每個樣本點;
(8)設置步長p←min+increment×n;
(9)獲得新位置new_position[d]←p;如果fit(new_position [d])<fit(best_position[d]);
(10)更新最佳位置best_position[d]←new_position[d];
(11)for d←1:D //對于每個維度;
(12)max_dim[d]←max(initial_point[d],best_position[d]);
(13)min_dim[d]←mim(initial_point[d],best_position[d]);
for n←1:N
for d←1:D
(15)獲得新位置new_position[d]←mim_dim[d]+increment [d]×n;
(16)如果fit(new_position)<fit(best_position);
(17)更新最佳位置best_position←new_position;
(18)返回最佳位置best_position。
本文僅將線性搜索應用于遺傳群體的最佳個體中,這減小了線性搜索所需的額外求值計算量,利于在進化算法每次迭代末尾執(zhí)行受限制的最佳個體的搜索。線性搜索的參數N被設置為一個很小的值,實驗中N取4。本文設置DE算法的群體包含個體32個,迭代次數50次。對于LS算法,設置N=4意味著每次迭代中需要進行32(2×24)次適合度值的計算。因此,線性搜索算法的一次迭代需要的適合度求值次數與進化差分算法的一次迭代求值次數相等,這有利于提高并行性,即對群體成員進行求值和LS對維度樣本求值的并行,降低了計算成本。另外,對于每個維度,使用小的采樣間隔,設其值為0.5,在進化算法的每代中的計算量減少了0.85倍。最后,線性搜索的步驟數被設置為1,從第一個高預期方向的最終樣本點中選擇最佳個體。
為了評估本文模型,博客篩選提取任務包括在一個給定主題T中找到有復發(fā)興趣點的博客。該任務被定義為一個經典的線性搜索問題,系統(tǒng)必須要檢索與一個查詢(BlogS06數據集)相關的排名前100的博客消息來源。測試平臺分別由45個和50個查詢組成。BlogS06研究集[17]的具體數據見表1,該數據集用于TREC 2006、TREC 2007和TREC 2008中的博客跟蹤。每個TREC主題包括3個部分(標題、簡介和敘述),且這些查詢對真實用戶的網頁查詢[3,4]具有很好的代表性。
4.1 適應度函數和評估指標
本文使用平均精度均值 (mean average precision,MAP)作為線性搜索度量,MAP是評估給定排序目標有效性的單一度量。對于單一的信息需求,平均精度是在每次相關目標被檢索后,從排序前k位的現有目標中得到的平均精確值,即:
表1 BlogS06集的主要數據
其中,已知查詢的相關目標集qi∈Q,Rjk是檢索結果達到排名靠前的目標ok的集合,mj是查詢qj相關目標的數量。
搜索系統(tǒng)的另一個重要評估方面是精度。P@10是一種比較流行的精確度量,表示檢索到的相關目標前10位的比例。
4.2 實驗結果討論
實驗運行的平臺為小型服務器,采用四核AMD 6376處理器 (64位)、512 GB的DDR3內存和一個固態(tài)SSD硬盤。本文將每個查詢集(2007和2008)分為兩個同樣大小的子集,采用10倍交叉驗證,檢查子集的各自表現結果。本文這樣做的原因是:如果不分割查詢集,直接應用10倍交叉驗證,最大查詢?yōu)?(測試平臺分別由45個和50個查詢組成,最大查詢?yōu)?0/10),不利于統(tǒng)計驗證,會造成10倍交叉驗證的困難(查詢數少)。而分割成兩個子集之后,查詢數大幅增加。很重要的一點是選擇怎樣的交叉驗證,本文選擇10倍交叉驗證,因為10倍交叉驗證是比較公認的誤差評估最佳選擇。此外,在信息檢索中必須要評估至少25個查詢,更多的查詢是非常有益的。本文完整的訓練和測試配置集合見表2,對于每個搜索算法,訓練過程重復 5次。
表2 訓練和測試配置
不同方法的比較結果見表3和表4,評估用的度量是MAP和P@10。選取的兩個基準方法是將消息來源表示為“標題+正文”的串聯(lián)搜索方式和基于索引消息來源的所有博客文章,對該索引運行查詢的方法,這兩個方法并沒有將不同來源的證據結合起來。第一種方法利用BM25匹配函數進行檢索,通過將這個模型納入評估,可以量化改進的程度;第二種方法是一個投票模型,使用在博客發(fā)表后的目錄中,每個從消息來源中被檢索到的博客文章都視為對查詢和消息來源相關性的一張投票。這兩種方法沒有采用社會時態(tài)特征,“線性搜索”“差分進化”“粒子群優(yōu)化”和提出的方法都采用了社會時態(tài)特征,但搜索的方法不同。前兩種方法與其他方法的比較是為了分析社會時態(tài)特征的效果,其他4種方法的比較是為了分析搜索方式的影響。
從表3可以看出,所有方法都在基準方法之上。這說明了通過訓練組得到的適應值函數的最大值所導出的特征權重在該測試組中表現非常好。
表3 2007數據集的測試結果
2008 a實驗結果見表4,其中每欄取5次運行的平均值。提出的方法相對于2.3(2)的P@10改進程度非常小,這可能是因為出現一些“有趣的笑話”,這些檢索在排名最高位置上有較多的垃圾郵件文檔(TREC 2008博客跟蹤中包含大約15%的垃圾郵件文檔)。本文不包括垃圾郵件文檔的檢測。從2008a部分中的前10排序,可以觀察到投票模型基準方法的表現同樣很低,垃圾郵件的影響比較大。
表4 2008數據集的測試結果
4.3 各方法的進一步分析
綜上所述,提到的線性搜索、差分進化等方法均在基準方法之上。為了進一步評估,在數據集2008b上的各方法訓練集平均精度值與進化點之間的關系如圖1(a)所示。結果顯示,本文提出的混合式方法最優(yōu),差分進化MAP位列第二,線性搜索方法排第三,其后是粒子群優(yōu)化。這應該是一個公平的比較,因為所有的方法都有相同的適應度函數。
從圖1看,線性搜索似乎是一個比較好的選擇,在優(yōu)化過程中,該算法表現較優(yōu)。但是線性搜索并沒有適當地探索整個搜索空間,因為其嚴重依靠原始點。如果最優(yōu)解的位置在搜索空間的極限處,那么線性搜索的表現會比全局搜索差得多。圖1(b)給出了計算時間的比較,從圖1(b)可以發(fā)現線性搜索具有較大的劣勢,線性搜索幾乎比進化算法的執(zhí)行時間多了一倍。其他方法用了0.45 h完成50代,而線性算法幾乎用了1 h。
盡管本文采用并行代碼運行,但線性搜索有設計上的同步瓶頸。這使得每個進化點的累計時間增長比進化算法快的多,如圖1(c)所示。本文提出的混合式算法將線性搜索應用于每代中的最佳個體中,是對有效性和計算量的很好權衡。
本文提出的方法在問題規(guī)模變大時是線性的。為評估這一點,實驗使用了在基準中不同數量的查詢,結果如圖2所示。和預期一樣,在50代中計算時間的進化基本上是線性狀態(tài)。
另外需要說明的是,許多TREC的系統(tǒng)合并來自多個源的證據(如鏈接分析和垃圾郵件過濾),并采用大量的外部數據集(如維基百科)。本文方法無法負擔如此大的計算成本,因為每種類型的特征并不在本文的研究范圍之內。
數據集2008查詢和相關性評價的構建方法可對博客進行非二進制評估,該評估由人擔當,當一個博客包含足夠的主題文章時,標記為相關消息來源。這種松散的相關性概念可能會導致在主題區(qū)域內沒有復發(fā)興趣的相關消息來源。而本文方法的一些特征直接估算了查詢主題在消息來源中的重復性程度。另外,本文方法可能并不適用于低相關度消息來源,但TREC系統(tǒng)也沒有。
圖1 不同方法在數據集2008b上的性能比較
本文將博客篩選與提取視為一個信息融合問題。博客圈中大量的消息來源(包括海量的博客文章和評論以及其他估計相關性的信息)將該問題變成一個大數據挑戰(zhàn)。本文將不同性質的特征結合以估計消息來源的相關性,使用群體搜索方法和局部搜索方法結合的混合模式。實驗結果表明,提出的博客篩選搜索方法在運行時間和有效性方面獲得了滿意效果。
圖2 50代的平均執(zhí)行時間(查詢數量為5~25)
未來主要研究特征間的互動和依賴問題,通過引入一個特征選擇策略,提取識別度最高的特征。而且MapReduce、Hadoop或Apache Shark也可以納入使用。
參考文獻:
[1]RUCCELL M A.社交網站的數據挖掘與分析[M].蘇統(tǒng)華,魏通,趙逸雪,等譯.北京:機械工業(yè)出版社,2015.RUCCELL M A.Mining the social web[M].Translated by SU T H, WEI T,ZHAO Y X,et al.Beijing:China Machine Press,2015.
[2]關靜怡.高質量博客檢索中核心技術的研究 [D].北京:北京郵電大學,2011.GUAN J Y.Research on core technology of high quality blog retrieval [D].Beijing: Beijing University of Posts and Telecommunications,2011.
[3]MACDONALD C,OUNIS I,SOBOROFF I.Overview of the TREC 2007 blog track [C]//16th Text Retrieval Conference, November 6-9,2007,Gaithersburg,Maryland,USA.New Jersey: IEEE Press,2007:1908-1910.
[4]翟姍姍,許鑫,夏立新.學術博客中的用戶交流與知識傳播研究述評[J].現代圖書情報技術,2015,31(Z1):3-12.ZHAI S S,XU X,XIA L X.Review of the research on user communication and knowledge dissemination in academic blogs[J].New Technology of Library and Information Service,2015,31(Z1): 3-12.
[5]ELSAS J L,ARGUELLO J,CALLAN J,et al.Retrieval and feedback models for blog feed search[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval,July 20-24,2008,Singapore.New York:ACM Press, 2008:347-354.
[6]林旺,翁彧.一種面向博客群的主題傾向性分析模型 [J].中央民族大學學報(自然科學版),2014,23(3):33-37. LIN W,WENG Y.A topicopinionanalysismodelfor blogosphere[J].Journal of Minzu University of China(Natural Science Edition),2014,23(3):33-37.
[7]鄭美玉.基于本體的中文博客二級自動分類研究 [J].情報科學,2016,34(2):87-90. ZHENG M Y.Research on two level automatic classification of Chinese blogs based on ontology[J].Information Science,2016, 34(2):87-90.
[8]于航.基于圖模型的博客排序系統(tǒng)的研究與實現 [D].北京:北京大學,2011. YU H.Research and implementation of blog ranking system based on graph model[D].Beijing:Beijing University,2011.
[9]PARAPAR J,VIDAL M,SANTOS J.Finding the best parameter setting:particle swarm optimization [C]//The 2nd Spanish Conference on Information Retrieval(CERI 2012),June 18-19, 2012,Valencia,Spain.New Jersey:IEEE Press,2012:49-60.
[10]BOLLEGALA D,NOMAN N,IBA H.RankDE:learning a ranking function forinformation retrievalusing differential evolution [C]// Conference on Genetic and Evolutionary Computation,July 12-16,2011,Dublin,Ireland.New York: ACM Press,2011:1771-1778.
[11]LIN C,LIN C,LIN Z Y,et al.Hybrid pseudo-relevance feedback for microblog retrieval[J].Journal of Information Science,2013,39(6):773-788.
[12]范晨熙,黃理燦,李雪利.基于Lucene的BM25模型的評分機制的研究[J].工業(yè)控制計算機,2013,26(3):78-79. FAN C X,HUANG L C,LI X L.Research on scoring mechanism of BM25 model based on Lucene[J].Industrial Control Computer,2013,26(3):78-79.
[13]LAVRENKOV,CROFTW B.Relevancebasedlanguage models[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval,September 9-13, 2001,New Orleans,USA.New York:ACM Press,2001: 120-127.
[14]付僅.論博客證據[D].重慶:重慶郵電大學,2013. FU J.Study on blog evidence [D].Chongqing:Chongqing University of Posts and Telecommunications,2013.
[15]ZHANG S B,ZHANG B,ZHANG Y,et al.A search log sparseness oriented query expansion method[C]//International Conference on Systems and Informatics,November 15-17,2014, Shanghai,China.New Jersey:IEEE Press,2014:1050-1055.
[16]許斌,亓晉,印溪,等.基于多策略離散差分進化的移動互聯(lián)網個性化服務組合[J].電信科學,2016,32(2):1045-1051. XU B,QI J,YIN X,et al.Personalized service composition based on multi-strategy discrete differentialevolution in mobile internet[J].Telecommunications Science,2016,32(2): 1045-1051.
[17]MACDONALD C,OUNIS I.The TREC blogs06 collection: creating and analysing a blog test collection[EB/OL].(2016-02-29) [2016-05-27].https://www.researchgate.net/publication/40704787_ The_TREC_Blogs06_Collection_Creating_and_Anal-ysing_a_Blog _Test_Collection.
Blog screening and mining based on temporal features and hybrid search in big data
ZHANG Lina,KUANG Tai,JIANG Diqing
Department of Information Engineering,Zhejiang College of Security Technology,Wenzhou 325000,China
Concerning that the correlation degree of the existing methods of blog screen and mining is loose and the information retrieval of the methods is deficient,a method based on temporal feature and hybrid search method was proposed.Considering the user reviews are important sources of evidence combination,the average number of reviews for blogs,the sources of BM25 relevance scores,the longest blog BM25 scores and time range between the latest related blog paper and the oldest related blog paper are being as the temporal feature sets.In addition, considering local search advantage of linear search(LS)and global search advantage of differential evolution(DE),the two kinds of information search methods were combined.BlogS06 data set was used in the experiment which was consists of blog home pages,XML source files and its blog portal pages,it was used for TREC 2007 and TREC 2008 blog mining experiments.Experimental results show that the proposed method can obtain satisfactory results in terms of running time and effectiveness.
blog screening and mining,temporal feature,linear search,differential evolution,big data,BM25
TP391
A
10.11959/j.issn.1000-0801.2017001
張麗娜(1980-),女,浙江安防職業(yè)技術學院講師,主要研究方向為數據挖掘、圖形圖像、智能算法、云計算。
匡泰(1964-),男,浙江安防職業(yè)技術學院信息工程系主任、副教授,主要研究方向為大數據、人工智能。
姜迪清(1965-),男,現就職于浙江安防職業(yè)技術學院,主要研究方向為輿情管理、人事管理等。
2016-05-30;
2016-09-14
浙江省2016年教育技術研究規(guī)劃課題支持項目(No.JB139)
Foundation Item:Educational Technology Research Prgram of Zhejiang Province in 2016(No.JB139)