一種面向情報服務(wù)的交互式主題擴展方法

2016-08-15 01:27:41于福超盧廷鈞王裴巖張桂平

沈陽航空航天大學(xué)學(xué)報 2016年2期

關(guān)鍵詞：情報服務(wù)

于福超，盧廷鈞,王裴巖，張桂平

(1.沈陽航空航天大學(xué) 人機智能研究中心，沈陽 110136； 2.中航工業(yè)昌河飛機工業(yè)(集團)有限責(zé)任公司型號指揮部，江西景德鎮(zhèn) 333000)

一種面向情報服務(wù)的交互式主題擴展方法

于福超1，盧廷鈞2,王裴巖1，張桂平1

(1.沈陽航空航天大學(xué) 人機智能研究中心，沈陽 110136； 2.中航工業(yè)昌河飛機工業(yè)(集團)有限責(zé)任公司型號指揮部，江西景德鎮(zhèn) 333000)

摘要：情報服務(wù)中的主題擴展是指對客戶的情報需求主題進行擴展，將擴展主題詞作為原主題的補充和解釋，是保證情報獲取全面性的關(guān)鍵技術(shù)之一。面向情報服務(wù)中的主題擴展問題，提出了一種交互式擴展方法。該方法通過計算候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異，利用相似度差異過濾候選擴展詞，通過用戶對推薦詞的確認，更新相關(guān)詞集和不相關(guān)詞集。其中，相似度計算采用線性組合的方法融合了文檔共現(xiàn)相似度與語義相似度。實驗表明該方法具有較好的主題擴展效果。

關(guān)鍵詞：情報服務(wù)；主題擴展；交互式方法；線性組合

在信息化快速發(fā)展的今天，情報服務(wù)[1]也不再局限于單純以人力搜集情報為主的模式，如何將情報服務(wù)與互聯(lián)網(wǎng)信息相結(jié)合，已經(jīng)成為情報服務(wù)模式發(fā)展的轉(zhuǎn)折點。海量信息為情報服務(wù)的發(fā)展帶來便捷的同時，也使信息過載問題變得日趨嚴(yán)重，企業(yè)需要消耗大量的人力物力以獲取自己所需要的信息。為輔助人工進行情報服務(wù)，降低其時間耗損，提高情報服務(wù)的準(zhǔn)確性和全面性，主題擴展研究由此產(chǎn)生。在面向情報服務(wù)的主題擴展中，將被擴展主題詞的文檔共現(xiàn)詞[2-3]或語義相似詞[4]作為擴展，以提高情報服務(wù)的信息準(zhǔn)確度，這是常用的輔助擴展方法。但是這類輔助擴展方法的缺陷在于：沒有利用用戶對推薦詞的確認反饋來改進推薦效果，不能夠使推薦結(jié)果逐漸趨近用戶需求。因此，本文提出用交互式擴展的方法以彌補上述輔助擴展方法的不足，該方法能夠利用用戶反饋，通過用戶對被擴展主題詞的相關(guān)詞和不相關(guān)詞的確認，不斷更新相關(guān)詞集和不相關(guān)詞集。然后以此為基礎(chǔ)，利用候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異過濾候選擴展詞。其中，相似度計算采用線性組合的方法融合了文檔共現(xiàn)相似度與語義相似度，從而更加全面地對客戶主題進行擴展，充分保證用戶真正信息需求的獲取。該方法對本文服務(wù)場景中的人工擴展流程進行了模擬，使其更加貼近本文的服務(wù)場景，從而提高人工情報服務(wù)的工作效率。

1　相關(guān)研究

主題擴展作為一種輔助人工擴展的技術(shù)手段，通常使用的方法有以下2種：(1)關(guān)鍵詞匹配；(2)相似性計算。其中，基于關(guān)鍵字匹配[5]的搜索方式僅關(guān)注于返回包含關(guān)鍵字的文檔，而忽略了對用戶真正信息需求的識別與匹配。對于復(fù)雜信息的需求，返回的搜索結(jié)果中包含較多不符合用戶需要的噪聲文檔，無法充分滿足用戶需要。

基于詞語的相似度計算主要可分為基于語義詞典的方法[6]和基于語料庫的方法。前者通常根據(jù)人工構(gòu)建的語義詞典(如WordNet與知網(wǎng)等)，以詞語間的距離代表詞語相似度。這種方法的缺點在于：一是構(gòu)建WordNet這樣的詞典是一個浩大的語言工程，耗時耗力；二是詞典構(gòu)建后，對于新詞和新義的增加問題，即維護該詞典也需要很大的成本。

查詢擴展是一種與主題擴展的思想類似的技術(shù)手段，是指將與查詢用詞關(guān)聯(lián)程度高的詞及詞組加入原查詢以生成新的查詢，從而達到擴展優(yōu)化的目的[7]。從用戶參與角度看，查詢擴展[8-9]可分為用戶相關(guān)反饋[10]和偽相關(guān)反饋方法[11-12]。HF Wang[13]等研究中的實驗表明，用戶的參與和反饋對于查詢精度有較好的改善。Kurland[14]等提出了一種迭代的偽反饋技術(shù)，取消用戶交互的過程，只是重復(fù)性地進行查詢詞的擴展，直至達到滿意的效果。這種反復(fù)迭代的方法容易加劇查詢主題的漂移，雖然文中給出了解決此問題的方法，但同時也增加了算法的復(fù)雜度。

與查詢擴展相比，主題擴展的方向性更強，對信息的準(zhǔn)確度要求更高。查詢擴展以信息查全為目的，常包含大量無關(guān)文檔。主題擴展需要將噪聲信息的數(shù)量降至最低，甚至沒有噪聲信息，即以信息準(zhǔn)確為第一準(zhǔn)則。

2　情報服務(wù)場景

根據(jù)客戶所需信息類別的不同，本文服務(wù)場景中的情報服務(wù)大致分為技術(shù)、市場、專利、情報等4類。其中情報類服務(wù)主要是通過對客戶的需求分析和總結(jié)，在對大量網(wǎng)絡(luò)數(shù)據(jù)進行挖掘分析的基礎(chǔ)上，為客戶提供契合其需求的精準(zhǔn)的信息服務(wù)，讓企業(yè)實時掌握競爭企業(yè)的動態(tài)，便于企業(yè)做出更準(zhǔn)確的決策。例如：客戶情報需求：東北各個行業(yè)的發(fā)展趨勢。東北已有行業(yè)大致包括“汽車”、“飛機”、“機器人”、“燃氣輪機”、“位置服務(wù)”、“機械”等行業(yè)；發(fā)展趨勢大致在4個方面得以體現(xiàn)，分別為“發(fā)展前景”、“全國資訊”、“國家政策”、“商務(wù)合作”。因此，可構(gòu)成“汽車行業(yè)發(fā)展前景”、“汽車行業(yè)全國資訊”、“汽車行業(yè)國家政策”等多個客戶主題。

以“汽車行業(yè)全國資訊”主題擴展為例，人工擴展為“tittle:(汽車)andtittle:(人民日報新華網(wǎng))”，意為檢索到的信息標(biāo)題中需要同時包含“汽車”、“人民日報”或“汽車”、“新華網(wǎng)”。其中“汽車”、“人民日報”和“新華網(wǎng)”為主題詞，主題由主題詞描述。人工主題擴展的方法多依靠個人經(jīng)驗，而且基于現(xiàn)有數(shù)據(jù)和客戶需求，很難準(zhǔn)確地將客戶的情報需求主題擴展完整，本文的主題擴展方法正是解決這個問題的關(guān)鍵方法。

本文情報類服務(wù)的主題詞大致分為5類，分別為：日期、地名、機構(gòu)名、機械設(shè)備名(機械部件名)和其他。其中日期、地名、機構(gòu)名有較為固定的詞集合可以參考，也可以參考百度、谷歌等搜索引擎的檢索信息。經(jīng)過對人工主題擴展模式和特點的總結(jié)發(fā)現(xiàn)：機械設(shè)備名(機械部件名)通常不予以擴展，原因在于這類主題詞專業(yè)性強，對其擴展容易造成對客戶需求的偏差，比如“瀝青混合料攪拌設(shè)備、伺服電機”等。其他類主題詞不僅所占數(shù)量比例大，而且是人工擴展的難點所在，這類主題詞其實是由若干相同或者不同詞性的詞組合在一起，例如：“市場(名詞)+營銷(動詞)”、“飛機(名詞)+容量(名詞)”等，該類主題詞是本文主題擴展方法的主要應(yīng)用對象。

3　交互式擴展的實現(xiàn)

本文提出的交互式擴展方法從文檔共現(xiàn)詞和語義相似詞2個角度，分別構(gòu)建主題擴展方法，并對2種擴展方法的候選擴展詞進行線性加權(quán)。然后通過用戶對推薦詞的確認反饋，更新相關(guān)詞集和不相關(guān)詞集，并計算候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異，利用相似度差異過濾候選擴展詞。

3.1基于文檔共現(xiàn)的主題擴展方法

通常在相同文檔中共現(xiàn)的詞具有較高的相關(guān)性。在主題擴展時，可將與被擴展主題詞經(jīng)常共現(xiàn)的詞加入到被擴展主題中。首先采用TF-IDF[15]方法計算詞在各個文檔中的權(quán)重，以此為基礎(chǔ)構(gòu)成詞的向量表示，其形式如下：

w=[TF-IDFd1,TF-IDFd2,TF-IDFd3,…,TF-IDFdn]

然后利用余弦公式計算向量間的相似度，兩向量間的相似度反映兩詞在文檔集中的分布的相似性，選擇與被擴展主題詞較大的詞推薦給用戶，進而實現(xiàn)基于文檔共現(xiàn)的主題擴展方法。TF-IDF計算公式如式(1)所示：

(1)

其中TF(Term Frequency)為詞w在文檔d中的頻率，即詞w在文檔d中出現(xiàn)頻次count(w,d)和文檔d中總詞數(shù)size(d)的比值。IDF(Inverse Document Frequency)為詞w在整個文檔集合中的逆向文檔頻率，即文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,D)加1的比值的對數(shù)，分母之所以要加1，是為了避免分母為0(即所有文檔都不包含該詞)。

3.2基于語義相似的主題擴展方法

與被擴展主題詞語義相似的詞是擴展主題的另一有效途徑。語義相似的詞表現(xiàn)為在相同或相近上下文環(huán)境內(nèi)可替換的詞[16]，文獻[17]提出Word Embedding是基于詞上下文環(huán)境將詞進行向量表達的一種方法，以Word Embedding間的相似度能夠表示詞間的語義相似度。本文利用Mikolov T[18]等人提出的Skip-gram模型訓(xùn)練Word Embedding，采用余弦公式找到與被擴展主題詞語義相似的詞，然后選擇相似度較大的詞推薦給用戶，從而實現(xiàn)基于語義相似的主題擴展方法，Skip-gram是在已知詞的前提下，求其上下文的概率。其模型的示意圖如圖1所示：

圖1　Skip-gram模型

Skip-gram模型的訓(xùn)練目標(biāo)就是使下式的值最大，如式(2)所示:

(2)

其中，c是窗口的大小，T是文檔集大小，Skip-gram 模型計算的條件概率如式(3)所示：

(3)

3.3兩種主題擴展方法的融合

從文檔共現(xiàn)和語義相似的兩個角度分析，兩種擴展方法的候選擴展詞具有一定的互補性。如表1所示，客戶的情報需求是“東北各個行業(yè)的發(fā)展趨勢”，客戶沒有對行業(yè)的類別和方向做出明確要求。以被擴展主題詞“發(fā)展前景”為例：基于文檔共現(xiàn)的主題擴展方法可以基于現(xiàn)有數(shù)據(jù)，輔助人工獲得被擴展主題詞的文檔共現(xiàn)詞，如“氣動工具”、“五金”、“塑料管道”等行業(yè)名稱，提高人工擴展的效率和全面性；基于語義相似的主題擴展方法可以得到“市場前景”、“市場趨勢”、“發(fā)展?jié)摿Α钡缺粩U展主題詞的語義相似詞，輔助人工擴展得到更多契合客戶需求的相關(guān)文檔，提高情報服務(wù)的準(zhǔn)確性。

這兩種擴展方法是從不同卻又互補的兩個角度去提高人工擴展的效率以及全面性和準(zhǔn)確性。因此，采用線性加權(quán)的方法融合上述兩種主題擴展方法，實現(xiàn)從文檔共現(xiàn)相似性與語義相似性兩個方面對被擴展主題詞進行擴展，以期得到更全面的推薦結(jié)果。

表1　基于文檔共現(xiàn)、語義相似的主題擴展方法的候選擴展詞示例

線性加權(quán)是指把兩種擴展方法得到的被擴展主題詞w和候選擴展詞的相似度進行線性融合，進而得到w與w′的融合相似度Sim(w,w)，然后選取Sim(w,w)較大的候選擴展詞推薦給用戶，Sim(w,w′)的計算方法如式(4)所示：

Sim(w,w′)=(1-a)*Simk1(w,w′)+a*Simk2(w,w′),0

(4)

其中，Simk1是從文檔共現(xiàn)的角度，利用TF-IDF方法構(gòu)造w和的向量表示，然后采用余弦公式得到的w和w′間的文檔共現(xiàn)相似度；Simk2是從語義相似的角度，通過利用Skip-gram模型訓(xùn)練得到w和w′的Word Embedding，然后同樣采用余弦公式得到的w和w′間的語義相似度。

3.4交互式主題擴展方法

為了能夠?qū)ν扑]詞的用戶反饋進行處理，并在此基礎(chǔ)上進行再次推薦，本文提出一種交互式主題擴展方法。該方法通過用戶對推薦詞的確認反饋，更新相關(guān)詞集和不相關(guān)詞集。在此基礎(chǔ)上利用相似度差異Score(w)過濾候選擴展詞，然后推薦給用戶。Score(w′)的值越大代表該候選擴展詞與客戶需求越契合，Score(w′)的計算方法如式(5)所示：

Score(w′)=

(5)

其中，w是被擴展主題詞，w′是候選擴展詞，Sim(w,w′)是w與w′的融合相似度，T1和T2分別是相關(guān)詞集和不相關(guān)詞集。具體描述如下：

初始化: 相關(guān)詞集T1={w}; 不相關(guān)詞集T2=?; 詞集W={w1,w2,…,wm};Step1:基于公式(4)給用戶推薦n個候選擴展詞C={w1,w2,…,wn};Step2:用戶對C進行確認,基于用戶反饋更新T1與T2;Step3:對于W中的每個詞,基于公式(5),計算Score值;Step4:選取Score較大的前n個候選擴展詞C={w1,w2,…,wn}推薦給用戶;Step5:返回Step2;

4　實驗設(shè)計及評價

4.1實驗數(shù)據(jù)及預(yù)處理

本文數(shù)據(jù)采用從網(wǎng)絡(luò)抓取的新聞信息，每條數(shù)據(jù)包括標(biāo)題、內(nèi)容、時間、發(fā)布者、網(wǎng)址等。主題擴展研究主要針對4 000萬條新聞標(biāo)題，其包括時政、科教、經(jīng)濟、社會、軍事等多個類別。預(yù)處理主要是將4 000萬條新聞標(biāo)題進行分詞、去停用詞、去低頻高頻詞等操作，得到大小為248 355的詞表。Word2vec是一款利用Skip-gram模型將詞轉(zhuǎn)化為詞向量的高效工具，本文采用該工具生成每個詞的Word Embedding。Word2vec所設(shè)定的對應(yīng)參數(shù)如表2所示：

4.2評價方法

根據(jù)客戶主題的種類與領(lǐng)域，選取了具有代表性的100個客戶情報需求主題，并為每個客戶情報需求主題的主題詞推薦30個候選擴展詞。由于本文服務(wù)場景的限制，首先分別將基于文檔共現(xiàn)和語義相似兩種擴展方法得的候選擴展詞推薦給用戶，由用戶確認相關(guān)詞和不相關(guān)詞，然后將其作為評價線性組合、交互式擴展2種方法的實驗效果的依據(jù)。本文以推薦詞的利用率來判斷評價主題擴展方法的實用效果，公式如式(6)所示：

利用率=相關(guān)詞數(shù)/推薦詞數(shù)

(6)

利用率高代表該擴展方法實用效果好，適合本文的情報服務(wù)場景。

表2　Word2vec參數(shù)設(shè)定

表3是用戶對基于語義相似的主題擴展方法為被擴展主題詞“發(fā)展前景”所提供的候選擴展詞的相關(guān)性確認的示例。

表3　基于語義相似的主題擴展方法的候選擴展詞示例

4.3實驗分析

下表是基于文檔共現(xiàn)、語義相似及線性組合3種擴展方法針對不同推薦詞數(shù)量時的候選擴展詞的平均利用率，其中線性組合的參數(shù)α取值是從0到1以步長0.1進行變化，如表4所示：

表4　基于文檔共現(xiàn)、語義相似及線性組合3種擴展方法的平均利用率對比　%

表4顯示，當(dāng)推薦詞數(shù)量為5、10、15、20、25、30時，線性組合擴展方法在參數(shù)α分別為0.8、0.6、0.6、0.6、0.5、0.7取得其平均利用率最高值，分別是：80.00%、75.00%、71.89%、65.37%、56.89%、53.00%，比基于文檔共現(xiàn)和語義相似2種擴展方法的平均利用率要高。利用T檢驗方法對基于文檔共現(xiàn)、語義相似及線性組合3種擴展方法進行差異顯著性檢測，發(fā)現(xiàn)線性組合方法與其余2種方法的顯著性檢測值均小于0.05，存在顯著性差異。

從表4可以看出，當(dāng)線性組合的參數(shù)α=0.6時，分別在推薦詞數(shù)量為10、15、20時取得其平均利用率最高值。在推薦詞數(shù)量為5、25、30時，線性組合的平均利用率最高值與α為0.6的平均利用率的差值不超過1%。當(dāng)推薦詞數(shù)量為5、10、15、20、25、30時，利用T檢驗方法對α=0.6與線性組合的平均利用率最高值進行差異顯著性檢測，發(fā)現(xiàn)不存在顯著性差異，所以綜合考慮，本文選擇線性組合權(quán)重α=0.6。

表5　線性組合、交互式擴展平均利用率對比　%

交互式擴展每次推薦5個候選擴展詞，連續(xù)推薦6次。從表5可以看出，在推薦詞數(shù)量為10、15、20的時候，交互式擴展的平均利用率相對于線性組合方法都有7%以上的顯著提高，在推薦詞數(shù)量為25、30的時候，其平均利用率的提高也在2%左右，沒有顯著提高，這是因為與被擴展主題詞相關(guān)的詞已經(jīng)基本全部被涵蓋。這也說明，交互式方法能夠在較少的推薦次數(shù)下，獲得更多的與被擴展主題詞相關(guān)的詞。由此可以看出在每次推薦詞數(shù)量為5的情況下，相比于線性組合方法，交互式主題擴展方法利用用戶對推薦詞的確認反饋信息，得到更好的推薦效果。

圖2　平均利用率對比

圖2顯示出，在推薦詞數(shù)量分別為10、15、20、25、30時，交互式主題擴展方法推薦的候選擴展詞的平均利用率均高于基于文檔共現(xiàn)、語義相似及線性組合3種擴展方法，并且在推薦詞數(shù)量為10、15、20的時候，實驗結(jié)果有明顯提高。

5　結(jié)束

本文提出了一種交互式的主題擴展方法。首先從文檔共現(xiàn)和語義相似2個角度，分別構(gòu)建了主題擴展方法，利用線性組合的方法融合2種擴展方法得到被擴展主題詞與候選擴展詞間的相似度。然后在此基礎(chǔ)上利用用戶對候選擴展詞的確認反饋，更新相關(guān)詞和不相關(guān)詞的集合，并利用相似度差異過濾候選擴展詞，交互式為用戶進行推薦，實驗表明該方法具有較好的應(yīng)用效果。在本文的工作中并沒有考慮相關(guān)詞集與不相關(guān)詞集中每個詞的各自權(quán)重，在未來工作中，考慮引入詞的權(quán)重，使在計算Score值時，不同的詞起到的作用不同。

參考文獻(References)：

[1]許真玉，王文佳，楊曉玉.企業(yè)競爭情報研究與圖書館情報服務(wù)[J].現(xiàn)代情報，2006，26(11)：185-186.

[2]Morita K，Atlam E S，F(xiàn)uketra M，et al.Word classification and hierarchy using co-occurrence word information[J].Information Processing & Management，2004，40(6)：957-972.

[3]唐守忠，齊建東.一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對的向量空間模型[J].計算機工程與科學(xué)，2014，36(5)：971-976.

[4]吳健，吳朝暉，李瑩，等.基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J].計算機學(xué)報，2005，28(4)：595-602.

[5]胡昊，王君偉，常橙，等.XML數(shù)據(jù)上支持查詢擴展的關(guān)鍵詞檢索系統(tǒng)[J].計算機研究與發(fā)展，2013，50(S1)：421-425.

[6]江敏，肖詩斌，王弘蔚，等.一種改進的基于《知網(wǎng)》的詞語語義相似度計算[J].中文信息學(xué)報，2008，22(5)：84-89.

[7]崔航，文繼榮，李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學(xué)報，2003(9)：1593-1599.

[8]Huang M，Yan X，Zhang S，et al.Review and perspective of query expansion techniques[J].Computer Applications & Software，2007.

[9]Chirita P A，F(xiàn)iran C S，Nejdl W.Personalized query expansion for the web.[J].Proceedings of Sigir’，2007：7-14.

[10]Biao L，Jiabei Z，Ming Y，et al.3D object retrieval with multitopic model combining relevance feedback and LDA model.[J].IEEE Transactions on Image Processing，2015，24(1)：94-105.

[11]黃名選，嚴(yán)小衛(wèi)，張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴展[J].軟件學(xué)報，2009，20(7)：1854-1865.

[12]Cao G，Nie J Y，Gao J，et al.Selecting good expansion terms for pseudo-relevance feedback.[C].Sigir 08 International Acm Sigir Conference on Research & Developm.ACM，2008：243-250.

[13]Wang H F，Lee K F，Yang Q.Search engine with natural language-based robust parsing for user query and relevance feedback learning：US，US6766320[P]，2004.

[14]Kurland O，Lee L，Domshlak C.Better than the real thing? Iterative pseudo-query processing using cluster-based language models[J].Acm Sigir Forum，2005：19-26.

[15]黃承慧，印鑒，侯昉.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學(xué)報，2011，34(5)：856-864.

[16]Lebret R，Collobert R.Rehabilitation of count-based models for word vector representations[M].Computational Linguistics and Intelligent Text Processing.Springer International Publishing，2015：417-429.

[17]Lebret R，Collobert R.Word Embeddings through Hellinger PCA[C].Conference of the European Chapter of the Association for Computational Linguistics.Idiap，2013.

[18]Mikolov T，Chen K，Corrado G，et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv：1301.3781，2013.

(責(zé)任編輯：劉劃英文審校：王云雁)

收稿日期：2016-01-28

基金項目：國防基礎(chǔ)科研項目資助(項目編號：A0520131003);遼寧省高校創(chuàng)新團隊支持計劃(項目編號：LT2014005)

作者簡介：于福超(1990-)，男，遼寧大連人，碩士研究生，主要研究方向：知識管理與人機智能交互，E-mail:94330101@163.com；張桂平(1962-)，女，遼寧本溪人，教授，博士，主要研究方向：機器翻譯、知識管理等，E-mail:zgp@ge-soft.com。

文章編號：2095-1248(2016)02-0059-06

中圖分類號：TP391.3

文獻標(biāo)志碼：A

doi:10.3969/j.issn.2095-1248.2016.02.011

An interactive topic expansion technology for intelligence service

YU Fu-chao1,LU Ting-jun2,WANG Pei-yan1,ZHANG Gui-ping1

(1.Human-Computer Intelligence Research Center,Shenyang Aerospace University,Shenyang 110136,China ;2.Type Command Department,AVIC Changhe Aircraft Industry(Group)Company Limited,Jingdezhen 333000,China)

Abstract：The topic expansion of intelligence service is to expand the customer’s intelligence needs with the expanded topic words as a supplement and explanation of the original topic,which is one of the key technologies to ensure the comprehensive intelligence acquisition.In this paper,we propose an interactive expansion method for the topic expansion problem in intelligence service.The method computes the divergence between the similarity of candidate words with the related words and the unrelated words,filters the candidate words by the similarity divergence,and updates related words set and unrelated words set with the user’s confirmation on recommendation words.Among them,linear combination combines the document co-occurrence similarity and semantic similarity.Experiments show that the proposed method has a good effect on the topic expansion.

Key words：intelligence service;topic expansion;interactive method;linear combination

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種面向情報服務(wù)的交互式主題擴展方法

1 相關(guān)研究

2 情報服務(wù)場景

3 交互式擴展的實現(xiàn)

4 實驗設(shè)計及評價

5 結(jié)束

1　相關(guān)研究

2　情報服務(wù)場景

3　交互式擴展的實現(xiàn)

4　實驗設(shè)計及評價

5　結(jié)束