于福超,盧廷鈞,王裴巖,張桂平
(1.沈陽航空航天大學(xué) 人機智能研究中心,沈陽 110136; 2.中航工業(yè)昌河飛機工業(yè)(集團)有限責(zé)任公司 型號指揮部,江西 景德鎮(zhèn) 333000)
?
一種面向情報服務(wù)的交互式主題擴展方法
于福超1,盧廷鈞2,王裴巖1,張桂平1
(1.沈陽航空航天大學(xué) 人機智能研究中心,沈陽 110136; 2.中航工業(yè)昌河飛機工業(yè)(集團)有限責(zé)任公司 型號指揮部,江西 景德鎮(zhèn) 333000)
摘要:情報服務(wù)中的主題擴展是指對客戶的情報需求主題進行擴展,將擴展主題詞作為原主題的補充和解釋,是保證情報獲取全面性的關(guān)鍵技術(shù)之一。面向情報服務(wù)中的主題擴展問題,提出了一種交互式擴展方法。該方法通過計算候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異,利用相似度差異過濾候選擴展詞,通過用戶對推薦詞的確認,更新相關(guān)詞集和不相關(guān)詞集。其中,相似度計算采用線性組合的方法融合了文檔共現(xiàn)相似度與語義相似度。實驗表明該方法具有較好的主題擴展效果。
關(guān)鍵詞:情報服務(wù);主題擴展;交互式方法;線性組合
在信息化快速發(fā)展的今天,情報服務(wù)[1]也不再局限于單純以人力搜集情報為主的模式,如何將情報服務(wù)與互聯(lián)網(wǎng)信息相結(jié)合,已經(jīng)成為情報服務(wù)模式發(fā)展的轉(zhuǎn)折點。海量信息為情報服務(wù)的發(fā)展帶來便捷的同時,也使信息過載問題變得日趨嚴(yán)重,企業(yè)需要消耗大量的人力物力以獲取自己所需要的信息。為輔助人工進行情報服務(wù),降低其時間耗損,提高情報服務(wù)的準(zhǔn)確性和全面性,主題擴展研究由此產(chǎn)生。 在面向情報服務(wù)的主題擴展中,將被擴展主題詞的文檔共現(xiàn)詞[2-3]或語義相似詞[4]作為擴展,以提高情報服務(wù)的信息準(zhǔn)確度,這是常用的輔助擴展方法。但是這類輔助擴展方法的缺陷在于:沒有利用用戶對推薦詞的確認反饋來改進推薦效果,不能夠使推薦結(jié)果逐漸趨近用戶需求。因此,本文提出用交互式擴展的方法以彌補上述輔助擴展方法的不足,該方法能夠利用用戶反饋,通過用戶對被擴展主題詞的相關(guān)詞和不相關(guān)詞的確認,不斷更新相關(guān)詞集和不相關(guān)詞集。然后以此為基礎(chǔ),利用候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異過濾候選擴展詞。其中,相似度計算采用線性組合的方法融合了文檔共現(xiàn)相似度與語義相似度,從而更加全面地對客戶主題進行擴展,充分保證用戶真正信息需求的獲取。該方法對本文服務(wù)場景中的人工擴展流程進行了模擬,使其更加貼近本文的服務(wù)場景,從而提高人工情報服務(wù)的工作效率。
主題擴展作為一種輔助人工擴展的技術(shù)手段,通常使用的方法有以下2種:(1)關(guān)鍵詞匹配;(2)相似性計算。其中,基于關(guān)鍵字匹配[5]的搜索方式僅關(guān)注于返回包含關(guān)鍵字的文檔,而忽略了對用戶真正信息需求的識別與匹配。對于復(fù)雜信息的需求,返回的搜索結(jié)果中包含較多不符合用戶需要的噪聲文檔,無法充分滿足用戶需要。
基于詞語的相似度計算主要可分為基于語義詞典的方法[6]和基于語料庫的方法。前者通常根據(jù)人工構(gòu)建的語義詞典(如WordNet與知網(wǎng)等),以詞語間的距離代表詞語相似度。這種方法的缺點在于:一是構(gòu)建WordNet這樣的詞典是一個浩大的語言工程,耗時耗力;二是詞典構(gòu)建后,對于新詞和新義的增加問題,即維護該詞典也需要很大的成本。
查詢擴展是一種與主題擴展的思想類似的技術(shù)手段,是指將與查詢用詞關(guān)聯(lián)程度高的詞及詞組加入原查詢以生成新的查詢,從而達到擴展優(yōu)化的目的[7]。從用戶參與角度看,查詢擴展[8-9]可分為用戶相關(guān)反饋[10]和偽相關(guān)反饋方法[11-12]。HF Wang[13]等研究中的實驗表明,用戶的參與和反饋對于查詢精度有較好的改善。Kurland[14]等提出了一種迭代的偽反饋技術(shù),取消用戶交互的過程,只是重復(fù)性地進行查詢詞的擴展,直至達到滿意的效果。這種反復(fù)迭代的方法容易加劇查詢主題的漂移,雖然文中給出了解決此問題的方法,但同時也增加了算法的復(fù)雜度。
與查詢擴展相比,主題擴展的方向性更強,對信息的準(zhǔn)確度要求更高。查詢擴展以信息查全為目的,常包含大量無關(guān)文檔。主題擴展需要將噪聲信息的數(shù)量降至最低,甚至沒有噪聲信息,即以信息準(zhǔn)確為第一準(zhǔn)則。
根據(jù)客戶所需信息類別的不同,本文服務(wù)場景中的情報服務(wù)大致分為技術(shù)、市場、專利、情報等4類。其中情報類服務(wù)主要是通過對客戶的需求分析和總結(jié),在對大量網(wǎng)絡(luò)數(shù)據(jù)進行挖掘分析的基礎(chǔ)上,為客戶提供契合其需求的精準(zhǔn)的信息服務(wù),讓企業(yè)實時掌握競爭企業(yè)的動態(tài),便于企業(yè)做出更準(zhǔn)確的決策。 例如:客戶情報需求:東北各個行業(yè)的發(fā)展趨勢。 東北已有行業(yè)大致包括“汽車”、“飛機”、“機器人”、“燃氣輪機”、“位置服務(wù)”、“機械”等行業(yè);發(fā)展趨勢大致在4個方面得以體現(xiàn),分別為“發(fā)展前景”、“全國資訊”、“國家政策”、“商務(wù)合作”。因此,可構(gòu)成“汽車行業(yè)發(fā)展前景”、“汽車行業(yè)全國資訊”、“汽車行業(yè)國家政策”等多個客戶主題。
以“汽車行業(yè)全國資訊”主題擴展為例,人工擴展為“tittle:(汽車)andtittle:(人民日報新華網(wǎng))”,意為檢索到的信息標(biāo)題中需要同時包含“汽車”、“人民日報”或“汽車”、“新華網(wǎng)”。其中“汽車”、“人民日報”和“新華網(wǎng)”為主題詞,主題由主題詞描述。人工主題擴展的方法多依靠個人經(jīng)驗,而且基于現(xiàn)有數(shù)據(jù)和客戶需求,很難準(zhǔn)確地將客戶的情報需求主題擴展完整,本文的主題擴展方法正是解決這個問題的關(guān)鍵方法。
本文情報類服務(wù)的主題詞大致分為5類,分別為:日期、地名、機構(gòu)名、機械設(shè)備名(機械部件名)和其他。其中日期、地名、機構(gòu)名有較為固定的詞集合可以參考,也可以參考百度、谷歌等搜索引擎的檢索信息。經(jīng)過對人工主題擴展模式和特點的總結(jié)發(fā)現(xiàn):機械設(shè)備名(機械部件名)通常不予以擴展,原因在于這類主題詞專業(yè)性強,對其擴展容易造成對客戶需求的偏差,比如“瀝青混合料攪拌設(shè)備、伺服電機”等。其他類主題詞不僅所占數(shù)量比例大,而且是人工擴展的難點所在,這類主題詞其實是由若干相同或者不同詞性的詞組合在一起,例如:“市場(名詞)+營銷(動詞)”、“飛機(名詞)+容量(名詞)”等,該類主題詞是本文主題擴展方法的主要應(yīng)用對象。
本文提出的交互式擴展方法從文檔共現(xiàn)詞和語義相似詞2個角度,分別構(gòu)建主題擴展方法,并對2種擴展方法的候選擴展詞進行線性加權(quán)。然后通過用戶對推薦詞的確認反饋,更新相關(guān)詞集和不相關(guān)詞集,并計算候選擴展詞與相關(guān)詞及不相關(guān)詞間的相似度差異,利用相似度差異過濾候選擴展詞。
3.1基于文檔共現(xiàn)的主題擴展方法
通常在相同文檔中共現(xiàn)的詞具有較高的相關(guān)性。在主題擴展時,可將與被擴展主題詞經(jīng)常共現(xiàn)的詞加入到被擴展主題中。 首先采用TF-IDF[15]方法計算詞在各個文檔中的權(quán)重,以此為基礎(chǔ)構(gòu)成詞的向量表示,其形式如下:
w=[TF-IDFd1,TF-IDFd2,TF-IDFd3,…,TF-IDFdn]
然后利用余弦公式計算向量間的相似度,兩向量間的相似度反映兩詞在文檔集中的分布的相似性,選擇與被擴展主題詞較大的詞推薦給用戶,進而實現(xiàn)基于文檔共現(xiàn)的主題擴展方法。TF-IDF計算公式如式(1)所示:
(1)
其中TF(Term Frequency)為詞w在文檔d中的頻率,即詞w在文檔d中出現(xiàn)頻次count(w,d)和文檔d中總詞數(shù)size(d)的比值。IDF(Inverse Document Frequency)為詞w在整個文檔集合中的逆向文檔頻率,即文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,D)加1的比值的對數(shù),分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。
3.2基于語義相似的主題擴展方法
與被擴展主題詞語義相似的詞是擴展主題的另一有效途徑。語義相似的詞表現(xiàn)為在相同或相近上下文環(huán)境內(nèi)可替換的詞[16],文獻[17]提出Word Embedding是基于詞上下文環(huán)境將詞進行向量表達的一種方法,以Word Embedding間的相似度能夠表示詞間的語義相似度。 本文利用Mikolov T[18]等人提出的Skip-gram模型訓(xùn)練Word Embedding,采用余弦公式找到與被擴展主題詞語義相似的詞,然后選擇相似度較大的詞推薦給用戶,從而實現(xiàn)基于語義相似的主題擴展方法,Skip-gram是在已知詞的前提下,求其上下文的概率。其模型的示意圖如圖1所示:
圖1 Skip-gram模型
Skip-gram模型的訓(xùn)練目標(biāo)就是使下式的值最大,如式(2)所示:
(2)
其中,c是窗口的大小,T是文檔集大小,Skip-gram 模型計算的條件概率如式(3)所示:
(3)
3.3兩種主題擴展方法的融合
從文檔共現(xiàn)和語義相似的兩個角度分析,兩種擴展方法的候選擴展詞具有一定的互補性。如表1所示,客戶的情報需求是“東北各個行業(yè)的發(fā)展趨勢”,客戶沒有對行業(yè)的類別和方向做出明確要求。以被擴展主題詞“發(fā)展前景”為例:基于文檔共現(xiàn)的主題擴展方法可以基于現(xiàn)有數(shù)據(jù),輔助人工獲得被擴展主題詞的文檔共現(xiàn)詞,如“氣動工具”、“五金”、“塑料管道”等行業(yè)名稱,提高人工擴展的效率和全面性;基于語義相似的主題擴展方法可以得到“市場前景”、“市場趨勢”、“發(fā)展?jié)摿Α钡缺粩U展主題詞的語義相似詞,輔助人工擴展得到更多契合客戶需求的相關(guān)文檔,提高情報服務(wù)的準(zhǔn)確性。
這兩種擴展方法是從不同卻又互補的兩個角度去提高人工擴展的效率以及全面性和準(zhǔn)確性。 因此,采用線性加權(quán)的方法融合上述兩種主題擴展方法,實現(xiàn)從文檔共現(xiàn)相似性與語義相似性兩個方面對被擴展主題詞進行擴展,以期得到更全面的推薦結(jié)果。
表1 基于文檔共現(xiàn)、語義相似的主題擴展方法的候選擴展詞示例
線性加權(quán)是指把兩種擴展方法得到的被擴展主題詞w和候選擴展詞的相似度進行線性融合,進而得到w與w′的融合相似度Sim(w,w),然后選取Sim(w,w)較大的候選擴展詞推薦給用戶,Sim(w,w′)的計算方法如式(4)所示: