章 建,李 芳
(上海交通大學(xué) 計算機科學(xué)與工程系,上海 200240)
?
基于上下文的話題演化和話題關(guān)系抽取研究
章 建,李 芳
(上海交通大學(xué) 計算機科學(xué)與工程系,上海 200240)
自動挖掘大規(guī)模語料中的語義信息以及演化關(guān)系近年來已受到廣大專家學(xué)者的關(guān)注。話題被認為是文檔集合中的潛在語義信息,話題演化用于研究話題內(nèi)容隨時間的變化。該文提出了一種基于上下文的話題演化和話題關(guān)系抽取方法。分析發(fā)現(xiàn),一個話題常和某些其他話題共現(xiàn)在多篇文檔中,話題間的這種共現(xiàn)信息被稱為話題的上下文。上下文信息可以用于計算同時間段話題間的語義關(guān)系以及識別不同時間段中具有相同語義的話題。該文對2008年~2012年兩會報告以及2007年~2011年NIPS科技文獻進行實驗,通過人工分析,利用話題的上下文信息,不但可以提高話題演化的正確率,而且還能挖掘話題之間的語義關(guān)系,在話題演化的基礎(chǔ)上,顯示話題關(guān)系的演化。
話題;話題上下文;話題演化;話題關(guān)系
當今社會,信息即是財富,如何高效獲取信息以及信息動態(tài)的變化趨勢,是一個值得關(guān)注的問題。信息變化趨勢可以反映科技領(lǐng)域的發(fā)展、新聞事件的變化以及其他任何人們關(guān)注的焦點問題的發(fā)展。話題[1-3]被認為是普遍關(guān)注的信息焦點,例如,“醫(yī)療改革”、“行政體制改革”等出現(xiàn)在“全國兩會”新聞?wù)Z料的典型話題。然而話題在不同時間段內(nèi)可以具有不同的內(nèi)容,例如,“住房”話題,2011年主要體現(xiàn)“房價上漲和土地供應(yīng)”,2012年則轉(zhuǎn)變?yōu)椤氨U闲宰》亢头績r調(diào)控”。因此,話題本身會隨著時間發(fā)生變化,研究話題隨時間的變化具有很重要的現(xiàn)實意義和實際應(yīng)用背景。如何對話題內(nèi)容的變化進行描述和分析,是本文話題演化研究的目的。
另一方面,話題之間也存在某種關(guān)系,如在2011年兩會報告中,“財政預(yù)算”和“三公支出”會在多篇文檔中同時被討論,“司法”和“違法犯罪”也是如此。話題間的這種關(guān)系,可以通過它們在文檔中共現(xiàn)信息表現(xiàn)出來。共現(xiàn)越頻繁的話題,其語義關(guān)系也就越強。本文將某話題與其他話題的共現(xiàn)信息,稱為該話題的上下文。利用話題的上下文,可以挖掘出同時間段中不同話題間的語義關(guān)系,讓讀者了解到不同信息之間是如何關(guān)聯(lián)的。同時,話題的上下文還可以改進話題演化的結(jié)果。
話題內(nèi)容不但隨著時間變化,而且話題之間的關(guān)系也隨著時間變化,如2010年兩會中“教育”與“學(xué)術(shù)行政化”“大學(xué)生就業(yè)”“青少年心理健康”等關(guān)系較強,而2011年“教育”則與“人才培養(yǎng)”“高考”“財政預(yù)算”等關(guān)系較強。話題間的關(guān)系隨時間的變化,能夠讓讀者從更廣泛的視角掌握信息的動態(tài)趨勢。如何挖掘話題關(guān)系隨時間的變化,是本文話題關(guān)系演化研究需要解決的問題。
本文的組織結(jié)構(gòu)如下: 第一部分主要介紹相關(guān)工作;第二部分是研究方法的描述;第三部分是試驗結(jié)果和分析;第四部分是結(jié)論和展望。
基于話題模型的話題演化研究已得到了廣泛的應(yīng)用[4]。對多個時間段的文檔集合進行話題演化分析時,主要包括兩個步驟,即從每個時間段的文檔集合中抽取出話題信息以及將各個時間段具有相同語義的話題進行關(guān)聯(lián)。
話題的抽取,即從文檔集合中挖掘潛在的語義信息,常用的方法是采用話題模型。目前,已有多種形式的概率話題模型[1],如PLSI模型[2],LDA模型[3]等,它們在建模過程中引入了潛在的隨機變量—話題。近年來,考慮到文檔集合自身的特點,很多研究工作對LDA模型進行擴展,以便模型更好地描述文檔的生成過程,如ATM模型[5]引入文檔的作者信息,DTM模型[6]引入文檔的時間戳信息,STMS模型[7]同時引入文檔的作者和時間信息,JST模型[8]引入情感標簽,文獻[9]中的模型引入文檔間的引用信息等。
話題的關(guān)聯(lián),即將不同時間段中具有相同語義的話題對應(yīng)起來。實現(xiàn)話題間的對應(yīng)關(guān)系,一般可以采用兩種方法,一是在話題建模時直接考慮話題間的對應(yīng)關(guān)系(即前一時間段的話題影響后一時間段的話題),從而在話題抽取的同時也將話題間的對應(yīng)關(guān)系挖掘出來,如DTM模型[6],CTDTM模型[10],文獻[11];二是利用關(guān)聯(lián)函數(shù)計算不同時間段中話題間的關(guān)聯(lián)度,當兩個話題的關(guān)聯(lián)度滿足相關(guān)閾值時,認為這兩個話題具有相同語義,如文獻[12-13]。方法一的缺點是,各個時間段的話題數(shù)量必須相同且話題間只具有一一對應(yīng)的關(guān)系,其優(yōu)點是可以在話題建模的過程中直接挖掘出話題間的對應(yīng)關(guān)系;方法二的缺點是,關(guān)聯(lián)函數(shù)的選擇以及閾值的確定較為復(fù)雜,優(yōu)點是各時間段的話題數(shù)量可以根據(jù)文檔集合的大小進行調(diào)整,話題間允許一對多、多對一以及多對多的復(fù)雜關(guān)聯(lián)關(guān)系。
除了通過話題模型來抽取話題外,還可以采用其它方式,如文獻[14]通過文檔的新穎性和重要度來判斷是否有新話題的產(chǎn)生。而對于話題的關(guān)聯(lián),文獻[14]則基于話題成員文檔集合間的交叉引用數(shù)量來判斷兩個話題是否關(guān)聯(lián)。
上述方法都認為同時間段的話題是互相獨立,不存在任何關(guān)系。然而,現(xiàn)實世界話題之間是存在關(guān)系的,某個話題與其它話題在文檔集合中存在共現(xiàn),該共現(xiàn)信息可以作為話題的上下文。在詞義消歧方法中,上下文信息可以識別該詞匯的語義信息,解決詞匯的一詞多義問題;命名實體的指代消歧研究中,上下文信息可以用來識別同一命名實體[15-16],解決命名實體的指代,信息合并等問題。借鑒上述研究領(lǐng)域的思想,在已有工作基礎(chǔ)上[13],本文提出了話題的上下文信息,既可以加強和識別話題本身的語義,有助于話題演化研究,同時,又能揭示同時間段中話題之間的語義關(guān)系。
話題的上下文信息刻畫了話題出現(xiàn)的語義環(huán)境。如果兩個不同時間段中的話題具有相同語義,那么它們的上下文也應(yīng)具有一定的相似性;相反,如果兩個話題的上下文差異明顯,那么它們具有相同語義的可能性較小。另一方面共現(xiàn)越頻繁的話題,其語義關(guān)系越強。因此,本文提出的話題關(guān)聯(lián)方法不僅僅考慮兩個話題本身的內(nèi)容,而且還依據(jù)上下文信息。有些話題在內(nèi)容上較為接近(即在詞匯分布上很相似),但實際上并不具有相同的語義,如表1所示的兩個話題。
表1 內(nèi)容相近的兩個話題
2010年話題16涉及“三公支出”,而2011年話題6涉及“官員腐敗”,這兩個話題本身并不具有相同的語義。但由于這兩個話題使用的詞語較為接近,如官員、干部、行政等,僅僅通過計算這兩個話題內(nèi)容(即在詞匯上的分布)的距離,容易將這兩個話題識別為同義性話題。分析發(fā)現(xiàn),話題16的上下文有關(guān)財政預(yù)算,而話題6的上下文是違法犯罪等法律相關(guān)的。因此考慮話題的上下文信息,可以有助于判斷這兩個話題不具有相同語義。表2和表3分別列出話題16和話題6的上下文信息。
表2 2010年話題16的上下文
表3 2011年話題6的上下文
下面列出本文主要使用的符號(見表4),概念定義以及方法介紹。
表4 本文主要使用的符號
2.1概念定義
同義性話題: 不同時間段中具有相同語義的話題。如兩會報告中2011年的“住房”話題與2011年的“住房”話題,雖然它們側(cè)重的內(nèi)容有所不同,但它們本質(zhì)上都是住房相關(guān)的,因此它們具有相同的語義。
2.2 話題建模
LDA模型是一個生成概率模型,同時也是三層的變參數(shù)貝葉斯模型[17]。首先假設(shè)詞由話題的概率分布混合產(chǎn)生,而每個話題是在詞匯表上的一個多項式分布;其次,假設(shè)文檔是潛在話題的概率分布的混合;最后,針對每篇文檔從Dirichlet分布[18]中抽樣產(chǎn)生該文檔中的話題比例,結(jié)合話題和詞的概率分布生成該文檔中的每一個詞匯。在進行LDA建模時,可以根據(jù)文獻[19]提出的方法確定話題的個數(shù)以及利用GibbsSampling算法[20]對LDA模型的參數(shù)進行推導(dǎo),從而得到每個話題的內(nèi)容。
首先按照時間劃分,然后對不同時間段的文檔集合進行LDA建模。在對不同時間段的文集建模時,話題數(shù)量可以設(shè)置為相同,也可以不同。進行LDA建模后,可以直接得到各個話題的內(nèi)容,即話題在詞匯上的多項式分布,即話題的φ。
2.3 話題上下文抽取
在話題模型中,每篇文檔表示為話題的混合分布,其中那些權(quán)重高的話題稱為文檔的顯著性話題。如果兩個話題同出現(xiàn)在某篇文檔的顯著性話題中,則稱這兩個話題存在一次共現(xiàn)。共現(xiàn)次數(shù)越多的話題,可以認為它們的語義關(guān)系越強。對于某個話題來說,它與同時間段中其他話題的共現(xiàn)信息,稱為它的上下文。抽取話題上下文由以下三個步驟完成。
(a) 計算文檔的顯著性話題
對于每一篇文檔,將話題的權(quán)重按降序排列,然后取出權(quán)重最大的3個話題作為文檔的顯著性話題。根據(jù)實驗結(jié)果,權(quán)重最大的3個話題通常比其他話題的權(quán)重明顯大,這符合常理。
(b) 計算任意兩個話題間的共現(xiàn)次數(shù)
對于任意兩個話題ti和tj,它們的共現(xiàn)次數(shù)可以表示為公式(1)。
(1)
而δ函數(shù)可以表示為
(c) 計算各個話題的上下文
對于任意話題tk,其上下文可以形式化地表示為(其中m為tk上下文中話題的個數(shù))
(2)
2.4 話題演化
話題演化需要判斷兩個不同時間段的話題是否具有相同的語義,即同義性話題。對于兩個不同時間段的話題ti和tj,其距離計算公式如式(3)所示。
(3)
(4)
(5)
2.5 話題關(guān)系的抽取
事實上,同時間段中不同話題間存在一定的語義關(guān)系。借鑒詞匯共現(xiàn)與語義關(guān)系,共現(xiàn)次數(shù)越多的話題,其語義關(guān)系也就越強。對于任意兩個話題ti和tj,其語義關(guān)系強度表示為式(6)
(6)
即關(guān)系強度由wi,j和wj,i的調(diào)和平均值表示,其中wi,j和wj,i的計算可見公式(2)。
根據(jù)公式(6)可以計算出各時間段中話題間的語義關(guān)系強度,而根據(jù)公式(3)則能獲得同義性話題。因此,結(jié)合這兩者,便可以得到同義性話題與其它話題的關(guān)系隨時間的變化,即話題關(guān)系的演化。
本文選取的實驗數(shù)據(jù)為兩會報告(人大會議和政協(xié)會議,2008~2012年)的新聞?wù)Z料以及NIPS科技文獻(2007~2011年)。這是因為兩會報告和NIPS科技文獻中,很多話題會連續(xù)多年被討論且話題內(nèi)容隨時間變化。選取不同領(lǐng)域、不同特點的語料作為實驗對象有利于更全面地對本文提出的話題演化和話題關(guān)系抽取方法進行驗證。
首先對實驗數(shù)據(jù)進行語料預(yù)處理,包括分詞,過濾停用詞,去除低頻詞和高頻詞等,然后再利用LDA模型對各年的兩會文集進行話題建模。表5列出實驗數(shù)據(jù)及話題個數(shù)設(shè)置。實驗包括三部分: 1)驗證話題上下文信息抽取的精度;2)基于話題上下文的演化對比實驗;3)話題關(guān)系的抽取結(jié)果以及分析。
表5 語料信息及話題個數(shù)設(shè)置
3.1 話題上下文抽取實驗
在計算每個話題的上下文之前,需要對建模后的話題進行一定的過濾: 首先通過信息熵過濾那些詞匯權(quán)重分布均勻的話題,這類話題可解釋性較差;其次,過濾高頻話題,這類話題出現(xiàn)在很多文檔中,語義特征不強。表6列出的是從兩會報告和NIPS科技文獻中抽取的上下文實驗結(jié)果。
表6 話題上下文實驗結(jié)果
正確的上下文表明話題上下文中的所有話題與該話題都具有明顯的語義關(guān)系(通過人工分析);部分正確的上下文則表明話題上下文中存在部分話題與該話題有明顯的語義關(guān)系,而另一部分則沒有;錯誤的上下文則表明話題上下文中的話題都與該話題沒有明顯的語義關(guān)系。表7和表8列出的分別是從2011年兩會報告和從2011年NIPS科技文獻中抽取的正確、部分正確以及錯誤上下文的實例。
表7 2011年兩會報告中上下文實例
表8 2011年NIPS科技文獻中上下文實例
實驗結(jié)果表明上下文話題中部分正確的所占比例較大,這主要與顯著性話題選取的閾值有關(guān),有些文檔顯著性話題會少于3個,而選取權(quán)重最大的前3個話題作為顯著性話題則會引入誤差。但總體上話題的上下文能夠反映出話題之間的語義相關(guān)性,例如對于表7中話題9,其上下文中的話題59和話題8的權(quán)重分別為0.863和0.137。因此,根據(jù)實驗結(jié)果,結(jié)合權(quán)重,話題的上下文能夠描述與該話題的語義關(guān)系。
3.2 話題演化實驗
本文在進行話題演化時,計算話題詞匯分布差異的距離函數(shù)DistanceT以及計算話題上下文差異的函數(shù)DistanceM都采用KL距離函數(shù),同時選擇因子β設(shè)為0.7,關(guān)聯(lián)閾值γ設(shè)為2.0(即兩話題的距離小于2.0時,認為具有相同的語義)。
作為本文話題演化對比的方法一(簡稱基準一),在計算兩話題的距離時,僅僅利用兩話題間的詞匯分布差異,不考慮話題上下文,計算兩話題的距離公式為(7)。
(7)
同樣,基準一中DistanceT采用KL距離函數(shù),話題間的關(guān)聯(lián)閾值設(shè)為2.0。
作為本文話題演化對比的方法二,則為DTM話題模型[6],該模型以前一時間段的分布參數(shù)作為后一時間段正態(tài)分布的先驗, 在建模過程中直接挖
掘不同時間段的同義性話題。DTM代碼實現(xiàn)來自網(wǎng)頁信息*http://code.google.com/p/princeton-statistical-learning/downloads/detail?name=dtm_release-0.8.tgz。
表9是基準一方法,DTM方法和本文方法得到的話題演化對比結(jié)果。
表9 話題演化實驗結(jié)果對比
實驗結(jié)果表明,DTM模型得到的演化路徑都是正確的,話題一一對應(yīng),但不能很好地刻畫話題內(nèi)容隨時間的變化(見下文演化實例)。而本文方法比基準一方法不但能找到更多的演化結(jié)果,而且提高了精度。例如,對于2010年的話題8{教育 教師 學(xué)生 綱要 人才 學(xué)校 培養(yǎng) 高考 公平 考試 資源},通過基準一和本文方法計算2011年中的同義性話題,如表10所示。
表10 2011年中與2010年話題8關(guān)聯(lián)的話題
從上面的結(jié)果中可以看到,2011年中的話題15和話題30都涉及到教育,因此它們同2010年的話題8是具有相同語義,建立了演化關(guān)系。同時,增加上下文信息后,距離公式更加精確,例如,話題19、話題15和話題30距離有所減小(基準一方法中,這三者的距離分別為1.636、2.154、2.236)。因此,引入上下文后,使得同義性話題的計算受不同時間段詞匯變化的影響減小,同時受閾值γ的影響變小。
圖1是分別采用本文方法、基準一方法和DTM模型得到與教育相關(guān)的話題演化實例。DTM模型得到的演化路徑{47, 47,47, 47, 47}中各話題是一一對應(yīng),沒有話題分裂和合并;本文方法和基準一方法均獲得演化路徑{17, 20, 8, 19, 38}(學(xué)生教育話題的演化),和演化路徑{17, 22, 39, 58, 44}(學(xué)生就業(yè)話題的演化)。本文方法還能得到演化路徑{17, 20, 8, 30, 47}(與學(xué)生考試相關(guān))和演化路徑{17, 20, 0, 15, 16}(與人才培養(yǎng)相關(guān)),反映話題在更細粒度上的分裂與合并關(guān)系(話題內(nèi)容見表11與表12)。
圖2是分別采用本文方法、基準一方法和DTM模型得到與神經(jīng)元相關(guān)的話題演化實例,表13和表14顯示了各個話題的內(nèi)容。DTM得到一條話題內(nèi)容非常相似的演化路徑,基準一方法同樣得到一條演化路徑,可以反映話題內(nèi)容的演化。本文方法采用上下文,計算出話題37(涉及神經(jīng)元)和話題16具有相同的語義。
圖1 兩會報告演化實例
時間話題話題中概率最大的10個詞語200817學(xué)生學(xué)校教師人才素質(zhì)大學(xué)培養(yǎng)職業(yè)農(nóng)村大學(xué)生200920教育學(xué)生教師農(nóng)村學(xué)校孩子職業(yè)文理經(jīng)費投入200922大學(xué)生畢業(yè)生人才創(chuàng)業(yè)培養(yǎng)大學(xué)教育就業(yè)學(xué)生崗位20108教育教師學(xué)生綱要人才學(xué)校培養(yǎng)高考公平考試201039就業(yè)培訓(xùn)畢業(yè)生大學(xué)生創(chuàng)業(yè)職業(yè)人才企業(yè)崗位鼓勵201115人才培養(yǎng)大學(xué)學(xué)校教育學(xué)生教師專業(yè)進行學(xué)術(shù)201119教育教師農(nóng)村投入經(jīng)費公平資源學(xué)校職業(yè)幼兒園201130教育孩子學(xué)生高考子女招生北京自主學(xué)校學(xué)習家長201158就業(yè)農(nóng)民工大學(xué)生創(chuàng)業(yè)解決畢業(yè)生勞動力城市用工培訓(xùn)201216創(chuàng)新人才科技技術(shù)企業(yè)培養(yǎng)能力科研知識我國科學(xué)201238教育學(xué)生學(xué)校孩子職業(yè)投入校長教師資源培養(yǎng)大學(xué)201244農(nóng)民工就業(yè)養(yǎng)老保險制度企業(yè)人員服務(wù)勞動職工生活201247高考北京戶籍公平子女參加異地政策教育招生城市
表12 圖1中DTM模型各話題的內(nèi)容
表13 圖2中本文方法和基準一方法各話題的內(nèi)容
續(xù)表
圖2 NIPS科技文獻演化實例
時間話題話題中概率最大的10個詞語200715figureneuronsinputratedatanetworkspikenoiseneuronresponse200815figureneuronsinputdataspikeratenetworknoiseneuronresponse200915figurenoisenetworkdataneuronsspikeinputcontrolresponseneural201015figurenoisenetworkneuronsdataneuralspikeinputresponsestimulus201115Figurenetworksignalnoiseneuronsdatainputspikeresponseneural
3.3 話題關(guān)系的抽取與演化實驗
由公式(6)可知,本文話題關(guān)系的抽取依賴于話題上下文計算的結(jié)果。對于某個話題來說,如果它的上下文正確,則形成的話題關(guān)系也正確;如果上下文部分正確,得到的話題關(guān)系也部分正確;如果上下文錯誤,得到的話題關(guān)系也錯誤。為了更直觀地顯示話題關(guān)系的抽取結(jié)果,這里將正確、部分正確和錯誤的話題關(guān)系分別給予數(shù)值1、0.5和0。表15是話題關(guān)系抽取的結(jié)果(等價正確個數(shù)=正確個數(shù)+0.5*部分正確個數(shù)),話題關(guān)系抽取的等價正確率在60% 以上。
表15 話題關(guān)系抽取實驗結(jié)果
圖3所示為2009年兩會報告中與話題20有關(guān)的語義關(guān)系圖,話題間連線上的數(shù)字代表了關(guān)聯(lián)的強度(公式6)。根據(jù)圖3,話題20同話題22、48的語義關(guān)系最強,與話題12 ,45,31語義關(guān)系較弱,各話題內(nèi)容見表16。
圖3 2009年話題20的關(guān)系圖
話題之間的關(guān)系也會隨時間發(fā)生變化。選取圖1中的一條演化路徑{17, 20, 8, 19, 38}(有關(guān)學(xué)生教育),分別計算演化路徑中各話題同其他話題的關(guān)系,結(jié)果見圖4,對應(yīng)話題的內(nèi)容見表17。2008年,教育話題與話題50(民族藝術(shù))關(guān)系相對較強(強度僅為0.14); 2009年,教育話題與話題22(大
表16 圖3中各話題的內(nèi)容
學(xué)生就業(yè))、話題48(學(xué)術(shù)腐敗)關(guān)系較強;2010年,教育話題與話題48(學(xué)術(shù)行政化)、話題39(大學(xué)生就業(yè))關(guān)系強度分別為0.44和0.37,體現(xiàn)了很強的關(guān)系。根據(jù)表17中話題內(nèi)容可知,2011年教育話題與話題15(人才培養(yǎng))關(guān)聯(lián),2012年教育話題和話題47(異地高考)以及話題16(創(chuàng)新人才培養(yǎng))具有比較強的關(guān)聯(lián)。因此,通過演化路徑上話題與其他話題的語義關(guān)系,反映了目前大學(xué)教育眾多相關(guān)話題隨時間的變化,對比話題的一條演化路徑({17, 20, 8, 19, 38}(話題內(nèi)容見表11),可以傳遞更多的內(nèi)容信息。
圖4 兩會報告話題關(guān)系演化實例
時間話題話題中概率最大的10個詞語200850傳統(tǒng)京劇藝術(shù)民族作品作家精神語言演出創(chuàng)作201048行政學(xué)術(shù)行政化級別教授大學(xué)學(xué)校校長權(quán)力認為201039就業(yè)培訓(xùn)畢業(yè)生大學(xué)生創(chuàng)業(yè)職業(yè)人才企業(yè)崗位鼓勵201115人才培養(yǎng)大學(xué)學(xué)校教育學(xué)生教師專業(yè)進行學(xué)術(shù)201130教育孩子學(xué)生高考子女招生北京自主學(xué)校學(xué)習201247高考北京戶籍公平子女參加異地政策教育招生城市201216創(chuàng)新人才科技技術(shù)企業(yè)培養(yǎng)能力科研知識我國
同樣,在NIPS數(shù)據(jù)集上,選取圖2中的演化路徑{16, 7, 13, 4, 17}(有關(guān)神經(jīng)元),分別計算演化路徑中各話題同其他話題的關(guān)系,可以得到神經(jīng)元話題同其他話題的語義關(guān)系隨時間的變化,如圖5所示,話題內(nèi)容見表18。2007年神經(jīng)元話題同話題34(圖像分割)和話題3(腦信號噪聲處理)關(guān)系較強;2008年,神經(jīng)元話題同話題37(神經(jīng)元)和話題11(腦成像)關(guān)系較強;2009年,神經(jīng)元話題同話題31(人類學(xué)習記憶)和話題20(神經(jīng)元模型)關(guān)系較強。這些關(guān)系體現(xiàn)了有關(guān)神經(jīng)元技術(shù)在近幾年的發(fā)展以及它與圖像處理技術(shù),腦信息處理等的關(guān)系。
圖5 NIPS科技文獻話題關(guān)系演化實例
本文提出了一種基于上下文的話題演化和話題關(guān)系抽取的方法。首先利用LDA話題模型對各時間段的文檔集合進行建模,挖掘潛在的語義信息,即話題。然后通過話題在文檔中的共現(xiàn)關(guān)系,找到各個話題的上下文。其次,利用上下文信息改進了不同時間段同義性話題的計算,實現(xiàn)話題演化。最后,利用話題的上下文挖掘不同話題間的語義關(guān)系,同時結(jié)合話題演化的結(jié)果,還能得到話題關(guān)系在時間上的演化。
本文對兩會報告和NIPS科技文獻進行實驗,結(jié)果表明利用上下文信息計算同義性話題,可以獲得比基準一方法更多正確的演化結(jié)果,同時還能識別因詞語使用接近但并非具有相同語義的話題。而與DTM模型相比,采用本文方法進行話題演化,可以得到話題的分裂、合并等復(fù)雜的對應(yīng)關(guān)系,且能夠較好地反映出話題內(nèi)容隨時間的變化。同時,利用上下文信息還能夠挖掘出同時間段中不同話題間的語義關(guān)系,在結(jié)合話題演化的情況下,還可得到話題關(guān)系隨時間的演化。本文的主要貢獻是:
1) 提出了文檔集合話題的上下文概念,并根據(jù)話題在文檔中的共現(xiàn),計算話題的上下文;
2) 利用話題的上下文,正確識別不同時間段同義性話題,從而改進了話題演化的結(jié)果;
3) 提出了話題之間計算其語義關(guān)系強度的公式,挖掘同時間段中話題間的語義關(guān)系。
本文提出方法還存在不足,如文檔顯著性話題個數(shù)的選擇,如何動態(tài)確定某一文檔的顯著性話題個數(shù),在引入話題的上下文信息的同時,刪除其帶來的噪音;另一方面,同義性話題計算方法中閾值的確定,如何更合理地權(quán)衡話題本身的語義信息與話題的上下文信息在話題演化中的重要性,還需大量的實驗結(jié)果進行驗證。LDA話題的標簽如何自動生成以及演化結(jié)果的可視化技術(shù)將有助于本文提出方法的廣泛應(yīng)用。
[1] Steyvers M, Griffiths T. Probabilistic Topic Models. In: T. Landauer, D. S. McNamara, S. Dennis, W. Kintsch(Eds.), handbook of Latent Semantic Analysys[M]. Hillsdale, NJ. Erlbaum. 2007.
[2] Thomas H. Probabilistic Latent Semantic Indexing// Proceedings of the 22ndAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999: 50-57.
[3] David M B, Andrew Y N, Michael I J. Latent Dirichlet Allocation. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] 單斌, 李芳. 基于LDA話題演化研究方法綜述. 中文信息學(xué)報, 2010,24(6):43-49.
[5] Michal R Z, Thomas G, Mark S, et al. The Author Topic Model for Authors and Documents[C]//Proceedings of the 20thConference on Uncertainty in Artificial Intelligence. Banff, Canada,2005.
[6] David M B, John D L. Dynamic Topic Models[C]//Proceedings of the 23rdInternational Conference on Machine Learning, Pittsburgh, Pennsylvania, 2006: 113-120.
[7] Ali D, Li Juanzi, Zhou Lizhu, et al. A Generalized Topic Modeling Approach for Maven Search. APWeb/WAIM 2009, LNCS 5446, 2009: 138-149.
[8] Chenghua Lin, Yulan He. Joint Sentiment/Topic Model for Sentiment Analysis[C]//Proceedings of the CIKM’09, Hong Kong, China, 2009.
[9] R. Nallapati, A Ahmed, E P Xing. Joint Latent Topic Models for Text and Citations[C]//Proceedings of the 14thACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, Nevada, USA, 2008: 542-550.
[10] Chong Wang, David M, David H. Continuous Time Dynamic Topic Models[C]//Proceedings of the 23rdConference on Uncertainty in Artificial Intelligence, 2008.
[11] Andre G, Alexander H. Topic evolution in a stream of documents[C]//Proceedings of the Ninth SIAM International Conference on Data Mining, 2009: 859-870.
[12] Mei Qiaozhu, Zhai Chengxiang. Discovering Evolutionary Theme Patterns from Text—An Exploration of Temporal Text Mining[C]//Proceedings of the KDD’05, Chicago, Illinois, USA,2005.
[13] 楚克明, 李芳. 基于LDA話題關(guān)聯(lián)的話題演化.交大學(xué)報,2010:11:1496-1500.
[14] Jo Y Y, John E H, Carl L. The Web of Topics: Discovering the Topology of Evolution in a Corpus[C]//Proceedings of the WWW 2011, Hyderabad, India 2011.
[15] Xianpei Han, Le Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge Base[C]//Proceedings of the ACL 2011. 2011: 945-954.
[16] Xianpei Han, Jun Zhao. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association of Computational Linguistics, 2010: 50-59.
[17] Blei D, Jordan M, Ng A. Hierarchical Bayesian Models for Applications in Information Retrieval. In Bayesian Statistics, 2003,7: 25-44.
[18] Antoniak C. Mixtures of Dirichlet Processes with Applications to Bayesian Nonparametric Problems. Annals of Statistics, 1974,2(6): 1152-1174.
[19] Thomas L. G., Mark S. Finding Scientific Topics[C]//Proceedings of the National Academic of Science of United States of America, 2004.
[20] Ian P, David N, Alexander I. Fast Collapsed Gibbs Sampling For Latent Dirichlet Allocation. KDD’08, Las Vegas, Nevada, USA 2008.
Context-based Topic Evolution and Topic Relations Extraction
ZHANG Jian, LI Fang
(Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
Automatic extraction of semantic information and its evolution from large-scale corpus has appealed to many experts and scholars in recent years. Topics are regarded as the latent semantic meanings underlying the document collectionand the topic evolution describes the contents of topics changing over time. This paper proposes a novel extraction method for the topics evolution and the topic relations based on the topic context. Since a topic often co-occurs with other topics in the same document, the co-occurrence information is defined as the context of a topic. Topics with its context are used not only to calculate the semantic relations among topics in the same period, but also to identify the same topics across different time periods. The experiments on NPC&CPPCC news reports from 2008 to 2012 and NIPS scientific literature from 2007 to 2011 have shown that the method has not only improved the results of topic evolution but also mined semantic relations among topics.
topic; topic context; topic evolution; topic relations evolution
章建(1987—),碩士,主要研究領(lǐng)域為話題探測與話題演化。E?mail:iamorchid@hotmail.com李芳(1963—),博士,副教授,主要研究領(lǐng)域為自然語言處理,信息檢索與抽取。E?mail:fli@sjtu.edu.cn
1003-0077(2015)02-0179-11
2013-03-18 定稿日期: 2014-04-21
國家自然科學(xué)基金(60873134)
TP391
A