賀 亮,李 芳
(上海交通大學(xué) 計算機科學(xué)與工程系,上海 200240)
在這個信息爆炸的時代,科學(xué)技術(shù)的發(fā)展也日新月異,對于科技工作者來說,需要快速獲取相關(guān)領(lǐng)域的最新研究動態(tài)。為了了解最新的研究工作,科技工作者會關(guān)注該領(lǐng)域的關(guān)鍵問題,這些問題都用到了什么樣的技術(shù),在眾多的技術(shù)中,哪些是目前的研究熱點,哪些逐漸被人們淡忘。因此,對于科學(xué)技術(shù)趨勢的自動分析研究,旨在幫助科學(xué)工作者從大量的學(xué)術(shù)會議和科技文獻中提取出有用的信息,具有重要地現(xiàn)實意義。
要進行趨勢分析,首先需要從大量的語料集合中提取出潛在的語義信息,亦可稱之為話題。傳統(tǒng)的VSM模型使用關(guān)鍵字來表示話題。但這種表達方式比較局限于對文檔貢獻較大的詞,很多用于表示文檔的詞語,由于存在二義性,對于文檔的語義上的描述,效果往往差強人意。為了克服VSM模型的這些缺點,有學(xué)者提出了語義模型[1-2]。首先是LSI模型[1],可以利用SVD技術(shù)對文本降維;進一步,在LSI模型中引入概率模型,得到pLSI模型[2],該模型是生成模型,它假設(shè)每篇文檔是由多項式隨機變量(話題)混合而成,而文檔中每個詞,由一個話題產(chǎn)生,文檔中不同的詞可有不同的話題生成。但是pLSI模型參數(shù)數(shù)量隨著文集增長而線性增長,并且對于沒有觀測到的文本沒有很好的預(yù)測。Blei[3]提出的LDA模型可以挖掘大規(guī)模語料的語義信息,是機器學(xué)習(xí)、信息檢索等領(lǐng)域很流行的一個模型。LDA模型繼承了pLSI模型的所有優(yōu)點,可以很好的產(chǎn)生話題的分布;同時,LDA模型的參數(shù)數(shù)量也不會隨著文集增長而線性增長,有很好的泛化能力。因此,本文將采用基于LDA模型的方法對科技文獻進行分析研究。
本文的主要貢獻包括兩個方面: 1)利用話題模型即LDA模型對語料建模,挖掘出該領(lǐng)域中的研究熱點及相關(guān)技術(shù),提出一個針對話題的熱門程度和影響力衡量標準;2)基于話題的強度,研究這些子領(lǐng)域以及技術(shù)在整個時間段上的趨勢變化。
本文的組織結(jié)構(gòu)如下: 第二章介紹相關(guān)的工作,在第三章給出了我們的研究方法,第四章是實驗結(jié)果和分析,第五章為結(jié)論及展望。
目前對于科技文獻的研究,主要利用了科技文獻的作者、文本信息、引用信息和時間信息,去進行話題的發(fā)現(xiàn)和趨勢的分析工作。
首先是發(fā)現(xiàn)話題(topic),即是挖掘文獻中的隱含的語義信息。目前主要有兩類方法可以發(fā)掘話題,第一類利用話題模型進行話題發(fā)現(xiàn),這里話題的定義是一組詞的概率分布。根據(jù)文集的文本信息可以利用LDA以及其拓展模型(CTM、DTM等)進行建模[4-5],發(fā)現(xiàn)話題;如果結(jié)合作者信息,有作者話題模型(ATM)以及其拓展模型(ACT、TATM等)[6-8],通過對該模型的推導(dǎo)可以得到每個作者在話題空間上的分布,通過分析該分布就可以了解在某一特定領(lǐng)域(話題)都有哪些專家,以及這些專家關(guān)注的研究領(lǐng)域(話題)是什么;結(jié)合文獻引用信息,既考慮到了文獻間引用關(guān)系對生成過程中的影響,又繼承話題模型(ITM)[9]。第二類方法則通過構(gòu)造網(wǎng)絡(luò)圖,利用文獻的文本信息以及文獻間的引用信息進行話題發(fā)現(xiàn)。有學(xué)者使用詞組(term)來表示話題,然后利用詞組(term)在文集中的分布關(guān)系并結(jié)合文集之間的引用關(guān)系發(fā)現(xiàn)話題[10]。
從文集中發(fā)掘出話題信息后,就可以在話題空間上進一步分析這些話題的特點。有學(xué)者利用LDA對文集建模得到的話題空間,再加入文獻之間引用的信息,去研究話題的特性。這些特性有話題的影響因子,用于衡量話題對文檔的影響;有話題的影響多樣性,衡量話題的影響范圍;有話題的年齡,衡量話題的新舊程度;還有話題的轉(zhuǎn)移度,衡量話題之間相互的影響[11]。
更進一步,加入時間的信息,進行話題的趨勢分析。有學(xué)者利用話題的后驗概率去定義話題的強度,通過計算每個時間點上的強度得到其強度的趨勢變化[12-13],對這些話題的趨勢變化進行分析,以獲得科技發(fā)展的一些特點,例如,一些技術(shù)的應(yīng)用走向,是偏向理論性的研究還是偏向于實際應(yīng)用等等[13]。斯坦福大學(xué)的一個開源話題建模工具*http://www-nlp.stanford.edu/software/tmt/tmt-0.2/(tmt)也是基于這種方法進行分析,通過簡單地統(tǒng)計不同時間段詞頻能得到話題內(nèi)容隨時間的變化。有學(xué)者使用分時間段進行話題建模,考慮各個時間段話題之間關(guān)聯(lián)的方法,可以從內(nèi)容上去分析話題的變化趨勢[5,9,14]。有學(xué)者在作者話題模型的基礎(chǔ)上,加入時間信息,利用話題與作者間對應(yīng)關(guān)系,從而可以分析這些作者的研究興趣如何隨時間推移而變化[8]。為了提出一種方法能夠針對任何文集, 例如,新聞報道[14],數(shù)字文獻等, 我們只考慮文獻的時間和文本信息,忽略作者和引用信息。采用LDA話題模型,找到潛在話題, 借鑒文獻[11-15]對話題的強度和影響力這兩個特性進行研究,提出了不同的計算公式,通過這兩個特性的分析可以找到熱點話題和有影響力的話題,然后根據(jù)話題的強度再對它們進行趨勢分析。
首先對文本集合應(yīng)用LDA建模,抽取文章的話題,然后,定量分析話題的強度和影響力,提供一套可靠有效的評價標準,最后對熱點話題和有影響力話題進行趨勢分析。話題強度主要描述了話題的受關(guān)注度,例如,討論某話題的文章數(shù)越多,就說明該話題的強度越高,可以認為是熱門話題。話題的影響力則是指當(dāng)前話題對其他話題的影響力,如果一個話題對多個話題都有一定程度的影響,該話題可以認為是具有影響力的話題。
首先,表1列出了本文使用的符號。
LDA模型是一個生成概率模型,是三層的變參數(shù)層次貝葉斯模型,首先假設(shè)詞由話題的概率分布混合產(chǎn)生, 而每個話題是在詞匯表上的一個多項式分布;其次假設(shè)文檔是潛在話題的概率分布的混合;最后針對每個文檔從Dirichlet分布中抽樣產(chǎn)生該文檔包含的話題比例,結(jié)合話題和詞的概率分布生成該文檔中的每一個詞匯。該模型描述文檔的生成過程,有以下步驟:
表1 文中使用到的符號
1) 對于每個文檔d,根據(jù)θd~Dir(α),得到多項式分布參數(shù)θd;
2) 對于每個話題topicz,根據(jù)φz~Dir(β),得到多項式分布參數(shù)φz;
3) 對文檔d中的第i個詞wi:
a) 根據(jù)多項式分布z~Mult(θd),得到話題z;
b) 根據(jù)多項式分布wi~Mult(φz),得到詞wi。
在一段時期內(nèi),如果文集中大多數(shù)文檔都是關(guān)于某一個話題的,那么該話題是熱門的。談及該話題的文檔數(shù)越多,就說明話題越熱門。一般地,話題的熱門程度通常使用話題強度進行量化。話題強度描述了一個話題的受關(guān)注程度,本文使用文檔支持率作為話題強度的表示,具體定義為: 根據(jù)LDA話題抽取的結(jié)果,我們知道一個文檔上話題的分布并不均勻,也就是說文檔對于每個話題的貢獻度不同。也就是說,針對一個話題,有的文檔屬于重要文檔,有的文檔對于該話題并不是很重要。綜上,我們定義話題的支持文檔如下: 假設(shè)某一文檔d中有至少10%的詞是由話題z生成的,那么該文檔是話題z的支持文檔。 根據(jù)該定義,一篇文檔可以支持多個話題。
話題z在時間間隔t的文檔支持率計算公式如下:
(1)
話題的影響力使用其影響的多樣性(Impact Diversity)來衡量。我們基于這樣的假設(shè),一個話題在產(chǎn)生之后,可能會對之后的時間段的話題有影響,這種影響將通過文檔之間的關(guān)聯(lián)來體現(xiàn),如果前一時間段t話題z的支持文檔d與后一時間段t′話題z′的支持文檔d′是關(guān)聯(lián)的,那么可以認為話題z對話題z′有一定的影響作用。
計算影響力時需要統(tǒng)計屬于不同話題的文章之間的關(guān)聯(lián)數(shù)量。每篇文章可表示為在話題空間上的分布θ(n1,n2,…,nk),nk表示話題k出現(xiàn)在該文檔中的概率,通過計算話題空間上分布的JS距離(Jensen-Shannon divergence)來判斷文章之間是否關(guān)聯(lián)。假設(shè)時間段t話題z的支持文檔d與后一時間段t′話題z′的支持文檔d′,在話題空間中的分布分別為θd和θd′,則它們的JS距離計算公式如下:
(2)
話題之間的影響作用可以使用這些話題的支持文檔關(guān)聯(lián)數(shù)量來計量,我們定義話題z對話題z′的影響程度為話題z對z′的影響作用占所有話題對z′影響作用的比例,提出一個計算話題影響程度的公式如下:
(3)
其中,分子表示話題z的支持文檔與后續(xù)所有時間段的話題z′的支持文檔關(guān)聯(lián)數(shù)量,分母表示話題z的支持文檔與后續(xù)所有時間段的文檔關(guān)聯(lián)數(shù)量。為了計量一個話題對其他所有話題的影響程度,我們定義話題z的影響力為話題z對所有話題的影響程度的熵,計算公式如下:
(4)
通過該公式計算出一個話題的影響力越大,說明它的影響范圍越廣;反之它的影響范圍較狹隘。
實驗主要包括三個方面,一是熱門話題的實驗,采用文獻[14]提出的系統(tǒng)作為對比;二是研究話題的影響力,采用文獻[7]提出的方法作為對比;三是研究它們隨時間變化的趨勢,采用斯坦福大學(xué)的TMT分析工具作為對比。
ACL論文集(ACL Anthology)*http://www.aclweb.org/anthology/作為實驗的數(shù)據(jù)集,它包括1985年至2009年的ACL、COLING、EACL、EMNLP等眾多會議,總共11 072篇文章。以上語料只取標題和摘要, 并過濾停用詞、 低頻詞等。本實驗利用Gibbs Sampling方法進行參數(shù)的推理。實驗使用了開源的Gibbs Sampling工具*http://gibbslda.sourceforge.net/,模型參數(shù)α,β分別設(shè)置為 50/K和0.01,話題個數(shù)K設(shè)為100。
通過式(1)計算話題每年的強度,比較話題的強度,可以發(fā)現(xiàn)每年的熱門話題。表2展示了2006年至2009年每年最熱門的五個話題,話題名稱均為人工標簽。
從表2可以看到,基于統(tǒng)計的機器翻譯(Stat. MT)是近幾年來最熱門的話題。眾所周知,自從統(tǒng)計技術(shù)在機器翻譯領(lǐng)域取得成效后,人們對其的研究熱情一直未減。統(tǒng)計技術(shù)也同樣應(yīng)用于計算語言學(xué)的其他方面,如依存關(guān)系句法分析(Dependency Parsing),熱門程度僅次于基于統(tǒng)計的機器翻譯。值得一提的還有情感分析(Sentiment)在近年的研究熱度迅速提升。
表2 2006年至2009年熱門話題
為了對以上結(jié)果進行驗證,我們選擇使用文獻[16]提出的一種基于句法分析(Parsing)和語義元組提取(Semantic Tuple Extraction)方法專門針對ACL論文集進行分析的Searchbench系統(tǒng)。將我們得到的話題在該系統(tǒng)中查詢, 得到每年的文章數(shù)量,除以當(dāng)年文章總量得到話題權(quán)重,比較話題權(quán)重可以得到每年的熱門話題,與我們的結(jié)果進行對比。表3展示了ACL-Searchbench系統(tǒng)得到的結(jié)果。
表3 2006年至2009年熱門話題(ACL-Searchbench)
通過與Searchbench系統(tǒng)得到的結(jié)果對比,可以看到找到的熱門話題大體上是一致的,只存在少量的話題或者是位置排名的差異,這說明了我們的方法是有效的。
文獻[7]提出一種話題影響力的計算方法,它利用文檔之間引用關(guān)系計算話題間影響概率,再計算這些影響概率的熵值,作為話題影響力。該方法作為Baseline與我們的方法進行對比。
首先使用式(2)計算文檔之間的關(guān)聯(lián)度,閾值定為0.07,然后,利用式(3)式(4)計算話題的影響力。表4分別列出了影響力前五和后五的話題。
表4 話題影響力得分情況
結(jié)果顯示了影響力高的話題都是一些使用比較廣泛的技術(shù),例如,核方法(Kernel Method)、支持向量機(SVM)等在數(shù)據(jù)挖掘、機器學(xué)習(xí)領(lǐng)域很流行的分類技術(shù),它們在計算語言學(xué)領(lǐng)域也發(fā)揮著很大的作用。而影響力較小的話題都是一些偏應(yīng)用方面的領(lǐng)域,比如說機器翻譯、詞義消歧(WSD)以及分詞(Word Segmentation)等,這些領(lǐng)域的特點是比較專一,影響面比較窄。
實驗結(jié)果與Baseline-Impact方法的結(jié)果大體一致,雖然我們的方法計算量比Baseline-Impact大,但是不需要額外的文檔之間相互引用的信息,可以應(yīng)用于任何文檔集合。
本小節(jié)的實驗是利用話題逐年的強度變化來分析話題的變化趨勢,這些話題包括熱門話題,冷門話題,影響力大的以及影響力小的話題,以此了解計算語言學(xué)領(lǐng)域近20多年發(fā)展情況。我們使用斯坦福大學(xué)提供的一個開源話題建模工具(TMT)作為baseline方法對ACL文集進行建模分析,與我們的方法得到的實驗結(jié)果進行對比以及驗證。
首先來看最近幾年的熱門話題的強度變化趨勢。從圖1可以看出基于統(tǒng)計方法的機器翻譯技術(shù)作為最熱門的話題從1999年開始,進入了一個飛躍上升的階段。出現(xiàn)這個變化的原因,就是在1999年出現(xiàn)了一個機器翻譯的熱潮,其最主要的特征是基于統(tǒng)計的方法在這一領(lǐng)域開始占據(jù)主導(dǎo)地位,機器翻譯的質(zhì)量出現(xiàn)了一個跨越式的提高。這股熱潮持續(xù)至今,仍未現(xiàn)衰減之勢。同時,基于統(tǒng)計的句法分析的強度也隨著這股熱潮不斷提升。而情感分析在2000年前一直都是比較冷門的話題,但現(xiàn)今研究者對它的青睞不斷增加。
圖1 熱門話題強度變化趨勢
圖2 熱門話題強度變化趨勢(baseline-TMT)
根據(jù)實驗結(jié)果,圖3列出了一些冷門技術(shù)的變化趨勢,包括語言識別(Speech Recognition)和聯(lián)并方法(Unification)。
圖3 冷門話題強度變化趨勢
圖4 冷門話題強度變化趨勢(baseline-TMT)
聯(lián)并方法是20世紀80年代末90年代初的研究熱點,其后漸漸地淡出了研究者的視線。而語音識別技術(shù)的變化趨勢比較奇特,它在1989年至1994年有一個爆發(fā)式的高峰。究其緣由,是因為這幾年舉辦的DARPA語音及自然語言研討會(DARPA Speech and Natural Language Workshop),這些研討會產(chǎn)生了大量這方面技術(shù)的研究論文,而之后該技術(shù)的研究就進入低谷。
通過對熱門話題和冷門話題的趨勢分析,可以看到統(tǒng)計技術(shù)的興起對這些熱門話題的強度上升起了很大的推動作用;另一方面,冷門話題的下降趨勢也有不同的表現(xiàn)形式,有的是緩慢下降,有的是急速下降。
接下來看影響力比較高的話題變化趨勢情況,見圖5。
圖5 影響力高的話題強度變化趨勢
這幾個話題都是一些流行的技術(shù),首先是概率模型(Probabilistic Model),它在計算語言學(xué)的領(lǐng)域一直都是比較主流的技術(shù),它的強度變動在2000年前呈波動形式,之后呈上升趨勢。而支持向量機和核方法在20世紀90年代末開始興起,此后也越來越受到研究者重視,保持著上升的形式,成為了計算語言學(xué)領(lǐng)域中比較重要的分析方法。
而影響力較低的話題比較偏應(yīng)用,趨勢變化沒有固定的特點,從圖7可以看到,有的呈現(xiàn)上升趨勢,例如,基于統(tǒng)計的機器翻譯;有的呈現(xiàn)下降趨勢,例如,語音識別。
圖7 影響力低的話題強度變化趨勢
圖8 影響力低的話題強度變化趨勢(baseline-TMT)
通過對影響力大的和影響力小的話題進行趨勢分析,可以發(fā)現(xiàn)它們的強度變化趨勢與影響力大小是無關(guān)的,這也說明了話題強度和話題影響力這兩個指標是相互獨立的兩個標準,可以從不同方面去描述話題的特性。
通過與baseline-TMT方法得到結(jié)果進行對比,我們發(fā)現(xiàn)這些話題的趨勢跟我們的方法得到的趨勢大體一致,且在變化方向上是一樣的。這也驗證了我們方法的正確性和有效性。而在某些話題例如情感分析話題(sentiment),我們的方法得到它在2000年前的大部分年份強度都為零,說明當(dāng)時還沒產(chǎn)生這個話題,與實際情況相符。這也說明了我們的方法更為精確。
本文利用話題模型對科技文獻進行建模分析。首先使用LDA話題建模,發(fā)現(xiàn)文集中隱含的話題。接著,使用兩個指標——話題強度和話題影響力去研究話題的特性。同時,對這些研究領(lǐng)域或技術(shù)受關(guān)注程度隨時間變化的趨勢進行分析,發(fā)現(xiàn)它們的變化特點。
通過分析實驗結(jié)果,可以發(fā)現(xiàn)利用話題模型能夠從大量文獻中發(fā)掘出有意義的信息。實驗結(jié)果與實際情況相符合,說明我們的方法對科技文獻的分析是行之有效的。以下是對ACL論文集分析研究得到的一些結(jié)論: 1)最近比較熱門的研究領(lǐng)域包括機器翻譯、句法分析以及情感分析等;2)理論型的技術(shù)(例如,核方法、概率模型)往往有較大的影響范圍,可能會應(yīng)用到多個子領(lǐng)域,而應(yīng)用型的研究領(lǐng)域(例如,機器翻譯)的影響范圍比較窄;3)通過趨勢分析,可以了解計算語言學(xué)近二十多年來的發(fā)展情況,包括統(tǒng)計技術(shù)的流行大大促進了機器翻譯和句法分析的研究,語音識別技術(shù)的研究熱潮興起與回落,聯(lián)并語法研究的逐步衰落等。
今后的工作將考慮如何進一步挖掘話題的特點,更好地探索話題之間的關(guān)聯(lián)。另外,從更多的角度去分析話題的變化趨勢,例如,從內(nèi)容上分析話題在各個時間段的特點。
[1] S.Deerwester, S.Dumais, T.Landauer, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society of Information Science, 1990, 41(6):391-407.
[2] T.Hofmann. Probabilistic Latent Semantic Indexing[C]//Proceedings of the Twenty-Second Annual International SIGIR Conference, 1999.
[3] D.M.Blei,A.Y.Ng, M.I.Jordan. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.
[4] D.M.Blei,J.D.Lafferty. A Correlated Topic Model of Science[J]. The Annals of Applied Statistics 2007,1(1):17-35.
[5] D.M.Blei, J.D.Lafferty. Dynamic Topic Model[C]//Proceedings of International conference on Machine Learning,2006,113-120.
[6] M. Rosen-Zvi,T. Griffths,M. Steyvers,et al. The Author-Topic Model for Authors and Documents[C]//Proceedings of the 20th Conference on Uncertainty in Artifcial Intelligence,2004.
[7] Jie Tang,Jing Zhang,Limin Yao,et al. ArnetMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).2008: 990-998.
[8] A.Daud,Juanzi Li,Lizhu Zhou et al. Exploiting Temporal Authors Interests via Temporal-Author-Topic Modeling[C]//Proceedings of ADMA,2009,LNAI 5687: 435-443.
[9] Q.He,B.Chen,J.Pei,et al. Detecting Topic Evolution in Scientific Literature: How Can Citations Help[C]//Proceeding of CIKM,2009: 957-966.
[10] Y.Jo,C.Lagoze,C. L.Giles. Detecting Research Topics via the Correlation between Graphs and Texts[C]//Proceedings of KDD,2007: 370-379.
[11] G.S.Mann,D.Mimno, A.McCallum. Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries,2006.
[12] T.L.Griffiths, M.Steyvers. Finding Scientific Topics[C]//Proceeding of the National Academy of Science,2004: 5228-5235.
[13] D.Hall,D.Jurafsky, C.D.Manning. Studying the History of Ideas Using Topic Models [C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing,2008: 363-371.
[14] 楚克明,李芳. 基于LDA話題關(guān)聯(lián)的話題演化[J]. 上海交通大學(xué)學(xué)報,2010,44(11): 1501-1506.
[15] 單斌,李芳. 基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報,2010,24(6):43-49.
[16] Ulrich Sch¨afer Bernd Kiefer Christian Spurk J¨org Steffen Rui Wang. The ACL Anthology Searchbench[C]//Proceedings of the ACL-HLT 2011 System Demonstrations: 7-13.