王蘭成,婁國(guó)哲,嚴(yán)駿,張思龍
(南京政治學(xué)院上海校區(qū)軍事信息管理系,上海 200433)
基于網(wǎng)上特定話題的多側(cè)面跟蹤技術(shù)及應(yīng)用研究*
王蘭成,婁國(guó)哲,嚴(yán)駿,張思龍
(南京政治學(xué)院上海校區(qū)軍事信息管理系,上海 200433)
擴(kuò)展對(duì)新媒體信息資源的獲取和研究是數(shù)字圖書館系統(tǒng)進(jìn)一步提升服務(wù)方式和質(zhì)量的重要課題,而話題跟蹤是其中一項(xiàng)關(guān)鍵技術(shù)。針對(duì)專門話題跟蹤過程中的話題漂移及跟蹤結(jié)果的雜亂無序問題,提出網(wǎng)絡(luò)文本的客觀中心和主觀中心概念,給出話題主觀中心的表示和更新方法,建立多中心模型按話題內(nèi)容進(jìn)行組織分析;提出先分類后聚類,依據(jù)客觀中心跟蹤話題和主觀中心組織話題的方法對(duì)策,對(duì)傳統(tǒng)KNN算法進(jìn)行改進(jìn),把基于時(shí)間、地點(diǎn)、機(jī)構(gòu)和關(guān)鍵詞要素的KNN話題跟蹤算法和基于內(nèi)容要素的文本聚類過程進(jìn)行合并,給出軍事類話題多側(cè)面跟蹤組織的技術(shù)解決方案和實(shí)例。
網(wǎng)絡(luò)文本;話題多側(cè)面;話題漂移;跟蹤技術(shù)
當(dāng)前,數(shù)字圖書館系統(tǒng)擴(kuò)展對(duì)新媒體信息資源的采集整合,可進(jìn)一步改進(jìn)信息服務(wù)方式,提升信息服務(wù)質(zhì)量。如當(dāng)數(shù)字圖書館系統(tǒng)的用戶瀏覽網(wǎng)絡(luò)小說時(shí),希望查找到相關(guān)論壇中網(wǎng)友的評(píng)論;又如,當(dāng)數(shù)字圖書館系統(tǒng)的用戶在檢索經(jīng)典文獻(xiàn)時(shí),希望讀到最新跟蹤報(bào)道。但是目前數(shù)字圖書館系統(tǒng)建設(shè)中較少提供這些功能,基于網(wǎng)絡(luò)特定話題的跟蹤是擴(kuò)展數(shù)字圖書館系統(tǒng)上述功能的一項(xiàng)重要技術(shù)。
對(duì)于專門網(wǎng)絡(luò)文本而言,敏感內(nèi)容常引起熱門話題,而與該話題相關(guān)的報(bào)道通常集中于該話題出現(xiàn)的最近一段時(shí)間。隨著時(shí)間推移,直接的相關(guān)報(bào)道頻率逐漸衰減至消失,同時(shí)網(wǎng)絡(luò)媒體對(duì)該話題進(jìn)行報(bào)道的側(cè)重點(diǎn)會(huì)發(fā)生變化而產(chǎn)生話題漂移現(xiàn)象。例如,關(guān)于2010年4月中國(guó)海軍公海訓(xùn)練內(nèi)容的話題變化:第一階段,主要描述訓(xùn)練的客觀情況,參加訓(xùn)練的艦艇構(gòu)成、訓(xùn)練時(shí)間的跨度、訓(xùn)練地點(diǎn)、訓(xùn)練內(nèi)容;第二階段,敏感國(guó)家/機(jī)構(gòu)對(duì)中國(guó)海軍訓(xùn)練進(jìn)行評(píng)論,主要圍繞訓(xùn)練目的、訓(xùn)練意圖、軍力變化等展開;第三階段,部分國(guó)家/機(jī)構(gòu)采取何種相應(yīng)的政策和措施應(yīng)對(duì);第四階段,話題消失。這種從內(nèi)容出現(xiàn),到對(duì)內(nèi)容評(píng)論,再到各國(guó)政府的應(yīng)對(duì),話題發(fā)生漂移。本文將每個(gè)階段的討論內(nèi)容稱為話題側(cè)面,一個(gè)完整的話題展示是由話題的多個(gè)側(cè)面構(gòu)成的[1]。在該軍事話題的動(dòng)態(tài)變化中,將網(wǎng)絡(luò)中的動(dòng)態(tài)變化劃分為四個(gè)階段,分別為萌芽、形成擴(kuò)散與聚焦、爆發(fā)、消亡。顯然,話題的漂移與網(wǎng)絡(luò)內(nèi)容的動(dòng)態(tài)變化有著一一映射的關(guān)系,因此可通過對(duì)話題漂移的跟蹤來實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)內(nèi)容動(dòng)態(tài)的全面把握。
話題跟蹤是數(shù)字圖書館系統(tǒng)進(jìn)一步對(duì)新媒體資源獲取和分析的一項(xiàng)重要技術(shù),其功能是識(shí)別出給定網(wǎng)絡(luò)內(nèi)容的后續(xù)報(bào)道。面對(duì)話題跟蹤中的話題漂移問題及跟蹤到的報(bào)道雜亂無序問題,一種解決方案是引入話題客觀中心和動(dòng)態(tài)話題主觀中心的結(jié)構(gòu)來描述話題。漂移過程中客觀中心相對(duì)恒定,而主觀中心不斷變化,重點(diǎn)對(duì)傳統(tǒng)K最近鄰(K-Nearest Neighbor,KNN)分類算法進(jìn)行改進(jìn)[2],提出根據(jù)話題客觀中心對(duì)話題進(jìn)行跟蹤,根據(jù)主觀中心對(duì)追蹤到的話題進(jìn)行聚類,形成話題的多個(gè)側(cè)面,整體給出話題中心漂移問題及話題組織問題的解決方案,不僅能實(shí)現(xiàn)對(duì)話題的準(zhǔn)確跟蹤,還能實(shí)現(xiàn)對(duì)話題的細(xì)粒度把握,即對(duì)話題不同的側(cè)面實(shí)現(xiàn)跟蹤。從系統(tǒng)功能的角度而言,話題跟蹤是跟蹤已知的經(jīng)典文獻(xiàn)資料熱點(diǎn)的技術(shù)手段。
擴(kuò)展檢索新媒體資源需要全面跟蹤有關(guān)網(wǎng)絡(luò)信息,并關(guān)注其后續(xù)發(fā)展及相關(guān)內(nèi)容。顯然在不同階段文本內(nèi)容的側(cè)重點(diǎn)各有不同,但通過研究發(fā)現(xiàn),每篇報(bào)道都有對(duì)主題內(nèi)容本質(zhì)特征最基本的敘述,一般本質(zhì)特征通常是對(duì)專題內(nèi)容的客觀描述,由時(shí)間、地點(diǎn)、機(jī)構(gòu)等主體構(gòu)成;而內(nèi)容的評(píng)論、政策措施等,均因內(nèi)容而引起相應(yīng)主體的情感、行為反應(yīng),形成主觀態(tài)度??陀^描述決定網(wǎng)絡(luò)討論話題,而主觀態(tài)度決定網(wǎng)絡(luò)討論的內(nèi)容。本文給出如下話題的客觀特征和主觀特征概念。
(1)話題的客觀特征。話題演變過程中,在話題各側(cè)面均出現(xiàn),用來標(biāo)識(shí)該話題基本語義信息的特征稱為客觀特征,由{D,P,E,K}要素構(gòu)成。其中,D為時(shí)間要素,P為地點(diǎn)要素,E為機(jī)構(gòu)要素,K為關(guān)鍵詞要素。
(2)話題的主觀特征。在一個(gè)話題中,除去共有的客體特征,用來標(biāo)識(shí)各側(cè)面相對(duì)獨(dú)特、新穎的特征稱為主觀特征,由{C}要素構(gòu)成。其中,C為內(nèi)容要素。
通過對(duì)話題漂移現(xiàn)象分析,可看到雖然對(duì)特定內(nèi)容的報(bào)道討論是動(dòng)態(tài)變化的,但這些報(bào)道討論不能脫離具體內(nèi)容而存在,沒有內(nèi)容就談不上話題,話題和內(nèi)容不可分割。報(bào)道討論中均包含對(duì)特定內(nèi)容本質(zhì)特征最基本的描述,這些構(gòu)成話題的客觀中心,在話題漂移過程中,客觀中心基本保持恒定,因此可依據(jù)客觀中心進(jìn)行話題跟蹤。話題的客觀中心由時(shí)間要素、地點(diǎn)要素、機(jī)構(gòu)要素和關(guān)鍵詞要素復(fù)合構(gòu)成。話題的主觀中心是對(duì)話題某個(gè)側(cè)面討論內(nèi)容的概括和總結(jié),是最能體現(xiàn)該側(cè)面語義特征項(xiàng)的集合。通過動(dòng)態(tài)話題主觀中心描述話題多個(gè)側(cè)面,通過話題內(nèi)容的多中心結(jié)構(gòu)展示話題的各側(cè)面,可展現(xiàn)話題漂移的過程。話題的主觀中心由內(nèi)容要素構(gòu)成。
話題建立時(shí),即形成話題的客觀和主觀中心,有些話題在初始階段就逐漸消亡,只形成一個(gè)初始中心,沒有演化出新中心。而大多數(shù)話題都會(huì)發(fā)生演變,話題主觀中心隨著內(nèi)容的發(fā)展而不斷變化,由初始中心開始,不斷生成新中心,每個(gè)中心代表話題討論不同的側(cè)重點(diǎn)。以中俄兩國(guó)舉行“海上聯(lián)合”軍事演習(xí)為例,初始階段主要圍繞演習(xí)的背景情況;隨著兩國(guó)軍事機(jī)構(gòu)對(duì)演習(xí)內(nèi)容的深入分析,討論的核心集中于演習(xí)對(duì)區(qū)域形勢(shì)的影響與中俄兩國(guó)軍事合作能力分析;接下來,報(bào)道側(cè)重于中俄兩國(guó)的政府和軍隊(duì)對(duì)該熱點(diǎn)話題的應(yīng)對(duì)(如政策措施、軍力調(diào)整等)。在上述案例中,話題重點(diǎn)討論了三個(gè)中心,即訓(xùn)練概況、形式分析和政策應(yīng)對(duì)。每個(gè)中心代表本次內(nèi)容的一個(gè)話題側(cè)面,它們都是組成這次內(nèi)容的重要方面。通過采用一個(gè)客觀中心和三個(gè)主觀中心的話題模型可全面表示此次訓(xùn)練內(nèi)容。
趙華等提出一種面向動(dòng)態(tài)演化的雙質(zhì)心話題模型[3],話題由初始質(zhì)心和當(dāng)前質(zhì)心表示,以分界點(diǎn)為界,當(dāng)新的分界點(diǎn)出現(xiàn)時(shí),已有的初始質(zhì)心和當(dāng)前質(zhì)心合并成新的初始質(zhì)心,促使分界點(diǎn)建立的文檔形成新的當(dāng)前質(zhì)心。本文通過客觀中心和動(dòng)態(tài)話題主觀多中心結(jié)構(gòu)建立話題模型,主觀中心的個(gè)數(shù)沒有限定,完全根據(jù)話題演變的情況動(dòng)態(tài)調(diào)整,話題演變出幾個(gè)內(nèi)容側(cè)面,模型就建立幾個(gè)中心,在結(jié)構(gòu)上同話題漂移的結(jié)果保持一致,如圖1所示。
圖1 話題多中心模型
該話題模型最大的特點(diǎn)是用話題主客觀中心展示話題變化過程中的變與不變,一方面體現(xiàn)客觀中心的恒定,另一方面還原話題多側(cè)面的邏輯結(jié)構(gòu)。重要的是,它能并行維護(hù)和更新話題的每個(gè)主觀中心?!安⑿小敝覆还芎罄m(xù)文檔到來的時(shí)序,本模型能按照文本內(nèi)容對(duì)它們進(jìn)行分析,確定其屬于哪個(gè)主觀中心,或是用該文檔建立新的主觀中心,并非所有模型都具有“并行”特性。建立多中心模型是解決話題漂移問題的有效方法,因其不受話題產(chǎn)生時(shí)間影響,而完全按話題的內(nèi)容進(jìn)行組織分析。
3.1 改進(jìn)的KNN話題跟蹤方法
話題多側(cè)面跟蹤算法的中心思想即采取先分類再聚類的方法,對(duì)新采集的網(wǎng)絡(luò)文本進(jìn)行分析[4]。首先,采用基于話題客觀中心要素{D,P,E,K}的分類算法對(duì)文本進(jìn)行分類,判斷是否是已知話題的后續(xù)報(bào)道,如果滿足相似度條件,則把文本歸類于已知話題;然后,對(duì)跟蹤到的網(wǎng)絡(luò)文本進(jìn)行聚類計(jì)算,主要采用話題主觀中心要素{C}進(jìn)行聚類,忽略其他要素影響,依據(jù)相同側(cè)面的報(bào)道其內(nèi)容要素相似度高,不同側(cè)面的報(bào)道其內(nèi)容要素相似度低的原則,形成話題的多個(gè)主觀中心。
基于文本分類的話題跟蹤技術(shù)主要包括:特征提取、向量表示、分類方法研究以及話題跟蹤器的構(gòu)建四部分。在傳統(tǒng)的KNN算法中,因其是對(duì)整個(gè)文本的向量空間模型(Vector Space Mode,VSM)進(jìn)行計(jì)算,當(dāng)發(fā)生話題漂移時(shí),跟蹤話題的能力明顯下降。同時(shí),考慮訓(xùn)練正例稀疏的問題和采用要素的網(wǎng)絡(luò)文本表示方法,傳統(tǒng)的KNN算法不完全適用。以下給出改進(jìn)的基于內(nèi)容客觀中心的KNN跟蹤方法。
(1)跟蹤策略的改進(jìn)。首先,對(duì)話題跟蹤加入時(shí)間窗策略。在跟蹤過程中,只需考慮話題“運(yùn)動(dòng)周期”內(nèi)所有網(wǎng)絡(luò)報(bào)道,這樣有效降低計(jì)算的復(fù)雜度,提高話題跟蹤的效率,也避免將過去發(fā)生的類似報(bào)道判斷為當(dāng)前關(guān)注的話題;其次,僅考慮{P,E,K}要素的功能作用,分別對(duì)三個(gè)要素進(jìn)行KNN分類,判斷出與初始話題{P,E,K}要素的類別關(guān)系;最后,結(jié)合多要素復(fù)合比較策略判斷出后續(xù)網(wǎng)絡(luò)文本的類別關(guān)系。
(2)相似度計(jì)算方法的改進(jìn)。采用要素的話題模型決定了要使用基于相關(guān)要素的相似性比較算法[5]。依次以{P,E,K}要素為計(jì)算對(duì)象,分別選出在訓(xùn)練集中與后續(xù){P,E,K}要素最相似的k個(gè)文本。在這k個(gè)文本中分別抽取屬于正例r(s1,k)的所有文本,將這些文本與新文本對(duì)應(yīng)要素的相似度值求和,作為新文本與正例r(s1,k)對(duì)應(yīng)要素的相似度值;同樣,抽取屬于反例n(s1,k)的所有文本,將反例文本與新文本對(duì)應(yīng)要素的相似度值求和,作為新文本與反例n(s1,k)對(duì)應(yīng)要素的相似度值;然后計(jì)算判定要素是否是屬于追蹤話題。
改進(jìn)的KNN話題跟蹤方法如下:
①采用命名實(shí)體識(shí)別技術(shù)對(duì)訓(xùn)練文集中的網(wǎng)絡(luò)專門文本的要素進(jìn)行提取,用要素表示網(wǎng)絡(luò)文本;
②在新文本s1到達(dá)后,判斷該文本的時(shí)間是否在話題“運(yùn)動(dòng)周期”的時(shí)間窗內(nèi),如果在則執(zhí)行下一步,否則將該文本判定為“不屬于”,處理下一個(gè)新文本;
③根據(jù)命名實(shí)體、特征詞對(duì)新文本進(jìn)行分詞處理,確定新文本的要素;
④分別計(jì)算新文本的{P,E,K}與訓(xùn)練集文本{P,E,K}的相似度值,對(duì)于每個(gè)不同的要素分別選出與要素對(duì)應(yīng)的最相似k個(gè)文本;
⑤計(jì)算新文本{P,E,K}要素與正例、反例的相似度值:當(dāng),判定新文本對(duì)應(yīng)要素屬于該話題;當(dāng),判定新文本對(duì)應(yīng)要素不屬于該話題;
⑥根據(jù)復(fù)合比較策略判斷新文本是否屬于追蹤話題。
3.2 話題多側(cè)面組織算法
對(duì)跟蹤到的同一話題下的內(nèi)容報(bào)道,按內(nèi)容的不同側(cè)面中心進(jìn)行組織,這是話題跟蹤的基礎(chǔ)性工作,也屬于無指導(dǎo)的文本聚類。與依據(jù){D,P,E,K}要素聚類不同,對(duì)于該部分需要聚類的文本而言,是已知話題跟蹤到的結(jié)果,主要根據(jù)內(nèi)容要素C進(jìn)行聚類,也即對(duì)本文定義的主觀特征進(jìn)行聚類組織。
對(duì)于動(dòng)態(tài)增長(zhǎng)的跟蹤到的網(wǎng)絡(luò)文本,采用Singlepass聚類算法進(jìn)行聚類。依據(jù)話題多中心模型和內(nèi)容要素相似度計(jì)算方法,首先,明確話題多中心話題模型結(jié)構(gòu),準(zhǔn)確把握已有話題多側(cè)面不同的主觀中心;其次,通過要素向量的思想獲取新聞文檔的內(nèi)容向量、判斷文檔所屬主觀中心;最后,結(jié)合Single-pass增量聚類算法給出基于話題主觀中心的話題多側(cè)面組織算法。以下給出算法的整體流程:
①若當(dāng)前文檔是跟蹤到網(wǎng)絡(luò)文本中的第一個(gè),則建立一個(gè)以該文檔為初始中心的類,作為第一個(gè)類簇,然后繼續(xù)處理下一篇文檔;
②計(jì)算新文本內(nèi)容要素與已有各類簇的相似度(采用余弦相似度計(jì)算),記錄最大相似度及其對(duì)應(yīng)話題側(cè)面中心;
③若最大的相似度小于創(chuàng)新閾值,則建立一個(gè)新類簇,同時(shí)該文檔為新類簇的初始中心,繼續(xù)處理下一篇文檔,轉(zhuǎn)向①;
④若最大的相似度大于創(chuàng)新閾值,則文檔歸入最大相似度對(duì)應(yīng)的類簇;
⑤更新中心向量,每當(dāng)有新文檔加入話題中心時(shí)更新相應(yīng)的中心向量,繼續(xù)處理下一篇文檔,轉(zhuǎn)向①。
某數(shù)字圖書館系統(tǒng)的用戶在檢索有關(guān)“反導(dǎo)系統(tǒng)”的經(jīng)典文獻(xiàn)資料時(shí),希望查閱到網(wǎng)絡(luò)最新的美國(guó)在韓國(guó)部署“薩德”反導(dǎo)系統(tǒng)跟蹤報(bào)道。系統(tǒng)采用確定的測(cè)試數(shù)據(jù)與評(píng)測(cè)標(biāo)準(zhǔn)進(jìn)行話題跟蹤實(shí)驗(yàn)[6],以驗(yàn)證本文提出跟蹤方法的性能。在跟蹤試驗(yàn)中,從數(shù)據(jù)集挑選“反導(dǎo)系統(tǒng)”話題進(jìn)行跟蹤測(cè)試,選取該話題最初始的450個(gè)內(nèi)容報(bào)道構(gòu)建初始話題,同時(shí)從測(cè)試集中除去這些內(nèi)容報(bào)道,然后開始測(cè)試。先采用TRS文本檢索系統(tǒng)對(duì)設(shè)定的話題進(jìn)行跟蹤,再應(yīng)用本文提出的基于話題客觀中心跟蹤的方法對(duì)設(shè)定話題進(jìn)行跟蹤。其中,對(duì)于采用要素表示方法的網(wǎng)絡(luò)文本,主要根據(jù)表示話題的客觀中心要素進(jìn)行跟蹤,分要素進(jìn)行KNN計(jì)算,判斷各要素與初始要素的相似程度,當(dāng)各要素的相似度計(jì)算完成后應(yīng)用復(fù)合比較策略判斷網(wǎng)絡(luò)文本的所屬類別。最后對(duì)兩次試驗(yàn)跟蹤的結(jié)果進(jìn)行性能比較。
表1是采用兩種跟蹤方法的實(shí)驗(yàn)結(jié)果,圖2是經(jīng)過計(jì)算的兩種方法的準(zhǔn)確率、召回率、F1-measure的直觀對(duì)比圖。在跟蹤試驗(yàn)中通過對(duì)圖2的分析和比較,采用本文基于客觀中心的改進(jìn)KNN算法后,分類的準(zhǔn)確率、召回率和F1值都有一定的提升,驗(yàn)證了本文跟蹤算法的實(shí)效性。
表1 兩種跟蹤方法的測(cè)試數(shù)據(jù)
圖2 兩種跟蹤方法的評(píng)測(cè)對(duì)比
面對(duì)網(wǎng)上日益增多的特定內(nèi)容報(bào)道,數(shù)字圖書館系統(tǒng)如何從這些網(wǎng)絡(luò)文本中更有效并準(zhǔn)確地獲取信息,幫助用戶關(guān)聯(lián)信息將成為研究熱點(diǎn),而話題跟蹤技術(shù)是其中一項(xiàng)關(guān)鍵技術(shù)。本文針對(duì)專門話題跟蹤過程中的話題漂移及跟蹤結(jié)果的雜亂無序提出網(wǎng)絡(luò)文本的客觀中心和主觀中心概念,給出話題主觀中心的表示和更新方法,建立多中心模型以按話題的內(nèi)容進(jìn)行組織分析;又提出先分類后聚類,依據(jù)客觀中心跟蹤話題和主觀中心組織話題的方法對(duì)策,對(duì)傳統(tǒng)的KNN算法進(jìn)行改進(jìn),把基于時(shí)間、地點(diǎn)、機(jī)構(gòu)和關(guān)鍵詞要素的KNN話題跟蹤算法和基于內(nèi)容要素的文本聚類過程進(jìn)行合并,給出軍事類話題多側(cè)面跟蹤組織的技術(shù)解決方案和實(shí)例。針對(duì)專門話題內(nèi)容的檢測(cè)與跟蹤工作,下一步還有很多工作,如要素特征的選擇與抽取在很大程度上決定了網(wǎng)絡(luò)文本分類和聚類的效果,本文的特征選擇主要使用數(shù)學(xué)統(tǒng)計(jì)的方法,缺少對(duì)專門話題語義層面的處理,必然存在抽取質(zhì)量和抽取精度的問題,影響檢測(cè)和跟蹤的準(zhǔn)確率和召回率。通過對(duì)網(wǎng)絡(luò)特定話題的多側(cè)面跟蹤技術(shù)及應(yīng)用研究,是擴(kuò)展對(duì)新媒體信息資源的獲取和研究的技術(shù)保障,也是數(shù)字圖書館系統(tǒng)進(jìn)一步提升服務(wù)方式和質(zhì)量的重要課題。
[1] 邱立坤,龍志祎,鐘華,等.層次化話題發(fā)現(xiàn)與跟蹤方法及系統(tǒng)實(shí)現(xiàn)[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(2):157-160.
[2] 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程, 2005,31(8):171-172.
[3] 趙華,趙鐵軍,于浩,等.面向動(dòng)態(tài)演化的話題檢測(cè)研究[J].高技術(shù)通信, 2006,16(12):1230-1235.
[4] 鄭希文.互聯(lián)網(wǎng)話題演變與傳播分析技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2009.
[5] 王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(8):422-426.
[6] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71.
《數(shù)字圖書館論壇》2017年征稿啟事
《數(shù)字圖書館論壇》創(chuàng)刊于2005年,是由科學(xué)技術(shù)部主管、中國(guó)科學(xué)技術(shù)信息研究所主辦的專業(yè)性學(xué)術(shù)月刊,是“中國(guó)科技核心期刊”統(tǒng)計(jì)源刊,是中國(guó)社會(huì)科學(xué)引文索引(CSSCI)擴(kuò)展版來源期刊。
《數(shù)字圖書館論壇》是我國(guó)唯一一本以“數(shù)字圖書館”命名的刊物,一直關(guān)注國(guó)內(nèi)外數(shù)字圖書館領(lǐng)域的相關(guān)研究和實(shí)踐,報(bào)道主題涵蓋信息檢索、數(shù)字資源、知識(shí)組織、語義技術(shù)、數(shù)據(jù)挖掘、開放獲取、用戶服務(wù)等,既關(guān)注數(shù)字圖書館領(lǐng)域的理論成果和創(chuàng)新實(shí)踐,又反映國(guó)內(nèi)外業(yè)界的新趨勢(shì)、新發(fā)展和新變革。
《數(shù)字圖書館論壇》既厚名家、更重新人,約稿和自由投稿相結(jié)合,對(duì)專家組稿以及刊用的博士生論文免收版面費(fèi)。來稿將在1個(gè)月內(nèi)給予錄用答復(fù),稿件一經(jīng)發(fā)表即向作者寄送樣刊并付稿酬。
投稿及開放網(wǎng)址:http://www.DLF.net.cn。
Research on Drift Analysis and Tracking Technique of Topic on Public Military Opinion
WANG LanCheng, LUO GuoZhe, YAN Jun, ZHANG SiLong
(Department of Military Information Management, Shanghai Branch of Nanjing Political College, Shanghai 200433, China)
Extending the acquisition and research of new media information resources is an important subject of digital library system. It is to further improve the service mode and quality. The topic tracking technology is one of the key technologies. The objective and subjective text center network center concept are put forward to solve the problem of topic drift and special topic tracking results in the tracking process. We have given the topic representation and subjective center update method, and establish a multi center model according to the topic of organizational analysis. The first classification after clustering, countermeasures according to the method of topic tracking and objective center the subjective topic center organization are put forward. We improve the traditional algorithm of KNN with time, location, and topic keywords elements. The military side tracking technology solutions have been studied.
Web Text; Topic Multi Side; Topic Drift; Tracking Technology
G203
10.3772/j.issn.1673-2286.2016.12.011
王蘭成,男,1962年生,南京政治學(xué)院上海校區(qū)軍事信息管理系教授,博士生導(dǎo)師,研究方向:圖書情報(bào)計(jì)算機(jī)管理、輿情傳播與網(wǎng)絡(luò)分析,E-mail:wanglancheng@163.com。
婁國(guó)哲,男,1982年生,博士研究生,講師,研究方向:軍事情報(bào)管理,E-mail:louguozhe@163.com。
嚴(yán)駿,男,1987年生,博士研究生,講師,研究方向:軍事情報(bào)管理,E-mail:chinash_yan@163.com。
張思龍,男,1987年生,博士研究生,講師,研究方向:軍事情報(bào)管理,E-mail:ahang35@126.com。
2016-11-10)
* 本研究得到國(guó)家社會(huì)科學(xué)基金2015年課題“信息化條件下檔案社會(huì)化媒體信息資源的整合路徑與機(jī)制研究”(編號(hào):15BTQ078)和南京政治學(xué)院2015年軍隊(duì)專項(xiàng)科研課題資助。