周振宇,李 芳
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系 中德語言技術(shù)聯(lián)合實(shí)驗(yàn)室,上海 200240)
現(xiàn)代社會(huì)科技發(fā)達(dá),傳播媒體在人們獲取信息的過程中扮演著非常重要的角色。新聞、報(bào)刊這樣的傳統(tǒng)媒體具有信息量大、客觀性內(nèi)容多、不夠及時(shí)等特點(diǎn),是過去人們獲取信息的唯一途徑。隨著科技進(jìn)步以及Web 2.0時(shí)代的到來,博客、論壇、微博客等新型媒體已成為人們青睞的途徑,與傳統(tǒng)媒體相比,它單篇信息量小,更多地表達(dá)了網(wǎng)友自己的觀點(diǎn),互動(dòng)性強(qiáng),即時(shí)性強(qiáng)。對(duì)比新型媒體與傳統(tǒng)媒體的研究工作基本上處于新聞工作者的感性認(rèn)識(shí)階段。因此,利用話題模型對(duì)兩種媒體的內(nèi)容進(jìn)行自動(dòng)分析,研究同一事件兩種媒體的話題對(duì)比,審視兩種媒體的差異具有重要的現(xiàn)實(shí)意義。
本文主要研究以下三個(gè)主要問題:
1) 關(guān)于特定事件,微博話題與新聞報(bào)道話題有什么不同?關(guān)注點(diǎn)有哪些不同?
2) 相同話題在兩種媒體上詞匯有哪些差異?
3) 相同話題在微博與新聞媒體上隨時(shí)間的變化有何不同?
為了解決以上三個(gè)問題,本文提出了衡量話題的三個(gè)指標(biāo): 關(guān)注度、差異度和演化度。根據(jù)量化的數(shù)據(jù)研究兩種媒體對(duì)同一事件的內(nèi)容差異。
本文的主要工作包括三個(gè)方面。首先,利用話題模型LDA對(duì)特定事件的語料建模,挖掘出該事件在兩種媒體下被討論的熱點(diǎn)話題;然后定義話題的關(guān)注度、差異度和演化度,并分別給出它們的計(jì)算方法;最后,選取四個(gè)特定事件,給出兩種媒體對(duì)同一事件不同的關(guān)注度,話題內(nèi)容上的差異度,以及單個(gè)話題的內(nèi)容演化。
本文的組織結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)的工作,第3節(jié)是研究方法的描述,第4節(jié)是實(shí)驗(yàn)結(jié)果和分析,第5節(jié)為結(jié)論及展望。
目前,基于微博與新聞報(bào)道話題的抽取主要采用LDA模型[1]及其擴(kuò)展[2-3]。LDA是無監(jiān)督學(xué)習(xí)方法,不需要訓(xùn)練數(shù)據(jù),已在新聞報(bào)道的話題抽取中有廣泛應(yīng)用。Hong[4]采用了LDA模型對(duì)Twitter上的話題進(jìn)行抽取[4],證明LDA方法在微博話題抽取中也是可行的。Zhao[5]使用了Twitter-LDA模型,考慮到每篇微博的字?jǐn)?shù)較少,這一模型融入了作者信息,將同一作者的微博合并為一篇文檔,同時(shí)模型也融入了背景詞信息,并設(shè)置了變量控制一個(gè)詞是來源于背景詞還是話題詞。也有研究者利用了微博中tag、表情作為標(biāo)簽,使用半監(jiān)督的Labeled-LDA[6-7],很好地利用了微博的特點(diǎn)。
最近,有不少研究者提出了各種特征,對(duì)微博與新聞報(bào)道上的話題進(jìn)行研究。Zhao[5]比較了Twitter和New York Times上話題的類別與類型,將話題分為事件型、實(shí)體型、持續(xù)型三個(gè)類型,從分布、內(nèi)容、覆蓋程度、轉(zhuǎn)發(fā)程度等方面比較話題在兩種媒體上的區(qū)別。Ramage[6]將話題分為物質(zhì)類、狀態(tài)類、風(fēng)格類、社交類4種加以闡述,從整體上分析了4種類型話題的強(qiáng)度差異,還對(duì)比了兩個(gè)用戶(w3c和Oprah)的微博上4種類型話題的強(qiáng)度與內(nèi)容差異。還有不少研究者針對(duì)特定事件分析微博話題[8-9]。Qu[8]分析了玉樹地震后的微博內(nèi)容,力圖找出災(zāi)難后人們主要談?wù)撌裁丛掝},不同類型的話題的發(fā)送與轉(zhuǎn)發(fā)行為是否不同,以及它們是如何傳播的。研究發(fā)現(xiàn)災(zāi)難后人們關(guān)注的重點(diǎn)是發(fā)表觀點(diǎn)、描述事件、捐贈(zèng)默哀等話題。不同類型的話題的發(fā)送與轉(zhuǎn)發(fā)行為也不同,事件剛發(fā)生時(shí)往往是描述事件居多,隨著時(shí)間的推移,人們更多關(guān)注災(zāi)后重建,并在哀悼日發(fā)送表達(dá)感情的內(nèi)容。研究還發(fā)現(xiàn)人們更樂意轉(zhuǎn)發(fā)介紹救災(zāi)行動(dòng)和事件情況的內(nèi)容,從轉(zhuǎn)發(fā)的平均深度來看,也是行動(dòng)類內(nèi)容最多。
本文涉及了微博與新聞報(bào)道話題的對(duì)比,所以如何將不同的話題關(guān)聯(lián)起來至關(guān)重要。Zhao[5]使用了傳統(tǒng)的JS距離的方法;Chu[10]提出,直接利用JS距離有時(shí)候會(huì)忽略了話題側(cè)重點(diǎn)的區(qū)別,故在傳統(tǒng)的計(jì)算方法上融合了特征詞的概念。將LDA話題結(jié)果中概率值較大的詞作為特征詞,通過計(jì)算特征詞的余弦相似度,來修正分布的距離。
本文和文獻(xiàn)[5]的研究目的相同,區(qū)別是選取了特定事件的話題進(jìn)行兩種媒體的分析對(duì)比,提出了話題的關(guān)注度、差異度和演化度計(jì)算方法。本文與文獻(xiàn)[8]的不同之處使用了話題模型進(jìn)行話題的抽取,以及分析了特定事件在微博和新聞報(bào)道上的話題,主要對(duì)兩種媒體在話題層次上進(jìn)行對(duì)比。
本文從話題層面對(duì)微博與新聞媒體進(jìn)行對(duì)比研究。首先針對(duì)特定事件,挖掘兩種媒體上的語料;然后對(duì)兩種語料應(yīng)用LDA建模,挖掘潛在話題;接下來對(duì)兩種媒體上的話題進(jìn)行關(guān)注度計(jì)算,對(duì)比兩種媒體不同的話題關(guān)注。然后研究兩種媒體相同話題在詞匯與語義上的差異度。最后通過演化度來觀察兩種媒體上的話題隨時(shí)間的變化趨勢(shì)。
在本文中,我們主要討論兩種不同話題。
1) 評(píng)論性話題: 人們對(duì)某一現(xiàn)象或?qū)嶓w的評(píng)論,如呼吁停止冷漠,對(duì)道德現(xiàn)狀的鞭笞,用俚語調(diào)侃獨(dú)裁者等。
2) 事實(shí)性話題: 對(duì)客觀事實(shí)的描述,如對(duì)目擊者的采訪,對(duì)病情的進(jìn)展報(bào)道,對(duì)各界悼念的報(bào)道等。
LDA模型是一個(gè)生成概率模型,是三層的變參數(shù)層次貝葉斯模型。首先假設(shè)詞由話題的概率分布混合產(chǎn)生,而每個(gè)話題是在詞匯表上的一個(gè)多項(xiàng)式分布;其次假設(shè)文檔是潛在話題的概率分布的混合;最后針對(duì)每個(gè)文檔從Dirichlet分布中抽樣產(chǎn)生該文檔包含的話題比例,結(jié)合話題和詞的概率分布生成該文檔中的每一個(gè)詞匯。本文對(duì)兩個(gè)事件在兩種媒體上的語料集按時(shí)間先離散建模,得到事件在兩種媒體下,各時(shí)間段的多個(gè)話題結(jié)果。表1是文中使用到的符號(hào)。
表1 文中使用到的符號(hào)
話題的關(guān)注度是衡量該話題被談?wù)摰某潭?,即在新聞?bào)道或微博中該話題所占的比例。LDA建模后可以得到話題在各文檔中的概率分布。我們可以計(jì)算話題在所有文檔上的平均概率作為關(guān)注程度的衡量。但是一篇只有幾個(gè)字或幾十個(gè)字的微博,經(jīng)過分詞、去除停用詞等處理之后,剩下的有效詞數(shù)很少。實(shí)驗(yàn)中我們發(fā)現(xiàn)有的微博的有效詞語可能只有一個(gè),當(dāng)這個(gè)詞語被分給某話題后,該話題的概率為1。故而對(duì)不同的文檔字?jǐn)?shù),賦予不同的權(quán)值,從而使計(jì)算上更具科學(xué)性。我們定義話題z在某天的覆蓋程度為式(1)。
其中D為當(dāng)日的文檔(新聞報(bào)道、微博)全集,θ是話題在文檔上的分布,φ根據(jù)文檔字?jǐn)?shù)多少而確定的權(quán)值。這個(gè)強(qiáng)度的指標(biāo)衡量了一個(gè)話題在某日在所有文檔中的關(guān)注度。在不同媒體間進(jìn)行比較時(shí),我們定義話題z的關(guān)注度AF(attention factor)的計(jì)算公式為強(qiáng)度歸一化的值,如式(2)所示。
其中T是當(dāng)日的話題全集。
話題的差異度是衡量新聞媒體與微博上相同話題的差異度,用話題詞匯分布的距離來計(jì)算。話題距離通常采用JS距離來計(jì)算,但對(duì)于本文的研究語料,如果直接使用JS距離,其效果較差。這是由于兩種媒體本身用詞的差異。如微博上人們可能會(huì)使用一些較為口語化的詞匯,而新聞報(bào)道上可能更多地使用較為正式和官方的詞匯。事實(shí)上,LDA建模后,每個(gè)話題表示為具有相同語義的詞匯集合。定義話題的詞匯表示:
考察詞在話題z上的分布pz,若對(duì)于某詞w,有pz(w)>ξ,ξ為閾值,則認(rèn)為w是話題z的詞匯,記作w D(z)={w|w 其中V是詞匯表。 假設(shè)話題z在兩種媒體上分別表現(xiàn)為話題z1和z2。定義它們?cè)~匯的交集與并集: 交集z1∩z2=D(z1)∩D(z2) 并集z1∪z2=D(z1)∪D(z2) 其中JSdiv(pz1||pz2)是話題z1與z2的JS距離。 話題演化度是衡量同一媒體相同話題隨時(shí)間的變化。由于LDA的結(jié)果表征了話題在文檔上的分布,以及詞匯在話題上的分布。在討論話題演化度的時(shí)候,通過計(jì)算話題間的語義相似度來表征,采用常用的JS距離(Jensen-Shannon divergence)來判斷話題之間是否存在演化關(guān)系。之所以不像上一節(jié)中對(duì)JS距離進(jìn)行修正,是因?yàn)閷?duì)于同一種媒體形式來說,它的詞匯使用的差異并不大。假設(shè)微博(新聞報(bào)道)上的某話題z,它在某時(shí)間段t表示為zt,詞匯表Vt的分布是pzt;在時(shí)間段t+1上表示為zt+1,詞匯表Vt+1的分布是pzt+1。由于詞匯表Vt與Vt+1是取自兩個(gè)不同的時(shí)間段,維度并不相同。故欲計(jì)算兩個(gè)分布的距離之前須先統(tǒng)一維度,擴(kuò)充詞匯表。擴(kuò)充方法參照Chu[10]的方法: 將兩個(gè)詞匯表合并,并置話題中未出現(xiàn)的詞的分配次數(shù)為0。則定義話題的演化度EF(evolution factor)計(jì)算公式為兩個(gè)分布的JS距離: EF(z) =JSdiv(pzt‖pzt+1) +KLdiv(pzt+1‖m) (4) 本文主要針對(duì)微博與新聞報(bào)道上特定事件的話題進(jìn)行多方面對(duì)比研究。有的事件由微博引發(fā),有的事件則是由新聞報(bào)道引起。針對(duì)不同類型的事件進(jìn)行對(duì)比,可以更好地研究出兩種媒體形式的差異。我們選取了2011年4個(gè)比較有影響力的事件作為語料集。 1. 小悅悅事件: 2歲女童小悅悅被車碾壓,18個(gè)路人過路不聞,最終女童死亡。 2. 金正日事件: 朝鮮最高領(lǐng)導(dǎo)人金正日在去視察的火車上因過度疲勞而去世。 3. 華爾街事件: 示威者試圖占領(lǐng)華爾街,聲稱反對(duì)美國的權(quán)錢交易及嚴(yán)重的金融危機(jī)。 4. 天宮一號(hào)事件: 中國自主研制的首個(gè)空間目標(biāo)飛行器天宮一號(hào)發(fā)射升空,并與神舟八號(hào)對(duì)接。 之所以選取這4個(gè)事件,是因?yàn)檫@4個(gè)事件分別為民生類事件、人物類事件、政治類事件、科技類事件,且1、4兩個(gè)事件為國內(nèi)事件,2、3兩個(gè)事件為國外事件。且這4個(gè)事件在其所在的時(shí)間段內(nèi)均為熱點(diǎn)事件,網(wǎng)絡(luò)上討論較多。故選取這4個(gè)事件進(jìn)行本文的研究具有一定的代表性。 其中新聞報(bào)道部分均采用了新浪新聞下關(guān)于這兩個(gè)事件的新聞報(bào)道全文的集合;微博部分采用新浪微博提供的API進(jìn)行實(shí)時(shí)收集,直接使用“金正日”、“小悅悅”、“華爾街”、“天宮一號(hào)”作為關(guān)鍵詞進(jìn)行檢索得到的微博、去除重復(fù)出現(xiàn)超過20次的微博、以及微博中所有的hashtag。 實(shí)驗(yàn)包括3個(gè)方面,一是在同一時(shí)間點(diǎn)上,研究兩種媒體的話題關(guān)注度;二是通過式(3)計(jì)算話題差異度,研究相同話題在兩種媒體上的詞匯差異性;三是通過演化度的計(jì)算確定話題的演化路徑,研究話題隨時(shí)間的變化,以及這種變化在兩種媒體上有什么不同。 實(shí)驗(yàn)數(shù)據(jù)分為四組: 如表2所示。語料均為全文,并過濾停用詞、hashtag。實(shí)驗(yàn)使用了開源的Gibbs Sampling工具,話題個(gè)數(shù)K設(shè)為6,模型參數(shù)α,β分別設(shè)置為50/K和0.01。關(guān)注度計(jì)算中的權(quán)值φ的取值為: 文檔字?jǐn)?shù)少于2時(shí)為0.2,文檔字?jǐn)?shù)在3到5之間為0.45,文檔字?jǐn)?shù)在6到9之間為0.6,文檔字?jǐn)?shù)大于10為0.8。話題差異度計(jì)算中,話題詞匯表示的閾值ξ設(shè)為0.4,距離式中的詞匯差異度權(quán)值λ設(shè)為0.3。標(biāo)準(zhǔn)JS距離的閾值ηJS為0.8,話題差異度的閾值ηDF為0.64。 表2 四個(gè)事件的語料條數(shù)、持續(xù)時(shí)段 根據(jù)式(2)分別計(jì)算4個(gè)事件微博和新聞話題的關(guān)注度。表3~6分別列出4個(gè)事件前5天的關(guān)注度最高的三個(gè)話題的top3話題詞與關(guān)注度值。 從結(jié)果可以看出,微博上的話題,人們談?wù)摰妮^多的是評(píng)論性話題。如小悅悅事件中,人們紛紛呼吁要停止冷漠,以及強(qiáng)烈譴責(zé)路人的這種見死不救的行為;金正日事件中,人們紛紛表示悼念,以及表示他是中國人民的朋友;華爾街事件中,人們表示對(duì)占領(lǐng)行為的聲援;天宮一號(hào)中,人們對(duì)成功發(fā)射而歡呼。而對(duì)事實(shí)性話題,如小悅悅事件中政府援助問題,金正日事件中外國的表態(tài)和事件造成的經(jīng)濟(jì)影響,華爾街事件中各方面抗議活動(dòng),天宮一號(hào)各種背景知識(shí)這樣的話題的關(guān)注度則相對(duì)較小。而對(duì)于新聞報(bào)道上的話題,可以看到,基本上都是事實(shí)性話題,如小悅悅事件中對(duì)小悅悅病情的介紹,政府出臺(tái)保障政策,金正日去世事件中外國的悼念與表態(tài),發(fā)布訃文信息,華爾街事件中對(duì)事件進(jìn)程的報(bào)道,天宮一號(hào)事件中對(duì)工程各方面的詳細(xì)介紹等。諸如小悅悅事件中對(duì)道德的反思,金正日去世事件中對(duì)金正日獨(dú)裁事實(shí)的批判,華爾街事件中對(duì)資本家的揶揄,天宮一號(hào)事件中驕傲的心情等話題沒有出現(xiàn)在新聞報(bào)道中,小悅悅事件中的保護(hù)見義勇為和金正日去世事件中的與中國關(guān)系都排在靠后的位置。 表3 金正日事件兩種媒體上每日關(guān)注度最高的三個(gè)話題(top3話題詞與關(guān)注度,前5日) 表4 小悅悅事件兩種媒體上每日關(guān)注度最高的三個(gè)話題(top3話題詞與關(guān)注度,前5日) 表5 華爾街事件兩種媒體上每日關(guān)注度最高的三個(gè)話題(top3話題詞與關(guān)注度,前5日) 表6 天宮一號(hào)事件兩種媒體上每日關(guān)注度最高的三個(gè)話題(top3話題詞與關(guān)注度,前5日) 兩者各有一些獨(dú)有話題,金正日事件中微博獨(dú)有的話題是關(guān)于金正日的俚語,新聞報(bào)道是對(duì)平壤實(shí)況的介紹。這樣的獨(dú)有話題也反映了兩種媒體各自的特點(diǎn),即微博人們可以隨意戲謔,新聞報(bào)道更樂于展現(xiàn)事件的實(shí)況。 從以上結(jié)果可以看出,微博主要談?wù)摰膬?nèi)容是對(duì)現(xiàn)象或人的評(píng)論,而新聞報(bào)道更側(cè)重于客觀事實(shí),基本上處于大體上相反的局面。這也正說明了微博作為一種新興媒體,它可以使廣大網(wǎng)民直抒胸臆,參與度遠(yuǎn)遠(yuǎn)高過新聞報(bào)道。網(wǎng)民從新聞報(bào)道中被動(dòng)接受客觀信息,而在微博中表達(dá)自己的主觀傾向。 從兩者的關(guān)注度值來看,微博上的話題關(guān)注度差異遠(yuǎn)不及新聞報(bào)道上的差異。即使將話題數(shù)定在6,新聞報(bào)道上強(qiáng)度較大的話題的關(guān)注度都超過了1/5,最少的僅有1/8左右。而且對(duì)于相類似的話題,在不同時(shí)間上的關(guān)注度波動(dòng)很大。反觀微博上,6個(gè)話題的相對(duì)強(qiáng)度均在1/6上下。說明微博上的話題本身的區(qū)別沒有新聞報(bào)道上那么明顯。 首先通過對(duì)比實(shí)驗(yàn)驗(yàn)證本文提出式(3)的有效性。我們對(duì)4個(gè)事件每天抽出的話題進(jìn)行人工比對(duì),用式(3)分別計(jì)算兩種媒體上每天的任兩個(gè)話題之間的差異度,通過閾值確定相同話題,人工評(píng)判其準(zhǔn)確性。以JS距離為baseline,表7是4個(gè)事件的計(jì)算結(jié)果。 表7 應(yīng)用JS距離與式(3)計(jì)算結(jié)果 可以看出,本文提出的式(3)相比于直接使用JS距離,除天宮一號(hào)事件外,精度與召回率均有所提升。其中金正日事件的提升較為明顯。 通過圖1實(shí)驗(yàn),式(3)定義的差異度的閾值設(shè)為0.64時(shí)F值較高。將低于這一閾值的話題定為相同話題,以便于后續(xù)對(duì)相同話題進(jìn)行差異度分析。 圖1 差異度計(jì)算式(3)的閾值-F值曲線 差異度分析將主要側(cè)重于對(duì)相同話題在不同媒體上的詞匯差異進(jìn)行分析。我們選取金正日事件第2日、小悅悅事件第4日和天宮一號(hào)第1日的各3組相同話題,觀察它們的差異度,如表8所示。 由式(3)知,差異度越接近于閾值,則語義的差異越明顯。從表3~6中可以看出事實(shí)性話題,如外國悼念情況、經(jīng)濟(jì)影響情況、政府保障老人這樣的話題,兩種媒體的差異度相對(duì)較小,故詞匯上的相似度較大。 比如兩種媒體在外國悼念這一話題在語義上高度相似,基本都表達(dá)了韓國、美國、日本3個(gè)國家的表態(tài),略有不同的是微博上談到的表態(tài)以韓國方面的哀悼為主,而新聞報(bào)道上更強(qiáng)調(diào)美日基本保持半島穩(wěn)定。 表8 兩種媒體上6組相同話題的話題詞對(duì)比 在獨(dú)裁這一話題上,兩種媒體都談到了金正恩,但是從詞語上看,差異較大,微博上主要講的是獨(dú)裁問題,是對(duì)金家三代領(lǐng)導(dǎo)人世襲的一種諷刺性的評(píng)價(jià),而新聞報(bào)道上則主要談到了金正恩接班的問題。 從以上的結(jié)果可以看出,從內(nèi)容上看,越是事實(shí)性話題,兩種媒體的差異度就越小,而越是評(píng)論性話題,兩種媒體的差異度越大。 差異度著重研究同一時(shí)間點(diǎn)上兩種媒體間的用詞差異,而演化度則著重于研究話題在整個(gè)時(shí)間段的趨勢(shì)變化在兩種媒體上有什么不同。 我們通過計(jì)算相鄰時(shí)間各話題間的演化度,得到話題的演化路徑。在小悅悅事件中,我們選取“道德”這一評(píng)論性話題,觀察這一話題在兩種媒體上隨時(shí)間的變化,如圖2所示。 從上圖可以看出,在整個(gè)時(shí)間段內(nèi),在微博上人們討論的道德話題基本都圍繞著對(duì)中國現(xiàn)今社會(huì)的道德問題各抒己見,著重譴責(zé)現(xiàn)在的中國社會(huì)缺少道德與良知。主要的談?wù)摵诵狞c(diǎn)在整個(gè)時(shí)間段上的變化不大。反觀新聞報(bào)道上的道德話題,從高頻詞不斷變化就可以看出,話題的著重點(diǎn)隨著時(shí)間呈現(xiàn)一定的變化。如19日政府開會(huì)討論見死不救的問題,18日和22日均是對(duì)網(wǎng)友熱議道德問題的報(bào)道,而23日則提到了政府提倡的道德文化建設(shè),27日又提到了對(duì)老百姓行為的討論。整個(gè)時(shí)間段上關(guān)于道德的內(nèi)容變化較大。 圖2 小悅悅事件中“道德”話題在兩種媒體上隨時(shí)間的變化(前4個(gè)話題詞) 對(duì)于金正日去世事件,我們考察“悼念”這一事實(shí)性話題,如圖3所示。由表8可知,在事件的初期,“悼念”話題在微博和新聞報(bào)道上的差異度是較小的,但是隨著時(shí)間的變化,這一話題在兩種媒體上的著重點(diǎn)也在發(fā)生著變化。 圖3 金正日去世事件中“悼念”話題在兩種媒體上隨時(shí)間的變化(前4個(gè)話題詞) 從演化圖上可以看出,“悼念”話題在30日左右便趨于消亡。在22日前和28日后,微博和新聞報(bào)道上討論“悼念”的內(nèi)容差別并不大。這主要是基于“悼念”是一個(gè)事實(shí)性話題。但是在23~27日這一時(shí)間段內(nèi),微博上討論了安理會(huì)拒絕為金正日默哀,和平壤的喜鵲也為金正日“哀悼”,同期的新聞報(bào)道上未見相關(guān)內(nèi)容。從討論內(nèi)容可以看出,微博上人們更樂于討論一些較隨意的內(nèi)容,特別是新聞報(bào)道為了宣傳需要而不方便報(bào)道的內(nèi)容。這也體現(xiàn)了微博話題的隨意性。比較而言,新聞報(bào)道則更側(cè)重于客觀事實(shí)。同時(shí)為了宣傳需要,也會(huì)刻意隱去一些相關(guān)報(bào)道。 本文首先使用LDA話題建模,發(fā)現(xiàn)兩種媒體中隱含的話題。接著,使用三個(gè)指標(biāo)——關(guān)注度、差異度和演化度去研究評(píng)論性話題與事實(shí)性話題在兩種媒體上的受關(guān)注程度、用詞的差異和演化趨勢(shì)。根據(jù)兩個(gè)特定事件的實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論: 1) 關(guān)于特定事件,兩種媒體上的話題不完全相同。微博上評(píng)論性話題較多,且關(guān)注度較高,新聞報(bào)道則是事實(shí)性話題較多,關(guān)注度較高。帶有調(diào)侃性的話題(如金正日去世事件中的俚語調(diào)侃)是微博上的特有話題,而純粹描述事件進(jìn)程的話題(如采訪事發(fā)、病情惡化)是新聞報(bào)道上的特有話題。同時(shí),微博上的話題之間的關(guān)注度差異不大,但新聞報(bào)道上的話題的關(guān)注度差異很大,即使是類似的話題,在不同時(shí)間的關(guān)注度波動(dòng)也很大。 2) 評(píng)論性話題在兩種媒體中的用詞差異較大,這也反映了網(wǎng)友在評(píng)論或發(fā)表看法時(shí)的用詞與新聞報(bào)道正規(guī)措詞存在很大差異。而事實(shí)性話題在兩種媒體中的詞匯差異較小。如“獨(dú)裁”這樣的評(píng)論性話題,微博上的重點(diǎn)詞匯有“獨(dú)裁者”、“國度”、“金日成”等,而新聞報(bào)道上使用的詞匯是“接班人”“委員長”等。而“哀悼”這樣的事實(shí)性話題,兩種媒體中的主要詞匯都集中在“逝世”、“哀悼”、“韓國”、“美國”、“表示”等,差異較小。 3) 微博上評(píng)論性話題持續(xù)時(shí)間較長,話題內(nèi)容隨時(shí)間變化較小,事實(shí)性話題反之;新聞報(bào)道事實(shí)性話題的持續(xù)時(shí)間較長,內(nèi)容隨時(shí)間變化較小,評(píng)論性話題反之。如“道德”這樣的評(píng)論性話題在微博上一直持續(xù),且內(nèi)容基本都是對(duì)道德淪喪的斥責(zé),新聞報(bào)道上該話題內(nèi)容隨時(shí)間一直有所變化;而“悼念”這樣的事實(shí)性話題,在新聞報(bào)道上一直持續(xù)且內(nèi)容變化不大,但在微博上,內(nèi)容隨時(shí)間不斷變化。 今后的工作將考慮如何進(jìn)一步更嚴(yán)謹(jǐn)?shù)靥剿髟掝}間的關(guān)聯(lián),從更多的角度去分析兩種媒體間話題的差異性。特別是針對(duì)更多種不同類型的話題,如自然災(zāi)害類話題、社會(huì)民生類話題、政治事件類等。這些話題有的起源于微博,有的起源于新聞報(bào)道,這些特點(diǎn)也可能在話題的差異分析中體現(xiàn)。 [1] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. [2] Blei D M, Lafferty J D. A Correlated Topic Model of Science[J]. The Annals of Applied Statistics 2007,1(1):17-35. [3] Blei D M, Lafferty J D. Dynamic Topic Model[C]//Proceedings of International conference on Machine Learning, 2006: 113-120. [4] Liangjie Hong, Davison B D. Empirical study of topic modeling in Twitter[C]//Proceedings of the SIGKDD Workshop on SMA,2008. [5] Xin Zhao, Jing Jiang, JianshuWeng, et al. Comparing Twitter and traditional media using topic models[C]//Proceedings of the European Conference on Information Retrieval, 2011. [6] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models[C]//Proceedings of AAAI on Weblogs and Social Media, 2010. [7] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2009. [8] Yan Qu, Chen Huang, Pengyi Zhang, et al. Microblogging after a Major Disaster in China: A Case Study of the 2010 Yushu Earthquake[C]//Proceedings of the ACM 2011 conference on Computer supported cooperative work, 2011: 25-34. [9] Vieweg S, Hughes A L, Starbird K, et al. MicrobloggingDuring Two Natural Hazards Events: What Twitter May Contribute to Situational Awareness[C]//Proceedings of the 28th International Conference on Human factors in computing systems, 2010: 1079-1088. [10] 楚克明,李芳. 基于LDA話題關(guān)聯(lián)的話題演化[J], 上海交通大學(xué)學(xué)報(bào),2010,44(11): 1501-1506.3.4 話題演化度計(jì)算
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
4.2 話題關(guān)注度分析
4.3 話題差異度分析
4.4 話題演化度分析
5 結(jié)論與展望