法陳雪 胡曉峰 徐浩
摘 要:針對(duì)當(dāng)前短文本的突發(fā)事件分析不能較為簡(jiǎn)易且準(zhǔn)確地描述事件發(fā)展過(guò)程的問(wèn)題,提出一種新的基于短文本的突發(fā)事件發(fā)展過(guò)程表示方法。首先,提出一種事件狀態(tài)值,它被用于描述事件在各個(gè)時(shí)間點(diǎn)的狀態(tài),以便于用戶(hù)分析事件的發(fā)展過(guò)程;其次,根據(jù)短文本的結(jié)構(gòu)化信息,將事件狀態(tài)值從文本信息和用戶(hù)信息兩個(gè)方面考慮;然后,考慮文本信息的影響因子,構(gòu)造相關(guān)公式計(jì)算文本信息權(quán)重;再次,考慮用戶(hù)信息的影響因子,提出一種改造的PageRank算法和用戶(hù)分層思想,構(gòu)造相關(guān)公式計(jì)算用戶(hù)信息權(quán)重;最后,根據(jù)文本信息權(quán)重和用戶(hù)信息權(quán)重計(jì)算事件狀態(tài)值。實(shí)驗(yàn)結(jié)果表明依次考慮用戶(hù)信息、采用改造的PageRank算法以及采用分層思想均能修正1~2個(gè)描述點(diǎn),提高事件發(fā)展過(guò)程表示的準(zhǔn)確度。
關(guān)鍵詞:事件分析;PageRank;分層;短文本;狀態(tài)值
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A英文標(biāo)題