推特上中國形象的主題與情感分析

2017-05-04 14:14肖明易紅發(fā)

對外傳播 2017年3期

肖明+易紅發(fā)

國家形象是一個國家的綜合實力（即硬實力和軟實力的總和）和核心價值觀的體現(xiàn)，是一個國家在國際社會中所展示的整體面貌，以及國際社會對其綜合實力、核心價值觀和整體面貌的感受和評價。

傳統(tǒng)的國家形象研究有兩種途徑，一是對媒體上特別是主流報紙上有關中國的報道進行內(nèi)容分析，二是針對民眾進行調(diào)查，來了解外國民眾對中國的評價。

自2006年推特（Twitter）誕生以來，自媒體或稱社交媒體成了傳統(tǒng)媒介機構與公眾發(fā)表意見的新平臺。本研究中，我們采用文本挖掘技術，對推特上涉及中國的英文熱門推文進行了分析。研究目的是了解和描述推特英語用戶在發(fā)布的熱門推文中，涉及中國時關注的是哪些主題，呈現(xiàn)出來的態(tài)度及情感又是怎樣的，以期對對外傳播工作有所啟示。

一、研究方法

推特平臺上共有超過30種的語言版本，但主要語言為英語，本研究以英文版本為研究范圍，研究對象是海外媒體及公眾所發(fā)布的涉及中國、中國人的熱門推文。采用新興的文本挖掘方法，對非結構化的推文文本進行挖掘和處理，工作流程包括了文本的獲取、分詞與過濾、主題建模、情感分析四個步驟。

1.文本數(shù)據(jù)的獲取

在獲取文本數(shù)據(jù)過程中，我們不區(qū)分大小寫，以“China”或者“Chinese”為關鍵詞對熱門推文進行了檢索。熱門推文是被轉推或被收藏過的推文。搜索熱門推文而不是全部推文，主要是考慮到了熱門推文的影響力以及工作量問題。所搜索語言為英語，這主要是考慮到推特用戶的主要語言為英語，用戶所發(fā)布的推文也多為英文。推特是在2006年3月開始運營的，本研究的數(shù)據(jù)收集時間是在2014年初，所以搜索的時間周期為2006年3月到2013年12月。

利用爬蟲軟件GooSeeker對檢索出來的熱門推文進行了抓取。GooSeeker是火狐瀏覽器的插件，包括兩個部分：定義提取規(guī)則的MetaStudio和用于信息采集DataScraper。利用爬蟲技術獲得的原始數(shù)據(jù)包括四個字段，分別是“用戶名”“昵稱”“推文發(fā)布日期”，以及“推文文本”。其中“用戶名”和“昵稱”是用戶屬性數(shù)據(jù)；“推文發(fā)布日期”是推文屬性數(shù)據(jù)；“推文文本”屬于內(nèi)容數(shù)據(jù)，是文本形式的，“推文發(fā)布日期”是我們要進行分析的非結構化數(shù)據(jù)。

第一條含關鍵詞“China”或“Chinese”的熱門推文發(fā)布于2006年4月30日，推文內(nèi)容如下：

picking up two out-of-state twitterers， heading out for the best Chinese in SF - Elizas.

因為本研究所關心的是外國人如何呈現(xiàn)中國形象，所以去除了中國人或中國機構所發(fā)布的推文。首先，我們認定“昵稱”中含中文字符的用戶是中國人，刪除他們所發(fā)的推文，共計26，318條。其次，我們認定用戶名或昵稱中含“China”或“Chinese”的用戶也與中國有關，去除他們所發(fā)的推文，共計53，212條。最終獲得有效的熱門推文一共是842，917條。

2.文本預處理

對推文的預處理包括了分詞和過濾，主要運用自然語言處理技術（NLP），利用Python的nltk包進行了操作。

我們的研究對象是推特上的英文的涉華推文，分詞方法就是簡單的基于空格和標點符號的英文分詞法。

過濾是指過濾掉文本中的html鏈接、@人名、標點符號，以及不必要的空格。同時過濾掉非英文字母、數(shù)字、小于或等于三個字符的詞（這些詞，如the、or、and等絕大多數(shù)為無意義的虛詞），同時在停用詞（Stop Words）表的基礎上，過濾掉停用詞。最后將所有英文字母轉換為小寫。

3.主題建模及主題命名

主題建模（topic modeling）是本研究中最為關鍵的一步，利用Stanford TMT 0.4.0軟件對涉華推文的主題進行LDA（狄利克雷分配模型）建模。Stanford TMT由斯坦福自然語言處理小組（The Stanford Natural Language Processing Group）開發(fā)，基于JAVA，用Scala編寫，有完整的API文檔。LDA建模方法是基于無監(jiān)督的機器學習技術，不采用任何的主觀方法去標識推文，能夠更為客觀地發(fā)現(xiàn)文本中是否存在著潛在主題。

經(jīng)過了反復的測試，本研究最終選擇最大迭代次數(shù)為1000，常見詞過濾數(shù)量為20的結果，最終從80多萬條推文中提取了30個主題。

對于所提取的30個主題，軟件輸出結果中會給出每個主題所對應的前20個關鍵詞以及每個關鍵詞的貢獻度。根據(jù)各個主題所包含的關鍵詞的特點，經(jīng)過反復討論，最終對各個主題進行了命名。

4.情感分析

本研究的情感分析（sentiment analysis）應用機器學習技術，采用樸素貝葉斯（Naive Bayes）算法，對每一條推文的極性與情感進行識別。具體的操作采用了R語言中的sentiment包。

R語言中的sentiment包在識別極性（polarity）時，會先為每條推文的每種可能極性打分。即每條推文都有兩種可能性negative（消極、負向、否定）和positive（積極、正向、肯定）的得分。當兩種極性得分相差較大時，則極性擬合為得分較高的極性類別。當兩種極性得分相差不大時，則擬合一種新的極性類別，即neutral（中立）。

R語言中的sentiment包在識別情感時，共有六種情感：anger（憤怒）、disgust（厭惡）、fear（恐懼）、joy（喜悅）、sadness（悲傷）和surprise（驚奇）。在分析時會先為每條推文的每種可能情感打分。當六種情感可能性中有一種可能性的得分特別突出，那么該推文的實際情感就擬合為該類別。如果六種情感可能性得分相差不大時，則情感類別擬合為unknow（未知）。如此可知，如果某條推文被擬合得到某一類情感，則該情感一定是強烈的情感。

二、研究結果

1.涉華推文的主題分布

本研究采用LDA主題建模方法把80多萬條涉華熱門英文推文凝聚為30個主題，各個主題的名稱及其占所有主題的百分比如表1所示。

可以看到，涉華熱門推文中有關飲食的主題有三個，根據(jù)場景的不同分別為“飲食與家庭生活”“飲食與娛樂”，以及“飲食與學校生活”，三個主題合計為10.98%。即有關中華飲食的推文所占比例最高，推特用戶中最關心的中國議題是飲食。

在飲食主題之后的占比數(shù)量多的五個主題依次是：“亞洲局勢”“美國總統(tǒng)選舉”“金融市場”“社會化媒體”，以及“經(jīng)濟增長”，這五個主題累計百分比為26%，超過了四分之一。

在國家形象研究中，常見的主題分類是政治、經(jīng)濟、社會及文化的四分法，這也是傳統(tǒng)調(diào)查法和內(nèi)容分析方法比較經(jīng)常采用的分類法。

按照政治、經(jīng)濟、社會及文化的四分法，本研究中利用主題模型生成的“亞洲局勢”“美國總統(tǒng)選舉”“地區(qū)爭端”“西藏話題”“媒介審查”“人權話題”“港臺話題”“政治丑聞”，以及“計劃生育”等九個主題屬于政治范疇，所占比例為32.6%。

屬于經(jīng)濟類的主題包括“金融市場”“經(jīng)濟增長”“奢侈品市場”“蘋果產(chǎn)品”“污染與健康”，以及“航天與探月工程”，共六項，所占比例為20%。

屬于文化類的包括“大熊貓與長城”“閱讀與諺語”“好萊塢電影”“學校學習”“語言學習”“韓流”，以及“傳統(tǒng)醫(yī)學”，共七個主題，所占比例為21%。

屬于社會類的主題包括“社會化媒體”“飲食與家庭生活”“自然災害與治安”“飲食與娛樂”“飲食與學校生活”“奧運會”“城市生活”，以及“籃球與足球”，共計八個，所占比例為26.4%。

2.不同年份及不同議題的極性分析

通過極性分析，我們發(fā)現(xiàn)所分析的80多萬條英文涉華熱門推文中，有54.81%的推文極性為積極正向的；消極負向的推文占31.99%；中立推文比例為13.20%。

歷時來看，2006年的數(shù)據(jù)因為數(shù)量很少，忽略不記。從2007年到2013年各年度的極性變化是不大的。負面評價的標準差為1.87%，正面評價的標準差為1.32%，中性評價的變化范圍最小，標準差不到1%。

從變化的情況來看，2008年的推文積極正面的評價比例最低，為52%；消極負面評價的比例為35.65%，是歷年來最高的。2008年中國發(fā)生的重大事件包括北京奧運會、汶川地震、毒奶粉事件，以及全球性的金融危機。

按照政治、經(jīng)濟、文化、社會四個大類別來看，在政治類議題中，積極正面的評價為54.73%，略低于經(jīng)濟、社會及文化議題中正面評價的比例。

3. 不同年份及不同議題的情感分析

總體來看，只有25.54%的推文表現(xiàn)出了強烈的情感。近四分之三的推文都沒有表現(xiàn)出強烈的情感，情感擬合為unknown。

歷時來看，隨著時間的推移，涉華熱門推文表現(xiàn)出強烈情感的比例越來越多。在2007年，只有20.1% 表達出了強烈的情感，而2013年，這個比例已經(jīng)提升到26.5%。這表明，就中國議題而言，推特用戶越來越傾向于表達出強烈的情感。

從所表達出來的情感來看，比例最高的情感是喜悅，占比14.19%；其次為憤怒，占3.49%；排在第三位的情感是難過，比例為3.07%。

從居前兩位的情感joy和anger的變化來看，joy呈現(xiàn)出逐年提高的趨勢，這說明涉華熱門推文中，含有喜悅情感的比例越來越多；而anger呈現(xiàn)出小幅上下波動的態(tài)勢。

從議題來看，社會類和文化類議題中表現(xiàn)出強烈情感的比例都在27%上下；而經(jīng)濟、政治類議題中具有強烈情感的比例都不足25%。

三、結論

本研究著眼于推特上英文用戶對有關中國議題的呈現(xiàn)，采用爬蟲程序獲取數(shù)據(jù)，利用NLP技術對數(shù)據(jù)進行預處理，采用主題建模和情感分析兩種技術對數(shù)據(jù)進行處理，得到以下結論：

1.從數(shù)量上看，英文涉華熱門推文的數(shù)量在逐年增加。表明世界對中國及中國相關事物的關注度在持續(xù)提高。

2.“飲食”成為英文涉華熱門推文中關注度最高的主題，超過十分之一的推文都與中國飲食有關。

3.從政治、經(jīng)濟、文化和社會四大類議題來看，英文涉華熱門推文中政治類主題所占比例最高。

4.英文涉華熱門推文總體上的極性以積極正向為主。總的來看，推文中只有四分之一表現(xiàn)出了明顯的情感，從表現(xiàn)出來的情感的情況來看，喜悅高居第一位，然后依次是生氣和難過。從各年度歷時來看，表現(xiàn)出喜悅情感的比例有上升的趨勢。

（本研究為中國傳媒大學亞洲傳媒中心資助項目“西方自媒體中的中國形象研究”的階段性成果）

「參考文獻」

1.張培晶、宋蕾：《基于LDA的微博文本主題建模方法研究述評》，《圖書情報工作》，2012年第12期。

2.趙妍妍等：《文本情感分析》，《軟件學報》，2010年第8期。

3.Hofmann T. （2001）. Unsupervised learning by probabilistic latent semantic analysis [J]. Machine Learning， 42（1）： 177-196.

4.Blei D， Ng A， Jordan M.（2003）. Latent Dirichlet allocation [J]. Journal of Machine Learning Research， 2003（3）：993-1022.

5.OConnor， Brendan； Balasubramanyan， Ramnath； Routledge Bryan R.； and Smith， Noah A.. ‘ From Tweets to Polls： Linking Text Sentiment to Public Opinion Time Series（2010）.Tepper School of Business. Paper 559.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

推特上中國形象的主題與情感分析