張林泉
(廣東女子職業(yè)技術(shù)學(xué)院)
黨的十九大召開以來(lái),如何讓十九大精神往深處走、往心里去、往實(shí)里落,一直是人們關(guān)注的大事.針對(duì)存在理論學(xué)習(xí)思想認(rèn)識(shí)站位不高、觀點(diǎn)理解不深、思想脈絡(luò)含糊不清、框架掌握不全等問題,給出文本分析新視角,豐富研究手段,開展思維導(dǎo)圖政治學(xué)練,文本挖掘都是十分重要的.以習(xí)近平十九大報(bào)告、講話等文本為研究對(duì)象,基于Python自然語(yǔ)言處理方法,運(yùn)用語(yǔ)料庫(kù),探索引入數(shù)據(jù)挖掘方法進(jìn)行理論學(xué)習(xí),創(chuàng)新理論武裝新模式,旨在有計(jì)劃地提升理論學(xué)習(xí)的系統(tǒng)性、整體性和連貫性,提高政治站位,堅(jiān)定維護(hù)核心,堅(jiān)守精神高地,永葆政治本色,切實(shí)學(xué)深悟透,真正做到學(xué)思用貫通、知信行統(tǒng)一.
思維導(dǎo)圖作為一種可視化教學(xué)輔助工具已引起中外學(xué)者的廣泛關(guān)注[1].以思維導(dǎo)圖的形式分析比以文本的形式具體寫出來(lái)更快、更具體、更形象,能夠從全局上把握十九大內(nèi)容.思維導(dǎo)圖研究可以提供一種有效的宏觀分析框架,能提綱挈領(lǐng)地從整體上把握十九大報(bào)告的理論價(jià)值和現(xiàn)實(shí)價(jià)值.有利于深化拓寬思想政治教育研究的視野;有利于進(jìn)一步完善研究方法,推動(dòng)課程改革創(chuàng)新;豐富和發(fā)展新時(shí)代中國(guó)特色社會(huì)主義教育的理論內(nèi)容;有利于學(xué)習(xí)貫徹落實(shí)新思想、新論斷.依據(jù)十九大報(bào)告,參考習(xí)近平談治國(guó)理政、黨章、習(xí)近平相關(guān)重要論述等相關(guān)資料法規(guī),分三大板塊、十三部分梳理制作了十九大報(bào)告全文(中英版)的思維導(dǎo)圖,理清了重大理論的“思維脈絡(luò)”.思維導(dǎo)圖可以展示黨的十九大報(bào)告的邏輯結(jié)構(gòu)[2](如圖1所示),黨的十九大報(bào)告總體框架的邏輯體系[3],習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想和基本方略的邏輯結(jié)構(gòu)[4-6],“四個(gè)偉大”的內(nèi)在邏輯[7-11].
圖1 黨的十九大報(bào)告的邏輯結(jié)構(gòu)
詞云圖是文本挖掘中最重要的可視化技術(shù),它應(yīng)用核心詞匯的字體體積衡量詞頻的大小,配以不同的顏色和形狀,更直觀地反映詞匯的重要性差異.詞云圖通過對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,使文本的閱讀者僅需快速瀏覽便可把握文本中的核心信息.知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于迅速描述物理世界中的實(shí)體、概念、屬性、相互關(guān)系等.Shiffrin R M認(rèn)為知識(shí)圖譜的研究目的是幫助研究者簡(jiǎn)化海量復(fù)雜的信息,揭示知識(shí)發(fā)展結(jié)構(gòu),研究方法是發(fā)現(xiàn)數(shù)據(jù)信息處理和繪制圖形[12].對(duì)文本數(shù)據(jù)基于Python 的第三方庫(kù) jieba、WordCloud 、NLTK(Natural Language Toolkit) 進(jìn)行分詞和基于“詞頻-逆文本頻率” (TF-IDF,Term Frequency- Inverse Document Frequency)提取關(guān)鍵詞、去停用詞和統(tǒng)計(jì)詞頻,生成詞云.Gephi是一個(gè)開源跨平臺(tái)基于JVM的復(fù)雜網(wǎng)絡(luò)分析可視化軟件,可用于探索數(shù)據(jù)分析、鏈路分析、社交網(wǎng)絡(luò)分析、生物網(wǎng)絡(luò)分析等[13].對(duì)文本關(guān)鍵詞提取(information extraction) ,建立共現(xiàn)矩陣,進(jìn)行主題關(guān)鍵詞共現(xiàn)分析,利用復(fù)雜網(wǎng)絡(luò)分析軟件Gephi構(gòu)建主題知識(shí)圖譜,揭示高頻詞之間存在的潛在聯(lián)系,獲取文本的基本框架.文本文件和圖2表明:中國(guó)特色社會(huì)主義是改革開放以來(lái)黨的全部理論和實(shí)踐的主題,“八個(gè)明確”和“十四個(gè)堅(jiān)持”從理論和實(shí)踐結(jié)合上系統(tǒng)回答新時(shí)代堅(jiān)持和發(fā)展什么樣的中國(guó)特色社會(huì)主義、怎樣堅(jiān)持和發(fā)展中國(guó)特色社會(huì)主義.“發(fā)展”這個(gè)詞的節(jié)點(diǎn)中介中心度(betweenness centrality)值568.85在整個(gè)語(yǔ)義網(wǎng)絡(luò)中最高,凸顯了“發(fā)展”在語(yǔ)義網(wǎng)絡(luò)中極高的重要性.
圖2 十九大報(bào)告知識(shí)圖譜
圖3 深圳方案(2020~2025)詞云
圖4 抗擊疫情表彰講話詞云
詞云、知識(shí)圖譜的文本挖掘方法,在整體把握習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想的邏輯架構(gòu)和特點(diǎn)上,具有重要價(jià)值,有助于更清晰地把握新思想引領(lǐng)下中國(guó)改革發(fā)展的脈絡(luò).《深圳建設(shè)中國(guó)特色社會(huì)主義先行示范區(qū)綜合改革試點(diǎn)實(shí)施方案(2020~2025年)》中提出了新時(shí)代黨中央賦予深圳的歷史使命,如圖3所示.黨中央支持深圳實(shí)施綜合改革試點(diǎn),以清單批量授權(quán)方式賦予深圳在重要領(lǐng)域和關(guān)鍵環(huán)節(jié)改革上更多自主權(quán).深圳要在重要領(lǐng)域推出一批重大改革措施,形成一批可復(fù)制可推廣的重大制度創(chuàng)新成果.習(xí)近平使用“十個(gè)必須堅(jiān)持”總結(jié)經(jīng)濟(jì)特區(qū)40年改革開放、創(chuàng)新發(fā)展積累的寶貴經(jīng)驗(yàn),對(duì)新時(shí)代經(jīng)濟(jì)特區(qū)在更高起點(diǎn)上推進(jìn)改革開放作出了六方面重大戰(zhàn)略部署.體現(xiàn)了新時(shí)代中國(guó)特色社會(huì)主義思想、“十四個(gè)堅(jiān)持”與深圳40周年的講話“十個(gè)必須堅(jiān)持”一脈相承,必須倍加珍惜、長(zhǎng)期堅(jiān)持,在實(shí)踐中不斷豐富和發(fā)展.由圖5~7可見“發(fā)展”、“和平”為時(shí)代的主題.發(fā)展為了人民,發(fā)展依靠人民,十九屆五中全會(huì)為全面把握新發(fā)展階段,全面貫徹新發(fā)展理念,推動(dòng)更高質(zhì)量、更有效率、更加公平、更可持續(xù)、更為安全的發(fā)展,著力構(gòu)建新發(fā)展格局指明了前進(jìn)的方向.
圖5 深圳40周年講話知識(shí)圖譜
圖6 抗美援朝70周年講話詞云
圖7 黨的十九屆五中全會(huì)公報(bào)詞云
文本情感分析是自然語(yǔ)言處理的一個(gè)重要部分,與語(yǔ)音情感分析類似,通過處理提取給定文本中的信息來(lái)衡量說(shuō)話者、作者的觀點(diǎn)、感覺、態(tài)度和情緒,廣泛用于分析公司調(diào)查、反饋、社交媒體、電影評(píng)論、商品、用戶評(píng)論等,其構(gòu)想是分析人們對(duì)一個(gè)特定實(shí)體的反應(yīng),并采取基于他們的情感的有見地的行動(dòng)[14].VADER是一個(gè)基于詞典和規(guī)則的情感分析開源python庫(kù),可輸入想要識(shí)別的文本進(jìn)行情感分析.針對(duì)通用場(chǎng)景下帶有主觀描述的文本,自動(dòng)判斷該文本的情感極性類別并給出相應(yīng)的置信度,情感極性分為中立、積極、消極、復(fù)合.以十九大報(bào)告全文(英版)“14個(gè)堅(jiān)持”前4個(gè)為例,表1給出了情感極性分析值,多項(xiàng)呈現(xiàn)積極、中立、消極、復(fù)合的傾向,其中,堅(jiān)持全面深化改革積極值為1(見表1).
表1 情感分析
短語(yǔ)結(jié)構(gòu)樹(constituent tree)與依存樹(dependency tree)是自然語(yǔ)言處理(Natural Language Processing, NLP)中的兩種典型的樹結(jié)構(gòu)[15].短語(yǔ)結(jié)構(gòu)樹用來(lái)表達(dá)句子的句法結(jié)構(gòu),其只有葉子結(jié)點(diǎn)與輸入句子中的詞語(yǔ)相關(guān)聯(lián),其他中間結(jié)點(diǎn)都是標(biāo)記短語(yǔ)成分如圖8所示.句法分析主要揭示語(yǔ)言成分的關(guān)系,重視該成分在句法結(jié)構(gòu)的作用.
依存樹用來(lái)揭示句子中詞與詞的依存關(guān)系,分析識(shí)別句子中的“主謂賓”、“定狀補(bǔ)”等語(yǔ)法成分,以更好地理解語(yǔ)義關(guān)系,其每個(gè)結(jié)點(diǎn)都是一個(gè)詞語(yǔ)如圖9所示.
圖8 短語(yǔ)結(jié)構(gòu)樹constituent tree
圖9 依存結(jié)構(gòu)樹dependency tree
綜上所述,利用Python多樣化自然語(yǔ)言處理方法,對(duì)文本文件的內(nèi)容進(jìn)行系統(tǒng)深入研究,在全面系統(tǒng)的基礎(chǔ)上,抓住關(guān)鍵信息、挖掘隱含信息、突出重點(diǎn),提高理論研究效率.首先,通過詞云對(duì)文本中出現(xiàn)高頻詞,把握文本中的核心信息;其次,通過知識(shí)圖譜,進(jìn)行主題關(guān)鍵詞共現(xiàn)分析,揭示高頻詞之間存在的潛在聯(lián)系、內(nèi)在信息,獲取文本的基本框架,形象化地展示信息;再次,通過情感分析,對(duì)信息進(jìn)行分析和決策;最后,通過結(jié)構(gòu)分析,揭示語(yǔ)言成分的關(guān)系和句子中詞與詞的依存關(guān)系,更加客觀分析其內(nèi)在的信息,更好地理解語(yǔ)義關(guān)系.梳理這些體系的邏輯結(jié)構(gòu),探討和尋找它們之間的內(nèi)在聯(lián)系,對(duì)于更好地從宏觀上把握、微觀中領(lǐng)悟,進(jìn)而更加深入地學(xué)習(xí)領(lǐng)會(huì)好黨的十九大精神和習(xí)近平系列講話,落實(shí)工作部署,具有重要作用.
哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào)2020年6期