陳思杭 王文宏 曾夢緣 宋文明 姜思羽
摘? 要:近年來全球局勢緊張,大國關(guān)系愈發(fā)錯綜復(fù)雜,對當(dāng)前國際形勢進行研究分析已成為各國政府的重要使命。采用大數(shù)據(jù)與數(shù)據(jù)挖掘等技術(shù),對中國與別國于各領(lǐng)域的往來數(shù)據(jù)進行采集,并通過NLP、熵權(quán)法等方法對所得數(shù)據(jù)做分析處理,最后以數(shù)據(jù)可視化技術(shù)將其呈現(xiàn),以直觀展示中國國際關(guān)系的變化,令更多民眾了解國家外交之動態(tài)與大國之風(fēng)采。其數(shù)據(jù)結(jié)果呈現(xiàn)方式多樣,為促進民眾了解當(dāng)前國際形勢及中國國際關(guān)系提供了一定研究思路。
關(guān)鍵詞:國際關(guān)系;數(shù)據(jù)分析;數(shù)據(jù)可視化;爬蟲技術(shù);自然語言處理
中圖分類號:TP391? 文獻標(biāo)識碼:A? 文章編號:2096-4706(2023)04-0177-04
Application of Entropy Weight Method in Visualization Analysis of China's International Relations
CHEN Sihang1, WANG Wenhong1, ZENG Mengyuan1, SONG Wenming2, JIANG Siyu1
(1.School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou? 510006, China;
2.Guangzhou Automobile Group Co., Ltd., Guangzhou? 510623, China)
Abstract: In recent years, the global situation has become increasingly tense, and the relations between major countries have become increasingly complex. It has become an important mission of national governments to study and analyze the current international situation. This paper uses big data, data mining and other technologies, collects the communication data between China and other countries in various fields, analyzes and processes the obtained data through NLP, entropy weight method and other methods. Finally, it visually shows the change of China's international relations with data visualization technology, which makes more people understand the dynamic of national diplomacy and great power of country. The data results are presented in various ways, which provides some research ideas for promoting the public to understand the current international situation and China's international relations.
Keywords: international relations; data analysis; data visualization; crawler technology; natural language processing
0? 引? 言
邁入21世紀,當(dāng)今世界正由“信息時代”逐步轉(zhuǎn)向“數(shù)據(jù)時代”[1],隨著全球關(guān)系的日益緊密,國家貿(mào)易交易金額、投資額等海量數(shù)據(jù)不斷累積,一系列數(shù)據(jù)清晰反映了國際關(guān)系的動態(tài)變化。而近年來伴隨著新冠疫情復(fù)雜嚴峻的發(fā)展態(tài)勢[2]、俄烏戰(zhàn)爭爆發(fā)等一系列國際事件的影響,國際形勢不穩(wěn)定性、不確定性大幅增加,大國關(guān)系更趨錯綜復(fù)雜,國與國之間的貿(mào)易、經(jīng)濟和文化等發(fā)展情況多元且不可測,其不穩(wěn)定性與可塑性均有所上升。對國際交往中的海量數(shù)據(jù)進行合理分析,可清晰地掌握各國國際關(guān)系及當(dāng)前國際形勢,并幫助相關(guān)從業(yè)人員在處理有關(guān)事務(wù)時作出更為準(zhǔn)確的判斷。對此,本文基于自然語言處理與大數(shù)據(jù)技術(shù),結(jié)合數(shù)據(jù)挖掘與數(shù)據(jù)可視化方法,對中國與其他各國在政治、經(jīng)濟、文化等六大領(lǐng)域的往來數(shù)據(jù)[3]進行采集與分析,并將相關(guān)結(jié)果以可視化形式動態(tài)呈現(xiàn),使數(shù)據(jù)豐富立體化,旨在展示中國國際關(guān)系變化情況,同時更直觀地觀察各國與中國在經(jīng)濟、文化等方面的聯(lián)系密切程度,令更多群眾了解國家外交之動態(tài)與大國之風(fēng)采,系統(tǒng)主體框架如圖1所示,具體實現(xiàn)過程如下:首先利用Python所提供的BeautifulSoup等相關(guān)庫,對國別區(qū)域與全球治理數(shù)據(jù)平臺、外交部官網(wǎng)等相關(guān)網(wǎng)站的文本及數(shù)值數(shù)據(jù)進行采集,并對所獲數(shù)據(jù)通過Python及Excel等工具進行數(shù)據(jù)清洗與預(yù)處理;隨后對于所得數(shù)據(jù)利用熵權(quán)法等算法進行國家合作度評分、話題熱度指數(shù)等計算;最后采用詞云圖、氣泡圖等方式進行文本數(shù)據(jù)可視化,通過繪制餅圖、折線圖、儀表盤等方式對數(shù)值型數(shù)據(jù)進行可視化呈現(xiàn)。
1? 相關(guān)研究
國際關(guān)系歷來是相關(guān)領(lǐng)域?qū)W者重點研究的議題,對國際關(guān)系展開研究,有利于我國了解國際形勢,把握自身國際地位,在國際交往中掌握主動權(quán)。然而其復(fù)雜性、不確定性以及龐大的數(shù)據(jù)量也為相關(guān)的研究分析帶來巨大挑戰(zhàn)。近年來,基于國際關(guān)系分析的研究多以文本或研究報告的形式展示,各學(xué)者研究角度亦有所不同。南京師范大學(xué)薛浩男等以網(wǎng)絡(luò)新聞文本為數(shù)據(jù)源,結(jié)合信息計算與地理視角,力圖將國際關(guān)系與地理學(xué)相融合,對國際關(guān)系進行分析[4]。吉林大學(xué)齊嘯天則利用大數(shù)據(jù)分析技術(shù),將大數(shù)據(jù)研究與國際政治預(yù)測相結(jié)合,通過文獻梳理、實例分析及比較研究等方法對國際關(guān)系及國際形勢作出研判預(yù)測[5]。北京郵電大學(xué)王駿提出了基于文本挖掘的國際關(guān)系網(wǎng)絡(luò)研究,通過文本挖掘從大規(guī)模文本中構(gòu)建國際關(guān)系網(wǎng)絡(luò),同時利用可視化技術(shù)對所構(gòu)建的網(wǎng)絡(luò)進行分析與展示[6]。綜上所述,當(dāng)前有關(guān)國際關(guān)系的研究已經(jīng)取得一定成果,但目前從可視化角度出發(fā)對相關(guān)結(jié)果進行分析展示的研究仍相對較少,因此本文立足于國際關(guān)系分析與可視化技術(shù),力圖將分析所得數(shù)據(jù)與可視化展示相結(jié)合,打造良好呈現(xiàn)效果。
2? 模型和算法
本文采用熵權(quán)法進行國別合作度評分計算。熵權(quán)法是一種客觀賦權(quán)方法[7],在具體使用過程中,該算法根據(jù)各指標(biāo)數(shù)據(jù)的分散程度,利用信息熵計算出各指標(biāo)的熵權(quán),再根據(jù)各指標(biāo)對熵權(quán)進行一定的修正,從而得到較為客觀的指標(biāo)權(quán)重;因此,結(jié)合熵權(quán)法與國家信息中心所供評分標(biāo)準(zhǔn)[8],可對中國與其他各國的合作度作出評價。
國別合作度評分是考量中國和其他國家關(guān)系的重要指標(biāo),能夠直觀地體現(xiàn)兩國之間的關(guān)系,合作度評分越高,則兩國關(guān)系越緊密,如評分20以下為其他關(guān)系,評分90以上則為戰(zhàn)略協(xié)作伙伴關(guān)系等。對于國別合作度的評分計算,結(jié)合國家信息中心大數(shù)據(jù)發(fā)展部[9]提供的國別合作度測評指標(biāo),本文決定采用“投資合作”“會議報道”“文件項目”“貿(mào)易合作”等10項指標(biāo)評價中國與其他國家合作度綜合評分。首先,將歸一化后的指標(biāo)數(shù)據(jù)按式(1)計算概率:
(1)
其中,pij表示第i個數(shù)據(jù)的第j項指標(biāo)所對應(yīng)的概率,rij表示第i個數(shù)據(jù)的第j項指標(biāo)所對應(yīng)的歸一化結(jié)果,n表示數(shù)據(jù)的數(shù)量。
而為了更好地確定各指標(biāo)的權(quán)重,本文采用信息熵來描述各指標(biāo)含量的不確定性,按式(2)計算信息熵:
(2)
其中,Ej表示第j項指標(biāo)的信息熵,pij表示第i個數(shù)據(jù)的第j項指標(biāo)所對應(yīng)的概率,n表示數(shù)據(jù)的數(shù)量。
為提高數(shù)據(jù)的抗干擾能力,本文對所得信息熵按式(3)計算冗余度:
Dj=1-Ej? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
其中,Dj表示第j項指標(biāo)的冗余度,Ej表示第j項指標(biāo)的信息熵。得到冗余度后,按式(4)計算權(quán)重:
(4)
其中,Wj表示第j項指標(biāo)的權(quán)重,Dj表示第j項指標(biāo)的冗余度,m表示指標(biāo)的數(shù)量。以中國與新加坡國別合作度為例,本文對相關(guān)指標(biāo)進行權(quán)重計算,并對權(quán)重排名前5的指標(biāo)進行展示,如表1所示。
最后,依據(jù)式(5)求出合作度綜合得分:
(5)
其中,aij表示第i個數(shù)據(jù)的第j項指標(biāo)所對應(yīng)的數(shù)值,Wj表示第j項指標(biāo)所對應(yīng)的權(quán)重,m表示指標(biāo)的數(shù)量。綜合得分越高,說明該國家與中國的國際關(guān)系越密切。
3? 數(shù)據(jù)可視化
本文參考國別區(qū)域與全球治理數(shù)據(jù)平臺所構(gòu)建的數(shù)據(jù)分類模式,分別從政治、經(jīng)濟、文化等六大領(lǐng)域?qū)χ袊鴩H關(guān)系展開分析,并對所得文本及數(shù)值型數(shù)據(jù)以詞云圖、折線圖、氣泡圖等形式進行可視化呈現(xiàn)。
此處以新加坡與中國國際關(guān)系有關(guān)數(shù)據(jù)為例進行部分指標(biāo)可視化展示,其中,“投資合作”指標(biāo)和“旅游與文化”指標(biāo)采用折線圖的可視化方式,“會議報道”和“文件項目”指標(biāo)采用詞云圖的可視化方式,“貿(mào)易合作”指標(biāo)采用氣泡圖和折線圖相結(jié)合的可視化方式。本文選用10個指標(biāo)進行熵權(quán)法計算,最終采用儀表盤的形式將國別合作度評分結(jié)果進行可視化。
3.1? “投資合作”和“旅游與文化”指標(biāo)
“投資合作”指標(biāo)是中新國別合作度綜合評分計算的重要指標(biāo)之一,如圖2所示,本文通過熱度指數(shù)計算得到一定時間區(qū)間內(nèi)中新兩國之間與“通信”相關(guān)的投資合作熱度指數(shù)的變化,并采用折線圖的方式進行呈現(xiàn)。與此同時,本文將熱度指數(shù)進行歸一化,以更好地將其作為評價指標(biāo)之一帶入熵權(quán)法的合作度評分計算中。
如圖3所示,本文將中新兩國自1994年至2016年以來的旅客入境情況繪制成折線圖,一方面實現(xiàn)數(shù)據(jù)可視化展示,另一方面該數(shù)據(jù)也屬于國別合作度評分中“旅游與文化”這一指標(biāo)的一部分,從圖中可看出從1994年至2016年中新經(jīng)濟“旅客入境”數(shù)量總體呈上升趨勢,進而得出中新旅游業(yè)發(fā)展關(guān)系密切的結(jié)論。
3.2? “會議報道”和“文件項目”指標(biāo)
TF-IDF算法是一種用于信息檢索與數(shù)據(jù)挖掘的統(tǒng)計方法,其中TF表示詞頻,IDF表示逆文本頻率指數(shù),該算法用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度[10],字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF算法對使用熵權(quán)法計算合作度評分中確定“會議報道”和“文件項目”這兩個指標(biāo)的權(quán)重有著重要作用。本文將前期所采集到的中國與其他國家在經(jīng)濟、文化、政治等方面的有關(guān)文章使用Python所供jieba庫進行分詞與去除停用詞后最終得到有效詞語,再通過TF-IDF算法進行計算,將得到的詞語按TF-IDF值進行排序。
圖4為中國與新加坡兩國在經(jīng)濟類別中TF-IDF值排名前50的詞語,從圖中可以看出,中新兩國經(jīng)濟在“通信”“信息”與“創(chuàng)新”等關(guān)鍵詞中交流密切,聯(lián)系緊密。
3.3? “貿(mào)易合作”指標(biāo)
本文采用“時間軸”和“比例氣泡圖”相結(jié)合的方式對“貿(mào)易合作”指標(biāo)的相關(guān)數(shù)據(jù)進行呈現(xiàn)。圖5展示了中國與新加坡兩國間進出口產(chǎn)品的占比情況,氣泡越大,則占比越大,該可視化方式有利于直觀地展示在同一年內(nèi)不同類型產(chǎn)品所占比例的情況。經(jīng)過觀察可知,該數(shù)據(jù)具有差異性和可對比性,有利于增大“貿(mào)易合作”指標(biāo)的權(quán)重。
點擊圖5氣泡圖中的任意氣泡,即可呈現(xiàn)該類產(chǎn)品從1993年至2021年的出口總額變化情況,圖6為中新兩國經(jīng)濟“藝術(shù)品”出口總額變化圖,從中可看出在此二十余年間兩國在該類產(chǎn)品的最高出口總額出現(xiàn)于2010年,約為225億美元。
3.4? 熵權(quán)法——國別合作度評分
通過采用熵權(quán)法進行計算,本文得出中新兩國間的國別合作度綜合評分為60.84分,并判定中新關(guān)系為“戰(zhàn)略伙伴關(guān)系”,其詳細結(jié)果如表2所示。由結(jié)果可知,經(jīng)過熵權(quán)法計算所得國別合作度評分相比多元線性回歸方法的計算結(jié)果更接近國家信息中心所供的標(biāo)準(zhǔn)參考[9],因此其結(jié)果更具備參考價值。
如圖7所示,本文采用“儀表盤”的可視化方式,生動地對中新關(guān)系進行展示。
4? 結(jié)? 論
本文基于熵權(quán)法等相關(guān)算法,以國別區(qū)域與全球治理數(shù)據(jù)平臺等官方網(wǎng)站所得數(shù)據(jù)為數(shù)據(jù)源,對中國國際關(guān)系展開可視化分析。結(jié)合國家信息中心所供的國別合作度指數(shù)進行比對,本文所用方法對于國別合作度評分等計算具有一定參考意義。同時,本文以詞云圖等多種方式實現(xiàn)可視化呈現(xiàn),為幫助普通群眾與相關(guān)領(lǐng)域研究者快速了解當(dāng)前國際形勢及中國國際關(guān)系提供了較好的研究思路。
參考文獻:
[1] 大數(shù)據(jù)時代:數(shù)字政府建設(shè)成為新趨勢 [N].社會科學(xué)報,2019-06-13(1).
[2] 中國社會科學(xué)院國際形勢報告(2022) [J].拉丁美洲研究,2022,44(3):159.
[3] 外交領(lǐng)域的突破與創(chuàng)新 [J].人民論壇,2017(2):39.
[4] 薛浩男.基于新聞文本的國際關(guān)系時空信息獲取與分析方法研究 [D].南京:南京師范大學(xué),2021.
[5] 齊嘯天.大數(shù)據(jù)分析方法對傳統(tǒng)國際政治預(yù)測的改進 [D].長春:吉林大學(xué),2021.
[6] 王駿.基于文本挖掘的國際關(guān)系網(wǎng)絡(luò)研究 [D].北京:北京郵電大學(xué),2013.
[7] 邵俊,倪楓,劉姜,等.基于熵權(quán)法的軟件開發(fā)項目進度風(fēng)險影響因素分析研究 [J].項目管理技術(shù),2022,20(10):7-10.
[8] 王彤. 基于熵權(quán)法的QS園林公司財務(wù)風(fēng)險評價研究 [D].遼寧:沈陽工業(yè)大學(xué),2022.
[9] 于施洋,王璟璇,楊道玲.數(shù)說“一帶一路”國別合作度 [J].中國投資,2018(19):106.
[10] 張明陽,劉盼盼,文申平.基于TF-IDF分類算法的電磁態(tài)勢情報分發(fā) [J].航天電子對抗,2022,38(4):31-35.
作者簡介:陳思杭(2001—),女,漢族,廣東潮州人,助教,學(xué)士學(xué)位,研究方向:軟件工程;通訊作者:姜思羽(1992年—),女,滿族,黑龍江齊齊哈爾人,講師,博士,研究方向:人工智能。
收稿日期:2022-12-01
基金項目:廣東省哲學(xué)社會科學(xué)規(guī)劃一般項目(GD22CTS02)