• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      2000-2017 年聯(lián)合國各成員國的SDGs 指標對相關性系數(shù)數(shù)據(jù)集

      2021-04-15 10:34:58高天張麗麗黎建輝
      關鍵詞:預處理方向國家

      高天,張麗麗,黎建輝*

      1.中國科學院計算機網(wǎng)絡信息中心,北京 100190

      2.中國科學院大學,北京 100049

      引 言

      聯(lián)合國可持續(xù)發(fā)展目標(Sustainable Development Goals,SDGs)是聯(lián)合國在《2030 議程》中提出的一系列新的發(fā)展目標[1],全球發(fā)達國家和發(fā)展中國家均將其作為社會經(jīng)濟協(xié)調發(fā)展的重要指導,來保障人類社會的長期穩(wěn)定和健康發(fā)展。由于SDGs 的3 級指標主要支撐2 級具體目標的落實,且用于評估《2030 年議程》未來的落實情況[2],學界已經(jīng)廣泛地展開關于SDGs 目標和指標之間關聯(lián)性的研究。

      可持續(xù)發(fā)展目標的相關性分析需要以統(tǒng)計的指標數(shù)據(jù)為基礎。《可持續(xù)發(fā)展報告2020》[3](以下簡稱報告)中提供的聯(lián)合國全體193 個成員國的統(tǒng)計數(shù)據(jù)包括了每項指標從2000-2020 年的具體數(shù)值,但有些指標的數(shù)據(jù)不完整,個別年份存在缺失。且指標的時間序列數(shù)據(jù)只能反映指標本身隨年份變化的結果,而無法看出與其他指標之間的關聯(lián)性。因此,基于報告中已統(tǒng)計的元數(shù)據(jù),通過分析計算得出指標的關聯(lián)性數(shù)據(jù),不僅可以直觀反映出SDGs 整體指標框架之間的聯(lián)系,還可以為各國的政策實施和完善提供方法學的支持。

      本文涉及的SDGs 的3 級指標數(shù)據(jù)包含基于對比分析所得的最優(yōu)相關分析算法——MIC 算法計算得出的指標對之間的相關系數(shù)和基于Spearman 算法計算得到的指標對相關方向,全面地描述了SDGs 指標數(shù)據(jù)之間的關聯(lián)性,為聯(lián)合國各成員國未來進一步研究和實施可持續(xù)發(fā)展目標提供了可靠的數(shù)據(jù)支撐。

      1 數(shù)據(jù)采集和處理方法

      1.1 數(shù)據(jù)來源

      基于數(shù)據(jù)的規(guī)律性和可用性,本文所使用的SDGs 指標的時間序列數(shù)據(jù)來自于《可持續(xù)發(fā)展報告2020》數(shù)據(jù)[3]。其中包含聯(lián)合國成員國家一共193 個,時間跨度為2000-2020 年共21 年,指標從SDG1 到SDG17 共包含85 項。

      1.2 數(shù)據(jù)處理方法

      數(shù)據(jù)處理方法一共有4 階段:數(shù)據(jù)預處理,相關性算法對比,基于最優(yōu)相關性算法MIC 的指標對相關系數(shù)的計算,和基于Spearman 算法的指標對相關方向的計算,以及南半球20 個國家的SDGs指標對系數(shù)可視化,整體流程如圖1 所示。

      1.2.1 數(shù)據(jù)預處理

      (1)代碼名稱統(tǒng)一規(guī)范化

      本文首先對原始數(shù)據(jù)中不一致的指標代碼進行名稱統(tǒng)一。原始數(shù)據(jù)中共有3 處指標代碼不一致,統(tǒng)一后的結果為:“sdg2_stunting”修改為“sdg2_stuntihme”,“sdg2_wasting”修改為“sdg2_wasteihme”,“sdg5_familypl”修改為“sdg5_fplmodel”。

      (2)數(shù)據(jù)組織

      按照國家將指標數(shù)據(jù)分別進行存儲,對每個國家的指標進行處理。

      ①完整性查驗與預處理

      處理規(guī)則為:a.對于21 年之中超過5 年以上沒有數(shù)據(jù)的指標進行直接刪除;b.根據(jù)每個國家每年的數(shù)據(jù)缺失率,最終選定了2000-2017 年的指標數(shù)據(jù)。

      ② 數(shù)據(jù)補全與存儲

      a.對于有一些年份缺失數(shù)據(jù)的指標利用Python 的Sklearn 庫中KNNImputer 函數(shù)進行補全,其中k 的參數(shù)設為3;b.最后將每個國家預處理好的數(shù)據(jù)存儲成CSV 格式的文件,方便未來對于數(shù)據(jù)的計算。

      圖1 SDGs 指標數(shù)據(jù)處理流程

      1.2.2 相關性算法性能對比分析和選擇

      有代表性的相關性算法有以下4 種,其各自的優(yōu)缺點如表1 所示。

      表1 4 種相關性算法對比

      SDGs 指標數(shù)據(jù)存在多種函數(shù)和非函數(shù)關系,由表1 可知,MIC 在與其他相關性算法相比之下,可以探測到更多的相關關系。無論兩個變量是線性、立方、指數(shù)、周期,還是非線性關系,MIC 都可以探測出來,且可以給到較高的分數(shù)[7]。因此本文先將MIC 作為探測SDGs 指標對之間相關性的最優(yōu)算法測度。但MIC 無法檢測到相關方向,因此我們選取Spearman 相關系數(shù)來補充衡量指標對之間的相關方向。

      1.2.3 基于MIC 算法的指標對相關系數(shù)計算

      本研究利用MIC 算法,對193 個聯(lián)合國成員國的共62 項可實際使用指標進行了相關系數(shù)的計算。根據(jù)每個國家的指標對,將每項指標兩兩配對,共有1766 個指標對。分別對每個國家的指標對進行MIC 的相關系數(shù)計算,每個國家的數(shù)據(jù)為一列,對193 個國家的數(shù)據(jù)進行合并存儲。

      1.2.4 基于Spearman 算法的指標對相關方向計算

      由MIC 的定義和性質可知,MIC 系數(shù)的范圍在0-1 之間,本質上提供了相關程度的參考,而對于相關方向,其并無法表示。Spearman 算法可以衡量2 個變量之間的單調性,且不受變量的分布和樣本容量影響。因此本研究利用Spearman 算法,對每個指標對進行相關方向的判定,輸出結果1 表示正相關,?1 表示負相關(1 和?1 與Spearman 的相關系數(shù)取值無關,僅為相關方向的符號),作為MIC 算法的補充。每個國家的處理過程和1.2.3 一樣,最終結果存儲到一個CSV 格式的文件中。

      1.2.5 南半球20 個國家的SDGs 指標對系數(shù)可視化

      SDGs 指標對相關系數(shù)可用于缺失數(shù)據(jù)補全,提供SDGs 實施方向指南,發(fā)掘SDGs 發(fā)展進程,有助于對SDGs 問題的及時發(fā)現(xiàn)與政策校準,這在發(fā)展中國家的意義尤為突出。由于地理位置和歷史原因,南半球的國家絕大部分都是發(fā)展中國家,其更應該受到國際的關注。因此本研究根據(jù)南半球各國的指標數(shù)量,選取聯(lián)合國成員國南半球國家中數(shù)據(jù)完整性前20 的國家,以熱力圖形式按國別展示其SDGs 指標對的相關關系,圖片存儲在數(shù)據(jù)集中。(注:圖片中為顯示出指標對的相關方向的顏色差異,因此將負相關的MIC 系數(shù)取負,負號僅代表相關方向。)

      2 數(shù)據(jù)樣本描述

      本數(shù)據(jù)包括2000-2017 年間,共193 個聯(lián)合國成員國的SDGs 的指標對的MIC 相關系數(shù),以及相關方向。為方便計算和應用,本研究將數(shù)據(jù)存儲名為Correlation coefficient of Indicator pairs.csv 的文件,橫軸代表國家,縱軸代表指標對相關系數(shù)的和得分。原始數(shù)據(jù)集由文獻[3]所提供,該數(shù)據(jù)集包括About、Overview、Codebook、SDR2020 Data、Raw Trend Data 4 共5 張子表。其中Codebook表中詳細描述了每一項指標的特征,Raw Trend Data 是193 個國家2000-2020 年的指標原始數(shù)據(jù)集。根據(jù)預處理后所得數(shù)據(jù)集,最終一共有62 項可用指標,經(jīng)無重復互相配對后共有1766 個指標對。為展示數(shù)據(jù)集樣本,此節(jié)隨機選取南半球的一個成員國“安哥拉(Angola)”的數(shù)據(jù)集以及其可視化結果,如表2 和圖2 所示。整體數(shù)據(jù)集內指標對出現(xiàn)的國家數(shù)量和缺失國家部分結果見表3。

      表2 SDGs 指標對相關系數(shù)和相關方向(Angola,前15 個指標對)

      圖2 SDGs 指標對相關系數(shù)熱力圖(Angola)

      表3 SDGs 指標對出現(xiàn)國家數(shù)量和缺失國家(部分)

      3 數(shù)據(jù)質量控制和評估

      本數(shù)據(jù)集的質量控制體現(xiàn)在兩方面:一是數(shù)據(jù)預處理中對原始指標時間序列的名稱統(tǒng)一、刪減和補全;二是對選取MIC 算法進行實際的驗證。

      3.1 數(shù)據(jù)預處理控制

      對于原始數(shù)據(jù)的預處理是后期SDGs 指標數(shù)據(jù)相關性分析的必須前提,名稱不統(tǒng)一和缺失的數(shù)據(jù)會對后續(xù)的分析產生很大影響。其中名稱統(tǒng)一詳見第1.2.1 節(jié)。Olga Troyanskaya 和Michael Cantor等人[8]基于無噪聲的時間序列、有噪聲的時間序列和非時間序列3 組基因微矩陣的數(shù)據(jù)集,利用KNN算法、SVD 算法和行平均算法進行對比驗證,證實了KNN 算法在估算缺失值方面具有更好的穩(wěn)定性和健壯性。因此本文選用KNN 填補法對SDGs 指標數(shù)據(jù)進行缺失值估算填充。

      3.2 MIC 算法的質量檢驗

      由于國家數(shù)量較多,本研究依據(jù)每個大洲的GDP 排名[9],選取了排名靠前的20%的國家(共43個)的指標數(shù)據(jù)對4 種相關性算法進行了對比實驗。對SDGs 指標數(shù)據(jù)的相關性研究從根本上是要探索和發(fā)現(xiàn)指標之間更多的關聯(lián)性,在此基礎上本文提出了兩種評價維度用來評價4 種相關性算法的優(yōu)劣。43 個國家的名字如表4 所示。

      表4 43 個國家(排名不分先后)

      兩種評價維度:公式(1)代表廣度覆蓋,公式(2)、(3)代表深度覆蓋[10]。

      其中,Sa代表利用Ma算法對相關系數(shù)矩陣進行閾值λ(|λ|∈[0,1])篩選后得到的指標對集合(其中不包含同一指標與本身的相關性得分),Sb同理。S代表總指標對的集合。廣度覆蓋表示在Ma方法下探測到的有效的指標對占總體指標對的比例;深度覆蓋表示在Ma和Mb方法都能探測到的有效指標對中,分別占Ma方法下的指標對和Mb方法下的指標對的比例。

      43 個國家的總指標對數(shù)量如圖3 所示。

      圖3 43 個國家的總指標對數(shù)量

      對于前3 種傳統(tǒng)的統(tǒng)計學相關性算法進行顯著性檢驗,Pearson、Spearman、Kendall 在顯著性水平α=0.05的條件下,分別查表[11-12]得到相關系數(shù)臨界值為:rp=0.468,rs=0.503,rk=0.317,自由度均為18-2=16。根據(jù)3 種測度算法的相關系數(shù)臨界值,可以計算指標對在3 種算法測度下的相關系數(shù)滿足|rp|>0.468,|rs|>0.503,|rk|>0.317 (包括了正相關和負相關兩種相關方向)的條件下,指標對之間拒絕零假設,存在相關關系。

      MIC 和其他3 種相關性算法測度的廣度覆蓋和深度覆蓋分別如圖4 和圖5 所示。從圖中分布可以看出,對于兩種評價維度,MIC 對于其他3 種測度的覆蓋,明顯優(yōu)于其他3 種測度對MIC 的覆蓋。這說明MIC 可以探測到更廣泛的相關關系,因此選取MIC 算法作為SDGs 指標數(shù)據(jù)相關性分析的最優(yōu)算法。

      圖4 43 個國家廣度覆蓋評價維度對比結果

      圖5 43 個國家深度評價維度對比結果

      4 數(shù)據(jù)價值

      SDGs 的目標涵蓋了經(jīng)濟、政治、人文等多個領域,截止到2020 年,SDGs 共有17 個總體目標,169 個相關目標和230 多個用來監(jiān)測實施進展情況的指標。從出現(xiàn)國家次數(shù)排名前20 的總指標對中可以看出,科技期刊論文數(shù)量、與能源相關的二氧化碳排放量和物種生存指數(shù)紅色名單這3 個指標均被所有國家統(tǒng)計,這意味著這些指標對所有國家都具有廣泛的影響效應??梢愿顚哟蔚胤从吵?,各國對于科技、能源和生物的重視應不亞于經(jīng)濟發(fā)展的重視。對于出現(xiàn)次數(shù)較少的指標如sdg9_netacc〔Gap in internet access by income (percentage points)〕和sdg10_adjgini(Gini coefficient adjusted for top income)等,可能與數(shù)據(jù)缺失量較大有關。需要各國政府進一步加強對這些問題的關注,督促有關部門盡快制定和完善監(jiān)測工作和統(tǒng)計方案,以保障從各個方面推進可持續(xù)發(fā)展議程的實質進展。

      本數(shù)據(jù)集包括聯(lián)合國193 個成員國的2000-2017 年的SDGs 62 項可利用指標對相關系數(shù)和相關方向,以及南半球數(shù)據(jù)量排名前20 的國家的相關系數(shù)可視化結果。數(shù)據(jù)集存儲在CAB 格式的文件中。相關系數(shù)和相關方向包含了SDGs 指標數(shù)據(jù)較為有價值的相關性信息,其中相關系數(shù)反映了指標之間的相關程度,進而反映了指標之間影響作用的大??;相關方向反映了指標之間互相影響的方向,揭示了SDGs 指標之間的促進和制約關系。本數(shù)據(jù)集為SDGs 指標監(jiān)測和實施提供了一定的參考價值,用戶既可用來分析SDGs 指標之間促進和制約的關系,亦可參考制定相應政策。

      致 謝

      感謝基金項目對于本研究的支持,以及感謝Sachs J、Schmidt-Traub 等人提供的原始數(shù)據(jù)。

      數(shù)據(jù)作者分工職責

      高天(1995—),男,內蒙古呼和浩特市人,在讀碩士研究生,研究方向為大數(shù)據(jù)挖掘與應用。主要承擔工作:數(shù)據(jù)處理、論文撰寫。

      張麗麗(1984—),女,高級工程師,研究方向為開放科學、開放數(shù)據(jù)技術政策,信息經(jīng)濟學。主要承擔工作:數(shù)據(jù)校核、質量控制。

      黎建輝(1973—),男,研究員,研究方向為大數(shù)據(jù)資源開放共享、大數(shù)據(jù)管理技術、大數(shù)據(jù)計算與分析技術等。主要承擔工作:文章框架和方向的把握。

      猜你喜歡
      預處理方向國家
      2022年組稿方向
      計算機應用(2022年2期)2022-03-01 12:33:42
      2021年組稿方向
      計算機應用(2021年4期)2021-04-20 14:06:36
      2021年組稿方向
      計算機應用(2021年1期)2021-01-21 03:22:38
      能過兩次新年的國家
      基于預處理MUSIC算法的分布式陣列DOA估計
      制導與引信(2017年3期)2017-11-02 05:16:56
      把國家“租”出去
      華人時刊(2017年23期)2017-04-18 11:56:38
      奧運會起源于哪個國家?
      淺談PLC在預處理生產線自動化改造中的應用
      絡合萃取法預處理H酸廢水
      基于自適應預處理的改進CPF-GMRES算法
      蒙阴县| 广饶县| 凌云县| 朔州市| 十堰市| 宜章县| 荆门市| 河东区| 忻州市| 遂溪县| 宜都市| 汪清县| 山东| 顺义区| 亚东县| 烟台市| 肥东县| 五原县| 南丰县| 苏州市| 康乐县| 郑州市| 石首市| 晋宁县| 沈阳市| 淳化县| 甘南县| 郧西县| 五莲县| 鄂托克旗| 房产| 贵溪市| 旬阳县| 陇南市| 黄冈市| 菏泽市| 都昌县| 依兰县| 安阳县| 江源县| 穆棱市|