WGI法治指數(shù)的評估程序與經(jīng)驗審視

2017-01-19 22:04:41王裕根

宏觀質(zhì)量研究 2016年4期

關(guān)鍵詞：定量法治

王裕根

摘要：法治指數(shù)評估不僅涉及對“法治”定義的解讀，而且涉及社會學(xué)方法意義上的概念化操作。WGI對法治的評估建立在不同潛在數(shù)據(jù)庫的基礎(chǔ)上，采用“未觀測組合模型”進行測量。全面理清WGI法治指數(shù)的概念操作方法、數(shù)據(jù)整合和收集方法及其結(jié)果的反思與平衡，會發(fā)現(xiàn)WGI法治指數(shù)評估采用的數(shù)據(jù)處理模型本質(zhì)上是一個“去偽存真”的過程，其數(shù)據(jù)采集過程、數(shù)據(jù)庫之間的關(guān)聯(lián)度、數(shù)據(jù)透明度以及樣本偏差性等因子共同構(gòu)成法治指數(shù)結(jié)果的可信度因素。我國法治指數(shù)評估要在借鑒WGI法治指數(shù)評估經(jīng)驗的基礎(chǔ)上，不斷在實踐中完善法治評估主體、數(shù)據(jù)生成與結(jié)果應(yīng)用的方法，從而充分發(fā)揮法治評估在測度法治發(fā)展水平以及推進法治建設(shè)方面的重要作用。

關(guān)鍵詞：法治；定量；WGI法治指數(shù)

黨的十八屆三中全會指出，要加快國家治理體系和治理能力現(xiàn)代化建設(shè)，推進法治中國，建立科學(xué)的法治建設(shè)指標(biāo)體系和考核標(biāo)準(zhǔn)。盡管世界各國對“法治”觀念定義不盡相同，但“法治”觀念在實踐中能夠被量化的事實越來越成為學(xué)界共識。對“法治”概念進行操作化研究，并借助社會統(tǒng)計學(xué)以及數(shù)學(xué)計算知識得出系列量化評估數(shù)據(jù)，能夠形成衡量一國法治發(fā)展水平的“法治指數(shù)”（the rule of law index）。雖然法治指數(shù)在監(jiān)測和評估法治發(fā)展?fàn)顩r方面具有重大意義，但法治指數(shù)的評估并不是簡單意義上的收集法治數(shù)據(jù)，運用數(shù)理統(tǒng)計方法處理數(shù)據(jù)，從而得出法治評估數(shù)據(jù)，它其實體現(xiàn)的是一種認(rèn)識法治的思維方法，一種在生活中發(fā)現(xiàn)法治微觀形態(tài)的具體實踐。因而對待法治評估的量化，采用何種“法治”概念化指標(biāo)操作，以及如何在過程當(dāng)中體現(xiàn)評估的科學(xué)性，依然是法治指數(shù)評估活動必須持續(xù)關(guān)注的問題。顯然，深入這些問題的實質(zhì)，就必須全面整體辯證地看待法治指數(shù)評估，充分認(rèn)識到量化“法治”的科學(xué)性及其限度。基于此，本文以全球治理指標(biāo)（worldwide governance indicators，簡稱WGI，下同）法治指數(shù)為研究個案（case study），對其內(nèi)部構(gòu)造、邏輯結(jié)構(gòu)、計算方法以及結(jié)果運用等方面進行深入研究，以期對WGI法治指數(shù)有個反思性的理解，從而在理論和實踐層面不斷推進中國法治指數(shù)評估不斷向前發(fā)展。

一、WGI中的“法治”觀

自1996年開始，來自世界銀行的Kaufmann，Daniel 和 Kraay，Aart和 Zoido，Pablo（以下簡稱KKZ）三位學(xué)者建議，在整合來自國際政府組織和非政府組織的各種指標(biāo)數(shù)據(jù)基礎(chǔ)上，發(fā)展一套能夠有效評估世界各國治理狀況的全球治理指標(biāo)體系 KKZ綜合廣義和狹義的“治理”概念之后，把治理定義為“一個國家權(quán)力運行的傳統(tǒng)和機制”。在此定義下，主要包括三個方面內(nèi)容：（a）政府的選舉、監(jiān)督和替代的過程；（b）政府有效制定和推行合理政策的能力；（c）公民和國家得到調(diào)整經(jīng)濟和社會關(guān)系的制度的尊重。同時，用六個聚合性維度測量“治理”觀念：發(fā)言權(quán)與問責(zé)（Voice and Accountability）、政局穩(wěn)定與無暴力（Political Stability and Absence of Violence）、政府效能（Government Effectiveness）、監(jiān)管質(zhì)量（Regulatory Quality）、法治（Rule of Law）以及腐敗控制（Corruption Control），形成全球治理指標(biāo)體系。。自1996年至2014年，世界銀行共發(fā)布16份全球治理指數(shù)報告，其中1996年至2002年每兩年發(fā)布一次，2003年至2014年每一年發(fā)布一次。在歷份的全球治理指數(shù)報告中，對不同國家法治狀況進行評估并計算相應(yīng)的法治指數(shù)是世界銀行全球治理指數(shù)的重要組成部分。“法治”指標(biāo)作為衡量全球治理水平六個重要標(biāo)準(zhǔn)之一，通過對法治水平的測量，可以判斷出一國的政治和經(jīng)濟環(huán)境，并將影響投資者的投資行為和決策。

在全球治理指標(biāo)體系下，“法治”這個聚合性指標(biāo)來自不同數(shù)據(jù)庫的變量得出。這些數(shù)據(jù)庫分為代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)庫，代表性數(shù)據(jù)庫包含了許多國家并且用作這些國家的法治指標(biāo)可能是世界上所有國家的共性指標(biāo)，也即涵蓋了大部分發(fā)達國家和發(fā)展中國家的所有指標(biāo)。非代表性數(shù)據(jù)庫要么覆蓋具體的區(qū)域范圍（例如，拉美民主動態(tài)調(diào)查只覆蓋拉丁美洲國家）；要么覆蓋特殊的收入水平國家（世界銀行國家政策與制度評估只針對發(fā)展中國家）。測量“法治”觀念的數(shù)據(jù)庫有23個數(shù)據(jù)庫，其中代表性數(shù)據(jù)庫9個，非代表性數(shù)據(jù)庫14個。按照數(shù)據(jù)庫類型劃分，民間調(diào)查組織和官方組織分別都有7個，商業(yè)信息提供者有3個，非政府組織有6個。其中，民間調(diào)查組織和官方組織數(shù)據(jù)庫分別占所有數(shù)據(jù)庫總和的34%，而商業(yè)信息提供者和非政府組織所占比例分別為10%和22%。詳見下表1和圖1：

從測量“法治”觀念的數(shù)據(jù)庫分布類型和比例來看，官方組織以外的數(shù)據(jù)庫類型占大多數(shù)，這有利于減少樣本偏見，保證數(shù)據(jù)來源的多樣性和客觀性。另一方面，數(shù)據(jù)庫來源的多樣性能盡可能地測量一國“法治”真實值，使得不同國家之間的比較具有意義。從測量形式上看，代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)庫通過專家評估、民意調(diào)查等方式測量不同國家的“法治”觀念，直接反映了一國公民、組織和機構(gòu)對“法治”觀念的感知，間接反映了一國法治發(fā)展?fàn)顩r。從代表性和非代表性數(shù)據(jù)庫所測量的“法治”內(nèi)容來看，包括七個方面的“法治”觀念：財產(chǎn)權(quán)利保護、司法獨立與司法公信、行政責(zé)任、規(guī)則的治理、犯罪控制、知識產(chǎn)權(quán)保護。因此，如果僅從定性分析的角度看，這七個法治觀念基本都是法治建設(shè)和發(fā)展的重點內(nèi)容，但能否用量化分析工具對“法治”觀念準(zhǔn)確測量法治發(fā)展水平，則須借助科學(xué)的統(tǒng)計方法和量化工具。

測量方法貫穿著不同學(xué)科復(fù)雜的技術(shù)思維，也是自然科學(xué)的核心觀念（Ginsburg，2011）。與WJP法治指數(shù) 2006年美國律師協(xié)會前主席威廉·紐康姆（William H.Neukom）創(chuàng)立了一個名為世界正義工程（The World Justice Project）的非營利組織，該組織在微軟、通用、福特等跨國公司的基金會提供大筆經(jīng)濟支持的前提下，于2008年發(fā)布了一套獨立的法治指數(shù)。此后，于2010年公布了世界正義工程法治指數(shù)第一份報告，至2015年已連續(xù)公布了5份研究報告。從2015年WJP法治指數(shù)最新報告得出，WJP“法治”的四項基本原則下，設(shè)置9個一級指標(biāo)和47個二級指標(biāo)，并在此指標(biāo)體系下運用專家咨詢和民意調(diào)查的方式直接獲得“一手”（first hand）數(shù)據(jù)測量法治水平，最終運用加權(quán)平均法來計算國家整體的法治水平。參見，The World Justice Project Rule of Law Index（2010-2015），http：//world justice project.org.最大的區(qū)別就在于，WGI法治指數(shù)是基于不同數(shù)據(jù)庫對法治內(nèi)容或觀念測量得來的數(shù)據(jù)，采用一種聚合性方法（aggregation method）構(gòu)建“法治”的組合性指標(biāo)（composite indicator），通過未觀測組合模型（unobserved components model，以下簡稱UCM）的統(tǒng)計方法來處理不同數(shù)據(jù)庫之間對同一國家的“法治”觀念測量數(shù)據(jù)之間的內(nèi)在聯(lián)系。這種內(nèi)在聯(lián)系體現(xiàn)了一國真實的法治水平，從而生成“法治指數(shù)”。與觀測到的測量數(shù)據(jù)不同，WGI法治指數(shù)體現(xiàn)為一種“未觀測值”。在KKZ看來，UCM統(tǒng)計方法至少有以下三個方面的優(yōu)勢（Kaufmann et al.，2011）：一是UCM方法用共同單元重新把數(shù)據(jù)標(biāo)度，有助于保存潛在數(shù)據(jù)資源最基本的信息；二是UCM方法提供正常的邏輯架構(gòu)，可以根據(jù)指標(biāo)數(shù)據(jù)的精確程度來加權(quán)重新標(biāo)度的指標(biāo)，而不是簡單的不加權(quán)平均；UCM方法的第三個優(yōu)勢本身強調(diào)了與“法治”組合性指標(biāo)相關(guān)的不確定性，適用UCM統(tǒng)計方法的前提是為了說明這樣一個事實：每一個數(shù)據(jù)的“法治”變量提供的是不完整的信息，而這種信息蘊含了難以直接觀測到的深層次潛在“法治”觀念。UCM提供了一套合理且更加包容的能夠連接不同數(shù)據(jù)資源的方法，運用UCM處理不同數(shù)據(jù)庫之間“法治”指標(biāo)數(shù)據(jù)的過程，本質(zhì)上一個“數(shù)據(jù)提取”（single extraction）的過程。它建立在數(shù)理統(tǒng)計技術(shù)以及標(biāo)準(zhǔn)誤差估計值的基礎(chǔ)上，能對各個潛在數(shù)據(jù)庫的數(shù)據(jù)信息進行“去偽存真”，從而得出各國真實的“法治”估計值。

二、UCM的“去偽存真”

（一）權(quán)重配置

在區(qū)分了每一個數(shù)據(jù)庫與“法治”觀念相關(guān)的變量之后，接下來的問題便是，如何最佳地組合不同數(shù)據(jù)庫的測量信息，以最大可能地準(zhǔn)確測出一國真實的法治水平。顯然，運用UCM模型離不開對不同數(shù)據(jù)庫之間提供的數(shù)據(jù)信息有效性的估計。UCM模型一個關(guān)鍵假設(shè)是：不同數(shù)據(jù)庫之間的誤差是獨立的或不相關(guān)聯(lián)的，因此不同數(shù)據(jù)庫之間高強度的數(shù)據(jù)聯(lián)系不是數(shù)據(jù)庫之間的測量誤差關(guān)聯(lián)，而是反映數(shù)據(jù)庫測量數(shù)據(jù)的高度準(zhǔn)確性。在KKZ看來，這種高度準(zhǔn)確性的關(guān)聯(lián)表明，不同數(shù)據(jù)庫測量的信息是豐富有效的。因而，在對代表性數(shù)據(jù)庫之間分配權(quán)重時，相比那些弱相關(guān)的數(shù)據(jù)庫，應(yīng)該給那些強相關(guān)的數(shù)據(jù)庫確定低的誤差變量并配置高的權(quán)重。在構(gòu)建“法治”組合性指標(biāo)時，KKZ須對代表性和非代表性數(shù)據(jù)庫的權(quán)重進行配置，具體分為五個步驟：（1）識別各個數(shù)據(jù)庫內(nèi)部與“法治”相關(guān)的變量，然后通過聚合方法計算這些變量，得出每一個數(shù)據(jù)庫的一個簡單而不加權(quán)平均的數(shù)據(jù)。例如，在“世界市場在線中心”組織的調(diào)查中，只有“司法獨立和犯罪”兩個變量與法治有關(guān)，用簡單的算術(shù)平均法把這兩個變量求出一個代表“世界市場在線”調(diào)查組織測量法治觀念的指標(biāo)數(shù)據(jù)。（2）運用公式計算每一個數(shù)據(jù)庫的指標(biāo)數(shù)據(jù)之后，根據(jù)各數(shù)據(jù)庫覆蓋國家的數(shù)量和發(fā)展水平，確定是否是代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)庫。（3）在對法治組合性指標(biāo)估計值進行聚合計算過程中，對代表性數(shù)據(jù)庫形成的指標(biāo)數(shù)據(jù)進行權(quán)重配置。所不同的是，在聚合法治組合性指標(biāo)時，不是用簡單的平均賦權(quán)，而是根據(jù)其相互關(guān)聯(lián)程度配置權(quán)重。低的誤差變量和強的關(guān)聯(lián)性，表明該數(shù)據(jù)庫提供的信息越豐富，則配以高的權(quán)重。（4）對非代表性數(shù)據(jù)庫形成的指標(biāo)數(shù)據(jù)進行相關(guān)回歸分析（regress），獲取誤差變量和參數(shù)的估計值。如果與權(quán)重配置高的數(shù)據(jù)庫之間的關(guān)聯(lián)很大，并且得到的誤差估計值也低，則配以高的權(quán)重。（5）對法治組合性指標(biāo)的每一數(shù)據(jù)庫配以新的權(quán)重，重新計算法治組合性指標(biāo)估計值（Christiane Arndt和Charles Oman）。顯然，代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)庫的權(quán)重配置過程不一樣，前者運用最大似然函數(shù)功能對誤差變量和參數(shù)進行估計，從而確定權(quán)重配置，后者考慮到不同數(shù)據(jù)庫之間測量的國家和指標(biāo)的不連續(xù)性，則采用相關(guān)回歸分析法對誤差變量和參數(shù)值進行估計，進行確定權(quán)重配置。但是，二者都遵循同樣的假設(shè)：每一個數(shù)據(jù)庫都是獨立的、不相關(guān)聯(lián)的；誤差變量與權(quán)重配置成反比關(guān)系。

按照上述數(shù)據(jù)處理步驟，可以得出WGI對中國的法治評估值（1996—2014），具體詳見表2。

通過上表的分析可知，世界銀行全球治理指標(biāo)體系對中國的法治評估所采用的數(shù)據(jù)庫資源整體上呈增加趨勢，而標(biāo)準(zhǔn)誤差呈下降趨勢。從統(tǒng)計學(xué)原理來看，數(shù)據(jù)庫資源越豐富，采取的法治觀念數(shù)據(jù)信息越多，標(biāo)準(zhǔn)誤差將逐漸降低，也即數(shù)據(jù)庫越充分，標(biāo)準(zhǔn)誤差越小，這種關(guān)聯(lián)性充分體現(xiàn)在上述表格當(dāng)中，具體詳見圖2。當(dāng)然，僅從上表的估計值來看，很難看出中國法治發(fā)展變化情況，但是這并不否定借助具體數(shù)據(jù)的技術(shù)中立性來分析和描述UCM的內(nèi)部邏輯架構(gòu)。

（三）結(jié)果反思與平衡

在整個計算過程中，確定代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)庫的權(quán)重非常重要，甚至可以說，權(quán)重設(shè)置的準(zhǔn)確性與否決定了測量偏見的程度有多大。在可能存在相互關(guān)聯(lián)的數(shù)據(jù)庫之間配置權(quán)重，不是一個在指標(biāo)理論上的“重要性”問題，而是考慮到一個不同數(shù)據(jù)之間的一個“信息重合”問題。在對一個國家真實的法治估計值計算后，需充分考慮該估計值的誤差問題。

而根據(jù)KZZ體系的推斷，如果該國的可利用“法治”觀念信息越多，則標(biāo)準(zhǔn)方差越小，也就是說，k的值越大，這些獨立數(shù)據(jù)資源就越準(zhǔn)確，則σk2 越小?！胺ㄖ巍惫烙嬛档臉?biāo)準(zhǔn)誤差對于法治估計值的信度和效度是必不可少的，因為固有的不確定性是測定估計值時就存在的。例如，不管什么時候，比較兩個國家的法治值，或者比較一個國家在不同時期的法治值，總會聯(lián)系兩個法治的估計值并給出90%的置信區(qū)間，也就是說，法治估計值是標(biāo)準(zhǔn)方差的+/-1.64倍。這個值域，即“邊際誤差”，可以用以下敘述來解釋：根據(jù)觀測數(shù)據(jù)，那些真實但未觀測到的數(shù)值有90%的可能性在此區(qū)間。一個相當(dāng)有用的基本原則是：當(dāng)兩個國家的這些邊際誤差重疊時，或者是同一時間的兩個點，它們的治理估計差值是非常小的，對統(tǒng)計分析幾乎沒有什么影響。

在估計各國“法治”水平中，存在“邊際誤差”不僅是一個使用主觀數(shù)據(jù)庫來測量法治值的結(jié)果，而且更反映了一個基本事實：用可利用的數(shù)據(jù)資源來表示標(biāo)準(zhǔn)性概念是不完善的。例如，采用問卷調(diào)查來測量各國“司法獨立”觀念認(rèn)知，顯然是不能準(zhǔn)確測量各國“法治”的全部觀念。況且，在發(fā)展水平不同的國家，有著不同的社會、法律和政治傳統(tǒng)以及不同的信仰和期待，這使得嘗試比較各個國家的公共的正義觀念沒有太大意義（Jim Parsons，2011）。但WGI法治指數(shù)的一個核心優(yōu)勢是：研究者充分認(rèn)識到它的不完善性，除此之外，當(dāng)他們比較不同國家或者不同時間的法治估計值時，讓W(xué)GI法治指數(shù)適用者正面考慮用此方法存在邊際誤差，并提供量化完善技術(shù)把這種不完善性充分考慮進去。

三、批判與回應(yīng)：WGI法治指數(shù)爭議性問題探究

在KKZ公布的系列工作性文章中，提及同行學(xué)者對WGI指標(biāo)體系及其統(tǒng)計方法的批判。這些批判都直接或間接地揭示了用聚合性方法估計WGI六個組成性指標(biāo)可能存在的問題。針對這些批判，KKZ都做了回應(yīng)。在批判和回應(yīng)之間，能夠清晰可見WGI“法治”組合性指標(biāo)的路徑依賴及其潛在風(fēng)險，分析這些爭議性問題將從整體上把握WGI法治指數(shù)生成的科學(xué)依據(jù)及其限度。

（一）是否可用于比較？

這種比較既包括“法治”估計值在同一時間段不同國家之間的比較，也包括同一國家在不同時間段的比較。KKZ建立這種比較的前提是，假定世界平均值是不變的，因此一個國家的相對位置在同一時間段的比較和相對位置隨著時間段的變化比較都是有意義的。但是批評者認(rèn)為，在不考慮世界平均值變化的情況下，這種比較不能看出國家內(nèi)部變化及不同國家之間法治水平的升降。此外，由于數(shù)據(jù)庫每一年都在變動，國家在同一時間段的比較和同一國家在不同時間段的比較，不能建立在潛在的兩個極不相同的數(shù)據(jù)庫基礎(chǔ)之上，因而很難比較。

為了回應(yīng)上述批判，KZZ選取了近三年更新的數(shù)據(jù)庫，并對潛在數(shù)據(jù)庫做連續(xù)性估計以尋找有利證據(jù)證明世界平均水平是否存在顯著的變化。但最終表明，這些數(shù)據(jù)庫沒有表明世界平均值存在顯著的變化，也說明把世界平均值設(shè)定為0是沒有太大關(guān)系的。而針對兩個國家可能不出現(xiàn)在同一數(shù)據(jù)庫的測量中或者同一國家不能連續(xù)出現(xiàn)在同一數(shù)據(jù)庫等極端情形，KKZ認(rèn)為，“法治”組合性指標(biāo)的聚合性優(yōu)勢就在于，盡管缺乏共同的數(shù)據(jù)庫，它仍能使不同國家做比較。因為，聚合性方法能夠提供一種科學(xué)合理的方式使不同的潛在數(shù)據(jù)置于同一個共同單元之中，使沒有出現(xiàn)在同一數(shù)據(jù)庫中的國家進行比較。聚合性指標(biāo)的一個品質(zhì)就在于，把不同的數(shù)據(jù)庫的指標(biāo)數(shù)據(jù)轉(zhuǎn)換成共同的單元，并且不考慮是否為共同的數(shù)據(jù)庫情況下做一個比較。當(dāng)然，這也要考慮標(biāo)準(zhǔn)誤差。

上述批評與回應(yīng)，主要圍繞KZZ構(gòu)建治理指標(biāo)體系的目的展開，那就是在不同國家之間和時間段之間能否用于比較各國法治發(fā)展水平，這種比較的前提是不同數(shù)據(jù)庫之間存在的大量的潛在“法治”觀念信息，對此，KZZ用聚合性方法并考慮誤差的前提下，來解決不同國家之間比較的問題。如果僅從目的來看，很難說這種比較是沒有意義的，但也應(yīng)該看到其缺陷之所在。無可否認(rèn)的是，KZZ開創(chuàng)了UCM聚合性方法來解決不同數(shù)據(jù)庫之間的信息聯(lián)系和提取的問題，因而從本質(zhì)上說UCM模型對數(shù)據(jù)的處理就是一個“去偽存真”的過程，目的是得出各國真實的法治估計值。但是，UCM模型又是建立在許多個前提假設(shè)基礎(chǔ)之上的，其中一個關(guān)鍵假設(shè)是：不同數(shù)據(jù)庫的誤差是相互獨立并且不相關(guān)的，并以此為前提分別配置代表性數(shù)據(jù)指標(biāo)和非代表性數(shù)據(jù)指標(biāo)的權(quán)重。但這種“假設(shè)”是否現(xiàn)實？這就涉及UCM測量的數(shù)據(jù)庫之間關(guān)聯(lián)度問題。

（二）數(shù)據(jù)庫之間不相關(guān)？

這是許多批評者都質(zhì)疑的地方?？梢哉f，一個核心假設(shè)在KKZ本身看來都不太現(xiàn)實的是：數(shù)據(jù)庫的誤差是不相關(guān)聯(lián)的。在批評者看來，至少以下四個方面的事實能夠足以證明數(shù)據(jù)庫之間的誤差存在相互關(guān)聯(lián)：（1）一個數(shù)據(jù)庫的專家主觀評估數(shù)據(jù)可能成為其他數(shù)據(jù)庫的來源或者影響其他數(shù)據(jù)庫專家的評估，例如，在法治觀念測量數(shù)據(jù)庫體系中，國家政策和風(fēng)險評估的數(shù)據(jù)可能成為或影響遺產(chǎn)基金會組織專家的評估。（2）兩個數(shù)據(jù)庫的數(shù)據(jù)來源可能都來源第三方數(shù)據(jù)庫的專家評估。例如，“自由之家”評估可能成為兩個不同的數(shù)據(jù)庫的來源。（3）數(shù)據(jù)庫中的數(shù)據(jù)來源往往受國家的經(jīng)濟發(fā)展水平或者財政、政治危機的影響，因為具有時間性和不穩(wěn)定性。（4）由于對數(shù)據(jù)庫的問卷回答帶有具體的文化語境，而不同數(shù)據(jù)庫的問卷調(diào)查往往來自同一國家居民的回答，因而具有相關(guān)性。上述事實的存在使得KKZ指標(biāo)體系的信賴度大打折扣。由于數(shù)據(jù)庫之間的指標(biāo)數(shù)據(jù)存在關(guān)聯(lián)，這使得每一數(shù)據(jù)庫提供的“法治”觀念信息并沒有像KKZ所設(shè)想的那樣是非常充分的，并且邊際誤差比實際計算還要大。例如，不同的數(shù)據(jù)庫之間，尤其是商業(yè)風(fēng)險評級機構(gòu)之間在評估中產(chǎn)生的關(guān)聯(lián)誤差，使得并沒有像它們顯現(xiàn)的那樣提供豐富的法治觀念信息。帶來的后果便是，相互關(guān)聯(lián)的數(shù)據(jù)庫配置較高的權(quán)重的合理性將減損，進而跨國間比較的正當(dāng)性缺失。

為了解決這種問題，KKZ希望通過相關(guān)的統(tǒng)計和技術(shù)手段，來證明這種關(guān)聯(lián)性很小或者不存在。在KKZ看來，數(shù)據(jù)庫之間的關(guān)聯(lián)并不是整個數(shù)據(jù)庫指標(biāo)數(shù)據(jù)之間的系統(tǒng)特征。然而，評價這種批評有多大的重要性很難，因為來自不同數(shù)據(jù)庫“法治”觀念的高度聯(lián)系要么確實歸因于觀念誤差，要么是基于這樣一個事實：這些數(shù)據(jù)資源事實上準(zhǔn)確測量了不同國家“法治”觀念的差異，因此就很有必要相互采納。通過比較商業(yè)風(fēng)險評級機構(gòu)（經(jīng)常被認(rèn)為最能證明“群體思維”）提供的排名，KKZ提出一種新的計算方式區(qū)分這兩種產(chǎn)生關(guān)聯(lián)性的原因。最終驚訝地發(fā)現(xiàn)，相比公司問卷調(diào)查，這些數(shù)據(jù)資源相互之間沒有關(guān)聯(lián)性，這就把數(shù)據(jù)資源之間的相互關(guān)聯(lián)的偏見引向懷疑。

毫無疑問，不同數(shù)據(jù)庫之間存在相互關(guān)聯(lián)的誤差，問題是如何采用科學(xué)的統(tǒng)計方法使得這種誤差減少到最低程度。雖然KZZ提出的關(guān)鍵“假設(shè)”畢竟與現(xiàn)實不符，但是如果沒有這個關(guān)鍵“假設(shè)”，KZZ聚合性方法的理論基礎(chǔ)將不存在，也就很難建構(gòu)整個“法治”量化指標(biāo)體系的正當(dāng)性。畢竟，建構(gòu)“法治”指標(biāo)的正當(dāng)性是，數(shù)據(jù)庫指標(biāo)之間必須是測量“法治”觀念，從這種意義上講，數(shù)據(jù)庫之間必須是相互關(guān)聯(lián)的。但每一個數(shù)據(jù)庫的測量必須與其他數(shù)據(jù)庫在測量形式和方法上都不同，因而又必須是相互區(qū)別的。而在現(xiàn)實中，每一個數(shù)據(jù)庫在測量時，為了不低估同一國家“法治”水平就必須提高數(shù)據(jù)的準(zhǔn)確性，于是希望采用獨立的數(shù)據(jù)庫信息來補充或印證已有的數(shù)據(jù)庫信息，這就不可避免會引用其他相關(guān)的數(shù)據(jù)庫或者受其影響，而這種現(xiàn)實總是會與KZZ的“假設(shè)”存在沖突。因此應(yīng)該認(rèn)識到，用UCM聚合性方法估計不同法治水平的國家并在不同國家之間比較，有其固有缺陷。

（三）樣本偏見

在批評者看來，即便假設(shè)成立，那么各個數(shù)據(jù)數(shù)據(jù)庫之間也存在樣本偏見。涵蓋“法治”觀念測量的代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)代表不同利益相關(guān)者，包括從民意調(diào)查到專家評估再到商業(yè)調(diào)查的差異。由于存在不同的利益主體，再加上問卷回答者往往受國家經(jīng)濟發(fā)展水平和政治、財政危機的影響，這就不可避免形成樣本偏見。批評者堅信，由于存在樣本偏見，各個數(shù)據(jù)庫的數(shù)據(jù)指標(biāo)提供的信息不太準(zhǔn)確，造成權(quán)重配置不合理，使得聚合性指標(biāo)方法不能準(zhǔn)確衡量一國的法治水平。例如，在經(jīng)濟學(xué)人智庫調(diào)查中，商業(yè)經(jīng)營者希望更少的管制和低的稅收，但合理的稅收和適當(dāng)管制有利于維護公共利益。如果測量“法治”觀念只注重商業(yè)人士的觀念，那么就不可避免形成樣本偏見。這樣，不但影響準(zhǔn)確評估一個國家法治發(fā)展?fàn)顩r，而且不能為發(fā)展中國家提供發(fā)達國家的法治衡量標(biāo)準(zhǔn)的準(zhǔn)確信號，因而不能有效為本國改革和發(fā)展提供參照和解決對策。除此之外，有些商業(yè)精英階層評估法治狀況經(jīng)常受國家發(fā)展水平影響。也就是說，那些發(fā)展水平高的國家，法治水平得分就高。然而，在過去的十年里，商業(yè)精英階層對發(fā)展中國家財政經(jīng)濟危機的主觀偏見，表明投資者的信心水平并不是建立在一個國家真實的治理水平之上的。

為了回應(yīng)上述爭議，KKZ宣稱他們依賴的數(shù)據(jù)庫不僅來自商業(yè)組織，也有來自非商業(yè)組織和個體的數(shù)據(jù)。并在報告中，他們進一步說到，其數(shù)據(jù)來源不僅包括跨國商業(yè)調(diào)查組織的數(shù)據(jù)，還包括非政府組織和多邊機構(gòu)提供的數(shù)據(jù)。而在所有的商業(yè)調(diào)查組織中，所有受訪者并非都是商業(yè)精英或外國投資者，也有相當(dāng)一部分的調(diào)查者是公司員工。在他們看來最關(guān)鍵的問題是，商業(yè)精英階層是否本質(zhì)上與其他社會成員對“法治”觀念有著截然不同的觀點。事實上，不同類型的數(shù)據(jù)庫的相關(guān)系數(shù)是一致的。這也就表明，商業(yè)精英的評估與其他類型的受訪者并不是明顯不同。KZZ認(rèn)為，這種批評的背后隱含了另外一種相關(guān)批評，那就是專家評估不僅僅會形成偏見，而且可能是錯誤的評估。因此，在批評者看來，專家主觀評估與家庭問卷調(diào)查的關(guān)聯(lián)性很弱。家庭式的問卷調(diào)查更能捕捉“法治”信息的客觀性，而專家評估更顯微弱。但在KZZ看來，并沒有明顯證據(jù)證明專家評估存在測量誤差，而家庭問卷調(diào)查就沒有測量誤差。在一個對國家抽樣的更大樣本中，專家評估和家庭問卷調(diào)查的關(guān)聯(lián)性很低將是不太現(xiàn)實的。因此，KZZ認(rèn)為，商業(yè)調(diào)查、專家評估以及家庭問卷調(diào)查是相互關(guān)聯(lián)，直接測量反映“法治”觀念信息的代表性樣本。

盡管如此，由于社會研究中人的特殊性和社會現(xiàn)象的復(fù)雜性等因素（風(fēng)笑天，2009），數(shù)據(jù)采集的樣本偏見始終是存在的，并直接影響最終的法治測量水平。再加之研究者本人的價值觀影響了社會實證研究的客觀性，“法治”的社會實證研究就存在天然的局限性（任岳鵬，2009）。因為，法治觀念的代表性數(shù)據(jù)庫和非代表性數(shù)據(jù)，本身是對不同國家的個人、組織潛意識的法治觀念最直接測量，這種測量不但帶有主觀性，而且具有不確定性?！胺ㄖ巍庇^念變量本是法治水平不完美的代表，很難從根本上去衡量真實的水平。從統(tǒng)計學(xué)的原理來看，各個數(shù)據(jù)庫的生成從源頭上就含著樣本偏見。從某種意義上講，意識到樣本偏見就是要揭開WGI中的法治指數(shù)“遮羞布”，至少在兩個方面具有重要意義：一是提醒數(shù)據(jù)庫的制作者采用科學(xué)的統(tǒng)計方法和多樣的數(shù)據(jù)類型，以最大可能減少樣本偏見的誤差；二是提醒數(shù)據(jù)庫的使用者，尤其是“法治”組合性指標(biāo)數(shù)據(jù)使用者不要過度解讀某些數(shù)據(jù)，在使用時保持謹(jǐn)慎的態(tài)度。

（四）缺乏透明

這也是批評者較為關(guān)注的。每一個數(shù)據(jù)庫差異化的變量是如何與其他變量結(jié)合成一個數(shù)據(jù)庫的代表性指標(biāo)數(shù)據(jù)的？數(shù)據(jù)庫給國家排名的系列標(biāo)準(zhǔn)是什么？等等，這都是KZZ治理指標(biāo)體系缺乏透明性的表現(xiàn)。例如，在“全球在線市場”的調(diào)查中，怎樣把“司法獨立”和“犯罪”這兩個法治變量結(jié)合成一個該數(shù)據(jù)庫的組合性指標(biāo)數(shù)據(jù)，數(shù)據(jù)庫內(nèi)部變量的計算過程如何，KKZ并沒有做詳細說明。由于指標(biāo)之間沒有一個演算過程，使得人們很難理解每一個數(shù)據(jù)庫指標(biāo)數(shù)據(jù)的生成過程，就更加難理解作為用聚合性方法計算之后的“法治”組合性指標(biāo)，更遑論如何使用好它。另外，有些數(shù)據(jù)庫是難以查閱到的，有的甚至需要花費高昂的價錢才能獲取。由于構(gòu)成組合性指標(biāo)的數(shù)據(jù)庫數(shù)據(jù)不公開透明，這就使得缺乏一定同行學(xué)者的批評和使用。

作為回應(yīng)，KKZ表示，對于構(gòu)建組合性指標(biāo)的指標(biāo)數(shù)據(jù)已經(jīng)向公眾公開，大部分?jǐn)?shù)據(jù)庫數(shù)據(jù)都已經(jīng)進入公眾視野，公眾可以通過其官方網(wǎng)站查閱，同時也能在世行官網(wǎng)中查閱。但是，其他通過商業(yè)風(fēng)險評級機構(gòu)和商業(yè)信息調(diào)查得到的數(shù)據(jù)資源只能用商業(yè)手段獲取。為了做到最大透明，這些組織原則上同意使用這些保密數(shù)據(jù)用作計算治理指標(biāo)。但至今仍沒有向公眾完全公開的數(shù)據(jù)庫包括世界銀行國家政策與制度評估（Country Policy and Institutional Assessment，以下簡稱CPIA），還包括非洲發(fā)展銀行和亞洲發(fā)展銀行的評估。因為涉及這些組織機構(gòu)政策的披露，并且也不是構(gòu)建組合性指標(biāo)所需要的，所以沒有公開。當(dāng)然，KKZ自己也意識到，接受公眾審查WGI指標(biāo)體系數(shù)據(jù)具有重要意義。因此，除了CPIA的數(shù)據(jù)之外，所有的數(shù)據(jù)庫的分散數(shù)據(jù)以及組合性指標(biāo)的聚合數(shù)據(jù)都已向公眾開放，這足以保證數(shù)據(jù)向使用者開放和同行的審查。甚至在KKZ看來，這種披露程度已經(jīng)超過經(jīng)濟專業(yè)領(lǐng)域的公開標(biāo)準(zhǔn)。

顯然，對于數(shù)據(jù)使用者而言，是希望能夠全面掌握WGI全部數(shù)據(jù)，不僅是為了全面理解，更是為了準(zhǔn)確使用KKZ指標(biāo)體系的方法。但事實上，出于保護數(shù)據(jù)發(fā)布者的商業(yè)秘密，要做到完全公布又是不太可能的。然而，這并不否定公開WGI“法治”組合性指標(biāo)構(gòu)建體系的重要性。換言之，公開透明的指標(biāo)體系模型是完善KZZ組合性指標(biāo)體系的重要途徑。這里可能需要進一步考量的是，由何人公開、向誰公開、公開的內(nèi)容和形式如何等問題。因不同的指標(biāo)體系的量化主體和目的不同，公開的內(nèi)容和形式也不盡相同。就KKZ“法治”指標(biāo)體系而言，如果能夠進一步公開不同數(shù)據(jù)庫的指標(biāo)數(shù)據(jù)以及如何用聚合性方法演算成單一的組合性指標(biāo)，將有助于使用者更好地理解量化一國“法治”評估水平的技術(shù)手段。僅公布量化模型和公式，還不足以告訴使用者或者研究者一國“法治”評估水平是如何生成的。

從對KKZ指標(biāo)體系的批評和回應(yīng)中可以看出，量化“法治”觀念最關(guān)鍵的三步是采集數(shù)據(jù)、分析數(shù)據(jù)、處理數(shù)據(jù)。采集數(shù)據(jù)是前提，分析數(shù)據(jù)建立在系列假設(shè)基礎(chǔ)之上，而處理數(shù)據(jù)決定了最終結(jié)果。從某種意義上說，批評者產(chǎn)生樣本偏見的質(zhì)疑及對關(guān)聯(lián)性假設(shè)的質(zhì)疑，大都來自于KKZ采集和分析數(shù)據(jù)的過程。對數(shù)據(jù)結(jié)果是否可用于比較以及對公開透明性的質(zhì)疑則貫穿于采集、分析以及處理數(shù)據(jù)的全過程。其中，數(shù)據(jù)分析和處理是整個量化評估過程的關(guān)鍵，所以就決定了同行學(xué)者批評的主攻方向。

毫不奇怪的是，也許在KKZ看來，其數(shù)據(jù)處理和分析模式已經(jīng)是萬無一失，但批評者總是以一種“完美的眼光”去挑剔聚合性方法在分析處理數(shù)據(jù)時的不足。從目的上看，無論是批判還是回應(yīng)，誤差變量和測量結(jié)果的邊際誤差是批評者和KKZ都希望極力避免的。但實際上，任何一個“法治”測量指標(biāo)體系都存在誤差，一方面，這是因為“法治”本身一個復(fù)雜的社會現(xiàn)象，難以全面測量，測量結(jié)果不可避免存在誤差；另一方面，“法治”觀念在社會生活中總是具有相對的穩(wěn)定性和一致性，尤其是對KKZ“法治”組合指標(biāo)體系來講，其“法治”變量并不是“法治”觀念的全部代表，僅靠科學(xué)的統(tǒng)計方法是難以消除誤差的存在?；蛟S，評估設(shè)計者能做的只能是保持謹(jǐn)慎的態(tài)度以最大可能減少誤差。所以，如果不考慮指標(biāo)生成的具體語境（context），即便得出全球治理組合性指標(biāo)是多么地準(zhǔn)確和可信，那仍然可能是錯誤的結(jié)論（Juan Carlos Botero et al.，2011）。這一點為KKZ所認(rèn)同，同時KKZ認(rèn)為全球治理指標(biāo)體系的一個核心優(yōu)勢是：研究者充分認(rèn)識到它的不完善性，除此之外，當(dāng)他們比較不同國家或者不同時間的值時，讓W(xué)GI使用者正面考慮用此方法存在邊際誤差并提供量化完善工具把這種不完善性充分考慮進去。

四、結(jié)語

仔細分析WGI法治指數(shù)的邏輯框架、內(nèi)在結(jié)構(gòu)以及結(jié)果應(yīng)用等方面的量化實踐之后，我們發(fā)現(xiàn)WGI法治指數(shù)評估在評估主體、數(shù)據(jù)來源以及結(jié)果應(yīng)用等方面對我國當(dāng)前法治評估實踐具有重要借鑒意義。從評估主體上看，WGI法治指數(shù)評估采用第三方學(xué)術(shù)機構(gòu)進行評估，有利于保證評估主體的中立性；從數(shù)據(jù)來源來看，WGI法治指數(shù)評估盡可能采取數(shù)據(jù)來源不同的多方面數(shù)據(jù)庫進行評估，有利于保證樣本的真實性，提升了評估的效度；從結(jié)果應(yīng)用來看，KKZ在設(shè)計評估指標(biāo)時要求使用者在應(yīng)用評估結(jié)果時要注意指標(biāo)的生成語境，正面考慮標(biāo)準(zhǔn)誤差問題，有利于科學(xué)看待評估結(jié)果的限度。因此，為充分發(fā)揮法治評估在測度法治發(fā)展水平、找準(zhǔn)法治建設(shè)方向以及推進法治改革方面的重要作用，我國法治指數(shù)評估應(yīng)充分借鑒WGI法治指數(shù)評估在評估主體、數(shù)據(jù)來源以及結(jié)果運用等方面的經(jīng)驗實踐進一步完善和改進。這就要求，首先在評估主體方面，要改變以往政府主導(dǎo)的法治績效考核方式，注重充分調(diào)動學(xué)術(shù)機構(gòu)、科研院所等第三方社會評估機構(gòu)的力量積極參與法治建設(shè)的評估，以確保評估主體的中立性；其次在法治評估數(shù)據(jù)生成方面，需要建立多方面的數(shù)據(jù)來源渠道，保證量化樣本的代表性和真實性，不斷減少數(shù)據(jù)的生成和處理時產(chǎn)生的標(biāo)準(zhǔn)誤差；最后在評估結(jié)果方面，不應(yīng)夸大法治評估結(jié)果，而應(yīng)該結(jié)合數(shù)據(jù)的生成語境來分析結(jié)果的適用范圍，正確區(qū)分?jǐn)?shù)據(jù)之間的相關(guān)性和因果關(guān)系，注重定性分析與定量描述的結(jié)合。

總之，由于我國法治評估起步較晚，法治評估方法還不成熟，因此需要借鑒域外法治評估經(jīng)驗不斷實踐。從某種意義上講，不斷實踐可能是支撐法治指數(shù)評估體系日趨完善的強大動力，這是因為法治指數(shù)評估體系本身是一個具有實踐品質(zhì)的動態(tài)機制。只有通過不斷和反復(fù)實踐，才可能在實踐中不斷發(fā)現(xiàn)法治指數(shù)評估體系暴露出的各種問題，找準(zhǔn)問題方向、尋求改進措施，進而在新的層面上提出完善對策。再加之，由于法治建設(shè)具有普遍性和特殊性，域外法治評估的理論和實踐經(jīng)驗也只有在中國法治建設(shè)具體實踐中，才可能印證其生命力。

參考文獻：

[1] 風(fēng)笑天，2009，《社會學(xué)研究方法》（第三版），中國人民大學(xué)出版社。[Feng Xiaotian，2009，“Sociological Research Methods”（Third Edition），Renmin University of China Press.]

[2] 任岳鵬，2009，《法的社會實證研究能與不能》，《政治與法律》第8期。[Ren Yuepeng，2009，“Social and Empirical Studies of Law Can and Can not”，Politics and Law，8.]

[3] Christiane Arndt and Charles Oman，2006，“Uses and Abuses of Governance Indicators”，Development Centre Studies by OECD，pp.49-55，pp.103-105.

[4] Ginsburg，Tom，2011，“Pitfalls of Measuring the Rule of Law”，Hague Journal on the Rule of Law，Vol.3，No.2，p.274.

[5] Jim Parsons，2011，“Developing Clusters of Indicators： An Alternative Approach to Measuring the Provision of Justice”，Hague Journal on the Rule of Law，p.179.

[6] Juan Carlos Botero et al.，2011，“Indices and Indicators of Justice，Governance， and the Rule of Law： An Overview”，Hague Journal on the Rule of Law，p.158.

[7] Kaufmann，Daniel et al.，2007，“Worldwide Governance Indicators Project： Answering the Critics”，World Bank Policy Research Working Paper，No.4149，pp.12-14.

[8] Kaufmann，Daniel et al.，2011，“The Worldwide Governance Indicators： Methodology and Analytical Issues”，Hague Journal on the Rule of Law，pp.220-246，pp.237-239.