王惟晉
[內(nèi)容提要] 文本是國(guó)際關(guān)系研究必不可少的資料形式。為了更方便地管理和分析文本,西方國(guó)際關(guān)系學(xué)界越來(lái)越多地將文本內(nèi)容轉(zhuǎn)化為數(shù)據(jù)并整合成庫(kù)。信息技術(shù)的發(fā)展使機(jī)器逐步代替研究者進(jìn)行文本數(shù)據(jù)的搜集、編碼和分析,對(duì)基于文本開(kāi)展的國(guó)際關(guān)系研究貢獻(xiàn)良多。然而,數(shù)據(jù)本質(zhì)上是意義單一的符號(hào),數(shù)據(jù)化的過(guò)程會(huì)排除話語(yǔ)的背景信息和深刻內(nèi)涵,若研究者以不適當(dāng)?shù)姆绞教幚頂?shù)據(jù)化文本資料,則研究結(jié)論的可靠性就會(huì)大打折扣。對(duì)此,國(guó)際關(guān)系研究者應(yīng)加強(qiáng)發(fā)展后實(shí)證主義方法,確保研究的內(nèi)在邏輯性,重視通過(guò)人際交流檢驗(yàn)結(jié)論,以克服數(shù)據(jù)化文本資料的局限性。
國(guó)際關(guān)系研究者常常借助媒體報(bào)道、歷史檔案、政府報(bào)告、學(xué)術(shù)文獻(xiàn)等文字材料觀察和研究國(guó)家間的現(xiàn)象和行為。但是,研究者搜集的原始文本資料內(nèi)容通常龐雜無(wú)序,這讓研究者很難找到問(wèn)題中的關(guān)鍵因子,*蔣建忠:“模糊集合、質(zhì)性比較與國(guó)關(guān)研究”,《國(guó)際政治科學(xué)》,2016年第2期,第148頁(yè)。無(wú)法進(jìn)行有效的分析操作。對(duì)此,許多國(guó)際關(guān)系研究者將搜集到的文本資料進(jìn)行數(shù)據(jù)化處理,建立了大量數(shù)據(jù)庫(kù),實(shí)時(shí)記錄和分析國(guó)際事件等。由于存在重視實(shí)證主義與定量研究方法的學(xué)術(shù)傳統(tǒng),美國(guó)學(xué)界在國(guó)際關(guān)系研究文本的數(shù)據(jù)化方面可謂世界的領(lǐng)導(dǎo)者,擁有世界上大部分的著名數(shù)據(jù)庫(kù);單就公眾輿論數(shù)據(jù)庫(kù)而言,美國(guó)校際政治及社會(huì)研究聯(lián)盟(Inter-University Consortium for Political and Social Research)在2011年前后便已收錄1889個(gè),當(dāng)中包含500多萬(wàn)組變量,規(guī)模遠(yuǎn)超其他國(guó)家。*ICPSR, “Find & Analyze Data”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/(上網(wǎng)時(shí)間:2018年3月2日);郭銳、王蕭軻:“國(guó)際關(guān)系定量研究與數(shù)據(jù)庫(kù)建設(shè)——評(píng)《中外關(guān)系鑒覽1950-2005——中國(guó)與大國(guó)關(guān)系定量衡量》”,《世界經(jīng)濟(jì)與政治》,2011年第7期,第133頁(yè);劉豐、陳沖:“國(guó)際關(guān)系研究的定量數(shù)據(jù)庫(kù)及其應(yīng)用”,《世界經(jīng)濟(jì)與政治》,2011年第5期,第38~39頁(yè)。美國(guó)還是先行者,最早在國(guó)際關(guān)系研究領(lǐng)域開(kāi)展和應(yīng)用文本資料數(shù)據(jù)化,還及時(shí)將大數(shù)據(jù)技術(shù)引入至數(shù)據(jù)庫(kù)建設(shè)中,現(xiàn)已建立了相對(duì)成熟的國(guó)際關(guān)系大數(shù)據(jù)分析系統(tǒng)。歐洲的學(xué)術(shù)傳統(tǒng)則更注重抽象思辨,更多學(xué)者以詮釋學(xué)的路徑開(kāi)展研究,因此對(duì)數(shù)據(jù)化的文本資料采取了更謹(jǐn)慎的態(tài)度,所建此類(lèi)數(shù)據(jù)庫(kù)數(shù)量上比美國(guó)少,*比如,在國(guó)際關(guān)系數(shù)據(jù)庫(kù)建設(shè)相對(duì)發(fā)達(dá)的北歐,著名的“斯德哥爾摩和平研究所數(shù)據(jù)庫(kù)”(SIPRI Database)、“烏普薩拉沖突數(shù)據(jù)項(xiàng)目”(Uppsala Conflict Data Program)和奧斯陸和平研究所的“武裝沖突數(shù)據(jù)”(Armed Conflict Dataset)提供的是戰(zhàn)爭(zhēng)傷亡、軍費(fèi)開(kāi)支、武器交易等客觀數(shù)據(jù),還沒(méi)有提供從話語(yǔ)文本轉(zhuǎn)化而來(lái)的數(shù)據(jù)。但也取得了不少成果,近年亦有學(xué)術(shù)團(tuán)隊(duì)正以大數(shù)據(jù)技術(shù)建設(shè)國(guó)際關(guān)系數(shù)據(jù)庫(kù)。許多中國(guó)國(guó)際關(guān)系學(xué)者認(rèn)為,這是大勢(shì)所趨并將在技術(shù)層面引起分析手段和決策模式的革命。*蔡翠紅:“國(guó)際關(guān)系中的大數(shù)據(jù)變革及其挑戰(zhàn)”,《世界經(jīng)濟(jì)與政治》,2014年第5期,第124~143頁(yè);董青嶺:“大數(shù)據(jù)外交:一場(chǎng)即將到來(lái)的外交革命?”《歐洲研究》,2015年第2期,第130~144頁(yè);董青嶺:“反思國(guó)際關(guān)系研究中的大數(shù)據(jù)應(yīng)用”,《探索與爭(zhēng)鳴》,2016年第7期, 第92頁(yè)。然而,在信息科學(xué)領(lǐng)域,學(xué)者們一致認(rèn)為,文本數(shù)據(jù)即便質(zhì)量再好,歸根到底也無(wú)法表達(dá)話語(yǔ)中的隱晦含義。*Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.167.這種含義能體現(xiàn)國(guó)際行為體的價(jià)值觀、規(guī)范和身份認(rèn)同,因此,經(jīng)過(guò)數(shù)據(jù)化處理的文本資料可對(duì)國(guó)際關(guān)系研究產(chǎn)生潛在影響。換言之,文本信息數(shù)據(jù)化對(duì)于國(guó)際關(guān)系研究的影響不但在于數(shù)據(jù)分析技術(shù)層面,還可源自文本內(nèi)容本質(zhì)。但是,目前,從數(shù)據(jù)本質(zhì)的角度對(duì)文本信息數(shù)據(jù)化的影響進(jìn)行的思考尚有不足,這導(dǎo)致學(xué)界對(duì)于國(guó)際關(guān)系研究數(shù)據(jù)化的認(rèn)識(shí)還有很大空間。本文擬對(duì)此做出進(jìn)一步探討,以期更好地認(rèn)識(shí)數(shù)據(jù)的本質(zhì)和文本資料數(shù)據(jù)化對(duì)國(guó)際關(guān)系研究的影響,進(jìn)而使國(guó)際關(guān)系的文本數(shù)據(jù)處理能夠更好地服務(wù)于學(xué)術(shù)研究與國(guó)家決策。
數(shù)據(jù)是人類(lèi)觀察自然和社會(huì)后用于表達(dá)事物、時(shí)間、地點(diǎn)等信息的標(biāo)記或符號(hào),其內(nèi)容意義被抽離于具體的歷史社會(huì)環(huán)境。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2. 2007, p.170; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationships”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-62.數(shù)據(jù)化是將研究材料編碼整理成為可用于操作分析的符號(hào)之過(guò)程,也是人們將自己無(wú)形的主觀理解轉(zhuǎn)化為有形的客觀事實(shí)之過(guò)程。研究者分析數(shù)據(jù)的目的是創(chuàng)造信息、知識(shí)和智慧。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Chun Wei Choo,“The Knowing Organization: How Organizations Use Information to Construct Meaning, Create Knowledge and Make Decisions”, International Journal of Information Management, Vol.16, No.5, 1996, pp.329-340; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.166; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50.
為了更好地分析國(guó)際社會(huì)的現(xiàn)象和行為,西方國(guó)際關(guān)系研究者很早便搜集和編碼新聞報(bào)道、歷史檔案、政府文件等文本資料,將文本內(nèi)容轉(zhuǎn)化成數(shù)據(jù)并整合成庫(kù)。自20世紀(jì)60年代至今,國(guó)際關(guān)系文本資料數(shù)據(jù)庫(kù)的建設(shè)從開(kāi)始興起到加速發(fā)展,*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.呈現(xiàn)出三個(gè)突出特點(diǎn)。
第一個(gè)特點(diǎn)是自動(dòng)化數(shù)據(jù)挖掘。在20世紀(jì)90年代前,文本資料的收集和編碼均由人工處理。比如在美國(guó),查爾斯·麥克蘭德(Charles McClelland)于1966年創(chuàng)立“世界事件互動(dòng)調(diào)查數(shù)據(jù)庫(kù)”(World Event Interaction Survey)時(shí),其研究團(tuán)隊(duì)成員自行搜集《紐約時(shí)報(bào)》的報(bào)道,閱讀報(bào)道內(nèi)容,用紙、筆將相關(guān)內(nèi)容轉(zhuǎn)化成各種變量,再將變量整合為數(shù)據(jù)集、組合成庫(kù)。*Charles McClelland, World Event/Interaction Survey, 1966-1978, Ann Arbor: Inter-University Consortium for Political and Social Research, 1999, pp.2-3; Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.類(lèi)似的著名數(shù)據(jù)庫(kù)還有大衛(wèi)·辛格(David Singer)于1963年建立的“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)”(the Behavioral Correlates of War);愛(ài)德華·阿扎爾(Edward Azar)主持的“沖突與和平數(shù)據(jù)庫(kù)”(The Conflict and Peace Data Bank)項(xiàng)目。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, pp.146-150.在歐洲,歐共體于1974年建立“歐洲晴雨表”(Eurobarometer),將研究者通過(guò)訪談民眾得來(lái)的文本資料轉(zhuǎn)化成為量化數(shù)據(jù),以便監(jiān)測(cè)與研究輿情的變化。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網(wǎng)時(shí)間:2018年3月2日)。由于收集與編碼文本均依賴(lài)人力,這些數(shù)據(jù)庫(kù)建設(shè)效率相對(duì)低下,比如“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)”中的數(shù)據(jù)集經(jīng)歷數(shù)年才更新一次,*劉豐、陳沖:“國(guó)際關(guān)系研究的定量數(shù)據(jù)庫(kù)及其應(yīng)用”,《世界經(jīng)濟(jì)與政治》,2011年第5期,第23頁(yè)。這讓數(shù)據(jù)庫(kù)無(wú)法緊貼時(shí)勢(shì)發(fā)展,影響學(xué)術(shù)價(jià)值。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.119; Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.20世紀(jì)90年代起,西方國(guó)際關(guān)系學(xué)者編寫(xiě)程序?qū)ξ谋举Y料進(jìn)行編碼,*Min Chen, Shiwen Mao and Yunhao Liu, “Big Data: A Survey”, Mobile Networks and Applications, Vol.19, No.2, 2014, pp.171-209.建庫(kù)效率大幅提升。在這個(gè)時(shí)期,此類(lèi)有影響力的數(shù)據(jù)庫(kù)集中在美國(guó)。典型的例子有德博拉·格爾納(Deborah Gerner)主持開(kāi)發(fā)的”堪薩斯事件數(shù)據(jù)系統(tǒng)”(Kansas Events Data System),*Deborah Gerner, Philip Schrodt, Ronald Francisco and Judith Weddle, “Machine Coding of Event Data Using Regional and International Sources”, International Studies Quarterly, Vol.38, No.1, 1994, pp.91-119; Philip Schrodt, “Event Data in Foreign Policy Analysis”, in Laura Neack, Patrick Haney and Jeanne Hey, eds., Foreign Policy Analysis: Continuity and Change in Its Second Generation, New York: Prentice Hall, 1993, pp.145-165.加里·京格(Gary King)與威爾·洛維(Will Lowe)構(gòu)建的“事件分析綜合數(shù)據(jù)”(the Integrated Data for Events Analysis),*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.約翰·戴維斯(John Davies)開(kāi)發(fā)的“全球事件數(shù)據(jù)系統(tǒng)”(The Global Event-Data System),*John Davies and Chad McDaniel, “A New Generation of International Event-data,” International Interactions, Vol.20, No.1-2, 1994, pp.55-78.肖恩·奧布萊恩(Sean O’Brien)開(kāi)發(fā)的“整合性沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System)等等。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, p.94.但是,這些數(shù)據(jù)庫(kù)只在文本編碼層面實(shí)現(xiàn)了自動(dòng)化,研究者仍須自行搜集文本資料、錄入程序中加以編碼,*Gary King and Will Lowe, “ An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design,” International Organization, Vol.53, No.3, 2003, pp.618-619; Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, pp.90-91; Rebecca Best, Christine Carpino and Mark Crescenzi, “An Analysis of the TABARI Coding System”, Conflict Management and Peace Science, Vol.30, No.4, 2013, p.336.依然難以做到根據(jù)形勢(shì)實(shí)時(shí)更新數(shù)據(jù),令數(shù)據(jù)庫(kù)的學(xué)術(shù)價(jià)值同樣受限。
2010年后,大數(shù)據(jù)技術(shù)深刻地影響國(guó)際關(guān)系文本資料的數(shù)據(jù)化進(jìn)程。此時(shí)計(jì)算機(jī)已能代替研究者自行收集文本,以每天甚至每小時(shí)的頻率對(duì)文本編碼并更新數(shù)據(jù)庫(kù)。在美國(guó)國(guó)際關(guān)系學(xué)界,卡里夫·利塔魯(Kalev Leetaru)與菲利普·施羅德(Philip Schrodt)于2013年建立的“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”(the Global Database of Event Language and Tone)正以每日更新約70億字節(jié)的速度自動(dòng)記錄1979年1月1日迄今全球媒體報(bào)道國(guó)內(nèi)和國(guó)際層面發(fā)生的事件。*The GDELT Project, “Google Big Query”, https://www.gdeltproject.org.(上網(wǎng)時(shí)間:2018年2月15日).基于Python語(yǔ)言構(gòu)建的“鳳凰實(shí)時(shí)事件數(shù)據(jù)集”(Pheonix Near-Real-Time Event Dataset)則能每小時(shí)自動(dòng)從400多個(gè)網(wǎng)站上搜集文本資料并對(duì)其編碼。*John Beieler, ”Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網(wǎng)時(shí)間:2018年2月20日).在歐洲,荷蘭萊頓大學(xué)的“和平情報(bào)實(shí)驗(yàn)室”(Peace Informatics Lab)下屬“未來(lái)基地”(Future Base)計(jì)劃開(kāi)發(fā)新的軟件自動(dòng)搜集、整合和分析全球的文本資料數(shù)據(jù),以幫助國(guó)家安全部門(mén)制定最佳的防務(wù)政策。*Peace Informatics Lab, “FutureBase”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).由于文本收集和編碼均實(shí)現(xiàn)自動(dòng)化,新的國(guó)際關(guān)系文本數(shù)據(jù)庫(kù)大幅提升了數(shù)據(jù)生產(chǎn)效率,使數(shù)據(jù)庫(kù)建設(shè)可緊貼國(guó)際形勢(shì)的變化。
第二個(gè)特點(diǎn)是大數(shù)據(jù)體量動(dòng)態(tài)增長(zhǎng)。1990年前,國(guó)際關(guān)系文本資料數(shù)據(jù)庫(kù)體量主要以百萬(wàn)字節(jié)(MB)為單位。20世紀(jì)60年代建立的“世界事件互動(dòng)調(diào)查數(shù)據(jù)庫(kù)”數(shù)據(jù)集的大小只有30多MB。*ICPSR,“World Event/Interaction Survey (WEIS) Project, 1966-1978 (ICPSR 5211)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/5211.(上網(wǎng)時(shí)間:2018年2月15日).“沖突與和平數(shù)據(jù)庫(kù)”項(xiàng)目在20世紀(jì)60年代中期至1978年的數(shù)據(jù)體量也是30多MB。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, p.150.同時(shí)期建立的“戰(zhàn)爭(zhēng)相關(guān)指數(shù)項(xiàng)目數(shù)據(jù)庫(kù)”記錄1816~1979年戰(zhàn)爭(zhēng)變量的單個(gè)數(shù)據(jù)總量不過(guò)2MB。*ICPSR,“Behavioral Correlates of War, 1816-1979 (ICPSR 8606)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/8606#.(上網(wǎng)時(shí)間:2018年2月15日).這些數(shù)據(jù)庫(kù)的體量增長(zhǎng)依靠研究者手工勞動(dòng)補(bǔ)充數(shù)據(jù)集,受制于經(jīng)費(fèi)或人事變動(dòng)等現(xiàn)實(shí)因素,數(shù)據(jù)增長(zhǎng)進(jìn)程容易遭遇干擾或中斷而缺乏持續(xù)性,所以研究者無(wú)法以接近實(shí)時(shí)的方式更新數(shù)據(jù),數(shù)據(jù)庫(kù)的體量增長(zhǎng)往往有限而且容易窮盡。
20世紀(jì)90年代國(guó)際關(guān)系文本資料編碼實(shí)現(xiàn)自動(dòng)化后,數(shù)據(jù)庫(kù)的體量依然不大。由于研究的文本資料來(lái)源主要依賴(lài)《紐約時(shí)報(bào)》、路透社等權(quán)威媒體,*Patrick Brandt, John Freeman and Philip Schrodt, “Real Time, Time Series Forecasting of Inter- and Intra-State Political Conflict”, Conflict Management and Peace Science, Vol.28, No.2, 2011, p.47.當(dāng)時(shí)數(shù)據(jù)庫(kù)體量增加幅度有限。菲利普·施羅德通過(guò)“堪薩斯事件數(shù)據(jù)系統(tǒng)”構(gòu)建的一個(gè)數(shù)據(jù)集體量只有幾百KB(千字節(jié))左右。*John Reuters, “A New Generation of International Event-Data”, International Interactions, Vol.20, No.1-2, p.55.“整合性沖突早期預(yù)警系統(tǒng)”一年更新的數(shù)據(jù)量約為200MB。*Harvard University, “Dataverse”, https://dataverse.harvard.edu/file.xhtml?fileId=3107463&version=RELEASED&version=.0. (上網(wǎng)時(shí)間:2018年2月18日).
大數(shù)據(jù)技術(shù)應(yīng)用后,國(guó)際關(guān)系數(shù)據(jù)庫(kù)的文本來(lái)源不再局限于權(quán)威媒體,而是借助現(xiàn)代信息技術(shù)有了大幅拓寬,人們?cè)谏缃痪W(wǎng)絡(luò)上發(fā)布的內(nèi)容亦可成為分析對(duì)象。*Kenneth Cukier and Viktor Mayer-Sch?nberger, “The Rise of Big Data: How It’s Changing the Way We Think About the World”, Foreign Affairs, Vol.92, 2013, p.21; Amir Gandomi and Murtaza Haider, “Beyond the Hype: Big Data Concepts, Methods, and Analytics”, International Journal of Information Management, Vol.35, No.2, 2015, pp.137.加上云儲(chǔ)存技術(shù)的不斷發(fā)展為大體量數(shù)據(jù)的管理和分享創(chuàng)造了空間,2010年后,國(guó)際關(guān)系文本資料的數(shù)據(jù)庫(kù)體量呈現(xiàn)指數(shù)級(jí)別增長(zhǎng),從過(guò)往的千字節(jié)級(jí)別發(fā)展至萬(wàn)億字節(jié)(TB)甚至千萬(wàn)億字節(jié)(PB)級(jí)別。由于實(shí)現(xiàn)了機(jī)器自動(dòng)收集和編碼文本,數(shù)據(jù)庫(kù)體量可自動(dòng)增加,若研究者能妥善經(jīng)營(yíng),數(shù)據(jù)庫(kù)的體量并不會(huì)窮盡。在美國(guó),“鳳凰實(shí)時(shí)事件數(shù)據(jù)集”平均每天能自動(dòng)記錄全球約3000項(xiàng)事件。*John Beieler, “Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網(wǎng)時(shí)間:2018年2月20日).而“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”一年的數(shù)據(jù)體量便超過(guò)2.5TB,其間記錄超過(guò)7500億條人們對(duì)國(guó)際事件的態(tài)度和15億條國(guó)際事件發(fā)生的位置數(shù)據(jù)。*The GDELT Project, “Intro”, https://www.gdeltproject.org. (上網(wǎng)時(shí)間:2018年2月15日).在歐洲,國(guó)際關(guān)系學(xué)界應(yīng)用大數(shù)據(jù)不如美國(guó)早和快,但也在不斷進(jìn)展。比如“和平情報(bào)實(shí)驗(yàn)室”項(xiàng)目計(jì)劃在2018~2023年間建成大數(shù)據(jù)平臺(tái)的數(shù)據(jù)體量也能自動(dòng)實(shí)現(xiàn)增長(zhǎng),及時(shí)為公共及私營(yíng)部門(mén)提供決策建議依據(jù)。*Peace Informatics Lab, “Data Pool”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).
第三個(gè)特點(diǎn)是機(jī)器代替人成為數(shù)據(jù)分析的主體。過(guò)去的電腦只擅長(zhǎng)處理重復(fù)、規(guī)律的計(jì)算工作,并沒(méi)有解讀數(shù)據(jù)意義的能力,即便20世紀(jì)90年后機(jī)器代替研究者對(duì)文本進(jìn)行編碼,計(jì)算機(jī)仍無(wú)法取代研究者進(jìn)行數(shù)據(jù)分析,只能作為研究者的分析工具。在大數(shù)據(jù)技術(shù)和理念進(jìn)入國(guó)際關(guān)系研究領(lǐng)域后,數(shù)據(jù)分析須實(shí)時(shí)進(jìn)行,而人單憑自身有限的時(shí)間和精力難以適應(yīng)。隨著人工智能技術(shù)特別是自然語(yǔ)言處理技術(shù)的發(fā)展,機(jī)器具備了從持續(xù)的數(shù)據(jù)歸納總結(jié)中學(xué)習(xí)的能力,這使計(jì)算機(jī)分析技術(shù)不再局限于從數(shù)學(xué)模型和公式中推導(dǎo)出結(jié)果,電腦對(duì)于文字的處理不再拘泥于句法和語(yǔ)義規(guī)則的理性分析,而是更多通過(guò)機(jī)器學(xué)習(xí)的方法,逐漸提升解讀文本中意義的能力。*馮志偉:“自然語(yǔ)言處理的歷史和現(xiàn)狀”,《中國(guó)外語(yǔ)》,2008年第1期,第21~22頁(yè)。
由于有了結(jié)合環(huán)境解讀文本意義的能力,計(jì)算機(jī)能從無(wú)結(jié)構(gòu)的文本內(nèi)容中辨別說(shuō)話者的行為模式,當(dāng)下的機(jī)器由此具備了一定的沖突預(yù)測(cè)能力。*董青嶺:“機(jī)器學(xué)習(xí)與沖突預(yù)測(cè)——國(guó)際關(guān)系研究的一個(gè)跨學(xué)科視角”,《世界經(jīng)濟(jì)與政治》,2017年第7期,第100-105頁(yè)。現(xiàn)今許多國(guó)際關(guān)系數(shù)據(jù)庫(kù)不但可提供數(shù)據(jù)挖掘服務(wù),還可幫助研究者進(jìn)行數(shù)據(jù)分析。在美國(guó),基于“堪薩斯事件數(shù)據(jù)系統(tǒng)”發(fā)展而成“帕盧斯分析系統(tǒng)”(Parus Analytical System)能自動(dòng)分析和預(yù)測(cè)國(guó)際沖突。由于機(jī)器分析能節(jié)省大量人力物力,開(kāi)發(fā)者彼得·施羅德憑一己之力便可成立一家公司,為全球客戶提供咨詢服務(wù)。*Parus Analytics, “About Us”, http://parusanalytics.com/about.html.(上網(wǎng)時(shí)間:2018年1月27日).IMB公司依據(jù)自然語(yǔ)言處理技術(shù)開(kāi)發(fā)了Watson系統(tǒng),該系統(tǒng)能通過(guò)不斷與人交流逐漸理解文本話語(yǔ)的意義,也具備分析國(guó)際問(wèn)題的能力。*IBM,“Watson Discovery Visual Insights”, https://visual-insights.bluemix.net.(上網(wǎng)時(shí)間:2018年1月27日).在歐洲,塞浦路斯大學(xué)的安得利斯·安德魯(Andreas Andreou)和希臘銀行研究部的喬治·祖巴納基斯(George Zombanakis)也宣稱(chēng)使用機(jī)器學(xué)習(xí)技術(shù)成功預(yù)測(cè)了希臘與土耳其的軍備競(jìng)賽態(tài)勢(shì)。*董青嶺:“機(jī)器學(xué)習(xí)與沖突預(yù)測(cè)——國(guó)際關(guān)系研究的一個(gè)跨學(xué)科視角”,《世界經(jīng)濟(jì)與政治》,2017年第7期,第110頁(yè)。簡(jiǎn)而言之,此時(shí)計(jì)算機(jī)從過(guò)往被人操作的分析工具逐漸轉(zhuǎn)變?yōu)檠芯糠治鑫谋镜闹黧w,有能力實(shí)時(shí)監(jiān)測(cè)國(guó)際關(guān)系形勢(shì),為決策者提供行動(dòng)建議。
綜上所述,數(shù)據(jù)化趨勢(shì)為國(guó)際關(guān)系的文本研究提供了越來(lái)越大的便利,日益深刻地影響到國(guó)際關(guān)系研究的形式和內(nèi)容,發(fā)揮了不可替代的重要作用。
文本研究數(shù)據(jù)化為分析、研究活動(dòng)帶來(lái)了空前的便利和效率,促進(jìn)了國(guó)際關(guān)系研究在形式和內(nèi)容上的革新,具有重大的歷史性貢獻(xiàn)。
第一,數(shù)據(jù)化可提升國(guó)際關(guān)系文本研究的靈活性。原始文本資料的內(nèi)容不如數(shù)字般有大小之分,許多文字、詞組表達(dá)常是多義的,內(nèi)涵容易混淆,內(nèi)容結(jié)構(gòu)不明顯。這使研究者在大容量的閱讀后即便思維再敏銳也難以準(zhǔn)確區(qū)分不同內(nèi)容間的主次關(guān)系,無(wú)法提取關(guān)鍵變量或概念進(jìn)行分析處理,只能依賴(lài)主觀判斷進(jìn)行詮釋。
對(duì)此,研究者可通過(guò)數(shù)據(jù)化將復(fù)雜的話語(yǔ)內(nèi)容轉(zhuǎn)化成表達(dá)精煉的文字或數(shù)字標(biāo)簽,由于這些標(biāo)簽通常是單義的,能最大限度避免歧義,由此可以更確切無(wú)誤地將各類(lèi)內(nèi)容信息分類(lèi)整理,避免混淆,讓不同內(nèi)容之間的結(jié)構(gòu)變得清晰,明確文本描述的事物之間相互關(guān)系。*若文本內(nèi)容被編碼為精煉的文字標(biāo)簽,研究者則可通過(guò)計(jì)算不同標(biāo)簽出現(xiàn)的次數(shù)衡量不同內(nèi)容的重要性差異?;诖?,研究者能更容易地從文本資料中辨認(rèn)并提煉分析所需的變量或概念,繼而可用更多分析工具和設(shè)計(jì)技巧研究文本資料,提升國(guó)際關(guān)系文本研究模式的多樣性。比如克里斯蒂安·格萊迪許(Kristian Gleditsch)和邁克爾·沃德(Michael Ward)在“戰(zhàn)爭(zhēng)相關(guān)指數(shù)數(shù)據(jù)庫(kù)”的基礎(chǔ)上將國(guó)家間的政治親密度轉(zhuǎn)換成連續(xù)型變量并建立數(shù)據(jù)庫(kù),其他研究者便可更輕松地應(yīng)用各類(lèi)統(tǒng)計(jì)學(xué)模型對(duì)媒體報(bào)道內(nèi)容進(jìn)行計(jì)量分析,大幅提升了文本內(nèi)容的可操作性。*Kristian Gleditsch, “Measuring Space: A Minimum-Distance Database and Applications to International Studies”, Journal of Peach Research, Vol.38, No.6, 2001, pp.749-758.查理·卡彭特(Charli Carpenter)收集訪談資料后,用質(zhì)性編碼的手段將因戰(zhàn)時(shí)性暴力而出生的兒童面臨的困境精煉成意義單一的文字標(biāo)簽,而后根據(jù)不同標(biāo)簽在文本資料出現(xiàn)的次數(shù)判斷這些兒童面臨的主要危機(jī),以客觀的方式驗(yàn)證這些兒童得不到國(guó)際倡議組織關(guān)注的原因,讓基于文本操作的國(guó)際關(guān)系研究實(shí)現(xiàn)理論檢驗(yàn)的功能。*Charli Carpenter, “Studying Issue (non)-Adoption in Transnational Advocacy Networks”, International Organization, Vol.61, No.3, 2007, pp.643-667.隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,更多能夠探尋事物相關(guān)關(guān)系(correlation)的方法也將引入國(guó)際關(guān)系文本研究中。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.由此說(shuō)來(lái),文本資料數(shù)據(jù)化后,國(guó)際關(guān)系研究者可應(yīng)用更多社會(huì)科學(xué)方法與技巧加以分析,能提升文本研究操作的靈活性和文本資料的學(xué)術(shù)價(jià)值。鑒于國(guó)際關(guān)系比一般的社會(huì)關(guān)系更加抽象且復(fù)雜多變,更多樣、靈活的文本研究設(shè)計(jì)方案能幫助研究者厘清國(guó)際形勢(shì)的發(fā)展脈絡(luò),進(jìn)而從錯(cuò)綜復(fù)雜的表象中正確剖析事件的內(nèi)在聯(lián)系。
第二,數(shù)據(jù)化可增強(qiáng)國(guó)際關(guān)系文本研究的科學(xué)性。廣義上的科學(xué)應(yīng)是嚴(yán)謹(jǐn)、系統(tǒng)的知識(shí)體系,應(yīng)建立在前人的基礎(chǔ)上,為后續(xù)的研究提供重復(fù)、檢驗(yàn)、證偽的可能。然而,原始文本資料的字里行間常帶有深刻、隱晦的含義,這些含義需要研究者主觀解讀和詮釋?zhuān)@種分析過(guò)程常依賴(lài)直覺(jué),透明度低,分析結(jié)果不夠精確,以致文本研究具有較大的隨意性且流程無(wú)法重復(fù),結(jié)論難以檢驗(yàn)而在可靠性方面受到削弱或質(zhì)疑。
無(wú)論文本被編碼成量化數(shù)據(jù)還是質(zhì)性數(shù)據(jù),數(shù)據(jù)化都是將文本資料中最確鑿無(wú)疑的核心內(nèi)容提取為分析對(duì)象,使之變得相對(duì)客觀和穩(wěn)定。鑒于研究者須根據(jù)研究對(duì)象的特質(zhì)選擇方法和技巧設(shè)計(jì)分析流程,分析數(shù)據(jù)的手段須客觀、標(biāo)準(zhǔn),一些更縝密的實(shí)證主義方法便可應(yīng)用于文本研究中,進(jìn)而得出更精確的分析結(jié)果。即便是純粹的質(zhì)性研究,研究者也可應(yīng)用相對(duì)客觀的理論框架或模型分析數(shù)據(jù)化文本內(nèi)容,這方便研究者公開(kāi)分析流程細(xì)節(jié),其他研究者能更輕易地重復(fù)開(kāi)展其研究,國(guó)際關(guān)系文本研究的結(jié)論可因此變得更可靠。比如尼古拉·史密斯(Nicola Smith)和科林·黑爾(Colin Hay)在開(kāi)展英國(guó)與愛(ài)爾蘭關(guān)于全球化、歐洲一體化的政治觀念對(duì)比研究時(shí),將兩國(guó)政治家的講話文本錄入Nvivo軟件中進(jìn)行質(zhì)性編碼并將文本內(nèi)容濃縮整合為六項(xiàng)主題,而后根據(jù)主題設(shè)計(jì)調(diào)查問(wèn)卷、詢問(wèn)兩國(guó)議員對(duì)于主題內(nèi)容的認(rèn)可程度,再用數(shù)字?jǐn)?shù)據(jù)對(duì)比兩國(guó)對(duì)于全球化與歐洲一體化的態(tài)度差異。在該項(xiàng)研究中,文本中數(shù)據(jù)化的政治態(tài)度變得具體,因此研究者可明確問(wèn)卷問(wèn)題和選項(xiàng),提升分析流程透明度,得出相對(duì)精確的結(jié)論,為研究結(jié)論留下了被檢驗(yàn)的可能性。*Nicola Smith and Colin Hay, “Mapping the Political Discourse of Globalisation and European Integration in the United Kingdom and Ireland Empirically”, European Journal of Political Research, Vol.47, No.3, 2008, pp.359-382.
這種處理可讓前人的成果為后續(xù)的研究打下基礎(chǔ),后人也更容易站在前人的肩膀上進(jìn)一步攀登學(xué)術(shù)高峰,令國(guó)際關(guān)系學(xué)科內(nèi)的知識(shí)能不斷加以檢驗(yàn)和完善,進(jìn)而更連貫地發(fā)展,日益增加“科學(xué)”特質(zhì)。*Carl Popper, The Logic of Scientific Discovery, London: Routledge, 1992, pp.57-73.再者,由于基于數(shù)據(jù)得到的分析結(jié)論相對(duì)精確,研究者由此發(fā)現(xiàn)的社會(huì)規(guī)律更加可靠,更具應(yīng)用價(jià)值,進(jìn)而為決策者提供更切實(shí)可行的建議,讓扎根于文本的國(guó)際關(guān)系研究具有更真實(shí)的科學(xué)價(jià)值和實(shí)踐意義,推動(dòng)國(guó)際關(guān)系學(xué)科發(fā)展,使其向真正的科學(xué)研究靠攏,創(chuàng)造更多社會(huì)價(jià)值。
第三,數(shù)據(jù)化可突破小樣本研究的局限。原始文本資料中的無(wú)關(guān)內(nèi)容會(huì)占據(jù)大量?jī)?chǔ)存空間,增加了管理與分享資料的難度,還降低研究者的閱讀效率。因此,國(guó)際關(guān)系研究者基于文本使用質(zhì)性方法(如內(nèi)容分析法、案例分析法等)開(kāi)展研究時(shí)常無(wú)法有效提升樣本量,不能確保抽樣方法充分合理,從而容易取巧地選擇對(duì)論證有利的案例進(jìn)行分析,令研究出現(xiàn)選擇性偏差。國(guó)際關(guān)系行為體的話語(yǔ)經(jīng)過(guò)數(shù)據(jù)化處理后,無(wú)關(guān)內(nèi)容被剔除,文本資料的儲(chǔ)存容量大大降低,比如“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”僅以10MB左右的儲(chǔ)存空間便可記錄世界范圍內(nèi)一天發(fā)生的超過(guò)20萬(wàn)項(xiàng)事件。*The GDELT Project, “Master CSV Data File List”, http://data.gdeltproject.org/events/index.html.(上網(wǎng)日期:2018年1月20日)由于信息儲(chǔ)存效率大大提高,研究者可大量收集和整理文本資料,加上通訊技術(shù)高速發(fā)展,數(shù)據(jù)傳播的速度日與俱增,當(dāng)下的國(guó)際關(guān)系研究者可以輕易地分享到大量經(jīng)數(shù)據(jù)化處理后的文本資料。比如,哈佛大學(xué)建立的數(shù)據(jù)分享平臺(tái)(Harvard Dataverse)收錄了超過(guò)25000種數(shù)據(jù)庫(kù)供國(guó)際關(guān)系研究者使用。*Harvard University, “Harvard Dataverse”, https://dataverse.harvard.edu. (上網(wǎng)日期:2018年1月20日)密歇根大學(xué)校際政治與社會(huì)研究聯(lián)合會(huì)的網(wǎng)站提供了超過(guò)25萬(wàn)份社會(huì)與行為科學(xué)領(lǐng)域的數(shù)據(jù)文件,亦可作為國(guó)際關(guān)系研究的重要數(shù)據(jù)來(lái)源。*ICPSR,“About ICPSR”, https://www.icpsr.umich.edu/icpsrweb/content/about/. (上網(wǎng)日期:2018年1月20日)
另外,數(shù)據(jù)化使用計(jì)算機(jī)程序定位或篩選話語(yǔ)內(nèi)容,可為研究者大幅提升閱讀資料的速度,在單位時(shí)間內(nèi)、以同樣的精力能認(rèn)識(shí)和理解比過(guò)去更多的話語(yǔ)文本案例,進(jìn)而提升研究的樣本量。即便是全程依賴(lài)研究者自行記錄、整理、閱讀話語(yǔ)資料并編碼數(shù)據(jù)的國(guó)際關(guān)系文本研究,樣本量也能增至數(shù)百甚至上千,遑論量化研究者使用當(dāng)今普通的家用電腦便可瞬間處理數(shù)十億字節(jié)的文本數(shù)據(jù)。更大的樣本量能使文本中的離群值或特殊案例變得不顯著,在應(yīng)用大數(shù)據(jù)技術(shù)后,國(guó)際關(guān)系文本研究更有可能實(shí)現(xiàn)全樣本分析,避免數(shù)據(jù)抽樣帶來(lái)的弊端。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.概要地說(shuō),在確保數(shù)據(jù)質(zhì)量的情況下,研究者使用數(shù)據(jù)化文本資料可克服小樣本分析的局限,在研究操作中極大地降低選擇性偏差的概率。*Marie Gillespie, “Security, Media, Legitimacy: Multi-ethnic Media Publics and the Iraq War 2003”, International Relations, Vol.20, No.4, pp.467-469; Erin Denton, “International News Coverage of Human Trafficking Arrests and Prosecutions: A Content Analysis”, Women & Criminal Justice, 2010, pp.13-15.基于此,國(guó)際關(guān)系研究者分析數(shù)據(jù)化的文本資料能讓研究在統(tǒng)計(jì)意義上能得出更全面的結(jié)論,進(jìn)而能更好地監(jiān)測(cè)和預(yù)判國(guó)際事件的緣起和發(fā)展,為國(guó)家提供風(fēng)險(xiǎn)更低更準(zhǔn)確的政策建議。
受限于自然語(yǔ)言處理技術(shù)的水平,加上數(shù)據(jù)化會(huì)剔除文本意義和背景信息,文本資料的數(shù)據(jù)化在短期內(nèi)對(duì)國(guó)際關(guān)系研究難免存在消極影響。第一,不利于思想意識(shí)領(lǐng)域的研究。國(guó)際行為體以話語(yǔ)進(jìn)行交流,其行為不是單純地逐利,*Nicholas Onuf, Making Sense, Making Worlds: Constructivism in Social Theory and International Relations, New York: Routledge, 2013, pp.3-4.它們往往都具有深刻的含義,能表現(xiàn)行為體的規(guī)范、價(jià)值觀和身份認(rèn)同,這些均是重要的國(guó)際關(guān)系研究對(duì)象。研究者須結(jié)合具體的歷史文化背景深入理解這些行為規(guī)范、價(jià)值觀和身份認(rèn)同,用翔實(shí)的語(yǔ)言對(duì)其詮釋?zhuān)拍艹浞纸忉寚?guó)際行為體之間的現(xiàn)象和行為。然而,數(shù)據(jù)是意義單一、表述精練的符號(hào),無(wú)法描述深刻隱晦的含義和豐富的背景信息,研究者單憑數(shù)據(jù)無(wú)法深入詮釋每個(gè)案例下國(guó)際行為體的規(guī)范、價(jià)值觀和身份認(rèn)同。再者,當(dāng)下的人工智能技術(shù)亦未能完全準(zhǔn)確地詮釋話語(yǔ)中復(fù)雜、隱晦的含義。對(duì)于數(shù)據(jù)化的文本,研究者只能轉(zhuǎn)而采納實(shí)證主義的認(rèn)識(shí)論和方法論進(jìn)行分析。因?yàn)閷?shí)證主義的認(rèn)識(shí)論不要求研究者對(duì)話語(yǔ)和行為中的深刻含義進(jìn)行詮釋?zhuān)亲屟芯空咴诜治鲞^(guò)程中保持價(jià)值中立,強(qiáng)調(diào)引入自然科學(xué)的方法分析社會(huì)科學(xué)問(wèn)題。因此,數(shù)據(jù)化的趨勢(shì)讓量化方法成為學(xué)者學(xué)習(xí)和引進(jìn)的重點(diǎn)。*劉豐、陳沖:“國(guó)際關(guān)系研究的定量數(shù)據(jù)庫(kù)及其應(yīng)用”,《世界經(jīng)濟(jì)與政治》,2011年第5期,第19頁(yè);龐珣:“國(guó)際關(guān)系研究的定量方法:定義、規(guī)則與操作”,《世界經(jīng)濟(jì)與政治》,2014年第1期,第5頁(yè)。比較之下,基于主觀詮釋進(jìn)行操作的質(zhì)性研究方法在國(guó)內(nèi)外均得不到重視,*蔣建忠:“國(guó)際關(guān)系研究中的質(zhì)性研究”,《國(guó)際關(guān)系研究》,2016年第4期,第3頁(yè)。也讓規(guī)范、價(jià)值觀和身份認(rèn)同時(shí)常成為國(guó)際關(guān)系科學(xué)研究的規(guī)避對(duì)象,*高尚濤:“試析國(guó)際關(guān)系研究的實(shí)證問(wèn)題”,《世界經(jīng)濟(jì)與政治》,2006年第11期,第37頁(yè)。令話語(yǔ)意義中這些無(wú)法量化的研究對(duì)象得不到足夠的關(guān)注,而規(guī)范、價(jià)值觀和身份認(rèn)同往往是國(guó)際現(xiàn)象或行為的重要?jiǎng)右?,缺乏這方面的研究不利于國(guó)際關(guān)系科學(xué)的整體發(fā)展。
第二,可能讓研究產(chǎn)生內(nèi)在邏輯矛盾。系統(tǒng)、嚴(yán)謹(jǐn)?shù)难芯繎?yīng)講究存在論和認(rèn)識(shí)論的邏輯連貫。*Linda Smircich, “The Case for Qualitative Research”, Academy of Management Review, Vol.5, No.4, 1980, pp.491-492; Mark Thompson, “Ontological Shift or Ontological Drift? Reality Claims, Epistemological Framework, and Theory Generation in Organization Studies”, Academy of Management Review, Vol.36, No.4, 2011, p.755.換言之,研究者不可以客觀標(biāo)準(zhǔn)計(jì)算、衡量沒(méi)有物質(zhì)形態(tài)的思維觀念,亦不能通過(guò)話語(yǔ)感受和詮釋并無(wú)深刻含義的客觀事物,否則在研究前提上便已產(chǎn)生內(nèi)在矛盾。文本記錄的是國(guó)際關(guān)系行為體之間的狀態(tài)、話語(yǔ)或行為。國(guó)家和國(guó)際組織本身并不純粹由物質(zhì)構(gòu)成,*Friedrich Kratochwil and John Ruggie, “International Organization: A State of the Art on an Art of the State”, International Organization, Vol.40, No.4, 1986, pp.753-775; Alexander Wendt, “Anarchy is What States Make of It: The Social Construction of Power Politics”, International Organization, Vol.46, No.2, 1992, pp.391-425.國(guó)際現(xiàn)象或行為并不都是可以直接觀察(比如美國(guó)通過(guò)世界銀行推廣“華盛頓共識(shí)”)的,而是常常無(wú)法加以充分衡量。數(shù)據(jù)化后的文本資料不再是研究者理解和感受的對(duì)象,而僅作為操作的研究對(duì)象,因此,數(shù)據(jù)化也是一個(gè)將主客體進(jìn)行分離的過(guò)程,數(shù)據(jù)化后的文本資料成為研究者處理的“客體”,而研究者成為處理文本的主體,換言之,數(shù)據(jù)化是讓基于文本開(kāi)展的國(guó)際研究自然進(jìn)入笛卡爾式主體-客體二元對(duì)立的邏輯前提。*Elizabeth St. Pierre and Alecia Jackson, “Qualitative Data Analysis After Coding,” Qualitative Inquiry, Vol. 20, No.6, 2014, pp.715-716.事實(shí)上,這種前提假設(shè)正被不假思索地全盤(pán)引入至國(guó)際關(guān)系研究中。*[英] 臺(tái)樂(lè)怡:“與權(quán)力做斗爭(zhēng)——拒絕美國(guó)國(guó)際關(guān)系研究中的實(shí)證主義”,《世界經(jīng)濟(jì)與政治》,2010年第2期,第134頁(yè)。隨著文本信息數(shù)據(jù)化的發(fā)展,記錄國(guó)際關(guān)系事件中的任何文本都在逐漸數(shù)據(jù)化,像“全球事件話語(yǔ)數(shù)據(jù)庫(kù)”這樣的大型數(shù)據(jù)庫(kù)甚至將國(guó)際事件中人們的喜怒哀樂(lè)皆量化成為數(shù)據(jù)供研究者分析。*The GDELT Project, “The Datasets of GDELT as of February 2016”, March 13, 2016, https://blog.gdeltproject.org/the-datasets-of-gdelt-as-of-february-2016/. (上網(wǎng)日期:2018年1月20日)此類(lèi)研究對(duì)象并沒(méi)有物質(zhì)形態(tài),*雖說(shuō)人的情感來(lái)源于大腦中的神經(jīng)元,但科學(xué)仍未能解釋神經(jīng)元如何通過(guò)物質(zhì)傳遞讓人產(chǎn)生情感,基于此,不應(yīng)認(rèn)為喜怒哀樂(lè)有具體的物質(zhì)形態(tài)。無(wú)法進(jìn)行計(jì)算。文本中的思維觀念與情感本應(yīng)加以詮釋、解讀,若研究者將其強(qiáng)行數(shù)據(jù)化并使其變得客觀,容易形成存在論與認(rèn)識(shí)論之間的脫節(jié)甚或矛盾,即研究得出了具體的結(jié)論,卻無(wú)法解釋結(jié)論具體到底是什么,因而降低了研究的科學(xué)價(jià)值。
第三,數(shù)據(jù)化的過(guò)程無(wú)法根除文本內(nèi)容中的個(gè)人偏見(jiàn)。許多記錄國(guó)際事件的數(shù)據(jù)庫(kù)材料都來(lái)源于國(guó)際新聞、歷史材料等,*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-618.這些材料經(jīng)過(guò)記者或者檔案人員處理后在內(nèi)容中難免帶有個(gè)人偏見(jiàn)。*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, p.617.比如在“戰(zhàn)爭(zhēng)相關(guān)指數(shù)”數(shù)據(jù)庫(kù)中,關(guān)于戰(zhàn)爭(zhēng)的性質(zhì)的分類(lèi)型變量本身就是研究者的主觀判斷。*比如,海灣戰(zhàn)爭(zhēng)對(duì)美國(guó)人來(lái)說(shuō)是解放科威特的正義戰(zhàn)爭(zhēng),對(duì)伊拉克人來(lái)說(shuō)是入侵者發(fā)動(dòng)的不義之戰(zhàn)。若研究者不能通過(guò)意義詮釋排除偏見(jiàn),即便研究的數(shù)據(jù)量再大,模型的擬合程度再高,分析的結(jié)果再顯著,檢測(cè)得到的信度再高,也無(wú)法確保最終結(jié)論完全可靠。這種偏見(jiàn)時(shí)常不易被察覺(jué),因?yàn)閿?shù)據(jù)化文本資料容易獲取,諸多國(guó)際關(guān)系研究者并不是通過(guò)親身實(shí)踐或調(diào)查獲取文本資料。研究者在得到具體的數(shù)據(jù)后,受限于有限的時(shí)間和精力,通常很難與獲得第一手資料的記者或檔案人員建立直接聯(lián)系,無(wú)法感受這些資料收集者在觀察和記錄國(guó)際關(guān)系現(xiàn)象或行為時(shí)產(chǎn)生的思想與情感,更無(wú)法排除數(shù)據(jù)中的個(gè)人偏見(jiàn)。即便機(jī)器已開(kāi)始代替研究者成為分析主體,且當(dāng)下的自然語(yǔ)言處理技術(shù)也取得重要進(jìn)展,仍然無(wú)法真正還原人的思想情感,機(jī)器及其應(yīng)用技術(shù)的便捷性反而助推國(guó)際關(guān)系研究者更多地坐到計(jì)算機(jī)前,遠(yuǎn)離真實(shí)的場(chǎng)景與感受,包含在數(shù)據(jù)中的偏見(jiàn)更難根除,而是“客觀地”呈現(xiàn)在分析結(jié)果中,導(dǎo)致研究結(jié)論不可避免有所偏頗。
由于存在以上的局限性,許多基于這種數(shù)據(jù)庫(kù)的研究并不能得到政府的認(rèn)可。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.124.即便是美國(guó)政府和軍方資助的“整合性沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System)也不能做到準(zhǔn)確分析國(guó)際事件形勢(shì)變化,效果未如理想。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research”, International Studies Review, Vol.12, No.1, 2010, p.95.因此,國(guó)際關(guān)系研究者應(yīng)反思如何處理和應(yīng)用文本資料,而不是隨波逐流,盲目地一味將文本資料數(shù)據(jù)化,更要從多方面下功夫解決數(shù)據(jù)化的局限問(wèn)題。
第一,重視發(fā)展后實(shí)證主義方法論。研究者將話語(yǔ)文本數(shù)據(jù)化的目的是創(chuàng)造智慧,但數(shù)據(jù)化并不是創(chuàng)造智慧的唯一途徑。在國(guó)際規(guī)范、價(jià)值觀和身份認(rèn)同等思維觀念領(lǐng)域,后實(shí)證主義的分析路徑能為研究者提供巨大支持。詮釋學(xué)和現(xiàn)象學(xué)是此類(lèi)分析陣營(yíng)中的典型代表,總體而言,詮釋學(xué)是一門(mén)對(duì)文本的意義進(jìn)行理解和解釋的技藝,遵循這種分析路徑的研究者不但要理解文本的語(yǔ)言意義,也要結(jié)合具體的歷史環(huán)境理解研究對(duì)象的主觀世界。*李少軍:“國(guó)際關(guān)系研究與詮釋學(xué)方法”,《世界經(jīng)濟(jì)與政治》,2006年第10期,第7頁(yè)。而現(xiàn)象學(xué)則是一種激進(jìn)的、反傳統(tǒng)的哲學(xué)思潮,強(qiáng)調(diào)研究者要借助自身的意識(shí)和體驗(yàn)全面地感受現(xiàn)象并描述現(xiàn)象,進(jìn)而去理解世間真相。*Dermot Moran, Introduction to Phenomenology, London: Routledge, 2000, p.4無(wú)論是采用現(xiàn)象學(xué)的先驗(yàn)、體驗(yàn)、或是解釋學(xué)的路徑進(jìn)行研究,后實(shí)證主義研究始終與數(shù)據(jù)化保持距離,重視保留完整的背景信息和話語(yǔ)中深刻、隱晦的內(nèi)涵。*Matthew Miles, and Michael Huberman, Qualitative Data Analysis: An Expanded Sourcebook, Thousand Oaks: Sage, 1994, p.8.這種范式亦可包容研究資料中的偏見(jiàn),鼓勵(lì)研究者帶著個(gè)人偏見(jiàn)去理解各種現(xiàn)象和行為,借助真實(shí)的社會(huì)場(chǎng)景解釋各種現(xiàn)象和行為。*劉良華;“何謂‘現(xiàn)象學(xué)的方法’”,《全球教育展望》,2013年第8期,第44頁(yè)。研究者循此路徑分析將耗費(fèi)更多時(shí)間在研究田野中而不是計(jì)算機(jī)前,重視采用訪談甚至以直接參與活動(dòng)的方式與研究對(duì)象進(jìn)行交流,觀察和感受研究對(duì)象的行為模式和思想觀念,用靈動(dòng)的語(yǔ)言記錄最為真實(shí)的場(chǎng)景進(jìn)行論證。事實(shí)上,歐洲學(xué)界已意識(shí)到這點(diǎn),荷蘭萊頓大學(xué)“和平情報(bào)實(shí)驗(yàn)室”項(xiàng)目明確指出,國(guó)際關(guān)系大數(shù)據(jù)分析不能脫離基于具體社會(huì)環(huán)境進(jìn)行主觀詮釋。*Peace Informatics Lab, “Defining Peace Informatics”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).歐盟的“歐洲晴雨表”系列數(shù)據(jù)自1987年起便已公開(kāi)未經(jīng)數(shù)據(jù)化處理的訪談資料,方便研究者使用原始文本資料詮釋話語(yǔ)中隱含的意義。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網(wǎng)時(shí)間:2018年3月2日)。研究者通過(guò)這種方式創(chuàng)造的知識(shí)和智慧可避免數(shù)據(jù)語(yǔ)言意義單一帶來(lái)的局限,能更好地探索蘊(yùn)藏在國(guó)際關(guān)系文本中的思想觀念?;诖?,學(xué)者應(yīng)深入地開(kāi)發(fā)詮釋學(xué)、現(xiàn)象學(xué)此類(lèi)方法論在國(guó)際關(guān)系研究中的應(yīng)用途徑,讓規(guī)范、價(jià)值觀、身份認(rèn)同等思維要素不再是國(guó)際關(guān)系科學(xué)研究的規(guī)避對(duì)象,*李少軍;“國(guó)際關(guān)系研究與詮釋學(xué)方法”,《世界經(jīng)濟(jì)與政治》,2006年第10期,第7頁(yè)。促進(jìn)國(guó)際關(guān)系學(xué)科的全面發(fā)展。
第二,強(qiáng)化串聯(lián)研究的存在論和認(rèn)識(shí)論意識(shí)。研究背后的哲學(xué)邏輯是研究的前提和根基,而數(shù)據(jù)化本身只是處理研究資料的一種方法,屬于研究設(shè)計(jì)的末枝。文本資料數(shù)據(jù)化對(duì)于國(guó)際關(guān)系研究的科學(xué)貢獻(xiàn)須建立在存在論與認(rèn)識(shí)論連貫一致的基礎(chǔ)上,否則再精妙、高效的數(shù)據(jù)處理與分析技巧只會(huì)讓研究顯得金玉其外、敗絮其中。為了避免研究出現(xiàn)存在論與認(rèn)識(shí)論不連貫一致的情況,研究者在搜集資料時(shí)應(yīng)清楚了解研究對(duì)象是什么以及最不可劃分的層次會(huì)是什么。具體而言,若研究對(duì)象本身并不具有深層次的意義或是理性逐利行為(比如純粹的貿(mào)易往來(lái)),研究者大可遵循實(shí)證主義的認(rèn)識(shí)論,構(gòu)建嚴(yán)謹(jǐn)縝密的數(shù)學(xué)模型,對(duì)數(shù)據(jù)進(jìn)行分析,得到更精確的分析結(jié)果。倘若研究對(duì)象是沒(méi)有物質(zhì)形態(tài)且無(wú)法加以直接觀察的心理現(xiàn)象或意識(shí)觀念(比如民族認(rèn)同感),研究者要小心處理數(shù)據(jù)化的文本資料,謹(jǐn)慎使用實(shí)證主義的分析路徑開(kāi)展研究,此時(shí)若研究者能重視感受和理解研究對(duì)象的心理狀態(tài),則更容易實(shí)現(xiàn)存在論和認(rèn)識(shí)論層面的連貫一致,進(jìn)而提高研究的科學(xué)價(jià)值。也就是說(shuō),只有在研究的內(nèi)在邏輯連貫的基礎(chǔ)上,研究者才可選擇適當(dāng)?shù)姆椒?、設(shè)計(jì)合理的流程進(jìn)行分析。
第三,通過(guò)人際學(xué)術(shù)交流檢驗(yàn)結(jié)論。如上文所述,數(shù)據(jù)化會(huì)篩除文本中的深刻內(nèi)涵和背景信息,可導(dǎo)致結(jié)論出現(xiàn)偏頗,研究者用數(shù)學(xué)公式進(jìn)行結(jié)論檢驗(yàn)并不能完全反映實(shí)際狀況。因此,在得到數(shù)據(jù)分析的結(jié)果后,研究者應(yīng)深入思考數(shù)據(jù)背后的歷史文化背景是什么、研究對(duì)象的話語(yǔ)和行為有著怎樣的意義、分析過(guò)程中會(huì)省略掉哪些意義、在完成數(shù)據(jù)分析后應(yīng)詮釋哪些意義等。帶著以上的問(wèn)題,研究者應(yīng)嘗試與研究對(duì)象或同行專(zhuān)家直接交流,將研究結(jié)果呈現(xiàn)給對(duì)方,通過(guò)面對(duì)面的話語(yǔ)交談更深入地理解研究對(duì)象的意識(shí)、情感,加強(qiáng)對(duì)國(guó)際現(xiàn)象或行為之時(shí)代背景的認(rèn)識(shí),征求對(duì)于研究結(jié)論的意見(jiàn)和建議,使研究盡可能完整地還原文本資料中被抽離的背景信息和深刻內(nèi)涵,彌補(bǔ)數(shù)據(jù)分析的缺陷。研究者在確認(rèn)結(jié)論充分可靠前,應(yīng)將其研究交與同行專(zhuān)家或研究對(duì)象審閱并認(rèn)可。比如安東尼·菲爾(Anthony Fee)和蘇珊·麥克格拉芙-尚普(Susan McGrath-Champ)探究國(guó)際非政府組織如何保護(hù)海外員工的安全后,不但將編碼分析的結(jié)果發(fā)受訪者以尋求反饋,還約見(jiàn)兩位國(guó)際安全領(lǐng)域的專(zhuān)家咨詢?cè)忈尳Y(jié)果的合理性。*Anthony Fee and Susan McGrath-Champ, “The Role of Human Resources in Protecting Expatriates: Insights from the International Aid and Development Sector”, The International Journal of Human Resource Management, Vol.28, No.14, 2016, p.8.如此通過(guò)與研究對(duì)象或同行保持密切的交流,研究者能夠最大程度地限制數(shù)據(jù)化研究的不足和弊端,確保分析結(jié)論能夠盡量貼近實(shí)際,讓國(guó)際關(guān)系研究真正得益于文本資料的數(shù)據(jù)化?!?/p>