• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國外智庫數(shù)據(jù)搜集策略及其在大數(shù)據(jù)環(huán)境下的挑戰(zhàn)

      2018-01-02 22:18安楠祝忠明
      圖書與情報(bào) 2017年3期
      關(guān)鍵詞:智庫大數(shù)據(jù)

      安楠+祝忠明

      摘 要:數(shù)據(jù)搜集作為智庫數(shù)據(jù)價(jià)值鏈的首要環(huán)節(jié),在智庫研究中承擔(dān)著重要作用。文章選取《2015全球智庫排名》中具有參考價(jià)值的十余家智庫機(jī)構(gòu),通過網(wǎng)絡(luò)調(diào)研和文獻(xiàn)調(diào)研方法總結(jié)歸納了這些國外智庫機(jī)構(gòu)的數(shù)據(jù)搜集策略。研究發(fā)現(xiàn)智庫現(xiàn)有的傳統(tǒng)信息搜集策略和方法已無法適應(yīng)大數(shù)據(jù)環(huán)境下體量大、更新快、形式多的數(shù)據(jù)特征。結(jié)合當(dāng)前新型搜集技術(shù)的應(yīng)用案例及數(shù)據(jù)價(jià)值鏈理論,研究認(rèn)為實(shí)現(xiàn)數(shù)據(jù)采集自動化、制定數(shù)據(jù)采集規(guī)則并構(gòu)建智庫知識庫將資源語義化是大數(shù)據(jù)環(huán)境下智庫數(shù)據(jù)搜集階段應(yīng)盡快采取的措施。

      關(guān)鍵詞:智庫;數(shù)據(jù)搜集;搜集策略;大數(shù)據(jù);數(shù)據(jù)價(jià)值鏈理論

      中圖分類號:G250.2 文獻(xiàn)標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017063

      Abstract Data collection is the primary link in the value chain of the think tank and it plays an important role in the research of the think tank. This paper first selects more than ten think tanks with reference value in the 2015 Global Go To Think Tank Index Report, then summarizes the data collection strategies of foreign think tank institutions through network research and literature research. It is found that the existing traditional information collection strategies and methods of the think tank cannot adapt to the data characteristics in the big data environment. This paper studies the current application of new acquisition technologies and the data value chain theory and comes to a conclusion that think tanks should take the following measures the data collection as soon as possible: the realization of data acquisition automation, the development of data collection rules and the construction of the think tank knowledge base to process resource semantic.

      Key words think tank; data collection; collection strategy;big data; data value chain theory

      1 引言

      智庫是公共政策的研究分析和參與機(jī)構(gòu),它們針對國內(nèi)、國際問題開展政策導(dǎo)向性的研究、分析和咨詢,以使得政策制定者和公眾能夠依據(jù)可靠的信息進(jìn)行決策[1]。 其主要作用是為決策制定者提供及時(shí)、全面、準(zhǔn)確的支持信息,支持信息的范圍、數(shù)量、質(zhì)量、服務(wù)內(nèi)容、服務(wù)方式等都將直接影響到?jīng)Q策制定的效果[2],因此,擁有完善的信息支持機(jī)制是智庫產(chǎn)生高質(zhì)量決策咨詢成果的重要保障。

      在當(dāng)今大數(shù)據(jù)時(shí)代,人們面臨的最大問題不再是信息匱乏,而是如何從海量信息中發(fā)現(xiàn)、提取有價(jià)值的數(shù)據(jù)信息為自己所用。對新型智庫而言,若不能及時(shí)從傳統(tǒng)的信息搜集策略中轉(zhuǎn)變,將無法適應(yīng)體量巨大、形式繁多、更新速度快、價(jià)值密度低的大數(shù)據(jù)特征[3],進(jìn)而影響智庫政策研究過程及產(chǎn)出的效率。本文依據(jù)賓大《2015年全球智庫報(bào)告》的綜合排名及各項(xiàng)領(lǐng)域排名,選取了排名靠前的十余家具有代表性的國外智庫作為研究對象,對其數(shù)據(jù)采集策略進(jìn)行分析,結(jié)合大數(shù)據(jù)環(huán)境特征,提出新的智庫信息支持機(jī)制需要完善的方向。

      2 國外智庫傳統(tǒng)數(shù)據(jù)搜集策略和主要方式

      智庫的功能之一就是依據(jù)現(xiàn)有的資料和數(shù)據(jù)對未來形勢進(jìn)行預(yù)測,對于一些針對特定任務(wù)或課題的智庫項(xiàng)目,如涉及到戰(zhàn)爭形勢、氣候變化、行為科學(xué)、藥物病理等領(lǐng)域的研究,沒有完全適用的數(shù)據(jù)或難以獲取到先前的實(shí)驗(yàn)數(shù)據(jù),需要智庫機(jī)構(gòu)自主開展調(diào)查研究或設(shè)計(jì)科學(xué)實(shí)驗(yàn)來直接采集適用于特定項(xiàng)目的數(shù)據(jù)。通過調(diào)研總結(jié)發(fā)現(xiàn),國外智庫的信息搜集策略可分為直接生產(chǎn)創(chuàng)造和間接搜集獲取兩種途徑(見表1)。其中直接生產(chǎn)創(chuàng)造又分為開展調(diào)查研究和設(shè)計(jì)實(shí)施實(shí)驗(yàn)兩種方式,間接搜集獲取又分為自身館藏建設(shè)和合作交流共建兩種方式,自身館藏建設(shè)可進(jìn)一步細(xì)分為搜集公開數(shù)據(jù)、購買數(shù)據(jù)庫、自身館藏累積等。

      2.1 通過開展調(diào)研獲取數(shù)據(jù)

      調(diào)查研究是智庫機(jī)構(gòu)最常用的數(shù)據(jù)搜集方式之一,智庫研究人員通常運(yùn)用的傳統(tǒng)調(diào)研方法有文獻(xiàn)調(diào)查法、統(tǒng)計(jì)調(diào)查法、問卷調(diào)查法、專家調(diào)查法、訪談?wù){(diào)查法等,其中文獻(xiàn)調(diào)查法因其低成本和易開展成為使用頻率最高的方法。在調(diào)查研究過程中智庫專家經(jīng)常不拘泥于某種特定方法,而是相互交錯、靈活運(yùn)用。

      在傳統(tǒng)調(diào)研運(yùn)用中比較典型的有美國布魯金斯學(xué)會、胡佛研究所、卡內(nèi)基國際和平基金會等老牌智庫。其中,布魯金斯學(xué)會是美國乃至世界最具影響力的智庫之一,已連續(xù)9年被《全球智庫報(bào)告》評選為“全球最佳智庫”以及“全美最佳智庫”[4],通過對其網(wǎng)站上收錄的研究項(xiàng)目進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),截至目前布魯金斯學(xué)會已有801項(xiàng)課題的研究報(bào)告、文章、專著是基于各種調(diào)查研究方法完成的,其研究內(nèi)容的范圍和主題是基于開放調(diào)查并綜合了300多位學(xué)者代表的不同觀點(diǎn)。調(diào)查研究的范圍包括商業(yè)金融、國防安全、經(jīng)濟(jì)、教育、能源與環(huán)境等15個領(lǐng)域,每個領(lǐng)域主題下又細(xì)分為若干子主題。本文發(fā)現(xiàn)以布魯金斯學(xué)會為代表的綜合智庫在其開展的調(diào)查研究項(xiàng)目中以統(tǒng)計(jì)調(diào)查法使用的居多,尤其在經(jīng)濟(jì)研究與社會研究方面,在涉及到人口、經(jīng)濟(jì)增長、國民生產(chǎn)力、債務(wù)問題、進(jìn)出口貿(mào)易等領(lǐng)域的問題時(shí)需要借助大規(guī)模、真實(shí)準(zhǔn)確的數(shù)字來反映現(xiàn)實(shí)問題并以此作為政策調(diào)整的依據(jù)。樣本數(shù)據(jù)量越大越全面自然能越準(zhǔn)確反映總體的情況,在當(dāng)今大數(shù)據(jù)環(huán)境下通過獲取更全的數(shù)據(jù)樣本并對其進(jìn)行統(tǒng)計(jì)分析已經(jīng)成為開展大規(guī)模研究的主流方法與趨勢。endprint

      此外,為了順應(yīng)全球化發(fā)展要求,擴(kuò)展業(yè)務(wù)范圍擴(kuò)大全球影響力,同時(shí)為了避免語言障礙和文化差異對研究樣本總體特征的把握造成干擾,實(shí)力雄厚的智庫往往會在各地開設(shè)分支機(jī)構(gòu),通過開展實(shí)地調(diào)研來為數(shù)據(jù)搜集提供更便捷可靠的信息來源。如布魯金斯學(xué)會在北京、多哈、新德里等城市設(shè)有分支機(jī)構(gòu),為自己搜集有關(guān)信息和情報(bào);卡內(nèi)基國際和平基金會除了位于美國華盛頓的總部外,還在莫斯科、北京、布魯塞爾、貝魯特、新德里分別設(shè)立有政策研究中心,每個中心分別擁有獨(dú)立的研究主題、項(xiàng)目、專家團(tuán)隊(duì)等,從而在全球建立起自己的數(shù)據(jù)調(diào)研網(wǎng)絡(luò)。以北京的卡內(nèi)基-清華全球政策中心為例,其機(jī)構(gòu)本身就是卡內(nèi)基“亞洲項(xiàng)目”的一部分,該項(xiàng)目旨在為政策制定者提供關(guān)于亞太地區(qū)經(jīng)濟(jì)、安全、政策發(fā)展的清晰準(zhǔn)確的分析,卡內(nèi)基-清華全球政策中心主要負(fù)責(zé)包括國際經(jīng)濟(jì)貿(mào)易、能源與氣候變化、防止核擴(kuò)散及軍備控制,以及朝鮮、伊朗、南亞、中東地區(qū)的潛在安全威脅,在北京及世界各地的分支機(jī)構(gòu)保障了卡內(nèi)基在對應(yīng)范圍內(nèi)信息收集的可靠性與便利性。目前,卡內(nèi)基國際和平基金會已在全球20多個國家擁有超過100位專家,每個地區(qū)的學(xué)者均從當(dāng)?shù)剡x拔并用當(dāng)?shù)卣Z言撰寫研究報(bào)告,由此在與全世界其他同事合作的過程中加深各個機(jī)構(gòu)對形成當(dāng)前世界范圍內(nèi)各種政策選擇環(huán)境的理解,并提出合情的政策問題的解決方法。

      2.2 通過實(shí)施實(shí)驗(yàn)獲取數(shù)據(jù)

      除了調(diào)研方式以外,智庫研究人員有時(shí)需要借助特定的實(shí)驗(yàn)方法和工具圍繞某一課題開展科學(xué)實(shí)驗(yàn)以獲取客觀真實(shí)的實(shí)驗(yàn)數(shù)據(jù),通過實(shí)驗(yàn)方法搜集到的數(shù)據(jù)信息具有直觀、量化等優(yōu)點(diǎn),并可通過調(diào)整某些參數(shù)來觀察同一實(shí)驗(yàn)在不同變量條件下的結(jié)果。

      某些智庫研究如涉及到軍事預(yù)測、行為科學(xué)、藥物病理等具有多種不確定因素和結(jié)果的問題時(shí)往往需要借助實(shí)驗(yàn)幫助研究人員排除外界干擾,突出主要因素,模擬研究事物或過程的發(fā)生,采集到的數(shù)據(jù)中既包括基因序列等通過實(shí)驗(yàn)設(shè)備獲取的實(shí)驗(yàn)數(shù)據(jù),也有通過遙感勘測、傳感器等實(shí)時(shí)觀測到的數(shù)據(jù),還包括經(jīng)濟(jì)模型、氣象數(shù)據(jù)等通過實(shí)驗(yàn)?zāi)P瞳@取的模擬數(shù)據(jù)。如美國蘭德公司在其成立之初主要為美軍提供調(diào)研和情報(bào)分析服務(wù),隨后其業(yè)務(wù)逐步擴(kuò)展。蘭德公司已意識到按照傳統(tǒng)的學(xué)科背景或政策領(lǐng)域組織科學(xué)能力的方法已不再足以加速創(chuàng)新,在“方法研究中心”板塊下蘭德公司分別展示了多樣化、多學(xué)科的創(chuàng)新方法和分析工具。以“游戲中心”為例,“游戲”可以被認(rèn)為是滿足一定特征的任何互動過程[5],游戲這種戰(zhàn)略分析思路常被蘭德專家在一個分析過程中的不同節(jié)點(diǎn)使用來實(shí)現(xiàn)不同的目標(biāo),在使用游戲方法分析特定課題時(shí),需要通過反復(fù)建模來獲取大量實(shí)驗(yàn)數(shù)據(jù)對現(xiàn)實(shí)情況進(jìn)行模擬仿真,以保證設(shè)計(jì)方案在投入實(shí)際運(yùn)用時(shí)產(chǎn)生最大的效用和最小的誤差。又如,在“不確定性條件下決策制定中心”針對個人決策的制定時(shí),蘭德專家運(yùn)用行為學(xué)實(shí)驗(yàn)的方法對被實(shí)驗(yàn)者從心智模式方面進(jìn)行考察并獲取各項(xiàng)指標(biāo)數(shù)據(jù),以在決策制定過程中提供直接參考作用。卡托研究所(Cato Institute)經(jīng)常開展各種實(shí)驗(yàn)以獲取一手原始信息用于支撐自身的研究。如在研究人類文化與習(xí)俗的演變中,卡托研究所選取了17世紀(jì)位于中非的庫巴王國的一段歷史事件,并據(jù)此針對居住在卡南加的居民設(shè)計(jì)了兩個行為實(shí)驗(yàn)進(jìn)行研究[6]。

      2.3 搜集各類公開數(shù)據(jù)

      利用各種信息渠道直接采集各類公開數(shù)據(jù)是最經(jīng)濟(jì)便捷也是智庫研究人員最常用到的數(shù)據(jù)搜集方式之一。智庫最初出現(xiàn)的20世紀(jì)50年代,研究人員主要依靠圖書、報(bào)紙、期刊、年鑒、檔案等紙質(zhì)印刷出版物進(jìn)行公開資料的搜集工作;20世紀(jì)90年代末互聯(lián)網(wǎng)的普及使得各種形式的大量數(shù)字化信息迅速傳播,其中公開信息占絕大部分,包括由政府各部門發(fā)布的國民經(jīng)濟(jì)數(shù)據(jù)、人口數(shù)據(jù)等官方信息,以及各類新聞報(bào)道、天氣數(shù)據(jù)、影視文字等非官方信息,同時(shí)開放存取運(yùn)動大規(guī)模地興起,科研成果和學(xué)術(shù)信息在互聯(lián)網(wǎng)上的傳播也得到了迅速推動與交流,大量科研數(shù)據(jù)不再受到版權(quán)費(fèi)用和獲取權(quán)限的限制,智庫等咨詢機(jī)構(gòu)及學(xué)術(shù)機(jī)構(gòu)可以更便捷地獲取到各種類型的科研數(shù)據(jù)和學(xué)術(shù)資料。

      智庫在進(jìn)行信息搜集時(shí)往往會同時(shí)兼顧紙質(zhì)信息源和數(shù)字信息源,尤其是政府部門及知名機(jī)構(gòu)發(fā)布的權(quán)威性數(shù)據(jù)資源,以保證智庫研究產(chǎn)出的可靠性。如查塔姆研究所(Chatham House)在開展研究時(shí)數(shù)據(jù)信息來源十分廣泛,其中絕大部分來自各機(jī)構(gòu)組織和新聞媒體發(fā)布的公開信息資源,以其“能源”專題下的一篇研究報(bào)告[7]為例,在研究外交政策對能源安全、氣候與競爭力的影響時(shí),引用了大量研究報(bào)告、新聞報(bào)道、事實(shí)依據(jù)與統(tǒng)計(jì)數(shù)據(jù),其中不乏有歐盟委員會、歐盟統(tǒng)計(jì)局、歐洲委員會、歐洲風(fēng)能協(xié)會等這種國際權(quán)威組織機(jī)構(gòu),也有牛津大學(xué)這樣的學(xué)術(shù)機(jī)構(gòu),還有能源社區(qū)組織、摩根士丹利公司這種獨(dú)立機(jī)構(gòu)和企業(yè),此外,英國《衛(wèi)報(bào)》、路透社等媒體機(jī)構(gòu)以及各種會議論壇的公開資料也是智庫研究人員在研究過程中的信息來源。

      基于開放獲取的便利,學(xué)術(shù)類資料也成為智庫機(jī)構(gòu)信息搜集的主要來源之一,如卡托研究所的出版物《政策分析》在一項(xiàng)針對恐怖主義和移民的研究[8]中,除了從洛杉磯時(shí)報(bào)、美國國土安全局、審計(jì)局等媒體報(bào)道及權(quán)威機(jī)構(gòu)收集公開數(shù)據(jù)外,還引用了如《Terrorism and Political Violence》《International Interactions》《Journal of Economic Perspectives》《Insurance Journal》等學(xué)術(shù)期刊資料,以及蘭德公司的全球恐怖事件數(shù)據(jù)庫、馬里蘭大學(xué)的全球恐怖主義數(shù)據(jù)庫(GTD)等機(jī)構(gòu)資料。

      2.4 購買數(shù)據(jù)庫獲取數(shù)據(jù)

      面向研究領(lǐng)域的特定需求從數(shù)據(jù)提供商購買專業(yè)數(shù)據(jù)庫也是智庫進(jìn)行數(shù)據(jù)采集的常見方式,尤其對附屬于高校的學(xué)術(shù)性智庫機(jī)構(gòu)來說,采購ProQuest、Springer、IEEE、Elsevier等學(xué)術(shù)型期刊全文數(shù)據(jù)庫是開展研究的必須基礎(chǔ)設(shè)施之一。對于資金實(shí)力雄厚的智庫,直接采購數(shù)據(jù)省去了自主調(diào)研、開展實(shí)驗(yàn)和信息采集環(huán)節(jié)的時(shí)間與財(cái)力,可以迅速將精力與資源投入到研究中。endprint

      馬普學(xué)會是由德國政府資助的全國性學(xué)術(shù)機(jī)構(gòu),是歐洲國家級科研機(jī)構(gòu)的典型代表,無論從規(guī)模還是研究影響力均位居世界前列。本文通過對其各機(jī)構(gòu)職能進(jìn)行調(diào)研表明,馬普學(xué)會除了主要作為國家科研機(jī)構(gòu)開展研究活動外,它還適時(shí)發(fā)揮著科技智庫的功能。作為國家智庫,馬普學(xué)會已連續(xù)多年在《全球智庫報(bào)告》的科學(xué)技術(shù)領(lǐng)域智庫中排列第一。馬普學(xué)會成立的馬普數(shù)字圖書館(The Max Planck Digital Library,MPDL)為其下80多個研究所提供科學(xué)信息支持和基于網(wǎng)絡(luò)的學(xué)術(shù)交流,在提供學(xué)術(shù)服務(wù)的同時(shí)為其智庫職能提供數(shù)據(jù)支持。MPDL的Factual Databases專題數(shù)據(jù)資源下的14個數(shù)據(jù)庫提供了大量事實(shí)型數(shù)據(jù),其中8個社會經(jīng)濟(jì)數(shù)據(jù)庫均采用訂購獲取的方式采集。此外,馬普學(xué)會還很重視基礎(chǔ)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)的長期積累,以期產(chǎn)生增值效應(yīng),如以數(shù)據(jù)檔案的方式訂閱了國家報(bào)告,并訂購了全球最大的統(tǒng)計(jì)數(shù)據(jù)門戶Statista公司的數(shù)據(jù)平臺,Statista擁有超過來自18000個數(shù)據(jù)源的共計(jì)1000000多條數(shù)據(jù),覆蓋600多個行業(yè),80000多個主題及10000多項(xiàng)研究。

      2.5 機(jī)構(gòu)圖書館(檔案館)館藏?cái)?shù)據(jù)

      對智庫來說自身圖書館(檔案館)在信息的搜集和利用過程中占有舉足輕重的地位,智庫圖書館(檔案館)是智庫基于組織自身一定量的現(xiàn)有資源而逐漸積累形成的資料收集、整理與存儲機(jī)構(gòu),作為智庫重要的信息保障機(jī)構(gòu)收藏了豐富的數(shù)據(jù)信息資源,包括期刊、文獻(xiàn)、圖書專著、檔案、報(bào)紙以及數(shù)字化的數(shù)據(jù)庫等資料。一個機(jī)構(gòu)的圖書館若在某一研究領(lǐng)域的信息資源館藏較為豐富,就意味著該機(jī)構(gòu)對該研究領(lǐng)域占有了優(yōu)勢。圖書館館藏的優(yōu)勢內(nèi)容一定程度上影響了智庫在研究課題選擇方向上的偏好;另一方面智庫在信息資源建設(shè)時(shí)也會有針對性地對優(yōu)勢領(lǐng)域的信息資源進(jìn)行完善補(bǔ)充和鞏固,以確保其核心競爭力。

      事實(shí)上,國外不少知名智庫的出現(xiàn)最初都是基于對特定的研究領(lǐng)域和項(xiàng)目的持續(xù)關(guān)注而成立的,且都會專門設(shè)立圖書資料部門以為專家的決策過程提供知識服務(wù)。如蘭德公司就是由于一批美國科學(xué)家與工程師在二戰(zhàn)期間將運(yùn)籌學(xué)運(yùn)用于作戰(zhàn)取得了重大成績,戰(zhàn)后受到軍方高度重視而決定成立一個“獨(dú)立的、介于官民之間進(jìn)行客觀分析的研究機(jī)構(gòu)”[9],其特色資源中仍保留了大量與軍事相關(guān)的數(shù)據(jù)與工具;又如美國總統(tǒng)胡佛創(chuàng)立的胡佛研究所,其建立的初衷是為了收集與第一次世界大戰(zhàn)的形成和發(fā)展有關(guān)的歷史資料和文件,因此在胡佛研究所成立初期它只是一個專門的圖書資料收集中心,直至20世紀(jì)40年代末該研究所才開始招募學(xué)者進(jìn)行研究工作。

      大部分智庫都會圍繞其優(yōu)勢領(lǐng)域有針對性地進(jìn)行館藏資源構(gòu)建。日本國際問題研究所JIIA是日本研究國際問題的核心機(jī)構(gòu),旨在通過對國際問題的專門研究,為日本外交政策的制定提供建設(shè)性意見,并向公眾傳播國際關(guān)系的有關(guān)信息。其數(shù)字圖書館有針對性地從法治、外交、領(lǐng)土、亞太國際環(huán)境(中國及朝鮮半島)幾個部分開展資源建設(shè),為本機(jī)構(gòu)專家在國際安全保障和地區(qū)問題研究兩個研究領(lǐng)域提供信息支撐。

      2.6 合作交流與共建數(shù)據(jù)資源

      當(dāng)今的國際政治經(jīng)濟(jì)形勢日趨復(fù)雜,單靠一家智庫的研究很難全方位覆蓋各地區(qū)的各類重大問題,也不符合智庫的擴(kuò)張需求。因此智庫依托自身信息資源尋求合作發(fā)展逐漸成為一種新趨勢,一方面可以將資源進(jìn)行整合,進(jìn)一步拓展和深化共同研究領(lǐng)域的項(xiàng)目研究;另一方面可以避免重復(fù)建設(shè)造成資源的浪費(fèi)。比較常見的有聯(lián)合舉辦政策研討會、政策論壇、開展學(xué)習(xí)培訓(xùn)等合作形式,通過人員交流和開放性討論獲得有益的數(shù)據(jù)信息、研究資料、技術(shù)及經(jīng)驗(yàn);還有智庫通過與其他權(quán)威機(jī)構(gòu)合作共建數(shù)據(jù)庫,豐富彼此數(shù)據(jù)資源的同時(shí)實(shí)現(xiàn)共贏。如德國國際和安全事務(wù)研究所SWP與12家德國研究機(jī)構(gòu)合作建立了歐洲國際關(guān)系與地區(qū)研究信息網(wǎng)絡(luò)EINIRAS,并通過項(xiàng)目合作的形式分別建立了歐洲最大的國際關(guān)系研究資源庫“世界事務(wù)在線”(Database World Affairs Online,WAO)、一個國際關(guān)系與區(qū)域研究領(lǐng)域的搜索門戶IREON,以及包含德、英、法、意、俄、克羅地亞、波蘭、西班牙、捷克9個歐洲國家語言的主題詞詞表項(xiàng)目European Thesaurus,它為WAO和IREON的主題索引提供了支持。這種聯(lián)盟化的合作形式和成果不論從機(jī)構(gòu)內(nèi)部還是機(jī)構(gòu)外部都極大提升了數(shù)據(jù)支撐能力,同時(shí)強(qiáng)化了各合作機(jī)構(gòu)的相關(guān)研究領(lǐng)域在國際上的競爭力。

      3 大數(shù)據(jù)環(huán)境下智庫急需新的信息搜集策略

      通過以上調(diào)研可以看出,國外智庫的信息搜集策略雖然相對已比較成熟,有規(guī)范化的流程和完善的分類體系,但不足之處在于采集到的資源相對獨(dú)立,數(shù)據(jù)之間缺少必要的關(guān)聯(lián),對信息進(jìn)行標(biāo)引和組織需要較多的人工參與,這種半自動化的信息支持機(jī)制在體量大、更新快、形式多的大數(shù)據(jù)時(shí)代勢必會面臨挑戰(zhàn)。

      3.1 智庫傳統(tǒng)信息搜集策略已無法適應(yīng)大數(shù)據(jù)環(huán)境

      大數(shù)據(jù)下基于數(shù)據(jù)驅(qū)動的科研過程需要更高效的信息支持機(jī)制。21世紀(jì)伴隨著互聯(lián)網(wǎng)、云計(jì)算和社交網(wǎng)絡(luò)的發(fā)展,一切事物皆可數(shù)據(jù)化,大數(shù)據(jù)逐漸在各行各業(yè)滲透,政府、企業(yè)和各類機(jī)構(gòu)都能輕易獲得海量數(shù)據(jù),任何信息過程都開始呈現(xiàn)出一種“數(shù)據(jù)驅(qū)動”的趨勢。當(dāng)前全球形勢瞬息萬變,智庫決策產(chǎn)品具有很強(qiáng)的時(shí)效性,因此智庫決策研究過程不僅要求準(zhǔn)確,更強(qiáng)調(diào)大數(shù)據(jù)下對數(shù)據(jù)搜集及處理的效率,這就要求智庫必須將非結(jié)構(gòu)化數(shù)據(jù)資源處理成能夠被計(jì)算機(jī)自動識別并處理的“可計(jì)算”數(shù)據(jù),以實(shí)現(xiàn)智庫研究數(shù)據(jù)搜集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)利用流程在計(jì)算機(jī)上的自動化,從而迅速、準(zhǔn)確地為決策研究提供數(shù)據(jù)支撐。

      通過調(diào)研可知目前國外智庫雖已有較完善的信息搜集策略,但人工參與環(huán)節(jié)較多,整體效率不高,在大數(shù)據(jù)環(huán)境下各種傳統(tǒng)數(shù)據(jù)采集方法的不足逐漸顯露。如調(diào)查研究方式中以文獻(xiàn)調(diào)研法和問卷調(diào)研法為例,它們都是智庫必不可少的信息采集方法,但信息的挖掘能力在包含各種復(fù)雜類型的海量數(shù)據(jù)中十分有限,文獻(xiàn)調(diào)研法由于所研究文獻(xiàn)的區(qū)別(如一次、二次文獻(xiàn)加工程度不同或載體不同)導(dǎo)致人為分析全面性和效率上的不足,而問卷調(diào)研法在互聯(lián)網(wǎng)環(huán)境下無法保證準(zhǔn)確有效地反映了受訪者的真實(shí)想法,效度較低,且一旦在后期發(fā)現(xiàn)錯誤將很難補(bǔ)救[10]。這些缺陷都會導(dǎo)致智庫在分析處理階段出現(xiàn)一定偏差,使智庫產(chǎn)品存在瑕疵。此外,調(diào)研法和實(shí)驗(yàn)法都需要一定的時(shí)間周期才能獲取信息,在目前智庫要求對突發(fā)事件和熱點(diǎn)事件迅速相應(yīng)的趨勢下略顯被動。間接采集策略中購買數(shù)據(jù)庫的方式成本高昂且難以囊括大數(shù)據(jù)下的所有樣本,依靠自身累積或?qū)で蠛献饕泊嬖诤艽蟮木窒扌裕虼死没ヂ?lián)網(wǎng)搜集公開數(shù)據(jù)成為絕大部分智庫獲取信息數(shù)據(jù)的首選途徑。綜上,傳統(tǒng)的數(shù)據(jù)采集方法已無法適應(yīng)當(dāng)下實(shí)時(shí)更新的大規(guī)模非結(jié)構(gòu)化的大數(shù)據(jù)環(huán)境,數(shù)據(jù)采集效率將大打折扣,同時(shí)數(shù)據(jù)存儲方式也需進(jìn)行相應(yīng)轉(zhuǎn)變,相對于結(jié)構(gòu)化數(shù)據(jù)可以二維表結(jié)構(gòu)的形式存儲在關(guān)系數(shù)據(jù)庫中,智庫采集到的大量非結(jié)構(gòu)化數(shù)據(jù)包括文檔、圖像、聲音、視頻、超媒體等信息難以通過一般結(jié)構(gòu)化的方式進(jìn)行存儲,這也是數(shù)據(jù)采集需事先考慮的問題。endprint

      3.2 新型搜集技術(shù)的發(fā)展應(yīng)用及相關(guān)實(shí)踐案例

      大數(shù)據(jù)時(shí)代背景下需要處理的數(shù)據(jù)量迅速膨脹,谷歌、Facebook、亞馬遜、百度等大型互聯(lián)網(wǎng)企業(yè)作為大數(shù)據(jù)的生產(chǎn)者也是主要使用者,參與研發(fā)并運(yùn)用各種最新的數(shù)據(jù)采集、清洗和挖掘技術(shù)或工具實(shí)現(xiàn)對大數(shù)據(jù)的自動化處理,以擴(kuò)大數(shù)據(jù)處理量,提高數(shù)據(jù)處理效率,如比較常見的WEKA、Rapidminer、Orange等。智庫可借鑒互聯(lián)網(wǎng)企業(yè)的經(jīng)驗(yàn),運(yùn)用數(shù)據(jù)挖掘、網(wǎng)絡(luò)爬蟲、機(jī)器學(xué)習(xí)等先進(jìn)的大數(shù)據(jù)技術(shù)實(shí)現(xiàn)智庫從信息采集環(huán)節(jié),到信息組織、信息分析一系列流程的自動化,逐漸減少不必要的人工參與,從而更迅速地搜集到更全面的數(shù)據(jù)資料,在“數(shù)據(jù)驅(qū)動”趨勢下極大提升智庫自身的信息處理效率。

      機(jī)構(gòu)知識庫作為智庫知識庫的一般形式,在國內(nèi)外已有較多關(guān)于信息采集的理論與技術(shù)研究取得成果并得到了有效應(yīng)用,值得智庫借鑒。如由麻省理工學(xué)院圖書館(MIT Libraries)和惠普公司實(shí)驗(yàn)室(Hewlett-Packard Labs)合作研發(fā)的DSpace系統(tǒng)是一個專門的數(shù)字資產(chǎn)管理系統(tǒng),便于收集、存儲、保存和發(fā)布數(shù)據(jù),類似還有Eprints、OCLC開發(fā)的CONTENTdm等,可以在語義層面對采集到的文檔進(jìn)行元數(shù)據(jù)填充;中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心也基于DSpace搭建中科院機(jī)構(gòu)知識庫平臺(CAS-IR),對本機(jī)構(gòu)知識內(nèi)容進(jìn)行捕獲、轉(zhuǎn)化和傳播,并嘗試?yán)藐P(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)知識庫資源的語義擴(kuò)展[11]。然而由于智庫知識庫無論從服務(wù)對象、數(shù)據(jù)來源、資源種類還是開放程度上都與機(jī)構(gòu)知識庫有一定差異,因此在借鑒機(jī)構(gòu)知識庫數(shù)據(jù)搜集策略的過程中應(yīng)留意這些特征。

      3.3 大數(shù)據(jù)下智庫信息搜集策略的建議

      智庫的政策研究過程實(shí)際上是一個知識增值的過程,每一項(xiàng)活動都是這一價(jià)值鏈條上的一個環(huán)節(jié)。T.Gustafson和D.Fink[12]于2013年提出“大數(shù)據(jù)價(jià)值鏈”的概念,認(rèn)為每條大數(shù)據(jù)價(jià)值鏈簡化后都至少應(yīng)由4個基本階段組成:數(shù)據(jù)獲取——數(shù)據(jù)存儲——數(shù)據(jù)分析——數(shù)據(jù)應(yīng)用?;诖耍Y(jié)合智庫的一般運(yùn)作流程,本文提出大數(shù)據(jù)環(huán)境下的智庫數(shù)據(jù)價(jià)值鏈(見圖1),智庫數(shù)據(jù)價(jià)值鏈反映了在智庫運(yùn)作的各個階段圍繞數(shù)據(jù)進(jìn)行的活動,而大數(shù)據(jù)則為各環(huán)節(jié)提出了要求。智庫的數(shù)據(jù)采集作為數(shù)據(jù)價(jià)值鏈的首要環(huán)節(jié)承擔(dān)著重要的作用,數(shù)據(jù)采集的質(zhì)量和效率將直接影響到后續(xù)智庫產(chǎn)品的質(zhì)量和影響力?;诖?,針對當(dāng)前智庫在大數(shù)據(jù)時(shí)代背景下的信息搜集策略提出以下建議。

      (1)數(shù)據(jù)采集的自動化。運(yùn)用當(dāng)前最新數(shù)據(jù)采集技術(shù),實(shí)現(xiàn)智庫數(shù)據(jù)搜集環(huán)節(jié)的自動化。面對浩瀚的大數(shù)據(jù),傳統(tǒng)通過人工或半自動化的數(shù)據(jù)采集方式已不能滿足智庫在當(dāng)前國際形勢下的研究效率,利用信息技術(shù)將數(shù)據(jù)加工為可供計(jì)算機(jī)自動處理的“可計(jì)算資源”已是必然趨勢。由智庫數(shù)據(jù)價(jià)值鏈可以看出,數(shù)據(jù)采集是大數(shù)據(jù)下實(shí)現(xiàn)智庫知識增值的第一步,通過信息抽取、網(wǎng)絡(luò)爬蟲等技術(shù)自動采集互聯(lián)網(wǎng)上的信息,在大數(shù)據(jù)環(huán)境下盡可能多地獲取更全面的數(shù)據(jù)樣本,為智庫政策研究提供大量的信息源,從而為后續(xù)的信息組織和分析打下基礎(chǔ)。

      (2)制定必要的采集規(guī)則。智庫接觸到的大數(shù)據(jù)來源除了各類數(shù)據(jù)庫外,還包括合作機(jī)構(gòu)間的共享數(shù)據(jù)、網(wǎng)絡(luò)出版的開放數(shù)據(jù)等內(nèi)容。此外,各種傳感器收集數(shù)據(jù)、社交網(wǎng)絡(luò)用戶數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等,凡是滿足開展政策研究各領(lǐng)域需求的數(shù)據(jù)信息都成為智庫采集的對象。然而鑒于大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量參差不齊,必定會采集到一部分不合格數(shù)據(jù),所以有必要設(shè)置一定的數(shù)據(jù)采集規(guī)則并按一定標(biāo)準(zhǔn)格式進(jìn)行后續(xù)存儲,以確保智庫采集到的資源將得到有效利用。

      (3)構(gòu)建智庫知識庫。根據(jù)國際數(shù)據(jù)公司IDC的一項(xiàng)調(diào)查報(bào)告中指出,目前企業(yè)中的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占到數(shù)據(jù)總量的80%以上,且這些數(shù)據(jù)按照每年60%的速度增長。智庫采集到的這些海量復(fù)雜類型數(shù)據(jù)必須經(jīng)過統(tǒng)一處理,進(jìn)行組織存儲后,才能為后續(xù)分析提供“可計(jì)算”資源,即可通過計(jì)算機(jī)自動識別和處理的信息資源。智庫知識庫是智庫機(jī)構(gòu)通過管理手段結(jié)合各種信息技術(shù)對相關(guān)信息數(shù)據(jù)進(jìn)行組織,形成該智庫機(jī)構(gòu)所擁有的知識集合,其主要目標(biāo)是將采集資源語義化,通過相互關(guān)聯(lián)的知識片發(fā)現(xiàn)數(shù)據(jù)間的規(guī)律和潛在知識,并據(jù)此為用戶提供知識服務(wù)。

      4 結(jié)語

      本文調(diào)查了國外十余家具有代表性的智庫在信息搜集方面的策略與資源建設(shè),通過分析與總結(jié)可以看出,西方智庫的數(shù)據(jù)搜集策略雖較為全面,但已無法適應(yīng)當(dāng)前大數(shù)據(jù)特征的要求。文章提出利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)工具實(shí)現(xiàn)自動采集,并參考機(jī)構(gòu)知識庫的成功案例,盡快建立智庫知識庫提升自身數(shù)據(jù)采集和分析能力,使決策參考更具科學(xué)性與前瞻性。

      參考文獻(xiàn):

      [1] James G.McGann,University of Pennsylvania,2015 Global Go To Think Tank Index Report[EB/OL].[2016-08-10].http://repository.upenn.edu/think_tanks/10/.

      [2] 吳育良.國外智庫決策信息支持研究及啟示[J].圖書館理論與實(shí)踐,2015(10):31-35.

      [3] 廖球,嚴(yán)揚(yáng)帆,莫崇菊.大數(shù)據(jù)時(shí)代機(jī)構(gòu)自建學(xué)術(shù)數(shù)據(jù)庫研究[J].圖書館學(xué)刊,2014(4):34-36.

      [4] Wikipedia.Brookings Institution[EB/OL].[2016-08-14].https://en.wikipedia.org/wiki/Brookings_Institution.

      [5] Rand Corporation.Methods Centers at RAND[EB/OL].[2016-08-18].http://www.rand.org/capabilities/methods-centers/gaming.html.endprint

      [6] Sara Lowes,Nathan Nunn,James A.Robinson,et al.Cato Institute[EB/OL].[2016-09-02].http://www.cato.org/publications/research-briefs-economic-policy/evolution-culture-institutions-evidence-kuba-kingdom.

      [7] Thomas Raines,Shane Tomlinson.Chatham House[EB/OL].[2016-09-03].https://www.chathamhouse.org/sites/files/chathamhouse/publications/research/2016-03-31-europe-energy-union-raines-tomlinson.pdf.

      [8] Alex Nowrasteh,Cato Institue.Terrorism and Immigration: A Risk Analysis[EB/OL].[2016-09-30].http://www.cato.org/publications/policy-analysis/terrorism-immigration-risk-analysis.

      [9] MBA智庫百科.美國蘭德公司[EB/OL].[2016-10-01].http://wiki.mbalib.com/wiki/%E5%85%B0%E5%BE%B7.

      [10] 王海峰.大數(shù)據(jù)智庫:中國特色新型智庫建設(shè)途徑研究[D].上海:華東政法大學(xué),2016.

      [11] 王思麗,祝忠明.利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)機(jī)構(gòu)知識庫的語義擴(kuò)展研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(11):17-23.

      [12] Gustafson T,F(xiàn)ink D.Winning within the data value chain[J].Strategy & Innovation Newsletter,2013,14(2):1-5.

      作者簡介:安楠(1992-),男,中國科學(xué)院大學(xué)、中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心碩士研究生;祝忠明(1969-),男,中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心研究館員,博士生導(dǎo)師。endprint

      猜你喜歡
      智庫大數(shù)據(jù)
      書訊:《新型智庫質(zhì)量提升與國家治理現(xiàn)代化》
      智庫人不能忘卻的使命
      中國智庫數(shù)量居世界第二7家智庫上榜世界百強(qiáng)榜單
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      新型智庫不能有“庫”無“智”
      報(bào)告稱中國智庫數(shù)量排世界第二
      中國知名官方智庫圖譜
      金华市| 石家庄市| 韶山市| 阿巴嘎旗| 繁昌县| 祁门县| 万荣县| 余庆县| 桐乡市| 宽城| 娱乐| 五指山市| 客服| 宁波市| 庄浪县| 进贤县| 台中市| 淮安市| 东兰县| 根河市| 古田县| 云浮市| 固原市| 大洼县| 郑州市| 筠连县| 长子县| 贵德县| 台湾省| 明星| 南郑县| 银川市| 宁安市| 托里县| 武穴市| 泰顺县| 苍南县| 大庆市| 泰来县| 延庆县| 巴里|