是沁 李陽
摘? ?要:文章從人文社科研究過程入手,分析了數(shù)據(jù)驅(qū)動(dòng)的人文社科研究在數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)共享各階段存在的數(shù)據(jù)需求、數(shù)據(jù)隱私、數(shù)據(jù)質(zhì)量、數(shù)據(jù)權(quán)益等問題。最后,從微觀的數(shù)據(jù)層面,對(duì)數(shù)據(jù)驅(qū)動(dòng)的人文社科研究提出了促進(jìn)人文社科數(shù)據(jù)資源開放共享、構(gòu)建多維度的人文社科研究數(shù)據(jù)管理與監(jiān)督機(jī)制、加強(qiáng)人文社科研究人員的數(shù)據(jù)素養(yǎng)教育等3個(gè)方面的對(duì)策建議。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)驅(qū)動(dòng);人文社科研究;應(yīng)對(duì)策略
中圖分類號(hào):G250.2;C3? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019003
Abstract Clarifying the data problems faced by humanities and social sciences research under the big data environment is conducive to promoting the deep integration of big data and humanities and social sciences research. Starting from the research process of humanities and social sciences, this paper analyzes the problems such as data requirements, data privacy, data quality and data rights in data acquisition, data processing and data sharing of humanities and social sciences research. Then,targeted suggestions are put forward in three aspects: promoting the sharing of humanities and social sciences data resources, informing multiple-dimension data management and supervision mechanism of humanities and social sciences research, and strengthening data literacy education for humanities and social sciences researchers.
Key words big data; data driven; humanities and social sciences; coping strategy
大數(shù)據(jù)作為一種新的理念和技術(shù),對(duì)現(xiàn)代生活產(chǎn)生了巨大影響,同時(shí)它作為一種新的科學(xué)圖景,為不同學(xué)科發(fā)展帶來了新的機(jī)遇[1]。在大數(shù)據(jù)時(shí)代,社會(huì)信息化和智能化程度有了前所未有的提升,技術(shù)環(huán)境也發(fā)生了巨大的變化,這些變化滲透到了人文社科研究的各個(gè)領(lǐng)域,推動(dòng)了人文社科研究向數(shù)據(jù)驅(qū)動(dòng)的“第四范式”轉(zhuǎn)變。一方面,大數(shù)據(jù)使人文社科數(shù)據(jù)收集更加全面高效,社交媒體數(shù)據(jù)、傳感器數(shù)據(jù)、社會(huì)管理數(shù)據(jù)等擴(kuò)大了人文社科研究的數(shù)據(jù)規(guī)模,使研究成果更加科學(xué)化、精確化;另一方面,大數(shù)據(jù)為人文社科帶來了新的研究方法,社會(huì)網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等使研究人員在開展研究時(shí)更加得心應(yīng)手,為跨領(lǐng)域、跨學(xué)科研究提供了可能。
毫無疑問,大數(shù)據(jù)能夠提升人文社科研究的質(zhì)量,為人文社科研究帶來新的活力,但近些年的研究表明,大數(shù)據(jù)帶來的風(fēng)險(xiǎn)與挑戰(zhàn)也是不容忽視的。如倪萬和唐錫光[2]就大數(shù)據(jù)應(yīng)用于社會(huì)科學(xué)研究的基礎(chǔ)性問題展開研究,指出大數(shù)據(jù)環(huán)境下的社會(huì)科學(xué)研究存在“總體”與“樣本”、“混雜”與“精確”、“相關(guān)”與“因果”四個(gè)方面的悖論;陳泓茹等[3]指出要警惕大數(shù)據(jù)融入人文社科研究的基本限度:其一,大數(shù)據(jù)改變了人文社科研究的存在形態(tài),但從本質(zhì)來說,精神世界是無法數(shù)據(jù)化的;其二,充分認(rèn)識(shí)數(shù)據(jù)固然重要,但是要警惕數(shù)據(jù)崇拜;其三,大數(shù)據(jù)能提高人文社科研究的精確化程度,但是精確化并不等于科學(xué)化;米加寧等[4]指出第四范式驅(qū)動(dòng)的社會(huì)科學(xué)研究需要關(guān)注大數(shù)據(jù)的技術(shù)倫理問題與以往社會(huì)科學(xué)傳統(tǒng)價(jià)值的挖掘問題。
目前這些已有的研究在一定程度上揭示了大數(shù)據(jù)應(yīng)用于社會(huì)科學(xué)研究的共性問題,但更傾向于宏觀問題的描述,缺乏對(duì)大數(shù)據(jù)環(huán)境下人文社科研究中數(shù)據(jù)問題的細(xì)粒度分析。雖然有些學(xué)者已經(jīng)提及了數(shù)據(jù)倫理、數(shù)據(jù)崇拜等問題,但并未對(duì)問題及其產(chǎn)生原因進(jìn)行深入系統(tǒng)的分析?;诖?,本研究對(duì)大數(shù)據(jù)環(huán)境下人文社科研究的數(shù)據(jù)問題進(jìn)行多方面的綜合考量,并有針對(duì)性地提出應(yīng)對(duì)策略。
1? ?數(shù)據(jù)驅(qū)動(dòng)的人文社科研究困境
大數(shù)據(jù)環(huán)境下人文社科研究的數(shù)據(jù)問題作為“元問題”,由一系列子問題共同構(gòu)成人文社科研究數(shù)據(jù)問題的框架,這些子問題主要包括數(shù)據(jù)需求問題、數(shù)據(jù)隱私問題、數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)權(quán)益問題等。
1.1? ? 數(shù)據(jù)需求問題
隨著數(shù)據(jù)驅(qū)動(dòng)的第四研究范式的興起,數(shù)據(jù)的價(jià)值日益凸顯,人文社科研究人員數(shù)據(jù)需求也發(fā)生了一系列的變化,主要表現(xiàn)為多元化的數(shù)據(jù)來源需求、多樣化的數(shù)據(jù)類型需求、全方位的數(shù)據(jù)主題需求。首先,在數(shù)據(jù)密集型的科研環(huán)境下,人文社科研究人員不僅可以通過搜索引擎獲取互聯(lián)網(wǎng)大數(shù)據(jù),還可以通過數(shù)據(jù)中心或者數(shù)據(jù)平臺(tái)等專業(yè)數(shù)據(jù)庫獲取用于科學(xué)研究的大數(shù)據(jù);其次,人文社科數(shù)據(jù)類型復(fù)雜多樣,數(shù)值型數(shù)據(jù)、文本、圖片、視頻等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)都可以被嵌入到人文社科研究中,尤其像歷史學(xué)、心理學(xué)、社會(huì)學(xué)等學(xué)科對(duì)非結(jié)構(gòu)化數(shù)據(jù)的需求更為強(qiáng)烈;最后,人文社科各學(xué)科之間的融合與交匯不斷加深,科學(xué)研究活動(dòng)往往需要跨領(lǐng)域數(shù)據(jù)的支持,科研人員需要獲取跨學(xué)科的數(shù)據(jù)以鏈接不同領(lǐng)域的知識(shí)點(diǎn)。
人文社科研究人員數(shù)據(jù)需求日益迫切,人文社科數(shù)據(jù)資源建設(shè)與管理的現(xiàn)狀卻不樂觀。近年來,中國(guó)人民大學(xué)、復(fù)旦大學(xué)、武漢大學(xué)、《圖書館雜志》出版社等先后搭建了數(shù)據(jù)中心以支撐人文社科研究的發(fā)展。但是數(shù)據(jù)資源建設(shè)蓬勃興起的同時(shí),仍然存在資源分散、管理混亂、內(nèi)容單一等問題:(1)國(guó)內(nèi)人文社科數(shù)據(jù)平臺(tái)功能相對(duì)單一,僅提供瀏覽、查詢等服務(wù),不支持機(jī)器的讀取和原始下載。如中山大學(xué)社會(huì)科學(xué)調(diào)查中心規(guī)定數(shù)據(jù)知識(shí)產(chǎn)權(quán)劃歸數(shù)據(jù)原始持有機(jī)構(gòu)所有,規(guī)定數(shù)據(jù)獲取需要審核;(2)人文社科數(shù)據(jù)資源建設(shè)標(biāo)準(zhǔn)不統(tǒng)一,不利于數(shù)據(jù)互聯(lián)互通。由于人文社科數(shù)據(jù)資源建設(shè)標(biāo)準(zhǔn)不完善,普遍缺乏數(shù)據(jù)讀取和交互操作的數(shù)據(jù)接口,科研人員無法查看詳細(xì)數(shù)據(jù)結(jié)構(gòu),更無法通過關(guān)聯(lián)數(shù)據(jù)的方式相互共享鏈接[5]。目前,中國(guó)人民大學(xué)社會(huì)調(diào)查與數(shù)據(jù)中心、復(fù)旦大學(xué)社會(huì)科學(xué)中心等明確使用DDI元數(shù)據(jù)標(biāo)準(zhǔn),而其他很多機(jī)構(gòu)在人文社科數(shù)據(jù)標(biāo)引規(guī)則、數(shù)據(jù)互操作、數(shù)據(jù)存儲(chǔ)等方面尚需要進(jìn)一步統(tǒng)一;(3)數(shù)據(jù)內(nèi)容揭示不足,數(shù)據(jù)資源整合層次較淺。目前,一些人文社科數(shù)據(jù)資源平臺(tái)能做到對(duì)數(shù)據(jù)或者數(shù)據(jù)集進(jìn)行標(biāo)引,但是缺乏對(duì)數(shù)據(jù)內(nèi)容的深入標(biāo)引,大多數(shù)平臺(tái)不具備全面的高級(jí)檢索功能,無法滿足人文社科研究人員的數(shù)據(jù)多元化跨領(lǐng)域的數(shù)據(jù)需求。
1.2? ? 數(shù)據(jù)隱私問題
大數(shù)據(jù)環(huán)境下人文社科研究可以通過社交軟件、智能設(shè)備、網(wǎng)絡(luò)日志、開放API等方式獲取實(shí)時(shí)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗、脫敏、匿名后通過社會(huì)網(wǎng)絡(luò)分析、聚類分析、關(guān)聯(lián)分析等方法揭示多源異構(gòu)數(shù)據(jù)之間的相關(guān)關(guān)系、時(shí)間關(guān)系與空間關(guān)系,形成相關(guān)研究,但在這個(gè)過程中隨時(shí)有可能造成個(gè)人隱私數(shù)據(jù)的侵犯。
人文社科研究的數(shù)據(jù)類型包括用戶生成內(nèi)容(UGC)、空間位置數(shù)據(jù)與電子蹤跡等,這些規(guī)模龐大且雜亂的數(shù)據(jù)中包含著個(gè)人識(shí)別信息、個(gè)人身份信息、個(gè)人偏好信息等隱私數(shù)據(jù)(見圖1)。在數(shù)據(jù)采集階段,這些隱私數(shù)據(jù)在用戶毫不知情的情況下被獲取,自此潛在威脅開始顯露。政府網(wǎng)站、數(shù)據(jù)中心等開放平臺(tái)的數(shù)據(jù)一般都通過去識(shí)別化處理將數(shù)據(jù)與其來源相剝離,通過爬蟲獲取的數(shù)據(jù)也會(huì)進(jìn)行匿名處理,但是這些方法不是絕對(duì)安全的,多個(gè)數(shù)據(jù)集跨域互聯(lián)之后,即使是已經(jīng)匿名化的數(shù)據(jù)也會(huì)慢慢清晰。研究者通過數(shù)據(jù)挖掘和知識(shí)推理技術(shù)將毫無關(guān)聯(lián)的數(shù)據(jù)進(jìn)行加工與整合,將碎片化的靜態(tài)單元信息通過時(shí)空組合形成網(wǎng)狀化模塊數(shù)據(jù),不直接觸及到隱私的信息經(jīng)過科研人員疊加處理,可以輕易用數(shù)據(jù)畫像還原個(gè)人生活全貌。Latanya Sweeney通過對(duì)去識(shí)別化的出生日期、性別、郵政編碼信息、投票登記記錄進(jìn)行數(shù)據(jù)配比,從而重新確認(rèn)州保險(xiǎn)委員會(huì)發(fā)布的匿名化的健康記錄信息[6]。在數(shù)據(jù)管護(hù)階段,如果不能有效存儲(chǔ)數(shù)據(jù)和合理開放數(shù)據(jù),也會(huì)對(duì)個(gè)人隱私與數(shù)據(jù)安全造成巨大威脅。大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)不斷增長(zhǎng),存儲(chǔ)與傳輸系統(tǒng)處理這些科學(xué)數(shù)據(jù)需要堅(jiān)實(shí)的組織與技術(shù)保障,并且需要通過相互協(xié)作來匯集不同來源的數(shù)據(jù)。然而,目前我國(guó)缺乏統(tǒng)一的數(shù)據(jù)管護(hù)平臺(tái),人文社科各數(shù)據(jù)管理中心的數(shù)據(jù)安全評(píng)估標(biāo)準(zhǔn)與數(shù)據(jù)安全防護(hù)機(jī)制也不完善,這些因素都可能成為隱私泄露的原因。
數(shù)據(jù)管理中心數(shù)據(jù)政策缺失是隱私侵犯的原因之一,其根本原因在于我國(guó)缺乏個(gè)人隱私保護(hù)相關(guān)法律對(duì)研究人員行為進(jìn)行規(guī)范。從全球來看,聯(lián)合國(guó)有113個(gè)成員國(guó)建立了數(shù)據(jù)保護(hù)法或其他等同法案。反觀我國(guó)截至目前沒有獨(dú)立完整的數(shù)據(jù)保護(hù)法,相關(guān)規(guī)定分散在各種法律法規(guī)中。最新的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》新增了最少夠用原則、個(gè)人信息共享?xiàng)l件等新規(guī)定[7],《最高人民法院、最高人民檢察院關(guān)于辦理侵犯公民個(gè)人信息刑事案件適用法律若干問題的解釋》補(bǔ)充了《刑法》,明確了侵犯公民個(gè)人信息罪的定罪量刑標(biāo)準(zhǔn)、相關(guān)法律適用等內(nèi)容[8]。但上述個(gè)人隱私保護(hù)的法律條款側(cè)重對(duì)一般社會(huì)行為下的隱私侵犯行為的處罰,不足之處主要表現(xiàn)在:沒有對(duì)科學(xué)研究中的隱私侵害行為進(jìn)行界定,就目前國(guó)內(nèi)的隱私保護(hù)條例而言,公民的隱私信息受法律保護(hù),那么公民就有權(quán)利要求科研部門在避開個(gè)人隱私數(shù)據(jù)基礎(chǔ)上開展研究,這是法律較難平衡和界定的部分。我國(guó)缺少對(duì)數(shù)據(jù)驅(qū)動(dòng)的人文社科研究存在的問題進(jìn)行底線約束,也未形成完善的道德規(guī)范體系進(jìn)行預(yù)防。我國(guó)早在2009年就頒布《高校人文社會(huì)科學(xué)學(xué)術(shù)規(guī)范指南》,該指南涉及到了學(xué)術(shù)倫理、引用規(guī)范、學(xué)術(shù)評(píng)價(jià)規(guī)范等方面,然而隨著時(shí)間的推移,該指南已經(jīng)無法適應(yīng)大數(shù)據(jù)環(huán)境下人文社科研究的新場(chǎng)景、新范式、新問題。
1.3? ? 數(shù)據(jù)質(zhì)量問題
大數(shù)據(jù)時(shí)代,數(shù)據(jù)生成與科學(xué)研究分離,加上數(shù)據(jù)的極度豐富與多維屬性,研究人員因個(gè)人原因造成的“觀念先行”“材料拼湊”“以偏概全”等問題被認(rèn)為可以有效避免[9]。因此,有研究認(rèn)為“大數(shù)據(jù)時(shí)代,人文社科研究從海量數(shù)據(jù)中獲得的結(jié)論,相比通過傳統(tǒng)抽樣統(tǒng)計(jì)分析的結(jié)果更為準(zhǔn)確”[10]。事實(shí)上,數(shù)據(jù)的生產(chǎn)與科學(xué)研究相互獨(dú)立,不但未能有效排除影響因素,反而可能在一定程度上招致更多的干擾因素。各種外部環(huán)境干擾與人為干擾隱藏在數(shù)據(jù)生產(chǎn)到數(shù)據(jù)分析再到結(jié)果展示的各個(gè)階段,持續(xù)影響著人文社科研究的數(shù)據(jù)質(zhì)量。
首先,數(shù)據(jù)本身的真實(shí)性存在很大的疑問。如以互聯(lián)網(wǎng)大數(shù)據(jù)為例,Twitter、新浪微博、知乎等互聯(lián)網(wǎng)平臺(tái)帶有濃厚的商業(yè)色彩,這些平臺(tái)不是以服務(wù)科學(xué)研究為目的而建立的,而是追求利潤(rùn)的商業(yè)平臺(tái),因此生成的數(shù)據(jù)在一定意義上可以被理解為是銷售與消費(fèi)行為交互作用的結(jié)果。在市場(chǎng)邏輯下,圍繞信息生產(chǎn)、分配與交換形成一種“數(shù)據(jù)商業(yè)”,大量的人為操縱因素被注入到互聯(lián)網(wǎng)大數(shù)據(jù)中[9]。如微博熱搜、知乎問答、微博公眾號(hào)等的閱讀數(shù)都存在著大量水軍操縱的痕跡。對(duì)于人文社科相關(guān)研究而言,這些“重新制作”的數(shù)據(jù)從商業(yè)用途轉(zhuǎn)用于科學(xué)研究,如果研究人員不能對(duì)其進(jìn)行有效甄別與剔除,數(shù)據(jù)有可能會(huì)存在偏差,最終導(dǎo)致研究結(jié)果出現(xiàn)錯(cuò)誤。然而,對(duì)于虛假數(shù)據(jù)的識(shí)別與篩選仍然是目前研究人員有待解決的技術(shù)難題。
其次,即使生成的數(shù)據(jù)足夠科學(xué)客觀,但對(duì)數(shù)據(jù)的采集與處理同樣是一個(gè)主觀的操作過程。舍恩伯格認(rèn)為大數(shù)據(jù)時(shí)代的數(shù)據(jù)一定是基于總體的,數(shù)據(jù)驅(qū)動(dòng)的人文社科研究追求獲得總體數(shù)據(jù),但是在具體的研究往往與舍恩伯格的愿望相差甚遠(yuǎn)。人文社科研究對(duì)象的性質(zhì)決定難以獲得全體數(shù)據(jù),在實(shí)際研究中能夠通過數(shù)據(jù)量化的總體幾乎不會(huì)出現(xiàn),并且一旦追求大而全的數(shù)據(jù)樣本,不可避免的會(huì)以犧牲數(shù)據(jù)源的甄選作為代價(jià)。另外,數(shù)據(jù)量的龐大和數(shù)據(jù)的多樣性給科研人員數(shù)據(jù)處理帶來了一定的挑戰(zhàn),但同時(shí)也賦予其更多的對(duì)數(shù)據(jù)進(jìn)行選擇的權(quán)利,這就意味著在數(shù)據(jù)處理的環(huán)節(jié),很有可能出現(xiàn)隨意取舍、組合數(shù)據(jù),刪除與期望不符的數(shù)據(jù)以獲得研究結(jié)果的現(xiàn)象。如2014年12月,《科學(xué)》雜志刊登的題為“When contact changes minds: An experiment on transmission of support for gay equality”[11]的論文由于數(shù)據(jù)獲取方式及驗(yàn)證性存疑,在政治社會(huì)科學(xué)領(lǐng)域引起關(guān)注并引發(fā)爭(zhēng)論。最終,論文作者承認(rèn)數(shù)據(jù)造假并于2015年5月正式向《科學(xué)》提出撤稿申請(qǐng)。
最后,即使經(jīng)過處理的數(shù)據(jù)真實(shí)可靠,對(duì)數(shù)據(jù)進(jìn)行分析時(shí)也難免摻雜研究人員的個(gè)人意志。一方面,從社會(huì)學(xué)角度看,所有的數(shù)據(jù)說到底都是關(guān)于“人”的符號(hào),是一種具有社會(huì)文化意義的建構(gòu)行動(dòng)[12]。大數(shù)據(jù)環(huán)境下的人文社科研究執(zhí)著于“客觀數(shù)據(jù)”的解讀,缺少對(duì)“主觀數(shù)據(jù)”的反映,忽視了數(shù)據(jù)符號(hào)所蘊(yùn)含的社會(huì)文化意義的挖掘;另一方面,人不是法律規(guī)范的機(jī)械執(zhí)行者,社會(huì)行為必須結(jié)合其所發(fā)生的具體情境才能被更好地理解。然而,現(xiàn)實(shí)情況下人文學(xué)科的許多情境因素都未能被記錄到大數(shù)據(jù)之中,而即使是那些被記錄、被解讀出來情境,也應(yīng)當(dāng)不斷反思是數(shù)據(jù)本身的意義還是研究人員對(duì)數(shù)據(jù)意義的過度解讀。
1.4? ? 數(shù)據(jù)權(quán)益問題
當(dāng)前數(shù)據(jù)驅(qū)動(dòng)的研究范式下,科學(xué)數(shù)據(jù)已經(jīng)成為一種必不可少的資源,只有實(shí)現(xiàn)更大范圍的數(shù)據(jù)共享,才能推動(dòng)人文社科研究的創(chuàng)新。保障科學(xué)數(shù)據(jù)權(quán)益是提高數(shù)據(jù)生產(chǎn)者共享積極性的關(guān)鍵,其既包括各利益主體的權(quán)益與義務(wù)的協(xié)調(diào)問題,也涉及到科學(xué)數(shù)據(jù)相關(guān)法律與政策文本是否完善的問題。
(1)數(shù)據(jù)獲取階段權(quán)益問題。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、數(shù)字中國(guó)建設(shè)推進(jìn),人文社科領(lǐng)域的研究資源逐漸從調(diào)查獲取向感知獲取轉(zhuǎn)變,研究人員通過網(wǎng)絡(luò)媒體系統(tǒng)、電子政務(wù)系統(tǒng)、電子商務(wù)系統(tǒng)等獲取社交媒體數(shù)據(jù)、金融系統(tǒng)數(shù)據(jù)、用戶隱私數(shù)據(jù)等[5],在這一過程中,數(shù)據(jù)生產(chǎn)者的數(shù)據(jù)所有權(quán)被研究人員獲取。從數(shù)據(jù)收集的對(duì)象來看,其本身是數(shù)據(jù)的生產(chǎn)者,但是被直接剝奪了數(shù)據(jù)的所有權(quán),進(jìn)而也就失去了數(shù)據(jù)產(chǎn)生價(jià)值的收益權(quán)?!皵?shù)據(jù)知情權(quán)”是數(shù)據(jù)搜集中被普遍認(rèn)可的權(quán)利,但是在大數(shù)據(jù)環(huán)境下,知情同意的難度較以往大幅增加了。個(gè)體簽署同意書通常在數(shù)據(jù)收集之前,而對(duì)信息的實(shí)際利用發(fā)生在其后。與小數(shù)據(jù)時(shí)代數(shù)據(jù)利用的目的相對(duì)確定不同,大數(shù)據(jù)時(shí)代數(shù)據(jù)處理具有頻繁性,數(shù)據(jù)獲取主體與使用目的常常難以預(yù)知。因此,即使數(shù)據(jù)是合法收集的,個(gè)體再也不知道他們的數(shù)據(jù)會(huì)被用來做什么。此外,考慮到時(shí)間與成本等因素,研究人員在數(shù)據(jù)獲取之前也不可能一一履行告知義務(wù)。
(2)數(shù)據(jù)共享階段權(quán)益問題??茖W(xué)數(shù)據(jù)開放共享最核心的問題是“最大程度的利用數(shù)據(jù)”與“最大程度保護(hù)相關(guān)者的權(quán)益”之間的平衡問題。數(shù)據(jù)權(quán)利化是數(shù)據(jù)開放共享的現(xiàn)實(shí)需求,但是現(xiàn)行的法律與政策對(duì)知識(shí)產(chǎn)權(quán)、數(shù)據(jù)產(chǎn)權(quán)的規(guī)定甚少??茖W(xué)數(shù)據(jù)的所有權(quán)尚未在制度層面予以明確,使得數(shù)據(jù)存儲(chǔ)權(quán)、使用權(quán)、重用權(quán)等無法進(jìn)一步厘清,給科學(xué)數(shù)據(jù)開放獲取的實(shí)施增加了難度。另外,我國(guó)的人文社科數(shù)據(jù)管理平臺(tái)沒有對(duì)科學(xué)數(shù)據(jù)生產(chǎn)者作出明確的界定,對(duì)于數(shù)據(jù)使用者的權(quán)限規(guī)定也僅停留在網(wǎng)站的“政策說明”或者“網(wǎng)站申請(qǐng)”的層次。與自然科學(xué)領(lǐng)域的學(xué)術(shù)期刊相比,人文社科類學(xué)術(shù)期刊的數(shù)據(jù)政策尚不完善。如在圖書情報(bào)領(lǐng)域,很多期刊并沒有明確的數(shù)據(jù)管理政策,一些期刊如《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》和《圖書館雜志》要求作者在提交論文時(shí)上傳支撐論文的研究數(shù)據(jù),并且有相應(yīng)的數(shù)據(jù)提交要求,然而這些要求僅涉及到數(shù)據(jù)格式、存儲(chǔ)形式、提交方式等內(nèi)容,并未對(duì)數(shù)據(jù)權(quán)屬、數(shù)據(jù)引用等問題制定相關(guān)細(xì)則??茖W(xué)數(shù)據(jù)匯交政策、保存與權(quán)限控制政策、科學(xué)數(shù)據(jù)重用等規(guī)定的模糊,會(huì)造成人文社會(huì)科學(xué)數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)管理者與數(shù)據(jù)使用者權(quán)益分配的混亂。
2? ?推動(dòng)大數(shù)據(jù)與人文社科研究深度融合的對(duì)策
2.1? ? 促進(jìn)人文社科數(shù)據(jù)資源開放共享
(1)構(gòu)建一套完整的人文社科數(shù)據(jù)資源標(biāo)準(zhǔn)體系。首先,人文社科數(shù)據(jù)資源建設(shè)需要一套統(tǒng)一且規(guī)范的數(shù)據(jù)標(biāo)準(zhǔn),包括數(shù)據(jù)資源建設(shè)機(jī)構(gòu)的資質(zhì)要求、數(shù)據(jù)庫選型要求、數(shù)據(jù)資源篩選分類標(biāo)準(zhǔn)、數(shù)據(jù)清洗標(biāo)準(zhǔn)、數(shù)據(jù)資源組織標(biāo)準(zhǔn)、數(shù)據(jù)資源開放標(biāo)準(zhǔn)等;其次,需要加強(qiáng)薄弱環(huán)節(jié)建設(shè),管理和評(píng)估標(biāo)準(zhǔn)是人文社科數(shù)據(jù)資源標(biāo)準(zhǔn)規(guī)范體系中的薄弱環(huán)節(jié),重點(diǎn)建設(shè)評(píng)估規(guī)范、整合服務(wù)規(guī)范。人文社科數(shù)據(jù)類型復(fù)雜,不僅包括數(shù)值數(shù)據(jù),還包括文本數(shù)據(jù)、檔案數(shù)據(jù)、匯編數(shù)據(jù)和PDF格式等,根據(jù)不同形式的數(shù)據(jù)制定相應(yīng)數(shù)據(jù)評(píng)估標(biāo)準(zhǔn)。
(2)搭建一站式人文社科數(shù)據(jù)開放平臺(tái)。當(dāng)前,國(guó)內(nèi)許多人文社科特色數(shù)據(jù)庫及人文社科數(shù)據(jù)中心普遍存在規(guī)模小、數(shù)據(jù)質(zhì)量差、聚合程度低等問題,數(shù)據(jù)難以得到有效的應(yīng)用。搭建功能齊全、資源豐富、質(zhì)量保障的人文社科研究數(shù)據(jù)聚合與一站式服務(wù)平臺(tái)勢(shì)在必行。①實(shí)現(xiàn)數(shù)據(jù)的有效組織,建立數(shù)據(jù)共建、共用、共享的開放系統(tǒng),明確統(tǒng)一的數(shù)據(jù)開放端口,并根據(jù)數(shù)據(jù)主題、機(jī)構(gòu)、學(xué)科等對(duì)數(shù)據(jù)進(jìn)行分類,實(shí)現(xiàn)人文社科資源平臺(tái)互聯(lián)互通的同時(shí)保障數(shù)據(jù)的一致性;②完善數(shù)據(jù)開放服務(wù)功能,以大數(shù)據(jù)環(huán)境下研究人員數(shù)據(jù)需求為中心,增設(shè)交互功能,實(shí)現(xiàn)一站式服務(wù)。人文社科數(shù)據(jù)資源開放平臺(tái)應(yīng)具備數(shù)據(jù)存儲(chǔ)、管理、瀏覽、檢索、關(guān)聯(lián)查找、互動(dòng)與反饋評(píng)價(jià)功能。
2.2? ? 構(gòu)建多維度的人文社科研究數(shù)據(jù)管理與監(jiān)督機(jī)制
數(shù)據(jù)驅(qū)動(dòng)的人文社科研究數(shù)據(jù)管理與監(jiān)督機(jī)制構(gòu)建的關(guān)鍵在于兩個(gè)方面:其一針對(duì)人文社科研究中存在的數(shù)據(jù)問題制定相應(yīng)的法律、政策和規(guī)范性文件;其二構(gòu)建大數(shù)據(jù)環(huán)境下人文社科研究管理與監(jiān)督共同體,明確多個(gè)參與主體職責(zé)(見圖2)。
(1)由政府機(jī)關(guān)完善數(shù)據(jù)所有權(quán)相關(guān)法律。大數(shù)據(jù)環(huán)境下的人文社科研究在數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)開放共享過程中都不可避免的涉及到數(shù)據(jù)隱私問題、數(shù)據(jù)權(quán)益與責(zé)任的界定問題、法律執(zhí)行等操作性問題。因此,國(guó)家應(yīng)該在法律層面就大數(shù)據(jù)技術(shù)的倫理問題,盡快完善全方位保護(hù)數(shù)據(jù)所有權(quán)的立法。一方面將數(shù)據(jù)所有權(quán)納入到知識(shí)產(chǎn)權(quán)體系中,規(guī)定具體的權(quán)利內(nèi)容與對(duì)應(yīng)的義務(wù);另一方面借鑒《數(shù)據(jù)時(shí)代知識(shí)發(fā)現(xiàn)海牙宣言》[13]原則中與數(shù)據(jù)挖掘相關(guān)的三大原則(知識(shí)產(chǎn)權(quán)與促進(jìn)研究相一致原則、合同許可條款不得限制個(gè)人使用原則、知識(shí)產(chǎn)權(quán)法不限制基于數(shù)據(jù)和思想的創(chuàng)新與研究原則),對(duì)知識(shí)產(chǎn)權(quán)侵權(quán)行為歸責(zé)原則進(jìn)行補(bǔ)充,保護(hù)數(shù)據(jù)主體的權(quán)益、規(guī)范數(shù)據(jù)使用行為、規(guī)避知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)。
(2)教育部社會(huì)科學(xué)委員會(huì)學(xué)風(fēng)建設(shè)委員會(huì)在考慮新技術(shù)產(chǎn)生的社會(huì)性與倫理性影響基礎(chǔ)之上,重新修訂《高校人文社會(huì)科學(xué)學(xué)術(shù)規(guī)范指南》。高校、科研機(jī)構(gòu)等可以考慮增設(shè)專門的“研究規(guī)范指導(dǎo)委員會(huì)”和“學(xué)術(shù)道德問題咨詢委員會(huì)”,將大數(shù)據(jù)環(huán)境下的數(shù)據(jù)倫理要求與項(xiàng)目申請(qǐng)、項(xiàng)目審批掛鉤,嚴(yán)格規(guī)范人文社科研究人員的學(xué)術(shù)行為。另外,積極為人文社科研究人員提供系統(tǒng)的科研規(guī)范教育和學(xué)術(shù)道德問題咨詢服務(wù),通過正向引導(dǎo)與教育,強(qiáng)化科研人員的道德意識(shí),促進(jìn)道德內(nèi)化。