提 要 數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)成為基本生產(chǎn)要素。語(yǔ)言數(shù)據(jù)不僅是新生產(chǎn)力,也催生了新的生產(chǎn)關(guān)系?!罢Z(yǔ)言數(shù)據(jù)”是以語(yǔ)言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),“語(yǔ)言數(shù)據(jù)安全”則指通過采取必要措施,確保語(yǔ)言數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。語(yǔ)言數(shù)據(jù)安全是國(guó)家語(yǔ)言安全的重要組成部分,是新時(shí)代國(guó)家安全體系的有機(jī)構(gòu)成。它可以依據(jù)風(fēng)險(xiǎn)級(jí)別、流程、領(lǐng)域以及是否核心等多個(gè)維度進(jìn)行類型劃分。語(yǔ)言數(shù)據(jù)安全當(dāng)前的幾個(gè)主要問題包括語(yǔ)言數(shù)據(jù)意識(shí)和語(yǔ)言數(shù)據(jù)安全意識(shí)不足、語(yǔ)言數(shù)據(jù)的泛用與確權(quán)不明、對(duì)語(yǔ)言數(shù)據(jù)跨境流動(dòng)關(guān)注闕如、語(yǔ)言數(shù)據(jù)市場(chǎng)安全缺乏評(píng)估等。未來,需要從治理意識(shí)和理念,治理狀態(tài)評(píng)估,技術(shù)支撐、管理建設(shè)、組織建設(shè)、人才培養(yǎng)、國(guó)際合作五大板塊,以及評(píng)價(jià)反饋等幾個(gè)方面開展語(yǔ)言數(shù)據(jù)安全治理。
關(guān)鍵詞 語(yǔ)言數(shù)據(jù);語(yǔ)言安全;語(yǔ)言治理;語(yǔ)言數(shù)據(jù)安全;數(shù)字時(shí)代
中圖分類號(hào) H002 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-1014(2022)04-0015-11
DOI 10.19689/j.cnki.cn10-1361/h.20220401
In the era of digital economy, data has become one of the basic production factors. Language data is not only a new productive force, but also a stimulus for new relations of production. Language data can be categorized into different types based on various criteria? i.e., form, contents, actors, process, and beneficiaries, and its production involves four levels of agency: government, enterprise, community, and individuals. Language data security is an important part of national language security and an indispensable component of the national security system in the new era. Language data security can be classified based on risk level, process, domain, and centrality. Currently, the major problems of language data security include the lack of language data awareness and language data security awareness, overuse or improper use of language data, unclarity of property rights, inattention to the cross-border flow of language data, and inadequate assessment of the security of language data market. In the future, the governance of language data security needs to be enhanced from the perspectives of governance awareness and philosophy, governance status assessment, five major construction sectors, and evaluation feedback.
language data; language security; language governance; language data security; digital age
一、引 言
語(yǔ)言是人類最重要的交際工具和思維工具,是身份的標(biāo)記和文化的圖騰,是重要的信息資源、人力資源、共享資源、知識(shí)資源和文化資源,是一種重要的甚至關(guān)鍵性的資源(李宇明2018;王春輝2021b)。正因如此,語(yǔ)言安全也就成了國(guó)家安全的基本構(gòu)成,成了國(guó)家安全學(xué)的重要組成部分(郭繼榮,楊亮2021;Chen & Breivik 2013)。歷經(jīng)農(nóng)業(yè)社會(huì)、工業(yè)社會(huì)、信息社會(huì)之后,人類正在快步邁入一個(gè)基于數(shù)字經(jīng)濟(jì)的新的社會(huì)形態(tài)——數(shù)字社會(huì)(陳剛,謝佩宏2020)。
在數(shù)字經(jīng)濟(jì)和數(shù)字社會(huì)時(shí)代,數(shù)據(jù)成為基本生產(chǎn)要素,是全球貿(mào)易的中心之一和全球政府與資本追逐的焦點(diǎn),數(shù)據(jù)安全問題已經(jīng)成為關(guān)系個(gè)人、企業(yè)和國(guó)家安全的最緊迫和最基礎(chǔ)的安全問題,加強(qiáng)數(shù)據(jù)安全治理已成為維護(hù)國(guó)家安全和國(guó)家競(jìng)爭(zhēng)力的戰(zhàn)略需要(中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院2019)。2021年3月,世界銀行發(fā)布了《2021年世界發(fā)展報(bào)告:讓數(shù)據(jù)創(chuàng)造更好生活》(世界銀行2021)。報(bào)告力求回答兩個(gè)根本問題:其一,如何通過數(shù)據(jù)來更好地推進(jìn)發(fā)展目標(biāo);其二,需要做出何種數(shù)據(jù)治理安排來支持以安全、道德和可靠的方式生成和使用數(shù)據(jù),同時(shí)讓數(shù)據(jù)公平地造福所有人。
語(yǔ)言數(shù)據(jù)可以被看作領(lǐng)域數(shù)據(jù)的一種類型,語(yǔ)言數(shù)據(jù)安全問題目前還是一片待開拓的研究區(qū)域:以往的語(yǔ)言安全研究并未涉及,以往的數(shù)據(jù)安全分析也并未聚焦。本文的目的即分析語(yǔ)言數(shù)據(jù)安全的內(nèi)涵與類型,揭示目前存在的主要問題,并嘗試性地提出一個(gè)語(yǔ)言數(shù)據(jù)安全治理框架。
二、界定與類型
(一)語(yǔ)言數(shù)據(jù)
1.界定
數(shù)據(jù),是用來記錄客觀事物或事件的符號(hào),具體來說,是對(duì)客觀事物或事件的性質(zhì)、狀態(tài)以及相互關(guān)系等信息進(jìn)行記錄的物理符號(hào)(賽迪智庫(kù)網(wǎng)絡(luò)安全研究所2021:4)。關(guān)于語(yǔ)言數(shù)據(jù)的內(nèi)涵和外延,目前學(xué)界討論還不充分。李宇明(2020a)率先提出了“語(yǔ)言數(shù)據(jù)”這一概念并闡釋了其重要價(jià)值;李宇明(2020b)則進(jìn)一步討論了語(yǔ)言數(shù)據(jù)的四大類內(nèi)容:語(yǔ)言符號(hào)系統(tǒng);語(yǔ)言負(fù)載的信息;由語(yǔ)言延伸的各種符號(hào)與代碼;生活、藝術(shù)與科學(xué)技術(shù)符號(hào)。隨后姜國(guó)權(quán)、李一飛(2021)討論了語(yǔ)言數(shù)據(jù)對(duì)于“一帶一路”建設(shè)的意義。
出于研究操作層面的考慮,李宇明、王春輝(2022)指出,語(yǔ)言數(shù)據(jù)是以語(yǔ)言符號(hào)體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),內(nèi)部可以細(xì)分為5類,即語(yǔ)言學(xué)科數(shù)據(jù)、話語(yǔ)數(shù)據(jù)、語(yǔ)言衍生數(shù)據(jù)、人工語(yǔ)言數(shù)據(jù)和語(yǔ)言代碼數(shù)據(jù)。本文所指語(yǔ)言數(shù)據(jù)主要是針對(duì)語(yǔ)言學(xué)科數(shù)據(jù)和語(yǔ)言衍生數(shù)據(jù)這兩類而言,即語(yǔ)言符號(hào)系統(tǒng)本身的各種數(shù)據(jù)和涉及語(yǔ)言的社會(huì)屬性、生存狀態(tài)、媒介裝備等的相關(guān)數(shù)據(jù)。
語(yǔ)言數(shù)據(jù)屬于行業(yè)數(shù)據(jù)的一種,是數(shù)字經(jīng)濟(jì)的重要構(gòu)成。
2.類型
數(shù)據(jù)分類在收集、處理和應(yīng)用數(shù)據(jù)的過程中非常重要。語(yǔ)言數(shù)據(jù)的分類方式很多,可以根據(jù)不同目的、不同角度等進(jìn)行多視角區(qū)分。語(yǔ)言數(shù)據(jù)工作者往往需要理解和掌握不同的分類方式,以便更好地進(jìn)行組織、管理、分析和應(yīng)用。茲舉以下幾種。
著眼于形式方面,可以分為非數(shù)字化語(yǔ)言數(shù)據(jù)和數(shù)字化語(yǔ)言數(shù)據(jù)。前者比如各類紙版詞典,“語(yǔ)言生活皮書”“中國(guó)語(yǔ)言文化典藏”“中國(guó)瀕危語(yǔ)言志”等叢書,《中國(guó)方志中語(yǔ)言資料集成》(全42冊(cè))、即將出版的《近代漢語(yǔ)方言文獻(xiàn)集成》等資料集成,二語(yǔ)學(xué)習(xí)者的書面語(yǔ)料等;后者比如國(guó)家語(yǔ)委各科研機(jī)構(gòu)的各類數(shù)據(jù)庫(kù)、《中國(guó)語(yǔ)言生活狀況報(bào)告》的“有聲媒體”數(shù)據(jù)、民族語(yǔ)言志網(wǎng)(Ethnologue)、世界語(yǔ)言結(jié)構(gòu)地圖(The World Atlas of Language Structures)、北京大學(xué)綜合型語(yǔ)言知識(shí)庫(kù)、美國(guó)的語(yǔ)言地圖集項(xiàng)目(The Linguistic Atlas Project)等。當(dāng)然,兩種形式的數(shù)據(jù)是可以相互轉(zhuǎn)化的,比如谷歌數(shù)字圖書館工程就是將非數(shù)字化數(shù)據(jù)轉(zhuǎn)換成數(shù)字化數(shù)據(jù),而將紙版方言地圖轉(zhuǎn)換成數(shù)字化存貯的也比比皆是,還有剛剛上線的殷墟甲骨文數(shù)據(jù)庫(kù);此外,數(shù)字時(shí)代所指的“數(shù)據(jù)”,已經(jīng)越來越指向數(shù)字化的數(shù)據(jù)。
著眼于內(nèi)容方面,則可以分為語(yǔ)言結(jié)構(gòu)數(shù)據(jù)、語(yǔ)言功能數(shù)據(jù)、語(yǔ)言社會(huì)數(shù)據(jù)。語(yǔ)言結(jié)構(gòu)數(shù)據(jù)即涵蓋語(yǔ)言系統(tǒng)本身的語(yǔ)音、詞匯、語(yǔ)法、語(yǔ)義等知識(shí)的數(shù)據(jù);語(yǔ)言功能數(shù)據(jù)即語(yǔ)言使用和應(yīng)用范疇的語(yǔ)用、翻譯、政策文本等數(shù)據(jù);語(yǔ)言社會(huì)數(shù)據(jù)即語(yǔ)種能力、語(yǔ)言與社會(huì)變量互動(dòng)的社會(huì)方言、多語(yǔ)社會(huì)、身份認(rèn)同等數(shù)據(jù)。這3類數(shù)據(jù)其實(shí)都可以歸入實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù)這兩大類范疇。
從數(shù)據(jù)主體和來源視角,可以分為:政府/政務(wù)語(yǔ)言數(shù)據(jù),即只有政府部門才有權(quán)采集、擁有、管理和發(fā)布的語(yǔ)言數(shù)據(jù),比如各類政府層面的語(yǔ)言政策、全國(guó)語(yǔ)言普查數(shù)據(jù)等;企業(yè)語(yǔ)言數(shù)據(jù),即市場(chǎng)機(jī)構(gòu)進(jìn)行商業(yè)活動(dòng)或因其他需求所采集、加工、整理和擁有的語(yǔ)言數(shù)據(jù),比如各類翻譯企業(yè)產(chǎn)生的語(yǔ)言數(shù)據(jù);社群語(yǔ)言數(shù)據(jù),即社會(huì)各類團(tuán)體機(jī)構(gòu)因某種需求所采集、加工、整理和擁有的語(yǔ)言數(shù)據(jù),比如語(yǔ)言研究組織的各類語(yǔ)言數(shù)據(jù);個(gè)人語(yǔ)言數(shù)據(jù),即自然人在網(wǎng)絡(luò)上留下的語(yǔ)言數(shù)據(jù),包括靜態(tài)數(shù)據(jù)和行為數(shù)據(jù),比如研究者個(gè)人或研究小組生產(chǎn)的語(yǔ)言數(shù)據(jù)等。
從數(shù)據(jù)加工處理的角度,可以分為原始語(yǔ)言數(shù)據(jù)和衍生語(yǔ)言數(shù)據(jù)。前者指不依賴于其他任何數(shù)據(jù)而產(chǎn)生、沒有做過任何加工的數(shù)據(jù),比如網(wǎng)絡(luò)新興詞匯、各國(guó)人口普查后的第一手語(yǔ)言調(diào)查信息、環(huán)北極8個(gè)國(guó)家的語(yǔ)言和方言調(diào)查數(shù)據(jù)、留學(xué)生的課堂或考試作文、對(duì)一名或一組兒童每天3小時(shí)視頻記錄的材料、在華國(guó)際移民的語(yǔ)種能力和語(yǔ)言學(xué)習(xí)需求數(shù)據(jù)等;后者則是對(duì)原始數(shù)據(jù)進(jìn)行加工處理后產(chǎn)生的系統(tǒng)的、有使用價(jià)值的數(shù)據(jù),比如將網(wǎng)絡(luò)新興詞匯進(jìn)行匯集編校而成的新詞新語(yǔ)詞典、對(duì)實(shí)地調(diào)查資料分析整理而成的語(yǔ)言/方言語(yǔ)音系統(tǒng)、標(biāo)記了語(yǔ)法信息的熟語(yǔ)料庫(kù)、根據(jù)大量原始數(shù)據(jù)而形成的世界語(yǔ)言概況數(shù)據(jù)、對(duì)世界4000多種語(yǔ)言的語(yǔ)法信息進(jìn)行類型學(xué)分析得到的“世界語(yǔ)言結(jié)構(gòu)地圖”等。當(dāng)然,衍生數(shù)據(jù)可以是一次衍生,也可能會(huì)出現(xiàn)二次甚至三次衍生。
此外,還可以從公益性視角分為收益型語(yǔ)言數(shù)據(jù)和公益型語(yǔ)言數(shù)據(jù)。需要指出的是,顯然各個(gè)類型之間是互有交叉或重疊的,只不過是區(qū)分的角度和目的不同而已。
(二)語(yǔ)言數(shù)據(jù)安全
1.界定
“語(yǔ)言數(shù)據(jù)安全”指的是通過采取必要措施,確保語(yǔ)言數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。這一界定至少包含相互關(guān)聯(lián)的兩層含義:語(yǔ)言數(shù)據(jù)自身的安全和由語(yǔ)言數(shù)據(jù)而引發(fā)的其他安全。語(yǔ)言數(shù)據(jù)安全以總體國(guó)家安全觀為背景,是國(guó)家語(yǔ)言安全的重要組成部分,是新時(shí)代國(guó)家安全體系的有機(jī)構(gòu)成。尤其是在人類邁入數(shù)字時(shí)代、數(shù)據(jù)成為基本生產(chǎn)要素的當(dāng)下,對(duì)語(yǔ)言數(shù)據(jù)安全的探索將會(huì)對(duì)整體國(guó)家安全產(chǎn)生重大影響。
當(dāng)代世界有三大構(gòu)成要素:物質(zhì)、能量和信息,也就由此有了物質(zhì)安全、能量安全和信息安全,語(yǔ)言數(shù)據(jù)安全應(yīng)歸入信息安全的范疇。
2.類型
如同前述語(yǔ)言數(shù)據(jù)的分類有不同視角,語(yǔ)言數(shù)據(jù)安全的分類也是如此。舉例如下。
首先,依據(jù)數(shù)據(jù)對(duì)國(guó)家安全、公共利益或者個(gè)人、組織合法權(quán)益的影響和重要程度,可將數(shù)據(jù)分為一般數(shù)據(jù)、重要數(shù)據(jù)、關(guān)鍵數(shù)據(jù)。此3類語(yǔ)言數(shù)據(jù)的風(fēng)險(xiǎn)級(jí)別、商業(yè)價(jià)值、隱私程度等呈現(xiàn)梯級(jí)差異,其安全等級(jí)依次增強(qiáng),開放程度依次降低。當(dāng)然,數(shù)據(jù)本身屬性上的游移也導(dǎo)致數(shù)據(jù)的安全具有相對(duì)性:一方面,在A處是一般等級(jí)的,在B處可能是重要的或關(guān)鍵的;反之亦然。另一方面,正如“馬賽克理論”(mosaic theory)所呈現(xiàn)的,一些碎片化、模糊化的一般數(shù)據(jù)被增量、組合、分析之后,有可能會(huì)轉(zhuǎn)化成危及安全的重要數(shù)據(jù)甚至關(guān)鍵數(shù)據(jù)。
其次,從語(yǔ)言數(shù)據(jù)流程視角來看,語(yǔ)言數(shù)據(jù)安全是語(yǔ)言數(shù)據(jù)全過程的安全,至少包括語(yǔ)言數(shù)據(jù)的收集、存儲(chǔ)、使用、加工、傳輸、提供和公開等環(huán)節(jié)的安全。收集安全主要指語(yǔ)言數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)或打印中由于硬件故障、斷電、死機(jī)、人為的誤操作、程序缺陷、病毒或黑客等造成的數(shù)據(jù)庫(kù)損壞、數(shù)據(jù)丟失或數(shù)據(jù)泄密現(xiàn)象;數(shù)據(jù)采集和錄入的真實(shí)性是數(shù)據(jù)安全的本源和基礎(chǔ),如果數(shù)據(jù)都是假的,則其“安全性”將無從談起。存儲(chǔ)安全是指實(shí)體語(yǔ)言數(shù)據(jù)的保存或者數(shù)據(jù)庫(kù)在系統(tǒng)運(yùn)行之外的可讀性,涉及保護(hù)數(shù)據(jù)存儲(chǔ)設(shè)備、防止其他系統(tǒng)未經(jīng)授權(quán)訪問語(yǔ)言數(shù)據(jù)等方面。使用安全指的是語(yǔ)言數(shù)據(jù)在不同應(yīng)用場(chǎng)景和領(lǐng)域中的安全性,比如跨境語(yǔ)言數(shù)據(jù)。加工安全指的是對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行二次或多次加工過程中的數(shù)據(jù)遺漏或流失,會(huì)對(duì)語(yǔ)言數(shù)據(jù)的精確度和關(guān)聯(lián)性造成影響。傳輸安全即語(yǔ)言數(shù)據(jù)在運(yùn)輸或傳輸過程中涉及的安全問題,包括語(yǔ)言數(shù)據(jù)發(fā)出方和接收方以及傳輸渠道的安全。提供和公開安全是指提供和公開主體行事之后的對(duì)內(nèi)和對(duì)外效應(yīng),主要涉及政府和企事業(yè)單位的重要語(yǔ)言數(shù)據(jù)。
再者,可以依據(jù)語(yǔ)言數(shù)據(jù)出現(xiàn)的領(lǐng)域而將其分為:政治語(yǔ)言數(shù)據(jù)安全,比如對(duì)鑄牢中華民族共同體意義重大的各民族語(yǔ)言和方言的數(shù)據(jù);國(guó)土語(yǔ)言數(shù)據(jù)安全,比如相關(guān)地圖的語(yǔ)言數(shù)據(jù)或邊境線和海島地名的數(shù)據(jù);軍事語(yǔ)言數(shù)據(jù)安全,比如軍隊(duì)和軍人的語(yǔ)言數(shù)據(jù)以及跨境語(yǔ)言的相關(guān)數(shù)據(jù);經(jīng)濟(jì)語(yǔ)言數(shù)據(jù)安全,比如翻譯等語(yǔ)言產(chǎn)業(yè)和語(yǔ)言經(jīng)濟(jì)的發(fā)展數(shù)據(jù);文化語(yǔ)言數(shù)據(jù)安全,比如涉及國(guó)際傳播能力的中華文化核心術(shù)語(yǔ)數(shù)據(jù)或“飯圈文化”等亞文化的語(yǔ)言數(shù)據(jù);社會(huì)語(yǔ)言數(shù)據(jù)安全,比如影響醫(yī)療診斷和治療的語(yǔ)種能力和語(yǔ)言能力數(shù)據(jù)或與刑偵辦案相關(guān)的方言數(shù)據(jù)和語(yǔ)言痕跡;科技語(yǔ)言數(shù)據(jù)安全,比如類人機(jī)器人的語(yǔ)種和語(yǔ)言能力數(shù)據(jù)或情感語(yǔ)言成分的計(jì)算數(shù)據(jù);網(wǎng)絡(luò)語(yǔ)言數(shù)據(jù)安全,比如世界語(yǔ)言的網(wǎng)絡(luò)文本占有率數(shù)據(jù)或中外合作語(yǔ)言課題項(xiàng)目成果的數(shù)字化和共享性方面的安全;資源語(yǔ)言數(shù)據(jù)安全,比如自然資源格局的話語(yǔ)體系建構(gòu)數(shù)據(jù);海外利益語(yǔ)言數(shù)據(jù)安全,比如海外救援人員的語(yǔ)言數(shù)據(jù)或影響中國(guó)國(guó)際話語(yǔ)權(quán)的相關(guān)語(yǔ)言國(guó)際標(biāo)準(zhǔn)的數(shù)據(jù);生物語(yǔ)言數(shù)據(jù)安全,比如各類相關(guān)會(huì)議的多語(yǔ)數(shù)據(jù);太空語(yǔ)言數(shù)據(jù)安全,比如空間站的操作語(yǔ)言數(shù)據(jù);極地語(yǔ)言數(shù)據(jù)安全,比如極地周圍國(guó)家和地區(qū)的語(yǔ)言數(shù)據(jù);深海語(yǔ)言數(shù)據(jù)安全,如相關(guān)海域及島礁的命名數(shù)據(jù);等等。
又如,根據(jù)數(shù)據(jù)安全涉及的主體,可以分為政府的、國(guó)際組織的、信息技術(shù)企業(yè)的、技術(shù)社群的、民間機(jī)構(gòu)和公民個(gè)人的等。個(gè)人語(yǔ)言數(shù)據(jù),包括用于語(yǔ)言研究或其他目的的各類數(shù)據(jù)庫(kù)、網(wǎng)上語(yǔ)言痕跡。當(dāng)然,語(yǔ)言數(shù)據(jù)安全在不同類型中效果的側(cè)重點(diǎn)會(huì)不同:對(duì)于個(gè)人語(yǔ)言數(shù)據(jù),可能影響主要在研究效果,個(gè)別情況會(huì)涉及個(gè)人安全,比如犯罪嫌疑人的語(yǔ)言刻畫、語(yǔ)言數(shù)據(jù)遺產(chǎn)(伊萊恩·卡斯凱特2020)等;對(duì)于企業(yè)語(yǔ)言數(shù)據(jù),主要在利潤(rùn)方面;對(duì)于國(guó)家語(yǔ)言數(shù)據(jù),則往往是跟安全方面相關(guān)。
此外,《數(shù)據(jù)安全法》還提出了“國(guó)家核心數(shù)據(jù)”的概念。與此對(duì)應(yīng),可以考慮設(shè)立國(guó)家語(yǔ)言核心數(shù)據(jù),即關(guān)系國(guó)家安全、國(guó)民經(jīng)濟(jì)命脈、重要民生、重大公共利益等的語(yǔ)言數(shù)據(jù);此范疇之外的,可稱為“非國(guó)家語(yǔ)言核心數(shù)據(jù)”。
語(yǔ)言數(shù)據(jù)安全的類型還有一些其他區(qū)分維度。比如由優(yōu)勢(shì)語(yǔ)種的物理空間或虛擬空間霸權(quán)給人類語(yǔ)言數(shù)據(jù)帶來的安全威脅(王春輝2016;王春輝,高莉2009)。使用某種語(yǔ)言的人口是某種語(yǔ)言數(shù)據(jù)量的決定性因素,物理空間的語(yǔ)言數(shù)據(jù)也存在瀕?,F(xiàn)象,一旦一種語(yǔ)言沒有了說話人或者能夠理解它的人,這種語(yǔ)言的安全就基本歸于零了;虛擬空間雖然不存在數(shù)據(jù)消失,但是有的語(yǔ)言在虛擬空間幾乎沒有數(shù)據(jù)或數(shù)據(jù)很少,這些語(yǔ)言的安全狀態(tài)也可以基本歸于零。因此,現(xiàn)實(shí)和虛擬空間語(yǔ)言數(shù)據(jù)的比例,也是一個(gè)重大語(yǔ)言安全問題,英語(yǔ)的全球蔓延給很多語(yǔ)言帶來了生存危機(jī)。再比如語(yǔ)言識(shí)別數(shù)據(jù),美國(guó)國(guó)際語(yǔ)言暑期學(xué)院(SIL International)基于溝通度和認(rèn)知度等標(biāo)準(zhǔn)所整理的《世界的語(yǔ)言》認(rèn)為中國(guó)境內(nèi)的語(yǔ)言超過300種,而《中國(guó)的語(yǔ)言》《大辭海》等文獻(xiàn)依據(jù)民族學(xué)和歷史語(yǔ)言學(xué)標(biāo)準(zhǔn)確認(rèn)的數(shù)量則為130種左右(孫宏開,黃行2018)。這不僅僅是數(shù)值上的差異,而且是涉及民族識(shí)別、語(yǔ)言認(rèn)同、文化認(rèn)同、國(guó)家認(rèn)同等重要甚至關(guān)鍵的國(guó)家安全議題。還有語(yǔ)言研究數(shù)據(jù)的安全,比如語(yǔ)言類數(shù)據(jù)庫(kù)、語(yǔ)言研究文獻(xiàn)數(shù)據(jù)庫(kù)。目前中國(guó)就缺少PubMed免費(fèi)論文引文數(shù)據(jù)庫(kù)平臺(tái)。此外,還可以分為傳統(tǒng)型語(yǔ)言數(shù)據(jù)安全和非傳統(tǒng)型語(yǔ)言數(shù)據(jù)安全,語(yǔ)言數(shù)據(jù)本身安全和語(yǔ)言數(shù)據(jù)引發(fā)的其他安全等類型。
三、語(yǔ)言數(shù)據(jù)安全的主要問題
語(yǔ)言數(shù)據(jù)古已有之,但是生產(chǎn)要素和安全視角的認(rèn)知和研究則是新興事物。因其新,所以就存在一些已經(jīng)顯現(xiàn)或?qū)⒁@現(xiàn)的問題。
(一)語(yǔ)言數(shù)據(jù)意識(shí)和語(yǔ)言數(shù)據(jù)安全意識(shí)不足
中國(guó)社會(huì)一直以來存在的一個(gè)“基礎(chǔ)性的問題是全社會(huì)缺乏語(yǔ)言意識(shí),甚至是起碼的語(yǔ)言意識(shí)”(李宇明2014)。近些年在國(guó)家語(yǔ)委等相關(guān)部門、學(xué)界專家、社會(huì)現(xiàn)實(shí)等多重因素的合力之下,政府和社會(huì)的語(yǔ)言意識(shí)有所提升,但是在突發(fā)事件和前沿領(lǐng)域的語(yǔ)言意識(shí)仍然缺乏。前者比如“在應(yīng)急語(yǔ)言服務(wù)領(lǐng)域,還缺乏語(yǔ)言意識(shí),缺乏語(yǔ)言覺悟”(李宇明2021b),后者比如語(yǔ)言數(shù)據(jù)意識(shí)和語(yǔ)言數(shù)據(jù)安全意識(shí)。
語(yǔ)言數(shù)據(jù)意識(shí),就是意識(shí)到語(yǔ)言數(shù)據(jù)之于人生、之于單位、之于社會(huì)、之于國(guó)家的意義。首先,要從以往的語(yǔ)料庫(kù)、數(shù)據(jù)庫(kù)等傳統(tǒng)觀念中跳出來,從數(shù)據(jù)成為人類生產(chǎn)要素的高度來審視語(yǔ)言數(shù)據(jù)。其次,要在以往的語(yǔ)言問題觀、權(quán)力觀、資源觀(Ruiz 1984)之外,添加上語(yǔ)言資產(chǎn)觀和語(yǔ)言資本觀。語(yǔ)言資產(chǎn)觀即語(yǔ)言數(shù)據(jù)是一種資產(chǎn),是國(guó)家、企業(yè)或個(gè)人資產(chǎn)的重要組成部分,是基本生產(chǎn)要素和創(chuàng)造財(cái)富的基礎(chǔ)。語(yǔ)言資本觀即語(yǔ)言數(shù)據(jù)的資源和資產(chǎn)特性得到進(jìn)一步發(fā)揮,與價(jià)值進(jìn)行結(jié)合,通過交易等各種流動(dòng)方式,可以最終變?yōu)橘Y本。語(yǔ)言數(shù)據(jù)資產(chǎn)是指經(jīng)濟(jì)活動(dòng)主體在生產(chǎn)經(jīng)營(yíng)管理活動(dòng)中形成的,可擁有或可控制其產(chǎn)生及應(yīng)用全過程的、可量化的、預(yù)期能給相關(guān)利益方帶來經(jīng)濟(jì)效益的語(yǔ)言數(shù)據(jù)。實(shí)現(xiàn)語(yǔ)言數(shù)據(jù)可控制、可量化與可變現(xiàn)屬性,體現(xiàn)數(shù)據(jù)價(jià)值的過程,就是語(yǔ)言數(shù)據(jù)資產(chǎn)化過程。 2016年3月,《麻省理工科技評(píng)論》與甲骨文公司聯(lián)合發(fā)布了名為《數(shù)據(jù)資本的興起》的研究報(bào)告。報(bào)告指出,數(shù)據(jù)已經(jīng)成為一種資本,和金融資本一樣,能夠產(chǎn)生新的產(chǎn)品和服務(wù)。語(yǔ)言數(shù)據(jù)資本化的過程,就是將語(yǔ)言數(shù)據(jù)資產(chǎn)的價(jià)值和使用價(jià)值折算成股份或出資比例,通過數(shù)據(jù)交易和數(shù)據(jù)流動(dòng)變?yōu)橘Y本的過程(中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院2019:6~8)。
新世紀(jì)以來尤其是近十年來,語(yǔ)言安全成為學(xué)界研究的熱點(diǎn)話題。2014年總體國(guó)家安全觀的提出更是將國(guó)家安全和語(yǔ)言安全研究推向了一個(gè)新高度。檢索已有的語(yǔ)言安全的文獻(xiàn)可以發(fā)現(xiàn),當(dāng)前的語(yǔ)言安全研究主要集中在語(yǔ)言安全的界定和類型、國(guó)外特別是美國(guó)語(yǔ)言安全戰(zhàn)略的啟示、語(yǔ)言暴力、邊疆地區(qū)及跨境語(yǔ)言安全、“一帶一路”相關(guān)語(yǔ)言安全、作為文化安全次類的語(yǔ)言安全、翻譯安全等方面。但是對(duì)于語(yǔ)言數(shù)據(jù)安全問題,政府、學(xué)界和社會(huì)等都還處于模糊狀態(tài),意識(shí)還未跟上。而事實(shí)正如本文所述,語(yǔ)言數(shù)據(jù)安全對(duì)個(gè)人、機(jī)構(gòu)、國(guó)家已經(jīng)在一定程度上形成了威脅,或者可能會(huì)構(gòu)成潛在重大危險(xiǎn)。
(二)語(yǔ)言數(shù)據(jù)的泛用與確權(quán)不明
數(shù)據(jù)確權(quán)是數(shù)據(jù)要素化和數(shù)據(jù)產(chǎn)權(quán)交易的前提條件。一旦數(shù)據(jù)確權(quán),意味著它將有數(shù)據(jù)主體、報(bào)酬定價(jià)和流轉(zhuǎn)配置(陳肇新2021)。目前,各國(guó)法律似乎還沒有準(zhǔn)確界定數(shù)據(jù)權(quán)益的歸屬問題。語(yǔ)言數(shù)據(jù)的產(chǎn)權(quán)可以分解為所有權(quán)、使用權(quán)和收益權(quán)。現(xiàn)在看來,所有權(quán)較為明確,使用權(quán)較為寬泛,而收益權(quán)則似乎異常模糊。從所有權(quán)角度看,基本上是“誰(shuí)創(chuàng)造,誰(shuí)擁有”,比如各類參考語(yǔ)法或語(yǔ)言研究數(shù)據(jù)、二語(yǔ)學(xué)習(xí)者作文語(yǔ)料、WALS數(shù)據(jù)庫(kù)、美國(guó)中央情報(bào)局的世界語(yǔ)言概況數(shù)據(jù)庫(kù),其所有權(quán)分別歸屬于研究者個(gè)人、學(xué)習(xí)者個(gè)人、馬克斯·普朗克進(jìn)化人類學(xué)研究所、美國(guó)中情局等。從使用權(quán)角度看,理應(yīng)是“誰(shuí)擁有,誰(shuí)使用”,但是現(xiàn)實(shí)生活中的使用權(quán)卻并不是那么清晰,比如二語(yǔ)學(xué)習(xí)者學(xué)習(xí)過程中產(chǎn)生的數(shù)據(jù)也往往被搜集用于科學(xué)研究或智能產(chǎn)品研發(fā),美國(guó)中情局的世界語(yǔ)言概況數(shù)據(jù)庫(kù)也使用了民族語(yǔ)言志網(wǎng)和大量學(xué)者的研究成果,更不用說大量的個(gè)人或機(jī)構(gòu)的各種類型的免費(fèi)語(yǔ)料庫(kù)的語(yǔ)言數(shù)據(jù)。從收益權(quán)角度看,情況更是混亂,比如喬全生(待刊)在分析漢語(yǔ)方言歷史文獻(xiàn)長(zhǎng)期得不到及時(shí)全面的整理和出版的原因時(shí)就提到,全國(guó)5000多個(gè)公共和高校圖書館中,藏有古文獻(xiàn)者大多以保護(hù)文獻(xiàn)為由,拒絕復(fù)制或限量復(fù)制;有的圖書館復(fù)印索價(jià)甚高。這大大限制了文獻(xiàn)的集成共享。有些個(gè)人私藏抄本文獻(xiàn),對(duì)外復(fù)制更是漫天要價(jià),條件苛刻。3個(gè)角度權(quán)益的錯(cuò)綜復(fù)雜,就使得語(yǔ)言數(shù)據(jù)的確權(quán)存在許多真空地帶。尤為重要的是,語(yǔ)言數(shù)據(jù)意識(shí)的缺乏,使得語(yǔ)言數(shù)據(jù)向少數(shù)機(jī)構(gòu)或公司聚攏,可能會(huì)給數(shù)據(jù)確權(quán)和數(shù)據(jù)安全帶來深層隱患。
(三)對(duì)語(yǔ)言數(shù)據(jù)跨境流動(dòng)關(guān)注闕如
可流動(dòng),是數(shù)據(jù)成為生產(chǎn)要素的前提之一。數(shù)字經(jīng)濟(jì)的提升加速了數(shù)據(jù)在全球范圍的流通,跨境數(shù)據(jù)流動(dòng)治理對(duì)發(fā)展數(shù)字經(jīng)濟(jì)、維護(hù)國(guó)家安全、構(gòu)建數(shù)字紅利收入分配體系至關(guān)重要,但是硬件技術(shù)的突破和新冠肺炎疫情的影響使全球數(shù)據(jù)流量和跨境數(shù)據(jù)流量的測(cè)量難上加難(聯(lián)合國(guó)2021;孫方江2021)。因此對(duì)于語(yǔ)言數(shù)據(jù)的國(guó)際跨境流動(dòng)需要格外注意。正如馬其家、李曉楠(2021)所指出的:“通過自由的數(shù)據(jù)跨境流動(dòng),利用大數(shù)據(jù)分析,一國(guó)可能對(duì)他國(guó)的社會(huì)狀況進(jìn)行精準(zhǔn)畫像,并有針對(duì)性地開展情報(bào)收集和研判等工作,威脅他國(guó)國(guó)家安全?!闭Z(yǔ)言數(shù)據(jù)的跨境流動(dòng),也同樣可能被用于精準(zhǔn)畫像,并有針對(duì)性得開展語(yǔ)言相關(guān)的情報(bào)收集和研判,從而威脅國(guó)家語(yǔ)言安全。尤其是一些涉及國(guó)際合作的科研項(xiàng)目,其中的語(yǔ)言數(shù)據(jù)應(yīng)該進(jìn)行安全評(píng)估。比如20世紀(jì)90年代復(fù)旦大學(xué)和日本京都外國(guó)語(yǔ)大學(xué)的合作項(xiàng)目《漢語(yǔ)方言大詞典》,收錄古今南北漢語(yǔ)方言詞20萬余條,字?jǐn)?shù)1500余萬。以往對(duì)于此類合作和數(shù)據(jù)的分享缺乏深入的研判和分析,未來應(yīng)該引起足夠重視。2021年10月29日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)出境安全評(píng)估辦法(征求意見稿)》,并公開征求意見,可作為參考。中國(guó)須提升對(duì)敏感語(yǔ)言數(shù)據(jù)泄露、違法跨境語(yǔ)言數(shù)據(jù)流動(dòng)等安全隱患的監(jiān)測(cè)、分析與處置能力。
與此相關(guān)的一個(gè)重要方面是語(yǔ)言數(shù)據(jù)跨境流動(dòng)的標(biāo)準(zhǔn)化建設(shè)。2021年6月4日,歐盟委員會(huì)發(fā)布了關(guān)于個(gè)人數(shù)據(jù)跨境傳輸?shù)男掳鏄?biāo)準(zhǔn)合同條款的最終版本。中國(guó)須提升相關(guān)國(guó)際標(biāo)準(zhǔn)的制定權(quán)和話語(yǔ)權(quán)。
(四)語(yǔ)言數(shù)據(jù)安全市場(chǎng)缺乏評(píng)估
隨著全球數(shù)據(jù)體量呈現(xiàn)指數(shù)型增長(zhǎng)態(tài)勢(shì),資本市場(chǎng)對(duì)數(shù)據(jù)安全企業(yè)的關(guān)注度大幅提升。目前國(guó)外有近400家企業(yè)提供了數(shù)據(jù)安全和隱私保護(hù)相關(guān)產(chǎn)品及服務(wù)(中國(guó)信息通信研究院安全研究所2021)。賽迪咨詢數(shù)據(jù)顯示,2019年中國(guó)數(shù)據(jù)安全市場(chǎng)規(guī)模為38.1億元,年均增長(zhǎng)率超過35%,且增速還在持續(xù)加快,預(yù)計(jì)2021年接近70億元(吳俊宇2021)。跟語(yǔ)言數(shù)據(jù)安全相關(guān)的市場(chǎng)應(yīng)包括在其中。
語(yǔ)言數(shù)據(jù)安全的各個(gè)方面只要涉及經(jīng)濟(jì)交換,就產(chǎn)生了數(shù)據(jù)安全的市場(chǎng)。它應(yīng)該是語(yǔ)言數(shù)據(jù)產(chǎn)業(yè)(李宇明2020b)的組成部分。目前由于語(yǔ)言數(shù)據(jù)安全尚未從整體數(shù)據(jù)安全中離析出來,所以語(yǔ)言數(shù)據(jù)安全的市場(chǎng)規(guī)模和相關(guān)問題,仍有待更專業(yè)和精準(zhǔn)的評(píng)估。
四、語(yǔ)言數(shù)據(jù)安全治理
“數(shù)據(jù)安全治理”是一個(gè)新興話題,目前大量研究還處于初期的探索階段(可參看:邵晶晶,韓曉峰2021;劉邦凡,臧梓健2021)。
跟其他領(lǐng)域的數(shù)據(jù)安全治理一樣,語(yǔ)言數(shù)據(jù)安全治理既有一般數(shù)據(jù)安全治理的通性,也有自身領(lǐng)域的一些特性。比如《中華人民共和國(guó)個(gè)人信息保護(hù)法》(以下簡(jiǎn)稱《個(gè)人信息保護(hù)法》)對(duì)于個(gè)人語(yǔ)言數(shù)據(jù)安全有保護(hù)作用,但此法是一般法,應(yīng)用于具體領(lǐng)域場(chǎng)景時(shí)還是過于粗疏或者缺漏;再如《數(shù)據(jù)安全法》并未對(duì)“數(shù)據(jù)自由跨境流動(dòng)”和“數(shù)據(jù)安全跨境流動(dòng)”之間的平衡做出充分闡釋。作為領(lǐng)域語(yǔ)言治理的一個(gè)方面(王春輝2021a),提升語(yǔ)言數(shù)據(jù)安全的治理體系和治理能力勢(shì)在必行。
語(yǔ)言數(shù)據(jù)安全的治理不應(yīng)局限于常規(guī)的技術(shù)加管理的二元治理體系,而是需要圍繞語(yǔ)言數(shù)據(jù)全生命周期安全,堅(jiān)持總體國(guó)家安全觀,建立健全語(yǔ)言數(shù)據(jù)安全治理體系,提高語(yǔ)言數(shù)據(jù)安全保障能力。李躍忠(2021)、白利芳等(2021)、李曉偉等(2021)、胡國(guó)華(2021)、賽迪智庫(kù)網(wǎng)絡(luò)安全研究所(2021)、數(shù)據(jù)安全治理專業(yè)委員會(huì)(2021)等學(xué)者或機(jī)構(gòu)都推出了各自的數(shù)據(jù)安全治理體系框架。借鑒這些研究成果,筆者嘗試建構(gòu)起語(yǔ)言數(shù)據(jù)安全的治理體系,以期為上文列述的語(yǔ)言數(shù)據(jù)安全問題以及其他相關(guān)研究和實(shí)踐提供一個(gè)可能的系統(tǒng)解決方案。
語(yǔ)言數(shù)據(jù)安全治理體系包括治理意識(shí)和理念、治理狀態(tài)評(píng)估、建設(shè)板塊、評(píng)價(jià)反饋等4個(gè)次級(jí)體系,如圖1所示。
(一)治理意識(shí)和理念
意識(shí)和理念是行動(dòng)和實(shí)踐的前提,一方面須提升政府、學(xué)界和社會(huì)大眾對(duì)語(yǔ)言數(shù)據(jù)和語(yǔ)言數(shù)據(jù)安全的了解和認(rèn)知,使之認(rèn)識(shí)到語(yǔ)言數(shù)據(jù)安全的存在及其可能帶來的嚴(yán)重后果;另一方面須建構(gòu)語(yǔ)言數(shù)據(jù)安全治理理念/價(jià)值體系,即總體國(guó)家安全觀、復(fù)雜系統(tǒng)、動(dòng)態(tài)防護(hù)、精準(zhǔn)管控、漸次提升等。邸子桓、呂明臣(2021)分析了語(yǔ)言類科研人員數(shù)據(jù)素養(yǎng)培育問題,但相關(guān)研究還基本處于起始階段。
(二)治理狀態(tài)評(píng)估
即對(duì)當(dāng)下語(yǔ)言數(shù)據(jù)治理的目標(biāo)、技術(shù)、組織、措施、風(fēng)險(xiǎn)、服務(wù)、法律法規(guī)、體制機(jī)制、國(guó)際合作、人才培養(yǎng)等進(jìn)行立體評(píng)估,建構(gòu)語(yǔ)言數(shù)據(jù)安全治理狀態(tài)評(píng)估清單,為后續(xù)工作提供可靠參考。全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)于2020年3月推出了《信息安全技術(shù) 數(shù)據(jù)安全能力成熟度模型》,給出了組織數(shù)據(jù)安全能力的成熟度模型架構(gòu),規(guī)定了數(shù)據(jù)采集安全、數(shù)據(jù)傳輸安全、數(shù)據(jù)存儲(chǔ)安全、數(shù)據(jù)處理安全、數(shù)據(jù)交換安全、數(shù)據(jù)銷毀安全、通用安全的成熟度等級(jí)要求,可以作為參考。
(三)“五位一體”建設(shè)板塊
五大建設(shè)板塊是整個(gè)治理體系的核心部分。
技術(shù)支撐涉及語(yǔ)言數(shù)據(jù)的分級(jí)分類、安全標(biāo)記、全生命周期安全技術(shù)體系、流向追蹤、安全服務(wù)技術(shù)等。可以利用最新技術(shù)“以網(wǎng)治網(wǎng)”,比如區(qū)塊鏈技術(shù)目前已經(jīng)在數(shù)據(jù)存儲(chǔ)安全、隱私安全、數(shù)據(jù)訪問安全和數(shù)據(jù)共享安全等多個(gè)方面有了較穩(wěn)定的應(yīng)用(梁秀波,等2022),對(duì)于語(yǔ)言數(shù)據(jù)安全治理來說,可資借鑒。應(yīng)加強(qiáng)語(yǔ)言數(shù)據(jù)安全技術(shù)及產(chǎn)品研發(fā)應(yīng)用,提升語(yǔ)言數(shù)據(jù)安全產(chǎn)品供給能力,推動(dòng)語(yǔ)言數(shù)據(jù)安全產(chǎn)業(yè)發(fā)展。還可以基于大數(shù)據(jù)平臺(tái)、互聯(lián)網(wǎng)數(shù)據(jù)中心等重要網(wǎng)絡(luò)節(jié)點(diǎn),建設(shè)涵蓋行業(yè)、地方、企業(yè)的全國(guó)性語(yǔ)言數(shù)據(jù)安全監(jiān)測(cè)平臺(tái),形成敏感語(yǔ)言數(shù)據(jù)監(jiān)測(cè)發(fā)現(xiàn)、語(yǔ)言數(shù)據(jù)異常流動(dòng)分析、語(yǔ)言數(shù)據(jù)安全事件追蹤溯源等能力,建設(shè)數(shù)據(jù)安全監(jiān)測(cè)系統(tǒng)。
管理建設(shè)涵蓋語(yǔ)言數(shù)據(jù)安全頂層設(shè)計(jì)、法律法規(guī)體系建設(shè)、政策體系建設(shè)、國(guó)際國(guó)內(nèi)標(biāo)準(zhǔn)體系建設(shè)、流程指南、操作規(guī)程、應(yīng)急處置等方面,也包括開展數(shù)據(jù)安全能力成熟度評(píng)估、數(shù)據(jù)安全管理認(rèn)證等。語(yǔ)言數(shù)據(jù)技術(shù)和語(yǔ)言數(shù)據(jù)管理,二者不能偏廢,正所謂“三分技術(shù),七分管理”。近幾年,關(guān)于數(shù)據(jù)和信息安全的相關(guān)法律法規(guī)密集出臺(tái),比如《數(shù)據(jù)安全法》與《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》2021年9月1日施行;《個(gè)人信息保護(hù)法》2021年11月1日正式實(shí)施;國(guó)家互聯(lián)網(wǎng)信息辦公室2021年10月29日發(fā)布《數(shù)據(jù)出境安全評(píng)估辦法(征求意見稿)》,11月14日又發(fā)布《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》。未來須構(gòu)建起語(yǔ)言數(shù)據(jù)安全技術(shù)體系和標(biāo)準(zhǔn)體系,以及法律法規(guī)體系。在制定或修訂涉及語(yǔ)言文字的法律法規(guī)時(shí),則應(yīng)提升語(yǔ)言數(shù)據(jù)意識(shí),加入語(yǔ)言數(shù)據(jù)安全治理的相關(guān)內(nèi)容。此外,數(shù)據(jù)安全保障體系的規(guī)范一般須從業(yè)務(wù)數(shù)據(jù)安全需求、數(shù)據(jù)安全風(fēng)險(xiǎn)控制需要及法律法規(guī)合規(guī)性要求等幾個(gè)方面進(jìn)行梳理,最終確定數(shù)據(jù)安全防護(hù)的目標(biāo)、管理策略及具體的標(biāo)準(zhǔn)、規(guī)范、程序等。Rock(2001)、Isard(2020)等對(duì)用于研究的語(yǔ)言數(shù)據(jù)的匿名規(guī)范進(jìn)行了較為詳細(xì)的分析。最后,須建構(gòu)平時(shí)治理和應(yīng)急治理相融合的語(yǔ)言數(shù)據(jù)安全治理體系。
組織建設(shè)包括“決策層-管理層-執(zhí)行層-參與層-監(jiān)督層”的5層架構(gòu)體系,以及與此相配套的職能部門與角色、業(yè)務(wù)與權(quán)責(zé)、人員構(gòu)成與能力要求、協(xié)作與監(jiān)督等。需要考慮組織層面實(shí)體的管理團(tuán)隊(duì)及執(zhí)行團(tuán)隊(duì),根據(jù)部門職責(zé)建立不同的語(yǔ)言數(shù)據(jù)安全角色,以滿足數(shù)據(jù)安全建設(shè)的需求。比如語(yǔ)言主管部門承擔(dān)本行業(yè)、本領(lǐng)域數(shù)據(jù)安全監(jiān)管職責(zé);國(guó)家安全機(jī)關(guān)、公安機(jī)關(guān)等依照《數(shù)據(jù)安全法》和有關(guān)法律、行政法規(guī)的規(guī)定,在各自職責(zé)范圍內(nèi)承擔(dān)語(yǔ)言數(shù)據(jù)安全監(jiān)管職責(zé)。語(yǔ)言數(shù)據(jù)安全運(yùn)營(yíng)管控執(zhí)行建設(shè)方面,需要重點(diǎn)關(guān)注數(shù)據(jù)安全運(yùn)維、應(yīng)急預(yù)案與演練、監(jiān)測(cè)預(yù)警、應(yīng)急處置、災(zāi)后恢復(fù)等方面。
人才培養(yǎng)涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、社會(huì)學(xué)、哲學(xué)等相關(guān)學(xué)科的交叉融合,須在課程體系、學(xué)科建設(shè)等方面未雨綢繆。比如在語(yǔ)言學(xué)及相關(guān)專業(yè)的課程體系中加入語(yǔ)言安全的內(nèi)容,在培養(yǎng)交叉型語(yǔ)言安全人才上下功夫。由工業(yè)和信息化部人才交流中心等單位聯(lián)合發(fā)布的《2021網(wǎng)絡(luò)安全產(chǎn)業(yè)人才發(fā)展報(bào)告》顯示,今年以來相關(guān)專業(yè)人才需求呈現(xiàn)高速增加趨勢(shì),需求總量較去年增長(zhǎng)39.87%,網(wǎng)絡(luò)安全在各行業(yè)的滲透率全面提高,在人才需求結(jié)構(gòu)中的重要性顯著上升。2022年1月12日,由工業(yè)和信息化部網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展中心(工業(yè)和信息化部信息中心)與部人才交流中心聯(lián)合牽頭組織編制的《網(wǎng)絡(luò)安全產(chǎn)業(yè)人才崗位能力要求》標(biāo)準(zhǔn)正式發(fā)布,可以作為語(yǔ)言數(shù)據(jù)安全人才崗位能力的參考。
國(guó)際合作包括積極參與甚至引領(lǐng)(語(yǔ)言)數(shù)據(jù)安全國(guó)際規(guī)則的商討和制定,提升跨境語(yǔ)言數(shù)據(jù)合作治理,積極參與全球語(yǔ)言安全治理,增強(qiáng)(語(yǔ)言)數(shù)據(jù)安全規(guī)則創(chuàng)制和話語(yǔ)權(quán)博弈的競(jìng)爭(zhēng)力。由于中國(guó)在數(shù)據(jù)治理領(lǐng)域起步較晚,目前仍存在立法不完善、技術(shù)創(chuàng)新能力薄弱、國(guó)際合作不足、治理乏力等問題。中國(guó)需要全面、系統(tǒng)地分析影響數(shù)據(jù)安全的各種重大風(fēng)險(xiǎn)因素,準(zhǔn)確把握全球數(shù)據(jù)安全趨勢(shì),進(jìn)一步優(yōu)化中國(guó)在全球數(shù)據(jù)安全治理中的策略選擇(闕天舒,王子玥2022)??缇痴Z(yǔ)言數(shù)據(jù)安全的治理,需要在語(yǔ)言數(shù)據(jù)出境的監(jiān)管、個(gè)人或商業(yè)語(yǔ)言數(shù)據(jù)的保護(hù)、法律的健全等方面用力。
(四)評(píng)價(jià)反饋
設(shè)立動(dòng)態(tài)多層評(píng)價(jià)體系,對(duì)上述五大建設(shè)板塊進(jìn)行定期評(píng)價(jià),確定建設(shè)效果和效能,予以反饋,并進(jìn)行相應(yīng)的提升和完善。在國(guó)家和社會(huì)治理體系的各個(gè)步驟中,評(píng)價(jià)反饋往往是容易被忽視的一個(gè)角落,但是事實(shí)上卻又是治理環(huán)節(jié)上重要甚至關(guān)鍵的一環(huán)。
五、余 論
數(shù)據(jù)即權(quán)力。與全球經(jīng)濟(jì)的其他要素相比,數(shù)據(jù)與權(quán)力的關(guān)系更加緊密。數(shù)據(jù)為所有掌握數(shù)據(jù)的人提供了難以置信的優(yōu)勢(shì),數(shù)據(jù)本身已成為重要的權(quán)力來源(Slaughter & McCormick 2021)。2019年6月,美國(guó)科爾尼全球商業(yè)政策委員會(huì)(GBPC)發(fā)布報(bào)告《數(shù)字秩序失衡時(shí)代下的競(jìng)爭(zhēng)》,從全球視角和歷史維度關(guān)注數(shù)字秩序的演變歷程及其未來可能性;2022年1/2月的美國(guó)《外交事務(wù)》雜志也專題聚焦“數(shù)字失序”問題,指出政府、企業(yè)和公民現(xiàn)在都面臨無孔不入的數(shù)字威脅。數(shù)字帝國(guó)主義已然成形,它憑借對(duì)數(shù)據(jù)的壟斷,通過創(chuàng)新霸權(quán)、平臺(tái)壟斷、制造需求等方式在多個(gè)領(lǐng)域施行了新型的對(duì)外經(jīng)濟(jì)掠奪方式(劉皓琰2021)。
數(shù)據(jù)是新時(shí)代重要的生產(chǎn)要素,是國(guó)家的基礎(chǔ)性戰(zhàn)略資源。數(shù)據(jù)安全已成為數(shù)字經(jīng)濟(jì)時(shí)代最緊迫和最基礎(chǔ)的安全問題,加強(qiáng)數(shù)據(jù)安全治理已成為維護(hù)國(guó)家安全和國(guó)家競(jìng)爭(zhēng)力的戰(zhàn)略需要。在數(shù)字時(shí)代,數(shù)據(jù)的重要性無須贅述。隨著技術(shù)發(fā)展與數(shù)據(jù)量的爆發(fā)式增長(zhǎng),傳統(tǒng)數(shù)據(jù)管理模式和安全技術(shù)對(duì)大數(shù)據(jù)背景下層出不窮的數(shù)據(jù)安全問題的應(yīng)對(duì)效力明顯不足。以數(shù)據(jù)為目標(biāo)的網(wǎng)絡(luò)攻擊與犯罪不斷增長(zhǎng),個(gè)人隱私泄露、侵犯商業(yè)機(jī)密、威脅國(guó)家安全等數(shù)據(jù)安全風(fēng)險(xiǎn)貫穿數(shù)據(jù)生產(chǎn)、存儲(chǔ)、流動(dòng)等各個(gè)環(huán)節(jié)。同時(shí),數(shù)據(jù)的融合開放也使數(shù)據(jù)權(quán)屬關(guān)系復(fù)雜化,帶來數(shù)據(jù)濫用等系列法律風(fēng)險(xiǎn)與社會(huì)治理難題。
2021年,《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》相繼頒布實(shí)施,配套的行政法規(guī)、部門規(guī)章和地方條例也在陸續(xù)制定,這表明數(shù)據(jù)安全進(jìn)入了強(qiáng)監(jiān)管時(shí)代。但是目前來看,社會(huì)各界對(duì)于語(yǔ)言數(shù)據(jù)安全問題的認(rèn)知亟待提升,對(duì)于語(yǔ)言數(shù)據(jù)安全的治理亟待加強(qiáng)。語(yǔ)言數(shù)據(jù)安全治理的總目標(biāo)即推進(jìn)語(yǔ)言數(shù)據(jù)安全治理體系和治理能力的現(xiàn)代化。語(yǔ)言數(shù)據(jù)安全治理體系建設(shè),須在語(yǔ)言數(shù)據(jù)安全的價(jià)值、結(jié)構(gòu)、功能、評(píng)估等幾個(gè)子體系上多做文章。在觀念上提升語(yǔ)言數(shù)據(jù)安全意識(shí),樹立私利與公益相平衡的語(yǔ)言數(shù)據(jù)安全觀;在技術(shù)層面建構(gòu)安全、可靠的語(yǔ)言數(shù)據(jù)環(huán)境;在方式上倡導(dǎo)法治、德治、自治、數(shù)治和智治的“五位一體”治理,明晰數(shù)智化治理的核心是規(guī)范數(shù)據(jù)權(quán)力和保障數(shù)據(jù)權(quán)利,提倡多元參與的協(xié)同化治理、大數(shù)據(jù)治理、動(dòng)態(tài)化治理和平臺(tái)化治理;在體制機(jī)制上,重視數(shù)字政府的頂層設(shè)計(jì),構(gòu)建高層次跨領(lǐng)域跨部門的統(tǒng)籌協(xié)調(diào)機(jī)制,加強(qiáng)相關(guān)部門的數(shù)字化轉(zhuǎn)型,完善治理機(jī)制;在制度層面,應(yīng)將語(yǔ)言數(shù)據(jù)主體,語(yǔ)言數(shù)據(jù)使用者的權(quán)利、義務(wù)、責(zé)任等明確界定,制定國(guó)家語(yǔ)言數(shù)據(jù)安全戰(zhàn)略、明確國(guó)家語(yǔ)言數(shù)據(jù)安全發(fā)展綱要,加快語(yǔ)言數(shù)據(jù)的確權(quán)定價(jià)、加強(qiáng)安全隱私的保護(hù),加大語(yǔ)言數(shù)據(jù)開放共享、規(guī)范語(yǔ)言數(shù)據(jù)的收集使用,加快推進(jìn)語(yǔ)言數(shù)據(jù)安全新基建、更好地釋放語(yǔ)言數(shù)據(jù)生產(chǎn)力。
在數(shù)據(jù)成為社會(huì)經(jīng)濟(jì)的基本資源的時(shí)代,數(shù)據(jù)的安全關(guān)系到從國(guó)家到個(gè)體的各個(gè)層面、從政治經(jīng)濟(jì)到外交軍事的各個(gè)領(lǐng)域,語(yǔ)言數(shù)據(jù)安全也是如此。學(xué)界目前針對(duì)數(shù)字社會(huì)的語(yǔ)言安全尤其是語(yǔ)言數(shù)據(jù)安全問題的研究尚處萌芽階段,亟待加強(qiáng)探索。在總體國(guó)家安全觀視野下,語(yǔ)言數(shù)據(jù)安全亟須增強(qiáng)意識(shí)、建構(gòu)體系、強(qiáng)化能力、增進(jìn)研究、提升保障,從而為總體國(guó)家安全系統(tǒng)的建構(gòu)和完善貢獻(xiàn)力量。
參考文獻(xiàn)
白利芳,唐 剛,閆曉麗 2021 《數(shù)據(jù)安全治理研究及實(shí)踐》,《網(wǎng)絡(luò)安全和信息化》第2期。
陳 剛,謝佩宏 2020 《信息社會(huì)還是數(shù)字社會(huì)》,《學(xué)術(shù)界》第5期。
陳肇新 2021 《要素驅(qū)動(dòng)的數(shù)據(jù)確權(quán)之法理證成》,《上海政法學(xué)院學(xué)報(bào)(法治論叢)》第4期。
戴曼純 2022 《數(shù)字時(shí)代的語(yǔ)言技術(shù)與語(yǔ)言保護(hù):以歐洲為例》,《語(yǔ)言戰(zhàn)略研究》第4期。
邸子桓,呂明臣 2021 《語(yǔ)言類科研人員數(shù)據(jù)素養(yǎng)培育機(jī)制與策略研究》,《情報(bào)科學(xué)》第6期。
郭繼榮,楊 亮 2021 《國(guó)內(nèi)語(yǔ)言安全研究述評(píng)》,《情報(bào)雜志》第6期。
胡國(guó)華 2021 《數(shù)據(jù)安全治理實(shí)踐探索》,《信息安全研究》第10期。
黃海瑛 2018 《云環(huán)境下的“一帶一路”語(yǔ)言數(shù)據(jù)版權(quán)風(fēng)險(xiǎn)》,《圖書館論壇》第7期。
姜國(guó)權(quán),李一飛 2021 《數(shù)據(jù)迎接“一帶一路”發(fā)展新挑戰(zhàn)》,《中國(guó)社會(huì)科學(xué)報(bào)》10月13日第002版。
李曉偉,吳 迎,鄒 彧,等 2021 《數(shù)據(jù)安全治理體系與技術(shù)研究》,《信息通信技術(shù)與政策》第8期。
李宇明 2014 《喚起全社會(huì)的語(yǔ)言意識(shí)——序〈中國(guó)語(yǔ)言生活狀況報(bào)告(2013)〉》,載教育部語(yǔ)言文字信息管理司組編,《中國(guó)語(yǔ)言生活狀況報(bào)告(2013)》,北京:商務(wù)印書館。
李宇明 2018 《語(yǔ)言學(xué)是一個(gè)學(xué)科群》,《語(yǔ)言戰(zhàn)略研究》第1期。
李宇明 2020a 《語(yǔ)言數(shù)據(jù)是信息時(shí)代的生產(chǎn)要素》,《光明日?qǐng)?bào)》7月4日第12版。
李宇明 2020b 《數(shù)據(jù)時(shí)代與語(yǔ)言產(chǎn)業(yè)》,《山東師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》第5期。
李宇明 2021a 《邊境語(yǔ)言的“睦鄰戍邊”作用》,《中國(guó)社會(huì)科學(xué)報(bào)》7月9日第A04版。
李宇明 2021b 《應(yīng)急語(yǔ)言服務(wù)的任務(wù)及其落實(shí)》,“中國(guó)語(yǔ)言服務(wù)40人論壇”年度論壇(2021)發(fā)言,“應(yīng)急語(yǔ)言服務(wù)”微信公眾號(hào),https://mp.weixin.qq.com/s/g6IkwiXJFZssrH_Vg8Sc4g。
李宇明,郭風(fēng)嵐 2012 《重視海疆地名研究,維護(hù)國(guó)家海洋權(quán)益》,中國(guó)國(guó)家安全論壇,北京,11月18日。
李宇明,王春輝 2022 《從數(shù)據(jù)到語(yǔ)言數(shù)據(jù)》,《語(yǔ)言戰(zhàn)略研究》第4期。
李躍忠 2021 《淺談大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)安全治理》,《中國(guó)信息化》第4期。
聯(lián)合國(guó) 2021 《“數(shù)字經(jīng)濟(jì)報(bào)告2021”跨境數(shù)據(jù)流動(dòng)與發(fā)展:數(shù)據(jù)為誰(shuí)流動(dòng)》,聯(lián)合國(guó)貿(mào)易和發(fā)展會(huì)議,https://unctad.org/system/files/official-document/der2021_overview_ch.pdf。
梁秀波,吳俊涵,趙 昱,等 2022 《區(qū)塊鏈數(shù)據(jù)安全管理和隱私保護(hù)技術(shù)研究綜述》,《浙江大學(xué)學(xué)報(bào)(工學(xué)版)》第1期。
劉邦凡,臧梓健 2021 《我國(guó)數(shù)據(jù)安全治理研究(2015—2020):主題與演進(jìn)趨勢(shì)》,《通信技術(shù)》第9期。
劉皓琰 2021 《數(shù)據(jù)霸權(quán)與數(shù)字帝國(guó)主義的新型掠奪》,《當(dāng)代經(jīng)濟(jì)研究》第2期。
馬其家,李曉楠 2021 《論我國(guó)數(shù)據(jù)跨境流動(dòng)監(jiān)管規(guī)則的構(gòu)建》,《法制研究》第1期。
喬全生 待刊 《論漢語(yǔ)方言歷史文獻(xiàn)集成及其重要作用》。
闕天舒,王子玥 2022 《數(shù)字經(jīng)濟(jì)時(shí)代的全球數(shù)據(jù)安全治理與中國(guó)策略》,《國(guó)際安全研究》第1期。
賽迪智庫(kù)網(wǎng)絡(luò)安全研究所 2021 《數(shù)據(jù)安全治理白皮書》,https://docs.qq.com/pdf/DUGZTeUxtWE9lRWtw。
邵晶晶,韓曉峰 2021 《國(guó)內(nèi)外數(shù)據(jù)安全治理現(xiàn)狀綜述》,《信息安全研究》第10期。
世界銀行 2021 《〈2021年世界發(fā)展報(bào)告:讓數(shù)據(jù)創(chuàng)造更好生活〉概述》,https://www.worldbank.org/en/publication/wdr2021。
數(shù)據(jù)安全治理專業(yè)委員會(huì) 2021 《數(shù)據(jù)安全治理白皮書3.0》,https://view.inews.qq.com/a/20210815A06NCS00。
孫方江 2021 《跨境數(shù)據(jù)流動(dòng):數(shù)字經(jīng)濟(jì)下的全球博弈與中國(guó)選擇》,《西南金融》第1期。
孫宏開,黃 行 2018 《語(yǔ)言識(shí)別》,《語(yǔ)言戰(zhàn)略研究》第2期。
王春輝 2016 《當(dāng)代世界的語(yǔ)言格局》,《語(yǔ)言戰(zhàn)略研究》第4期。
王春輝 2021a 《學(xué)科建構(gòu)視角下的語(yǔ)言治理研究》,《陜西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第6期。
王春輝 2021b 《語(yǔ)言文字 國(guó)之大事》,《語(yǔ)言文字報(bào)》12月22日第02版。
王春輝,高 莉 2009 《因特網(wǎng)上的語(yǔ)言多樣性問題》,《語(yǔ)言文字應(yīng)用》第2期。
吳俊宇 2021 《新規(guī)之下,大數(shù)據(jù)走的每一步,都得是安全路》,《財(cái)經(jīng)》,https://view.inews.qq.com/a/20211206A0ABCD00。
吳振豪,高健博,李青山,等 2021 《數(shù)據(jù)安全治理中的安全技術(shù)研究》,《信息安全研究》第10期。
伊萊恩·卡斯凱特 2020 《網(wǎng)上遺產(chǎn):被數(shù)字時(shí)代重新定義的死亡、記憶與愛》,張淼譯,福州:海峽文藝出版社。
張 婕,郭 印 2020 《基于大數(shù)據(jù)語(yǔ)言實(shí)驗(yàn)平臺(tái)的隱私安全研究》,《數(shù)據(jù)與計(jì)算發(fā)展前沿》第6期。
中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院 2019 《數(shù)據(jù)治理與數(shù)據(jù)安全》,北京:人民郵電出版社。
中國(guó)信息通信研究院安全研究所 2021 《數(shù)據(jù)安全技術(shù)與產(chǎn)業(yè)發(fā)展研究報(bào)告(2021)》,https://new.qq.com/omn/20220103/20220103A07SOJ00.html。
Chen, S. & A. Breivik. 2013. London: The British Academy.
Isard, A. 2020. Approaches to the anonymisation of sign language corpora. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages, 95–100, https://aclanthology.org/2020.signlang-1.15.pdf.
Rock, F. 2001. Policy and practice in the anonymisation of linguistic data. International Journal of Corpus Linguistics 6(1), 1–26.
Ruiz, R. 1984. Orientations in language planning. 8(2), 15–34.
Slaughter, M. J. & D. H. McCormick. 2021. Data is power: Washington needs to craft new rules for the digital age. 100(3), https://www.foreignaffairs.com/articles/united-states/2021-04-16/data-power-new-rules-digital-age.
責(zé)任編輯:魏曉明
黃海瑛(2018)、張婕和郭?。?020)是少有的討論過此論題的研究。
2019年11月,上海外國(guó)語(yǔ)大學(xué)成立語(yǔ)料庫(kù)研究院;2020年語(yǔ)料庫(kù)研究院新設(shè)語(yǔ)言數(shù)據(jù)科學(xué)與應(yīng)用學(xué)科,研究方向主要為語(yǔ)言數(shù)據(jù)與語(yǔ)言研究、語(yǔ)言數(shù)據(jù)與翻譯研究、語(yǔ)言數(shù)據(jù)與智慧教育以及語(yǔ)言數(shù)據(jù)與人工智能。
2021年11月工業(yè)和信息化部印發(fā)的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》列出了“金融大數(shù)據(jù)”“醫(yī)療大數(shù)據(jù)”等12種行業(yè)大數(shù)據(jù),本文所提的語(yǔ)言數(shù)據(jù)應(yīng)該與之類似。
https://www.ethnologue.com/.
https://wals.info/.
https://opendata.pku.edu.cn/dataverse/clkb.
http://www.lap.uga.edu/.
http://obid.ancientbooks.cn/.
比如2022年4月,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》用專節(jié)論述了“推進(jìn)古籍?dāng)?shù)字化”工作;2022年5月,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)了《關(guān)于推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略的意見》,把推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略列入重要議事日程。
可以參見李宇明(2021a)對(duì)于語(yǔ)言安全的劃分。
參見國(guó)家互聯(lián)網(wǎng)信息辦公室2021年發(fā)布的《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》的分級(jí)分類。
一個(gè)典型的例子是二戰(zhàn)期間美國(guó)用納瓦霍語(yǔ)作為通信密碼。
李宇明、郭風(fēng)嵐(2012)曾較系統(tǒng)地論述過海疆地名規(guī)劃對(duì)于維護(hù)國(guó)家海洋權(quán)益的重要意義。
語(yǔ)言學(xué)者自建的語(yǔ)料庫(kù)可以歸入此類,比如汪涵個(gè)人籌建的湖南方言數(shù)據(jù)庫(kù)(https://www.sohu.com/a/22297965_115428)等。
比如使用微軟或搜狗輸入法而產(chǎn)生的個(gè)人語(yǔ)言數(shù)據(jù),公司一方面會(huì)利用大數(shù)據(jù)來改進(jìn)輸入法效能,另一方面則可以根據(jù)每個(gè)人的用詞習(xí)慣進(jìn)行詞頻調(diào)整。
相關(guān)的技術(shù)討論可參看戴曼純(2022)。
葉水送《若論文數(shù)據(jù)庫(kù)也遭美國(guó)“卡脖子”,中國(guó)如何應(yīng)對(duì)?》,“知識(shí)分子”微信公眾號(hào),2021年5月12日。https://mp.weixin.qq.com/s/mI27P3gOeDgrjC9d8N3X_w。
在這個(gè)過程中,區(qū)塊鏈等新興技術(shù)有望發(fā)揮重要作用。
https://www.cia.gov/the-world-factbook/.
2020年底通過的《刑法修正案》已經(jīng)對(duì)商業(yè)秘密的相關(guān)犯罪做了修正和補(bǔ)充,增補(bǔ)了“為境外的機(jī)構(gòu)、組織、人員竊取、刺探、收買、非法提供商業(yè)秘密”的相關(guān)罪名,還有術(shù)語(yǔ)的修改,如“約定”改為了“保密義務(wù)”等。
更專業(yè)的分析可參看:吳振豪等(2021),許杰等(2021)。
參見中國(guó)高新網(wǎng):http://www.chinahightech.com/html/hotnews/yaowen/2021/1015/5613490.html。
參見工業(yè)和信息化部網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展中心網(wǎng):http://www.miitxxzx.org.cn/art/2022/1/14/art_33_1801.html。
報(bào)告全文參見:https://www.kearney.com/web/global-business-policy-council/article/?/a/competing-in-an-age-of-digital-disorder。
參見:https://www.foreignaffairs.com/issues/2022/101/1。