張凱 薛嗣媛 周建設(shè)
提 要 梳理近60年(1960~2019)語言智能技術(shù)專利申請文獻,可以發(fā)現(xiàn)近5年語言智能技術(shù)進步顯著,預(yù)計在未來較長一段時期內(nèi)仍將處于技術(shù)爆發(fā)期。當(dāng)下,語言數(shù)據(jù)治理的重要性日漸凸顯。分析當(dāng)前智能技術(shù)賦能下機器翻譯、智能客服、網(wǎng)絡(luò)輿情監(jiān)測、多語言資源建設(shè)等語言數(shù)據(jù)熱點服務(wù),指出語言數(shù)據(jù)治理體系面臨的技術(shù)困境:(1)語言數(shù)據(jù)的偏見現(xiàn)象;(2)經(jīng)典語言治理模型的短板。為破解困境并彌補經(jīng)典數(shù)據(jù)挖掘模式的短板,提出點狀聚合、線性組合和多層事態(tài)3種語言數(shù)據(jù)治理模式并展開對比分析,以期對智能化數(shù)據(jù)治理提供參考。
關(guān)鍵詞 專利文獻分析;語言智能技術(shù)發(fā)展;語言數(shù)據(jù)治理;語言數(shù)據(jù)治理技術(shù)模式
中圖分類號 H002 文獻標(biāo)識碼 A 文章編號 2096-1014(2022)04-0035-14
DOI 10.19689/j.cnki.cn10-1361/h.20220403
A review of the literature on patent applications for language intelligence technology over the past 60 years (1960– 2019) reveals that language intelligence technology has advanced significantly in the past five years. It is anticipated that the technological explosion will last for a long time in the future. The rapid development of language intelligence technology highlights the increasing importance of language data governance. Focusing on language data service sectors such as machine translation, intelligent customer service, opinion monitoring, and multilingual resource construction, this review paper analyses the tendencies of language data service development empowered by intelligent technologies. It points out that the language data governance system faces two technical complications, namely language data bias, and limitations of the traditional language governance models. In order to resolve the dilemma and challenges in language data processing and mining, three language data governance models are proposed and comparatively analysed, i.e., point aggregation, linear combination, and multi-layer state of affairs, which may serve as a reference for intelligent data governance.
patent document analysis; language intelligence technology; language data governance; language data governance model
當(dāng)前人類社會正處于從信息時代到智能時代的過渡期,智能技術(shù)給人類生活帶來了深遠影響和美好前景。在人類不斷探索智能技術(shù)的過程中,數(shù)據(jù)資源的重要性日益凸顯,數(shù)據(jù)“管理”也逐漸走向數(shù)據(jù)“治理”。這意味著以語言符號體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù)將在開放的視野中被重新審視。
語言智能、語言數(shù)據(jù)治理均以語言符號為起點,分別向機器數(shù)字空間和社會文化領(lǐng)域展開探索,智能技術(shù)為關(guān)注社會群體空間和網(wǎng)絡(luò)虛擬空間的語言數(shù)據(jù)研究提供了信息化條件下的治理手段,使治理的智能化發(fā)展成為可能。語言教學(xué)、新媒體及自媒體等現(xiàn)實場景,對智能技術(shù)和數(shù)據(jù)治理提出了更高的標(biāo)準(zhǔn)和要求。本文結(jié)合語言智能技術(shù)發(fā)展趨勢,總結(jié)技術(shù)發(fā)展面臨的挑戰(zhàn),綜述技術(shù)賦能語言數(shù)據(jù)治理的現(xiàn)狀,探索語言數(shù)據(jù)治理智能化發(fā)展的新模式。
一、從專利文獻看近60年全球語言智能技術(shù)趨勢及分布
專利文獻記載了發(fā)明創(chuàng)造的內(nèi)容,是科研機構(gòu)和高科技企業(yè)的核心競爭力,相較學(xué)術(shù)論文更貼近實際應(yīng)用或產(chǎn)品,是一種重要的知識產(chǎn)權(quán)保護手段。挖掘和分析語言智能方向的專利文獻,可以通覽語言智能技術(shù)發(fā)展,明晰語言智能技術(shù)創(chuàng)新方向和重點,同時也能為語言數(shù)據(jù)挖掘和智能化治理提供技術(shù)依據(jù)。
(一)全球語言智能技術(shù)發(fā)展趨勢
作為人工智能范疇的專門術(shù)語(楊爾弘,等2018),“語言智能”是語言學(xué)、認(rèn)知科學(xué)與人工智能的交叉和融合,是探究自然語言(人腦語言活動)和機器語言之間同構(gòu)關(guān)系的科學(xué)(周建設(shè),等2017;周建設(shè)2020)。語言智能包含計算智能和認(rèn)知智能,依據(jù)數(shù)據(jù)對象分為人類生物特征處理、圖像信息處理、文本語言處理等方面的技術(shù)。故此,本文將近60年(1960~2019)上述3項技術(shù)專利文獻作為語言智能概念范疇下的分析對象。
專利文獻數(shù)據(jù)來源于Inspiro、incoPat平臺,通過文獻內(nèi)容篩選及數(shù)量統(tǒng)計,可知:人類生物特征處理類(共計41 059件,其中G06K9/00分類共計22 612件,占比約55%,多是針對語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)的技術(shù)創(chuàng)新)和圖像信息處理類(共計40 387件,其中文字識別和G06K9/00分類共計3594件,占比約8.9%,多是針對語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、人工語言數(shù)據(jù)的技術(shù)創(chuàng)新)的申請數(shù)量相當(dāng),各占比46%左右。語言文本信息處理技術(shù)類共計6347件,占比7.2%,多是針對語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、語言代碼數(shù)據(jù)的技術(shù)創(chuàng)新。將上述技術(shù)文獻的歷年申請情況按時間先后進行統(tǒng)計,呈現(xiàn)出的趨勢如圖1所示。
圖1中,總曲線和3個方向技術(shù)的申請文獻呈現(xiàn)出一定規(guī)律性趨勢,同時三者之間也存在一定差異。按照總曲線趨勢可簡單進行如下階段性劃分。
(1)萌芽期(1960~1984)。自1960年起,每年3類處理技術(shù)均有少量的分布,申請量沒有明顯差距,總量維持在幾十項的規(guī)模。人類生物特征處理、圖像信息處理技術(shù)基本在同一階段開始被關(guān)注。1965~1975年的10年間,生物特征識別技術(shù)受到重視;1977年后針對圖像數(shù)據(jù)的內(nèi)容對比、目標(biāo)識別技術(shù)取得一定進展并引起了研究人員的持續(xù)關(guān)注。而文本符號處理技術(shù)發(fā)展一直相對滯后。1984年,語言智能技術(shù)專利單年申請量首次突破三位數(shù),總曲線中出現(xiàn)了首個關(guān)鍵點,之后年份增速開始提升。
(2)穩(wěn)步發(fā)展期(1985~2000)。該階段內(nèi)各方向申請量出現(xiàn)明顯增加,增長速度較為穩(wěn)定,2000年年底申請總量首次接近1500件/年,總曲線出現(xiàn)第二個關(guān)鍵點。圖像信息處理受到了更多的關(guān)注,增長量較其他類明顯,本階段結(jié)束時該方向增長約6倍,研究重點由圖像的內(nèi)容對比轉(zhuǎn)移到了基于圖像內(nèi)容的信息檢索技術(shù)研究,其間自然場景下的文字符號識別技術(shù)開始受到關(guān)注。文本符號處理技術(shù)在該時期復(fù)蘇,相較圖像信息處理技術(shù)發(fā)展申請量上存在約15年差距,直到1999年申請量單年破百(圖像信息處理1985年達到),此后關(guān)于文本符號的內(nèi)容抽取技術(shù)受到更多青睞。
(3)快速發(fā)展期(2001~2010)。本階段結(jié)束時,語言智能技術(shù)申請總量增加0.76倍,圖像信息處理得到持續(xù)關(guān)注,圖像內(nèi)容檢索技術(shù)、人類面部特征識別、文本內(nèi)容結(jié)構(gòu)化抽取、文本信息對比等技術(shù)點最為突出,增長趨勢愈發(fā)明顯。在快速發(fā)展期,圍繞語言符號的智能問答技術(shù)申請開始出現(xiàn),圖像、文本內(nèi)容分類的創(chuàng)新技術(shù)呈現(xiàn)較快發(fā)展。
(4)爆發(fā)期(2011年至今)。以深度學(xué)習(xí)為代表的人工智能技術(shù)快速發(fā)展,引起各類語言模型不同程度的發(fā)展和創(chuàng)新,對語言智能技術(shù)起到極大促進作用。該時期語言智能技術(shù)專利申請量呈井噴式增長,截至2019年年底,總量增長3.1倍,2015年后每年遞增25%左右。2014年年底,人類生物特征處理和圖像信息處理技術(shù)申請量首次持平,以生理特征智能識別為代表的生物處理技術(shù)快速突破,該類申請爆發(fā),說明該階段有較強研究力量投入該領(lǐng)域且創(chuàng)新成果顯著。文本信息處理技術(shù)呈現(xiàn)技術(shù)點齊頭并進、增長明顯的態(tài)勢,其中語言數(shù)據(jù)的關(guān)系抽取、實體識別技術(shù)等逐步成為研究核心,分析可知該時期圍繞各類型語言數(shù)據(jù)開展了大量數(shù)據(jù)挖掘工作,進行了較好技術(shù)儲備,為展開數(shù)據(jù)治理提供了基礎(chǔ)。
由總曲線不難發(fā)現(xiàn),近5年語言智能技術(shù)取得的進步是顯著的,同時在發(fā)展過程中研究關(guān)注點也出現(xiàn)多次轉(zhuǎn)移。參與本次分析的3類技術(shù),在萌芽期數(shù)據(jù)相差不大,如今差異明顯。以2019年專利申請量為例:人類生物特征處理6937件、圖像處理3317件、文本處理803件,可以看出具有人類生物屬性和圖像符號屬性的數(shù)據(jù)相比文字類抽象數(shù)據(jù)的顯性特征更強,在技術(shù)創(chuàng)新方面率先取得突破。語言信息技術(shù)雖在2011年后得到顯著發(fā)展,但較其他兩類數(shù)據(jù)的處理技術(shù)申請量上仍有約15年的差距。依據(jù)總體趨勢預(yù)判,未來較長一段時期語言智能技術(shù)仍處于技術(shù)爆發(fā)期,更具抽象特性的語言數(shù)據(jù)將會受到更多研究人員的關(guān)注。
(二)語言智能技術(shù)分布情況
本研究共篩選出相關(guān)文獻87 793件,按照技術(shù)方向進行聚類分析,形成技術(shù)點聚焦分布圖。如圖2所示,共形成17種技術(shù)聚焦點,其中人類生物特征類2種,圖像信息處理類7種,語言信息類8種。
從申請量上看,文本符號信息技術(shù)文獻量較其他兩類存在較大差距,進一步觀察此類技術(shù)的6347件文獻并完成技術(shù)占比統(tǒng)計,具體結(jié)果見表1。
由表1可知,語言信息抽?。?9%)是占比最大的細分領(lǐng)域,其次是自動分類(19%)和實體識別(13%),上述3類研究已有一定的技術(shù)儲備,在開展語言符號的信息處理中已發(fā)揮重要作用。語義內(nèi)容(7%)、關(guān)系抽?。?%)、智能問答(5%)等聚焦點近年來雖然一直是研究熱點,但申請占比還不突出,由此來看,上述聚焦點距離業(yè)界實踐應(yīng)用還有一定距離,仍將是重點和難點研究方向。表1中8類顯著型技術(shù)點發(fā)展趨勢顯示,上述技術(shù)點均在1990年后呈現(xiàn)增長態(tài)勢(見圖3)。1991~2010年的20年間,各技術(shù)點均得到快速發(fā)展,2011年后全球范圍內(nèi)語言信息技術(shù)專利申請量增速明顯,其中語言信息抽取、實體識別技術(shù)最為突出,隨著各行業(yè)中語言數(shù)據(jù)資產(chǎn)化進程的開展,上述兩個方向仍將同步維持較高成果產(chǎn)出。
為分析全球主要國家語言智能技術(shù)發(fā)展情況,我們對文獻數(shù)據(jù)按國別分別進行分類統(tǒng)計,形成各國趨勢曲線(見圖4)。這些圖反映出各國的變化曲線呈現(xiàn)一定的差異。
從領(lǐng)域發(fā)展過程看,中國較美國、德國和日本等國技術(shù)起步較晚,到2005年后才出現(xiàn)明顯增速,10年后中國在該領(lǐng)域的技術(shù)專利擁有量已處于領(lǐng)先位置。分析各國3條技術(shù)曲線趨勢,美國、日本、德國和澳大利亞等國對圖像信息處理更為關(guān)注,其中日本的該條曲線最為突出,中美韓在人類生物信息處理研究上具備一定的優(yōu)勢。在2005年前后,日本、德國和澳大利亞等國分別出現(xiàn)了曲線的下降拐點,可見此時期三國的研究焦點發(fā)生過轉(zhuǎn)移,而中美兩國的增長曲線相似,曲線分布較均衡,呈持續(xù)增長態(tài)勢。通過上述六國各自3條技術(shù)曲線的分布情況不難發(fā)現(xiàn),文本信息處理研究有較大的發(fā)展空間。
2013年,我國率先提出人工智能范疇下的“語言智能”概念,與全球該方向?qū)@暾埖谋l(fā)期基本吻合,體現(xiàn)我國研究人員對此方向的持續(xù)重視和創(chuàng)新,此概念的提出恰逢其時。語言智能研究既是對多模態(tài)信息處理技術(shù)的繼承,也為計算智能和認(rèn)知智能研究對象界定了范圍,成為多領(lǐng)域、多模態(tài)信息技術(shù)交叉融合發(fā)展的重要方向。未來5~10年間語言智能發(fā)展仍處于技術(shù)爆發(fā)增長期,是學(xué)術(shù)研究、產(chǎn)業(yè)發(fā)展的重點布局方向。
二、語言數(shù)據(jù)治理現(xiàn)狀及困境
數(shù)據(jù)具有生產(chǎn)要素性質(zhì),只有信息化發(fā)展到一定階段才能成為現(xiàn)實,才能被人認(rèn)識(李宇明2020)。在近10年語言智能技術(shù)爆發(fā)式發(fā)展的背景下,2020年李宇明發(fā)表《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》一文,明確語言數(shù)據(jù)是生產(chǎn)要素,并納入數(shù)字經(jīng)濟視野。本節(jié)對信息時代下的語言數(shù)據(jù)來源、內(nèi)涵進行初探,并對智能技術(shù)賦能語言數(shù)據(jù)應(yīng)用及語言數(shù)據(jù)治理面臨的挑戰(zhàn)進行梳理。
(一)從語言數(shù)據(jù)到語言數(shù)據(jù)治理
人類形成前自然界只有“物理空間”,人類誕生后產(chǎn)生了“社會空間”,語言與社會空間共同發(fā)展,演變出以語音為載體的口頭語言。隨著社會空間發(fā)展,人類利用光波特性研究出有聲媒介,加速了語言信息傳播,伴隨互聯(lián)網(wǎng)時代的到來,人類邁入“信息空間”。當(dāng)語言數(shù)據(jù)成為發(fā)展經(jīng)濟和數(shù)字科技的核心要素,語言數(shù)據(jù)已經(jīng)不僅僅是一種文化概念,它是“具有聲光電三大媒介,為人類與機器兩個‘物種’共享,將應(yīng)用在社會、信息、物理三元空間中”(潘云鶴2019)的事物。我們作為智能時代語言數(shù)據(jù)的創(chuàng)造和使用者,更需要理解語言數(shù)據(jù)內(nèi)涵,并認(rèn)識語言數(shù)據(jù)的特性。
語言數(shù)據(jù)是以語言符號體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),按數(shù)據(jù)功能簡單概括為:語言學(xué)科數(shù)據(jù)、話語數(shù)據(jù)、語言衍生數(shù)據(jù)、人工語言數(shù)據(jù)和語言代碼數(shù)據(jù)(李宇明,王春輝2022)。語言數(shù)據(jù)屬于數(shù)據(jù)范疇,天然擁有大數(shù)據(jù)的3個重要特性:“基因”的存儲性、規(guī)律的蘊含性、趨勢的預(yù)測性(周建設(shè),等2014),同時也具有區(qū)別于大數(shù)據(jù)的語言特性,即物質(zhì)性和動態(tài)性。物質(zhì)性指語言數(shù)據(jù)必須借助一定的載體傳播信息,如語音、文字、圖片等媒介;動態(tài)性指語言數(shù)據(jù)在時間、空間維度上是動態(tài)的,如新型短視頻、中長視頻媒體的快速興起和應(yīng)用,古文字研究在今天依然活躍,體現(xiàn)出語言數(shù)據(jù)的時空延展性。抖音日活躍用戶超6億(截至2020年12月,2019年日活躍用戶4億),快手日處理數(shù)據(jù)量超過3EB,日入數(shù)據(jù)量超5PB(5120TB)。大規(guī)模的數(shù)據(jù)以場景多片段構(gòu)成(時間)、分布式存儲(空間)的結(jié)構(gòu),事件內(nèi)容較傳統(tǒng)單篇文件、單視頻展示之間體現(xiàn)出明顯的時序關(guān)系,用戶關(guān)注度也隨時間在轉(zhuǎn)移。
語言數(shù)據(jù)治理對于確保語言數(shù)據(jù)的準(zhǔn)確、適度分享和保護是至關(guān)重要的。關(guān)注語言數(shù)據(jù)質(zhì)量,保障語言數(shù)據(jù)穩(wěn)定性、準(zhǔn)確性,將語言數(shù)據(jù)從混亂治理成為有序,已逐漸成為國內(nèi)外研究熱點。語言數(shù)據(jù)治理是將語言數(shù)據(jù)作為治理對象的數(shù)據(jù)治理,目標(biāo)是為國家或組織發(fā)展提供基礎(chǔ)性和戰(zhàn)略性語言資源,促進語言數(shù)據(jù)資產(chǎn)的價值創(chuàng)造,提升語言服務(wù)和語言治理能力。語言數(shù)據(jù)治理涉及元數(shù)據(jù)構(gòu)建、語言數(shù)據(jù)標(biāo)準(zhǔn)制定、語言數(shù)據(jù)安全建設(shè)、語言數(shù)據(jù)存儲及語言智能服務(wù)等多方面。實現(xiàn)全流程的語言數(shù)據(jù)治理是個極其復(fù)雜、系統(tǒng)和長期的工程,本文重點關(guān)注語言數(shù)據(jù)治理中數(shù)據(jù)到知識的治理環(huán)節(jié),未涉及安全、經(jīng)濟、控制與管理等內(nèi)容。
(二)語言數(shù)據(jù)賦能語言智能技術(shù)的重要任務(wù)
語言智能的核心目標(biāo)是研究人類語言與機器語言之間的同構(gòu)關(guān)系,當(dāng)前語言數(shù)據(jù)已賦能多種語言智能技術(shù)的應(yīng)用場景。每次技術(shù)革新都帶來專利申請曲線的波動,隨后為社會帶來更優(yōu)質(zhì)的語言智能服務(wù),本節(jié)圍繞機器翻譯、智能客服、網(wǎng)絡(luò)輿情、多語言資源建設(shè)等4個語言數(shù)據(jù)服務(wù)展開技術(shù)發(fā)展的趨勢分析。
由圖5可知,20世紀(jì)90年代前,機器翻譯技術(shù)利用詞典匹配技術(shù)(Blazevic 1977)實現(xiàn),1968年出現(xiàn)申請峰值。而后是詞典結(jié)合語言學(xué)知識的規(guī)則翻譯(陳肇雄1997),1995年出現(xiàn)申請峰值?;谡Z料庫的統(tǒng)計機器翻譯(宋金平2004)取得較大進步,2005年出現(xiàn)了申請峰值。隨著運算能力提高和多語資源的增長,神經(jīng)網(wǎng)絡(luò)文本翻譯(Li & Liu 2020)取得了明顯成效,2016年出現(xiàn)了申請峰值。但實時語音翻譯或自動同聲傳譯還面臨很大挑戰(zhàn),語篇如論文、小說等文體翻譯時,術(shù)語一致性問題對模型可理解性提出了更高要求。
由圖6可知,智能客服技術(shù)起步較晚但呈現(xiàn)申請量快速增長趨勢。其應(yīng)用形式上有聊天(Miyashita 2002;楊敏,等2008)、問答(Horvitz 2002;楊海松,等2006)、任務(wù)式對話(田春霖,王翔2019;趙丙來,許文軒2021)等,涉及語音識別、語義理解、對話狀態(tài)追蹤、語言生成、對話心理等技術(shù),因?qū)υ捝扇狈υ凑Z言語義約束,涉及問題的復(fù)雜程度沒有任何限制。閑聊對話和以領(lǐng)域性知識圖譜為中心的跨領(lǐng)域、跨交互形式的知性會話系統(tǒng)(黃民烈,馬文暢2021)成為當(dāng)前熱點。
由圖7可知,網(wǎng)絡(luò)輿情監(jiān)測相較其他語言服務(wù)專利申請規(guī)模更大,體現(xiàn)出各國對這方面的高度重視。早期監(jiān)測策略通常由“關(guān)鍵詞”搭配基本邏輯符號進行語言數(shù)據(jù)檢索(Belagodu et al. 2013),往往需要輔以大量的人工,對語言數(shù)據(jù)進行二次處理。語言智能技術(shù)則讓輿情監(jiān)測從信息檢索走向內(nèi)容多維度識別(張黎娜,等2020),并通過情感分析(仁慶道爾吉,等2021)獲取明確情感、立場、觀點、態(tài)度、意圖等敏感信息,提高了語言數(shù)據(jù)背后隱含意圖和傾向信息理解的準(zhǔn)確性。網(wǎng)絡(luò)輿情監(jiān)測正在通過事理圖譜、熱點聚類、文本分類等方法,向輿情事件延展、事件特征、風(fēng)險等級等智能分析階段發(fā)展。
由圖8可知,在2000年前的資源構(gòu)建中多以語言本體數(shù)據(jù)為對象,構(gòu)建各語種知識本體、敘詞本體詞網(wǎng)等(Torrence 1979),之后圍繞民族語言資源(姚聰,等2015)、話題發(fā)現(xiàn)和輿論導(dǎo)向(曾倬穎,張權(quán)2017)等方面的研究成為一種趨勢。2015年后,圍繞語義標(biāo)注、資源保護、語言模型和智能評測(胡韌奮,等2021)等技術(shù)研發(fā)成為新方向。近年來,以古文字為對象的專利開始出現(xiàn),如多特征融合技術(shù)的拓片資源保護(陳善雄,等2019;高未澤,等2020;肖旭東,等2021)、古籍漢字可視化識別、文本挖掘的古籍?dāng)?shù)字化(毛建軍2006)、古籍漢字圖像質(zhì)量提升(宋傳鳴,等2021;李邦,等2021)、古籍詞語發(fā)現(xiàn)(楊存耿,等2016;謝昱,等2019)和古籍知識庫構(gòu)建(徐小力,等2016)。
(三)語言數(shù)據(jù)治理面臨的挑戰(zhàn)
“語言文字智治現(xiàn)代化”(王春輝2020)將語言智能技術(shù)與語言數(shù)據(jù)治理密切關(guān)聯(lián),充分運用語言信息化手段,發(fā)展和運用語言智能,利用語言智能來集成信息、發(fā)布信息、共享信息、保證信息安全等(李宇明,王海蘭2020),是進行語言數(shù)據(jù)治理的必經(jīng)之路。優(yōu)質(zhì)、安全和高效的語言數(shù)據(jù)應(yīng)用及服務(wù)是語言數(shù)據(jù)治理的目標(biāo),治理工作的開展受到政策、經(jīng)濟、文化、技術(shù)等多方面因素影響,本節(jié)從數(shù)據(jù)質(zhì)量本身及其數(shù)據(jù)治理模式兩方面總結(jié)語言治理工作面臨的突出難題。
1.語言數(shù)據(jù)的偏見現(xiàn)象
機器學(xué)習(xí)的基本原理是根據(jù)已有的訓(xùn)練數(shù)據(jù)推導(dǎo)出能夠描述出“經(jīng)驗”的模型,并根據(jù)得出的模型實現(xiàn)對未知的測試數(shù)據(jù)的最優(yōu)預(yù)測。受機器學(xué)習(xí)原理和技術(shù)特征的影響,其決策結(jié)果會產(chǎn)生一定偏見,如簡歷篩選系統(tǒng)會依據(jù)應(yīng)聘者無法控制的特質(zhì)(性別、種族等)做出帶有歧視的篩選。語言數(shù)據(jù)偏見產(chǎn)生的原因較為復(fù)雜,在機器學(xué)習(xí)的生命周期中包含了數(shù)據(jù)采集、算法訓(xùn)練、人機交互等多個環(huán)節(jié),這其中每個階段都會存在一定的偏見。
第一,來源于語言數(shù)據(jù)本身的偏見。包括:(1)地域偏見,不同的地域文化和社會習(xí)俗等會滲透到語言數(shù)據(jù)中,影響機器決策并產(chǎn)生偏見。(2)群體偏見,語言數(shù)據(jù)采集者容易主觀性代表部分群體的特征屬性,而此特征屬性與應(yīng)用目標(biāo)群體存在的差異,容易產(chǎn)生偏見現(xiàn)象。這類型偏見同時會產(chǎn)生觀察者偏差和聯(lián)想偏差,即無意間在語言數(shù)據(jù)標(biāo)注時加強了研究者本身的主觀意見,造成數(shù)據(jù)噪音(Suresh &Guttag 2019)。(3)測量偏差,當(dāng)前機器學(xué)習(xí)算法都基于大量語言數(shù)據(jù)進行運算,在收集數(shù)據(jù)時,使用不同的數(shù)據(jù)采集工具或者使用觀點不統(tǒng)一的語言數(shù)據(jù)標(biāo)記規(guī)范,最終會導(dǎo)致數(shù)據(jù)產(chǎn)生大量噪音,測量產(chǎn)生偏差(Olteanu et al. 2019)。(4)表示偏見,當(dāng)數(shù)據(jù)采集時沒有充分覆蓋目標(biāo)群體的特征,某些樣本的特性并未得到充分表示,這種代表性不足的數(shù)據(jù)表征在運算中也會加劇偏見現(xiàn)象。
第二是來源于智能技術(shù)的偏見。包括:(1)算法偏見,機器學(xué)習(xí)的特性就是捕捉大數(shù)據(jù)中的經(jīng)驗規(guī)律,同時也會極大程度上忽略少數(shù)群體在訓(xùn)練過程中的權(quán)重,導(dǎo)致其不能完全代表目標(biāo)群體,由此產(chǎn)生算法決策偏見。(2)排名偏見,基于協(xié)同過濾技術(shù)的智能推薦系統(tǒng),其背后利用了人類的認(rèn)知架構(gòu),對用戶語言屬性(歷史行為、相關(guān)偏好等)進行挖掘,并且依據(jù)使用者習(xí)慣和喜好進行優(yōu)先級排序,排名靠前則會極大程度上吸引關(guān)注度(Buolamwini&Gebru 2018)。(3)變量偏差,當(dāng)進行模型設(shè)計時未能完整考慮到影響模型的重要變量,模型預(yù)測會產(chǎn)生一定偏差(Schmitz et al. 2022)。
第三是來源于人機交互的偏見。包括:(1)交互偏見,在不同社交平臺和應(yīng)用場下不同群體的交互行為會存在偏差,如“微信”和“淘寶”這兩類軟件的交互手段存在差異。此外,信息呈現(xiàn)的方式也同樣影響交互效果(Olteanu et al. 2019)。(2)內(nèi)容偏見,一個人居住在不同地域、處于不同群體、擔(dān)當(dāng)不同角色所使用的語言內(nèi)容都具有本質(zhì)的差別,當(dāng)進行一定語言習(xí)慣轉(zhuǎn)換時所產(chǎn)生的內(nèi)容結(jié)構(gòu)、語法、語義等誤差,被認(rèn)為是內(nèi)容偏見(Olteanu et al. 2019)。
本節(jié)對語言數(shù)據(jù)偏見現(xiàn)象產(chǎn)生原因進行了粗略歸納,以期了解在語言智能技術(shù)發(fā)展的環(huán)境下所產(chǎn)生的偏見現(xiàn)象。存在偏差的語言數(shù)據(jù)影響語言數(shù)據(jù)質(zhì)量,不良數(shù)據(jù)將持續(xù)加重智能技術(shù)的不公平現(xiàn)象。
2.經(jīng)典語言治理模型的短板
數(shù)據(jù)挖掘的目的是從大數(shù)據(jù)中發(fā)現(xiàn)“有趣知識”,根據(jù)任務(wù)不同可分為概念描述、關(guān)聯(lián)相關(guān)、分類和預(yù)測、聚類分析、離群點和演變分析等經(jīng)典數(shù)據(jù)挖掘模式(圖2及表1中含有相關(guān)的基礎(chǔ)技術(shù))。經(jīng)典模式下,首先會將待解決的數(shù)據(jù)治理問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)任務(wù)選擇某種或幾種挖掘模式(Han et al. 2012)。經(jīng)典挖掘模式具有一定的普遍性,在行業(yè)應(yīng)用中受到廣泛關(guān)注,但在服務(wù)于語言數(shù)據(jù)治理時,將會面臨如下難題。
第一,傳統(tǒng)方法不適用。以業(yè)務(wù)為導(dǎo)向的數(shù)據(jù)挖掘標(biāo)準(zhǔn)體系忽視了語言數(shù)據(jù)自身的特性。經(jīng)典數(shù)據(jù)挖掘模式已在金融、醫(yī)療、司法、零售、制造、保險等行業(yè)廣泛應(yīng)用,其中也多有語言數(shù)據(jù)參與,但其核心目標(biāo)是為領(lǐng)域業(yè)務(wù)服務(wù)。語言數(shù)據(jù)除具備一般數(shù)據(jù)特征外,還有其自身的內(nèi)涵與規(guī)律。當(dāng)傳統(tǒng)數(shù)據(jù)挖掘方法面臨特殊的語言數(shù)據(jù)信息,以業(yè)務(wù)為導(dǎo)向的治理模式并不能適用。
第二,知識獲取不充分。語言數(shù)據(jù)僅是知識獲取的渠道之一,但在網(wǎng)絡(luò)空間中,語言信息資源、語種語類資源的建設(shè)、管理和利用都很不充分。社交網(wǎng)絡(luò)源生語言資源粗放雜亂,不僅造成了數(shù)據(jù)冗余,而且導(dǎo)致語言優(yōu)質(zhì)資源的通行度下降,降低了信息檢索的服務(wù)質(zhì)量,以致產(chǎn)生了現(xiàn)在“語言數(shù)據(jù)豐富,但語言知識貧乏”的現(xiàn)象。
經(jīng)典數(shù)據(jù)挖掘模式能力不足、語言智能技術(shù)仍存在瓶頸、語言數(shù)據(jù)對資源依賴性更高,決定了若要在語言數(shù)據(jù)治理的國際競爭中取得主動權(quán),必須雙管齊下:既要關(guān)注語言數(shù)據(jù)的數(shù)量與質(zhì)量(降低對其他資源過度依賴和知識挖掘難度),也要重視治理模式的優(yōu)化與創(chuàng)新(提升語言知識獲取和治理模式通用的能力)。在當(dāng)前信息基礎(chǔ)設(shè)施相對完善而算法工具不變的條件下,模式問題已成為矛盾的主要方面,也是世界各國面臨的普遍難題。
三、語言數(shù)據(jù)治理的技術(shù)模式
科學(xué)合理構(gòu)建語言數(shù)據(jù)治理模式可有效應(yīng)對挑戰(zhàn),對語言數(shù)據(jù)資源和智能技術(shù)的發(fā)展均有裨益。其一,語言數(shù)據(jù)作為重要的生產(chǎn)要素,開展治理研究對于確保數(shù)據(jù)準(zhǔn)確(解決語言符號的知識表達問題)、知識發(fā)現(xiàn)(解決語言符號的知識計算問題)、適度分享和保護(解決語言符號的知識傳播與保護問題)至關(guān)重要。其二,清晰、有效的語言數(shù)據(jù)治理需求和場景,可推動語言智能技術(shù)良性發(fā)展,不斷積累的語言數(shù)據(jù)治理經(jīng)驗要求技術(shù)模式的規(guī)范化和標(biāo)準(zhǔn)化。本節(jié)重點探討并設(shè)計語言數(shù)據(jù)治理的點狀聚合、線性組合和多層事態(tài)語言模式。
有效的語言數(shù)據(jù)治理框架會通過優(yōu)化模式、縮減計算成本、降低輿情風(fēng)險和提高安全合規(guī)等方式,將語言數(shù)據(jù)(知識)價值優(yōu)質(zhì)、高效回饋于應(yīng)用,最終服務(wù)于語言文字事業(yè)發(fā)展。本節(jié)在語言智能技術(shù)的背景下,以經(jīng)典數(shù)據(jù)挖掘模式為基礎(chǔ),就現(xiàn)有語言數(shù)據(jù)治理模式組織歸納,提出點狀聚合模式、線性組合模式和多層事態(tài)等語言模式。3類語言數(shù)據(jù)治理的模式對應(yīng)不同的場景或語言數(shù)據(jù)任務(wù),分別圍繞語言數(shù)據(jù)不同層次展開技術(shù)構(gòu)建。
點狀聚合模式(單點)以語言符號中的詞性(如名詞)為關(guān)注點,圍繞實體詞,以屬性為橋梁,通過實體點聚合,構(gòu)建一個空間知識體系,目標(biāo)是構(gòu)成結(jié)構(gòu)化的語義知識庫。計算機數(shù)據(jù)結(jié)構(gòu)上對應(yīng)的是有向圖結(jié)構(gòu),呈現(xiàn)<實體,關(guān)系,實體>的點狀聚合特點,其中實體由<屬性,值>構(gòu)成,實體間通過屬性關(guān)系進行關(guān)聯(lián)。該模式圍繞實體點構(gòu)成語言符號的知識結(jié)構(gòu),存儲于圖數(shù)據(jù)庫中。點狀聚合模式的知識結(jié)構(gòu)是對現(xiàn)有語義網(wǎng)的擴充,對語言數(shù)據(jù)做行業(yè)細分,以單個術(shù)語為實體,在經(jīng)典數(shù)據(jù)挖掘模式基礎(chǔ)上,結(jié)合語言資源特點可以構(gòu)建出細分行業(yè)語義庫。該模式體現(xiàn)出語言數(shù)據(jù)“基因”的存儲性和規(guī)律的蘊含性特征。
線性組合模式(交互)以語言符號中事件關(guān)系為關(guān)注點(如謂詞邏輯),目標(biāo)是構(gòu)建出結(jié)構(gòu)化的事件組合場景,該模式的中心點持續(xù)圍繞謂詞變化而轉(zhuǎn)移,通過場景切換形成具有一定概率的事件組合庫。計算機數(shù)據(jù)結(jié)構(gòu)上對應(yīng)的是具有概率屬性的有向圖結(jié)構(gòu),呈現(xiàn)出<事件,關(guān)系,事件>的線性組合特點,其中事件由<屬性,概率>構(gòu)成,事件間通過事件關(guān)系進行關(guān)聯(lián)。該模式圍繞事件序列構(gòu)成語言符號的知識結(jié)構(gòu)并存儲于圖數(shù)據(jù)庫中,模式的發(fā)展通過事件轉(zhuǎn)移矩陣確定趨勢方向。該模式體現(xiàn)出語言數(shù)據(jù)的趨勢預(yù)測性。
多層事態(tài)模式(事態(tài))以語言符號整體為著眼點,化形于現(xiàn)實世界,通過追蹤語言符號的事態(tài)變化,形成具有特定場景的、具有語義完備性的多層事態(tài)模式,該模式的目標(biāo)是形成個體化語義場景描述的數(shù)據(jù)結(jié)構(gòu)。計算機數(shù)據(jù)結(jié)構(gòu)上對應(yīng)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),形成<實體,知識圖譜,事態(tài),事件,事理圖譜>結(jié)構(gòu)的多層形態(tài),其中事態(tài)即事件的狀態(tài),指表示事件發(fā)生與否、出現(xiàn)與否、存在與否。事態(tài)與動態(tài)兩者著眼點不同,動態(tài)關(guān)注的是謂詞所表示的動作變化,通過時態(tài)或狀態(tài)體現(xiàn),事態(tài)關(guān)注的是句子所表示的事件狀態(tài),由事態(tài)語氣或時間狀態(tài)體現(xiàn)。多層事態(tài)模式體現(xiàn)出語言數(shù)據(jù)的時序和空間的延展性。
結(jié)合經(jīng)典數(shù)據(jù)挖掘模式,我們對點狀聚合、線性組合和多層事態(tài)治理模式的各自特點分別進行多維度對照分析,詳見表3。在具體的語言數(shù)據(jù)治理任務(wù)中,可根據(jù)不同的治理目標(biāo)采取某種或幾種模式。
在語言數(shù)據(jù)安全和共享標(biāo)準(zhǔn)支持下,我們結(jié)合語言數(shù)據(jù)資源構(gòu)建流程,展示本文設(shè)計的3種語言模式的聯(lián)系,共同為語言資源和服務(wù)建設(shè)提供支撐,詳見圖9。智能化條件下語言數(shù)據(jù)治理的核心思想是語言數(shù)據(jù)間的關(guān)聯(lián)融合,所有模式均需要進行“人-機”結(jié)合的多次模型訓(xùn)練,以期達到最佳的治理效果。雖然語言數(shù)據(jù)由于自身蘊含特征規(guī)律的表現(xiàn)形式不同,造成語言數(shù)據(jù)治理模式的差異化,但建立在治理模式上的語言數(shù)據(jù)應(yīng)用服務(wù)卻容易形成相對穩(wěn)定的結(jié)構(gòu)。隨著上述模式結(jié)構(gòu)的復(fù)雜性增加,對語言數(shù)據(jù)治理的基礎(chǔ)技術(shù)能力要求也逐漸提高。
四、結(jié) 語
語言智能技術(shù)是科技創(chuàng)新的重要動力和源泉,圍繞語音識別、人機對話、機器翻譯、多模態(tài)語義分析技術(shù)所衍生的新興業(yè)態(tài),已由實驗階段走向市場應(yīng)用。本文通過對近60年語言智能技術(shù)專利文獻進行挖掘,就技術(shù)發(fā)展趨勢及布局變遷進行總結(jié),探索了技術(shù)發(fā)展的規(guī)律和成熟度,為展開語言數(shù)據(jù)治理提供技術(shù)儲備。依據(jù)專利熱點分析技術(shù)賦能語言數(shù)據(jù)服務(wù)的最新趨勢并歸納語言數(shù)據(jù)治理面臨的技術(shù)挑戰(zhàn)。為應(yīng)對技術(shù)挑戰(zhàn),彌補經(jīng)典數(shù)據(jù)挖掘模式的不足,本文提出了語言數(shù)據(jù)治理的3種語言模式并展開應(yīng)用分析。語言數(shù)據(jù)是對象,語言智能技術(shù)是手段,語言模式是方法,語言治理是目的,本文厘清語言智能技術(shù)整體發(fā)展和未來趨勢,探討了語言數(shù)據(jù)治理中存在的技術(shù)難題并探索性地提出語言數(shù)據(jù)治理模式,以期為智能化數(shù)據(jù)治理提供參考。
參考文獻
陳善雄,莫伯峰,高未澤,等 2019 一種基于局部CNN框架的甲骨拓片分類方法,中國:CN201910917806.X,2019-09-26。
陳肇雄 1997 機器翻譯中的復(fù)雜上下文相關(guān)處理方法,中國:CN97111944.9,1997-07-02。
高未澤,田瑤琳,陳善雄,等 2020 基于曲線輪廓匹配的甲骨拓片綴合方法,中國:CN202010191701.3,2020-03-18。
胡韌奮,王予沛,彭一平,等 2021 一種漢語二語作文自動評分方法,中國:CN202110896135.0,2021-08-05。
黃民烈,馬文暢 2021 基于知識圖譜的智能對話推薦方法及裝置,中國:CN202110426610.8,2021-04-20。
李 邦,張 展,郭 安,等 2021 基于生成對抗網(wǎng)絡(luò)的甲骨片輪廓與字符痕跡自動提取方法,中國:CN202110888155.3,2021-11-02。
李宇明 2020 《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》,《光明日報》7月4日第12版。
李宇明,王春輝 2022 《從數(shù)據(jù)到語言數(shù)據(jù)》,《語言戰(zhàn)略研究》第4期。
李宇明,王海蘭 2020 《粵港澳大灣區(qū)的四大基本語言建設(shè)》,《語言戰(zhàn)略研究》第5期。
毛建軍 2006 《古籍?dāng)?shù)字化概念的形成過程探析》,《科技情報開發(fā)與經(jīng)濟》第22期。
潘云鶴 2019 《“人工智能2.0”與數(shù)字經(jīng)濟》,《杭州科技》第5期。
仁慶道爾吉,尹玉娟,麻澤蕊,等 2021 一種基于多尺寸CNN和LSTM模型的蒙古語文本情感分析方法,中國:CN202110533016.9,2021-05-17。
宋傳鳴,王一琦,何熠輝,等 2021 LM濾波器組引導(dǎo)紋理特征自主學(xué)習(xí)的甲骨文字檢測方法,中國:CN202110900543.9,2021-11-19。
宋金平 2004 基于語言知識庫的機器翻譯方法與裝置,中國:CN200410001187.3,2004-02-04。
田春霖,王 翔 2019 面向任務(wù)式對話系統(tǒng)意圖識別的語料庫生成方法和裝置,中國:CN201910163098.5,2019-03-05。
王春輝 2020 《關(guān)于語言文字治理現(xiàn)代化的若干思考》,《語言戰(zhàn)略研究》第6期。
肖旭東,李 勇,喬 丹,等 2021 一種噴丸覆蓋率的拓印測量方法,中國:CN202110864413.4,2021-11-12。
謝 昱,江 路,林金瑞,等 2019 一種多功能信息化古籍書影管理平臺及方法,中國:CN201910509035.0,2019-06-13。
徐小力,吳國新,王紅軍,等 2016 一種東巴經(jīng)典古籍?dāng)?shù)字化釋讀庫的建立方法,中國:CN201610304529.1,2016-05-10。
楊存耿,謝術(shù)清,楊曉強,等 2016 一種SaaS古籍知識服務(wù)云平臺,中國:CN201621020211.2,2016-08-31。
楊爾弘,劉鵬遠,韓林濤,等 2018 《語言智能那些事兒》,載國家語言文字工作委員會組編《中國語言生活狀況報告(2018)》,北京:商務(wù)印書館。
楊海松,鄧大付,余祥鑫,等 2006 自動問答方法及系統(tǒng),中國:CN200610059919.3,2006-02-28。
楊 敏,遲長燕,肖文鵬,等 2008 保持聊天記錄和聊天內(nèi)容的對應(yīng)關(guān)系的設(shè)備和方法,中國:CN200810127448.4,2008-06-30。
楊文珍,吳新麗,宣建強,等 2017 一種漢文到盲文的自動高效翻譯轉(zhuǎn)換方法,中國:CN201710550659.8,2017-07-07。
姚 聰,周舒暢,周昕宇,等 2015 基于圖像的語種識別方法及裝置,中國: CN201510520119.6,2015-08-21。
張黎娜,錢 婧,袁 磊,等 2020 文本內(nèi)容識別和違規(guī)廣告識別方法、裝置及電子設(shè)備,中國:CN202011044853.7,2020-09-28。
張 引,陳琴菲 2019 一種多特征融合的古今漢語自動翻譯方法,中國:CN201910033155.8,2019-01-14。
趙丙來,許文軒 2021 基于語義規(guī)則的心理知識與方法推薦系統(tǒng),中國:CN202110882966.2,2021-08-02。
曾倬穎,張 權(quán) 2017 網(wǎng)絡(luò)輿情態(tài)勢的安全評估方法、終端及計算機存儲介質(zhì),中國:CN201710595532.8,2017-07-20。
周建設(shè) 2020 《加快科技創(chuàng)新 攻關(guān)語言智能》,《人民日報》12月21日第19版。
周建設(shè),呂學(xué)強,史金生,等 2017 《語言智能研究漸成熱點》,《中國社會科學(xué)報》2月7日第003版。
周建設(shè),彭 琰,張 躍,等 2014 《基于大數(shù)據(jù)的漢語表達智能模型及其理論基礎(chǔ)》,《首都師范大學(xué)學(xué)報(社會科學(xué)版)》第5期。
Han, J. W., M. Kamber& J. Pei. 2012. 《數(shù)據(jù)挖掘概念與技術(shù)》,范明,孟小峰譯,北京:機械工業(yè)出版社。
Belagodu, A., N. Dittakavi& V. Ganti. Data retrieval system. USA: US14010477, 2013-08-26.
Blazevic, M. 1977. Device for automatically recording, reproducing and translating, a magnetic transducer. USA: US05/768563, 1977-02-14.
Buolamwini, J. & T. Gebru. 2018. Gender shades: Intersectional accuracy disparities in commercial gender classification. , 77–91.
Horvitz, E. J. 2002. System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service. USA: US10185150, 2002-06-28.
Li, Y. H. & B. Y. Liu. 2020. Method and apparatus for processing word vector of neural machine translation model, and non-transitory computer-readable recording medium. USA: US16809844, 2020-03-05.
Miyashita, K. 2002. Chat system displaying a link arrow directed from a hyperlink to content of an associated attachment file. USA: US10314226, 2002-12-09.
Olteanu, A., C. Castillo, F. Diaz, et al. 2019. Social data: Biases, methodological pitfalls, and ethical boundaries. 2. Accessed at https://www.microsoft.com/en-us/research/wp-content/uploads/2017/03/SSRN-id2886526.pdf.
Schmitz, M., R. Ahmed & J. Cao. 2022. Bias and fairness on multimodal emotion detection algorithms. arXiv preprint arXiv: 2205.08383.
Suresh, H. & J. V. Guttag. 2019. A framework for understanding unintended consequences of machine learning. arXiv preprint arXiv: 1901.10002.
Torrence, K. R. 1979. Method and apparatus for compensation during ultrasound examination. USA: US06/072717, 1979-09-04.
責(zé)任編輯:韓 暢
各國專利文獻主要包括專利申請書、說明書、公報、文摘、索引等各種官方文件和官方出版物,既包含與發(fā)明創(chuàng)造的研究、設(shè)計、開發(fā)和試驗成果相關(guān)的技術(shù)性資料,也包含與權(quán)利授予、權(quán)利變更、權(quán)利保護相關(guān)的法律性資料,本文分析中以專利文件和技術(shù)性資料為主。
因?qū)@墨I公開有條件限制,在準(zhǔn)備本文時,部分文獻未公開,或因本文設(shè)計查詢分析中存在一定技術(shù)性遺漏,所以實際文獻數(shù)可能大于分析文獻數(shù),但對文中各統(tǒng)計結(jié)果與整體趨勢分析影響不大。
本文專利數(shù)據(jù)收集范圍包括中國(CN)、美國(US)、日本(JP)、德國(DE)、英國(GB)、法國(FR)、瑞士(CH)、韓國(KR)、歐洲專利局(EP)和世界知識產(chǎn)權(quán)局(WIPO)等100多個國家或地區(qū)、機構(gòu)的專利文摘數(shù)據(jù),輔以其他非專利文獻資料。
Inspiro是國內(nèi)首個整合了全球及中國專利、商標(biāo)、版權(quán)、地理標(biāo)志、植物新品種、集成電路、知識產(chǎn)權(quán)法律文書、標(biāo)準(zhǔn)、科技期刊和企業(yè)商情等知識產(chǎn)權(quán)大數(shù)據(jù)資源的創(chuàng)新情報平臺,最新嵌入外觀設(shè)計和商標(biāo)圖像智能檢索功能。incoPat是全球首個面向華語研發(fā)創(chuàng)新人員的專利情報平臺,提供及時、全面、準(zhǔn)確的情報信息,幫助跟蹤最新的技術(shù)發(fā)展,規(guī)避專利侵權(quán)風(fēng)險,掌握競爭對手的研發(fā)動態(tài),實現(xiàn)知識產(chǎn)權(quán)的商業(yè)價值。
G06K9/00分類與語言數(shù)據(jù)處理相關(guān),是表示用于閱讀、識別印刷、書寫字符或識別圖形的國際專利分類號。
這里采納李宇明、王春輝(2022)中語言數(shù)據(jù)的5種分類。
參見《2020年抖音數(shù)據(jù)分析報告》,https://wenku.baidu.com/view/78c448881937f111f18583d049649b6648d70988.html。
參見中華人民共和國國家標(biāo)準(zhǔn)《信息技術(shù)服務(wù) 治理 第5部分:數(shù)據(jù)治理規(guī)范》(GB/T 34960.5—2018)。
不局限于常規(guī)語種,出現(xiàn)了如漢語到盲文(楊文珍,等2017)、古今漢語(張引,陳琴菲2019)等互譯。
“語言文字智治現(xiàn)代化”涉及兩個層面:其一,提升針對語言數(shù)據(jù)的治理體系和治理能力現(xiàn)代化;其二,利用數(shù)字化和智能化的便利條件來提升語言治理的現(xiàn)代化水平。參見王春輝(2020)。
見二(一)中有關(guān)語言數(shù)據(jù)的特性分析。