• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      少數(shù)民族語言數(shù)字遺產(chǎn)的保護(hù)

      2018-02-10 05:42:13范俊軍
      關(guān)鍵詞:語料遺產(chǎn)少數(shù)民族

      范俊軍

      (暨南大學(xué) 文學(xué)院,廣州 廣東 510632)

      一、少數(shù)民族語言數(shù)字遺產(chǎn)的定義和范圍

      2015年5月14日,教育部、國家語委發(fā)布文件《教育部國家語委關(guān)于啟動中國語言資源保護(hù)工程的通知》,決定自2015年起啟動中國語言資源保護(hù)工程(簡稱語保工程),用5年時(shí)間在全國開展以語言資源調(diào)查、保存、展示和開發(fā)利用等為核心的各項(xiàng)工作*文件原文見教育部語言文字信息管理司網(wǎng)站:http://www.moe.gov.cn/srcsite/A19/s7067/201506/t20150610_189880.html。。此前2014年國家科技支撐計(jì)劃對“三方工程中國語言資源有聲數(shù)據(jù)庫技術(shù)規(guī)范與平臺研發(fā)”進(jìn)行了立項(xiàng),目標(biāo)是搭建語言資源技術(shù)平臺;而語保工程的主要目標(biāo)則是“利用現(xiàn)代化技術(shù)手段,收集記錄漢語方言、少數(shù)民族語言和口頭語言文化的實(shí)態(tài)語料,通過科學(xué)整理和加工,建成大規(guī)模、可持續(xù)增長的多媒體語言資源庫”*見教育部、國家語言文字工作委員會文件《教育部國家語委關(guān)于啟動中國語言資源保護(hù)工程的通知》(教語信〔2015〕2號]附件《中國語言資源保護(hù)工程管理辦法(試行)》。。這是迄今世界上由國家政府主持、工作規(guī)模最大的國家語言資源保護(hù)工程,核心任務(wù)是采用數(shù)字化媒體手段記錄我國漢語方言和民族語言,將數(shù)字語料作為文化遺產(chǎn)永久保存。

      實(shí)際上,早在本世紀(jì)之初,國際社會就已關(guān)注數(shù)字技術(shù)廣泛應(yīng)用所產(chǎn)生的大量數(shù)字資源的管理和保護(hù)問題。聯(lián)合國教科文組織2003年第十八次全體會議通過的《保護(hù)數(shù)字遺產(chǎn)憲章》*聯(lián)合國教科文組織《保護(hù)數(shù)字遺產(chǎn)憲章》(Charter on the Preservation of Digital Heritage)第一條。來源:http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html。指出:“數(shù)字遺產(chǎn)由人類的知識和表達(dá)方式的獨(dú)特資源組成,它包括以數(shù)字方式生成的或從現(xiàn)有模擬資源轉(zhuǎn)換成數(shù)字形式的有關(guān)文化、教育、科學(xué)和行政管理的資源及有關(guān)技術(shù)、法律、醫(yī)學(xué)和其他領(lǐng)域的信息。那些‘原生數(shù)字’資源除了數(shù)字形式,別無其他形式……數(shù)字資源的形式多種多樣,且日益增多,包括文字、數(shù)據(jù)庫、靜態(tài)和動態(tài)的圖像、聲音和圖表、軟件和網(wǎng)頁等。它們存在的時(shí)間一般不長,需要有意地制作、維護(hù)和管理才能保存下來……這類資源大多具有長久的價(jià)值和意義,因而是一種應(yīng)為當(dāng)代人和后代人而加以保護(hù)和保存的遺產(chǎn)。各種語言、世界各地和人類的各種知識或表達(dá)方式都可能有這種呈增長趨勢的遺產(chǎn)?!?/p>

      本文提出“少數(shù)民族語言數(shù)字遺產(chǎn)”概念。它指早期和現(xiàn)時(shí)操作系統(tǒng)及應(yīng)用軟件生成的、現(xiàn)在和將來都有研究和利用價(jià)值的民族語言數(shù)字語料,包括具有社會歷史文化意義和傳統(tǒng)知識價(jià)值的語音、詞匯、會話、敘述、解說、演唱等形式的音視頻、文本、數(shù)據(jù)庫和語料庫。這些數(shù)字語料有的是從音像磁帶轉(zhuǎn)換而來,有的是紙質(zhì)記錄的電子文檔,有的是數(shù)字設(shè)備和軟件錄制的原生語料。根據(jù)《中華人民共和國非物質(zhì)文化遺產(chǎn)保護(hù)法》有關(guān)遺產(chǎn)的定義精神,結(jié)合我國少數(shù)民族社會、文化、傳統(tǒng)知識的口頭表達(dá)和敘述特性,我們將少數(shù)民族語言數(shù)字遺產(chǎn)劃分為以下五種:

      (1)少數(shù)民族瀕危語言口語詞匯、日常用語和各種情景話語。

      (2)少數(shù)民族語言的口傳文學(xué)和口述重要?dú)v史。

      (3)少數(shù)民族語言講解和敘述的本土傳統(tǒng)技術(shù)和工藝。

      (4)少數(shù)民族語言表達(dá)、敘述和演唱的傳統(tǒng)風(fēng)俗、禮儀、藝術(shù)。

      (5)少數(shù)民族語言關(guān)于傳統(tǒng)環(huán)境知識的詞匯和表達(dá)。

      應(yīng)予以強(qiáng)調(diào)的是,少數(shù)民族語言數(shù)字遺產(chǎn)是指那些具有社會歷史文化意義和傳統(tǒng)知識價(jià)值的數(shù)字語料,而不是有關(guān)少數(shù)民族語言的所有數(shù)字資料。最明顯的是排除了少數(shù)民族語言文字的研究資料。這是因?yàn)?,少?shù)民族語言文字研究資料,如學(xué)術(shù)論文和著作,是基于語料的描寫分析,是第二性的數(shù)據(jù);對語料的描述和分析常常是主觀的、變化的、多樣的,有的甚至是不科學(xué)或錯誤的,它們不具備長久的利用價(jià)值和傳承價(jià)值。語料則不一樣,它是活態(tài)言語的記錄(文字記錄或音像記錄),屬于原生語言資源。語言遺產(chǎn)在口頭上表現(xiàn)為世代相傳的言語,在書面則表現(xiàn)為文字(符號)記錄的言語,即詞語、語句、話語;其物理形態(tài)為發(fā)音說話的聲音、圖像和影像。作為活態(tài)言語樣本的數(shù)字語料是客觀的、不變的,無論現(xiàn)在或?qū)?,無論任何人或任何目的,都可用作研究或其他用途,如語言教學(xué)或語言工程。正因如此少數(shù)民族語言的數(shù)字語料才具備現(xiàn)在和將來都有研究和利用價(jià)值。排除少數(shù)民族語言文字研究資料,體現(xiàn)了《保護(hù)數(shù)字遺產(chǎn)憲章》定義的精神。

      二、少數(shù)民族語言數(shù)字遺產(chǎn)的狀況

      一、現(xiàn)狀和問題

      我國大約由2000年開始普及臺式電腦,語言學(xué)界開始用Office、WPS、北大方正等軟件錄入語言調(diào)查資料。大約2005年國內(nèi)市場開始大量出現(xiàn)數(shù)字錄音筆,語言學(xué)界從那時(shí)起開始用數(shù)字錄音設(shè)備采集有聲語料。十多年來,語言學(xué)教師和學(xué)生、語文工作者、地方文化和文藝工作者耗費(fèi)了大量人力、財(cái)力和物力,采集和留存了大量的少數(shù)民族語言和口傳文學(xué)藝術(shù)等數(shù)字語料,有的語言現(xiàn)已瀕?;?yàn)l臨滅絕,十年前記錄的音像和文本語料可能是唯一的記錄,這類數(shù)字語料現(xiàn)在和今后都有較大的研究和利用價(jià)值,屬于語言數(shù)字遺產(chǎn),應(yīng)予以保存和保護(hù),但實(shí)際情況并不樂觀,主要有以下表現(xiàn):

      (1)數(shù)量巨大、保管分散

      我國每年有超過100篇的學(xué)位論文以少數(shù)民族語言為題*這是不完全統(tǒng)計(jì)數(shù)據(jù),有的高等院校的論文沒有授權(quán)加入中國知網(wǎng)數(shù)據(jù)庫。,超過30項(xiàng)少數(shù)民族語言的教育部人文社科項(xiàng)目、國家民委研究項(xiàng)目、國家語委研究項(xiàng)目、國家社科基金項(xiàng)目*數(shù)據(jù)來源:國家社科規(guī)劃辦官方網(wǎng)站的“國家社科基金項(xiàng)目數(shù)據(jù)庫”,網(wǎng)址:http://www.npopss-cn.gov.cn/。中國高校人文社會科學(xué)信息網(wǎng)“全國高校人文社科研究項(xiàng)目”數(shù)據(jù)庫查詢結(jié)果統(tǒng)計(jì),網(wǎng)址:http://pub.sinoss.net/portal/webgate/CmdNormalList)。,各省區(qū)每年還資助本省區(qū)的語言研究項(xiàng)目,將高校民族語言專業(yè)的教師、研究生、課題成員的語言調(diào)查工作全部統(tǒng)計(jì)在內(nèi),全國每年至少有100人次進(jìn)行少數(shù)民族語言調(diào)查和記錄。以每人記錄2000詞、100句、2~3段話語或口傳文學(xué),攝錄50分鐘時(shí)長的視頻來計(jì)算,最近11年(2006—2017)采錄的少數(shù)民族語言數(shù)字語料,保守估計(jì)數(shù)據(jù)總量也超過200T。這僅僅是從事民族語言教學(xué)研究的教師和研究生采錄語料的估算,還不包括各地方少數(shù)民族文化領(lǐng)域和其他領(lǐng)域志愿者或愛好者采集的音像數(shù)據(jù)。

      除了已經(jīng)出版的少數(shù)民族語言的著作里常常附有詞表、句子、長篇語料外,絕大多數(shù)數(shù)字音像和文本語料由教師、研究生、語文工作者、民間志愿者持有,小部分則放在一些研究機(jī)構(gòu)的資料室。有不少個人持有的數(shù)字語料因持有者不再從事語言工作而被遺棄,即使保留在一些研究機(jī)構(gòu)的資料也因人員變動和疏于管理而處于閑置和浪費(fèi)狀態(tài)。

      (2)介質(zhì)龐雜、格式老化

      文本數(shù)字語料有doc、txt、xls、PDF、docx、xlsx等文件格式和某些專用軟件格式。音頻視頻有早期錄音筆和錄像機(jī)的格式,不同媒體播放器的特有格式,舊操作系統(tǒng)或舊媒體解碼軟件的媒體格式。有的語料是數(shù)據(jù)庫文件,包括不同數(shù)據(jù)庫軟件生成的數(shù)據(jù)庫文件。除了文件格式多樣,還存在語料內(nèi)容、數(shù)據(jù)形式、數(shù)據(jù)結(jié)構(gòu)細(xì)節(jié)等缺乏記錄的問題。存儲介質(zhì)有早期的3寸磁盤、CD、DVD、U盤、移動硬盤、早期PC機(jī)硬盤、筆記本硬盤等等。林林總總各種各樣介質(zhì)和數(shù)據(jù)模式的語料,完整保留下來的有多少?存儲介質(zhì)完好的有多少?能有效讀取和瀏覽的有多少?進(jìn)行數(shù)據(jù)轉(zhuǎn)換升級的又有多少?筆者認(rèn)為,情況不容樂觀。

      (3)數(shù)據(jù)參差、無法互用

      個人和某些機(jī)構(gòu)保留的少數(shù)民族語言數(shù)字語料,有的音像數(shù)據(jù)有規(guī)范的轉(zhuǎn)寫和注釋,有的則殘缺不齊。注釋文本有的使用通用字庫,有的使用自定義字體,或兩者混雜。轉(zhuǎn)寫多用office軟件錄入,文本和音像分離,且大多數(shù)語料數(shù)字文件缺乏有序命名和聚類編目。由于語料數(shù)據(jù)都是個人按自己的愛好或研究興趣錄制和處理,數(shù)據(jù)內(nèi)容和質(zhì)量參差不齊,沒有遵循相關(guān)語言文字規(guī)范和技術(shù)標(biāo)準(zhǔn),致使許多資料無法互用和共享。

      (二)原因分析

      數(shù)字技術(shù)不斷革新,客觀上會生成源源不斷的數(shù)字資料。如前所述,我國每年有大量少數(shù)民族語言和漢語方言數(shù)字語料被閑置和遺棄,其中不乏珍貴的語言數(shù)字遺產(chǎn)。造成這種狀況,除了設(shè)備和軟件、操作系統(tǒng)升級換代等客觀因素之外,主要原因是少數(shù)民族語言文化界在語言數(shù)字遺產(chǎn)保護(hù)方面的觀念落后、行動遲緩、技能欠缺。

      首先是認(rèn)識不到位。研究生寫完了學(xué)位論文,拿到了學(xué)位;教師出版了論文和著作,課題結(jié)項(xiàng),晉升職稱,以前的語料不再有“功利”用途,閑置就閑置,廢棄就廢棄,沒有必要再保存或保護(hù)。其次是疏于行動。研究生三年苦讀,耗費(fèi)許多時(shí)間、金錢和精力;教師耗時(shí)幾年完成項(xiàng)目和著作,大量第一手語料棄之可惜,但要長久保存,還得投入時(shí)間和精力,顯得有心無力,難以顧及或懶于行動。三是技能欠缺。許多教師和研究生開展民族語言田野調(diào)查,上高山、入峽谷、過沙漠、睡草原、跑江湖,辛辛苦苦記筆記、錄音錄像,當(dāng)然明白資料的價(jià)值,也想好好保存,而且不吝時(shí)間和精力整理這些語料,但苦于缺乏這方面的技能。

      如何解決上述問題?雖然我國走過了十余年數(shù)字化歷程,但形成一種普遍的學(xué)術(shù)觀念和治學(xué)習(xí)慣,仍需要一二代甚至幾代人的努力。我國在保護(hù)少數(shù)民族語言數(shù)字遺產(chǎn)方面比較滯后,主要有以下兩方面原因:一方面,語言數(shù)字資源主要是民族語言和地域方言,語言數(shù)字遺產(chǎn)的產(chǎn)生和保護(hù)主要在民族地區(qū)和鄉(xiāng)村方言區(qū),而恰恰這些地區(qū)數(shù)字化進(jìn)程滯后,數(shù)字資源創(chuàng)建、保存、利用的觀念和技術(shù)的普及傳播遲緩。因此,在民族地區(qū)和鄉(xiāng)村方言區(qū)文化界,宣傳保護(hù)語言文化數(shù)字遺產(chǎn)的理念,提高認(rèn)識,顯得極為必要和迫切。另一方面,國內(nèi)語言學(xué)教學(xué)課程中尚未將語言資源知識納入學(xué)科內(nèi)容,學(xué)界未形成語言資源加工利用的治學(xué)習(xí)慣和工作慣性。因此,要在語言學(xué)界宣傳和倡導(dǎo)保護(hù)語言數(shù)字資源的思想,促進(jìn)學(xué)術(shù)意識的形成。

      除了倡導(dǎo)保護(hù)語言數(shù)字遺產(chǎn)的理念,還應(yīng)建立科學(xué)保護(hù)語言數(shù)字遺產(chǎn)的學(xué)術(shù)規(guī)范,以指導(dǎo)語言數(shù)字遺產(chǎn)保護(hù)的實(shí)踐。少數(shù)民族語言專業(yè)的教師和研究生、地方民族語文工作者應(yīng)積極行動起來,與相關(guān)學(xué)科展開合作,調(diào)查了解少數(shù)民族語言數(shù)字遺產(chǎn)現(xiàn)狀,建立可行的語言數(shù)字遺產(chǎn)鑒別評估準(zhǔn)則,使語言數(shù)字遺產(chǎn)調(diào)研和收集有章可循、有矩可依。

      此外,要大力促進(jìn)語言數(shù)字遺產(chǎn)技術(shù)工具的運(yùn)用。雖然民族語言學(xué)領(lǐng)域在吸收前沿理論、先進(jìn)田野經(jīng)驗(yàn)、數(shù)字技術(shù)手段方面進(jìn)展較快,但總體發(fā)展仍不平衡。例如,用數(shù)字設(shè)備采集語料,用軟件工具加工語料,這方面技能還普及得不夠。再如,采集和處理數(shù)字語料大多限于通用文字處理軟件,對語料管理工具、轉(zhuǎn)寫工具、傳播發(fā)布工具還普遍陌生。保護(hù)和利用語言數(shù)字遺產(chǎn)的基礎(chǔ)工作是集成、加工、建檔。個人或機(jī)構(gòu)產(chǎn)生的數(shù)字語料都應(yīng)進(jìn)行集成,研發(fā)語言數(shù)字資源庫,生成適合PC和手機(jī)端的網(wǎng)絡(luò)資源。有志于保護(hù)民族語言數(shù)字遺產(chǎn)的人士,學(xué)習(xí)掌握二三種數(shù)字語料技術(shù)工具是十分必要的。尤其民族語言界的青年教師和研究生,應(yīng)把語言數(shù)字技能作為專業(yè)能力的組成部分,養(yǎng)成運(yùn)用語言技術(shù)工具的治學(xué)習(xí)慣。

      三、保護(hù)語言數(shù)字遺產(chǎn)的幾個相關(guān)問題

      保護(hù)和利用是一個事情的兩個方面,保護(hù)是為了利用,有利用價(jià)值才需加以保護(hù)。保護(hù)少數(shù)民族語言數(shù)字遺產(chǎn),最好的方法就是利用。單純保存語言數(shù)字資料沒有意義,只有語言數(shù)字遺產(chǎn)才納入保護(hù)范圍。語言數(shù)字遺產(chǎn)的核心是它的內(nèi)容和數(shù)據(jù)實(shí)體,必須確保內(nèi)容實(shí)體的數(shù)據(jù)永久有效、完整讀取和瀏覽。將語言數(shù)字遺產(chǎn)的范圍定義為數(shù)字語料而不是基于語料的研究資料,正是考慮到數(shù)字語料是原態(tài)語言資源,具有永久研究和利用價(jià)值的也是這種原態(tài)語料。同樣,語言數(shù)字遺產(chǎn)是以多媒體數(shù)字檔案庫的形式存儲的,語檔本身也需要保護(hù)。保護(hù)語言數(shù)字遺產(chǎn)涉及以下幾方面問題。

      (一)政策法律問題

      就數(shù)字遺產(chǎn)而言,哪些必須保護(hù),哪些不必保護(hù),首先面臨數(shù)字遺產(chǎn)的鑒別和價(jià)值確定。如果對前面定義的五項(xiàng)語言數(shù)字語料屬于數(shù)字遺產(chǎn)加以承認(rèn),那么根據(jù)《保護(hù)數(shù)字遺產(chǎn)憲章》精神,就應(yīng)予以保護(hù)。但是,憲章只是國際共識,不具有法律約束力。作為數(shù)字遺產(chǎn)的少數(shù)民族語言數(shù)字語料(包括數(shù)字遺產(chǎn)檔案),只有納入法律框架才能實(shí)現(xiàn)真正的保護(hù)。目前我國還沒有專門的“文化數(shù)字遺產(chǎn)”法律。作為數(shù)字遺產(chǎn)的民族語言數(shù)字語料*中華人民共和國第十二屆全國人民代表大會常務(wù)委員會第二十四次會議2016年11月7日通過的《中華人民共和國網(wǎng)絡(luò)安全法》自2017年6月1日起施行。該法定義的“關(guān)鍵信息基礎(chǔ)設(shè)施”主要是指國家對公共通信和信息服務(wù)、能源、交通、水利、金融、公共服務(wù)、電子政務(wù)等重要行業(yè)和領(lǐng)域,以及其他一旦遭到破壞、喪失功能或者數(shù)據(jù)泄露,可能嚴(yán)重危害國家安全、國計(jì)民生、公共利益的關(guān)鍵信息基礎(chǔ)設(shè)施,但未涉及其他數(shù)字化數(shù)據(jù)的安全保護(hù)問題。,究竟屬于哪類遺產(chǎn),適用哪種法律?如果屬于文化遺產(chǎn),它適用哪部法律?*2011年通過的《中華人民共和國非物質(zhì)文化遺產(chǎn)法》第二條中所列六種非物質(zhì)文化遺產(chǎn)中未明確涉及數(shù)字遺產(chǎn),但第(六)“其他非物質(zhì)文化遺產(chǎn)”是否也包括數(shù)字遺產(chǎn)?目前沒有見到相關(guān)法律解釋。如果屬于其他數(shù)字遺產(chǎn),又適用哪部法律?從實(shí)踐上看,保護(hù)少數(shù)民族語言數(shù)字遺產(chǎn),需要明確的政策和相關(guān)法律支持。

      (二)實(shí)施主體問題

      保護(hù)少數(shù)民族語言數(shù)字遺產(chǎn)的實(shí)施主體是個人還是機(jī)構(gòu),或兩者均可?如果民族語言學(xué)界普遍具有語言數(shù)字資源的保護(hù)意識和行為習(xí)慣,這個問題就迎刃而解。個人保存語言數(shù)字遺產(chǎn)很難持續(xù)三代,而且常常限于個人利用,不能做到社會互用和永久有效。少數(shù)民族語言數(shù)字遺產(chǎn)的保護(hù)歸根到底應(yīng)由公共服務(wù)機(jī)構(gòu)承擔(dān)。那么,哪些機(jī)構(gòu)有這種義務(wù)和責(zé)任,博物館、檔案館還是圖書館,或者三家機(jī)構(gòu)都有責(zé)任?如果圖書館、檔案館、博物館愿意保存語言數(shù)字遺產(chǎn),但要確保語言數(shù)字遺產(chǎn)永久可用,則需要持續(xù)的人力、物力、財(cái)力支持,這又回到了前面的政策法律依據(jù)問題,因?yàn)橹灰蟹梢罁?jù),有關(guān)機(jī)構(gòu)才能獲得持久的人力物力財(cái)力保證。當(dāng)然,我們不能等到法律或政策出臺才去實(shí)施民族語言數(shù)字遺產(chǎn)保護(hù)。在現(xiàn)實(shí)情況下,民族地區(qū)圖書館、博物館、檔案館等公共服務(wù)機(jī)構(gòu),作為民族語言數(shù)字遺產(chǎn)保護(hù)的實(shí)施主體,應(yīng)主動承當(dāng)相應(yīng)社會義務(wù)??梢岳妹褡逭Z言數(shù)字遺產(chǎn),開展社會化和市場化的語言資源數(shù)據(jù)服務(wù),吸收社會資金,解決遺產(chǎn)保護(hù)所需的人力物力和財(cái)力支持問題。民族語言教師、研究生、語文工作者應(yīng)無私地與這些公共服務(wù)機(jī)構(gòu)攜手合作,在語言數(shù)字資源產(chǎn)學(xué)研轉(zhuǎn)化方面做出努力和行動。

      (三)技術(shù)工具問題

      現(xiàn)時(shí)而言,將國內(nèi)少數(shù)民族語言數(shù)字語料集成化、數(shù)據(jù)庫化和網(wǎng)絡(luò)化,是最有效的保護(hù)和利用。數(shù)字遺產(chǎn)持有人即使保留了齊全的數(shù)據(jù)文件,編制了目錄,建立了完整的文件包,充其量是自己使用或復(fù)制給個別人使用,但無法保證數(shù)字文件的長期安全,更無法做到將數(shù)據(jù)便捷地呈現(xiàn)給社會。可見,語言數(shù)字遺產(chǎn)的保護(hù),除了數(shù)字語料集成,還要制成數(shù)據(jù)庫,實(shí)現(xiàn)網(wǎng)絡(luò)化。

      集成加工、制作數(shù)據(jù)庫和網(wǎng)絡(luò)傳播,需要個人和服務(wù)機(jī)構(gòu)普遍掌握相關(guān)技術(shù)工具。技術(shù)工具可從現(xiàn)有工具中優(yōu)選,也可開發(fā)。選用什么工具取決于現(xiàn)存語言數(shù)字遺產(chǎn)的數(shù)據(jù)模式和文件格式?,F(xiàn)時(shí)的語言數(shù)字遺產(chǎn)數(shù)據(jù)模式和文件格式主要有以下幾類:

      (1)媒體文件。wav、MP3、mp4、mpg、avi、wmv、qt或某些軟件專用文件格式的語言詞匯、句子、話語音頻和視頻文件,其中大多數(shù)是錄音文件。詞匯和句子的錄音文件既有碎片式,即每個詞、每個句子單獨(dú)一個音頻(含視頻文件);也有長時(shí)文件,即多個單詞或多個句子錄在一個錄音文件里。話語錄音則主要是長時(shí)音頻(含視頻)文件。

      (2)文本數(shù)據(jù)。doc、PDF、xls等格式的詞匯、句子、話語文本,包括單語的語料和多語的對照語料。其中詞匯資料大多是二維表word文檔,句子是注音、漢語詞對譯、句意譯三行標(biāo)注的word文檔。話語文本(一般是口傳文學(xué)和少量對話)分三種:一是注音、漢語詞對譯兩行,另加整個話語的漢語意譯文段;二是整個話語的注音、漢語意譯兩個文段;三是注音、漢語詞對譯、漢語句意譯的三行對齊文本。

      (3)特定詞匯、句子、語篇文本和/或多媒體數(shù)據(jù)。有的是自行開發(fā)的數(shù)據(jù)庫軟件,如中國社會科學(xué)院民族學(xué)與人類學(xué)研究所的“漢藏語言同源詞數(shù)據(jù)庫”是單機(jī)版詞匯數(shù)據(jù)庫;暨南大學(xué)發(fā)布的Sonicfield可生成單字、詞匯、句子多媒體數(shù)據(jù)庫;國家語保工程的錄音錄像軟件和標(biāo)注軟件生成的字詞句電子表格、話語xml文本、音頻視頻文件。此外,還有使用Toolbox、Flex、ELAN、EXMARALDA等國外軟件創(chuàng)建的詞匯、句子、話語語料庫,這些軟件有自己的數(shù)據(jù)模式,但多數(shù)可轉(zhuǎn)換為通用數(shù)據(jù)模式。

      語言數(shù)字遺產(chǎn)集成化和數(shù)據(jù)庫化是過程和方法,網(wǎng)絡(luò)化才是目標(biāo)和結(jié)果。單純將語言數(shù)字遺產(chǎn)集成,即使有文件目錄分類,也不便互用。數(shù)據(jù)庫雖然可以互用,但它依賴特定的硬件和軟件環(huán)境,仍然存在過時(shí)而無法讀取的風(fēng)險(xiǎn);而網(wǎng)絡(luò)化的云服務(wù),既方便數(shù)據(jù)資源的互用,又大大降低了數(shù)據(jù)風(fēng)險(xiǎn)。

      從語言數(shù)字遺產(chǎn)加工技能的普及來看,目前應(yīng)選用規(guī)模集成上述三種數(shù)據(jù)的工具,這種工具要能便捷生成適合PC和手機(jī)端的數(shù)字語料網(wǎng)頁文件,如詞表(含音系表、詞匯對照、音節(jié)詞匯等)網(wǎng)頁文件、句表網(wǎng)頁文件、話語網(wǎng)頁文件,從而快速實(shí)現(xiàn)語言數(shù)字遺產(chǎn)的網(wǎng)絡(luò)傳送和使用,以滿足語言族群、社會大眾的學(xué)習(xí)和利用的需要。

      四、結(jié)語

      各行各業(yè)近十年來都在實(shí)施數(shù)字化網(wǎng)絡(luò)化。自PC機(jī)和網(wǎng)絡(luò)尤其是移動網(wǎng)絡(luò)和社交平臺普及以來,人類的所有行為都不知不覺打上了數(shù)字烙印或進(jìn)入了數(shù)字世界,現(xiàn)實(shí)世界和數(shù)字世界已融為一體。數(shù)字化既蘊(yùn)含著無盡潛能,也潛藏著巨大危機(jī)。當(dāng)人類生活和數(shù)字產(chǎn)品、數(shù)字空間不可分、緊相依的時(shí)候,對數(shù)字危機(jī)更應(yīng)當(dāng)有清醒的警覺。譬如,一疊珍貴的手稿掉落水中,可以及時(shí)撈出、曬干、擦凈,恢復(fù)全部或大部分內(nèi)容。數(shù)字化數(shù)據(jù)可能十分脆弱,數(shù)字天空布滿了云朵,五彩繽紛、美艷奪目;當(dāng)我們在數(shù)字云端游移飛渡、自由翱翔的時(shí)候,是否想到云朵聚集之多,天空不能承受之重,驚雷霹靂驟然而至,云朵瞬間會被擊得粉碎?數(shù)字網(wǎng)絡(luò)的數(shù)據(jù)障礙、數(shù)據(jù)損壞、數(shù)據(jù)瞬時(shí)消失所帶來的巨大數(shù)據(jù)災(zāi)難,與天上的云朵氣象何嘗不是如出一轍。

      猜你喜歡
      語料遺產(chǎn)少數(shù)民族
      遺產(chǎn)怎么分
      我認(rèn)識的少數(shù)民族
      千萬遺產(chǎn)
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      少數(shù)民族治療感冒的蕨類植物(一)
      少數(shù)民族治療感冒的蕨類植物(二)
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      遺產(chǎn)之謎
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      三原县| 垣曲县| 康乐县| 株洲市| 阳城县| 綦江县| 伊金霍洛旗| 额敏县| 扬州市| 泽库县| 柘城县| 安康市| 赤城县| 龙游县| 衡阳市| 弥勒县| 碌曲县| 视频| 杭锦后旗| 泰宁县| 宜阳县| 富顺县| 扎囊县| 盈江县| 蒲城县| 临夏县| 永寿县| 南城县| 衡山县| 仪陇县| 通海县| 永福县| 阳新县| 长岛县| 齐齐哈尔市| 天峨县| 河东区| 青岛市| 当阳市| 宁城县| 额济纳旗|