馬程昕,劉喜球
(1.吉首大學(xué) 旅游與管理工程學(xué)院,湖南 張家界 427000;2.吉首大學(xué) 圖書館,湖南 吉首 416000)
土家族是一個文化色彩豐富的民族,具有自己獨特的民族特色語言——土家語。土家語是目前土家族使用土家語支僅有的兩種語言的統(tǒng)稱,兩種語言分別是畢基語和孟茲語。土家語隸屬于藏緬語族,語支在學(xué)術(shù)界還未有一個標(biāo)準(zhǔn)的界定,土家語由于獨特的語言風(fēng)格而沒有本民族文字。土家族的分布決定了土家語的分布,主要在湖南、湖北、貴州、重慶四省交界地帶的武陵山片區(qū),但這些地區(qū)土家族人的語言大多數(shù)主要以漢語為主,還有部分土家族人兼用著苗語,而只有龍山、永順等縣的小部分土家族人會說土家語。
由于社會教育對土家族的影響、土家族本族勞動力的外流、土家族對自己語言文化的不重視、沒有具體的文字導(dǎo)致傳承比較困難、現(xiàn)代化的發(fā)展和漢語的普遍化等因素導(dǎo)致了土家語這種特色的民族語言處于深度瀕危狀態(tài)。目前,我國土家語的使用人數(shù)逐漸減少,土家語瀕?;彩侵饾u成為明顯的社會事實,是不以人的意志為轉(zhuǎn)移的客觀存在的現(xiàn)象[1]。面對瀕危語言保護(hù)中出現(xiàn)的種種問題,國家也出臺了相應(yīng)的有關(guān)保護(hù)少數(shù)民族語言的政策法規(guī),例如:中共中央辦公廳、國務(wù)院辦公廳2017年印發(fā)的《關(guān)于實施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見》中要求“保護(hù)傳承方言文化”,國家民族事務(wù)委員會2010年發(fā)布的《國家民委關(guān)于做好少數(shù)民族語言文字管理工作的意見》第15條規(guī)定“加強(qiáng)少數(shù)民族瀕危語言的搶救、保護(hù)工作”,所以就土家語目前的形勢來看,需要研究者加大語言傳承和保護(hù)方面的科研力度,這就需要研究者針對土家語構(gòu)建相應(yīng)的語料庫,保存好土家族的民族語言,以避免這種沒有文字的少數(shù)民族語言得不到很好的保護(hù)而消失在歷史的長河中。
何為語料庫?語料庫是通過所獲取的數(shù)據(jù)和信息采取定性分析和定量分析的研究方法整合成一個有規(guī)律的知識結(jié)構(gòu)。運用語料庫分析手段不但可以有效地把有關(guān)數(shù)據(jù)提取出來,還能使隱藏于大規(guī)模文本中的信息浮現(xiàn)出來[2]。語料庫目的是提供一個足夠大的資源,通過整合來自主要語系的語言來促進(jìn)語言之間的分析[3]。由于研究目的的差異性和獨特性,語料庫又可分為:多語語料庫、單語語料庫、平行語料庫等。語料庫擁有幾項特征:①語料庫所存放的資料是語言在現(xiàn)實生活中真實出現(xiàn)過的語言材料;②語料庫所存放的只是關(guān)于語言知識的基礎(chǔ)性資源;③語料庫所存放的真實語料數(shù)據(jù)需要經(jīng)過一定的加工處理才能成為可以利用的數(shù)據(jù)資源。
語料庫作為一種對于語言的研究工具,廣泛地運用于語言研究的各方面,如詞典學(xué)、翻譯、目錄學(xué)等領(lǐng)域。20世紀(jì)60年代初,美國布朗大學(xué)的兩位語言學(xué)家W·N·Francis與H.Kuera為了突破當(dāng)時語言學(xué)界對于語言的相關(guān)研究只是紙上談兵的界限,展開了對于語言學(xué)實證方面的研究,建成了世界上第一個機(jī)讀英語語料庫——布朗語料庫,該語料庫收集了書面語言文本高達(dá)100萬冊,為語言學(xué)開啟了新的研究歷程。隨著科學(xué)技術(shù)的不斷發(fā)展,計算機(jī)設(shè)備的條件進(jìn)一步成熟,軟、硬件技術(shù)水平也不斷提高,現(xiàn)代化科技背景下的新型機(jī)讀語料庫成為語言理論和詞匯結(jié)構(gòu)研究的重要工具之一。此后經(jīng)過多年的努力,世界各國研究者對于基于語料庫的語言學(xué)研究和建設(shè)語料庫等方面都取得了很大成果,語料庫的研究內(nèi)容也逐漸豐富起來,涉及教學(xué)、翻譯、語義、詞典、語法等多個方面。從目前的學(xué)術(shù)研究來看,以語料庫為基點的方法論和實證研究已經(jīng)在語言學(xué)的領(lǐng)域里有了自己的一席之地,并且正處于一個上升的階段。
構(gòu)建土家語語料庫能夠更好地保護(hù)土家語非物質(zhì)文化遺產(chǎn),使面臨瀕危的土家語言能夠得到系統(tǒng)整理,永久地保存。在當(dāng)今全球化的過程中,由于先進(jìn)地區(qū)的經(jīng)濟(jì)、文化、教育的滲透對于落后地區(qū)的影響,出現(xiàn)了土家語使用人數(shù)的逐漸減少,土家語使用地域的范圍也逐漸縮小等現(xiàn)象。目前,會講土家語的人少之又少,且大多數(shù)是村里老一輩的土家族人,年輕一代的土家族人基本“漢化”,很少有人會說土家語。近年來,我國眾多研究者對于土家語語言瀕危的嚴(yán)重性關(guān)注度逐漸提高,并且眾多學(xué)者以多種多樣的研究形式和方法來記錄和保存土家語這一瀕危語言。在眾多的方法和措施中,建立土家語語料庫是對這種瀕危語言進(jìn)行保護(hù)和搶救的一項重要措施。
構(gòu)建土家語語料庫能減輕研究者的勞動強(qiáng)度和給予后來研究者一個研究的基礎(chǔ),方便后面研究者的后續(xù)研究。對語言的研究必須要以事實為依據(jù),且與理論相結(jié)合,傳統(tǒng)研究過程中,對于語言材料的采集、整理和加工等工作都是要靠研究者們純手工進(jìn)行的,這是一項非常耗力耗時的工作。構(gòu)建土家語語料庫時需要采用計算機(jī)技術(shù),研究者們可以把許多機(jī)械性的工作交給計算機(jī)去完成,從而大大減輕了工作強(qiáng)度,并且也方便后續(xù)研究者有效地進(jìn)行大規(guī)模對土家語語言資料的查詢、檢索和統(tǒng)計等,從而提高工作效率。
語料采集是語料庫建設(shè)的重要環(huán)節(jié),既包括內(nèi)容信息,又包括標(biāo)題、作者以及數(shù)據(jù)來源等元數(shù)據(jù)信息[4]。土家語采集的主要原始資料包括:①關(guān)于記錄土家語的紙本文獻(xiàn);②土家語聲像文獻(xiàn)。土家語沒有本民族的特有的字體,紙本文獻(xiàn)大多數(shù)是由漢語所描述土家語的相關(guān)文獻(xiàn),包括土家語的傳統(tǒng)習(xí)俗、歷史傳說、民謠詩賦、民間故事等相關(guān)資料。土家語的聲像文獻(xiàn)是對土家族人進(jìn)行語音資料采集所得到的,包括民謠的攝影、民間故事的錄音、傳統(tǒng)習(xí)俗和口述歷史的錄像等。對于這些資料的采集,我們在開始進(jìn)行錄音采訪之前要確定一個明確目的,和時間、人物、地點、工作步驟、人員配置、設(shè)備配置,以便于工作過程中提高時間效率和降低采集成本。在搜集紙本文獻(xiàn)時應(yīng)確立一個相應(yīng)的范圍,做好人員的分配情況,不同的人員搜集不同的數(shù)據(jù)庫,進(jìn)行下鄉(xiāng)作業(yè)的人員要提前了解當(dāng)?shù)氐那闆r,以保證工作的順利進(jìn)行。在采集語料的過程中也可以利用Editor Tools、Spider Foot等自動化信息收集工具通過年鑒、政府報告、網(wǎng)站等資源中直接采集。
土家族語言沒有本民族特有的文字,對不同地區(qū)采集的資料文獻(xiàn)應(yīng)該使用統(tǒng)一的文字進(jìn)行整理,才能夠讓后續(xù)研究者使用這些資源時更加的方便。對于聲像文獻(xiàn)的整理,大部分語言研究學(xué)者對土家語的標(biāo)注是利用國際音標(biāo)進(jìn)行注音,語音標(biāo)注可以使用Praat等軟件,對標(biāo)注信息層層對應(yīng),包括漢語直譯、句子漢語意譯等多方位信息進(jìn)行標(biāo)注,進(jìn)而將這些語料資源加工、整理后進(jìn)行分類,將其分為字、詞、短句、長句、故事等片段進(jìn)行保存。在翻譯整理的過程中也會遇到很多困難,主要體現(xiàn)在:①土家語語言結(jié)構(gòu)非常不穩(wěn),特別是聲音語調(diào)方面更不穩(wěn)定,由于帶著方言特色的原因,不同的土家族人在操用土家語講話的語調(diào)方面存在許多差異,這就給后期翻譯和整理工作帶來一定難度;②自然語言單個詞語中一詞多義和同義詞的特征始終存在在自然語言處理(NLP)和信息檢索(IR)領(lǐng)域一直是一個挑戰(zhàn);③土家語信息文本的數(shù)量巨大,翻譯工作任務(wù)繁重;④能夠掌握土家語和漢語的雙語人員較少;⑤在進(jìn)行國際音標(biāo)標(biāo)注的時,能夠看懂國際音標(biāo)基本是田野語言學(xué)的人員,這就在學(xué)科領(lǐng)域方面有了限制,對專業(yè)的要求也非常高。
語料資源的儲存需要數(shù)據(jù)庫作為依托,根據(jù)土家語語料類型的不同需要建立文本數(shù)據(jù)庫和語音數(shù)據(jù)庫。在構(gòu)建的過程中需要對采集的語料資源類型進(jìn)行分類處理,將所搜集的描述土家語的相關(guān)文獻(xiàn)、記載土家語的相關(guān)文獻(xiàn)還有對于語音信息進(jìn)行記載和翻譯的文本文獻(xiàn)進(jìn)行整理放入文本數(shù)據(jù);將錄音、攝影、錄像等聲像文獻(xiàn)放入語音數(shù)據(jù)庫。并且對每一份語音資料和文本資料構(gòu)建好相應(yīng)的關(guān)鍵詞和元數(shù)據(jù),包括對語音資料中發(fā)音人的具體信息和紙本文獻(xiàn)的題名、作者、日期等進(jìn)行標(biāo)注,方便后續(xù)查詢和檢索。構(gòu)建良好的數(shù)據(jù)庫模式,能夠有效地存儲語料數(shù)據(jù)和方便各種用戶使用這些語料數(shù)據(jù)[5]。
圖1 漢土語音轉(zhuǎn)換系統(tǒng)示意
在構(gòu)建土家語語料庫時,我們需要對土家語進(jìn)行一個平行的漢語實時轉(zhuǎn)換,才有利于研究者們更好地利用這個語料庫。由于土家語沒有文字,構(gòu)造這個系統(tǒng)也是有一定的難度。其原理就是我們在說漢語時,聲音輸入到語料庫中然后語料庫輸出土家語的發(fā)音,或者會說土家語的人在說土家語時,聲音輸入到語料庫中然后語料庫輸出漢語的發(fā)音,這個系統(tǒng)的設(shè)計非常煩瑣,其原理需要用到人工智能語音識別系統(tǒng)和傳統(tǒng)語料庫平行轉(zhuǎn)換系統(tǒng)Praat等相結(jié)合。語音數(shù)據(jù)庫的語音標(biāo)記用的是Praat軟件中的國際少數(shù)民族語文研究院(SIL)的標(biāo)注字體,用的是Sampa符號。在面向非專業(yè)人員的界面中,Sampa符號須轉(zhuǎn)換為IPA符號,而在搜索和查詢等功能中,IPA符號只有轉(zhuǎn)換為Sampa符號才能在數(shù)據(jù)庫中順利運行[6](見圖1)。
目前,對于土家語語料庫的研究還處于摸索和發(fā)展的階段,想要構(gòu)建一個較為完整的土家語語料庫還需要更多的土家語方面的研究人員參與,也更需要政府主導(dǎo)和資金支持,只有這樣才能更有利于促進(jìn)對土家語的保護(hù)和搶救,避免這種語言消失在歷史的長河中。