范俊軍
(暨南大學(xué) 文學(xué)院,廣東 廣州 510632)
教育部、國(guó)家語(yǔ)委于2015年啟動(dòng)了中國(guó)語(yǔ)言資源保護(hù)工程(以下簡(jiǎn)稱(chēng)語(yǔ)保工程),至今已實(shí)施四年。按總體規(guī)劃,語(yǔ)保工程將采錄我國(guó)境內(nèi)(含港澳臺(tái)地區(qū))約1 400個(gè)地點(diǎn)的漢語(yǔ)方言和少數(shù)民族語(yǔ)言樣本,包括漢語(yǔ)方言字音、漢語(yǔ)方言和少數(shù)民族語(yǔ)言的詞匯、語(yǔ)法例句和部分口傳文化(話語(yǔ)),要求有書(shū)面調(diào)查筆記、數(shù)字音頻視頻攝錄。目前已驗(yàn)收的多媒體語(yǔ)料都匯集在“家鄉(xiāng)話”網(wǎng)絡(luò)數(shù)據(jù)庫(kù),同時(shí)每個(gè)項(xiàng)目組留存各自單點(diǎn)數(shù)據(jù)資料,整個(gè)工程的數(shù)據(jù)量超過(guò)T級(jí)。隨著語(yǔ)保工程將于2019年底結(jié)束,如何有效利用這些耗巨資采集的數(shù)字語(yǔ)料,這既是擺在管理者和語(yǔ)保人面前的重要任務(wù),也是語(yǔ)言社群和公眾的關(guān)切和期盼。
任何工程都是基于當(dāng)下或未來(lái)社會(huì)需求而產(chǎn)生的,語(yǔ)保工程也不例外。教育部、國(guó)家語(yǔ)委《關(guān)于啟動(dòng)中國(guó)語(yǔ)言資源保護(hù)工程的通知》陳述了工程的目標(biāo):“利用現(xiàn)代化技術(shù)手段,收集記錄漢語(yǔ)方言、少數(shù)民族語(yǔ)言和口頭文化的實(shí)態(tài)語(yǔ)料,進(jìn)行科學(xué)整理和加工,建成大規(guī)模、可持續(xù)增長(zhǎng)的多媒體語(yǔ)言資源庫(kù),并開(kāi)展語(yǔ)言資源保護(hù)研究工作,形成系統(tǒng)的基礎(chǔ)性成果,進(jìn)而進(jìn)行深度開(kāi)發(fā)應(yīng)用,全面提升我國(guó)語(yǔ)言資源保護(hù)和利用的水平,為傳承中華優(yōu)秀傳統(tǒng)文化、促進(jìn)民族團(tuán)結(jié)、維護(hù)國(guó)家安全服務(wù)?!盵1]這也是語(yǔ)保工程的資源應(yīng)用指針。要將這一精神貫穿工程實(shí)施過(guò)程并通過(guò)成果產(chǎn)品得以體現(xiàn)和實(shí)現(xiàn),這就要求頂層設(shè)計(jì)對(duì)具體需求和應(yīng)用有明確規(guī)劃和描述。但從工程所發(fā)布的系列規(guī)范文件中,尚未見(jiàn)到工程的核心成果——資源庫(kù)的應(yīng)用領(lǐng)域和方向的陳述,也未見(jiàn)到關(guān)于資源主體——多媒體語(yǔ)料的利用和開(kāi)發(fā)指針,以致有語(yǔ)保人和語(yǔ)言社群產(chǎn)生了“這么多語(yǔ)言音像資料作何用、何時(shí)才能用”的疑問(wèn)。因此,對(duì)語(yǔ)保工程數(shù)字多媒體語(yǔ)料的效用進(jìn)行評(píng)估,明確開(kāi)發(fā)利用的方向,回應(yīng)語(yǔ)保人和社會(huì)公眾的關(guān)切和期盼,是對(duì)國(guó)家工程服務(wù)公眾的必然要求。
資源的效用是指資源的有效性和可用性。通常,資源的品質(zhì)、形態(tài)、種類(lèi)和數(shù)量決定它的效用。評(píng)估資源的效用就是評(píng)估資源的可用性和可用度。語(yǔ)保工程的主體資源是數(shù)字多媒體語(yǔ)料,其品質(zhì)、形態(tài)、種類(lèi)和數(shù)量決定了它的效用。
已有學(xué)者從不同角度論述過(guò)語(yǔ)言資源。這里將語(yǔ)言資源的范圍限定在原生資源和次生資源,前者指語(yǔ)言社群生活交際中產(chǎn)出的自然口語(yǔ)(言語(yǔ)),后者指采用書(shū)面或媒體手段記錄下來(lái)的言語(yǔ)樣本;而其他資源(如語(yǔ)言描寫(xiě)、分析和研究著述等)則不屬語(yǔ)言資源,而屬于語(yǔ)言知識(shí)資源。數(shù)字多媒體語(yǔ)料屬于次生語(yǔ)言資源。我們知道,語(yǔ)言產(chǎn)品和語(yǔ)言服務(wù)的效用,例如語(yǔ)言學(xué)習(xí)圖書(shū)、音像制品、語(yǔ)言翻譯、語(yǔ)言考試、語(yǔ)言培訓(xùn)等等,可通過(guò)市場(chǎng)運(yùn)營(yíng)的產(chǎn)值指標(biāo)來(lái)評(píng)估。雖然目前未見(jiàn)到評(píng)估漢語(yǔ)方言和少數(shù)民族語(yǔ)言語(yǔ)料效用的操作案例,但我們可以采用通常的方法,從形態(tài)、種類(lèi)、品質(zhì)和數(shù)量四要素進(jìn)行分析。
語(yǔ)保工程多媒體語(yǔ)料的形態(tài)有數(shù)字文本、音頻、視頻、圖像以及紙質(zhì)圖書(shū),種類(lèi)有碎片化單個(gè)電子文件集(文檔文件、音頻文件、視頻文件、圖形文件),以及有組織結(jié)構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)(目前未見(jiàn)到單機(jī)版數(shù)據(jù)庫(kù)),形態(tài)和種類(lèi)較為完整和齊備。數(shù)字多媒體語(yǔ)料的品質(zhì)可從質(zhì)量、特性和內(nèi)容三方面衡量。質(zhì)量包括音頻的音質(zhì)、視頻的畫(huà)質(zhì)和流暢度、圖形的畫(huà)質(zhì)以及文本正確率。語(yǔ)保工程有嚴(yán)格和規(guī)范的質(zhì)量檢驗(yàn)制度,驗(yàn)收合格的語(yǔ)料,質(zhì)量都有保證,因而下面的品質(zhì)分析主要放在特性和內(nèi)容兩方面。
表1語(yǔ)保語(yǔ)料樣本的效用分析
從資源保護(hù)和利用角度看,記錄和保存任何語(yǔ)言的語(yǔ)料都應(yīng)具有樣本系統(tǒng)性和內(nèi)容全面性。樣本系統(tǒng)性有兩方面含義:一是語(yǔ)料樣本要體現(xiàn)語(yǔ)言結(jié)構(gòu)的系統(tǒng)特點(diǎn),包含不同結(jié)構(gòu)層級(jí)的言語(yǔ)單位樣本。例如,漢語(yǔ)方言應(yīng)有全部音節(jié)(字)、詞和短語(yǔ)、句子、語(yǔ)篇等不同層級(jí)單位的樣本。二是語(yǔ)料樣本要體現(xiàn)言語(yǔ)交際生活內(nèi)容和語(yǔ)體風(fēng)格。例如,句子不應(yīng)僅有語(yǔ)法句型樣本,還應(yīng)有日常生活用句樣本,而且后者是主體;語(yǔ)篇應(yīng)有對(duì)話和獨(dú)白樣本,對(duì)話和獨(dú)白還應(yīng)有正式和非正式語(yǔ)體的樣本。內(nèi)容全面性則指言語(yǔ)樣本的語(yǔ)義內(nèi)容所表達(dá)的概念和知識(shí),能較為全面地體現(xiàn)語(yǔ)言社群的社會(huì)生活,蘊(yùn)含他們關(guān)于生產(chǎn)、生活、文化、歷史、環(huán)境、技術(shù)等方面的傳統(tǒng)知識(shí)和現(xiàn)代創(chuàng)新(包括借入)知識(shí)。
系統(tǒng)性和全面性是評(píng)估語(yǔ)保工程多媒體語(yǔ)料的必要條件,除此之外,還需滿(mǎn)足充分條件,即語(yǔ)料樣本量的充分性。例如,多媒體語(yǔ)料中雖有對(duì)話樣本,但只有二三小段,效用就低。語(yǔ)料數(shù)量是否充分,決定了開(kāi)發(fā)和利用的潛力空間。表1是對(duì)語(yǔ)保工程上交語(yǔ)料的效用分析。從中可知,樣本質(zhì)量表現(xiàn)好,系統(tǒng)性相對(duì)較好,但有個(gè)別空缺;內(nèi)容全面性存在明顯缺陷,充分性顯得不足。
除音視頻樣本外,語(yǔ)保工程的語(yǔ)料數(shù)據(jù)還有電子表和文檔,主體數(shù)據(jù)是字、詞、語(yǔ)法,數(shù)據(jù)模式是Excel電子表,而口傳文化等話語(yǔ)數(shù)據(jù)是xml模式。語(yǔ)料數(shù)據(jù)模式關(guān)系到資源庫(kù)平臺(tái)構(gòu)架、數(shù)據(jù)兼容和擴(kuò)容、應(yīng)用功能開(kāi)發(fā)以及數(shù)據(jù)挖掘的可及度。由于未見(jiàn)到公開(kāi)的資源庫(kù)構(gòu)架技術(shù)資料,也由于資源展示平臺(tái)未開(kāi)放,我們無(wú)法對(duì)資源庫(kù)的使用作全面的用戶(hù)體驗(yàn),也無(wú)法了解資源庫(kù)在多大程度和范圍發(fā)揮效用,而只能基于語(yǔ)保工程的上交數(shù)據(jù)模板表,從數(shù)據(jù)模式角度對(duì)語(yǔ)料資源在資源庫(kù)中的可能效用進(jìn)行分析。
語(yǔ)保工程上交模板數(shù)據(jù)表有:方言音系表、方言字表、方言詞表、方言語(yǔ)法(例句)表、民族語(yǔ)音系表、民族語(yǔ)詞表、民族語(yǔ)語(yǔ)法(例句)表,這些都是Excel表??陬^文化的數(shù)據(jù)模式是doc文件,標(biāo)注軟件采用ELAN標(biāo)注模式(xml)。全部Excel表的字段組成如下:
1.音系表包括聲母(或輔音)表、韻母(或元音)表和聲調(diào)表
聲母或輔音表有9個(gè)字段:編號(hào)、聲母或輔音、例詞1音標(biāo)、例詞1意譯、例詞2音標(biāo)、例詞2意譯、例詞3音標(biāo)、例詞3意譯、備注。
韻母或元音表有9個(gè)字段:編號(hào)、韻母或元音、例詞1音標(biāo)、例詞1意譯、例詞2音標(biāo)、例詞2意譯、例詞3音標(biāo)、例詞3意譯、備注。
聲調(diào)表有10個(gè)字段:編號(hào)、調(diào)值、調(diào)類(lèi)、例詞1音標(biāo)、例詞1意譯、例詞2音標(biāo)、例詞2意譯、例詞3音標(biāo)、例詞3意譯、備注。
2.漢語(yǔ)方言數(shù)據(jù)表包括字音表、詞匯表和語(yǔ)法表
漢語(yǔ)方言字表有15個(gè)字段:編號(hào)、調(diào)查條目、注例、音1聲、音1韻、音1調(diào)、音1備注、音2聲、音2韻、音2調(diào)、音2備注、音3聲、音3韻、音3調(diào)、音3備注[注]將字音的音標(biāo)注音分開(kāi)成聲母、韻母、聲調(diào)3個(gè)字段,可能設(shè)計(jì)者認(rèn)為這樣便于聲韻調(diào)的比較分析或制作聲韻調(diào)分布圖。實(shí)際上,計(jì)算機(jī)切分聲韻調(diào)音標(biāo)注音字符早已不是問(wèn)題,而且已有簡(jiǎn)明算法。拙文《基于調(diào)查字表詞表注音的漢藏語(yǔ)言音系處理系統(tǒng)》(語(yǔ)言文字應(yīng)用,2012年第2期)提出了數(shù)字調(diào)值和元音字符匹配法切分聲韻調(diào)的算法。筆者開(kāi)發(fā)的Sonicfield v1.0 軟件工具就是采用這種算法切分聲韻調(diào),在導(dǎo)入語(yǔ)保數(shù)據(jù)表時(shí)全部對(duì)原分開(kāi)的聲韻調(diào)字段作了合并。另外,美國(guó)(伯克利)加州大學(xué)的漢藏同源詞數(shù)據(jù)庫(kù)(2014年)則采用了有限狀態(tài)機(jī)(Finite-state Machine,F(xiàn)SM)的數(shù)學(xué)模型切分聲韻調(diào)字符。。
漢語(yǔ)方言詞匯表有12個(gè)字段:編號(hào)、調(diào)查條目、注例、詞1字、詞1音、詞1備注、詞2字、詞2音、詞2備注、詞3字、詞3音、詞3備注。
漢語(yǔ)方言語(yǔ)法數(shù)據(jù)表有12個(gè)字段:編號(hào)、調(diào)查條目全、注例、句1字、句1音、句1備注、句2字、句2音、句2備注、句3字、句3音、句3備注。
3.少數(shù)民族語(yǔ)言數(shù)據(jù)表包括詞匯表和語(yǔ)法表
少數(shù)民族語(yǔ)言詞匯表有9個(gè)字段:編號(hào)、調(diào)查條目、注例、詞1音、詞1備注、詞2音、詞2備注、詞3音、詞3備注。
少數(shù)民族語(yǔ)言語(yǔ)法表有15個(gè)字段:編號(hào)、調(diào)查條目全、注例、句1音、句1語(yǔ)素分析、句1直譯、句1備注、句2音、句2語(yǔ)素分析、句2直譯、句2備注、句3音、句3語(yǔ)素分析、句3直譯、句3備注。
數(shù)據(jù)表體現(xiàn)了不同的數(shù)據(jù)類(lèi)別,字段則描述和標(biāo)識(shí)數(shù)據(jù)的屬性。理論上講,數(shù)據(jù)表越多則表明數(shù)據(jù)類(lèi)別越豐富,字段越多則表明數(shù)據(jù)的屬性描述越豐富,二者都利于數(shù)據(jù)挖掘。但這有個(gè)前提,數(shù)據(jù)表和字段應(yīng)準(zhǔn)確全面、避免冗余,如果數(shù)據(jù)表較多而數(shù)據(jù)類(lèi)別相同或相近,字段數(shù)量多卻數(shù)據(jù)性質(zhì)相同,則不但不利于數(shù)據(jù)描述和數(shù)據(jù)挖掘,反而會(huì)降低數(shù)據(jù)操作效率。
語(yǔ)保工程的數(shù)據(jù)表(Excel表)有9種,共91個(gè)字段,其中不重名字段55個(gè)。用55個(gè)字段來(lái)描述數(shù)據(jù)的屬性,對(duì)任何語(yǔ)料庫(kù)來(lái)說(shuō)都可以算得上豐富。但仔細(xì)檢查字段卻不難發(fā)現(xiàn),許多名稱(chēng)不同的字段實(shí)際描述的是同一個(gè)語(yǔ)言學(xué)屬性。
例如,音系表字段“例詞1音標(biāo)、例詞2音標(biāo)、例詞3音標(biāo)”,漢語(yǔ)方言字表字段“音1聲、音1韻、音1調(diào)、音2聲、音2韻、音2調(diào)、音3聲、音3韻、音3調(diào)”,詞匯表字段“詞1音、詞2音、詞3音”,語(yǔ)法表字段“句1音、句2音、句3音”,都是描述和標(biāo)識(shí)同一個(gè)語(yǔ)言學(xué)屬性“音標(biāo)注音”。又如,音系表字段“例詞1意譯、例詞2意譯、例詞3意譯”,詞匯表字段“詞1備注、詞2備注、詞3備注”,都描述和標(biāo)識(shí)“中文意譯”這個(gè)屬性。再如,音系表“調(diào)值、調(diào)類(lèi)、元音或韻母、輔音或聲母”字段,字表、詞匯表、語(yǔ)法表“調(diào)查條目、調(diào)查條目全”字段,都指“樣本條目”這個(gè)屬性。還有詞表、句表字段“注例”,音系表字段“備注”,都屬“補(bǔ)充說(shuō)明”??梢?jiàn),數(shù)據(jù)表有55個(gè)字段,但實(shí)際只描述了“編號(hào)、條目、音標(biāo)注音、中文意譯、中文直譯(句)、語(yǔ)素分析、說(shuō)明”等7個(gè)屬性,存在大量冗余,這使得語(yǔ)料的屬性描述和標(biāo)識(shí)顯得貧乏。例如,漢語(yǔ)方言字表缺少“音韻”屬性,該屬性對(duì)方言字音研究有重要的數(shù)據(jù)挖掘價(jià)值,數(shù)據(jù)庫(kù)里如不補(bǔ)上該屬性,將會(huì)減少一些重要的應(yīng)用方向。再如,少數(shù)民族語(yǔ)言數(shù)據(jù)表缺少“民族文字”屬性,同樣會(huì)減少一些重要的語(yǔ)料開(kāi)發(fā)和應(yīng)用方向。如果搬用模板表來(lái)建構(gòu)資源庫(kù)的數(shù)據(jù)表,構(gòu)架會(huì)十分臃腫,數(shù)據(jù)挖掘潛能和數(shù)據(jù)庫(kù)應(yīng)用功能將嚴(yán)重受限。這就是說(shuō),單純從數(shù)據(jù)表模板來(lái)看,語(yǔ)料的效用度并不高。
Excel數(shù)據(jù)表雖然在數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)方面比較方便,但就原始數(shù)據(jù)兼容和安全存儲(chǔ)而言,并不是最佳選擇。國(guó)際標(biāo)準(zhǔn)化組織的語(yǔ)言資源管理標(biāo)準(zhǔn)(如ISO24610、24615、24617、24624等)都是基于xml的純文本數(shù)據(jù)模式,由此看來(lái)建立一套必需的屬性來(lái)描述和標(biāo)識(shí)語(yǔ)料,是語(yǔ)保工程對(duì)語(yǔ)料保存、保護(hù)和利用考量中被忽略了的一項(xiàng)工作。
數(shù)字語(yǔ)料的品質(zhì)、形態(tài)、種類(lèi)、數(shù)量以及數(shù)據(jù)模式?jīng)Q定了它的效用,但要發(fā)揮語(yǔ)料的效用,還需要數(shù)據(jù)挖掘和二次開(kāi)發(fā)。語(yǔ)保工程的言語(yǔ)樣本是次生資源,但人們通常使用的是語(yǔ)言產(chǎn)品(成品),而不是資源本身。公眾關(guān)心的資源利用實(shí)際上就是對(duì)這些多媒體語(yǔ)料進(jìn)行再加工,對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,開(kāi)發(fā)和創(chuàng)新應(yīng)用功能及終端產(chǎn)品。要實(shí)施這樣的開(kāi)發(fā)利用,需要語(yǔ)保工程資源管理者和服務(wù)方(主要是數(shù)據(jù)庫(kù)開(kāi)發(fā)者)與語(yǔ)言專(zhuān)家、語(yǔ)言社群及公眾合作,開(kāi)展需求調(diào)研,明確服務(wù)群體、服務(wù)項(xiàng)目和服務(wù)方向,這樣才能使語(yǔ)保工程的語(yǔ)料數(shù)據(jù)真正成為有效用的社會(huì)公共資源。
語(yǔ)保工程是一項(xiàng)具有保存言語(yǔ)樣本和促進(jìn)語(yǔ)言文化保護(hù)和發(fā)展性質(zhì)的工程。保存是基本功能,這有點(diǎn)類(lèi)似建在挪威斯瓦爾巴特群島的全球植物種籽庫(kù),要保證國(guó)內(nèi)有些語(yǔ)言或方言在不遠(yuǎn)的將來(lái)不可避免地滅絕以后,能夠在工程保存的語(yǔ)料數(shù)據(jù)中找到較為系統(tǒng)的言語(yǔ)樣本資料(可能用于語(yǔ)言學(xué)習(xí)或語(yǔ)言恢復(fù))。當(dāng)然,語(yǔ)言用進(jìn)廢退,采集言語(yǔ)語(yǔ)料的目的主要還是為了促進(jìn)當(dāng)下和以后的語(yǔ)言使用,保護(hù)是常規(guī),而語(yǔ)料開(kāi)發(fā)和利用就是常規(guī)的服務(wù)工作,因而應(yīng)遵循精化和粗化結(jié)合、雅用和俗用并舉、專(zhuān)用和通用兼顧的原則。
精化和粗化結(jié)合就是說(shuō),基礎(chǔ)的、核心部分的語(yǔ)料采集、加工必須精煉、準(zhǔn)確、嚴(yán)密,這不僅表現(xiàn)在上面所說(shuō)的質(zhì)量上,也表現(xiàn)在語(yǔ)言學(xué)的標(biāo)注、描寫(xiě)方面,所有基礎(chǔ)語(yǔ)料必須是完整的、系統(tǒng)的、完全標(biāo)注且不留疑點(diǎn)的;而粗化則表現(xiàn)在持續(xù)擴(kuò)充的語(yǔ)料方面以及面向非語(yǔ)言學(xué)或其他科學(xué)研究的語(yǔ)料呈現(xiàn)方面,不應(yīng)作語(yǔ)言學(xué)標(biāo)準(zhǔn)或其他科學(xué)標(biāo)準(zhǔn)的苛求,這樣才能促進(jìn)資源的多樣化和應(yīng)用的多元化。
雅用和俗用、專(zhuān)用和通用,既涉及語(yǔ)料本身的內(nèi)容及其呈現(xiàn)形式的難易特性,也涉及語(yǔ)料面向的領(lǐng)域行業(yè)的高低端屬性,還涉及使用群體的專(zhuān)業(yè)性和大眾性。雅用和專(zhuān)用,就是語(yǔ)料的開(kāi)發(fā)利用要考慮語(yǔ)言學(xué)研究和高層次的正規(guī)教育教學(xué)和研發(fā),考慮專(zhuān)業(yè)人員和某些專(zhuān)門(mén)領(lǐng)域的需求;俗用和通用,就是要考慮使資源內(nèi)容和形式淺顯化、知識(shí)化,面向大眾或盡可能適應(yīng)廣大的用戶(hù)群需求。如果有人說(shuō),實(shí)施語(yǔ)保工程本身就是為了雅用和專(zhuān)用,這無(wú)疑違背了工程的原旨和初心;而說(shuō)語(yǔ)保工程完全是為了俗用和通用,那也不切實(shí)際,違背了語(yǔ)言學(xué)規(guī)律和語(yǔ)言使用及發(fā)展規(guī)律。
語(yǔ)保工程的語(yǔ)料究竟有哪些當(dāng)下應(yīng)用和潛在用途?這些語(yǔ)料能向哪些社會(huì)群體、行業(yè)或領(lǐng)域提供什么服務(wù)項(xiàng)目?當(dāng)下對(duì)語(yǔ)料資源有開(kāi)發(fā)和利用需求的有以下這些領(lǐng)域。
1.高等院校語(yǔ)言學(xué)課程教學(xué)
大學(xué)《現(xiàn)代漢語(yǔ)》《語(yǔ)言學(xué)概論》《少數(shù)民族語(yǔ)言文字概論》《語(yǔ)音學(xué)》《方言學(xué)》《田野語(yǔ)言學(xué)》《詞匯學(xué)》《語(yǔ)法學(xué)》等語(yǔ)言學(xué)課程的教學(xué),需要漢語(yǔ)方言和民族語(yǔ)言的言語(yǔ)樣本作為實(shí)證、例證。
2.語(yǔ)言學(xué)研究
漢語(yǔ)方言、民族語(yǔ)言、傳統(tǒng)語(yǔ)言、語(yǔ)言理論和應(yīng)用等學(xué)科領(lǐng)域的研究,需要利用語(yǔ)保工程多媒體語(yǔ)料。例如,繪制各種傳統(tǒng)的中國(guó)語(yǔ)言地圖(需開(kāi)發(fā)地圖軟件程序);統(tǒng)計(jì)語(yǔ)言在字、詞層面的形式相似度(需開(kāi)發(fā)計(jì)算程序);語(yǔ)言同源詞的比較和統(tǒng)計(jì)(需開(kāi)發(fā)相關(guān)統(tǒng)計(jì)程序);語(yǔ)音和詞匯(構(gòu)詞)的類(lèi)型研究(需開(kāi)發(fā)相關(guān)分析程序);漢語(yǔ)方言和民族語(yǔ)言的歷史比較(需開(kāi)發(fā)相關(guān)程序);漢語(yǔ)方言和民族語(yǔ)言文字的規(guī)范研究(如拼音方案、正字法);建立語(yǔ)音特征基本數(shù)據(jù)(盡管相對(duì)有限);等等。
3.語(yǔ)言學(xué)習(xí)或語(yǔ)言?shī)蕵?lè)
漢語(yǔ)方言區(qū)或少數(shù)民族地區(qū)的中小學(xué)可能會(huì)使用多媒體語(yǔ)料樣本,用于課外本土語(yǔ)言文化學(xué)習(xí)活動(dòng),或用于課堂雙語(yǔ)教學(xué),傳播傳統(tǒng)語(yǔ)言和文化知識(shí)。不過(guò),這種情況對(duì)語(yǔ)料的使用不是剛性需求,使用量也比較有限。一些社會(huì)公眾對(duì)語(yǔ)言知識(shí)有好奇心,也會(huì)有限地聽(tīng)或?qū)W某種民族語(yǔ)或漢語(yǔ)方言的一些單詞作為知識(shí)和文化娛樂(lè)。語(yǔ)言群體可能有限地使用這些資源來(lái)宣傳本族的語(yǔ)言和文化。可以明確的是,從語(yǔ)保工程現(xiàn)有的語(yǔ)料可用性來(lái)看,高等院校中文系、少數(shù)民族語(yǔ)言文學(xué)系、語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)系的語(yǔ)言學(xué)教師和學(xué)生,以及語(yǔ)言研究機(jī)構(gòu)的工作人員,是語(yǔ)保工程資源的主要需求群體,其次才是語(yǔ)言族群和有限的社會(huì)公眾群體。
從“語(yǔ)保工程采錄展示平臺(tái)”用戶(hù)界面來(lái)看,資源庫(kù)的多媒體展示是通過(guò)靜態(tài)網(wǎng)頁(yè)層級(jí)路徑導(dǎo)航瀏覽頁(yè)面,僅向用戶(hù)提供這種單一的網(wǎng)頁(yè)瀏覽,遠(yuǎn)不能發(fā)揮資源庫(kù)的用途,不能滿(mǎn)足公眾用戶(hù)的基本使用需求。要使語(yǔ)保工程的語(yǔ)料資源在上述領(lǐng)域的應(yīng)用真正變成具體服務(wù),則需要基于資源庫(kù)進(jìn)行系列工具研發(fā)和產(chǎn)品開(kāi)發(fā)。
1.組合和聚合檢索應(yīng)用界面
多字段組合檢索是根據(jù)數(shù)據(jù)表的屬性標(biāo)識(shí),查找符合多種屬性條件的多媒體言語(yǔ)樣本資料。這類(lèi)似于圖書(shū)庫(kù)或期刊庫(kù)的多重條件檢索,查找滿(mǎn)足用戶(hù)所需的語(yǔ)料資源件。語(yǔ)保工程語(yǔ)料樣本的組合檢索,至少應(yīng)包含如下檢索條件:語(yǔ)言名稱(chēng)(單語(yǔ)種/多語(yǔ)種)、語(yǔ)言地點(diǎn)(單點(diǎn)/多點(diǎn))、樣本單位(中文字/詞/句、民族文字)、樣本注音(國(guó)際音標(biāo)/拼音文字)、音韻(對(duì)于漢語(yǔ)方言)等。
聚合檢索是對(duì)同一字段屬性中滿(mǎn)足用戶(hù)設(shè)定要素的記錄進(jìn)行查找。聚合檢索可以是單一屬性字段內(nèi)檢索,更重要的是組合檢索條件下的多字段內(nèi)的記錄檢索。例如,漢語(yǔ)方言的歷史音韻比較,要查找中古“並”母字在湘、客、贛、土話中不讀唇音(b/p/ph)的方言樣本。再如,要查找包含前置成分“m/n/s”的藏緬語(yǔ)言及其分布地點(diǎn)等,這都是組合基礎(chǔ)上的條件聚合檢索。
無(wú)論是字段組合還是聚合檢索,都必須跨語(yǔ)言、跨方言、跨地域、跨文字、跨樣本單位層級(jí)。目前能見(jiàn)到的語(yǔ)保工程展示平臺(tái)還不能提供這類(lèi)檢索,因而需要對(duì)數(shù)據(jù)庫(kù)字段屬性作增補(bǔ)、調(diào)整或整合開(kāi)發(fā),建立便利的多重搜索界面。
2.統(tǒng)計(jì)和計(jì)算的用戶(hù)界面
面向用戶(hù)需求的統(tǒng)計(jì)和計(jì)算,可能是語(yǔ)保工程網(wǎng)絡(luò)資源庫(kù)的功能空缺。對(duì)資源庫(kù)數(shù)據(jù)表的文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和計(jì)算,是一項(xiàng)面向用戶(hù)的重要應(yīng)用服務(wù)。從理論上說(shuō),要使數(shù)據(jù)得到最大程度利用,就應(yīng)當(dāng)實(shí)現(xiàn)所有單個(gè)字段屬性計(jì)算和跨字段屬性的關(guān)系計(jì)算。由于語(yǔ)保工程數(shù)據(jù)表字段所表征的樣本屬性較少,計(jì)算對(duì)象可能會(huì)比較單一,主要是字段內(nèi)的記錄分布計(jì)算,而且計(jì)算的范圍主要是音標(biāo)注音、中文條目、語(yǔ)素分析等幾個(gè)字段。例如,前面說(shuō)的同源詞統(tǒng)計(jì)、不同語(yǔ)言或方言語(yǔ)音相似度統(tǒng)計(jì)、類(lèi)型學(xué)的統(tǒng)計(jì),主要是基于詞匯音標(biāo)記音和中文詞素進(jìn)行計(jì)算。又如,對(duì)每個(gè)調(diào)查點(diǎn)字詞句語(yǔ)音樣本進(jìn)行聲學(xué)參數(shù)統(tǒng)計(jì),建立基本語(yǔ)音特征模式,這是基于音頻數(shù)據(jù)的計(jì)算。
我們也可利用語(yǔ)料進(jìn)行音位、音節(jié)、超音段特征、語(yǔ)素的頻次統(tǒng)計(jì)、組合分布統(tǒng)計(jì)、話語(yǔ)文本的詞頻和共現(xiàn)詞組統(tǒng)計(jì)。語(yǔ)保工程的句子和話語(yǔ)樣本很少,因而詞表提取、詞頻和共現(xiàn)詞組統(tǒng)計(jì)等應(yīng)用功能基本上無(wú)用武之地。我們還可對(duì)調(diào)查點(diǎn)概況數(shù)據(jù)進(jìn)行語(yǔ)言人口、分布等語(yǔ)言社情和區(qū)情的統(tǒng)計(jì)。要實(shí)現(xiàn)這些數(shù)據(jù)的計(jì)算分析,還需要開(kāi)發(fā)相關(guān)應(yīng)用軟件工具或接口。
總之,語(yǔ)保工程資源開(kāi)發(fā)利用不是一次性的,資源的管理、應(yīng)用以及資源庫(kù)平臺(tái)的建設(shè)不會(huì)一勞永逸。近兩年,有高校開(kāi)始籌劃建立語(yǔ)言博物館,這可視為語(yǔ)保工程以及在其牽引下的語(yǔ)言資源保護(hù)和利用的一個(gè)實(shí)踐選項(xiàng)。筆者曾指出,語(yǔ)保工程有結(jié)束之日,而語(yǔ)保永遠(yuǎn)在路上[2]。群眾的語(yǔ)言生活在發(fā)展變化,基礎(chǔ)語(yǔ)料也應(yīng)當(dāng)反映現(xiàn)實(shí)語(yǔ)言生活而持續(xù)增補(bǔ),資源庫(kù)也應(yīng)該持續(xù)擴(kuò)容并創(chuàng)新服務(wù)途徑和服務(wù)形式。要想方設(shè)法挖掘數(shù)據(jù)的可用屬性,盡最大努力開(kāi)發(fā)適應(yīng)用戶(hù)的操作工具和應(yīng)用界面,這樣才能最大程度地實(shí)現(xiàn)資源的價(jià)值,最大程度地發(fā)揮它的社會(huì)效益。
西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2019年3期