鐘經(jīng)華,朱 琳,高 旭,徐洪妹
(1. 北京聯(lián)合大學(xué) 特殊教育學(xué)院, 北京 100075; 2. 中國盲文出版社,北京 100165;3. 上海盲童學(xué)校,上海 200336)
?
漢語盲文語料庫語料采集研究
鐘經(jīng)華1,朱 琳1,高 旭2,徐洪妹3
(1. 北京聯(lián)合大學(xué) 特殊教育學(xué)院, 北京 100075; 2. 中國盲文出版社,北京 100165;3. 上海盲童學(xué)校,上海 200336)
盲文語料庫建設(shè)在國內(nèi)外還沒有先例。為了建設(shè)多功能、綜合性的漢語盲文語料庫,通過對現(xiàn)行盲文頒布60多年來的盲文出版物語料、非出版物語料以及盲人語料的采集,力圖涵蓋盲文使用的全貌。從語料調(diào)查、語料篩選、語料采集流程幾個方面闡述了盲文語料庫語料采集的主要內(nèi)容,并指出語料采集的重點難點問題及應(yīng)對策略。
盲文; 語料庫; 采集
漢語語料庫的建設(shè)始于20世紀(jì)七、八十年代,30多年來,取得了豐碩成果,漢語語料庫已成為漢語研究、漢語教學(xué)、語言信息處理不可或缺的基礎(chǔ)性資源。近年來,小語種語料庫建設(shè)也如火如荼地展開。2012、2013連續(xù)兩年,國家社科基金開創(chuàng)先河,先后部署了“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”和“漢語盲文語料庫建設(shè)研究”兩個重大項目,體現(xiàn)了國家對殘疾人語言文字基礎(chǔ)工程的高度重視。漢語盲文語料庫建設(shè)將在國際上填補盲文語料庫的空白。
由于我國大陸使用的現(xiàn)行盲文存在獨特的分詞連寫和標(biāo)調(diào)規(guī)則,使其不同于明眼人使用的漢語拼音,現(xiàn)行盲文基本具備了獨立的文字地位。因此漢語盲文研究無法直接使用漢語明眼文語料庫,需要建設(shè)專門的盲文語料庫。漢語盲文語料庫是具有鮮明特色的漢語語料庫,是漢語語料庫大家庭的重要成員之一。[1]
語料庫在建設(shè)過程中應(yīng)充分考慮語言使用的多樣性,應(yīng)廣泛抽取語料,盡量使所收集的語料能在統(tǒng)計上代表各種類型真實語言的使用面貌。[2]語料采集是語料庫建設(shè)的第一步,是決定語料庫的平衡性和代表性的關(guān)鍵因素,關(guān)系到語料庫的總體質(zhì)量和應(yīng)用價值。漢語盲文語料庫建設(shè)的目標(biāo)是建成包含1 000萬方盲文,具有較高的平衡性和代表性,多層信息標(biāo)注,在盲文領(lǐng)域通用性好的盲文—拼音—漢字對照的專門型語料庫。[3]為保證盲文語料庫的建設(shè)規(guī)模,語料采集數(shù)量應(yīng)當(dāng)增加10%左右的冗余,因此語料采集總規(guī)模應(yīng)超過1 100萬方盲文。
漢語盲文語料庫的樣本應(yīng)包括自現(xiàn)行盲文頒布60多年來的盲文出版物、非出版物及盲人語料,要盡可能涵蓋盲文使用的全貌。語料采集之前需要對盲文語料的種類、分布做全面詳實的調(diào)查。由于盲文語料的特殊性,調(diào)查過程應(yīng)分為出版物盲文語料、非出版物語料以及盲人語料三大類逐一展開。
2.1 出版物盲文語料調(diào)查
盲文出版是中國出版業(yè)的盲區(qū)[4],盲文出版物的品種和數(shù)量都不足,盲文出版物發(fā)行渠道不暢[5]。漢語圖書只有極少部分被翻譯成盲文。盲文出版機構(gòu)少,中國大陸的盲文出版物僅來自中國盲文出版社、上海盲校盲文印刷廠。對這兩家單位的盲文出版情況進(jìn)行調(diào)研,可以獲得盲文出版物的第一手資料。
根據(jù)《中國盲文出版社出版物分類統(tǒng)計目錄》,自1953年現(xiàn)行盲文頒布至2015年底,中國盲文出版社翻譯出版的盲文讀物有5 217種,除少量無法歸類的圖書外,各類別盲文出版物占盲文總出版物的比例如下:文學(xué)類和醫(yī)藥衛(wèi)生類的圖書品種最多,分別占25.1%和21%,政治類占12.9%,文教體育和教材教輔各占12%,歷史地理占5.5%,科技、法律、哲學(xué)所占比例較小,依次是3.4%、3.2%、3%。中國盲文出版社出版的盲文圖書中,醫(yī)藥衛(wèi)生類圖書所占比例較大,反映了盲人集中從事中醫(yī)按摩的職業(yè)現(xiàn)象。而自然科學(xué)讀物的比例較小,與盲文表達(dá)圖表、公式的局限有關(guān)。
上海盲校盲文印刷廠一直為全國盲校制作義務(wù)教育盲文教材及練習(xí)冊,因此義務(wù)教育的課程設(shè)置及學(xué)生數(shù)量決定了盲文印刷廠出版的教材種類和數(shù)量。2015學(xué)年上海盲校盲文印刷廠發(fā)行盲文教材及練習(xí)冊112種,共計7萬余冊。在教材語料采集中,為了提高盲文語料庫的平衡性和代表性,根據(jù)學(xué)科特點進(jìn)行篩選,比如英語、音樂兩門學(xué)科中漢語盲文的比重特別小,不予采集。數(shù)理化學(xué)科的盲文教材包含大量公式、表格、化學(xué)方程式等與標(biāo)調(diào)、分詞連寫無關(guān)的內(nèi)容,采集時要盡量回避。
2.2 非出版物盲文語料和盲人語料調(diào)查
非出版物語料是指經(jīng)過校對、有批量復(fù)本的盲文語料。主要包括較大規(guī)模的、設(shè)有資源中心的盲校(特殊教育學(xué)院)制作的盲文試卷、講義、教材等,也包括盲人福利廠和大型按摩院的規(guī)章制度、業(yè)務(wù)培訓(xùn)等盲文資料。這些語料能夠反映盲文的實際使用情況,為研究非專業(yè)出版人員翻譯制作的漢語盲文提供第一手資料。
盲人語料是完成義務(wù)教育且使用盲文3年以上的盲人自然書寫、未經(jīng)校對、沒有復(fù)本、供他人閱讀的盲文語料。例如:答卷、作文、投稿等。通過盲人語料考察盲人的詞匯搭配,主要是分詞連寫、標(biāo)調(diào)等情況;考察不同方言區(qū)盲人標(biāo)調(diào)的情況。盲人寫給自己的盲文資料,如筆記、日記等,一方面可能存在隱私問題,另一方面可能包含自己的簡寫、速記符號,他人的可讀性差,甚至無法機讀,因此盲人自讀的盲文語料不在采集范圍內(nèi)。
非出版物語料和盲人語料需要進(jìn)行田野調(diào)查、訪談,調(diào)研語料的存放地,明眼文原文是否保存完好,以及是否有電子版等相關(guān)信息。
盲文語料的平衡性和樣本的代表性,關(guān)系到盲文語料庫建設(shè)的科學(xué)性、學(xué)術(shù)性和應(yīng)用價值。漢語盲文語料庫參考國家語委現(xiàn)代漢語語料庫的選材原則,將時間、學(xué)科、媒體作為3個平衡因子[6],并根據(jù)出版物、非出版物和盲人語料的不同類別有所調(diào)整。
3.1 正式出版物語料的平衡性
正式出版物盲文語料的時間分布:以上世紀(jì)五十年代現(xiàn)行盲文方案出臺為起點,按照盲文出版中重要事件為節(jié)點劃分,大致分3個時間段:第一階段(1953—1982年)盲文分詞連寫規(guī)則形成;第二階段(1983—1995年)盲文分詞連寫規(guī)則成熟;第三階段(1996—2017年)盲文國家標(biāo)準(zhǔn)頒布、盲文活字印刷開始。
盲文由于閱讀對象的特殊性導(dǎo)致出版物的學(xué)科分布也具有鮮明特色。盲文語料學(xué)科分類參考了國家圖書館分類目錄和國家語委現(xiàn)代漢語語料庫的分類[6],簡化為:政治、文學(xué)、文科綜合、醫(yī)學(xué)、理科綜合和其他六大類。由于盲文出版物中文學(xué)(25.1%)和醫(yī)學(xué)(21%)所占比例特別大,使其獨立成類,不隸屬于文科綜合和理科綜合。
盲文出版物的媒體形式主要有教材、圖書、期刊3種。其中圖書的比例最大;在教材方面,義務(wù)教育階段的盲文教材是上海盲校盲文印刷廠的優(yōu)勢領(lǐng)域,高中以上教材教輔以中國盲文出版社為主;盲文期刊比例很小,繁榮時有十多種,目前除《盲人月刊》外,多數(shù)已經(jīng)停刊。
3.2 非正式出版物及盲人語料的平衡性
非正式出版物及盲人語料的平衡性面臨很多挑戰(zhàn)。由于非正式出版物及盲人語料保存的特殊困難,歷時平衡難以達(dá)到理想狀態(tài),很難確定平衡因子。尤其是社會成年盲人的語料,能夠收集到就很困難,共時平衡難度很大。在可能的情況下,減少對語料富裕地區(qū)的采集,對語料貧乏地區(qū)卻無能為力,只能追求盲人語料的相對平衡性和代表性。
為提高語料庫樣本的代表性,使盲文語料盡量反映1953年現(xiàn)行盲文方案實施以來漢語盲文實際使用的全貌,語料樣本的采集要遵循以下原則。
4.1 近期為主、早期為輔的原則
近期為主是語料庫采集的通行原則,體現(xiàn)了語料庫建設(shè)立足現(xiàn)在、兼顧過去、面向未來的根本宗旨。漢語盲文語料庫采集的主體是1996年以后的語料(盲文國家標(biāo)準(zhǔn)頒行后)約占70%,早期語料不等比例遞減。
4.2 正式出版物為主、其他語料為輔的原則
語料樣本的選取以正式出版物為主、其他語料為輔。正式出版物占85%左右,非出版物和盲人語料占15%左右。正式出版物語料的選取以圖書、教材為主,期刊雜志為輔。圖書以中國盲文出版社為主,教材以上海盲文印刷廠為主。非出版物語料的選取以盲校(試題、講義、校本教材)為主,高校、盲人按摩院等其他單位為輔。盲人語料以在校高中以上盲生為主,社會盲人為輔。
4.3 現(xiàn)實可能為主、理論完備為輔的原則
非出版物和盲人語料的收集無法按照理想的理論模型去實現(xiàn),只能在現(xiàn)實允許的前提下,力求達(dá)到理論上的完備。比如盲人語料采集的時間維度很難按照理論模型執(zhí)行。很少有盲生長期保留作文本,因此只能在現(xiàn)實條件下,盡量提高盲文語料的代表性。
盲文語料庫的語料采集包括元數(shù)據(jù)采集、盲文出版物語料采集和漢語原文語料采集、非出版物盲文語料采集、盲人語料采集等。
5.1 元數(shù)據(jù)采集
正式出版物盲文語料元數(shù)據(jù)的采集參照“信息技術(shù)元數(shù)據(jù)的規(guī)范與標(biāo)準(zhǔn)化”系列6個國家標(biāo)準(zhǔn)[7],對語料類別、樣本名稱、作者信息、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數(shù)、總頁數(shù)、開本、樣本、起止頁數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)等篇頭元數(shù)據(jù)進(jìn)行采集。
非出版物盲文語料元數(shù)據(jù)采集參照出版物執(zhí)行,簡化掉不適合的項目。語料生成單位相當(dāng)于出版者,編著者可以空缺,語料類別主要分為試卷、講義、教材、公文等。
盲人語料的元數(shù)據(jù)包括作者姓名(可以化名)、地域、語料形成時間,以及語料形成時作者的年齡、學(xué)歷、職業(yè)等,語料類別主要包括答卷、作文、投稿等。
5.2 盲文出版物語料采集
盲文出版物語料采集包括盲文語料和漢語原文語料兩部分語料的采集。二者的采集流程基本一致。
5.2.1 盲文語料采集
1995年以前,大陸一直采用雕版(非活字)盲文印刷工藝,沒有電子版盲文,這部分盲文需要通過掃描轉(zhuǎn)換(或人工錄入)為電子版再進(jìn)行采集。1995年以后,中國盲文出版社、上海盲校盲文印刷廠先后引入了盲文電子制版系統(tǒng),為高效采集盲文語料提供了便捷條件。盲文語料采集由中國盲文出版社和上海盲校盲文印刷廠兩家盲文出版單位的采集子課題成員負(fù)責(zé),就地采集各自單位的盲文出版物語料,具體采集流程如圖1所示。
5.2.2 漢語原文語料采集
我國盲人作者的盲文稿成書出版的比例很小,盲文出版物絕大多數(shù)是由漢語出版物翻譯而來。翻譯過程基本上是對照漢語原文直接手工錄入盲文符號,而不是由計算機自動生成。凡是由漢語原文翻譯成盲文的,都要采集漢語原文。由于盲文出版單位很少保有漢語原文的電子版,漢語原文的采集對象主要是紙質(zhì)版語料,其采集流程與盲文語料的采集流程基本一致。
5.3 非出版物盲文語料采集
一般語料庫通常不采集非出版物語料。由于盲文正式出版物的數(shù)量極少,來源只有兩個盲文出版單位。由于盲文的特殊性,很難建設(shè)更多專項的盲文語料庫。漢語盲文語料庫作為綜合性多功能的盲文語料庫,應(yīng)盡可能反映我國盲文使用狀況的全貌,語料類型應(yīng)盡可能豐富。
對較大規(guī)模的盲校(特殊教育學(xué)院)、盲人按摩院、盲人協(xié)會等單位進(jìn)行動員,宣傳盲文語料庫建設(shè)對盲人文化發(fā)展、盲文研究、盲文教學(xué)、盲文信息化的意義,號召他們將其保有的盲文語料貢獻(xiàn)給盲文語料庫(原件返還)。具體采集過程由采集子課題組完成。
非出版物語料采集的關(guān)鍵是發(fā)現(xiàn)各方言區(qū)盲校、盲協(xié)、盲人按摩院的語料來源,因為語料的總量少、變體少,采集難度相對較小。
5.4 盲人語料采集
盲人語料的采集是了解盲人語言生活狀況不可或缺的重要方面。盲人語料不能隨機抽樣,必須
經(jīng)過評估達(dá)到篩選的基本標(biāo)準(zhǔn)才能采集。首先對盲人語料進(jìn)行外觀初篩,對過于零散或保存不善無法辨識的直接淘汰,對符合外觀標(biāo)準(zhǔn)的盲人語料進(jìn)行復(fù)核和修校。修校盲人語料是一項棘手的工作,既要保持盲人語料的原貌,又要修校筆誤、因保存原因造成的丟點現(xiàn)象,以便更真實地反映盲人寫作的實際。盲人語料的評估篩選要把握好尺度,盡量做到寬嚴(yán)適度,標(biāo)準(zhǔn)放的過寬會造成后期標(biāo)注加工困難,標(biāo)準(zhǔn)把握過嚴(yán)又會造成大量語料流失。如果經(jīng)過修校還無法機讀的語料,要進(jìn)行二次淘汰。
盲人語料的采集對象包括在校盲生和社會盲人。在校盲生分布在各個學(xué)校,語料采集較容易,而社會盲人比較分散,語料采集難度較大。社會盲人語料采集主要依靠各級盲人協(xié)會,采用滾雪球抽樣的方式進(jìn)行,具體采集流程如圖2所示。
盲人語料的采集對記錄盲文的發(fā)展變化、盲文的實際使用狀況有很高的價值,有助于研究不同階段盲人的標(biāo)調(diào)情況,分詞連寫情況(盲校沒有分詞連寫的教學(xué)內(nèi)容),研究普通盲人對盲文國家標(biāo)準(zhǔn)的執(zhí)行情況,研究盲人語料、出版物、非出版物語料三者之間的差異。
采集盲人鮮活的語言進(jìn)入盲文語料庫,將盲人語料納入盲文本體研究是盲文語料庫建設(shè)的一個創(chuàng)新之處。
[1] 鐘經(jīng)華,肖航,韓萍,等.漢語盲文的升級之路[J].中國特殊教育,2014(10):46-50.
[2] Biber D. Representativeness in Corpus Design[J].Literary and Linguistics Computing,1993(6):37-45.
[3] 肖航,鐘經(jīng)華.漢語盲文語料庫建設(shè)方案[J].語言文字應(yīng)用,2015(8):109-118.
[4] 侯夷. 盲文出版物——中國出版業(yè)的盲區(qū)[J]. 中國出版,2005(11):30-32.
[5] 張映娣,張小慰.我國盲文讀物出版及使用回顧與思考[J].中國出版,2006(3):21-23.
[6] 劉連元. 現(xiàn)代漢語語料庫研制[J].語言文字應(yīng)用,1996(3):2-9.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局.GB/T 18391.1-2009信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)(MDR)[S]. 北京:中國標(biāo)準(zhǔn)出版社,2009.
(責(zé)任編輯 柴 智)
Study on Linguistic Material Collection of the Chinese Braille Corpus
ZHONG Jing-hua1,ZHU Lin1,GAO Xu2,XU Hong-mei3
(1.Special Education College, Beijing Union University, Beijing 10075, China; 2. China Braille Press, Beijing 100165, China; 3. Shanghai School for the Blind, Shanghai 200336, China)
The construction of Braille corpus is the first at home and abroad. We try to build a corpus of Chinese Braille multi-functional and comprehensive, which covering the whole using Braille. We studies word corpus of Braille publication, informal Braille publication and word corpus of the Blind since the promulgation of the current Chinese Braille. This paper explains linguistic material collection in terms of material investigation、selection and collection,and points out important and difficult issues in linguistic material collection process.
Braille; Corpus; Linguistic Material Collection
10.16255/j.cnki.ldxbz.2016.04.014
2016-07-11
國家社科基金重大項目“漢語盲文語料庫建設(shè)研究”(13&ZD187)。
鐘經(jīng)華(1962—),男,山東昌樂人,北京聯(lián)合大學(xué)特殊教育學(xué)院教授,主要研究方向為盲人教育及盲文研究。E-mail:zhongjinghua@buu.edu.cn
H 126.2
A
1005- 0310(2016)04- 0078- 05