• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語盲文語料庫建設(shè)探析

      2024-01-03 00:19:31鐘經(jīng)華
      關(guān)鍵詞:盲文分詞語料

      閻 嘉,耿 楠,鐘經(jīng)華

      (北京聯(lián)合大學(xué) 特殊教育學(xué)院,北京 100075)

      0 引言

      現(xiàn)代語料庫從20世紀(jì)60年代開始發(fā)展,已經(jīng)成為語言研究、語言信息處理不可或缺的基礎(chǔ)性資源。我國漢語語料庫建設(shè)從20世紀(jì)80年代開始,至今已有國家語委現(xiàn)代漢語平衡語料庫、北京大學(xué)現(xiàn)代漢語語料庫和《人民日報》標(biāo)注語料庫、臺灣“中研院”現(xiàn)代漢語平衡語料庫等具有較大影響力的成果面世,在自然語言處理、規(guī)范標(biāo)準(zhǔn)制定、語言基礎(chǔ)研究等方面得到了重要應(yīng)用。

      漢語盲文與明眼文之間在語法、語義層面是一致的,但在字符和詞匯層面存在顯著差別。漢語盲文的分詞連寫和標(biāo)調(diào)問題是導(dǎo)致盲文翻譯準(zhǔn)確率低、存在歧義的主要原因。漢語盲文研究難以直接使用漢語語料庫的已有成果,需要建立專門的盲文語料庫來了解漢語盲文的全貌,促進(jìn)盲文的基礎(chǔ)研究和應(yīng)用研究,特別是盲文信息化的相關(guān)研究。

      我國盲文研究尚屬薄弱領(lǐng)域,多數(shù)研究以盲文使用的感性認(rèn)識為基礎(chǔ),而以語料庫為基礎(chǔ)的研究,特別是具備一定規(guī)模并以真實盲文語料為主體的能夠全面服務(wù)于盲文基礎(chǔ)研究、規(guī)范化研究和信息化研究的盲文語料庫建設(shè)尚未進(jìn)入盲文研究者的視野。黨的十八大以來,習(xí)近平總書記對語言文字工作作出了一系列重要論述,體現(xiàn)了黨中央對語言文字事業(yè)的高度重視,也為新時代語言文字事業(yè)的改革和發(fā)展提供了堅實的理論基礎(chǔ)和行動指南。2021年6月,由中國殘聯(lián)、中央宣傳部等多部門聯(lián)合制定的《第二期國家手語和盲文規(guī)范化行動計劃(2021—2025年)》中特別強(qiáng)調(diào)了要加快推進(jìn)手語和盲文規(guī)范化、標(biāo)準(zhǔn)化、信息化建設(shè)的任務(wù)目標(biāo),其中建設(shè)手語和盲文語料庫、手語和盲文信息平臺及提高信息化水平是主要措施之一。

      1 漢語盲文語料庫建設(shè)方法

      一是理論研究。對漢語盲文語料庫的理論地位和實際功能進(jìn)行深入研究,明確漢語盲文語料庫作為一種具有鮮明特色的漢語語料庫,要擴(kuò)展?jié)h語語言資源類型和功能,要具備服務(wù)盲文本體研究、盲文教學(xué)、盲文信息化、盲文教材編寫、盲文詞典編纂等多種功能[1]。

      二是盲文語料的采集與校對。根據(jù)語料采集原則和抽樣方法,采集盲文圖書1 100余種、盲校教材26種、盲文刊物1種、報紙(轉(zhuǎn)寫)2種。對于電子版的盲文語料,直接上傳到語料庫建設(shè)的專用網(wǎng)站。針對無電子版的單面盲文語料,以圖片方式采集了4屆全國殘疾人高等教育單考單招盲文作文試卷241份,經(jīng)信息化預(yù)處理后,進(jìn)行人工校對。早期《毛澤東選集(一至四卷)》盲文版由于版本陳舊及保護(hù)的需要,無法掃描識別,聘請盲文出版社盲人手動錄入采集,并進(jìn)行了二校一審。

      三是研制盲文語料標(biāo)注規(guī)范。盲文語料庫從3個維度進(jìn)行標(biāo)注:第一個維度是盲文—拼音—漢字的對照標(biāo)注[2],真實呈現(xiàn)漢語盲文的現(xiàn)狀;第二個維度是盲文語料庫特有的觸覺信息標(biāo)注,為了反映觸覺的真實屬性,給予連珠型、密點(diǎn)型、中空型、假空方、破方等最高優(yōu)先標(biāo)注等級[3];第三個維度是根據(jù)現(xiàn)行盲文的特點(diǎn)進(jìn)行語言學(xué)標(biāo)注,包括聲調(diào)標(biāo)注和分詞連寫標(biāo)注(只標(biāo)不切)。針對單方標(biāo)注進(jìn)行過4類試驗,對整體標(biāo)注進(jìn)行過6類試驗,并邀請多所重點(diǎn)高校語言學(xué)專業(yè)的師生進(jìn)行標(biāo)注,經(jīng)多次試驗,反復(fù)修改,形成了盲文語料庫的標(biāo)注規(guī)范。首先,利用“五重校驗法”對語料進(jìn)行標(biāo)注和檢查,再使用自主研發(fā)的標(biāo)注一致性檢測系統(tǒng),最后進(jìn)行人工審核和修改。在不間斷的調(diào)查試驗中,建成了富內(nèi)容關(guān)聯(lián)的六層精標(biāo)注漢語盲文語料庫。

      四是研發(fā)計算機(jī)輔助軟件。在語料庫的建設(shè)研究過程中,根據(jù)盲文特點(diǎn)設(shè)計開發(fā)計算機(jī)輔助軟件,提高了盲文語料庫建設(shè)的質(zhì)量、效率和管理水平。研究過程中研發(fā)的輔助軟件主要包括:盲文語料采集軟件、漢語原文采集軟件、拼音—漢字對照標(biāo)注輔助軟件、語言信息標(biāo)注輔助軟件、觸覺標(biāo)注軟件、人工校對平臺、一致性檢測平臺以及語料庫檢索系統(tǒng)。

      2 漢語盲文語料庫建設(shè)成果

      2.1 語料庫的基本規(guī)模

      漢語盲文語料庫通過對現(xiàn)行盲文頒布60多年來的盲文出版物語料、非出版物語料以及盲人的個人盲文語料進(jìn)行調(diào)查篩選,采集了盲文語料1 171萬方,超額完成采集任務(wù)17.1%[4],完成了1 031萬方盲文語料觸覺(單方—整體)、對照(漢字—拼音)、語言學(xué)(聲調(diào)—分詞連寫)的三維六層標(biāo)注,并對其中691萬方核心語料進(jìn)行精標(biāo)注校對。

      2.2 盲文語料的觸覺品質(zhì)

      在6 916 953方精標(biāo)注語料中,字均約為1.91方,方均約為2.84點(diǎn)。以靜態(tài)單方為單位,“完善、上層、下層、中空、單點(diǎn)、破方、單列、單行”型符號的出現(xiàn)頻率分別為:27.98%、26.46%、15.98%、11.38%、9.18%、4.69%、2.83%、1.50%。以動態(tài)連寫塊為單位,包含一方及以上完善型符號的塊占66.76%,方間形成完善參照的塊占23.75%,缺陷符號約占8.83%,嚴(yán)重缺陷符號約占0.63%(破方、假空方、連珠、單行、單列)。

      2.3 盲文語料的標(biāo)調(diào)情況

      早期《毛澤東選集》語料的標(biāo)調(diào)率為6.40%,近期標(biāo)調(diào)率為12.39%。大幅度上升的標(biāo)調(diào)率主要集中在聲韻母自成的音節(jié)上。

      標(biāo)調(diào)不一致現(xiàn)象普遍存在,其中“研、司、即、怨、維、咨、緣”等標(biāo)調(diào)率和非標(biāo)調(diào)率均接近50%(±2%)。15 715個雙音節(jié)詞有多形現(xiàn)象,出現(xiàn)573 159次,其中239個詞達(dá)到一詞四形的理論極限,出現(xiàn)20 370次。5 081個多音節(jié)詞有多形現(xiàn)象,出現(xiàn)49 565次,例如,“愛因斯坦”有5種標(biāo)調(diào)形式。

      2.4 盲文語料的分詞連寫情況

      盲文塊平均詞長為1.74字,字均空方率為0.57方。單音節(jié)塊有684 905個,占35.45%。連續(xù)20個及以上的單音節(jié)塊出現(xiàn)了5組,最多可達(dá)22塊。10個字及以上的連寫塊有3塊,最長的為15個字。

      四字格成語全連的占41.86%,二分的占36.30%,三分的占18.06%,四分的占3.78%。同一個成語存在多種寫法,其中615個成語有兩種寫法、51個成語有3種寫法、8個成語有4種寫法,如:不/以為/然、不以/為/然、不以為/然、不以為然。還有的成語內(nèi)部分寫,其首尾又與其他詞連寫,如:不信以/為/真、雨/后/春筍般、萎靡/不振得、欲/說/還休著。

      同一語義單元被拆分的現(xiàn)象屢見不鮮,頻次較高的有:一席/話、一時/間、一/轉(zhuǎn)眼、剎那/間、突然/間。也有跨語義單元的分詞連寫,同一個語義單元內(nèi)分寫,兩個不同語義單元之間連寫,例如,后三分/之/一處、雖然/說到/頭/來。

      除專有名詞外,2.36%的塊為詞典詞的分寫塊,共32 835塊,被分寫的詞類頻次由高到低依次為:名詞、動詞、助詞、連詞、副詞、量詞、數(shù)詞、形容詞、介詞、代詞。高頻分寫詞有:的/話、別/說、尚/未、之/所以、一口/氣。

      盲文中有些連寫詞組(稱為假詞)與某個詞典詞外形相同,例如,四周/MN、學(xué)會/VV、馬上/NNf。普通假詞會增加詞義,增加義項。特殊的假詞還會增加讀音,變成多音多義詞,例如,假詞“總長”(chang2)在盲文中連寫,與詞典詞“總長(zhang3)”同形。這是標(biāo)注的難點(diǎn),也是盲文翻譯需要特別注意的地方,這種假詞在盲文詞典中需要增列條目。

      2.5 《國家通用盲文方案》出臺

      基于漢語盲文語料庫,以聲母分組的聲調(diào)使用頻率為基礎(chǔ)數(shù)據(jù),打破音節(jié)界限,按陰平、陽平、上聲、去聲分成4組,綜合考慮每組的使用頻率、摸讀習(xí)慣、構(gòu)詞能力、觸覺品質(zhì)、輕聲等多種因素,選擇一組省寫聲調(diào),形成了按聲母省寫的《國家通用盲文方案》?!秶彝ㄓ妹の姆桨浮坊旧蠈崿F(xiàn)了漢語盲文字字帶調(diào),避免現(xiàn)行盲文的猜調(diào)問題,提高了盲文的表意功能,同時解決了因字字標(biāo)調(diào)而產(chǎn)生的篇幅增加問題。

      3 思考與展望

      3.1 研究成果的意義

      漢語盲文語料庫是盲文研究領(lǐng)域的重大基礎(chǔ)建設(shè),是具有長遠(yuǎn)性意義的學(xué)術(shù)資源庫,具有原創(chuàng)性、開拓性、集成性,是綜合性重大現(xiàn)實研究成果,具有學(xué)科跨度大、協(xié)同創(chuàng)新程度高等特點(diǎn),在盲文研究領(lǐng)域具有重大意義。

      一是填補(bǔ)了盲文語料庫的國際空白。漢語盲文語料庫首次揭示了多維度盲文統(tǒng)計特征,包括:標(biāo)調(diào)率、標(biāo)調(diào)一致性、分詞連寫一致性、平均詞長、字均方數(shù)、方均點(diǎn)數(shù)、一形多詞、一詞多形,一語多分等一大批以前未知的重要數(shù)據(jù),建立了盲文—漢字—拼音之間多層次、富內(nèi)容關(guān)聯(lián)的全息存儲模式,是世界首例規(guī)模較大的6層精標(biāo)注盲文語料庫,填補(bǔ)了國內(nèi)、國際盲文語料庫的空白。

      二是推進(jìn)了盲文規(guī)范化和信息化進(jìn)程。漢語盲文語料庫是特殊標(biāo)調(diào)的漢語注音語料庫,是對我國漢語拼音語料庫的一個有益補(bǔ)充,也是首個采用特殊分詞連寫的漢語語料庫。盲文原始的分詞連寫得以保留,將大于漢語詞的連寫單位按照內(nèi)部語法結(jié)構(gòu)標(biāo)注詞性,揭示了其構(gòu)成成分;將小于漢語詞的分寫語素綴合成詞標(biāo)注詞性,揭示了其整體的語法特征。對語料庫中真實的盲文語言材料進(jìn)行觀察、比較,在統(tǒng)計分析的基礎(chǔ)上得出盲文運(yùn)用的概率信息,為盲文規(guī)范化提供了基礎(chǔ)數(shù)據(jù)平臺。基于大量盲文語料,制定了《國家通用盲文方案》并經(jīng)國家語委規(guī)范標(biāo)準(zhǔn)審定委員會審定,由教育部、國家語委、中國殘聯(lián)發(fā)布實施,解決了幾十年來盲文讀音不準(zhǔn)的問題,實現(xiàn)了盲文由“猜”到“讀”的轉(zhuǎn)變,是盲文規(guī)范化繼往開來的里程碑,進(jìn)一步推進(jìn)了盲文規(guī)范化的進(jìn)程。同時,漢語盲文語料庫還具備了轉(zhuǎn)寫為國家通用盲文語料庫的基礎(chǔ)。漢語盲文語料庫規(guī)模大、設(shè)計合理、標(biāo)注精細(xì),可為漢盲雙向翻譯、盲文自動校對等技術(shù)的研發(fā)提供關(guān)鍵性的數(shù)據(jù)支持,并成為本領(lǐng)域重要的基礎(chǔ)資源,對相關(guān)技術(shù)的發(fā)展產(chǎn)生深遠(yuǎn)影響。以漢語盲文語料庫部分精標(biāo)注語料為基礎(chǔ),基于人工智能和機(jī)器學(xué)習(xí)技術(shù)的漢語盲文雙向翻譯實踐,充分體現(xiàn)了大規(guī)模精標(biāo)注語料庫在盲文計算機(jī)處理中的優(yōu)越性和重要性,對盲文信息化進(jìn)程起到了推動作用。

      三是占領(lǐng)了盲文研究的國際制高點(diǎn)。漢語盲文語料庫為漢語盲文研究帶來一個強(qiáng)有力的工具及大規(guī)模基礎(chǔ)數(shù)據(jù),能夠為全面分析漢語盲文的詞匯、標(biāo)調(diào)、觸覺品質(zhì)等提供檢索及統(tǒng)計等多項功能[5]。因為布萊爾6點(diǎn)盲文符號的基本結(jié)構(gòu)國際通用,觸覺信息不涉及盲文字符含義,漢語盲文語料庫的觸覺品質(zhì)功能可以跨語種通用,能夠進(jìn)行跨語種盲文觸覺品質(zhì)的定量研究與評價[6]?,F(xiàn)階段國際上其他盲文研究還停留在內(nèi)省法和誘導(dǎo)法的階段,我國將引領(lǐng)盲文研究從抽象轉(zhuǎn)向?qū)嵱?使之達(dá)到國際領(lǐng)先水平。

      四是增進(jìn)了盲人群體的語言文字權(quán)益。漢語盲文語料庫建設(shè)投入了大量人力和技術(shù),克服了重重困難,盲文語料庫多層標(biāo)注數(shù)據(jù)是盲文理論研究和實踐研究的寶貴資源,讓廣大盲人切實感受到了國家對盲人語言文字權(quán)益的高度重視。語料庫展現(xiàn)出了盲文在分詞連寫的一致性、成語分寫、連續(xù)零散單音節(jié)等方面存在的突出問題,為盲文規(guī)范化研究指明了方向。此外,漢語盲文語料庫為盲文詞典編纂提供了堅實的基礎(chǔ),對提升詞典的文化擔(dān)當(dāng)及社會責(zé)任有重要意義。

      3.2 未來研究展望

      一是輕聲符號的探索。漢語盲文語料庫建設(shè)是在現(xiàn)行盲文輕聲沒有符號的主背景下進(jìn)行的,輕聲與現(xiàn)行盲文不標(biāo)調(diào)同形。在語料庫建設(shè)后期(2018年)發(fā)布的《國家通用盲文方案》中,輕聲與通用盲文省寫同形,輕聲有了特殊地位,但語料庫建設(shè)方案已經(jīng)來不及調(diào)整,沒有為輕聲設(shè)計標(biāo)注符號[7]。輕聲造成的混淆問題較少,但是在后續(xù)研究中還需繼續(xù)探索輕聲符號的處理問題,減少或避免盲文語料中的讀音混淆問題。

      二是盲文分詞連寫規(guī)則需要修訂。為了保持語料庫的中立,忠實呈現(xiàn)盲文語料的原始狀態(tài),在語料庫建設(shè)中只對分詞連寫筆誤進(jìn)行了最小限度的修改。在漢語盲文語料庫中存在盲文分詞連寫問題多、一致性差、語義邏輯被打破的現(xiàn)象,零散的單音節(jié)大量存在。有的分法誤導(dǎo)讀者,有的規(guī)則沒有被執(zhí)行,也有的是規(guī)則本身存在問題[8]。分詞連寫不一致是盲文規(guī)范化的攔路虎,是盲文信息化的絆腳石,迫切需要對盲文分詞連寫規(guī)則進(jìn)行本體研究和可操作性研究。

      三是漢語關(guān)鍵節(jié)點(diǎn)需要分詞。漢語中一直缺少表示邏輯停頓的空格,尤其是在專有名詞和歧義字段等關(guān)鍵節(jié)點(diǎn)上[9]。人名、地名復(fù)雜多變,特別是兩端的字與相鄰字可組成常用詞時,更難以區(qū)分。關(guān)鍵節(jié)點(diǎn)分詞(借鑒盲文的空格)是有效的解決辦法[10]。關(guān)鍵節(jié)點(diǎn)分詞有利于信息處理突破歧義字段、地名、人名等瓶頸,關(guān)鍵節(jié)點(diǎn)加空格后,對網(wǎng)絡(luò)搜索、機(jī)器翻譯(盲文翻譯)等計算機(jī)自然語言處理將起到至關(guān)重要的作用;關(guān)鍵節(jié)點(diǎn)分詞還有利于為學(xué)生減負(fù),例如:“我國的煤都是XXX”,需要防范“都是”這個陷阱,只需在“都”和“是”之間加一個空格,學(xué)生就不會答成“黑的”,為學(xué)生減去不應(yīng)有的負(fù)擔(dān);關(guān)鍵節(jié)點(diǎn)分詞能夠降低閱讀難度,將精力聚焦于內(nèi)部理解,而不是表層切分。此舉對普通讀者有利,對聽力障礙、智力障礙、孤獨(dú)癥和閱讀困難等特殊群體更有利,同時,也有利于對外漢語教學(xué),有利于促進(jìn)漢語國際化。

      四是消極殘疾用語需要警示。漢語盲文語料庫中發(fā)現(xiàn)“瞎子”12次、“聾子”4次、“啞巴”5次、“殘廢”5次、“傻瓜”23次,這些強(qiáng)烈傷害殘疾人情感的消極詞語被當(dāng)作普通詞語使用,許多殘疾用語還保留著污名化痕跡。社會大眾無從知曉“瞎”不等于盲的消極內(nèi)涵,這需要辭書補(bǔ)位,將其消極內(nèi)涵予以明確警示[11]。

      五是外來字母詞需要消化。漢語盲文使用布萊爾符號拼寫漢語音節(jié),外來字母詞的危害非常顯著。中外文都使用布萊爾6點(diǎn)符號,外形上無差別,漢字與外來字母混排是盲文摸讀的陷阱[12]。英語盲文的大寫號與漢語盲文的黑體號相同,是盲文信息化的絆腳石。盲人讀到外文字母會突然停頓,再改用外文的方式重讀。漢英混排給盲文造成很大混亂,盲文語料庫需要中英文兩套盲文標(biāo)點(diǎn)符號。外來字母詞對盲文造成了嚴(yán)重沖擊,盲文已經(jīng)發(fā)出了預(yù)警。盡管漢字不像盲文那么脆弱,但也必須積極應(yīng)對國際文化交流帶來的挑戰(zhàn)。對外來字母詞進(jìn)行消化、吸收、規(guī)范,保持漢語的規(guī)范與純潔,既有利于漢語盲文閱讀,更能筑牢文化自信建設(shè)的根基。

      猜你喜歡
      盲文分詞語料
      布萊葉:發(fā)明盲文,在黑暗中“看見”世界
      制作盲文書籍,點(diǎn)亮黑暗世界
      Making Braille children
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      值得重視的分詞的特殊用法
      盲文紙質(zhì)出版物與數(shù)字資源一體化研發(fā)初探
      出版與印刷(2016年1期)2016-01-03 08:53:36
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      调兵山市| 惠州市| 城固县| 融水| 永春县| 扎鲁特旗| 宁化县| 黄龙县| 清远市| 滁州市| 布尔津县| 许昌市| 威宁| 滦南县| 宁明县| 大渡口区| 新乡县| 柳州市| 民丰县| 宜兴市| 大邑县| 义乌市| 共和县| 池州市| 水城县| 综艺| 宕昌县| 甘德县| 东乌| 桑日县| 武宁县| 会东县| 溧阳市| 中西区| 慈利县| 杭锦后旗| 千阳县| 四子王旗| 垣曲县| 沽源县| 靖江市|