李妍 關(guān)鐘 劉志麗 閻嘉 孫巖
【摘 要】目前漢語盲文語料庫多是txt文本,txt文本在進(jìn)行漢文和盲文采集、修改、管理時(shí),操作不便,處理速度慢且效率低,本盲文分詞修改系統(tǒng)提供了一個(gè)平臺(tái),可以將多個(gè)不同分詞版本的txt導(dǎo)入到平臺(tái),實(shí)現(xiàn)多版本盲文分詞的格式化排版、自動(dòng)對(duì)齊、同步編輯、智能校對(duì)等操作,幫助用戶更快、更便捷的進(jìn)行盲文分詞標(biāo)記工作。
【關(guān)鍵詞】盲文分詞;標(biāo)記;格式化排版;自動(dòng)對(duì)齊
中圖分類號(hào): TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)30-0089-002
DOI:10.19694/j.cnki.issn2095-2457.2019.30.045
0 背景
盲文是盲人學(xué)習(xí)文化知識(shí)的媒介,在盲人教育中具有基礎(chǔ)性地位,是盲人語言文字權(quán)益的核心。國家對(duì)殘疾人語言文字權(quán)益一直高度重視,對(duì)盲文規(guī)范化高度重視?,F(xiàn)行盲文對(duì)推動(dòng)我國盲人教育、文化、出版事業(yè)發(fā)展和盲人文化知識(shí)水平提高,發(fā)揮了非常重要的作用[1]?,F(xiàn)行盲文是記錄漢語的一種工具,是我國有法定地位的記錄漢語的一種觸覺符號(hào)系統(tǒng)。漢語現(xiàn)行盲文與眾不同的標(biāo)調(diào)和分詞連寫方式形成了它獨(dú)具特色的技術(shù)方案,具有流通性和法定性,因此它具有了文字地位。現(xiàn)行盲文與漢語拼音有較多的共同點(diǎn),但在分詞連寫和標(biāo)調(diào)兩個(gè)重要方面都有本質(zhì)的差異。
分詞連寫是現(xiàn)行盲文首創(chuàng)的一個(gè)重要規(guī)則,它是現(xiàn)行盲文脫離注音符號(hào)走向文字的標(biāo)志。漢語盲文的分詞連寫既不同于漢語拼音正詞法基本規(guī)則的分詞連寫方式,也不同于漢語信息處理領(lǐng)域常用的分詞規(guī)則?,F(xiàn)行盲文的絕大多數(shù)連寫單位與漢語的詞是一致的,這樣的連寫單位就是一個(gè)漢語的詞。有少數(shù)連寫單位長于一般漢語語料庫切分單位,主要是現(xiàn)行盲文將附加成分、修飾成分與中心詞一般連寫在一起,助詞“著、了、過”與動(dòng)詞連寫,也有一部分聯(lián)合詞組、偏正詞組、述補(bǔ)詞組等連寫。還有極少數(shù)成語(天衣/無/縫)按照內(nèi)部結(jié)構(gòu)進(jìn)行了分寫,這樣的連寫單位小于一般漢語語料庫切分單位,甚至小于詞典詞。之所以這樣定義,是因?yàn)槊の亩陶Z是在詞語的基礎(chǔ)上再加上連寫的規(guī)則而形成的,它不同于傳統(tǒng)意義上的詞語和短語。據(jù)此,改進(jìn)《漢語盲文分詞連寫規(guī)則》[2]中的盲文短語就可以從分詞和連寫兩個(gè)方面來進(jìn)行研究[3]。
由于盲文分詞連寫的特殊性,導(dǎo)致現(xiàn)行盲文語料在分詞連寫上存在著很大的分歧。因此科學(xué)的選材和標(biāo)注,對(duì)現(xiàn)存的盲文語料進(jìn)行分詞連寫的修訂,對(duì)全面的分析現(xiàn)存語料的分詞問題有著重要的作用,并對(duì)提高盲文分詞的一致性,促進(jìn)盲文的發(fā)展有著重要的意義。
但目前我國盲文信息化水平與上世紀(jì)末漢語信息化水平相當(dāng),近二十年語言科技的迅猛發(fā)展幾乎沒有惠及盲文。盲文信息的處理、校對(duì)、教學(xué)材料的制作還處于人工階段,勞動(dòng)強(qiáng)度大,效率低。我國現(xiàn)有的幾個(gè)漢盲自動(dòng)翻譯、盲文編校軟件準(zhǔn)確率差,用戶滿意度很低[4]。盲文語料庫的建設(shè)進(jìn)程也受到了很大的影響,如何提高盲文語料庫的建設(shè)進(jìn)程,加快盲文信息化處理的速度也是盲文研究者共同努力的目標(biāo)。
1 系統(tǒng)模塊設(shè)計(jì)
通過與參與盲文分詞標(biāo)記修訂的老師和學(xué)生的大量溝通和調(diào)研,以及在分詞標(biāo)記過程中的常見的問題的分析,完成了盲文分詞修改平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)。
盲文分詞修改系統(tǒng)模塊結(jié)構(gòu)如圖1所示。
圖1 模塊結(jié)構(gòu)
本平臺(tái)從功能大類上分為兩類:一為多版本盲文分詞TXT源文件導(dǎo)入、二為盲文分詞標(biāo)記修訂。
1.1 多版本盲文分詞TXT源文件導(dǎo)入
多版本盲文分詞TXT源文件導(dǎo)入模塊功能是實(shí)現(xiàn)將清華、北理工和中科院三家提供的TXT格式的盲文分詞源文件導(dǎo)入到盲文分詞系統(tǒng)平臺(tái)數(shù)據(jù)庫中,在導(dǎo)入時(shí)通過專用算法,進(jìn)行初步信息處理。
本平臺(tái)選擇清華大學(xué)版、北京理工大學(xué)版和中科院版三家的盲文分詞TXT文件作為源文件,通過專用算法(遍歷每一行字符設(shè)置標(biāo)識(shí)記號(hào)比較基礎(chǔ)版本,生成基礎(chǔ)數(shù)據(jù)。)將三個(gè)版本的分詞進(jìn)行對(duì)比、參照,并將對(duì)照結(jié)果生成特殊標(biāo)記作為數(shù)據(jù)分詞對(duì)齊依據(jù),為后期人工對(duì)照修訂提供初始化版本,解決利用txt漢語盲文進(jìn)行采集、修改、管理操作不便、管理效率低的問題,提高了自動(dòng)化程度,解決了人工分詞的諸多弊端。
多版本盲文分詞TXT源文件導(dǎo)入后經(jīng)過算法處理、排版、分詞對(duì)齊后顯示如圖2所示。首先將三個(gè)版本的源文件按照分詞進(jìn)行對(duì)齊,方便用戶同一篇文章,同一個(gè)分詞之間進(jìn)行比對(duì)。其次利用顏色進(jìn)行突出顯示,提示用戶三個(gè)版本之間的區(qū)別,例如圖2中綠色背景凸顯的是分詞連寫,即編號(hào)28行,盲文分詞應(yīng)該是“不會(huì)”,但中科院、北理工和清華分成了兩個(gè)詞“不”和“會(huì)”,因此利用背景凸顯方法根據(jù)相關(guān)標(biāo)記,將本應(yīng)2個(gè)分詞顯示的內(nèi)容,與“不會(huì)”進(jìn)行關(guān)聯(lián)對(duì)比,行程分詞連寫效果。再例如圖3中編號(hào)31和編號(hào)33行粉色背景凸顯了不同版本之間分詞相同但標(biāo)記不同的情況,提示修改者是否要進(jìn)行修改。其他未進(jìn)行顏色突出顯示的情況表明分詞相同,標(biāo)記相同,是否要進(jìn)行修改,由修改者自行瀏覽修訂。
1.2 盲文分詞詞性標(biāo)注修訂
盲文分詞詞性標(biāo)注修訂模塊功能是提供用戶分詞標(biāo)記修改、備注、查詢?cè)~性的平臺(tái)。利用信息技術(shù)提高分詞詞性標(biāo)記的速度,快速完成盲文資料的編輯和整理工作。
盲文分詞詞性標(biāo)注修訂主要使用人員有超級(jí)管理員、一級(jí)用戶、二級(jí)用戶。
超級(jí)管理員擁有平臺(tái)所有管理、修改、查詢權(quán)限。
一級(jí)用戶可以管理二級(jí)用戶,對(duì)二級(jí)用戶名及密碼進(jìn)行添加、刪除和修改。并擁有文章分配、文章選擇兩個(gè)模塊的全部功能。
二級(jí)用戶只擁有名下分配文章的文章選擇模塊的功能。
用戶管理模塊可以實(shí)現(xiàn)添加用戶、修改用戶和刪除用戶,此處用戶包括一級(jí)用戶和二級(jí)用戶,通過權(quán)限設(shè)置實(shí)現(xiàn)用戶文章修訂的權(quán)限管理。
文章分配模塊可以實(shí)現(xiàn)給不同用戶分配不同文章,根據(jù)用戶數(shù)和文章數(shù),由超級(jí)管理員為一級(jí)用戶或二級(jí)用戶分配要修訂的文章,一級(jí)用戶可以再為二級(jí)用戶分配要修訂的文章。
文章選擇模塊要實(shí)現(xiàn)根據(jù)文章分配的后的結(jié)果,不同用戶只可以看到分配到個(gè)人名下的文章,可以選擇不同的文章進(jìn)行編輯。
選擇好文章后,進(jìn)入編輯修改界面。用戶根據(jù)對(duì)已有三方源文件處理后的結(jié)果進(jìn)行人工校對(duì)和標(biāo)記修改。
多人協(xié)作人工校對(duì)工作主要在這個(gè)模塊實(shí)現(xiàn),通過三個(gè)版本自動(dòng)比對(duì)后的顯示排版,由用戶進(jìn)行人工校對(duì),校對(duì)包括分詞的準(zhǔn)確性、標(biāo)記的爭(zhēng)取與否。如果分詞不正確,在備注欄中標(biāo)注,如果標(biāo)記不正確可以,但中科院、北理工和清華中有正確標(biāo)記的,可以點(diǎn)擊“替換”按鈕,實(shí)現(xiàn)正確標(biāo)記的自動(dòng)替換。如果三個(gè)版本中均無正確的標(biāo)記,則人工錄入正確標(biāo)記。如果分詞詞性標(biāo)記記不住,可以點(diǎn)擊“符號(hào)查詢”,查找正確標(biāo)記符號(hào)。
2 結(jié)束語
本系統(tǒng)平臺(tái)作為漢語盲文語料庫建設(shè)中必不可少的一環(huán),提高了盲文分詞修改方法的自動(dòng)化程度,解決了人工分詞標(biāo)記校對(duì)、修改的諸多弊端,提高了分詞標(biāo)記的正確率。與人工識(shí)別相比較能夠提高統(tǒng)計(jì)速度和統(tǒng)計(jì)效率。在識(shí)別和對(duì)比中設(shè)置盲文分詞的連寫標(biāo)記,為數(shù)據(jù)顯示提供重要標(biāo)識(shí),減少人工工作量,簡(jiǎn)化人工判斷流程,為漢語盲文語料庫建設(shè)進(jìn)程提供了重要的信息化保障。
【參考文獻(xiàn)】
[1]鐘經(jīng)華.國家通用盲文方案研究.中國特殊教育,2018,6(216):42-43
[2]滕偉民,李偉洪.中國盲文(第2版)[M].北京:華夏出版社,2008.
[3][5]孫宇,李純蓮.應(yīng)用“層次分析法”優(yōu)化漢語盲文分詞連寫規(guī)則.長春大學(xué)學(xué)報(bào),2015.5(5):126-129.
[4]程黎,顧定倩,劉艷紅,等.我國盲文使用狀況的調(diào)查研究.語言文字應(yīng)用,2013,(2):42-48.