樊小超 新疆師范大學
引言:我國是一個由56個民族組成的統(tǒng)一的多民族國家,許多少數民族擁有自己的語言和文字,錫伯文就是其中之一。錫伯文記載著本民族的歷史記憶和眾多民俗,展示著本民族的特征和文化內涵,更是錫伯族非物質文化遺產的重要載體[1]。錫伯文保留著滿文的完整性,同滿文在詞匯、詞法、句法等諸多方面基本相同,可以相互通用[2]。
錫伯文是是滿語支中至今任被使用的語言,研究錫伯文識別技術具有重大的理論價值和實際意義。首先,語言和文字是承載民族文化、溝通民族感情、構成民族各個組成部分的橋梁,錫伯文識別技術的研究對錫伯文、滿文的傳承和發(fā)揚有著重要作用;其次,清王朝統(tǒng)治中國二百六十多年,留下了浩如煙海的滿文檔案及文獻資料,錫伯文識別技術的研究有利于保護和考據珍貴的歷史文獻;最后,錫伯文在新疆錫伯族聚居地有著十分廣泛的使用,在錫伯族的交際活動中占主要地位,錫伯文識別技術的研究將有利于錫伯族群眾更好的融入現代生活,轉變生活方式,具有重大的實際意義。
本文的目的在于從語言學文字角度分析錫伯文的特點,在此基礎上構建印書體錫伯文數據集,為今后的錫伯文識別算法提供公共的訓練和測試樣本,為錫伯文文字識別技術提供必要的前提。
錫伯文按使用場合不同可以分為書面語和口語,二者存在較大差異。本文的研究對象為錫伯文書面語。錫伯文書寫時,通常以單詞為單位,詞與詞之間由空格或標點符號隔開,每個單詞由一個或多個字母構成,行文從上到下,從左到右。現代錫伯文包含5個元音字母,25個輔音字母,根據字母所處位置的不同,字母有四種形體:獨立形式,字母的前后沒有其他字母連接;詞首形式,字母只于其后的字母連接;詞尾形式,字母只于其前的字母連接;詞中形式,字母同時連接前后的字母。由此可以看出,錫伯文是一種字母具有獨立、詞首、詞中、詞尾不同形式,且每一種形式可以有多個不同的書寫形體的、黏著連寫的拼音文字。為了便于書寫和傳播,錫伯文字母可以轉寫成拉丁字母,且錫伯文字母和拉丁字母具有雙向可逆性,能夠以相似的方式進行雙向轉換。
為了生成錫伯文詞典,本文分析了不同的錫伯文書籍,最終選擇了新疆維吾爾自治區(qū)察布查爾縣中小學教材審定委員會2014年審查通過的錫伯文小學課本1-5冊(試用版),《錫伯文雙語速成課本》初級,以及《錫漢教學詞典》作為錫伯文單詞的來源。從以上書籍當中,本數據集收集整理3424個錫伯文單詞,這些單詞涵蓋了目前印刷體錫伯文中最常用的名詞、動詞、形容詞、副詞。
通過掃描或拍攝得到的圖像通常會存在傾斜或包含噪音,在預處理過程中需要消除這些影響。本文構建的印書體錫伯文數據集來自文本數據,使用程序自動生成文本圖像,避免了引入噪聲,也不會出現傾斜等現象。
由文本生成圖像可以采用多種不同的方法完成,但是不同的方法通常都會導致目標圖像的輕微變化。本文采用下采樣和抗鋸齒效果的渲染方法,這種方法能夠在低分辨率下較好的保留圖像的特征。該過程使用抗鋸齒過濾方法將高分辨率源圖像下采樣為低分辨率圖像。首先選擇字體、字號和字型,對詞典中的單詞在高分辨率下(360像素/英寸)生成灰度圖像。然后將白色像素點添加到圖像的右側和底部,形成大小相同的圖像。最后采用抗鋸齒過濾方法獲得低分辨率(72像素/英寸)的目標圖像。圖像生成算法采用python 3.5實現,主要使用了PIL包中Image模塊,為了優(yōu)化下采樣的質量和速度,采用了平滑方法。
錫伯文圖像數據集中的每個單詞圖像都使用一個XML文件完整地描述,該文件包含關于單詞的主要信息和生成的信息,具體信息如圖2所示。
圖2 錫伯文圖像標注
imageInfo標記中的id標識了圖片的名稱,是該圖片的唯一標識。每個xml文件包含4個主要標記:
.Content:描述了當前單詞,當前單詞包含的字母數量及該單詞的中文翻譯。該標記包含次級標記,次級標記屬性描述了該單詞所包含的每個錫伯文字母,字母的羅馬轉寫及該字母在單詞中的位置。
.Font:描述了當前單詞的字體,字號和字型。
.Specs:描述了圖片的格式,高度,寬度和其他效果。
.Generation:描述了圖片生成方式,使用工具及過濾方法。
本文提出了一種印刷體錫伯文圖像數據集,該數據集由多種常用的錫伯文字體組成,為了便于進一步的研究和對比實驗,文中提出了對于數據集劃分的指導性建議。錫伯文與漢文在基本筆畫組成、連接以及書寫方式上均不同,且有著較大的差異,許多在漢文上應用的識別技術不能夠直接應用到錫伯文字的識別中。錫伯文數據集的建立,有利于對于錫伯文文字的切分和識別的研究,為今后有效的進行錫伯文、滿文的高效識別打下了良好的基礎。