• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      滿文單詞合成系統(tǒng)的設計

      2016-11-03 00:34:31張晶李婷許爽王帆
      科技視界 2016年18期
      關鍵詞:合成

      張晶 李婷 許爽 王帆

      【摘 要】本文依托滿文的特點,根據(jù)滿文的音節(jié)特點和滿文單詞的拼寫規(guī)則建立滿文字母樣本庫。經過對樣本庫中滿文字母的黑色像素遍歷,繪出像素分布直方圖,定位字母基線,再通過上下基線拼接達到合成滿文單詞圖像的目的,實現(xiàn)單詞圖像合成,利用Matlab的GUI實現(xiàn)系統(tǒng)的可視化界面。

      【關鍵詞】滿文單詞;合成;字母基線;圖像拼接

      【Abstract】Relying on the characteristics of the Manchu words, the sample database of Manchu words is established based on its syllable characteristics and spelling rules. After traversing the black pixels of the Manchu words in the sample library, a pixel distribution histogram is drawn. After positioning the letter baseline, we stitch the upper and lower baseline to realize the word image synthesis, in order to achieve the purpose of synthesis Manchu word image. At last, Matlab GUI is used to implement the visualization interface.

      【Key words】Manchu words; Synthesis; Letter baseline; Image Stitching

      0 引言

      作為統(tǒng)治了中國近三百年之久的清王朝,孕育了豐富多彩的滿族文化。滿族是一個擁有獨特文化的民族,不僅有自己的歷史文化、風俗習慣,還有自己的語言和文字,現(xiàn)存的用滿文寫成的浩如煙海的典籍和檔案文獻,為我們留下了珍貴的文化遺產。隨著歷史進程,滿文逐漸成為了一種歷史文字。時至今日,精通滿文的人已為數(shù)不多,滿族語言文字已瀕臨失傳,這就使得各個領域對滿文歷史資料和滿文信息化的的研究顯得十分困難。內蒙古大學的魏宏喜,高光來[1]等人在蒙古文的識別和合成方法上,提出了Word Spotting的改進技術,而現(xiàn)有針對滿文文字的合成研究卻是非常少的。實現(xiàn)滿文文字字母樣本庫的建立和滿文單詞的合成,不僅有助于對滿文的學習和研究,也對我國其他少數(shù)民族語言文字處理的發(fā)展有借鑒作用。

      1 滿文文字特點

      滿文[2]是屬于阿爾泰語系的通古斯語族的一種古文字,在詞的構造和拼寫上與英語、漢語等語種有很大的差異。

      1)滿文的基本字母由6個元音和36個輔音字母構成,其中一個字母有最多8種的寫法,且不同元音字母和輔音字母搭配在一起或字母在單詞中的位置不同都可能使其在書寫上具有不同的形式。

      2)在書寫上滿文采用從上到下的書寫順序,每個滿文單詞都是由一到多個滿文字母上下綴接而成。

      3)與其他文字不同,滿文是由滿文字母通過主基線拼接而成,且字母之間無縫連接不存在空隙。

      1.1 滿文的音節(jié)特點

      滿文是一種音節(jié)型的拼音文字[3]。每一個字母都可以作為一個獨立的音節(jié)構成單詞,雖然我們可以將滿文字母的所有音節(jié)劃分為元音音節(jié)和輔音音節(jié),但滿文卻不能被完全稱為是一種音節(jié)型文字。實際上,滿文是以音節(jié)為單位,由字頭、字中和字尾上下綴接而成的。在首字頭形下綴接i、o、b、k、l、m、s、k、n、ng、r等11個音素,這樣形成的十一種音素字頭與首字頭共同構成滿文的十二字頭。這十二字頭基本囊括了滿文的所有音節(jié),然后在對這些音節(jié)進行聯(lián)綴拼接就構成了滿文單詞。不同元音字母和輔音字母搭配在一起書寫,其書寫形式也有很大差異。

      1.2 滿文的拼寫規(guī)則

      滿文單詞的拼寫是從上到下進行的。滿文單詞由一到多個字母從上到下連續(xù)書寫而成。由上文可知滿文有其獨有的音節(jié)特點,其所對應的字母形式也分為獨立字形、字頭形、字中形和字尾形。在滿文單詞中,字母出現(xiàn)在不同的位置會有不同的寫法,每一個滿文單詞最多包含四種字母形式,稱為獨立字形、字頭形、字中形和字尾形。在單詞拼寫時,除獨立字形外,字頭形、字中形和字尾形字都有固定的拼接規(guī)則,一般形式為1個字頭形+ n個字中形+ 1個字尾形(n大于0)的聯(lián)合體。

      2 滿文單詞合成系統(tǒng)的設計

      2.1 滿文字母庫的建立及預處理

      從何榮偉[4]所編著的《滿語365句》金標掃描版中摘選出滿文的標準的基本字母,并且根據(jù)滿文的音節(jié)特點和拼寫特點將滿文字母預處理之后分類處理,建立滿文字母的樣本庫。

      為了使得到的圖像具有較高的質量,將滿文字母圖片以高分辨率保存。得到統(tǒng)一字體的滿文單詞圖片,依據(jù)滿文單詞的拼音文字和拼寫規(guī)則將滿文字母整理,使用截圖工具依據(jù)滿文字母的音節(jié)和字頭、字中、字尾圖片截取以高分辨率的PNG格式保存,建立圖片形式的滿文字母統(tǒng)一的樣本庫,為了保證后續(xù)工作(如:遍歷像素點、圖像拼接等)的順利進行,有必要對掃描圖像進行有效的預處理,以減輕噪聲的干擾,提高圖像質量。圖像的預處理步驟如圖2所示。

      采用“閾值法”實現(xiàn)圖像的二值化處理。選取適當閥值,將截取的灰度圖像通過二值處理得到仍然可以反映字母圖像的整體和局部特征的二值化圖像。

      2.2 字母圖像的表示

      如果直接在字母圖像的像素灰度值上進行圖像匹配和特征提取通常是效果欠佳的。如何提取出有效的高層特征來表示字母圖像,以便采用更高效的圖像拼接算法,獲得更好的單詞合成結果也是應當關注的問題。

      由于以何種方式來表示滿文字母圖像與所要釆用的特征選擇和圖像拼接策略以及合成的準確率是密切相關的,因此這兩個關鍵問題需要整體看待。此處我們只對圖像的表示方法進行歸類,不同的圖像表示方法有不同的圖像匹配策略。本文采用基于像素的表示方法對字母圖像進行表示。

      該方法直接將單詞圖像中每個像素的亮度或者方向梯度用來描述字母圖像。這種表示方法選取滿文單詞的基線作為特征,通過遍歷像素黑點得到結果直方圖,即可獲得字母圖像之間的匹配基線。

      2.3 定位基線

      每個滿文單詞可看成由一到多個滿文字母通過基線相連構成,基線大多位于單詞中部,而且完全由密集的黑像素點構成,如圖3所示。根據(jù)基線由密集的黑像素點所構成的這一特點,把滿文字母圖像看作一個隨機的二值圖像點陣[5],取點陣中每列黑像素數(shù)總數(shù)為A:

      對選中的其中一個滿文字母樣本例如音節(jié)ng的字尾形,如圖5所示,進行黑色像素的遍歷,遍歷結果直方圖如圖6所示,在圖6的左圖中繪出在現(xiàn)有圖像像素的基礎上,樣本圖片的黑色像素分布情況,由圖中我們觀察到在位于圖片大約30(單位:像素)時,黑色像素點明顯增多,由此,基線粗略位置即可得到。其次,在遍歷黑色像素的基礎上,記錄相鄰兩列黑像素的差值,得到的峰值和谷值即為圖6的右圖所示,由此,所得峰值為基線的最左側,谷值即為基線的最右側,至此,字母圖像的基線位置得以確定,由此類推,每個滿文字母的基線位置都可以被定位。

      2.4 圖片拼接合成實現(xiàn)

      滿文至上而下書寫,同一個單詞中所有字母按出現(xiàn)的先后順序依據(jù)音節(jié)特點,由字頭形式、字中形式和字尾形式從上至下依次拼接起來。

      利用圖像拼接原理[6]合成單詞圖像[7]的時候,如下兩個條件必須同時滿足:(1)相鄰字母的基線必須左右邊界完全對齊;(2)相鄰字母按照基線位置無縫拼接,相鄰字母的基線在其上下邊界應完全重合且無縫隙。

      以下為本設計合成滿文單詞圖像的算法步驟。假設一個合成單詞圖像表示MW,它由3個字形圖像組成,并定義由前個字形圖像生成的中間結果表示為MWIR,則生成的算法如下:

      2.5 系統(tǒng)GUI的設計

      本文基于matlab實現(xiàn)將滿文字母圖像拼接合成滿文單詞圖像,并設計了GUI界面。本系統(tǒng)可以在界面的選擇字母按鍵面板中點擊選擇字頭、字中或字尾形,在彈出的文件夾中選取所要合成的滿文字頭、字中、字尾,通過點擊滿文合成按鍵,即可得到完整的滿文單詞。系統(tǒng)具有保存合成后的滿文單詞、輸入漢語顯示對應的滿文句子等功能。滿文單詞合成系統(tǒng)界面如圖7所示。

      3 結論

      本文對滿文單詞合成系統(tǒng)關鍵技術進行了研究。首先,確定了構成滿文單詞的字形集,并根據(jù)字形出現(xiàn)在單詞中的位置,將它們分為:字頭字形、字中字形和字尾字形。然后,依據(jù)滿文單詞的拼寫規(guī)則和書寫特點,對滿文字母樣本進行黑色像素的遍歷定位基線,以對齊字形圖像基線實現(xiàn)拼接。本文利用matlab實現(xiàn)了該系統(tǒng),并設計了GUI界面使系統(tǒng)可視化。該系統(tǒng)為滿文信息平臺及滿文單詞檢索研究奠定了良好的基礎,同時也對其他少數(shù)民族文字合成提供了參考,有助于我國少數(shù)民族語言文字處理的發(fā)展。

      【參考文獻】

      [1]魏宏喜,高光來.蒙古文古籍圖像檢索技術研究[D].內蒙古大學,2012.

      [2]屈六生.滿文教材[M].烏魯木齊:新疆人民出版社,1991.

      [3]胡增益.新滿漢大詞典[M].烏魯木齊:新疆人民出版社,1994.

      [4]何榮偉.滿語365句[M].沈陽:遼寧民族出版社,2009.

      [5]李偉,高光來,侯宏旭,李振宏.印刷體蒙古文字識別技術中切分方法的設計與實現(xiàn)[J].內蒙古大學學報,2003(3):1-5.

      [6]Shi J, Malik J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 8(22): 888- 905.

      [7]Regier T, Carlson L. Grounding spatial language inperception: an empirical and computational investigation[J]. Journal of Experimental Psychology: General, 2001, 130(2): 273-298.

      [責任編輯:楊玉潔]

      猜你喜歡
      合成
      三乙烯四胺接枝型絮凝劑制備及其對模擬焦化廢水處理
      丙酮—甲醇混合物萃取精餾分離過程合成與模擬
      綜合化學實驗設計:RGO/MnO復合材料的合成及其電化學性能考察
      考試周刊(2016年85期)2016-11-11 02:09:06
      八種氟喹諾酮類藥物人工抗原的合成及鑒定
      新型三羥甲基氧化膦衍生物阻燃劑的合成研究
      兩例銅基配合物的合成、表征及電化學性能研究
      中國市場(2016年28期)2016-07-15 04:18:49
      量子化學在電致發(fā)光材料分析中的應用
      科技視界(2016年15期)2016-06-30 00:46:57
      浙江新高考化學《有機推斷與合成綜合題》的特點分析與復習策略
      基于鈦酸鋰作為鋰離子電池負極材料的研究進展
      科技視界(2016年10期)2016-04-26 15:31:06
      乳化炸藥中乳化劑的合成及性能研究進展
      科技視界(2016年9期)2016-04-26 09:47:50
      长治市| 浙江省| 澜沧| 万盛区| 南召县| 古丈县| 石门县| 晴隆县| 旬邑县| 万宁市| 南雄市| 北流市| 濉溪县| 郴州市| 易门县| 德令哈市| 肃南| 晋州市| 广平县| 巴彦淖尔市| 万州区| 涞水县| 和顺县| 湘潭市| 巴塘县| 成都市| 道孚县| 若尔盖县| 水富县| 北流市| 武山县| 元阳县| 商洛市| 北碚区| 忻城县| 益阳市| 古蔺县| 六枝特区| 桂阳县| 唐河县| 长乐市|