閆 宇,戰(zhàn)國棟,張 煜
(大連民族大學(xué) a.計算機科學(xué)與工程學(xué)院;b.大連市漢字計算機字庫設(shè)計技術(shù)創(chuàng)新中心 , 遼寧 大連 116650)
在漢字結(jié)構(gòu)中,“重心平穩(wěn)”是最基本的要求,對于漢字而言,一個字的觀感是否協(xié)調(diào),全關(guān)乎其重心是否平穩(wěn)。在書法中,文字的重心也是一個字的力量集中之處,起著穩(wěn)定文字的作用。在物理學(xué)中,“重心”指的是物體合力的作用點,在字體設(shè)計領(lǐng)域中,字體重心是漢字字形結(jié)構(gòu)合力作用點,一般位于漢字的中宮位置,形成視覺重心。一般來說,字形結(jié)構(gòu)相對簡單的漢字的視覺重心要比理論重心偏高一點,而組合字中,多個部件的重心會處于同一中垂線上,當重心與結(jié)構(gòu)中心重合時,字體的結(jié)構(gòu)才具有穩(wěn)定性。重心失調(diào)會破壞整體結(jié)構(gòu)的完整性。當然,字體的重心并非處于一個絕對化的位置,字體中筆畫的穿梭、空間的分布都和字體重心有著直接的關(guān)系。在家族字體中,字體重心的統(tǒng)一是非常重要的,高低不平、結(jié)構(gòu)失調(diào)是嚴重影響家族字體的整體性的。由此,量化出所生成的字體中的視覺重心位置,是檢驗家族字庫的生成質(zhì)量的重要標準。
2006年,Bauerly[1]在《INTERNATIONAL JOU-RNAL OF HUMAN-COMPUTER STUDIES》期刊中提出了一種基于像素統(tǒng)計的界面平衡計算模型,該模型以圖形界面的左下角為原點建立笛卡爾坐標系,以每列圖像的像素數(shù)為視覺權(quán)重,根據(jù)力矩平衡方程建立平衡方程,在方向和方向分別測量,進而計算平衡點位置,實驗最終證實了圖形界面的美感與平衡度的對稱成正相關(guān),但與界面布局中的物體數(shù)量呈現(xiàn)負相關(guān)。2016年,汪瀟等[2]提出了基于視覺特征的書法風(fēng)格識別,將視覺風(fēng)格特征轉(zhuǎn)化為可供計算機讀取的書法字圖像底層語義,提取風(fēng)格特征,判別書法風(fēng)格。Huang Haiyun等[3]提出基于小波變換的插值算法將圖像分解為高頻和低頻區(qū)域,高頻信息對應(yīng)于圖像的邊緣信息。此外,浙江大學(xué)Xu等[4]建立了含有不同風(fēng)格的筆畫數(shù)據(jù)庫,對字體研究的相關(guān)實驗也大有益處。
在探究字體重心位置實驗時,范琳偉[5]在2013年發(fā)表的文章《漢字圖像的視覺重心點提取算法研究》中結(jié)合視覺特征和力矩平衡理論,提出了一種新的基于漢字圖像的視覺重心提取算法。該算法利用視覺注意模型提取漢字圖像的顏色、方向、邊緣等視覺特征,將一個漢字分為若干小塊利用力矩平衡理論得到漢字的視覺重心。但是該方法具有一定的局限性,它忽略了漢字結(jié)構(gòu)和筆畫骨架對人的視覺注意位置的影響。2015年,鄧曉健、李彬、張峻松[6]在中文信息學(xué)報中發(fā)表的《基于統(tǒng)計的漢字字形視覺重心計算》中提出一種基于統(tǒng)計漢字字形視覺焦點的計算方法,該方法首先通過人工標注重心進行訓(xùn)練數(shù)據(jù),然后借助回歸分析方法,建立了漢字字形連接區(qū)域的視覺平衡中心與漢字中體視覺重心之間的關(guān)系模型。
根據(jù)漢字字符的特點,我們可以發(fā)現(xiàn),單個字符圖像可以分解為多個聯(lián)通區(qū)域的組合,每個連通區(qū)域的細節(jié)反映了漢字筆畫的風(fēng)格和漢字的局部視覺特征。王潤鴻[7]2013年發(fā)表的《基于視覺加權(quán)的最大連通面積直方圖檢索》中提出了基于最大連通區(qū)域直方圖和像素顏色復(fù)雜度計算的區(qū)域視覺重心計算方法,構(gòu)建了反映視覺感知的加權(quán)最大連通區(qū)域直方圖特征。張積家等[8]提出了漢字認知有一個自上而下的過程,從局部到整體,其中漢字筆畫和部件是漢字結(jié)構(gòu)構(gòu)成的基本單位。多連通區(qū)域組合情況下的視覺重心往往與人對視覺對象的整體感知密切相關(guān),從幾何計算的角度難以準確預(yù)測。因此,該方法模擬了不同區(qū)域組合的視覺重心定位機制,重心位置由連通區(qū)域特征共同確定,局部上,對單個筆畫聯(lián)通區(qū)域的視覺平衡中心估算;整體上,對多連通區(qū)域組合進行視覺重心定位,計算多個局部連通區(qū)域視覺平衡中心與漢字整體視覺重心的關(guān)系。
為了尋找漢字的最優(yōu)特征,范琳偉[9]在《漢字圖像的視覺重心點提取算法研究》中依據(jù)特征顯著性理論,對多種特征進行顯著性分析,選取較好的特征集。顯著性的測量是提取漢字圖像視覺重心點的關(guān)鍵,即在顯著性區(qū)域?qū)ふ覞h字圖像中吸引人視覺關(guān)注的區(qū)域。在衡量漢字圖像對象的視覺顯著性特征時,所依賴的主要依據(jù)是提取漢字圖像的視覺特征,因此,視覺特征對提取視覺重心的準確性有重要影響。
黨向盈等[10]在《基于邊緣方向的高精度快速圖像插值算法研究與應(yīng)用》提出的關(guān)注度模型從原始圖像中提取出顏色、方向和亮度三個特征,以此來編碼和整合圖像中的每個顯著點信息,在對漢字的研究中,由于漢字圖像對比度較大,故沒有選取亮度特征,只選取了關(guān)注度模型中的方向和顏色。鄭偉[11]在《基于邊緣自相關(guān)模糊消除的圖像放大插值算法研究》中,提出了基于邊緣檢測的多方向模糊消除算法,因為漢字的風(fēng)格不統(tǒng)一,但其邊緣信息包含了字符輪廓的信息,代表字體書寫風(fēng)格特征,因此選擇邊緣輪廓作為特征。
力矩平衡是物理學(xué)上的概念,指的是物理學(xué)中力的作用點和力的作用方向?qū)D(zhuǎn)動物體運動狀態(tài)變化的影響,若一個物體收到的力的合力矩的代數(shù)和為0,那么就說這個物體處于力矩平衡狀態(tài),動力臂長*動力=阻力臂長*阻力,此時處于力矩平衡狀態(tài)。周赟[12]在《影響界面平衡感的設(shè)計要素及作用機制分析》中提到:當界面上界面元素的重心點取決于代數(shù)矩且為零時,圖像的視覺重心與圖像的中心重合,圖像達到整體結(jié)構(gòu)平衡,從而在此基礎(chǔ)上提出視距平衡原理,利用圖像視覺平衡的視覺重心與圖像中心的偏離程度來衡量字體圖像的生成質(zhì)量,其視距平衡定量計算公式如(1)所示:
BM=1-Dg/Dmax。
(1)
式中:BM表示偏離程度值;Dg表示圖像視覺重心點到邊界的最長距離;Dmax表示圖像中心點到邊界的最長距離。進一步計算Dg如公式(2)所示,其中xg,yg是圖像平衡點坐標值。
(2)
計算圖像中心點到邊界的最長距離Dmax,其中xmax,ymax是離中心點最遠點的坐標值,得公式(3):
(3)
利用視距平衡原理,合力為0,如公式(4)、(5)所示:
(4)
(5)
(6)
式中:ai為像素點取值,因為圖像進行二值化后,白色取值為0,黑色取值為1;Si為視覺重量;ni為圖像所占區(qū)域的像素單位個數(shù)。
直方圖均衡就是將灰度比較集中一定范圍的圖像通過灰度變換,使其灰度值平均分布在灰度級的范圍內(nèi),以得到圖像的更多細節(jié),從而達到對比度增強的效果。直方圖均衡化步驟:
Step 1:列出圖像灰度級(i/j);
Step 2:統(tǒng)計原圖像各灰度級像素個數(shù)ni;
Step 5:計算變換后的灰度值;
Step 6:確定灰度變換關(guān)系,計算變換后的圖像直方圖。
漢字方向是指漢字圖像中的筆畫方向,是一種局部特征,通過筆畫方向描述漢字的字形結(jié)構(gòu)。隨著圖像處理發(fā)展,圖像曲線跟蹤算法比較成熟,其主要原理是在掃描完輪廓曲線的第一個點后,在當前點的八鄰域內(nèi)順時針找到下一個點,將圖像分成八個子塊,讓P作為漢字圖像預(yù)處理后的像素點,其領(lǐng)域如圖1。其中如果P5或P1為黑色像素,則確定該分量屬于水平方向;如果P3或P7是黑色像素,則確定該分量屬于垂直方向;如果P2或P6為黑像素,則判定該分量屬于撇筆畫;如果P4或P8為黑像素,則判定該分量屬于捺筆畫。
圖1 像素的八鄰域
(1)邊緣方向。采用圖像處理中邊緣檢測算子的方法來進行漢字的方向分解如圖2。在漢字圖像上,四個方向算子來檢測二值化圖像邊緣點在四個方向上梯度的拐點,對邊緣梯度方向按方向角度進行統(tǒng)計,得到方向直方圖,可以粗略地提取出漢字圖像的四個方向的分量。
a) b) c) d)
方向特征的顯著性是根據(jù)中心和外圍的差異來計算的。方向性特征的重要性可以表示為
O(c,s,θ)=|O(c,θ)O(s,θ)|。
(7)
式中:c代表中心尺度;s代表邊緣區(qū)域的尺度;c∈{1,2,3},s=c+?,?∈(2,3)之后通過方向顯著性圖將漢字八個方向特征的顯著性程度歸一化。方向顯著圖可以表示為如式(8)所示,其中?是與八領(lǐng)域間的夾角。
(8)
(2)筆劃方向。設(shè)DN(l=1,2,3,4)表示二值圖像中像素點的四方向線數(shù)長度,l取值為1、2、3、4分別代表橫豎撇捺四個方向,DN定義為l方向與該點相鄰的輪廓點間的距離。對于漢字圖像中像素(m,n),如式(9)所示:
(9)
漢字的邊緣特征是漢字圖像的二值描述,為了提取漢字圖像的視覺重心,第一步是將漢字從原始圖像中分離出來,即識別漢字圖像的邊緣特征。在實驗中,圖像邊緣上的像素拜年話可以用微分算子檢測出來,通常用一階或二階導(dǎo)數(shù)來檢測邊緣。實驗發(fā)現(xiàn),拉普拉斯算子計算復(fù)雜度低,實時性強,邊緣特征在這利用拉普拉斯算子提取,邊緣特征E如式(10)所示:
E[i,j]=|f[i+1,j]+f[i-1,j]+f[i,j+1]+f[i,j-1]-4f[i,j]|。
(10)
式中:E表示灰度值;f[i,j]代表處理前的灰度值;邊緣顯著度E(c,s)如式(11)所示:
E(c,s)=|E(c)-E(s)|。
(11)
進一步,邊緣顯著度如(12)所示:
(12)
在與設(shè)計師溝通時發(fā)現(xiàn)字體的設(shè)計有著很強的原則性,如“八”“百”“川”這樣的合體字,中心對稱點就是字的重心;對于“彼”“朝”組合字來說,字形左右對稱的,字的重心在左右對稱軸上;字形中有中豎的,則重心在中豎上;對于“才”“可”“衛(wèi)”字形中有豎筆畫,但不居中的,如果豎靠左,則重心居右,若是靠右,則重心居左。對于“弄”字形屬于上下結(jié)構(gòu)的,重心一般分別計算,使其兩個部件重心處于同一豎直線即可;包圍結(jié)構(gòu)的字形較為復(fù)雜,分為三組:上包下、下包上;左上包、右上包;左包右、全包圍,第一組被包圍部分要位于正中間,并要略微向下沉,重心位于中豎上,第二組被包圍部分要寫得豎湊且稍靠上,重心在左,第三組全包圍結(jié)構(gòu)被包圍部分是居中的、重心在中心對稱線上。
在漢字圖像提取的視覺重心點中,視覺顯著性像素通常是漢字圖像中容易引起視覺注意的像素。因此,通過視覺焦點模型,可以首先確定圖像中的視覺顯著性像素,然后根據(jù)力矩平衡理論計算漢字圖像的視覺重心,從而提取視覺重心。在平面構(gòu)成中,任何形式的重心都與其結(jié)構(gòu)有著必然的關(guān)系。人眼觀察漢字圖像時,視覺注意力通常集中在漢字圖像的中心點,也就是視覺的重心,當然,有些復(fù)雜漢字的字重和字形會影響視覺重心。
本文根據(jù)方向特征將漢字劃分為8個子分量,然后結(jié)合統(tǒng)計特征將這8個子分量視為8個顏色塊,計算出8個顏色塊的權(quán)重。最后,利用邊緣特征得到8個顏色塊的面積。因此,可以獲得漢字圖像的視覺重心。設(shè)漢字圖像視覺重心坐標為(x,y),色塊1權(quán)重值為B1,面積為S1,坐標為(x1,y1),色塊2權(quán)重值為B2,面積為S2,坐標為(x2,y2),色塊3的權(quán)重值為B3,面積為S3,坐標為(x3,y3),同理,色塊8的權(quán)重值為B8,面積為S8,坐標為(x8,y8),色塊1~8與視覺重心的距離可表示為(13)所示:
(13)
(14)
即可求得漢字字形的重心(x,y)。
漢字圖像視覺重心點提取目的是在計算機上自動實現(xiàn)漢字圖像的視覺重心定位,以方便整體字體的協(xié)調(diào),并為檢驗漢字字庫的質(zhì)量提供客觀依據(jù)。本文算法的具體步驟如圖3。
圖3 算法流程圖
為了驗證本文算法的有效性和可行性,本文設(shè)計了兩組對比實驗:實驗1,統(tǒng)一數(shù)據(jù)集采用小塚明朝字體家族,輸入采用合體字和組合字圖像為實驗對象,對其不同的字形結(jié)構(gòu)進行重心的計算,并與文獻[6]進行比較,考察本算法對同一風(fēng)格下不同字形預(yù)測的準確度;實驗2,數(shù)據(jù)集采用不同風(fēng)格字體,字面大小不一,進而對其重心進行預(yù)測,將本文方法與文獻[9]進行了對比,考察本算法對字面大小不一情況下字形重心預(yù)測的準確度。部分樣本圖像如圖4。實驗1的部分樣本圖像,左邊代表合體字,右邊代表組合字。
a)合體字 b)組合字
實驗1中文獻[5]運行結(jié)果圖(視覺重心點用△號表示)如圖5。該方法易受噪聲,灰度非正態(tài)分布影響而降低提取精度,小塚明朝ExtraLight字體屬于襯線體,字型筆畫纖細,對于第一行的“不”、“才”字,同樣是合體字,重心預(yù)測結(jié)果一個在中豎線左邊,一個在中豎線右側(cè),受到了筆畫結(jié)構(gòu)的影響;如小塚明朝Heavy字體的“不”字,重心預(yù)測在撇筆畫上,不在中豎線,違背了設(shè)計原則。對于“彼”、“博”左右結(jié)構(gòu)的組合字,重心在筆畫較多的右側(cè)較為精準;但“?!弊稚现邢陆Y(jié)構(gòu)受到短豎、豎鉤筆畫的影響,重心落在了絕對重心上,并且每一行重心位置上下起伏較大,會產(chǎn)生一種上下?lián)u擺的視覺錯誤,這些結(jié)果都說明,該方法抗噪性較差,重心預(yù)測受字型風(fēng)格影響大。相反,本文方法先對字形條件做了約束,融入設(shè)計原則,結(jié)合了視矩平衡原理,并同時計算絕對重心與其進行比較,實驗結(jié)果中同樣的“不”字結(jié)構(gòu),不會出現(xiàn)因其字重不同重心位置出現(xiàn)忽左忽右的情形,“彼”字左右結(jié)構(gòu),重心落在右半部分筆畫較密集的區(qū)域,符合設(shè)計中的黃金比例分割的情況,而且整體重心起伏不大,結(jié)果如圖6,體現(xiàn)了標準字庫的統(tǒng)一性,該方法比以往方法精確。
圖5 文獻[5]實驗結(jié)果圖(在Heavy和ExtraLight字重下)
圖6 本文實驗結(jié)果圖(在Heavy和ExtraLight字重下)
實驗2中探究了不同字面大小(即字體不同、風(fēng)格不一)對重心預(yù)測產(chǎn)生的影響。首先,中文字庫常用的GB2312字符集一共有6 763個漢字,而Unicode 13.0里面的漢字已經(jīng)積累到了92 856個,全部拿來疊加呈方框黑塊意義不大,只需要查看不同字面大小字體即可。于是,本文分別輸入不同字體數(shù)據(jù)集500個字體圖像進行疊加實驗。其中,小塚明朝字體、華文黑體、漢儀瑞虎宋體的漢字字面對比圖如圖7。
圖7 漢字字面對比圖
可以看出,字面框的大小是和字體風(fēng)格息息相關(guān)的,這也符合設(shè)計師的設(shè)計理念,其中漢儀瑞虎宋體字面最大,結(jié)構(gòu)寬松;小塚明朝字面最小,結(jié)構(gòu)緊湊,從上述實驗中也發(fā)現(xiàn)有些筆畫是頻繁出現(xiàn)的,如提手旁、豎、草字頭能明顯看出其所占的比重是最大的,有的還能看到包圍結(jié)構(gòu)的字,分別針對其重心預(yù)測,結(jié)果如圖8,圖中紅點為預(yù)測的重心。
圖8 不同字重下的絕對重心對比圖
本節(jié)還進行了一項用戶研究,以檢查本章方法預(yù)測的字體重心具有真實性。具體來說,邀請各個領(lǐng)域的參與者,其中包括字體設(shè)計師、學(xué)生、老師等,每位參與者都會收到一份調(diào)查問卷,該調(diào)查問卷由100個組合字體預(yù)測重心圖像和100個相同風(fēng)格的合成字體重心圖像組成,這些圖像都是隨機選擇的,每次都放在表格中,他們需要找出自己認為是重心預(yù)測正確的字體圖像與設(shè)計師的重心圖像比對,實驗發(fā)現(xiàn)由于非設(shè)計領(lǐng)域的人的對字體重心沒有概念,定義理解不同會成為干擾因素,但實驗數(shù)據(jù)表明與前兩種方法相比,本文方法所得到的預(yù)測結(jié)果較為準確,可以在設(shè)計領(lǐng)域起到一定的輔助效果。
表1 重心預(yù)測精確度
本文主要對漢字的視覺重心進行研究。首先介紹了以往對視覺重心的研究方法,以及漢字圖像的視覺特征,包括圖像的結(jié)構(gòu)特征與統(tǒng)計特征,其中結(jié)構(gòu)特征又包括了方向特征與邊緣特征,本文還介紹了視覺平衡當中力矩平衡基本概念,并通過對傳統(tǒng)方法進行試驗,實驗結(jié)果表明在不同字體結(jié)構(gòu)組成下中圖像重心預(yù)測結(jié)果波動幅度較大,易受高頻信息干擾,特別對于具有復(fù)雜結(jié)構(gòu)或字面較小的字符,這些干擾因素通常會影響預(yù)測結(jié)果。為了解決這些問題,對圖像結(jié)構(gòu)特征加入視距平衡原則與傳統(tǒng)方法相結(jié)合,同時判斷絕對重心與預(yù)測重心相對關(guān)系,本文使用了一種基于視覺特征重心預(yù)測方法,將漢字字體圖像輸入,提取出圖像特征,判斷字體結(jié)構(gòu),并結(jié)合視矩平衡原則,對其進行重心預(yù)測。
為了找出對重心預(yù)測的干擾因素,本文采取了多個對比試驗,實驗一采用不同字體結(jié)構(gòu)的數(shù)據(jù)集,并通過與傳統(tǒng)方法對比試驗,發(fā)現(xiàn)其對字形結(jié)構(gòu)復(fù)雜的情況抗噪性差;實驗二為了探究字面大小對字體重心預(yù)測的干擾因素,采用字面大小不同的數(shù)據(jù)集,通過實驗表明由于文獻[5]和文獻[6]都是計算文字面積提取特征信息,計算色塊面積,易受字面大小的干擾,當字面大,重心位置會偏下,字面小時,重心位置偏上,而本文采用的方法達到了一個較為理想的效果,以及證明了它與漢字字形結(jié)構(gòu)的直接關(guān)系。可為后續(xù)實驗提供基礎(chǔ)依據(jù),達到量化生成的家族字體中視覺重心目的,從而為檢驗家族字庫的生成質(zhì)量提供客觀支持。