祁俊輝 龍華 賴華 畢丹宏
摘 要:為了實(shí)現(xiàn)高效、快速的商標(biāo)自動(dòng)評(píng)審工作,提出將商標(biāo)文字通過字形編碼、拼音編碼等方式映射為數(shù)字型字符串和字母型字符串的辨識(shí)算法。算法依照字形和拼音描述商標(biāo)信息,配合改進(jìn)后的Jaro-Winkler distance算法計(jì)算出商標(biāo)文字的字形相似度和拼音相似度,并根據(jù)相似匹配算法得出商標(biāo)文字的相似程度。實(shí)驗(yàn)結(jié)果表明,該方法所得結(jié)果有更好的辨識(shí)率,符合常規(guī)人體視覺和邏輯判斷。
關(guān)鍵詞:商標(biāo)辨識(shí)算法;近似商標(biāo);形近字;近音字;相似度
DOI:10.11907/rjdk.172985
中圖分類號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0077-04
Abstract:In order to realize efficient and rapid automatic evaluation of trademark, an identification algorithm is proposed to map the trademark text into numeric and alphabetic string using ideographic and Pinyin encoding. The algorithm is used to describe the trademark according to the font and Pinyin, and with the improved Jaro-Winkler distance algorithm the similarity of trademarks font and Pinyin coordinated is calculated. The similarity of words in trademark is calculated by similarity-matching algorithm. The experimental results show that the method conforms to judgment of physical vision and logic and has high recognition rate.
Key Words:trademark identification algorithm; approximate trademark; homophonic characters; homomorphous characters; similarity
0 引言
商標(biāo)作為商品生產(chǎn)者、經(jīng)營者的重要特征標(biāo)識(shí),是商品生產(chǎn)者、經(jīng)營者的重要知識(shí)產(chǎn)權(quán)資源。隨著全球經(jīng)濟(jì)迅速發(fā)展和經(jīng)濟(jì)一體化快速推進(jìn),知識(shí)產(chǎn)權(quán)保護(hù)已經(jīng)成為重要的商業(yè)活動(dòng)。此外,新型產(chǎn)品和產(chǎn)業(yè)迅速興起,為人們帶來了更加豐富的產(chǎn)品,商標(biāo)產(chǎn)生速度也大大加快。2016年,我國商標(biāo)申請(qǐng)數(shù)量達(dá)396.1萬件以上,已連續(xù)15年位居世界第一,且呈現(xiàn)逐年遞增的趨勢(shì)。在這樣的形勢(shì)和數(shù)據(jù)規(guī)模下,依靠人工處理商標(biāo)的評(píng)審工作已經(jīng)非常困難,急需高效的自動(dòng)評(píng)審方法實(shí)現(xiàn)快速、準(zhǔn)確的商標(biāo)評(píng)審工作。
中文商標(biāo)作為國際化商標(biāo)重要組成部分,不法分子會(huì)針對(duì)某些火爆的中文商標(biāo)申請(qǐng)仿冒偽劣商標(biāo),進(jìn)而制造出相似產(chǎn)品以迷惑消費(fèi)者。事實(shí)上,我國《商標(biāo)法》對(duì)近似商標(biāo)的定義有明確規(guī)定,這也是人工處理商標(biāo)評(píng)審工作應(yīng)遵循的原則,但是不免會(huì)因?yàn)楣ぷ魅藛T疏忽與個(gè)人因素的影響,造成評(píng)審工作不平衡。
近似商標(biāo)具體指,兩個(gè)商標(biāo)相比較,商標(biāo)文字的字形、讀音、含義等相似。經(jīng)研究發(fā)現(xiàn),文字字形相似的近似商標(biāo)帶給消費(fèi)者的影響最大,因?yàn)橄M(fèi)者在面對(duì)大多數(shù)產(chǎn)品時(shí)首先是通過視覺觀察該產(chǎn)品,由于中文漢字存在很多形近字,再加上快速閱讀習(xí)慣,難免會(huì)在一定程度上造成視覺的錯(cuò)誤判斷;其次,文字讀音相似的近似商標(biāo)也會(huì)給消費(fèi)者帶來一定影響,因?yàn)橄M(fèi)者在面對(duì)大多數(shù)產(chǎn)品時(shí)會(huì)在潛意識(shí)中發(fā)出該產(chǎn)品的商標(biāo)文本讀音。
事實(shí)上,對(duì)近似商標(biāo)的辨識(shí),就是對(duì)短字符串相似度的檢測(cè),但此處的相似度主要指字形、讀音上的相似,那么傳統(tǒng)的字符串相似度算法就顯得捉襟見肘了。相關(guān)研究工作中,文獻(xiàn)[1]提出把漢字描述成部件為操作數(shù)、部件間位置關(guān)系為運(yùn)算符的數(shù)學(xué)表達(dá)式形式,文獻(xiàn)[2]也定義了一種語言采用筆畫、部件分層次的方法對(duì)漢字進(jìn)行描述。以后的研究工作中,基本都圍繞這兩種方法對(duì)漢字字形相似進(jìn)行研究,文獻(xiàn)[3]提出一種基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算方法,但由于漢字字形結(jié)構(gòu)復(fù)雜,很多漢字無法用數(shù)學(xué)表達(dá)式進(jìn)行精準(zhǔn)描述,故還需進(jìn)一步改進(jìn),文獻(xiàn)[4]提出三元組遞歸表示的漢字字形相似度計(jì)算方法,但該方法需要對(duì)原子部件進(jìn)行人工分類及設(shè)置相似度,文獻(xiàn)[7]提供了一種對(duì)同音字和近音字的檢索算法,文獻(xiàn)[8]采用基于漢字、拼音和拼音改良的編輯距離對(duì)關(guān)鍵詞進(jìn)行匹配,文獻(xiàn)[9]基于拼音輸入法對(duì)中文字符串近似串匹配查詢問題進(jìn)行研究與改進(jìn)。
事實(shí)上,對(duì)近似商標(biāo)的辨識(shí),就是對(duì)短字符串相似度的檢測(cè),但此處的相似度主要指字形、讀音相似,那么傳統(tǒng)的字符串相似度算法就顯得捉襟見肘。相關(guān)研究工作中,文獻(xiàn)[1]提出把漢字描述成部件為操作數(shù)、部件間位置關(guān)系為運(yùn)算符的數(shù)學(xué)表達(dá)式形式;文獻(xiàn)[2]也定義了一種語言采用筆畫、部件分層次的方法對(duì)漢字進(jìn)行描述;以后的研究工作中,基本都圍繞這兩種方法對(duì)漢字字形相似進(jìn)行研究,文獻(xiàn)[3]提出一種基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算方法,但由于漢字字形結(jié)構(gòu)復(fù)雜,很多漢字無法用數(shù)學(xué)表達(dá)式進(jìn)行精準(zhǔn)描述,故還需進(jìn)一步改進(jìn);文獻(xiàn)[4]提出三元組遞歸表示的漢字字形相似度計(jì)算方法,但該方法需要對(duì)原子部件進(jìn)行人工分類及相似度設(shè)置;文獻(xiàn)[5]對(duì)字符串的相似度作了介紹,但對(duì)短字符串沒有深入研究;文獻(xiàn)[6]介紹了一種商標(biāo)相似方法,但沒有編程實(shí)現(xiàn);文獻(xiàn)[7]提供了一種對(duì)同音字和近音字的檢索算法;文獻(xiàn)[8]采用基于漢字、拼音和拼音改良的編輯距離對(duì)關(guān)鍵詞進(jìn)行匹配;文獻(xiàn)[9]基于拼音輸入法對(duì)中文字符串近似串匹配查詢問題進(jìn)行研究與改進(jìn);文獻(xiàn)[10-12]也對(duì)短字符串的提取、識(shí)別做了介紹;文獻(xiàn)[13]對(duì)手寫字的識(shí)別做了相應(yīng)研究,但只使用了筆畫順序技術(shù);文獻(xiàn)[14-15]則針對(duì)獨(dú)體字的識(shí)別做了相應(yīng)研究,利用相似的獨(dú)體字也是商標(biāo)識(shí)別中最常見的抄襲行為。
以上參考文獻(xiàn)大多采用漢字結(jié)構(gòu)(如上下結(jié)構(gòu)、左右結(jié)構(gòu)等)和筆畫對(duì)漢字部件進(jìn)行描述,進(jìn)而通過編輯距離(edit distance)等算法計(jì)算其字形相似度。雖然這種方法在理論研究中有較高的價(jià)值,但由于漢字結(jié)構(gòu)類型的復(fù)雜性,目前沒有任何一個(gè)較為完整的漢字結(jié)構(gòu)庫可供參考,所以此方法在實(shí)際運(yùn)用過程中可能比較困難;其次,將漢字描述為數(shù)學(xué)表達(dá)式后,用何種算法對(duì)其計(jì)算相似度影響重大。本文以實(shí)際運(yùn)用為主,不考慮過多復(fù)雜的概念,根據(jù)相關(guān)編碼規(guī)則對(duì)漢字進(jìn)行字形編碼和拼音編碼,通過Jaro-Winkler distance分別計(jì)算兩者的相似度,再根據(jù)相似匹配算法確定其相似程度。
1 商標(biāo)文字形式化描述
1.1 文字字形編碼
在漢字計(jì)算機(jī)編碼標(biāo)準(zhǔn)中,編碼方式為Unicode的中日韓統(tǒng)一表意文字基本字符集收錄的漢字,共20 902個(gè)。因?yàn)槊總€(gè)中文漢字都可根據(jù)書寫筆畫順序分為橫、豎、撇、捺、折,故可按照表1所述編碼規(guī)則對(duì)任意漢字生成其漢字字形的數(shù)字型字符串。例如,漢字“明”可根據(jù)所述編碼規(guī)則,生成的數(shù)字型字符串為“25113511”;漢字“天”可根據(jù)所述編碼規(guī)則,生成的數(shù)字型字符串為“1134”。將編碼方式為Unicode的基本字符集中的20 902個(gè)漢字依照此編碼規(guī)則生成其數(shù)字型字符串并存入數(shù)據(jù)庫,組建Unicode漢字筆畫順序數(shù)據(jù)庫。
對(duì)于商標(biāo)文本來說,其往往由詞語,即多個(gè)漢字所構(gòu)成。遍歷該商標(biāo)文本中所有漢字,生成其漢字字形的數(shù)字型字符串,再按照商標(biāo)文本中漢字出現(xiàn)順序進(jìn)行數(shù)字型字符串的合并,最終生成其文字字形的數(shù)字型字符串。
例如“脈動(dòng)”一詞,經(jīng)查找數(shù)據(jù)庫,“脈”字的數(shù)字型字符串為“351145534”,“動(dòng)”字的數(shù)字型字符串為“115453”,則詞語“脈動(dòng)”的數(shù)字型字符串為“351145534/115453/”。
1.2 文字拼音編碼
在處理中文漢字拼音時(shí),由于漢字存在大量的多音字、同音字,當(dāng)對(duì)兩個(gè)漢字進(jìn)行相似度匹配時(shí),應(yīng)考慮讀音的相同或相近。但對(duì)于漢字的讀音來講,由于地方方言的影響,使人們不能發(fā)出標(biāo)準(zhǔn)的漢字讀音,如將聲母l和n、c和ch、s和sh等混淆,不易處理,故本文直接采用漢字拼音的相似度替代其讀音的相似度。
對(duì)于多音字來講,因?yàn)樯虡?biāo)文本的內(nèi)容大多是較為常用的字或音,所以取該漢字的常用拼音作為其拼音編碼;而對(duì)于同音字來講,如果僅僅考慮其拼音的相似程度,那么可以直接根據(jù)字符串相似算法計(jì)算其拼音的相似度。
在編碼方式為Unicode的基本字符集中的20 902個(gè)漢字,其中有31個(gè)漢字無拼音,統(tǒng)一以“*”填充,對(duì)其它20 871個(gè)漢字按照常用拼音生成其字母型字符串并存入數(shù)據(jù)庫,組建Unicode漢字拼音數(shù)據(jù)庫。
與生成商標(biāo)文字字形的數(shù)字型字符串生成規(guī)則相同,也按此規(guī)則生成商標(biāo)文字拼音的字母型字符串。例如“脈動(dòng)”一詞,經(jīng)查找數(shù)據(jù)庫,“脈”字的字母型字符串為“mai”,“動(dòng)”字的字母型字符串為“dong”,則詞語“脈動(dòng)”的字母型字符串為“mai/dong/”。
2 商標(biāo)文字相似度算法
2.1 文字字形、拼音相似度算法
為量化文字之間的相似度,引入改進(jìn)后的Jaro-Winkler distance算法分別對(duì)描述其字形的數(shù)字型字符串和描述拼音的字母型字符串進(jìn)行相似度計(jì)算。
(2)匹配字符數(shù)m和匹配字符換位數(shù)n的計(jì)算:若數(shù)字型/字母型字符串str-x和str-y中相同字符相差距離小于匹配窗口值MW,則視為該字符匹配。但應(yīng)注意,在匹配過程中,需排除被匹配過的字符,若找到匹配字符,則需跳出此次匹配,進(jìn)行下一字符的匹配,所有匹配字符的個(gè)數(shù)即為m。然后根據(jù)數(shù)字型/字母型字符串str-x和str-y中對(duì)于匹配字符集的順序是否一致計(jì)算匹配字符換位數(shù)n,若一致,則n=0;若不一致,則n為換位數(shù)目的一半。另外,匹配字符數(shù)m和匹配字符換位數(shù)n應(yīng)滿足公式(5)的要求。
(3)進(jìn)一步計(jì)算閾值b-t,本文取值為0.85,可根據(jù)實(shí)際檢測(cè)結(jié)果作小幅度調(diào)整,主要是為了提高檢測(cè)準(zhǔn)確性;所述縮放因子p,通常取值為0.1,可根據(jù)實(shí)際檢測(cè)結(jié)果做小幅度調(diào)整,主要是為了避免最終計(jì)算結(jié)果大于1的情況發(fā)生,但本方法新增編碼字符串str-x和str-y中最長距離的倒數(shù)1Max(len-x,len-y),改進(jìn)此處的計(jì)算公式Min1Max(len-x,len-y),p, 所以縮放因子p的取值對(duì)最終計(jì)算結(jié)果影響并不大。
2.2 相似匹配算法
由算法1計(jì)算所得的商標(biāo)文本X、Y之間字形/拼音相似度Sim以一個(gè)[0,1]之間的數(shù)值反映了商標(biāo)文本X、Y之間字形/拼音相似程度,數(shù)值越大說明相似程度越高。設(shè)商標(biāo)文本X、Y經(jīng)算法1計(jì)算后,字形相似度為Sim-zx,拼音相似度為Sim-py,兩個(gè)相似度分別從不同方面反映了商標(biāo)文本X、Y的相似程度,但兩者并不是相互獨(dú)立的,如對(duì)于由形近字引起的相似重復(fù),則Sim-zx較大而Sim-py較??;對(duì)于由同音字或近音字引起的相似重復(fù),則Sim-zx較小而Sim-py較大;如果文本之間差異很小,那么Sim-zx和Sim-py都比較大;相反,如果文本沒有重復(fù),Sim-zx和Sim-py才會(huì)都比較小?;诖?,本文認(rèn)為商標(biāo)文本X、Y之間,若Sim-zx和Sim-py都較大,則反映文本之間具有最高的相似程度;若Sim-zx和Sim-py之間有一個(gè)較大,另一個(gè)較小,則反映文本之間具有較高的相似程度;若Sim-zx和Sim-py都較小,則反映文本之間具有較低的相似程度。
單獨(dú)使用字形相似或拼音相似去衡量商標(biāo)文本是否近似不夠嚴(yán)謹(jǐn),因?yàn)槿魏螡h字都是由五筆構(gòu)成,所以即使是兩個(gè)完全不相同的字,經(jīng)算法1計(jì)算后可能也存在一定的相似度;對(duì)于拼音相似來說,因?yàn)榻?jīng)拼音編碼后的字母字符串長度相對(duì)較短(一般不超過5位),但拼音編碼由26個(gè)字母組成,所以對(duì)于有重復(fù)字母發(fā)音的其相似度會(huì)很高,沒有重復(fù)字母發(fā)音的其相似度則會(huì)很低。故本文針對(duì)字形相似度和拼音相似度,設(shè)置字形相似閾值和拼音相似閾值,進(jìn)而判斷其相似程度。
3 實(shí)驗(yàn)與結(jié)果
為了驗(yàn)證基于字形編碼和拼音編碼的近似商標(biāo)辨識(shí)算法,本文設(shè)計(jì)一個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)的主要目的在于:比較近似商標(biāo)辨識(shí)算法與人工評(píng)審結(jié)果之間的差異,考察該方法是否能夠真實(shí)、準(zhǔn)確地反映商標(biāo)文本的相似程度。
3.1 實(shí)驗(yàn)設(shè)計(jì)和評(píng)測(cè)方法
實(shí)驗(yàn)使用10對(duì)已知相似程度的樣本商標(biāo)文本,即樣本商標(biāo)文本已有人工評(píng)審結(jié)果,根據(jù)算法1計(jì)算出樣本商標(biāo)文字基于字形編碼、拼音編碼的相似度,再利用算法2對(duì)樣本商標(biāo)文字進(jìn)行相似匹配,然后將其計(jì)算結(jié)果與人工評(píng)審結(jié)果進(jìn)行比較。通過比較本文提出的算法和人工評(píng)審結(jié)果對(duì)同一樣本的相似程度,考察本方法對(duì)商標(biāo)文本近似檢測(cè)反映的真實(shí)程度。
3.2 實(shí)驗(yàn)結(jié)果和分析
實(shí)驗(yàn)所用的10對(duì)樣本商標(biāo)文本分屬不同的相似程度,如表2所示。
根據(jù)算法1所述規(guī)則和步驟,計(jì)算出樣本商標(biāo)文字基于字形編碼、拼音編碼的相似度,定義字形相似閾值為0.95,拼音相似閾值為0.90,再利用算法2所述步驟對(duì)樣本商標(biāo)文字進(jìn)行相似匹配,所得結(jié)果如表3所示。
為了更直觀地分析表3所示數(shù)據(jù),將計(jì)算所得的字形相似度和拼音相似度以折線圖的方式畫出,如圖1所示。
從表3和圖1看出,對(duì)于樣本編號(hào)為1、2、3的樣本商標(biāo)文本,其字形相似度和拼音相似度都較大,即高于字形相似閾值和拼音相似閾值,故相似程度為非常相似;樣本編號(hào)為4、5的樣本商標(biāo)文本,其字形相似度高于字形相似閾值,但拼音相似度低于拼音相似閾值,故相似程度為字形相似;樣本編號(hào)為6、7、8的樣本商標(biāo)文本,其字形相似度低于字形相似閾值,但拼音相似度高于拼音相似閾值,故相似程度為拼音相似;樣本編號(hào)為9、10的樣本商標(biāo)文本,其字形相似度和拼音相似度都低于字形相似閾值和拼音相似閾值,故相似程度為不相似。
實(shí)驗(yàn)結(jié)果表明,使用本文算法所得結(jié)果與人工評(píng)審結(jié)果一致,實(shí)驗(yàn)結(jié)果符合常規(guī)人體視覺和邏輯判斷,能夠真實(shí)、準(zhǔn)確地反映商標(biāo)文本的相似程度。
4 結(jié)語
實(shí)現(xiàn)高效、快速的商標(biāo)自動(dòng)評(píng)審工作,是中文信息處理領(lǐng)域的一項(xiàng)重要研究。事實(shí)上,可以將近似商標(biāo)等價(jià)為短字符串在字形、讀音上的相似。本文先將編碼方式為Unicode基本字符集中的20 902個(gè)漢字通過字形編碼和拼音編碼映射為數(shù)字型字符串和字母型字符串,建立Unicode漢字筆畫順序數(shù)據(jù)庫和Unicode漢字拼音數(shù)據(jù)庫;將商標(biāo)文字通過數(shù)據(jù)庫調(diào)用出相應(yīng)的編碼字符串,無需進(jìn)行字形樣本和拼音樣本實(shí)例的學(xué)習(xí),只依照字形和拼音描述信息,配合使用改進(jìn)后的Jaro-Winkler distance算法就可以計(jì)算出商標(biāo)文字的字形相似度和拼音相似度;然后根據(jù)相似匹配算法得出商標(biāo)文字的相似程度;最后通過實(shí)驗(yàn)證明該算法的有效性,不僅明顯降低了計(jì)算的復(fù)雜性,還能夠真實(shí)、準(zhǔn)確地反映商標(biāo)文本的相似程度。
參考文獻(xiàn):
[1] 孫星明,殷建平,陳火旺,吳泉源,景新海.漢字的數(shù)學(xué)表達(dá)式研究[J].計(jì)算機(jī)研究與發(fā)展,2002(6):707-711.
[2] 林民.基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[C].第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集,2006:5.
[3] 林民.漢字字形形式化描述方法及應(yīng)用研究[D].北京:北京工業(yè)大學(xué),2009.
[4] 王東,熊世桓.一種新穎的漢字字形相似度計(jì)算方法[J/OL].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2395-2397.
[5] 刁興春,譚明超,曹建軍.一種融合多種編輯距離的字符串相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4523-4525.
[6] 孔軍民,謝軍.一種商標(biāo)文本相似性評(píng)審方法[P].北京:CN106095865A,2016-11-09.
[7] 閻紅燦,張淑芬,谷建濤,閻少宏.基于音碼相似度的拼音模糊查詢算法[J].計(jì)算機(jī)與現(xiàn)代化,2008(8):18-20.
[8] 曹犟,鄔曉鈞,夏云慶,鄭方.基于拼音索引的中文模糊匹配算法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(S1):1328-1332.
[9] 劉兵.基于拼音輸入法的中文字符串近似匹配技術(shù)研究[D].沈陽:東北大學(xué),2010.
[10] 王耀華,李舟軍,何躍鷹,巢文涵,周建設(shè).基于文本語義離散度的自動(dòng)作文評(píng)分關(guān)鍵技術(shù)研究[J].中文信息學(xué)報(bào),2016,30(6):173-181.
[11] 索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006(6):25-30.
[12] 龍翀,莊麗,朱小燕,黃開竹,孫俊,堀田悅伸,直井聡.手寫中文地址識(shí)別后處理方法的研究[J].中文信息學(xué)報(bào),2006(6):69-74.
[13] 郭軍,藺志青,張洪剛.一個(gè)新的脫機(jī)手寫漢字?jǐn)?shù)據(jù)庫模型及其應(yīng)用[J].電子學(xué)報(bào),2000(5):115-116.
[14] 沈模衛(wèi),朱祖祥.獨(dú)體漢字的字形相似性研究[J].心理科學(xué),1997(5):401-405+478-479.
[15] 朱祖祥.獨(dú)體漢字字形的多維相似性研究[C]. 北京:全國第七屆心理學(xué)學(xué)術(shù)會(huì)議,1993.
(責(zé)任編輯:江 艷)