王虹
(中國(guó)刑警學(xué)院 遼寧 沈陽(yáng) 110035)
利用繁體字特征進(jìn)行兩岸三地地域性言語(yǔ)識(shí)別的研究
王虹
(中國(guó)刑警學(xué)院 遼寧 沈陽(yáng) 110035)
為解決國(guó)保、偵查等部門常遇到的用繁體字形成的案件言語(yǔ)材料的地域性歸屬問(wèn)題,我們收集了兩岸三地近30萬(wàn)個(gè)繁體字,并進(jìn)行逐一比對(duì),編制完成《兩岸三地繁體字異同查詢手冊(cè)》,從使用范圍、字形標(biāo)準(zhǔn)、字形差異、字形編碼和字符集等方面探討了兩岸三地繁體字的差異。
地域性言語(yǔ)識(shí)別 兩岸三地 繁體字特征
目前,隨著兩岸三地交流的日益增多,國(guó)保、刑偵等部門經(jīng)常會(huì)遇到一些使用繁體字形成的案件言語(yǔ)材料,準(zhǔn)確判斷這些案件材料的撰稿人是來(lái)自大陸還是港臺(tái)地區(qū),對(duì)于縮小案件偵查范圍、指明偵查方向有著重要的現(xiàn)實(shí)意義。
在此類案件的地域性言語(yǔ)識(shí)別中,可用的特征包括方言語(yǔ)音、方言詞匯、方言語(yǔ)法等方言特征,地域性文字特征,地域性言語(yǔ)內(nèi)容特征等。本文主要探討地域性文字特征中的繁體字特征,著眼于大陸、臺(tái)灣、香港兩岸三地所用的繁體字的不同。
繁體字,指未經(jīng)系統(tǒng)性簡(jiǎn)化的漢字,大陸地區(qū)推行中文簡(jiǎn)化后,將傳統(tǒng)文字稱為繁體字,簡(jiǎn)化后的字稱為簡(jiǎn)化字。
1.1 大陸繁體字的使用范圍
繁體字在大陸地區(qū)以民間使用居多。2001年開(kāi)始實(shí)施的《中華人民共和國(guó)國(guó)家通用語(yǔ)言文字法》明確規(guī)定國(guó)家推行規(guī)范漢字,表明當(dāng)前推行的規(guī)范漢字為簡(jiǎn)化字和傳承字,同時(shí)也明確了可以保留或使用繁體字的范圍:“(一)文物古跡;(二)姓氏中的異體字;(三)書法、篆刻等藝術(shù)作品;(四)題詞和招牌的手書字;(五)出版、教學(xué)、研究中需要使用的;(六)經(jīng)國(guó)務(wù)院有關(guān)部門批準(zhǔn)的特殊情況?!痹谄渌闆r下,繁體字被視為不規(guī)范、不可使用的漢字。
目前,在大陸地區(qū)還有一種現(xiàn)象,即在網(wǎng)絡(luò)聊天、論壇等平臺(tái)上使用繁體字。繁體字是構(gòu)成網(wǎng)絡(luò)上火星文的重要組成部分,多與一些符號(hào)、數(shù)字等共用。
1.2 港臺(tái)繁體字使用情況
出于歷史的和政治的原因,繁體字是臺(tái)灣、香港地區(qū)的官方文字,民間也一直使用繁體字。
在案件地域性言語(yǔ)識(shí)別中,根據(jù)繁體字使用范圍的不同,我們可以判斷,在大陸規(guī)定允許使用繁體字的范圍外使用繁體字形成的言語(yǔ)材料,多數(shù)情況下,其言語(yǔ)人應(yīng)為港臺(tái)地區(qū)的人。
2.1 兩岸三地繁體字字形標(biāo)準(zhǔn)
兩岸三地繁體字的字形不完全一致,主要是由于其采用的字形標(biāo)準(zhǔn)各不相同。
大陸地區(qū)繁體字以《簡(jiǎn)化字總表》和《新華字典》(繁體字版)上的繁體字為字形標(biāo)準(zhǔn)。
臺(tái)灣地區(qū)繁體字字形標(biāo)準(zhǔn)為《常用國(guó)字標(biāo)準(zhǔn)字體表》、《次常用國(guó)字標(biāo)準(zhǔn)字體表》和《罕用字體表》。
香港地區(qū)繁體字字形標(biāo)準(zhǔn)為《常用字字形表》、《香港增補(bǔ)字符集》。
2.2 兩岸三地繁體字的字形差別
為方便檢索和使用,我們編制了有簡(jiǎn)化字對(duì)照的《兩岸三地繁體字異同查詢手冊(cè)》。
2.2.1 大陸與港臺(tái)繁體字字形的差別
大陸繁體字與港臺(tái)繁體字是有一些差別的,部份字形有類似簡(jiǎn)體字的整理,使其繁體字與港臺(tái)的繁體字有些差異,沒(méi)有那么符合字源。如:大陸用的“沖、呂、貓、厠 、麼、鷄 ”等字,港臺(tái)則用“ 沖 、呂 、貓 、廁 、麼 、雞 ”。
2.2.2 臺(tái)灣與香港繁體字字形的差別
臺(tái)灣與港澳繁體字的差異整體來(lái)說(shuō)并不算多,像“攜”等字,都是一致的。但也有些字的分別則較明顯,如:臺(tái)灣用字“ 線 、 囪 、臥 、兌 、戶 、著、衛(wèi) 、溼 、 裡 、麵 、冗”等字,香港則用“ 綫、囪、臥、兌、戶、著、衛(wèi) 、濕 、裏 、 麫 、麫 ”等字。
在案件地域性言語(yǔ)識(shí)別中,我們可以通過(guò)簡(jiǎn)體字索引找到每一個(gè)繁體字在大陸、港澳臺(tái)地區(qū)的不同字形,并利用繁體字字形特征來(lái)分析言語(yǔ)人的地域?qū)傩?。我們編制的《查詢手?cè)》查詢簡(jiǎn)單,攜帶方便,可以供一線公安技術(shù)人員隨時(shí)使用。
隨著電腦和打印輸出設(shè)備的普及,我們遇到的大量的使用繁體字形成的案件言語(yǔ)材料都是使用繁體字打印輸出的紙質(zhì)文件、存儲(chǔ)在電腦上文本文件,或通過(guò)網(wǎng)絡(luò)傳播的文本文件。這就要求我們對(duì)繁字體的字形編碼、輸入法、字符集等有一定的了解,并探討它對(duì)案件言語(yǔ)識(shí)別的實(shí)用意義。
3.1 大陸地區(qū)繁體字字形編碼、字符集
3.1.1 大陸地區(qū)繁體字字形編碼
關(guān)于繁體字的電腦輸入,大陸地區(qū)在1993年提出的GBK編碼和后續(xù)2000年、2005年提出的GB 18030編碼中,實(shí)現(xiàn)了簡(jiǎn)體字形和繁體字形的共存,占據(jù)不同的編碼位置。近年來(lái),則普遍使用Unicode跨語(yǔ)言編碼集,在同屏下可以顯示任何語(yǔ)言的內(nèi)容。
3.1.2 大陸地區(qū)繁體字常見(jiàn)字符集
大陸地區(qū)常用字符集有GBK字符集、GB18030字符集、Unicode字符集。
GBK字符集又稱大字符集,宋體、隸書、黑體、幼圓、華文中宋、華文細(xì)黑、華文楷體、標(biāo)楷體、Arial Unicode MS等字體支持顯示這個(gè)字符集。
GB18030字符集,宋體-18030、方正楷體、宋體、香港華康標(biāo)準(zhǔn)宋體、華康香港標(biāo)準(zhǔn)楷體、CERG Chinese Font、韓國(guó)New Gulim等字體支持這個(gè)字符集的顯示。
Unicode字符集是全球可以共享的編碼字符集,涵蓋了世界上主要語(yǔ)文的字符。宋體、細(xì)明體能顯示全部Ext-B漢字。至今尚無(wú)單獨(dú)一款字體能夠顯示全部70195個(gè)漢字。
3.2 臺(tái)灣地區(qū)繁體字字形編碼、字符集
3.2.1 臺(tái)灣地區(qū)繁體字的字形編碼
臺(tái)灣地區(qū)是使用繁體字的地區(qū)中最早發(fā)展中文電腦的,自1980年以來(lái)通常使用Big5中文編碼。臺(tái)灣地區(qū)經(jīng)濟(jì)部標(biāo)準(zhǔn)檢驗(yàn)局公布的一套名為“中文標(biāo)準(zhǔn)交換碼”CNS 11643的官方編碼,普遍用于臺(tái)灣地區(qū)的戶政、役政信息系統(tǒng)中,而臺(tái)灣大學(xué)圖書館亦使用CCCII編碼。
3.2.2 臺(tái)灣地區(qū)繁體字常見(jiàn)字符集
臺(tái)灣地區(qū)主要使用Big5字符集,華文中宋、華文細(xì)黑、隸書、幼圓、華文仿宋、華文宋體、華文楷體等支持這個(gè)字符集的顯示。
3.3 香港地區(qū)繁體字字形編碼、字符集
3.3.1 香港地區(qū)繁體字字形編碼
香港的繁體字編碼使用Unicode的UTF-8編碼,同時(shí)因港澳地區(qū)本身存在的一些口語(yǔ)詞,其政府也用UTF-8發(fā)行香港增補(bǔ)字符集,包括一些粵方言、特殊地名等,如“乜、啲 、嚟 、邨 ”。
3.3.2 香港地區(qū)繁體字常用字符集
港澳地區(qū)采用GCCSG字符集(《政府通用字庫(kù)》),和HKSCS字符集(《香港增補(bǔ) 字符集》)。標(biāo)準(zhǔn)宋體、香港政府細(xì)明體、標(biāo)準(zhǔn)楷體、標(biāo)準(zhǔn)黑體、微軟細(xì)明體、華通細(xì)明體等支持這些字符集的顯示。
不同的字形編碼,以及相應(yīng)的不同字符集、字體,導(dǎo)致在不同的電腦中能夠輸入和顯示的字符是不同的。如果超出了輸入法所支持的字符集,就不能錄入計(jì)算機(jī)。如果沒(méi)有相應(yīng)字體的支持,則顯示為黑框、方框或空白。如果操作系統(tǒng)或應(yīng)用軟件不支持該字符集,則顯示為問(wèn)號(hào)(一個(gè)或兩個(gè))。在網(wǎng)頁(yè)上亦存在同樣的情況。在案件地域性言語(yǔ)識(shí)別中,我們要充分注意這些特點(diǎn),并運(yùn)用其確定言語(yǔ)人的地域?qū)傩浴?/p>
繁體字特征是區(qū)分言語(yǔ)人是大陸人,還是港臺(tái)地區(qū)人的一個(gè)重要特征,我們針對(duì)繁體字的使用范圍、字形標(biāo)準(zhǔn)、具體字形差異、電腦中的字形編碼和字符集等方面進(jìn)行了探討;并對(duì)進(jìn)30萬(wàn)個(gè)兩岸四地繁體字進(jìn)行了逐個(gè)比對(duì),編制了《兩岸三地繁體字異同查詢手冊(cè)》,希望能夠?yàn)閲?guó)保、偵查等部門解決其遇到的相關(guān)問(wèn)題提供一定的技術(shù)支持。
1.常用國(guó)字標(biāo)準(zhǔn)字體表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5% 9C%8B%E5%AD%97%E6%A8%99%E6%BA%96%E5% AD%97%E9%AB%94%E8%A1%A8,2012-5-18
2.常用字字形表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5%AD%97%E5% AD%97%E5%BD%A2%E8%A1%A8,2012-3-7
注:本文系文件檢驗(yàn)鑒定公安部重點(diǎn)實(shí)驗(yàn)室自主創(chuàng)新項(xiàng)目。