黃皓
摘? 要: 在簡(jiǎn)繁漢字轉(zhuǎn)換的處理中,一對(duì)多漢字消岐和避免分歧詞過度轉(zhuǎn)換是兩大難題。構(gòu)造一對(duì)多詞表、通用詞表、分歧詞表,并在詞表中加入轉(zhuǎn)換的限制性規(guī)則,根據(jù)候選詞最前或最后的一個(gè)字能否與相鄰字另外組詞,可對(duì)該詞的有效性進(jìn)行判斷。使用詞表中的規(guī)則對(duì)當(dāng)前語(yǔ)句上下文進(jìn)行匹配,綜合分析名詞、動(dòng)詞、量詞和姓氏、詞頻等屬性,從而實(shí)現(xiàn)消岐和轉(zhuǎn)換的智能化。據(jù)此實(shí)現(xiàn)了一個(gè)簡(jiǎn)繁轉(zhuǎn)換系統(tǒng),實(shí)踐證明這是一個(gè)行之有效的解決辦法。
關(guān)鍵詞: 簡(jiǎn)化字; 繁體字; 分詞; 詞對(duì)照表; 上下文
中圖分類號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)09-22-04
Abstract: One-to-many Chinese character disambiguating and avoiding excessive conversion of divergent words are two difficult problems in the conversion of simplified and traditional Chinese characters. One-to-many word list, common word list, divergent word list are constructed, and the restrictive rules of conversion are added to these word-lists. The validity of the candidate word can be judged according to whether the first or last character of the word can be combined with the adjacent word to form another word. The rules in word list are used to match the current sentence context, and the attributes of noun, verb, quantifier, and surname and word frequency are analyzed comprehensively, so as to realize the intelligence of ambiguity cancellation and conversion. With this method, a simplified and traditional Chinese character conversion system is realized, which proves its effectiveness.
Key words: simplified Chinese character; traditional Chinese character; word segmentation; word-list; context
0 引言
簡(jiǎn)繁漢字間的轉(zhuǎn)換是客觀需求。我國(guó)在1956年進(jìn)行了文字改革,并且以法律形式對(duì)漢字的使用進(jìn)行規(guī)范。在海外,新加坡、馬來西亞采用與大陸相同的簡(jiǎn)化漢字,而在臺(tái)灣、香港、澳門等地區(qū)則沿用繁體漢字。幾十年來,兩岸三地在漢字編碼、字形標(biāo)準(zhǔn)、習(xí)慣用法等方面都存在著很大的區(qū)別。隨著海內(nèi)外交往不斷增多,許多文件、信函、書籍等需要在簡(jiǎn)體與繁體之間進(jìn)行轉(zhuǎn)換,相關(guān)的轉(zhuǎn)換系統(tǒng)也有很多。
1 現(xiàn)有簡(jiǎn)繁轉(zhuǎn)換系統(tǒng)存在的一些問題[1]
1.1 編碼沒有覆蓋足夠的漢字
早期的簡(jiǎn)繁轉(zhuǎn)換系統(tǒng)只是在簡(jiǎn)體GB碼與繁體BIG5碼之間進(jìn)行轉(zhuǎn)換,由于GB漢字集僅有6763個(gè)字,BIG5有13053個(gè)字,在GB與BIG5的映射中存在大量的缺字、漏字。簡(jiǎn)體GBK包含了繁體BIG5所有的漢字,但只是漢字的一個(gè)子集。而一些號(hào)稱支持Unicode的系統(tǒng)也僅支持基本字符平面,其他字符平面的漢字被忽略了,如“”字。
1.2 只處理簡(jiǎn)繁漢字一對(duì)一的轉(zhuǎn)換
一些轉(zhuǎn)換系統(tǒng)構(gòu)造一個(gè)簡(jiǎn)化字與繁體字的一一對(duì)應(yīng)表,不考慮“一簡(jiǎn)對(duì)多繁”和“一繁對(duì)多簡(jiǎn)”的情形,只是簡(jiǎn)單地采用其中一個(gè)字而忽略其他候選字,于是在轉(zhuǎn)換一對(duì)多漢字時(shí)就會(huì)出現(xiàn)如“頭發(fā)”、“樹乾”、“干隆”這樣的錯(cuò)誤。
1.3 一對(duì)多處理不能很好地消岐
由于漢字簡(jiǎn)化時(shí)將多個(gè)字歸并為一個(gè)字,如“斗”和“鬥”都簡(jiǎn)化為“斗”,“后”與“後”都并為“后”,僅憑單字本身無法確定轉(zhuǎn)換的目標(biāo)字,需要借助更大的語(yǔ)言單位(如詞)來甄別,這是目前簡(jiǎn)繁轉(zhuǎn)換亟需解決的關(guān)鍵問題。
1.4 未能很好地遵循目標(biāo)中文標(biāo)準(zhǔn)、規(guī)范或習(xí)慣
繁體字雖然在臺(tái)灣、香港、澳門及海外華人社區(qū)廣泛使用,但也存在一些細(xì)微的差別。如“線”對(duì)應(yīng)的繁體字,臺(tái)灣為“線”,港澳為“綫”,類似的字還有如表1。
一些系統(tǒng)將“壩”字轉(zhuǎn)為“垻”,“說”字轉(zhuǎn)為“説”等,而“垻、説”均非臺(tái)灣所用規(guī)范字。再就是在外來詞方面要么沒有處理,要么轉(zhuǎn)換的結(jié)果未如人意,如將“貝克漢姆去了老撾”轉(zhuǎn)為“碧咸去了寮國(guó)”,而“碧咸”是“貝克漢姆”的香港音譯,在臺(tái)灣地區(qū)的譯法則是“貝克漢”。
2 簡(jiǎn)繁一對(duì)多轉(zhuǎn)換的消岐思路
2.1 以一對(duì)多詞表為基礎(chǔ)
字的轉(zhuǎn)換異常在于簡(jiǎn)繁漢字之間存在“一對(duì)多”的問題[2]。部分簡(jiǎn)化字對(duì)應(yīng)兩個(gè)、三個(gè)甚至四個(gè)繁體字;反之亦然。僅憑單字本身不能夠做出備選漢字的選擇,必須依賴于字所處的環(huán)境。詞可以幫助確定備選字,如將“發(fā)射”中的“發(fā)”轉(zhuǎn)換為“發(fā)”,而將“頭發(fā)”中的“發(fā)”轉(zhuǎn)換為“髮”。簡(jiǎn)繁一對(duì)多詞表(如表2、表3)的建立是簡(jiǎn)繁轉(zhuǎn)換的關(guān)鍵,這依賴于對(duì)《簡(jiǎn)化字總表》、詞典和語(yǔ)料的分析研究[3]。
2.2 使用通用詞表來判斷詞的有效性
通過一對(duì)多詞表來比對(duì)是基礎(chǔ),假如詞表中無相應(yīng)的詞,轉(zhuǎn)換就可能失敗。詞的比對(duì)一般依賴于詞的劃分,但分詞處理也會(huì)帶來一些問題[2],如“我出去看了一出戲”,設(shè)分詞結(jié)果為“我/出去/看/了/一/出/戲”,后邊的“出”字被分解為單字,使得“一出”這樣的詞無法比對(duì)成功。所以我們換一個(gè)思路,不進(jìn)行分詞處理,而對(duì)候選詞前后字進(jìn)行組詞判斷,再根據(jù)詞頻判斷詞的有效性。如“今天必須發(fā)一批貨物”,“須”字與前一個(gè)字“必”構(gòu)成了詞“必須”,從而將候選詞“須發(fā)”排除掉,這也是一種解決問題的簡(jiǎn)便方法。
2.3 根據(jù)規(guī)則分析語(yǔ)句上下文
2.3.1 單字形式
一對(duì)多漢字并非總是以詞的形式出現(xiàn),當(dāng)它呈現(xiàn)出單字形式時(shí),如“他理了發(fā)”,就需要根據(jù)字所處的語(yǔ)句上下文進(jìn)行判斷[4]。通過標(biāo)點(diǎn)符號(hào)得到該字所處語(yǔ)句,然后利用如下規(guī)則進(jìn)行匹配:
? 發(fā).*貨、理.*發(fā) 可匹配語(yǔ)句中如“發(fā)了很多貨”、“理了個(gè)發(fā)”。
? 發(fā)*貨、理*發(fā) 起始結(jié)束字串可以交換,既包括上一條規(guī)則,也可匹配“貨發(fā)了沒有”、“發(fā)是小明幫我理的”。
2.3.2 相同詞
采用詞表也存在難以確定候選字的情況,如“散發(fā)”,既可為“花兒散發(fā)著芳香”,也可為“風(fēng)兒吹著我的散發(fā)”,前者是“發(fā)”,后者是“髮”。類似的相同詞還有很多[5],如表4所示。
根據(jù)詞所在語(yǔ)句的上下文進(jìn)行判別,增加以下規(guī)則:
? 發(fā) 地散發(fā),散發(fā)(出)|(著)|(了)#
? 髮 的散發(fā),裸|袒|赤|披|簪|帶|衣|被|服|裝|身|肩|足|腳|跣|頭|舌?散發(fā),散發(fā)*沐|臥|坐|眠|歸|吹|歌|吟|撫|弄|邀|醉|飲...
轉(zhuǎn)換規(guī)則中的符號(hào)“|”表示或的關(guān)系,“散發(fā)(出)|(著)|(了)#”意味著比對(duì)“散發(fā)出”、“散發(fā)著”、“散發(fā)了”三個(gè)字串,符號(hào)“#”來表示比中即認(rèn)可此“發(fā)”-“發(fā)”對(duì)應(yīng)關(guān)系?!??”、“*”表示短句或句子,這樣便可以處理“跣足散發(fā)”、“人生在世不稱意,明朝散發(fā)弄扁舟”這樣的字串了。
2.3.3 詞性分析
根據(jù)相同詞對(duì)應(yīng)的詞性不同,可依據(jù)前后字進(jìn)行區(qū)分。動(dòng)詞前可以加上“地”,后面可以跟著“出”、“著”、“了”,而名詞的前后均可加上“的、之”等。
量詞可作為數(shù)量單位。在一對(duì)多漢字中可作量詞的有“斗、發(fā)、個(gè)、出”等,如這些字前有“一二三四五六七八九十百千萬(wàn)幾兩”等數(shù)字,則可以作出判斷。可用符號(hào)標(biāo)示此規(guī)則,如“#斗”。
姓氏的處理是一大難題?!坝?、余、沈、鐘”等一對(duì)多漢字也是常用姓??蓪?duì)歷史上的名人建立詞表,但把所有姓名收錄是不現(xiàn)實(shí)的。因?yàn)樾彰3W鳛橹髡Z(yǔ)或賓語(yǔ),所以如果這些字位于句子開頭或結(jié)尾位置、且不夠成詞組,那么可推定為姓氏;再就是現(xiàn)代漢語(yǔ)中常稱呼“老于”、“小鐘”等,在一篇文章中同一姓名往往會(huì)出現(xiàn)多次,可據(jù)上下文進(jìn)行判斷。
2.3.4 詞頻、優(yōu)先級(jí)與默認(rèn)值
遇到一對(duì)多漢字時(shí),要綜合考慮轉(zhuǎn)換規(guī)則、詞頻、優(yōu)先級(jí)、默認(rèn)值等情況,判斷相應(yīng)的候選字。以“太陽(yáng)一出來,我就出去看了出精彩的電影,忘了出股票了。”為例,“出”可對(duì)應(yīng)繁體字為“出、齣”。在詞表中可定義轉(zhuǎn)換規(guī)則如下:
? 出 出口,出去,出來,出風(fēng)頭,魚貫而出,情人眼里出西施,…
? 齣 #出,這出,出.*電影,…
根據(jù)使用頻度及組詞數(shù)量,轉(zhuǎn)換為“齣”的情形遠(yuǎn)少于“出”,因此“出”為默認(rèn)值。第一個(gè)“出”字,首先比中“齣”的規(guī)則“#出”,然后在“出”中比中詞“出來”,那么選擇哪一個(gè)呢?我們規(guī)定詞的優(yōu)先級(jí)高于規(guī)則,因此轉(zhuǎn)換結(jié)果為“出”;而第四個(gè)“出”字都沒比中,則取默認(rèn)值“出”。
3 分歧詞的處理
六十幾年來,兩岸在外來詞、科技術(shù)語(yǔ)、外國(guó)地名人名的翻譯及一些習(xí)慣用詞方面存在著很大差異,如表5所示。
建立分歧詞對(duì)照表,化學(xué)元素單字和標(biāo)點(diǎn)符號(hào)可以簡(jiǎn)單地直接轉(zhuǎn)換。
3.1 分歧詞處理中的常見問題
首先是分詞問題。必須把詞從語(yǔ)句中分離出來,如“精武門源自霍元甲的精武體育會(huì)”,不能將“門源”轉(zhuǎn)換為“亹源”。因?yàn)椤霸础迸c后面的“自”可以組成“源自”一詞,所以對(duì)兩個(gè)字構(gòu)成的分歧詞均應(yīng)通過與前后字的組詞分析其有效性,方法參考2.2節(jié)。
其次是單、雙向問題。一些詞的轉(zhuǎn)換是單向的,如繁體轉(zhuǎn)簡(jiǎn)體時(shí)可將“朋馳”轉(zhuǎn)換為“奔馳”,可簡(jiǎn)體轉(zhuǎn)繁體將所有的“奔馳”都轉(zhuǎn)換為“朋馳”,就會(huì)鬧出如“車在公路上高速朋馳”的笑話。再如繁體“塔克辛”可以轉(zhuǎn)為“他信”,然而簡(jiǎn)體“他信不信?”就不一定能轉(zhuǎn)換為“塔克辛不信?”。
不管分詞還是單、雙向處理都是為了解決過度轉(zhuǎn)換問題。在IT術(shù)語(yǔ)中,“宏”通常與“巨集”相對(duì)應(yīng),如“宏病毒”-“巨集病毒”、“宏匯編”-“巨集組合”等等,可是將“宏偉”轉(zhuǎn)換為“巨集偉”就錯(cuò)了。又如非洲國(guó)家“貝寧”對(duì)應(yīng)繁體“貝南”,但不能將央視主持人撒貝寧轉(zhuǎn)為撒貝南;“信息”所對(duì)應(yīng)繁體中文一般為“資訊”,但“工業(yè)與信息化部”則不宜進(jìn)行轉(zhuǎn)換。諸如此類的還有:軟體動(dòng)物-軟件動(dòng)物,近衛(wèi)文麿-親衛(wèi)文麿,月球質(zhì)量-月球品質(zhì)等。
3.2 修改詞表結(jié)合上下文進(jìn)行分歧詞條件限定
在分歧詞表加入限制性條件,程序通過對(duì)詞所在語(yǔ)句上下文分析,判斷是否進(jìn)行轉(zhuǎn)換。如:
? 他信 塔克辛 >麥格塞塞獎(jiǎng)|泰|政|華|政治|抗議|+·|·+|+總理|總理+
? 軟件 軟體 <-動(dòng)物
? 貝寧 貝南 >撒-
? 信息化 資訊化 >-部
? 近衛(wèi) 親衛(wèi) +軍|+師|+旅|+團(tuán)|+隊(duì)
? 質(zhì)量 品質(zhì) ~物體|物質(zhì)|重力|勢(shì)能|物理|星|天體|太陽(yáng)|地球|月球|分子|原子
符號(hào)意義如表6所示。
如規(guī)則“>撒-”表示繁體“貝南”可直接轉(zhuǎn)簡(jiǎn)體“貝寧”,而簡(jiǎn)體“貝寧”轉(zhuǎn)繁體時(shí),如前一字為“撒”,則不進(jìn)行轉(zhuǎn)換;“~物體|物質(zhì)”表示當(dāng)語(yǔ)句中出現(xiàn)“物體”、“物質(zhì)”時(shí),不進(jìn)行“質(zhì)量-品質(zhì)”的轉(zhuǎn)換。
4 簡(jiǎn)繁轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)與測(cè)試
系統(tǒng)分為分歧詞處理、一對(duì)多漢字處理和一對(duì)一漢字轉(zhuǎn)換三個(gè)層次,簡(jiǎn)繁或繁簡(jiǎn)轉(zhuǎn)換的處理過程是相似的。據(jù)此實(shí)現(xiàn)的簡(jiǎn)繁轉(zhuǎn)換系統(tǒng)將UNICODE、GBK和BIG5編碼的文本先轉(zhuǎn)為UTF8編碼,然后再進(jìn)行處理。
系統(tǒng)轉(zhuǎn)換的結(jié)果令人滿意。使用一些繁體語(yǔ)料在字級(jí)別的轉(zhuǎn)換中,經(jīng)繁-簡(jiǎn)、簡(jiǎn)-繁轉(zhuǎn)換后,比較繁體原始文件與轉(zhuǎn)換結(jié)果,完全相同的漢字占97%左右,考慮到原始語(yǔ)料中使用異體字的情況,正確率應(yīng)該更高,分歧詞也能較好地轉(zhuǎn)換出來。使用3.3GHz的CPU進(jìn)行簡(jiǎn)繁轉(zhuǎn)換速度約為26K漢字/秒。
5 結(jié)束語(yǔ)
簡(jiǎn)繁轉(zhuǎn)換是中文信息處理的重要課題。該問題一方面在于簡(jiǎn)繁之間存在一對(duì)多現(xiàn)象,另一方面在于兩岸在外來詞、專業(yè)術(shù)語(yǔ)、外國(guó)人地名等翻譯和一些習(xí)慣用詞方面存在差異,解決問題的關(guān)鍵是如何消岐、避免分歧詞過度轉(zhuǎn)換。本文提出了依據(jù)詞表和語(yǔ)句上下文進(jìn)行語(yǔ)義分析,通過規(guī)則進(jìn)行約束的方法,能更準(zhǔn)確地進(jìn)行轉(zhuǎn)換。當(dāng)然,自然語(yǔ)言非常復(fù)雜,生活中的一些語(yǔ)句甚至人也會(huì)理解錯(cuò)誤,因此偶爾轉(zhuǎn)換出錯(cuò)也屬正常。本系統(tǒng)對(duì)現(xiàn)代文較為有效,對(duì)古文還需語(yǔ)料庫(kù)的支持,改進(jìn)方向是不斷完善詞表及規(guī)則,進(jìn)一步提高轉(zhuǎn)換正確率。
參考文獻(xiàn)(References):
[1] 戴紅亮.漢字簡(jiǎn)繁文本智能轉(zhuǎn)換系統(tǒng)中語(yǔ)言學(xué)問題分析[J].遼寧師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016.3:115-120
[2] 龐禎軍,姚天財(cái).基于對(duì)照表以及語(yǔ)義相關(guān)性之簡(jiǎn)繁漢字轉(zhuǎn)換[J].計(jì)算機(jī)工程與應(yīng)用,2015.51(4):115-119
[3] 沙宗元,沈亮.《通用規(guī)范漢字表》與《簡(jiǎn)化字總表》簡(jiǎn)繁漢字對(duì)比分析[J].中國(guó)文字學(xué)報(bào),2017.
[4] 徐志學(xué).不作簡(jiǎn)化偏旁用的簡(jiǎn)化字簡(jiǎn)繁、繁簡(jiǎn)非對(duì)稱現(xiàn)象分析[J].三峽論壇(三峽文學(xué)·理論版),2018.5:48-55
[5] 王同億.高級(jí)漢語(yǔ)詞典[M].海南出版社,1996.