提 要 本文敘述了國際標(biāo)準(zhǔn)ISO 7098的修訂過程,指出這個國際標(biāo)準(zhǔn)修訂的兩大特點?:一是把漢語拼音按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn),二是把漢字—拼音轉(zhuǎn)寫的自動譯音方法引入國際標(biāo)準(zhǔn)。
關(guān)鍵詞 拼音;國際標(biāo)準(zhǔn);單一羅馬化;自動譯音
Abstract This article describes the latest development of Chinese character internationalization. The first section, after a brief introduction about the promulgation of Pinyin (Romanization Scheme for Chinese character), discusses a series of academic efforts to integrate Pinyin into international standards since 1979, with a focus on recent proposals of Pinyin spelling standardization rules recommended to the annual meetings of ISO/TC (International Organization for Standardization/Technical Committee) from 2011 to 2015. The second and third sections review the two latest recommendation submitted to ISO. The second section focuses on the technical aspects of Chinese word-segmentation and disambiguation mechanism and the third section is devoted to the significance of the automatic transcription from Chinese characters to Pinyin in the international standard.
Key words Pinyin; international standard; single Romanization; automatic transcription
1979年,中國代表周有光在華沙的ISO/TC 46(國際標(biāo)準(zhǔn)化組織信息與文獻(xiàn)標(biāo)準(zhǔn)化技術(shù)委員會)第18屆全體會議上,提出把《漢語拼音方案》作為國際標(biāo)準(zhǔn)的建議。
1982年在南京召開的ISO/TC 46第19屆全體會議上,正式通過了《ISO 7098 文獻(xiàn)工作——中文羅馬字母拼寫法》(ISO 7098 Information and Documentation-Chinese Romanization)。澳大利亞、加拿大、法國、日本、韓國、德意志聯(lián)邦共和國、蘇聯(lián)等國投了贊成票,英國棄權(quán),由于技術(shù)上的原因,美國投了反對票。從此,漢語拼音成為國際標(biāo)準(zhǔn)。
一、國際標(biāo)準(zhǔn)ISO 7098的修訂過程
1991年,在巴黎召開的ISO/TC 46第24屆全體會議上,對國際標(biāo)準(zhǔn)“ISO 7098”進行了技術(shù)修改,成為《ISO 7098信息與文獻(xiàn)——中文羅馬字母拼寫法(1991)》,簡稱“ISO 7098(1991)”。中國代表王均出席了這次會議。
20世紀(jì)90年代初制定ISO 7098(1991)的時候,正是世界進入信息時代的關(guān)鍵時刻。為了適應(yīng)信息時代的要求,中國開始研制計算機漢字輸入輸出。使用漢語拼音,可以通過拼音—漢字轉(zhuǎn)換的方法輸入輸出漢字。由于漢語拼音是中國初等教育必不可少的內(nèi)容,每一個受過教育的中國人都會使用,這樣,ISO 7098(1991)就成了漢字輸入輸出的一種便捷的手段。
國際標(biāo)準(zhǔn)ISO 7098(1991)是在《漢語拼音方案》的基礎(chǔ)上制定的,為了在國際范圍內(nèi)進一步擴大《漢語拼音方案》的影響,有必要修改ISO 7098(1991)。
ISO 7098(1991)對于全世界的信息與文獻(xiàn)工作具有重要的意義,為了滿足國內(nèi)外對漢語拼音實際應(yīng)用的迫切需要,也有必要修改ISO 7098(1991)。
2011年3月,教育部成立了ISO 7098修訂工作組,由語言文字應(yīng)用研究所研究員馮志偉擔(dān)任組長,李志江、傅愛平、黃偉、顏偉四位語言文字專家為工作組成員,啟動了ISO 7098(1991)的修訂工作。
2011年5月6日,ISO/TC 46第38屆會議在澳大利亞悉尼召開,受教育部的派遣,我國代表馮志偉出席并在會上提出了修改ISO 7098(1991)以便反映當(dāng)前中文羅馬化的新發(fā)展和實際應(yīng)用需要的建議。會后,我國國家標(biāo)準(zhǔn)化委員會(SAC)正式向ISO國際標(biāo)準(zhǔn)化組織提出了修訂ISO 7098(1991)的新工作項目(New Working Item Proposal,簡稱NWIP)的提案,提案的國際編號是:N 2358。
2012年5月6日至11日,ISO/TC 46第39屆全體
會議在德國柏林舉行,教育部派遣馮志偉出席這次會議。會議接受了我國的N 2358號提案,并將這個提案直接作為ISO 7098的工作草案(Working Draft,簡稱WD),成立了ISO 7098國際修訂工作組,并任命馮志偉擔(dān)任國際工作組組長,由美國、俄羅斯、德國和加拿大四國各派一位專家參加,這樣,ISO 7098(1991)的修訂便正式列入了國際標(biāo)準(zhǔn)化組織的工作日程。
2013年6月3日至7日在巴黎召開ISO/TC 46第40屆全體會議,教育部派遣馮志偉出席這次會議,馮志偉在會議上正式向ISO/TC 46秘書處提交了ISO 7098的委員會草案(Committee Draft,簡稱CD)。
2014年5月5日至9日,ISO/TC 46第41屆全體
會議在美國華盛頓召開。教育部派遣馮志偉出席這次會議,在5月7日的第三工作組(Working Group 3,簡稱WG3)會議上,就ISO 7098(1991)的修訂問題重申中國的立場。會后向ISO/TC 46秘書處提交了ISO 7098的國際標(biāo)準(zhǔn)草案(Draft of International Standard,簡稱DIS)。
2015年6月1日至5日的ISO/TC46第42屆全體會議在北京召開。教育部派遣馮志偉出席這次會議,在6月2日的大會專題報告會上做了《ISO 7098國際標(biāo)準(zhǔn)及其在人機交互中的應(yīng)用》的報告(Feng 2015)。6月3日的WG3會議上,馮志偉又介紹了各國對于ISO 7098的DIS稿提出的意見以及我國對于這些意見的處理情況,向與會人員出示了DIS的修改稿。
會后,馮志偉把經(jīng)過修改的DIS稿正式提交ISO/TC 46秘書處,根據(jù)ISO/TC 46第41屆全體會議的決議,ISO/TC 46秘書處于2015年7月27日把DIS的修改稿分發(fā)給ISO/TC 46的各成員國,進行委員會內(nèi)部投票(Committee Internal Balloting,簡稱CIB),CIB投票于2015年9月18日結(jié)束。ISO/TC 46秘書處的N 2526號文件公布了投票結(jié)果:ISO/TC 46委員會中沒有棄權(quán)的19個國家全都投了贊成票,獲得全票通過。至此,ISO 7098形成了新的修訂稿,叫作ISO 7098:2015。2015年12月15日,ISO總部正式出版ISO 7098:2015,作為新的國際標(biāo)準(zhǔn)向全世界公布。
2015年12月15日由ISO總部正式出版的ISO 7098:2015有兩個最為引人注目的特點,一是把漢語拼音按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn),二是把漢字—拼音轉(zhuǎn)寫的自動譯音方法引入國際標(biāo)準(zhǔn)。
二、漢語拼音按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn)
漢語中大多數(shù)常用詞都是多音節(jié)詞,因此,在國際文獻(xiàn)和信息工作中,有必要把按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn)。
在漢語拼音中,單個的音節(jié)是有歧義的。如果不計聲調(diào),基本的漢語音節(jié)只有405個,這405個漢語音節(jié)可以表示全部漢字的讀音。《通用規(guī)范漢字表》包含8105個通用漢字,一般使用中一個漢語音節(jié)平均要表示20個以上的漢字(8105/405 =
20.01),不可避免會出現(xiàn)歧義。如果把幾個單音節(jié)連接起來構(gòu)成多音節(jié)詞,歧義指數(shù)就會大幅度減少。為了給拼音音節(jié)排歧,必須把不同的單音節(jié)連接起來構(gòu)成多音節(jié)的漢語單詞。
《漢語拼音正詞法基本規(guī)則》(GB/T 16159-2012)中包括了分詞連寫規(guī)則,人名和地名的拼寫規(guī)則,大寫規(guī)則,移行規(guī)則,等等。
漢語的專有名詞中,單詞的界限還是相對清楚的,由于漢語中多音節(jié)的命名實體的界限根據(jù)有關(guān)的規(guī)范和標(biāo)準(zhǔn)比較容易確定,因此,把不同的幾個單音節(jié)連接起來構(gòu)成多音節(jié)的專有名詞就不是很困難。
由于這樣的考慮,國際標(biāo)準(zhǔn)ISO 7098:2015增加了命名實體(naming entities)按詞進行音節(jié)連寫的規(guī)定:在漢語拼音中,對于人名、地名、語言名、民族名、宗教名這五種命名實體,都要按詞進行連寫。這樣就把“按詞連寫”這個重要的方法引進了國際標(biāo)準(zhǔn)中。
在中文羅馬字母拼寫的發(fā)展過程中,曾經(jīng)使用過與《漢語拼音方案》不同的羅馬字母拼寫形式來拼寫中文地名。威妥瑪式(Wade Giles)、國語羅馬字(Guoyeu Romatzyh)、耶魯拼音(Mandarin Yale)等,根據(jù)“單一羅馬化”原則,在對中文地名進行羅馬字母拼寫時,選擇了《漢語拼音方案》。
三、漢字—拼音轉(zhuǎn)寫自動譯音的方法引入國際標(biāo)準(zhǔn)
ISO 7098:2015還把漢字—拼音轉(zhuǎn)寫自動譯音的方法引入國際標(biāo)準(zhǔn),提出了在計算機輔助文獻(xiàn)工作中,對命名實體進行自動譯音(automatic transcription)的兩種方法:一種是按音節(jié)全自動譯音,一種是基于規(guī)則的按單詞半自動譯音。
按音節(jié)全自動譯音的方法能夠把漢字文本自動地譯音為彼此之間由空白分開的單音節(jié)的拼音。使用這樣的方法,“北京市”這個地名可以全自動地譯音為/bei/、/jing/ 和/shi/三個音節(jié)。這種方法很容易用計算機程序來實現(xiàn),但是譯音出來的音節(jié)的歧義指數(shù)較高。
另一種是基于規(guī)則的按單詞半自動譯音的方法。在目前的技術(shù)條件下,全自動的單詞切分難以達(dá)到很好的質(zhì)量,可以采用基于規(guī)則的按單詞半自動譯音的方法。
命名實體基于規(guī)則的按單詞半自動譯音可以使用如下的資源:1. 一套譯音規(guī)則:ISO 7098:2015提出了命名實體譯音的一般規(guī)則,這些規(guī)則可以用作命名實體半自動譯音的資源。2. 一個相關(guān)的譯音詞典:最近出版的《漢語拼音詞匯:專名部分(草案)》(董琨 2015)包含了大多數(shù)的命名實體的拼音譯音,可以用作命名實體半自動譯音的另一個資源。
ISO 7098:2015提出,如果在按詞譯音過程中出現(xiàn)歧義或問題,后編輯人員可以根據(jù)譯音詞典,使用人機交互找出合適的命名實體的譯音。所以,這樣的方法是半自動的。這種半自動方法的譯音質(zhì)量很高,音節(jié)的歧義指數(shù)較小甚至可以減少到零。
24年前制定的ISO 7098(1991)把《漢語拼音方案》提高到國際標(biāo)準(zhǔn)的地位,是漢語拼音走向世界的第一步,現(xiàn)在我們修訂的ISO 7098:2015,進一步提出了在羅馬字母拼寫時對命名實體按詞連寫的規(guī)則和自動譯音的方法,邁開了漢語拼音走向世界的新步伐。
參考文獻(xiàn)
董 琨主編 2015 《漢語拼音詞匯:專名部分(草案)》,上海:上海辭書出版社。
Feng Zhiwei. 2015. Chinese Romanization and Its Application in HCI. Proceedings of 42th Plenary Meeting of ISO TC46, Beijing.
International Standadization Organization. 2015. ISO 7098: 2015 Information and Documentation: Romanization of Chinese. Geneve.
責(zé)任編輯:劉一玲