國際標準ISO 7098：2015的四個特色

2017-01-11 02:54:16馮志偉

數(shù)字圖書館論壇 2016年12期

關鍵詞：譯音歧義國際標準

馮志偉

（1.教育部語言文字應用研究所，北京 100010；2.杭州師范大學，杭州 311121）

國際標準ISO 7098：2015的四個特色

馮志偉1,2

（1.教育部語言文字應用研究所，北京 100010；2.杭州師范大學，杭州 311121）

2015年12月15日，國際標準ISO 7098：2015正式在日內瓦出版。本文對該國際標準的四個特色進行分析。

ISO 7098：2015；國際標準

1 引言

1958年2月11日，全國人民代表大會一致通過《漢語拼音方案》作為拼寫漢語普通話的國家標準[1]。漢語拼音成為中國初等教育的教學內容，每位學生都應學習和掌握《漢語拼音方案》。通過漢語拼音給漢字注音，提高漢字學習效率，幫助學生進一步學習文化和科學技術。漢語拼音在電報拼音化、視覺通信、文獻編目、排序檢索、人力資源管理中得到很好的應用，在中國受到普遍的歡迎[2]。

1979年，中國代表周有光在華沙召開的ISO/TC 46（國際標準化組織第46技術委員會）第十八屆會議上，建議將《漢語拼音方案》作為國際標準。

1982年，在南京召開的ISO/TC 46第十九屆會議上，正式通過ISO 7098《文獻工作——中文羅馬字母拼寫法》（ISO 7098Information and Documentation：Chinese Romanization）國際標準。澳大利亞、加拿大、法國、日本、韓國、德國等投贊成票，英國棄權，由于技術原因，美國投反對票。因大多數(shù)國家支持標準通過，從此漢語拼音從中國的國家規(guī)范成為國際標準。

1991年，在巴黎召開ISO/TC 46第二十四屆會議上，對原ISO 7098進行技術修改后，頒布ISO 7098《信息與文獻——中文羅馬字母拼寫法（1991）》，簡稱“ISO 7098（1991）”。

20世紀90年代初制定ISO 7098（1991）時，正處于世界進入信息時代的關鍵時期。為適應信息時代需求，中國開始研制計算機漢字輸入與輸出。使用ISO 7098（1991）的漢語拼音，可通過拼音-漢字轉換的方法輸入、輸出漢字。由于漢語拼音是中國初等教育不可或缺的內容，促使ISO 7098（1991）成為漢字輸入、輸出的一種便捷手段。在移動通信中使用漢語拼音在移動電話上輸入漢字，推動移動電話在中國的普及；漢語拼音在漢語國際教育中也發(fā)揮很好的作用，成為國外學生學習漢語和漢字的有用工具。

2 ISO 7098：2015的修訂過程

普通話是中國各民族的通用語言，也是聯(lián)合國工作語言之一。ISO 7098（1991）對全球信息與文獻工作具有重要意義，為滿足當前國內外對漢語拼音實際應用的迫切需要，有必要修改ISO 7098（1991）。

為此，2011年3月教育部成立ISO 7098（1991）修訂工作組，由語言文字應用研究所研究員馮志偉擔任組長，傅愛平、李志江、黃偉、顏偉4位專家參加，啟動ISO 7098（1991）的修訂工作。

2011年5月6日，ISO/TC 46第三十八屆會議在悉尼召開，中國代表在會議上提出修改ISO 7098（1991），以便反映中文羅馬化的新發(fā)展和實際應用需要的建議。會后，中國國家標準化管理委員會（Standardization Administration of the People's Republic of China）正式向國際標準化組織（International Organization for Standardization，ISO）提出修訂ISO 7098（1991）的新工作項目（New Working Item Proposal）提案，該提案的國際編號：N 2358。

2012年5月6日—11日，ISO/TC 46第三十九屆會議在柏林舉行，此次會議接受N 2358提案，并將該提案直接作為ISO 7098的工作草案（working draft），成立ISO 7098（1991）國際修訂工作組，ISO 7098（1991）修訂正式列入ISO的工作日程。

2013年6月3日—7日，在巴黎召開ISO/TC 46第四十屆會議，中國代表在會議上正式向ISO/TC 46秘書處提交ISO 7098的委員會草案（committee draft）。

2014年5月5日—9日，ISO/TC 46第四十一屆會議在華盛頓召開。中國代表在5月7日上午舉行的第3工作組（Working Group 3，WG3）會議上，就ISO 7098（1991）修訂問題重申立場，會后向ISO/TC 46秘書處提交ISO 7098國際標準草案（Draft of International Standard，DIS）。

2015年6月1日—5日，ISO/TC46第四十二屆會議在北京召開。根據(jù)大會安排，中國代表在6月2日的專題報告會上發(fā)表《ISO 7098國際標準及其在人機交互中的應用》，且用生動的實例說明在數(shù)字化環(huán)境下，漢語拼音在人機交互中發(fā)揮的巨大作用，并受到各國代表的熱烈歡迎；在6月3日的WG3會議上，就各國對ISO 7098DIS稿提出的意見，中國代表詳細說明了處理情況，并向參會人員出示DIS修改稿。

會后，中國代表將DIS修改稿提交至ISO/TC 46秘書處，根據(jù)ISO/TC 46第四十二屆會議的決議，ISO/TC 46秘書處于2015年7月27日將DIS修改稿分發(fā)給ISO/TC 46各成員國進行委員會內部投票（Committee Internel Balotting，CIB），CIB投票于2015年9月18日截止。ISO/TC 46秘書處N 2526號文件公布投票結果，ISO/TC 46中沒有棄權的19個國家（保加利亞、加拿大、中國、克羅地亞、丹麥、愛沙尼亞、法國、德國、伊朗、意大利、日本、韓國、拉脫維亞、挪威、俄羅斯、泰國、烏克蘭、英國、美國）都投了贊成票，獲得全票通過。值得注意的是，在1982年對ISO 7098投反對票的美國和投棄權票的英國，均投了贊成票[3]。這說明ISO 7098在世界范圍得到越來越多的國家支持。于是ISO 7098的修訂工作進入出版階段，形成新的修訂稿，稱為ISO 7098：2015。 2015年11月12日，中國代表向ISO/TC 46秘書處提交ISO 7098：2015的最終版本，并轉至ISO總部準備出版。2015年12月15日，ISO正式出版ISO 7098：2015，有助于大幅提高文獻自動化工作水平，使?jié)h語拼音在國際文獻工作中發(fā)揮更大的作用，并進一步推動漢語拼音走向世界。漢語中大多數(shù)常用詞都是多音節(jié)詞，因此，在國際文獻和信息工作中，把單音節(jié)拼音連寫為多音節(jié)的漢語單詞是理所當然的事情，有必要把按詞連寫的規(guī)則引入國際標準[4]。

3 ISO 7098：2015的特點

ISO 7098：2015有四個引人注目的特點：一是將漢語拼音按詞連寫的規(guī)則引入國際標準；二是提出把漢字文本自動譯音為拼音的方法；三是進一步完善漢語拼音的音節(jié)形式總表；四是給聲調和標點符號補充16進制unicode代碼，擴充羅馬字母的字符集。以下分別進行具體說明。

3.1 將漢語拼音按詞連寫的規(guī)則引入國際標準

在中世紀之前，希臘人和羅馬人已經(jīng)知道“單詞”的含義，盡管在文本中相鄰單詞間沒有空白，其仍可識別出對應單詞。

7世紀，愛爾蘭人開始使用“空白”來分隔文本中的單詞，并且將該方法傳到法國。9世紀開始，使用空白分隔單詞的方法在歐洲流行開來。

空白的使用意味著承認“單詞”這個概念，在單詞與單詞間插入空白成為在書面使用字母語言的一個標準，世界出版界和圖書館都遵循該標準。

在漢語拼音中，也有必要使用空白來分割單詞而非分割音節(jié)。單詞的分割是世界文明的一個優(yōu)良傳統(tǒng)。在制定《中文羅馬字母拼寫法》時，遵循這樣的優(yōu)良傳統(tǒng)是有利的。

在漢語拼音中，一個拼音音節(jié)可表示若干個漢字，因而在表示漢字方面，拼音音節(jié)存在歧義。如《通用規(guī)范漢字表》中拼音音節(jié)/bei/可以表示為31個漢字：北、杯、卑、背、椑、悲、碑、鵯、貝、孛、邶、狽、備、鋇、倍、悖、被、琲、棓、輩、憊、焙、蓓、碚、鞁、褙、糒、鞴、鐾、唄、臂；拼音音節(jié)/jing/可以表示為49個漢字：京、莖、涇、經(jīng)、猄、荊、菁、旌、驚、晶、腈、?、睛、粳、兢、精、鯨、麖、鼱、井、阱、汫、剄、肼、頸、景、儆、憬、璥、璟、警、勁、徑、凈、逕、脛、倞、痙、競、竟、竫、婧、靚、敬、靖、靜、境、獍鏡。

在漢語拼音中，單音節(jié)歧義指數(shù)很高。若不包括聲調，基本漢語音節(jié)有405個，這些漢語音節(jié)可表示全部漢字的讀音。而《通用規(guī)范漢字表》中有8 105個通用漢字，在這種情況下，一個漢語音節(jié)平均可以表示20多個漢字，因而不可避免會出現(xiàn)歧義[5]。但若將幾個單音節(jié)連接起來構成多音節(jié)單詞，拼音音節(jié)的歧義指數(shù)就會大幅降低，因此為給拼音音節(jié)排除歧義，必須把不同單音節(jié)連接起來構成多音節(jié)漢語單詞。

為解決漢語拼音音節(jié)存在歧義問題，使用拼音音節(jié)的歧義指數(shù)概念來描述拼音音節(jié)的歧義。歧義指數(shù)（I）是漢語拼音音節(jié)歧義程度的數(shù)學描述，與該拼音音節(jié)可以表示的語言單位數(shù)（N）的關系為I=N-1。

“語言單位”既可是單音節(jié)漢字，也可是單音節(jié)或多音節(jié)單詞。

上文案例中，拼音音節(jié)/bei/可表示31個漢字，即有31個語言單位，其歧義指數(shù)為30；拼音音節(jié)/jing/可表示49個漢字，即有49個語言單位，其歧義指數(shù)為48。但若將單音節(jié)/bei/和/jing/結合形成雙音節(jié)單詞/beijing/，其歧義指數(shù)將明顯減少，因為/beijing/可以表示3個單詞：北京、背景、背靜，即有3個雙音節(jié)語言單位，其歧義指數(shù)減少（N=2）。若將/beijing/第一個字母進一步大寫為/Beijing/，則其歧義指數(shù)為0，說明/Beijing/是一個沒有歧義的語言單位，即中國首都北京。因此，若將不同單音節(jié)的拼音音節(jié)連接成多音節(jié)的漢語單詞，拼音音節(jié)的歧義指數(shù)將明顯降低。這是把不同的單音節(jié)連接成多音節(jié)漢語單詞的優(yōu)越之處。

GB/T 16159—2012《漢語拼音正詞法基本規(guī)則》包括音節(jié)分割或連接成單詞的規(guī)則，常用詞（名詞、動詞、形容詞、代詞等）拼寫規(guī)則，固定短語拼寫規(guī)則，人名和地名拼寫規(guī)則，聲調表示規(guī)則，在行末尾的連字符使用規(guī)則等[6]。

目前，在漢語語言學中對漢語單詞還沒有公認的明確定義，這樣很難確定漢語普通單詞的邊界（切分界線），把單個音節(jié)連接起來構成多音節(jié)單詞時也將很困難。不過，漢語專有名詞中單詞的界限相對清晰，由于漢語中多音節(jié)的命名實體界限根據(jù)有關規(guī)范和標準比較容易確定，因此，把不同單音節(jié)連接構成多音節(jié)專有名詞難度不大。在國際文獻和信息工作中，把不同漢語拼音單音節(jié)連接起來構成多音節(jié)專有名詞，從而避免拼音歧義，不僅是必要的也是可能的?；诖?，在國際標準ISO 7098：2015中增加命名實體按詞進行音節(jié)連寫的規(guī)定，即在漢語拼音中對于人名、地名、語言名、民族名、宗教名這5種命名實體，均按詞進行連寫，將“按詞連寫”這個重要方法引進國際標準，與ISO 7098（1991）相比是重大的進展。例如，對于命名實體“地名”的書寫，按國際標準ISO 7098：2015規(guī)定“漢語地名中的專名和通名（包括行政區(qū)劃名或地理特征名）分寫，由多個漢字組成的專名、行政區(qū)劃名或地理特征名應分別按單詞連寫，每一分寫部分的第一個字母大寫”。

根據(jù)ISO 7098：2015規(guī)定，北京市“朝陽路”路名中的專名部分“朝陽”和通名部分“路”，應當分寫且中間留空白。由于“朝陽”由兩個漢字組成，拼寫時應連寫為一個單詞，且每個分寫部分的第一個字母均大寫，因此“朝陽路”的漢語拼音規(guī)范書寫形式應是“Chaoyang Lu”。而“Chao Yang Lu”（Chao和Yang沒有連寫為一個單詞）、“ChaoYang Lu”（Yang的首字母不應大寫）、“chaoyang Lu”（chaoyang的首字母沒有大寫）、“Chaoyang lu”（通名部分lu的第一個字母沒有大寫）、“chaoyang lu”（專名chaoyang和通名lu首字母均未大寫）、“chaoyanglu”（專名chaoyang與通名lu沒有分寫且通名和專名的首字母均未大寫）等拼寫形式均不符合ISO 7098：2015規(guī)定。嚴格執(zhí)行ISO 7098：2015標準，排除不符合規(guī)定的拼寫形式，使得地名拼寫形式統(tǒng)一，改變地名拼寫的混亂局面，有助于人們無歧義地進行溝通。

20世紀60年代，聯(lián)合國地名專家組為便于國際交往，使各國地名的專名部分只有一種拼寫形式，避免在國際交往中地名因語言文字的復雜造成混亂。1967年第二屆聯(lián)合國地名標準化會議做出決議，要求世界各國、各地區(qū)在國際交往中都使用羅馬字母拼寫地名，做到每個地名的專名部分只有一種羅馬字母拼寫形式。選擇羅馬字母是因為世界上大多數(shù)國家均習慣使用，這就是“單一羅馬化”（single Romanization）原則。如果嚴格執(zhí)行ISO 7098：2015，將“朝陽路”拼寫為“Chaoyang Lu”，便十分有利于貫徹推行“單一羅馬化”原則。

地名的單一羅馬化，對于使用羅馬字母的國家而言，國家的地名標準化即國際標準化；而對使用非羅馬字母文字的國家（如中國、日本、俄羅斯、泰國、韓國、希臘等）而言，須制定國家地名羅馬化方案，經(jīng)聯(lián)合國地名標準化會議通過后，作為地名羅馬字母拼寫的國際標準。1977年9月，在雅典召開的聯(lián)合國第三屆地名標準化會議上，中國代表提出《采用漢語拼音作為中國地名羅馬字母拼法的國際標準》提案獲得會議通過。第三屆聯(lián)合國地名標準化會議作出決定，“注意到《漢語拼音方案》在語言學上是完善的，用于中國地名的羅馬字母拼法是最合適的”“建議采用漢語拼音方案作為中國地名羅馬字母拼法的國際標準”。從此，根據(jù)《漢語拼音方案》拼寫我國地名成為中國地名單一羅馬字母拼寫的國際標準，在以羅馬字母為文字（如英文、德文、法文等）的各國出版物上都應根據(jù)《漢語拼音方案》拼寫中文地名的專名部分。

在中文羅馬字母拼寫發(fā)展過程中，曾使用過與《漢語拼音方案》不同的羅馬字母拼寫形式拼寫中文地名。其中，以英國人威妥瑪和詹里斯在1867年設計的威妥瑪式拼音（Wade Giles）、我國學者趙元任在1928年設計的國語羅馬字（Guoyeu Romatzyh，GR）、美國人肯尼迪在1943年設計的耶魯拼音（Mandarin Yale）最為有名，根據(jù)“單一羅馬化”原則，在對中文地名進行羅馬字母拼寫時，不應采用多種羅馬化形式拼寫法，只能選擇單一的羅馬化拼音形式（即《漢語拼音方案》規(guī)定的拼音形式）。因此，在實行“單一羅馬化”原則時，不能使用威妥瑪式拼音、國語羅馬字拼音、耶魯拼音，而應使用《漢語拼音方案》的拼音方法?！氨本痹?jīng)有“Peking”“Pekin”等拼寫形式，根據(jù)“單一羅馬化”原則，應根據(jù)ISO 7098：2015拼寫為“Beijing”，不能使用“Peking”“Pekin”等拼寫形式。

在國際標準ISO 7098：2015中，還對“字符譯音”（transcription）做出說明。其指出“字符譯音是指用字母的語音系統(tǒng)或轉換語言的符號來表示某種語言中的字符，而不論該語言原本的書寫方式”“字符譯音系統(tǒng)必須以轉換語言及其字母表的正字法為依據(jù)，因此字符譯音系統(tǒng)的使用者必須對轉換語言了解，并能準確地讀出其字符”“字符譯音不是嚴格地可逆轉的”“字符譯音可用來轉換所有的書寫系統(tǒng)”“它是唯一能夠用來轉換如中文、日文這樣的不全使用字母的拼音文字系統(tǒng)及意音圖形文字書寫系統(tǒng)的方法”。在把“朝陽路”轉寫成漢語拼音“Chaoyang Lu”時，其中的專名部分“Chaoyang”遵循“單一羅馬化”原則，通名部分“Lu”也準確地反映漢語普通話的讀音。這樣的轉寫應屬于“譯音”的范疇。由此可見，ISO 7098：2015為把漢字地名正確譯音，為拼音路名“單一羅馬化”提供明確的規(guī)范。

3.2 提出命名實體自動譯音方法

ISO 7098：2015提出，在計算機輔助文獻工作中有兩種對命名實體進行自動譯音的方法。一種是按音節(jié)全自動譯音，另一種是基于規(guī)則按單詞半自動譯音。

3.2.1 按音節(jié)全自動譯音

全自動譯音程序能自動生成彼此間由空白分開的單個音節(jié)，該方法適用于任何應用系統(tǒng)和環(huán)境，其音節(jié)切分結果效果顯著，這種全自動譯音程序特別適用于將拉丁字母譯音與原漢字混合存儲的系統(tǒng)。使用該方法“北京市”可全自動地譯音為/bei/、/jing/和/shi/3個音節(jié)。這種全自動方法很容易通過計算機程序實現(xiàn)，但譯音出來的音節(jié)歧義指數(shù)較高。

3.2.2 基于規(guī)則按單詞半自動譯音

在與語言有關的科學研究和工業(yè)生產(chǎn)中，“詞”是基本和必要的概念，因此有必要對“詞”以統(tǒng)一界說，但很難簡單地使用基于空白和標點符號等規(guī)則來決定單詞間的界限。這樣的規(guī)則沒有考慮到復合詞、縮寫詞、慣用語等的切分問題，且單詞切分對于單詞與單詞間沒有用空白分開的語言（如漢語、日語）更加復雜[7]。

在自然語言處理中，單詞切分即將文本切分為有負載意義的語言單位的過程。例如，英語“the white house”，可以切分為3個有意義的單位“the”“white”“house”，譯為一間白色的房子；而“the White House”，則只與一個語言單位相對應，即美國總統(tǒng)的官邸。這種有意義的單位稱為單詞的切分單位（Word Segmentation Units，WSU）。對于單詞間有空白的語言（如英語），在將文本切分WSU時，只需使用空白作為基礎確定WSU切分的邊界即可，簡單易行；但對于單詞間沒有空白的語言（如漢語和日語），或對于只在局部單詞間有空白的語言（如泰語和韓國語），在將書面文本切分為WSU時，要求使用不同的方法[8]。

很多應用領域需將文本切分為單詞，在翻譯中，統(tǒng)計單詞數(shù)量是計算翻譯工作成本的主要方法。在翻譯記憶系統(tǒng)和機器輔助翻譯（Computer-Assisted Translation）的工具中，單詞切分是其主要功能；在術語抽取工具中，單詞切分也起著重要的作用；在術語管理工具中，有時也要提供單詞切分的功能；在內容搜索時，也要對文本進行切分，以便在內容管理系統(tǒng)和數(shù)據(jù)庫使用搜索詞進行匹配；此外，搜索功能要求關于單詞邊界的知識，文本-語音轉換系統(tǒng)在單詞的基礎上生成語音，因此要求在單詞查詢時進行單詞切分等。各種自然語言處理系統(tǒng)必須把文本切分為單詞才能實現(xiàn)其功能。

國際標準ISO 24614-1：2010給出自然語言處理中單詞切分的基本概念和一般原則，提出以可信賴且能復用的方式進行書面文本自動切分的導則，且這種導則是獨立于語言的[9]。

國際標準ISO 24614-2：2011提出漢語、日語和韓語中切分WSU的具體規(guī)則。其中，部分規(guī)則是這3種語言共同的，盡管每種語言都有獨自判別WSU的特殊規(guī)則[10]。

因此，在中文羅馬字母拼寫中應將由漢字表示的命名實體譯音為拼音，以表示單詞。在漢語中單詞可由一個或多個音節(jié)組成，單詞間的界限并不清楚，在目前技術條件下，全自動單詞切分難以達到很好的質量，可采用基于規(guī)則按單詞半自動譯音的方法。

命名實體基于規(guī)則按單詞半自動譯音可使用如下資源。

（1）一套譯音規(guī)則。在本標準中提出命名實體譯音的一般規(guī)則。這些規(guī)則可用作命名實體半自動譯音的資源。

（2）一個相關的譯音詞典。《漢語拼音詞匯（專名部分）》包含大多數(shù)命名實體的拼音譯音，是可用作命名實體半自動譯音的另一種資源。使用這樣的方法“北京市”的譯音過程：/bei jing shi/、/beijing shi/、/Beijing shi/、/Beijing Shi/。

根據(jù)規(guī)則，首先，地名“北京市”被切分為/bei/、/jing/和/shi/3個音節(jié)；然后，把/bei/、/jing/結合成/beijing/，使其與行政區(qū)劃名/shi/分開；最后，把每部分首字母大寫，譯音為/Beijing Shi/。如果在按詞譯音過程中出現(xiàn)歧義或問題，編輯人員可根據(jù)譯音詞典通過人機交互找出合適的命名實體譯音。因此，這種方法是半自動的，但譯音質量很高，音節(jié)的歧義指數(shù)較小甚至可降低至0。

3.3 對漢語普通話的語音系統(tǒng)進行全面說明

ISO 7098：2015對漢語普通話的語音系統(tǒng)進行全面說明，使國際人士對漢語普通話的語音獲得全面理解。

漢語普通話的聲母包括雙唇音（bilabial）：b，p，m；唇齒音（labio-dental）：f；舌面前音（dorso-prepalatal）：d，t，n，l；舌根音（dorso-velar）：g，k，h；舌尖前音（apicoalveolar）：z，c，s；舌尖后音（apico-postalveolar）：zh，ch，sh，r；舌面音（dorso-palatal）：j，q，x；零聲母（zero initial）：在韻母的左側沒有元音。漢語普通話的韻母包括4種。

（1）開口呼（Articulation A）：以a、o、e為介音或主要元音的韻母。例如，a、o、e、ei、ao、ou、an、ang、en、eng、ong、er，以及zi、ci、si和zhi、chi、shi、ri中的主要元音i。

（2）合口呼（Articulation B）：以u為介音或主要元音的韻母。例如，u、ua、uo、uai、uei、uan、uang、un、ueng。

（3）齊齒呼（Articulation C）：以i為介音或主要元音的韻母。例如，i、ia、ie、iao、iu、ian、iang、in、ing、iong。

（4）撮口呼（Articulation D）：以ü為介音或主要元音的韻母。例如，ü、üe、üan、ün。在不會產(chǎn)生歧義的情況下，漢語拼音使用u代替ü，以簡化音節(jié)拼寫。

漢語普通話的音節(jié)形式表（見表1），覆蓋漢語普通話中除音節(jié)ê和兒化音節(jié)外的所有音節(jié)。

此外，在ISO 7098：2015中，我們還對于這個音節(jié)形式表做出如下的說明。

（2）*在音節(jié)開頭的u寫為w。但是，當w后沒有其他附加元音時，作為一個完整音節(jié)的u不能寫作w，而應寫為wu。

（5）+在音節(jié)開頭的i寫為y。但當這個y后面沒有其他附加元音時，不能寫作y、yn、yng，而應寫作yi、yin、ying。

（6）※在不會產(chǎn)生歧義的條件下，漢語拼音使用u代替ü，僅是為便于拼寫，這些u仍應讀為ü。

（7）1wei: ui實際是uei的簡寫。因此，在漢語拼音聲韻配合表中，有shui而沒有shuei，有dui而沒有duei。

（8）2wen: un實際是uen的簡寫。

（9）3you: iu實際是iou的簡寫。由于在音節(jié)開頭的i寫為y，所以應拼寫為you而非yu（采用yu這樣的拼寫方法會導致混淆）。

（10）在該聲韻配合表中，略去了兒化音節(jié)和音節(jié)ê。

表1 漢語普通話音節(jié)形式表

3.4 補充16進制unicode代碼

給漢語特有的聲調和標點符號補充16進制unicode代碼，豐富拉丁字母內容。漢語是一種有聲調的語言，這意味著，聲調會影響意義。具有不同聲調的同一音節(jié)，其意義可能有很大的不同。每個音節(jié)可具有四個聲調中的一個，也可以沒有聲調。在這個CD稿中，對普通話的四個聲調符號加圓括號進一步說明其性質。

（1）一聲（高平調）：—

（2）二聲（升調）：／

（3）三聲（降/升調）：∨

（4）四聲（降調）：＼

ISO 7098：2015還增加漢語普通話聲調圖示（見圖1）。

對圖1的分示圖分別進行展示，以更便于國外用戶理解漢語普通話聲調的性質（見圖2）。

根據(jù)ISO/TC 46第四十一屆全會決議精神，要求在ISO 7098：2015中增加擴充拉丁字符使用的材料，因此對漢語拼音的聲調符號和標點符號補充16進制的unicode代碼（hexadecimal code，hex）。

圖1 漢語普通話聲調圖示（綜合圖）

（1）一聲（高平調）：—（hex：0304）

（2）二聲（升調）：／（hex：0301）

（3）三聲（降/升調）：∨（hex：030C）

（4）四聲（降調）：＼（hex：0300）

在實際文本中，聲調符號附在音節(jié)的主要元音上。例如，/béi/、/què/，在音節(jié)/béi/中，聲調符號附著在主要元音e上，標注為/é/；在音節(jié)/què/中，聲調符號附著在主要元音e上，標注為/è/。如果區(qū)分元音大小寫，則漢語普通話帶聲調符號的元音如表2和表3所示。

圖2 漢語普通話聲調圖示（分示圖）

表2 漢語帶調元音小寫字母16進制代碼

表3 漢語帶調元音大寫字母16進制代碼

漢語特有的標點符號及其對應的拉丁標點符號16進制的unicode代碼如表4所示。

上述工作進一步豐富羅馬字母字符集的內容，擴充羅馬字母字符集，是漢語拼音對于羅馬字母的貢獻。

表4 標點符號16進制代碼對照表

4 結束語

ISO 7098（1991）將《漢語拼音方案》提高至國際標準的地位，是漢語拼音走向世界的第一步，如今ISO 7098：2015在羅馬字母拼寫時，進一步提出對命名實體按詞連寫的規(guī)則和自動譯音方法，并對漢語普通話的語音系統(tǒng)進行全面描述，給漢語特有的聲調符號和特有的標點符號增加了16進制代碼，擴充羅馬字母的字符集，這些富有成效的工作，邁開漢語拼音走向世界的新步伐。

[1] 國家語委標準化工作委員會辦公室.國家語言文字規(guī)范和標準選編[M].北京:中國標準出版社,1997:441.

[2] 國務院關于推廣普通話的指示[EB/OL].(2011-01-17)[2016-12-13].http://www.seac.gov.cn/art/2011/1/17/art_58_106828.html.

[3] ALA-LC Romanization,Chinese,Rules of Application[EB/OL].[2016-12-13]. http://www.loc.gov/catdir/cpso/romanization/chinese.df.

[4] Library of Congress,Pinyin Conversion Project,New Chinese Romanization Guidelines[EB/OL].[2016-12-13].http://www.loc.gov/catdir/pinyin/romcover.html.

[5] 中國國家標準化管理委員會.漢語拼音正詞法基本規(guī)則:GB/T 16159—2012[S].北京:中國標準出版社,2012.

[6] Information and documentation:Romanization of Chinese:ISO 7098: 2015[S].2015.

[7] Documentation—Romanization of Japanese(kana script):ISO 3602:1989[S].1989.

[8] Information and documentation—Transliteration of Korean script into Latin characters:ISO/TR 11941:1996[S].1996.

[9] Language resources management—Word segmentation of written text: Part 1:Basic concepts and general principles:ISO 24614-1:2010[S].2010.

[10] Language resources management—Word segmentation of written text:Part 2:Word segmentation for Chinese,Japanese and Korean:ISO 24614-2:2011[S].2011.

Four Distinguished Features of International Standard ISO 7098:2015

FENG ZhiWei1,2
(1.Institute of Applied Linguistics, Ministry of Education, Beijing 100010, China; 2.Hangzhou Normal University, Hangzhou 311121, China)

A new International Standard ISO 7098:2015 was published at 15-December-2015 in Geneva. This paper analyzes four distinguished features of this new international standard.

ISO 7098:2015; International Standard

G250.7

10.3772/j.issn.1673-2286.2016.12.007

馮志偉，1939年生，研究員，教授，博士生導師，研究方向：計算語言學、自然語言處理，E-mail：zwfengde2010@hotmail.com。

2016-10-12）