• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      表音漢字的國際意義

      2013-04-29 00:44:03陳耀西陳紅根
      現(xiàn)代語文 2013年2期
      關(guān)鍵詞:信息產(chǎn)業(yè)人工智能

      陳耀西 陳紅根

      摘 要:本文以表音漢字的規(guī)律性、適應(yīng)性和適用性,論證了表音漢字對我國信息社會的重大影響和使用價(jià)值:發(fā)展中文的計(jì)算機(jī)軟件、推進(jìn)中國的信息產(chǎn)業(yè)、提升中國工業(yè)的自動(dòng)化水平、促進(jìn)我國的人工智能運(yùn)用。進(jìn)而指出表音漢字與漢語國際傳播戰(zhàn)略的密切關(guān)系:以漢字的優(yōu)勢與其它文字比拼,才能取得國際傳播的優(yōu)勢地位。

      關(guān)鍵詞:表音漢字 三維結(jié)構(gòu) 計(jì)算機(jī)語言 信息產(chǎn)業(yè) 人工智能 傳播戰(zhàn)略

      《走自主信息化之路》一文,已經(jīng)收進(jìn)IEEE文庫。該文章的發(fā)表,使表音漢字走向世界邁開了第一步。當(dāng)今信息社會,語言競爭非常激烈,在談?wù)摑h語國際傳播時(shí),首先就有一個(gè)漢語國際傳播戰(zhàn)略問題。

      一、展現(xiàn)表音漢字,事關(guān)漢語國際傳播戰(zhàn)略

      什么是漢語國際傳播戰(zhàn)略?大家知道,優(yōu)勝劣汰是一切事物發(fā)展、變化的總趨勢,也是漢語國際傳播戰(zhàn)略必然遵循的基本規(guī)律。漢字拼音化,就是展現(xiàn)漢字的優(yōu)勢。以漢字的優(yōu)勢與其它文字比拼,才能取得國際傳播的優(yōu)勢地位。

      當(dāng)今世界,文字大致可分為印歐系語言的拼音文字系統(tǒng)和漢字系統(tǒng)。拼音文字系統(tǒng)是多音節(jié)文字系統(tǒng),漢字是單音節(jié)文字系統(tǒng)。漢字由象形、表意到拼音,可以說:漢字是唯一代表世界文字發(fā)展史全過程的文字,這是一件很了不起的大事。西方的拼音文字已經(jīng)將象形、表意拋棄了,只剩下一個(gè)拼音階段。

      (一)西方拼音文字幾乎是“純習(xí)俗”符號,而漢字是有理據(jù)的

      《符號學(xué)》指出:“語言,是最龐大的幾乎‘純習(xí)俗符號”[1]。這是西方人對自己拼音文字作的結(jié)論。所謂“純習(xí)俗”符號,即全靠約定俗成,無理可講,相沿成習(xí)。說明西方拼音文字是無理據(jù)的。與漢字相比,簡直是天淵之別。

      圍繞漢字拼音,中華民族艱苦奮斗了幾個(gè)世紀(jì),蓋因沒有找到漢字的編碼規(guī)則。但是,要說漢字有編碼規(guī)則,那將是有違文字發(fā)展規(guī)律的事,既沒有人相信,也沒有人去做。可是,漢字在形成形聲字時(shí),已經(jīng)是在以字造字,是有意識的,與當(dāng)時(shí)的社會哲學(xué)思想密切相關(guān)。漢字沿著形聲字的道路發(fā)展,必然形成“音、形、義”三維結(jié)構(gòu),這是我國歷代學(xué)者不斷研究與總結(jié)的結(jié)果。因此,漢字發(fā)展成為有規(guī)律的文字是必然的。

      首先,漢語已經(jīng)實(shí)現(xiàn)了拉丁字母拼音,總計(jì)416個(gè)單音節(jié)。因此,漢字必然是單音節(jié)字,它與西方拼音文字的多音節(jié)字相區(qū)分,這是漢字的第一個(gè)特點(diǎn)。“漢語拼音”只能給“漢字注音”,形成很多同音字。因此,它還不是文字,不能用來支撐計(jì)算機(jī)語言。

      其次,漢字以形聲字為主。形聲字已經(jīng)占漢字總數(shù)的90%。由于形聲字的構(gòu)字已經(jīng)模式化,即:形聲字=部首+基本字。形聲字的部首不發(fā)音,是符號,所以部首是字“綴”。可惜,這一特征長期被國人所忽視。文字是龐大的體系,漢字416個(gè)單音節(jié)字,不通過加“綴”,是不可能形成龐大的文字體系的。語言學(xué)家索緒爾說:“語言是一連串的區(qū)分行為,在模糊不確定的概念層與同樣模糊不確定的語言層上區(qū)分出相應(yīng)的單位。”[1]語言,正如任何符號系統(tǒng),其特征是區(qū)分一物與組成一物兩者沒有什么不同。通過加“綴”來區(qū)分同音字,這是漢字的第二個(gè)特點(diǎn)。

      第三,漢字的同音基本字發(fā)展經(jīng)歷了兩千多年,趨于穩(wěn)定。在字和字之間,已經(jīng)形成“音、形、義”的“三維結(jié)構(gòu)”體系(參閱陳耀西,陳紅根《走自主信息化之路》一文)。這個(gè)體系是規(guī)律化的。如果這個(gè)體系不是規(guī)律化的,即使加“綴”,也不可能實(shí)現(xiàn)拼音化。這是漢字的第三個(gè)特點(diǎn)。

      到2004年,因?yàn)檎业搅藢?shí)現(xiàn)漢字拼音的方法,即找到了漢字的“音、形、義”三維結(jié)構(gòu)規(guī)律,故可在國家推行的《漢語拼音》的基礎(chǔ)上,用加綴法,以一個(gè)漢字復(fù)制一個(gè)拼音字。它不是生拼硬湊,之所以能順利地實(shí)現(xiàn)漢字拼音化,是由于有“音、形、義”三維結(jié)構(gòu)理論的支撐。不然,龐大的漢字體系,是無法著手進(jìn)行拼音化工作的。所以,表音漢字不是無源之水、無本之木,而是在漢民族的語言文字風(fēng)俗習(xí)慣下成長的拼音文字。形聲字就是加綴字,這是漢民族的文字特色。所以漢字拼音化是水到渠成、順理成章之事。

      當(dāng)西方人對西方拼音文字作的結(jié)論是‘純習(xí)俗的符號時(shí),而東方文化的代表——漢字,卻被發(fā)現(xiàn)是有規(guī)律的“音、形、義”三維結(jié)構(gòu)。按照漢字的這個(gè)編碼規(guī)則,用西方任何一個(gè)國家的拼音字母表,都可以拼出漢字的拼音文字。無論是法國、英國、德國、還是俄國的拼音字母表,除個(gè)別發(fā)音與漢語發(fā)音習(xí)慣不同外(例如:俄語的卷舌音,漢語就沒有。我國采用的是拉丁文字母表。)。如果將此問題引申一下,這個(gè)問題將說明:漢字在世界文字中是唯一具有普遍意義的文字。只有尋找到漢字的編碼規(guī)則后,人們才知道漢字的可貴。

      (二)正視英語熱

      2011年5月18日,《教育部、國家語委發(fā)布2010年中國語言生活狀況報(bào)告》指出:“青少年漢語能力和漢字書寫能力正在下降和退化。在一個(gè)文化高速傳播的時(shí)代,我們的母語卻正在被淡忘,這是一個(gè)悲哀。”這個(gè)報(bào)告說明教育部、國家語委敢于正視問題。

      在信息社會,計(jì)算機(jī)無孔不入。計(jì)算機(jī)硬件的核心是芯片,計(jì)算機(jī)軟件的核心是計(jì)算機(jī)語言。現(xiàn)今我國沒有中文的計(jì)算機(jī)語言,全都是英文的計(jì)算機(jī)語言,例如:BASIC語言、FORTRAN語言、C語言等,中文進(jìn)入不了中央處理器。特別是數(shù)量巨大的庫文件,英語在編程領(lǐng)域的廣泛應(yīng)用,使得英文壟斷了軟件領(lǐng)域。在這個(gè)范疇里,漢字事實(shí)上已經(jīng)被邊緣化。信息社會,我們的母語不能支撐計(jì)算機(jī)語言,不能編軟件,已經(jīng)被邊緣化,青少年當(dāng)然淡忘母語,轉(zhuǎn)向英語?,F(xiàn)在,哪一個(gè)行業(yè)不用計(jì)算機(jī)?哪一所學(xué)校不學(xué)英語?甚至連中國幼兒園的小朋友也在學(xué)英語。對于這種現(xiàn)象必須引起我們的高度重視。

      (三)正確認(rèn)識漢字的作用

      《符號學(xué)》認(rèn)為:“人類文化是一種語言文明,大部分規(guī)模較大的符號體系,是建筑在語言這初始體系之上的二度體系。”[1]語言是“初始體系”,是“基準(zhǔn)模型”,是區(qū)別計(jì)算機(jī)語言等人工語言的自然語言?!罢Z言不但是人類社會最大的符號體系,而且大得不成比例,其他符號體系與之相比實(shí)在太小,而且全都可以被語言混雜、解釋、置換?!盵1]只有自然語言是最完善、最科學(xué)的符號體系。社會發(fā)展到今天被稱為信息社會,人們一下子將注意力集中在語言學(xué)上,因?yàn)橛?jì)算機(jī)語言就是自然語言的二度體系,它們的關(guān)系如下:

      自然語言——→計(jì)算機(jī)語言——→機(jī)器語言(ASCII碼)

      語言和信息的關(guān)系成為當(dāng)今社會最基本的、最核心的關(guān)系,這個(gè)關(guān)系處理得好與不好,不但涉及到社會發(fā)展的快慢、國家的強(qiáng)弱;而且關(guān)系到民族的生死存亡。因?yàn)橹挥凶匀徽Z言才是計(jì)算機(jī)語言的支撐、解釋體系。如果一個(gè)國家的計(jì)算機(jī)語言不是由本國的自然語言支撐,那么它必定要靠編譯成計(jì)算機(jī)語言的那種自然語言支撐。社會由工業(yè)社會向信息社會轉(zhuǎn)型,要求漢字適應(yīng)信息社會的需要,現(xiàn)在漢字實(shí)現(xiàn)了拼音化,就應(yīng)該急起直追,用表音漢字編譯中文的計(jì)算機(jī)語言。使計(jì)算機(jī)語言適應(yīng)漢民族的語言風(fēng)俗習(xí)慣,發(fā)展中文的計(jì)算機(jī)軟件,推進(jìn)中國的信息產(chǎn)業(yè),提升中國工業(yè)的自動(dòng)化水平。

      但是,我國目前使用計(jì)算機(jī)卻是“借用”英語為橋梁,漢字內(nèi)碼用的是阿拉伯?dāng)?shù)字編碼。我國目前還沒有一臺真正意義上的國產(chǎn)計(jì)算機(jī)。計(jì)算機(jī)“識別”漢字問題并沒有真正解決,當(dāng)然更談不上計(jì)算機(jī)“理解”漢字問題。這就是不解決漢字拼音化的嚴(yán)重問題。

      大家知道,在利用ASCII碼時(shí),西方的拼音文字都用一個(gè)字節(jié)來保存,一個(gè)字節(jié)由8個(gè)二進(jìn)制的位組成(注:二進(jìn)制是我國發(fā)明的),用來表示無符號的整數(shù)的話,范圍正好是=0~255。而嚴(yán)重的問題出現(xiàn)在東方文字,中國、朝鮮和日本的文字包含大量的漢字符號。例如,中國的文字不是拼音文字,漢字作為符號有數(shù)萬之多,遠(yuǎn)遠(yuǎn)超過256個(gè)字符,因此,ISO的8859標(biāo)準(zhǔn)實(shí)際上不能處理中文的字符。中國的專家通過借鑒ISO8859的編碼思想,認(rèn)為:既然一個(gè)字節(jié)的256種字符不能表示中文,就使用兩個(gè)字節(jié)來表示一個(gè)漢字。漢字的編碼問題好像是解決了,其實(shí)不然。臺灣也使用中文,由于歷史的原因,那里沒有使用大陸的簡體字,還在使用繁體字,而且臺灣也制定了一套表示繁體中文的字符編碼,稱為BIG5。不幸的是,雖然臺灣也使用兩個(gè)字節(jié)來表示一個(gè)漢字,但沒有像我們兼容ASCII一樣兼容簡體字,他們使用了大致相同的編碼范圍來表示繁體的漢字。所以ISO8859的悲劇又出現(xiàn)在同樣使用漢字的中國人身上了。同樣的編碼在大陸和臺灣的編碼中實(shí)際上表示不同的字符,大陸的玩家在玩臺灣的游戲軟件時(shí),經(jīng)常會遇到亂碼的問題,根源就在于:大陸的計(jì)算機(jī)默認(rèn)字符的編碼就是GB2312,當(dāng)碰到臺灣使用BIG5編碼的文字時(shí),就會做出錯(cuò)誤的轉(zhuǎn)換。由于歷史和文化的原因,日文和韓文中也包含許多的漢字,像漢字一樣擁有大量的字符,可是,日韓語言的字符編碼同樣與中文編碼有沖突,日文電腦游戲在大陸上一樣也會出現(xiàn)無法理解的亂碼。在20世紀(jì)80年代后期,互聯(lián)網(wǎng)出現(xiàn)了,一夜之間,地球村上的人們可以直接訪問遠(yuǎn)在天邊的服務(wù)器,電子文件在全世界傳播,在一切都在數(shù)字化的今天,計(jì)算機(jī)內(nèi)存中用阿拉伯?dāng)?shù)字編碼的漢字到底代表什么字?這就成為一個(gè)真正的大問題。

      當(dāng)漢字表音化之后,由于漢字可用拉丁字母表示,漢字即可利用二進(jìn)制編碼,以一個(gè)字節(jié)來表示一個(gè)表音字字母。于是,以漢字為載體的東方文字就可以以一個(gè)編碼表出現(xiàn)在互聯(lián)網(wǎng)上。表音漢字與簡體、繁體漢字兼容,中國大陸和臺灣的漢字編碼是同一的、一致的。日文和韓文中的許多漢字也與繁體漢字兼容,少數(shù)古漢字盡管現(xiàn)今少用,也可包容在同一編碼表中。

      當(dāng)今世界,只存在東方的漢字和西方的拼音文字兩大體系?,F(xiàn)在,漢字與拼音文字兼容了,世界文字進(jìn)入了并軌期,互聯(lián)網(wǎng)將不需要因文字的復(fù)雜性而產(chǎn)生層層編碼,互聯(lián)網(wǎng)將變得簡單易行。

      二、漢字的適應(yīng)性是漢語國際傳播的銳利武器

      秦始皇統(tǒng)一全國后,“書同文”,秦小篆為通行的規(guī)范字體;到了漢代,隸書成了正宗;魏晉以后正楷風(fēng)行;解放后,漢語拼音。漢字的發(fā)展與時(shí)俱進(jìn)。當(dāng)紙成為我國的“四大發(fā)明”之一時(shí),文字從刻在竹簡上變?yōu)閷懺诩埳稀h字要寫在紙上,就必須適應(yīng)“寫”的要求,漢字由篆體字變成隸字,橫平豎直,書寫方便,漢字體型發(fā)生了劇烈變化,順理成章。同一個(gè)道理,信息社會,漢字要“寫”進(jìn)計(jì)算機(jī),計(jì)算機(jī)代替了紙,計(jì)算機(jī)讀寫漢字要用拼音字,漢字現(xiàn)在也實(shí)現(xiàn)了拼音字的目標(biāo),就好像篆字轉(zhuǎn)換成隸字一樣,現(xiàn)在要將漢字轉(zhuǎn)換成拼音字,以適應(yīng)信息社會的需要。這本來是順乎天理,合乎人情的事。但是,有的人總擔(dān)心“失掉”漢字,不同意推行拼音字,這與一些錯(cuò)誤的輿論有關(guān)。例如:拼音會使?jié)h字“沙漠化”、拼音字要“取代”漢字等等。其實(shí)這種錯(cuò)誤的輿論是由于不理解漢字的生命力所造成的。仔細(xì)想一想:實(shí)現(xiàn)拼音字時(shí),是靠漢字的規(guī)律去實(shí)現(xiàn)的,漢字原封未動(dòng)。在歷史的長河中,如果因發(fā)展需要漢字轉(zhuǎn)換成其他的什么文字時(shí),漢字這種規(guī)律性文字,還可轉(zhuǎn)換成另一種文字。我們?yōu)槭裁匆獊G掉漢字呢?更何況拼音字與漢字一一對應(yīng),拼音字本身就是漢字的一個(gè)類別,猶如篆字、隸字一樣,多一種文體多一條路,這有什么不好呢?篆字、隸字不是照樣存在嗎?漢字的任何改革,都應(yīng)遵循漢字的“音、形、義”三維結(jié)構(gòu)規(guī)律。遵循了漢字的“音、形、義”三維結(jié)構(gòu)規(guī)律,漢字的形態(tài)可能會變,但實(shí)質(zhì)不會改變。例如“誰”的拼音字“yshuizr”由三部分組成:部首“y”代表“言”,讀音“shui”,后綴“zr”。而后綴“zr”恰恰是“隹”的部首。所以,表意字是表音字的后盾,表意字為什么要丟掉呢?

      三、漢字文字要素的完整性,使表音漢字具有確立的文字地位

      由于表音字與表意字是無縫對接,是落實(shí)“漢語拼音”。解放后,黨和政府大批語言文字專家一起,花了那么大的人力、物力、財(cái)力,不就是要實(shí)現(xiàn)拼音漢字嗎?但是,當(dāng)時(shí)未找到漢字的“音、形、義”三維結(jié)構(gòu)規(guī)律,只實(shí)現(xiàn)了“漢語拼音”。即便這樣,也為漢字的發(fā)展做出了不可磨滅的貢獻(xiàn)。現(xiàn)在,實(shí)現(xiàn)了拼音漢字,只是當(dāng)時(shí)工作的繼承,不是什么另類之舉,不值得大驚小怪。表音字既與表意字不矛盾,又與“漢語拼音”不沖突,表音字去做表意字做不到的事情,有何不可呢?

      (一)區(qū)分同音字,成為漢字發(fā)展道路上的一個(gè)糾結(jié)

      漢字的詞由字組成,豐富的詞語極大地提高了漢語的表達(dá)力。但是,在1999年2月出版的《語言文字詞典》的“一語兩文”條目的第八段的末尾卻說:“人們擔(dān)心拼音文字不能區(qū)分同音詞。其實(shí)同音詞屬于語言的詞匯問題,通過對詞匯的整理,完全能夠加以區(qū)分?!盵2]這里所說的拼音文字是指416個(gè)注音字,注音字無法區(qū)分同音字。這個(gè)問題在中國語文現(xiàn)代化學(xué)會2002年第5次學(xué)術(shù)年會發(fā)表的《漢語現(xiàn)代化——中國語文現(xiàn)代化學(xué)會第5次學(xué)術(shù)會議綜述》中已經(jīng)明確指出:“用拼音給漢字注音,用拼音漢語用于漢字不方便使用的領(lǐng)域,已經(jīng)在逐漸走拼音化道路。”[4]實(shí)際上否定了“詞匯整理”論。

      大家都知道:漢字的同音詞取決于同音字。不能區(qū)分同音字,也就不能區(qū)分同音詞。正因?yàn)橥糇謫栴}才使?jié)h字不能支撐計(jì)算機(jī)語言,才使得我國不得不“借用”英文的計(jì)算機(jī)語言。表音漢字則實(shí)現(xiàn)了區(qū)分同音字問題。因?yàn)樗邆湮淖值娜?,用?shù)學(xué)的語言說,是“音、形、義”三變量俱全。而注音字只有一個(gè)“音”變量。“詞匯”再怎么“整理”,也“整”不成文字。所以,非要將注音字說成是我國的拼音文字,是無知的、愚蠢的霸道形為。

      例如:“意義”用注音字表示為:(yi yi),“一心一意”表示為:(yi xin yi yi)。顯然,它不能“通過對詞匯的整理”而加以區(qū)分;其次,是想通過標(biāo)聲調(diào)來區(qū)分同音字。小學(xué)的拼音教學(xué)實(shí)踐早已證明:此路也不通。因某些基本字的同音字太多。如讀音“yi”的字竟達(dá)30個(gè)之多,加聲調(diào)也不能解決區(qū)分問題;且因加聲調(diào)后,每一個(gè)字有4個(gè)聲調(diào),在計(jì)算機(jī)使用時(shí),一個(gè)聲調(diào)是一個(gè)字符,實(shí)際上是增加了字符數(shù)而又不能解決根本問題;更因聲調(diào)在不同地區(qū)的人群中差異太大,不易掌握。然而,表音字就不是這樣。上述例子“意義”表示為:(yib yim);“一心一意”表示為:(yir xin yir yib),顯然可以區(qū)分同音詞;其次,表音字的后綴有詞性,詞的結(jié)構(gòu)受到語法制約;第三,表音字的一維書寫方式,使字和字之間可以連寫,其結(jié)果將彌補(bǔ)歧義和語法的不足。例如:“意義”表示為:(yib yim),可寫成“yibyim”。

      (二)表音漢字具有完整的文字要素系統(tǒng)

      “音、義、形”集成的表音漢字,是由表意漢字復(fù)制而成,是有規(guī)律的文字,“它把漢字所能表達(dá)的一切予以保留”。所以,表音漢字的文字地位是確立的,是勿庸置疑的。它具備文字的易學(xué)性、全面性、系統(tǒng)性、可使用性、通用性等。其全面性、系統(tǒng)性、通用性都概括在“音、形、義”三維結(jié)構(gòu)的規(guī)律中。

      文字與語言不同,漢語是依靠語境來區(qū)分同音字的。因此,單音節(jié)的拼音文字與多音節(jié)的拼音文字同樣具有使用價(jià)值。只是單音節(jié)的拼音文字由于理論性較強(qiáng),其“三維結(jié)構(gòu)”規(guī)律難以發(fā)現(xiàn),但不等于說單音節(jié)的拼音文字不可能“后來居上”。顯然,表音漢字是規(guī)律化文字,在實(shí)用性上,它已占有先機(jī)。更能吸引人的是:漢字的多樣性(象形字、表意字、表音字)使其各具特色,豐富多彩。大家知道,多彩的文化生活是燦爛的:象形字的印章;表意字的詩配畫;單音節(jié)字的易讀性。不難預(yù)料:單音節(jié)的拼音文字在世界文字史上,必將譜寫輝煌的篇章。

      1.表音漢字適應(yīng)ASCII的要求

      漢字在沒有拼音化時(shí),漢字編碼在計(jì)算機(jī)的ASII碼中使用的是阿拉伯?dāng)?shù)字編碼。當(dāng)有了拼音漢字后,就可利用26個(gè)拉丁字母進(jìn)行編碼,實(shí)現(xiàn)我國計(jì)算機(jī)的內(nèi)存轉(zhuǎn)軌,拋棄兩個(gè)字節(jié)表示一個(gè)漢字的編碼方案。

      當(dāng)漢字拼音化之后,由于漢字與拼音文字兼容,以漢字為載體的東方文字就可以用一個(gè)編碼表出現(xiàn)在互聯(lián)網(wǎng)上,由于拼音漢字與簡體、繁體漢字兼容,所以,中國大陸和臺灣的漢字編碼是同一的、一致的。日文和韓文中的許多漢字也與繁體漢字兼容,少數(shù)古漢字也可包容在同一編碼表中。這樣做,有很多好處:

      首先:簡體字“釁”與繁體字“釁”的拼音漢字都是“xinp”,在編碼表中是相同的。這樣,當(dāng)我們要使用簡體字時(shí),就選擇簡體字;要使用繁體字時(shí),就選擇繁體字。又如簡體字“樣”與繁體字“樣”的拼音漢字都是“myangh”,使用時(shí)很方便。

      其次,內(nèi)存編碼表可以隨時(shí)擴(kuò)充。因?yàn)槠匆魸h字在ASCII編碼表中用26個(gè)拉丁字母的編碼,不需“借用”阿拉伯?dāng)?shù)字?!敖栌谩卑⒗?dāng)?shù)字使?jié)h字內(nèi)碼擴(kuò)展很困難。低字節(jié)與高字節(jié)由16個(gè)二進(jìn)制位組成。26個(gè)拉丁字母的每一個(gè)字符,只需一個(gè)字節(jié)表示。國標(biāo)GB2312只有6763個(gè)漢字,擴(kuò)展到GBK時(shí)為20902個(gè)漢字,再擴(kuò)展怎么辦?GBK是沒有包括繁體漢字的。然而,用拼音漢字就沒有這個(gè)問題,漢字庫可隨時(shí)擴(kuò)展,用戶個(gè)人可以擴(kuò)展,國家也可定期擴(kuò)展,不受限制,適應(yīng)漢字“量大字雜”的特點(diǎn)。

      第三,表音漢字用于內(nèi)存編碼安全,不同于用阿拉伯?dāng)?shù)字編碼。此外,聽說俄羅斯軍隊(duì)用俄文編程,不用英文編程,目的在于信息安全。

      第四,在互聯(lián)網(wǎng)上,便于與東方文化的國家交流。漢字是東方文字的源頭,漢字拼音化了,對東方文字就有影響,也有利于其他東方國家文字的發(fā)展。在互聯(lián)網(wǎng)上,文件中將是拼音漢字在世界各地傳播,不再是“借用”的阿拉伯?dāng)?shù)字。

      第五,在軟件編程、漢字輸入、文字處理等方面,都用拼音漢字。通過表音漢字,與漢字點(diǎn)陣字型庫掛接,即可實(shí)現(xiàn)漢字輸入。漢字輸入不再有“瓶頸”問題。更重要的是:表音字與表意字的復(fù)制關(guān)系,可實(shí)現(xiàn)漢字的機(jī)器輸入,這有利于大信息量輸入。

      2.拼音漢字適應(yīng)編程要求

      在軟件領(lǐng)域,我國使用英文計(jì)算機(jī)語言,“借用”英文編程。有了拼音漢字,可用拼音字設(shè)計(jì)計(jì)算機(jī)語言,例如,BASIC語言常用的語句可用拼音字代替:

      漢字 英文 表音漢字

      讀 INPUT YDUV

      寫 PRINT XIEV

      完 END WANV

      則 THEN ZE

      到 TO DAOV

      令 LET LINGV

      如果設(shè)計(jì)中文編譯器,就可以實(shí)現(xiàn)中文的計(jì)算機(jī)語言。這樣,我們就不受英文的制約。在歐美國家,高中生都會編程,計(jì)算機(jī)成為普及工具,這就有利于發(fā)揮國民的創(chuàng)造力。試想,在信息社會,一個(gè)國家如果只能依靠少數(shù)精英掌握英文,使用計(jì)算機(jī)編程,這個(gè)國家能有多大的創(chuàng)新能力?能有多少驚人成果出現(xiàn)?計(jì)算機(jī)是信息社會的生產(chǎn)工具,沒有編程能力哪來的創(chuàng)新能力?這是我國進(jìn)入信息社會的根本大事。這個(gè)問題不解決,怎能實(shí)現(xiàn)信息社會?如果有人認(rèn)為中國不通過計(jì)算機(jī)語言的實(shí)踐就可跨入信息社會,就類似于清朝的“洋務(wù)運(yùn)動(dòng)”,認(rèn)為可以通過“買機(jī)器”實(shí)現(xiàn)工業(yè)化。事實(shí)證明:工業(yè)社會“買”不來,信息社會同樣也“買”不來。

      所以,表音漢字的“綴”,不是為加綴而加綴;表音漢字的“拼音”,不是為拼音而拼音。它們是一個(gè)系統(tǒng)工程。大家分析一下:從發(fā)現(xiàn)漢字的“音、形、義”三維結(jié)構(gòu)規(guī)律,到實(shí)現(xiàn)表音漢字;利用表音漢字做計(jì)算機(jī)的內(nèi)存;利用表音漢字輸入/輸出;利用表音漢字設(shè)計(jì)中文的計(jì)算機(jī)語言;利用中文的計(jì)算機(jī)語言編寫軟件/庫文件。以上這些工作,僅屬于計(jì)算機(jī)識別漢字范疇的工作,它顯然已經(jīng)是一個(gè)巨大的系統(tǒng)工程。千萬不要認(rèn)為表音漢字是可以這樣,也可以那樣隨意而做的一件事。沒有“音、形、義”三維結(jié)構(gòu)規(guī)律,是不可能實(shí)現(xiàn)表音漢字的。

      每當(dāng)談到中文編程問題時(shí),就有人懷著“誰動(dòng)了我的奶酪”的感情說:“沒有必要!”當(dāng)提出要分析漢字的詞性時(shí)又有人說:“谷歌早晚會懂得分析詞性的?!边@種觀點(diǎn)當(dāng)然不能讓人同意。因?yàn)椤肮雀琛笔且患彝馄蠊荆阎袊藨?yīng)做的事,寄托在外國人“早晚會懂”上,那我國還有什么希望發(fā)展自主的信息產(chǎn)業(yè)?想當(dāng)初,漢字沒有拼音化時(shí),中國人用英文的計(jì)算機(jī)語言編程,那是情有可原;現(xiàn)在漢字也拼音化了,中國人還要用英文的計(jì)算機(jī)語言編程,這不就讓人不可思議了嗎?!

      四、從兩大語系的特點(diǎn)對比,明確表音漢字標(biāo)明詞性的必要性

      在漢字拼音化的進(jìn)程中,漢字一直存在兩個(gè)糾結(jié),一個(gè)是如何區(qū)分同音字問題;另一個(gè)是彰顯漢字的語法問題。

      (一)漢字的第二個(gè)糾結(jié)是漢語語法問題

      人工智能時(shí)代對語言文字將提出更嚴(yán)格的要求,中國人與機(jī)器人的交流一定是漢語,不可能通過翻譯與機(jī)器人交談。外文翻譯成中文有直譯和意譯兩種,無論哪種翻譯,由于語言風(fēng)俗習(xí)慣不同,對中國人來說都將造成很大的麻煩。當(dāng)漢語用于“人工智能”分析時(shí),人們再想“借用”英文這個(gè)橋梁,那就“此路不通”了!加工對象在哪里呢?再反對漢字拼音化時(shí),恐怕是追悔莫及,悔之晚矣!

      例如:漢語中,大量的虛詞運(yùn)用,是一種重要的語法手段,漢語的虛詞比英語豐富得多,有相當(dāng)數(shù)量的助詞。如:“的”“得”“地”“著”“了”“過”“們”等。因此,語法結(jié)構(gòu)有較大的區(qū)別,這是眾所周知的。因此,今日之選擇,要為將來之應(yīng)用負(fù)責(zé)。漢語必須有適合人工智能的文字。

      《人工智能原理》指出:“朱德熙先生在《語法答問》一書中曾精辟地指出,和印歐語相比,漢語的主要特點(diǎn)”[5]有以下三點(diǎn):

      第一,漢語的詞類缺乏形式標(biāo)記;

      第二,漢語詞類跟句法成分之間不存在簡單的一一對應(yīng)關(guān)系。試看在英語中:

      主賓語 謂語 定語 狀語

      | | | |

      名詞 動(dòng)詞 形容詞 副詞

      而在漢語中,這種關(guān)系變成了多對多關(guān)系,如下圖所示:

      第三,漢語句子的構(gòu)造原則跟短語(即詞組)的構(gòu)造原則基本一致。例如拿動(dòng)詞來說,在英語短語中,不允許有限定動(dòng)詞出現(xiàn),如果要出現(xiàn)動(dòng)詞的話,只能是動(dòng)詞的不定式或分詞形式;只有句子及其包含的子句才能有一個(gè)限定動(dòng)詞充當(dāng)主要?jiǎng)釉~。可是漢語的情形完全不同,動(dòng)詞和動(dòng)詞結(jié)構(gòu)不論在句子的哪個(gè)位置上出現(xiàn),形式完全一樣。

      《人工智能原理》還指出:“漢語的這些特點(diǎn)對于用計(jì)算機(jī)來進(jìn)行句法分析是極其不利的?!被谶@些理由,并且考慮到漢字在產(chǎn)生之初,一般只有一個(gè)意義,稱為本義;隨著使用范圍的擴(kuò)大,往往會在本義的基礎(chǔ)上產(chǎn)生若干個(gè)新的意義,稱為引申義。基于漢字為單音節(jié)字的特點(diǎn),在實(shí)現(xiàn)基本字表音化時(shí),必須利用前、后綴來標(biāo)明表音漢字的詞性。這既利于根據(jù)本義追索其字源,又利于分析句法成分。

      正如呂叔湘先生在《現(xiàn)代漢語規(guī)范詞典》的“序一”中所言:“詞義的發(fā)展脈絡(luò),詞性的標(biāo)注等問題,卻不簡單。他們也自知當(dāng)前不能全部做好,我認(rèn)為他們還有自知之明,但做總比不做好。萬事開頭難,只要開了頭,隨著科學(xué)的發(fā)展和研究的深入,總有一天會完備起來。”盡管這段話是在2010年8月買到該詞典后才看到的,但由于該詞典對詞性的標(biāo)注是目前所見到的最全面、內(nèi)容最豐富的詞典。所以,我們又將此前的詞性標(biāo)注,依該詞典進(jìn)行了新的審查修訂。我們深深地感到:詞性的標(biāo)注是一個(gè)需要不斷進(jìn)行研究的學(xué)術(shù)問題。呂叔湘先生及《現(xiàn)代漢語規(guī)范詞典》的編著者為什么如此重視詞性的標(biāo)注?因?yàn)樗菨h語研究必須要做的基礎(chǔ)工作,也是人工智能的重大前提條件之一。正因如此,我們做了下面幾項(xiàng)工作:

      1.基本字大都為前三文,表音化時(shí),沒有前綴,只有后綴,后綴標(biāo)明本義詞性。

      2.常用基本字是名詞,不加后綴。因?yàn)樵诒硪魸h字中常用名詞是使用最多的。為了使用簡便,所以是隱含的名詞詞性。

      3.形聲字的前綴為部首,是表示形聲字的含義的,當(dāng)然與詞性有關(guān)。表音漢字的前綴是具備詞性功能的,再加上基本字的后綴帶來的詞性,所以形聲字的詞性要具體問題具體分析。例如,部首“扌”的形聲字,幾乎都是動(dòng)詞,部首“邑”的形聲字,幾乎都是名詞。

      例如:“(jianz)戔(小,少)、(shjianz)淺、(zhjianz)箋、(bkjianz)賎、(dqjianz)殘、(jjianz)銭”。其中,基本字“(jianz)戔”,后綴為“z”說明為形容詞。其形聲字(shjianz)淺、(bkjianz)賎、(dqjianz)殘是形容詞;(zhjianz)箋、(jjianz)銭則是名詞,與竹器、金屬有關(guān)。因此,表音漢字能承擔(dān)詞性的任務(wù)。將漢字的隱含詞性變成顯性詞性,這將是漢字的重大變化。在GB18030漢字庫中,基本字有1641個(gè);另外,還有502個(gè)獨(dú)體字,其實(shí)也是基本字,故總計(jì)為2143個(gè)字。因此,將基本字標(biāo)注詞性,是一件非常艱巨而又十分有意義的工作,它是漢字實(shí)現(xiàn)表音化而追求的目標(biāo)之一。注音字是沒有詞性功能的,不能把注音字當(dāng)成拼音文字。正如前文所說:計(jì)算機(jī)“識別”漢字問題并沒有真正解決,是因?yàn)闈h字的拼音化沒有真正解決?,F(xiàn)在我國計(jì)算機(jī)使用的輸入法,如五筆字型是拆字法,“kl”能代表“中國”嗎?就連微軟公司的輸入法,也是顯示一排同音字,最后靠人的智力來分辨后選取所需的漢字。只有表音漢字輸入法,才能實(shí)現(xiàn)表音漢字與表意漢字一對一的關(guān)系。輸入表音漢字“yib”,只顯示一個(gè)表意漢字“意”,不可能顯示另外的任何漢字,這才稱得上是計(jì)算機(jī)“識別”了漢字。至此,也就可利用表音漢字編譯中文的計(jì)算機(jī)語言,實(shí)現(xiàn)中文的編程。

      (二)表音漢字使?jié)h字字形的變化成為可能

      朱德熙先生在《語法問答》中指出:“傳統(tǒng)語法受印歐語影響,所以一般把漢語與印歐語比較,其中最最顯著的特點(diǎn)是漢語字形沒有變化,即漢語缺乏形態(tài)變化?!痹跐h字表音化之后,漢字的形態(tài)變化將成為可能。因?yàn)榛咀志哂性~性,且由于漢字的一字多詞性的特點(diǎn),以及漢字沒有形態(tài)變化的傳統(tǒng)。要使?jié)h字既具備詞性變化,又保持漢字形態(tài)不變的傳統(tǒng),在基本字標(biāo)注本義詞性的基礎(chǔ)上,再標(biāo)注引申義的詞性。計(jì)算機(jī)使用時(shí),文章中只須本義詞性時(shí)基本字的原形不變;當(dāng)需要用引申義的詞性時(shí),再加注引申義的詞性。此時(shí),以引申義的詞性為該字的詞性。對此,用符號加注詞性成為一種較好的解決辦法:

      名詞用符號“?”表示,動(dòng)詞用符號“~”表示,形容詞用符號“?”表示,副詞用符號“`”表示。可以將這些符號加在字的后面。

      此外,在加后綴時(shí),對23個(gè)聲母字沒有全部用完,保留有“n”,以便在語法分析需要時(shí),作為改變字形時(shí)使用。例如,在分析句子時(shí),由于句子中會出現(xiàn)數(shù)個(gè)動(dòng)詞,標(biāo)明主要?jiǎng)釉~是很必要的,在動(dòng)詞后再加“n”,表示主動(dòng)詞,有利于語法分析。

      例如:“我們的共產(chǎn)黨和共產(chǎn)黨所領(lǐng)導(dǎo)的八路軍、新四軍,是革命的隊(duì)伍。”這句話用表音漢字表示時(shí)為:

      “Wo rmenp de gong chanv dang he gong chanv dang suom ywlingv cwdaop de bar lup jun、xinh sir jun,shid get mingb de dui rwur.”在這句話中,動(dòng)詞有三處: chanv(產(chǎn))、ywlingv(領(lǐng))、shid(是)。顯然,shid(是)為主要?jiǎng)釉~,標(biāo)明shid(是)為“shidn”,對計(jì)算機(jī)識別是有利的。語法是智能運(yùn)用的依托,不解決漢語語法的顯性表示問題,就不利于漢語的人工智能運(yùn)用。

      五、展望

      人類又一次迎來了新一輪的技術(shù)革命。這次由大規(guī)模數(shù)據(jù)、智能化生產(chǎn)以及無線網(wǎng)絡(luò)所引領(lǐng)的技術(shù)革命,將推動(dòng)經(jīng)濟(jì)增長,帶來社會巨變。

      信息技術(shù)已經(jīng)進(jìn)入一個(gè)大規(guī)模數(shù)據(jù)時(shí)代。處理能力和數(shù)據(jù)存儲實(shí)際上是免費(fèi)的。掌上數(shù)碼設(shè)備如iPhone手機(jī)的運(yùn)算能力能讓上世紀(jì)70年代的IBM主機(jī)自愧不如?;ヂ?lián)網(wǎng)正演變?yōu)椤霸啤本W(wǎng)絡(luò)——所謂“云”是指一個(gè)由數(shù)以千計(jì)的數(shù)據(jù)中心都可以讓1990年的任何一臺超級計(jì)算機(jī)看上去像是洪荒年代的產(chǎn)物。驚人的數(shù)據(jù)處理能力使以往無法想象的服務(wù)和業(yè)務(wù)成為可能。這其中就包括文字的處理能力,由此可見,表音漢字有利于大規(guī)模信息處理。

      基于計(jì)算機(jī)設(shè)計(jì)的,自然界不可能有的物質(zhì)特性的新材料,如隱形材料被設(shè)計(jì)出來,這些新材料與三維打印相結(jié)合,會對經(jīng)濟(jì)發(fā)展產(chǎn)生爆炸性影響。所謂三維打印實(shí)際上是利用計(jì)算機(jī)、激光、新材料,“打印”飛機(jī)等精密零部件。這種近乎完美的計(jì)算化設(shè)計(jì)和直接制造的時(shí)代,令人們制造產(chǎn)品的方式產(chǎn)生巨大的改變。所以,支撐計(jì)算機(jī)軟件的計(jì)算機(jī)語言,并不是一個(gè)轉(zhuǎn)瞬即逝的社會現(xiàn)象,而是一個(gè)長期支撐社會實(shí)踐過程的客觀事物,千萬不要輕視計(jì)算機(jī)語言的社會價(jià)值,我國應(yīng)該有中文的計(jì)算機(jī)語言。

      對自然語言的理解,一直是語言信息處理技術(shù)的一個(gè)高層次的重要研究方向,一直是人工智能所關(guān)注的核心課題之一。顯然,如果計(jì)算機(jī)能夠理解自然語言,人-機(jī)間的信息交流能夠以人們所熟悉的本族語言來進(jìn)行,那將是計(jì)算機(jī)技術(shù)的一項(xiàng)重大突破。另一方面,由于創(chuàng)造和使用自然語言是人類高度智能的表現(xiàn),因此對自然語言理解的研究也有助于揭開人類智能的奧秘,深化我們對語言能力和思維本質(zhì)的認(rèn)識。所以說,這個(gè)研究方向在語言應(yīng)用方面和語言理論方面都有重大意義。

      參考文獻(xiàn):

      [1]趙毅衡.符號學(xué)文學(xué)論文集[C].天津:百花文藝出版社,2004.

      [2]何立.語言文字詞典[M].北京:學(xué)苑出版社,1999.

      [3]石純一等.人工智能原理[M].北京:清華大學(xué)出版社,1993.

      [4]李行健.現(xiàn)代漢語規(guī)范詞典[Z].北京:外語教學(xué)與研究出版社,

      2010.

      [5]陳耀西,陳紅根.《走自主信息化之路》,IEEE文庫,2011.

      (陳耀西 河南鄭州 解放軍信息工程大學(xué)測繪學(xué)院 450052;陳紅根 河南鄭州 河南職業(yè)技術(shù)學(xué)院 450046)

      猜你喜歡
      信息產(chǎn)業(yè)人工智能
      7524億元
      我校新增“人工智能”本科專業(yè)
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      四川省信息產(chǎn)業(yè)發(fā)展研究
      商情(2012年48期)2017-11-08 20:55:12
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      聚焦電子信息材料發(fā)展前沿?fù)屨茧娮有畔a(chǎn)業(yè)發(fā)展先機(jī)共建電子信息產(chǎn)業(yè)強(qiáng)國
      下一幕,人工智能!
      下一幕,人工智能!
      電子信息產(chǎn)業(yè)集群發(fā)展對技術(shù)創(chuàng)新的影響
      漳州市| 聊城市| 江都市| 石嘴山市| 林州市| 伊金霍洛旗| 平利县| 客服| 哈密市| 克东县| 隆子县| 丽水市| 安新县| 英山县| 青冈县| 叙永县| 泊头市| 和平县| 武山县| 长岭县| 正安县| 五原县| 鹤壁市| 卢氏县| 隆德县| 大同县| 吴江市| 老河口市| 鲁甸县| 安化县| 佛冈县| 玉屏| 墨玉县| 玛多县| 札达县| 金川县| 洪雅县| 荃湾区| 平罗县| 佛冈县| 高雄县|