• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      我國(guó)計(jì)算語(yǔ)言學(xué)研究70年

      2019-11-26 18:01:55馮志偉
      英語(yǔ)知識(shí) 2019年4期
      關(guān)鍵詞:語(yǔ)言學(xué)語(yǔ)料庫(kù)漢語(yǔ)

      馮志偉

      (杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院,浙江杭州)

      在中華人民共和國(guó)成立70周年之際,《語(yǔ)言教育》編輯部約我對(duì)我國(guó)在計(jì)算語(yǔ)言學(xué)方面70年來(lái)取得的成就進(jìn)行初步的總結(jié)。我今年已經(jīng)80歲了,親身經(jīng)歷了我國(guó)計(jì)算語(yǔ)言學(xué)走過(guò)的全部過(guò)程,覺(jué)得這是一件很有意義的工作,因此就欣然答應(yīng)了。在本文中,我將根據(jù)我的親身經(jīng)歷以及我自己和同行專家70年來(lái)所發(fā)表的論著,來(lái)總結(jié)我國(guó)計(jì)算機(jī)語(yǔ)言學(xué)70年來(lái)的成就。

      由于要總結(jié)70年來(lái)的研究,在本文中不可避免地需要引用或引證大量的論著,為了尊重作者的版權(quán),凡是直接引用或引證的論著,我都注明了出處,并在文末的參考文獻(xiàn)中列出。有興趣的讀者可以根據(jù)這些線索,進(jìn)一步閱讀原文,了解這些成果的來(lái)龍去脈。

      采用計(jì)算機(jī)技術(shù)來(lái)分析、研究和處理人類的自然語(yǔ)言(natural language)是20世紀(jì)50年代才開(kāi)始的。50多年來(lái),這項(xiàng)工作取得了舉世矚目的進(jìn)展,形成了計(jì)算語(yǔ)言學(xué)(Computational Linguistics,簡(jiǎn)稱CL)這門重要的新興學(xué)科(馮志偉,1992)。

      計(jì)算機(jī)對(duì)自然語(yǔ)言的研究和處理,一般應(yīng)經(jīng)過(guò)如下四個(gè)方面的過(guò)程:

      第一,形式化(formalism):把需要研究的問(wèn)題從語(yǔ)言學(xué)的角度進(jìn)行形式描述,建立語(yǔ)言的形式化模型,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來(lái)。在基于規(guī)則的系統(tǒng)中,這樣的描述通常要對(duì)于語(yǔ)言中的各種特征(features)用手工進(jìn)行精細(xì)的分析和整理,是一項(xiàng)龐大的語(yǔ)言特征工程(feature engineering)。

      第二,算法化(algorithm):把經(jīng)過(guò)語(yǔ)言特征工程處理的嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為計(jì)算機(jī)的算法。

      第三,程序化(programming):根據(jù)算法編寫計(jì)算機(jī)程序,調(diào)試程序并在計(jì)算機(jī)上加以實(shí)現(xiàn)。

      第四,實(shí)用化(implement):建立各種實(shí)用的自然語(yǔ)言處理系統(tǒng),對(duì)于所建立的自然語(yǔ)言處理系統(tǒng)進(jìn)行評(píng)測(cè),使之不斷地改進(jìn)質(zhì)量和性能,以滿足用戶使用的要求。

      在目前興起的基于深度學(xué)習(xí)(deep learning,簡(jiǎn)稱DL)的深度神經(jīng)網(wǎng)絡(luò)(deep neural network,簡(jiǎn)稱DNN)中,語(yǔ)言特征的獲取不再通過(guò)手工來(lái)進(jìn)行,深度神經(jīng)網(wǎng)絡(luò)可以從大規(guī)模的、真實(shí)的語(yǔ)料庫(kù)中自動(dòng)地學(xué)習(xí)到這樣的語(yǔ)言特征,在深度學(xué)習(xí)的過(guò)程中,語(yǔ)言學(xué)知識(shí)與深度神經(jīng)網(wǎng)絡(luò)之間彼此促進(jìn),相得益彰。

      由此觀之,為了研究計(jì)算語(yǔ)言學(xué),研究者不僅要掌握語(yǔ)言學(xué)的知識(shí),而且,還要掌握數(shù)學(xué)的知識(shí)和計(jì)算機(jī)科學(xué)的知識(shí),這樣一來(lái),計(jì)算語(yǔ)言學(xué)就成為了一門橫跨語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)等不同領(lǐng)域的邊緣性的交叉學(xué)科,它同時(shí)涉及到文科、理科和工科三大領(lǐng)域(馮志偉,1990)。

      計(jì)算語(yǔ)言學(xué)的出現(xiàn),使得語(yǔ)言學(xué)在現(xiàn)代科學(xué)體系中的地位產(chǎn)生了明顯的變化,成為了人文科學(xué)發(fā)展的突破點(diǎn)和生長(zhǎng)點(diǎn),古老的語(yǔ)言學(xué)由一門傳統(tǒng)的基礎(chǔ)科學(xué)變成了一門領(lǐng)先的帶頭科學(xué),獲得了與數(shù)學(xué)、哲學(xué)同等的地位,它的重要意義已

      計(jì)算語(yǔ)言學(xué)的研究首先是從機(jī)器翻譯(Machine Translation,簡(jiǎn)稱MT)開(kāi)始的。1946 年電子計(jì)算機(jī)剛一問(wèn)世,一些具有遠(yuǎn)見(jiàn)卓識(shí)的學(xué)者們就考慮到了利用計(jì)算機(jī)把一種或幾種語(yǔ)言自動(dòng)地翻譯成另外一種語(yǔ)言或另外幾種語(yǔ)言的可能性。從 20世紀(jì)50年代初期到60年代中期,機(jī)器翻譯一直是自然語(yǔ)言計(jì)算機(jī)處理研究的中心課題,不過(guò)當(dāng)時(shí)主要是采用基于機(jī)器詞典的“詞對(duì)詞”(words to words)翻譯方式,譯文質(zhì)量低劣,難以達(dá)到預(yù)期的翻譯效果(馮志偉,1997)。

      20世紀(jì)60年代中期,人們開(kāi)始從計(jì)算機(jī)處理自然語(yǔ)言的角度對(duì)語(yǔ)言的形態(tài)、句法、語(yǔ)義、語(yǔ)用和語(yǔ)境等基本問(wèn)題進(jìn)行形式化的研究,并嘗試著讓計(jì)算機(jī)來(lái)理解自然語(yǔ)言。Turing(圖靈)認(rèn)為,斷定計(jì)算機(jī)是否理解了自然語(yǔ)言的最直觀的方法,就是讓有智慧的人同計(jì)算機(jī)對(duì)話,如果計(jì)算機(jī)對(duì)有智慧的人用自然語(yǔ)言提出的各種問(wèn)題能夠做出正確的回答,就證明計(jì)算機(jī)已經(jīng)理解了自然語(yǔ)言(馮志偉,1997a),這樣,就出現(xiàn)了“智能問(wèn)答”(Question Answering,簡(jiǎn)稱QA)的研究。計(jì)算語(yǔ)言學(xué)的理論和方法也就在MT和QA的研究中逐漸形成、完善并成熟起來(lái)。

      目前,除了MT和QA之外,計(jì)算語(yǔ)言學(xué)的研究領(lǐng)域還進(jìn)一步擴(kuò)展到了信息自動(dòng)檢索、信息自動(dòng)抽取、文本自動(dòng)分類、自動(dòng)文摘、語(yǔ)料庫(kù)語(yǔ)言學(xué)、機(jī)器詞典、漢字信息處理、語(yǔ)音自動(dòng)識(shí)別與合成等領(lǐng)域,已經(jīng)成為人工智能(Artificial Intelligence,簡(jiǎn)稱AI)研究的一個(gè)熱點(diǎn),成為了人工智能皇冠上的明珠(馮志偉,1989)。

      計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)的研究是密不可分的?!白匀徽Z(yǔ)言處理”可以看成是“計(jì)算語(yǔ)言學(xué)”的同義術(shù)語(yǔ),當(dāng)主要涉及理論和原理的時(shí)候,用“計(jì)算語(yǔ)言學(xué)”這個(gè)術(shù)語(yǔ),當(dāng)主要涉及方法和應(yīng)用的時(shí)候,用“自然語(yǔ)言處理”這個(gè)術(shù)語(yǔ)(馮志偉,2009a)。

      1952年,在美國(guó)的麻省理工學(xué)院(MIT)召開(kāi)了第一次機(jī)器翻譯會(huì)議,在1954年,出版了第一本機(jī)器翻譯的雜志,這本雜志的名稱就叫做Machine Translation(《機(jī)器翻譯》)。盡管人們?cè)谧匀徽Z(yǔ)言的計(jì)算機(jī)形式分析方面進(jìn)行了大量的研究,但是,直到20世紀(jì)60年代中期,才出現(xiàn)了Computational Linguistics(計(jì)算語(yǔ)言學(xué))這個(gè)術(shù)語(yǔ),而且,在剛開(kāi)始的時(shí)候,這個(gè)術(shù)語(yǔ)是小心翼翼地出現(xiàn)的(馮志偉,2011)。

      1965年Machine Translation雜志改名為Machine Translation and Computational Linguistics(《機(jī)器翻譯和計(jì)算語(yǔ)言學(xué)》)。在雜志的封面上,首次出現(xiàn)了“Computational Linguistics”這樣的字眼,但是,“and Computational Linguistics”這三個(gè)單詞是用特別小號(hào)的字母排印的(馮志偉,2011)。

      這說(shuō)明,當(dāng)時(shí)這個(gè)刊物的編者對(duì)于“Computational Linguistics”是否能夠算為一門真正的、獨(dú)立的學(xué)科還沒(méi)有充分的把握,有點(diǎn)兒畏首畏尾、小心翼翼的懼怕心理。因此,計(jì)算語(yǔ)言學(xué)剛剛登上學(xué)術(shù)這個(gè)莊嚴(yán)的殿堂的時(shí)候,刊物的編者還沒(méi)有足夠的膽量和勇氣用與Machine Translation同樣大小的字母來(lái)排印它。

      當(dāng)時(shí)Machine Translation雜志之所以改名,是因?yàn)樵?962年美國(guó)成立了“機(jī)器翻譯和計(jì)算語(yǔ)言學(xué)學(xué)會(huì)”(Association for Machine Translation and Computational Linguistics,簡(jiǎn)稱AMTCL),通過(guò)改名可以使雜志的名稱與學(xué)會(huì)的名稱一致起來(lái)(馮志偉,2011)。后來(lái),由于計(jì)算語(yǔ)言學(xué)的進(jìn)一步發(fā)展,這個(gè)學(xué)會(huì)在1968年干脆把“Machine Translation”這兩個(gè)詞也刪除了,改名為“計(jì)算語(yǔ)言學(xué)學(xué)會(huì)”(Association for Computational Linguistics,簡(jiǎn)稱ACL),一直沿用至今。ACL在1982年成立了歐洲分會(huì),簡(jiǎn)稱EACL,在2000年成立了北美分會(huì),簡(jiǎn)稱NAACL,在2018年成立了亞太分會(huì),簡(jiǎn)稱AACL。ACL還設(shè)立了21個(gè)特殊興趣小組(Special Interest Groups,簡(jiǎn)稱SIGs),幾乎涵蓋了計(jì)算語(yǔ)言學(xué)研究的所有領(lǐng)域。從1962年算起,ACL已經(jīng)成立57周年了,中國(guó)在ACL中的作用越來(lái)越重要,ACL現(xiàn)任主席是中國(guó)學(xué)者周明,他是微軟亞洲研究院副院長(zhǎng)。

      根據(jù)上述史料,我們認(rèn)為,遠(yuǎn)在1962年,“Computational Linguistics”這個(gè)學(xué)科就已經(jīng)出現(xiàn)了,盡管它在剛出現(xiàn)的時(shí)候還有些畏首畏尾的尷尬。但是,無(wú)論如何,計(jì)算語(yǔ)言學(xué)這個(gè)新興的學(xué)科終于萌芽了,她毅然地破土而出,悄悄地登上了學(xué)術(shù)的殿堂,并且迅速地發(fā)展和壯大起來(lái)(馮志偉,2011)。

      由于早期的機(jī)器翻譯的譯文質(zhì)量低劣,難以滿足用戶的要求,1964年,美國(guó)科學(xué)院成立了語(yǔ)言自動(dòng)處理咨詢委員會(huì)(Automatic Language Processing Advisory Committee,簡(jiǎn)稱ALPAC委員會(huì)),調(diào)查機(jī)器翻譯在美國(guó)研究和應(yīng)用的情況,并于1966年11月發(fā)布了一個(gè)題為《語(yǔ)言與機(jī)器》(language and machines)的報(bào)告,簡(jiǎn)稱ALPAC報(bào)告,這個(gè)報(bào)告對(duì)機(jī)器翻譯采取了否定的態(tài)度。報(bào)告宣稱:“在目前給機(jī)器翻譯以大力支持還沒(méi)有多少理由”;這個(gè)報(bào)告還指出,機(jī)器翻譯研究遇到了難以克服的“語(yǔ)義障礙”(semantic barrier)。在ALPAC報(bào)告的影響下,機(jī)器翻譯研究跌入低潮,由于機(jī)器翻譯的撥款銳減,一些已經(jīng)建立起來(lái)的機(jī)器翻譯研究單位的經(jīng)費(fèi)極為困難,入不敷出,難以繼續(xù)維持,只好停業(yè)。在世界范圍內(nèi),機(jī)器翻譯的熱潮逐漸消失了,出現(xiàn)了空前蕭條的局面(馮志偉,1997)。

      美國(guó)語(yǔ)言學(xué)家David Hays(海斯)是ALPAC委員會(huì)的成員之一,也是ALPAC報(bào)告的主要起草人。在ALPAC報(bào)告中,他建議,在放棄機(jī)器翻譯這個(gè)短期的工程項(xiàng)目的時(shí)候,仍然有必要加強(qiáng)語(yǔ)言和自然語(yǔ)言計(jì)算機(jī)處理的基礎(chǔ)理論研究,應(yīng)當(dāng)把原來(lái)用于機(jī)器翻譯研制的經(jīng)費(fèi)使用到自然語(yǔ)言處理的基礎(chǔ)理論研究方面,David Hays把這樣的基礎(chǔ)理論研究正式命名為Computational Linguistics,并且在1967年出版了一本叫做《計(jì)算語(yǔ)言學(xué)導(dǎo)論》(Introduction of Computational Linguistics)的專著。所以,我們可以說(shuō),“Computational Linguistics”這個(gè)學(xué)科名稱最早出現(xiàn)于1962年,而在1966年才在美國(guó)科學(xué)院公布的ALPAC報(bào)告中正式得到學(xué)術(shù)界的認(rèn)可,并在1967年出版了第一本Computational Linguistics的專著(馮志偉,1994)。

      在AMTCL還沒(méi)有改名為ACL之前,1965年在美國(guó)紐約成立了單獨(dú)以Computational Linguistics冠名的國(guó)際計(jì)算語(yǔ)言學(xué)委員會(huì)(International Committee of Computational Linguistics,簡(jiǎn)稱 ICCL),每?jī)赡暾匍_(kāi)一次國(guó)際會(huì)議,叫做COLING。COLING第一任主席是Bernard Vauquois(沃古瓦),他是法國(guó)著名數(shù)學(xué)家和法國(guó)格勒諾布爾大學(xué)應(yīng)用數(shù)學(xué)研究所自動(dòng)翻譯中心CETA主任,也是筆者在法國(guó)留學(xué)時(shí)的導(dǎo)師。與此同時(shí),美國(guó)出版了學(xué)術(shù)季刊《美國(guó)計(jì)算語(yǔ)言學(xué)雜志》(American Journal of Computational Linguistics),后改名為《國(guó)際計(jì)算語(yǔ)言學(xué)雜志》(International Journal of Computational Linguistics)。Bernard Vauquois在1985年去世后,COLING的主席由Martin Kay(馬丁·凱伊)擔(dān)任,他是美國(guó)斯坦福大學(xué)教授(Vauquois & Boitet, 1985)。

      與國(guó)際計(jì)算語(yǔ)言學(xué)發(fā)展的情況相似,我國(guó)計(jì)算語(yǔ)言學(xué)的研究也是首先從機(jī)器翻譯的研究開(kāi)始的(馮志偉,2007a)。

      1949年中華人民共和國(guó)成立之后,就開(kāi)始關(guān)注語(yǔ)言文字工作,進(jìn)行了文字改革,接著就開(kāi)始了機(jī)器翻譯的研究。我國(guó)是繼美國(guó)、蘇聯(lián)、英國(guó)三個(gè)國(guó)家之后,世界上第四個(gè)開(kāi)展機(jī)器翻譯研究工作的國(guó)家。當(dāng)今在機(jī)器翻譯方面居于先進(jìn)水平的日本,是在1958年才開(kāi)始進(jìn)行機(jī)器翻譯的,起步比我國(guó)晚了兩年之久(馮志偉,2001)。

      早在1956年,也就是在國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)(ACL)成立之前6年,我國(guó)便把機(jī)器翻譯研究列入了國(guó)家科學(xué)工作的發(fā)展規(guī)劃,成為其中的一個(gè)課題,課題的名稱是:“機(jī)器翻譯、自然語(yǔ)言翻譯規(guī)則的建立和自然語(yǔ)言的數(shù)學(xué)理論”(馮志偉,1996a)。

      1957年,中國(guó)科學(xué)院語(yǔ)言研究所劉涌泉、高祖舜、劉倬與計(jì)算技術(shù)研究所合作,開(kāi)始俄漢機(jī)器翻譯的研究。1959年,他們?cè)谖覈?guó)制造的104大型通用電子計(jì)算機(jī)上,進(jìn)行了初步的俄漢機(jī)器翻譯試驗(yàn),成功地把9個(gè)不同類型的、較為復(fù)雜的俄語(yǔ)句子用計(jì)算機(jī)自動(dòng)地翻譯成中文(馮志偉,1996a),作為向國(guó)慶10周年的獻(xiàn)禮。不過(guò)這個(gè)系統(tǒng)翻譯出來(lái)的中文不是漢字,而是中文的代碼,一般人是讀不懂的。這是我國(guó)研制的第一個(gè)機(jī)器翻譯系統(tǒng)(劉涌泉等,1964)。

      在這個(gè)時(shí)期,北京外國(guó)語(yǔ)學(xué)院、北京俄語(yǔ)學(xué)院、廣州華南工學(xué)院、哈爾濱工業(yè)大學(xué)也分別成立了機(jī)器翻譯研究組,開(kāi)展了俄漢或英漢機(jī)器翻譯的試驗(yàn)。我國(guó)的機(jī)器翻譯呈現(xiàn)出欣欣向榮的局面(馮志偉,2007a)。

      然而這種局面很快就被“文化大革命”破壞了。從1966年至1975年這個(gè)時(shí)期,除了極少數(shù)的對(duì)于機(jī)器翻譯有強(qiáng)烈興趣的人在極端惡劣的條件下仍然堅(jiān)持著繼續(xù)進(jìn)行理論探索之外,沒(méi)有人進(jìn)行任何的機(jī)器翻譯研究和試驗(yàn)。幾乎沒(méi)有學(xué)者關(guān)注到國(guó)際上出現(xiàn)了“Computational Linguistics”這個(gè)新興學(xué)科。

      1974年在重慶一家計(jì)算機(jī)雜志《計(jì)算機(jī)應(yīng)用與應(yīng)用數(shù)學(xué)》上發(fā)表了筆者綜述數(shù)理語(yǔ)言學(xué)(mathematical linguistics) 新理論的長(zhǎng)篇論文,成為了這個(gè)時(shí)期唯一的關(guān)于計(jì)算語(yǔ)言學(xué)的論文,這篇文章的發(fā)表,有如在人跡空曠的山谷中聽(tīng)到了遠(yuǎn)處輕微的腳步聲,鼓起了處于困境中的自然語(yǔ)言處理研究者的學(xué)術(shù)勇氣(馮志偉,1975,2007c)。

      這篇論文還在國(guó)內(nèi)首次提到了1966年在A LPA C報(bào)告中出現(xiàn)的“C o mp u ta tio n a l Linguistics”這個(gè)術(shù)語(yǔ),初步介紹了國(guó)外計(jì)算語(yǔ)言學(xué)研究的新理論??上У氖?,這篇論文發(fā)表在“文化大革命”時(shí)期,學(xué)術(shù)研究已經(jīng)停滯,幾乎無(wú)人問(wèn)津。“文化大革命”時(shí)期,學(xué)術(shù)研究已經(jīng)停滯,幾乎無(wú)人問(wèn)津。

      1975年,馮志偉還通過(guò)手工計(jì)算的方法,初步估算出漢字的熵(entropy)為9.65比特,漢字的熵也就是漢字的信息量,根據(jù)Shannon(香農(nóng))信息編碼第二定律,編碼時(shí)碼字的長(zhǎng)度不能小于碼字的熵,漢字的熵為9.65比特,大于1個(gè)字節(jié)(8比特),因此,漢字編碼的碼字長(zhǎng)度必須大于1個(gè)字節(jié),起碼應(yīng)當(dāng)采用雙字節(jié)編碼,而不能像西文字符那樣采用單字節(jié)編碼,這就為爾后的計(jì)算機(jī)漢字編碼必須使用雙字節(jié)提供了理論依據(jù)(馮志偉,1984),可惜在“文化大革命”的動(dòng)亂中,他的研究結(jié)果未能及時(shí)發(fā)表(馮志偉,2011)。

      “文革”結(jié)束之后,我國(guó)機(jī)器翻譯研究重振旗鼓,開(kāi)始復(fù)蘇。

      1975年11月,在中國(guó)科學(xué)技術(shù)情報(bào)研究所(ISTIC)設(shè)立了一個(gè)由情報(bào)所、語(yǔ)言所、計(jì)算所以及有關(guān)部委情報(bào)部門的工作人員組成的機(jī)器翻譯協(xié)作研究組,他們以冶金題錄5000條為試驗(yàn)材料,制定英漢機(jī)器翻譯方案并上機(jī)試驗(yàn)。1978年5月,在中國(guó)科學(xué)院計(jì)算所111機(jī)上進(jìn)行抽樣試驗(yàn),抽樣20條,達(dá)到了預(yù)期的效果(馮志偉,1997)。接著又在情報(bào)所的TK-70 計(jì)算機(jī)上進(jìn)一步擴(kuò)大試驗(yàn),用BOL語(yǔ)言編制程序,譯文的可讀性有所提高。當(dāng)時(shí)國(guó)家標(biāo)準(zhǔn)GB2312-80信息處理用漢字編碼字符集尚未公布,漢字輸出無(wú)標(biāo)準(zhǔn)可依,研究人員克服重重困難,在日本制造的T4100漢字處理機(jī)上,首次用漢字輸出了中文譯文。在當(dāng)時(shí)的技術(shù)條件下,這是非常不容易的事情。

      1981年,馮志偉在法國(guó)格勒諾布爾理科醫(yī)科大學(xué)留學(xué)期間,提出了多叉多標(biāo)記樹模型(Multiple-branched and Multiple-labeled Tree Model,簡(jiǎn)稱MMT模型)(馮志偉,2014),全面地描述了自然語(yǔ)言處理中的形態(tài)、句法、語(yǔ)義、邏輯等特征以及這些特征的計(jì)算求解方法,建立了一個(gè)大規(guī)模的、行之有效的語(yǔ)言特征工程模型(feature engineering model),并根據(jù)這個(gè)模型研制了漢-法/英/日/俄/德多語(yǔ)言機(jī)器翻譯系統(tǒng)FAJRA,這是世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成多種外國(guó)語(yǔ)的機(jī)器翻譯系統(tǒng),研究成果用法語(yǔ)在1982年的國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)COLING’82上發(fā)表,這是我國(guó)學(xué)者在國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)上發(fā)表的第一篇論文(Feng Zhiwei, 1982)。

      1982年馮志偉從法國(guó)學(xué)成回國(guó)之后,用中文寫了“漢-法/英/日/俄/德多語(yǔ)言自動(dòng)翻譯試驗(yàn)”的論文在《語(yǔ)言研究》上發(fā)表。全文長(zhǎng)達(dá)56頁(yè)之多,這也許是我國(guó)語(yǔ)言學(xué)刊物上發(fā)表的最長(zhǎng)的論文,由于內(nèi)容好,編輯部破例發(fā)表了這篇論文,這反映了我國(guó)語(yǔ)言學(xué)界對(duì)于計(jì)算語(yǔ)言學(xué)這個(gè)新學(xué)科研究的容忍、理解和支持(馮志偉,1982)。

      1983年,馮志偉用中文寫的“漢語(yǔ)句子的多叉多標(biāo)記樹形圖分析法”,在《人工智能學(xué)報(bào)》發(fā)表,介紹了他提出的MMT模型,這是在我國(guó)人工智能刊物上發(fā)表的第一篇關(guān)于機(jī)器翻譯的論文(馮志偉,1983)。MMT模型中采用的“多標(biāo)記”(multiple-label),實(shí)際上就是當(dāng)時(shí)國(guó)外學(xué)者提出的“復(fù)雜特征”(complex feature),MMT模型是世界上最早提出的復(fù)雜特征模型之一。

      此后,我國(guó)研制了若干個(gè)機(jī)器翻譯系統(tǒng)。主要有:

      ■ 譯星1號(hào)英漢機(jī)器翻譯系統(tǒng):1987年,中國(guó)人民解放軍軍事科學(xué)院研制成功實(shí)用型全文與題錄兼容的英漢機(jī)器翻譯系統(tǒng)“科譯1號(hào)”。這個(gè)系統(tǒng)的語(yǔ)言理論基礎(chǔ)是董振東提出的“邏輯語(yǔ)義結(jié)構(gòu)”(logic-semantic structures)。他認(rèn)為,邏輯語(yǔ)義是機(jī)器詞典中詞典信息賦值的出發(fā)點(diǎn),是機(jī)器翻譯源語(yǔ)言(source language)分析的目標(biāo),是英漢語(yǔ)言轉(zhuǎn)換的主要平面,因此,應(yīng)當(dāng)對(duì)邏輯語(yǔ)義給予特別的關(guān)注。源語(yǔ)言分析采用成分功能關(guān)系語(yǔ)法,分析與生成相對(duì)獨(dú)立?!翱谱g1號(hào)”系統(tǒng)的基本原理是:由源語(yǔ)言的線性結(jié)構(gòu)出發(fā),經(jīng)過(guò)多層次的反復(fù)掃描和規(guī)則匹配,形成以動(dòng)詞為根結(jié)點(diǎn),以邏輯語(yǔ)義項(xiàng)為主結(jié)點(diǎn)的多結(jié)點(diǎn)、多標(biāo)記的樹形圖,最后,從根結(jié)點(diǎn)逐層展開(kāi),形成目標(biāo)語(yǔ)言(target language)的線性結(jié)構(gòu),得到相應(yīng)的譯文。該系統(tǒng)于1988年由軍事科學(xué)院轉(zhuǎn)讓到中國(guó)計(jì)算機(jī)軟件與技術(shù)服務(wù)總公司(簡(jiǎn)稱“中軟公司”),改名為“譯星1號(hào)”?!白g星1號(hào)”在語(yǔ)言詞典和規(guī)則方面作了大幅度的改善,在軟件硬件的開(kāi)發(fā)環(huán)境方面作了精雕細(xì)刻的優(yōu)化,推向市場(chǎng)實(shí)現(xiàn)了商品化。這是我國(guó)第一個(gè)商品化的機(jī)器翻譯系統(tǒng),被列為我國(guó)1988年計(jì)算機(jī)界十件大事之一,1991年獲國(guó)家“七五”攻關(guān)重大成果獎(jiǎng)。后來(lái),董振東又研制了“知網(wǎng)”(How-Net),建立了一個(gè)大型的語(yǔ)言知識(shí)庫(kù),成為了極其寶貴的自然語(yǔ)言的語(yǔ)義處理資源(Dong Zhendong & Dong Qiang, 2006)。

      ■ 高立英漢機(jī)器翻譯系統(tǒng):這是北京市高立電腦公司與中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所聯(lián)合開(kāi)發(fā)的機(jī)器翻譯系統(tǒng),馮志偉也參與了該系統(tǒng)的部分開(kāi)發(fā)工作。這個(gè)機(jī)器翻譯系統(tǒng)以語(yǔ)言學(xué)公理和原則作為語(yǔ)言分析的理論基礎(chǔ),以智能化的機(jī)器詞典代替?zhèn)鹘y(tǒng)的信息參數(shù)詞典,使句法規(guī)則的共性與單詞的個(gè)性相結(jié)合,使單詞的意義與單詞的參數(shù)和句法的規(guī)則相結(jié)合,整個(gè)機(jī)器翻譯系統(tǒng)實(shí)質(zhì)上是一個(gè)“詞專家系統(tǒng)”(word expert system)。這個(gè)機(jī)器翻譯系統(tǒng)還建立了基于常識(shí)的背景知識(shí)庫(kù),把語(yǔ)義分析與句法分析有效地結(jié)合起來(lái),在抽象的形式分析中,充分地利用語(yǔ)義信息。由于機(jī)器詞典與系統(tǒng)的運(yùn)行程序彼此獨(dú)立,用戶可以通過(guò)詞典維護(hù)程序來(lái)修改機(jī)器詞典的內(nèi)容,這樣,用戶就有可能在自己的使用過(guò)程中根據(jù)他們自己的需要,不斷地修改和改善機(jī)器詞典,不斷地提高機(jī)器翻譯的譯文質(zhì)量。高立英漢機(jī)器翻譯系統(tǒng)地實(shí)現(xiàn)了商品化。該系統(tǒng)于1992年1月在北京新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)試驗(yàn)區(qū)通過(guò)了鑒定,先后獲得北京市科技進(jìn)步獎(jiǎng)、新加坡INFORMATICS’92國(guó)際博覽會(huì)計(jì)算機(jī)應(yīng)用軟件銀獎(jiǎng)和1992年第二屆中國(guó)科技之光博覽會(huì)電子行業(yè)金獎(jiǎng),并被列入火炬計(jì)劃(馮志偉,1994)。

      ■ 智能型英漢機(jī)器翻譯系統(tǒng)863-IMT/EC:這個(gè)系統(tǒng)是中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的,該系統(tǒng)從1986年開(kāi)始研究,經(jīng)歷了理論探索、模型系統(tǒng)試驗(yàn)和實(shí)用系統(tǒng)開(kāi)發(fā)等階段,最終實(shí)現(xiàn)了商品化。該系統(tǒng)研究的內(nèi)容包括語(yǔ)言學(xué)工程、翻譯處理軟件環(huán)境和知識(shí)處理環(huán)境三個(gè)部分,在語(yǔ)法規(guī)則中引入了上下文相關(guān)條件測(cè)試,實(shí)現(xiàn)了數(shù)據(jù)與操作一體化處理技術(shù),提出了“子類語(yǔ)法”(Sub Category Grammar,簡(jiǎn)稱SC語(yǔ)法)。在863-IMT/EC系統(tǒng)的基礎(chǔ)上,中國(guó)科學(xué)院計(jì)算技術(shù)研究所與香港權(quán)智集團(tuán)合作,投資1800萬(wàn)美元,建立了科智語(yǔ)言信息處理有限公司,后來(lái)又進(jìn)一步發(fā)展成華建公司,專門從事機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)(馮志偉,1996b)。

      ■ 英漢機(jī)器翻譯系統(tǒng)Matrix:這個(gè)系統(tǒng)由國(guó)防科技大學(xué)于1994年研制成功。該系統(tǒng)的詞典可根據(jù)用戶的需要自行修改,并可獨(dú)立于系統(tǒng)單獨(dú)使用,還可以配上不同的專業(yè)詞典,以滿足不同專業(yè)用戶的需要(馮志偉,1996b)。后來(lái)Matrix系統(tǒng)經(jīng)過(guò)深圳桑夏公司進(jìn)一步開(kāi)發(fā),發(fā)展成為L(zhǎng)ight系統(tǒng),接著在深圳環(huán)球網(wǎng)絡(luò)公司的支持下,開(kāi)發(fā)出了用于互聯(lián)網(wǎng)翻譯的英漢自動(dòng)翻譯系統(tǒng),受到了我國(guó)廣大網(wǎng)絡(luò)用戶的歡迎。深圳環(huán)球網(wǎng)絡(luò)公司開(kāi)發(fā)的readworld(“看世界”)英漢自動(dòng)翻譯網(wǎng)站可以把互聯(lián)網(wǎng)上的英文自動(dòng)地翻譯成中文,從而幫助中國(guó)網(wǎng)絡(luò)用戶通過(guò)網(wǎng)絡(luò)觀看世界,克服語(yǔ)言障礙暢游網(wǎng)絡(luò),這在上世紀(jì)90年代是難能可貴的創(chuàng)舉。

      ■ 漢外機(jī)器翻譯系統(tǒng)Sino Trans:這個(gè)系統(tǒng)由中軟公司開(kāi)發(fā),包括漢英機(jī)器翻譯系統(tǒng)和漢日機(jī)器翻譯系統(tǒng)兩個(gè)部分,于1993年9月通過(guò)了電子工業(yè)部主持的部級(jí)鑒定。該系統(tǒng)是國(guó)內(nèi)外第一個(gè)能翻譯漢語(yǔ)技術(shù)報(bào)告、論文、報(bào)刊文章、產(chǎn)品說(shuō)明書等文字資料的機(jī)器翻譯系統(tǒng)。該系統(tǒng)也是一個(gè)多功能的中文信息處理系統(tǒng),可以進(jìn)行漢語(yǔ)自動(dòng)切詞,詞性自動(dòng)標(biāo)注、短語(yǔ)生成、漢語(yǔ)語(yǔ)法樹生成、漢語(yǔ)-外語(yǔ)轉(zhuǎn)換、外語(yǔ)生成等工作。由于其中的每一個(gè)模塊都可以單獨(dú)使用,該系統(tǒng)還可以為自然語(yǔ)言理解研究和基于語(yǔ)詞的語(yǔ)言學(xué)研究提供幫助。該系統(tǒng)提出了漢語(yǔ)完全語(yǔ)法樹(I-Tree)來(lái)統(tǒng)一表達(dá)所有可能出現(xiàn)的漢語(yǔ)陳述句型,并建立了屬性制約原則和屬性制約文法,因而研究者就有可能進(jìn)一步通盤地來(lái)研究漢語(yǔ)的句法,不必再像傳統(tǒng)的漢語(yǔ)語(yǔ)法研究那樣只局限于使用簡(jiǎn)單枚舉的方法來(lái)概括語(yǔ)言規(guī)律。完全語(yǔ)法樹還清楚地表示了句子的自動(dòng)分析和生成過(guò)程,明確在句子內(nèi)可以遞歸的部分和可以遞歸的內(nèi)容,為在理論上深入研究漢語(yǔ)理解的實(shí)際過(guò)程提供了線索(馮志偉,1997a)。

      此外,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)系研制了漢英機(jī)器翻譯系統(tǒng) CEMT,并通過(guò)了航天部組織的鑒定。東北工學(xué)院計(jì)算機(jī)科學(xué)與工程系研制了漢英機(jī)器翻譯系統(tǒng) CETRANS。馮志偉還根據(jù)他提出的MMT模型,獨(dú)立開(kāi)發(fā)了法漢自動(dòng)翻譯系統(tǒng)FCAT(馮志偉,1987)、德漢自動(dòng)翻譯系統(tǒng)GCAT(馮志偉,1990)和日漢自動(dòng)翻譯系統(tǒng)JCAT(馮志偉,1997)。我國(guó)還開(kāi)發(fā)了一些可以在互聯(lián)網(wǎng)上使用的英漢機(jī)器翻譯系統(tǒng),如北京階梯信息工程有限公司的“階梯譯王”、天津大通通譯計(jì)算機(jī)軟件研究所的“通譯Internet V2.0”等(馮志偉,1999a)。

      上述機(jī)器翻譯都是基于語(yǔ)言學(xué)的短語(yǔ)規(guī)則的,叫做基于短語(yǔ)的機(jī)器翻譯(Phrase-Based Machine translation, 簡(jiǎn)稱PBMT)(馮志偉,1999b)。

      20世紀(jì)90年代,我國(guó)開(kāi)展了基于大規(guī)模真實(shí)語(yǔ)料庫(kù)的統(tǒng)計(jì)機(jī)器翻譯(Statistic Machine Translation,簡(jiǎn)稱SMT)的研制。21世紀(jì)初期開(kāi)始,借助于互聯(lián)網(wǎng)的發(fā)展,機(jī)器翻譯進(jìn)一步走向商品化,以IBM、微軟、谷歌為代表的科研機(jī)構(gòu)和企業(yè),都相繼成立了統(tǒng)計(jì)機(jī)器翻譯研制團(tuán)隊(duì),幾年后,界上數(shù)十種常用語(yǔ)言的互聯(lián)網(wǎng)機(jī)器翻譯系統(tǒng),迅速普及了機(jī)器翻譯的應(yīng)用場(chǎng)景,人們可以比較方便地使用機(jī)器翻譯軟件進(jìn)行信息溝通(馮志偉,2018)。

      2012年,微軟公司的Rick Rashid(拉希德)在我國(guó)天津召開(kāi)的“21世紀(jì)計(jì)算”上,現(xiàn)場(chǎng)演示了一個(gè)語(yǔ)音機(jī)器翻譯項(xiàng)目,他用英語(yǔ)講話,計(jì)算機(jī)同時(shí)把他的話翻譯成漢語(yǔ)普通話。這是機(jī)器翻譯從文本翻譯拓展到語(yǔ)音翻譯的標(biāo)志性事件,引起轟動(dòng)。此后微軟等企業(yè)相繼推出了實(shí)時(shí)語(yǔ)音機(jī)器翻譯的產(chǎn)品。

      2014年前后,隨著計(jì)算機(jī)深度學(xué)習(xí)(deep learning)技術(shù)在語(yǔ)音、圖像等領(lǐng)域取得成功,深度學(xué)習(xí)的方法開(kāi)始在機(jī)器翻譯中得到使用,統(tǒng)計(jì)機(jī)器翻譯進(jìn)一步發(fā)展成神經(jīng)機(jī)器翻譯(Neural Machine Translation, 簡(jiǎn)稱NMT),顯著地提升了機(jī)器翻譯的譯文質(zhì)量。

      神經(jīng)機(jī)器翻譯使用神經(jīng)網(wǎng)絡(luò)(neural net)直接把源語(yǔ)言句子轉(zhuǎn)化為目標(biāo)語(yǔ)言句子,具體地說(shuō),就是把源語(yǔ)言的句子表示為詞向量(word vector),形成句子的分布式,然后利用解碼器依次生成目標(biāo)語(yǔ)言的單詞序列,直到生成目標(biāo)語(yǔ)言的整個(gè)句子為止。神經(jīng)機(jī)器翻譯過(guò)程是端到端(end to end)的計(jì)算過(guò)程,由于其內(nèi)部是由基于詞向量的數(shù)值計(jì)算構(gòu)成的,難以從語(yǔ)言學(xué)的角度解釋中間過(guò)程的計(jì)算機(jī)制,翻譯過(guò)程還是一個(gè)黑箱(black box)操作。目前我國(guó)的小牛、百度、搜狗、有道等公司都采用了神經(jīng)機(jī)器翻譯的方法,翻譯效果都遠(yuǎn)遠(yuǎn)超過(guò)了基于短語(yǔ)的機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯,機(jī)器翻譯已經(jīng)從夢(mèng)想變成了現(xiàn)實(shí)(李沐等,2019)。

      自然語(yǔ)言理解(Natural Language Understanding,簡(jiǎn)稱NLU)是計(jì)算語(yǔ)言學(xué)的重要方面,我國(guó)在自然語(yǔ)言理解的研究中也取得了一些成果(周威成,2003)。

      在計(jì)算語(yǔ)言學(xué)的研究領(lǐng)域中,我國(guó)的機(jī)器翻譯是起步很早的,但是,我國(guó)自然語(yǔ)言理解的研究起步卻比國(guó)外晚了17年。國(guó)外在 1963 年就建成了早期的自然語(yǔ)言理解系統(tǒng),而我國(guó)直到 1980年才建成了兩個(gè)漢語(yǔ)自然語(yǔ)言理解模型,都以人機(jī)對(duì)話(man-machine dialogue)的方式來(lái)實(shí)現(xiàn)。

      ■ RJD-80型漢語(yǔ)人機(jī)對(duì)話系統(tǒng):該系統(tǒng)由中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所的研制,(簡(jiǎn)稱“RJD-80系統(tǒng)”),是基于語(yǔ)言學(xué)模型的人機(jī)對(duì)話系統(tǒng),強(qiáng)調(diào)對(duì)語(yǔ)言結(jié)構(gòu)本身的分析。1984年,中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所又進(jìn)行了“TK-84型漢語(yǔ)人機(jī)對(duì)話系統(tǒng)”(簡(jiǎn)稱“TK-84系統(tǒng)”)的研制。該系統(tǒng)以鐵路客運(yùn)咨詢?yōu)橹黝},存貯漢語(yǔ)單詞200條,句型30多個(gè),內(nèi)容包括北京至東北幾條鐵路客運(yùn)快車的到達(dá)站、中途站、開(kāi)車時(shí)間、到達(dá)時(shí)間、車次、車種、車組等,也以人機(jī)對(duì)話方式來(lái)實(shí)現(xiàn)(劉根輝,2005)。這樣的自然語(yǔ)言理解系統(tǒng)初步具備了一定的自動(dòng)推理能力。

      ■ CLUS人機(jī)對(duì)話系統(tǒng):該系統(tǒng)由中國(guó)科學(xué)院心理研究所研制,是基于“心理學(xué)模型的人機(jī)對(duì)話系統(tǒng),強(qiáng)調(diào)模擬理解語(yǔ)言時(shí)的心理活動(dòng),注意語(yǔ)言意義的理解,也具備一定的自動(dòng)推理能力”(劉根輝,2005)。

      后來(lái),自然語(yǔ)言理解的研究領(lǐng)域進(jìn)一步擴(kuò)大。山西大學(xué)計(jì)算機(jī)科學(xué)系建立了哺乳動(dòng)物數(shù)據(jù)庫(kù),并開(kāi)發(fā)了這個(gè)數(shù)據(jù)庫(kù)的自然語(yǔ)言前端(natural language front end),用戶可用英語(yǔ)與哺乳動(dòng)物數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行人機(jī)交互。中國(guó)科學(xué)院心理研究所建立了一個(gè)適用于漢語(yǔ)篇章理解的記憶模型,該模型能夠組織漢語(yǔ)篇章理解過(guò)程中所需的各種知識(shí),并將系統(tǒng)的詞典與知識(shí)庫(kù)有機(jī)地結(jié)合在一起,初步建成了一個(gè)簡(jiǎn)單的漢語(yǔ)篇章理解系統(tǒng)。東北工學(xué)院建立了“中文句子及文本理解系統(tǒng)CTUS”,這是一個(gè)基于概念的漢語(yǔ)理解系統(tǒng);清華大學(xué)建立了一個(gè)面向軍事情報(bào)的漢語(yǔ)篇章理解實(shí)驗(yàn)系統(tǒng) TUSMI,接著又建立了WPS漢語(yǔ)通用人機(jī)接口和學(xué)籍管理系統(tǒng)的漢語(yǔ)專用人機(jī)接口;南京大學(xué)建立了找水專家系統(tǒng)的漢語(yǔ)專用人機(jī)接口CNLIGW和漢語(yǔ)歧義分析模型系統(tǒng)CAAMS;吉林大學(xué)建立了石油專家系統(tǒng) PRES的漢語(yǔ)專用人機(jī)接口 HRJ;北京信息工程學(xué)院開(kāi)發(fā)了信息檢索系統(tǒng)的漢語(yǔ)人機(jī)接口;中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所研制了漢語(yǔ)人機(jī)接口NLI-db3;哈爾濱工業(yè)大學(xué)研制了基于段落理解的漢語(yǔ)問(wèn)答實(shí)驗(yàn)系統(tǒng) CQAES-II(劉根輝,2005)。

      近年來(lái),自然語(yǔ)言理解著重地研究了智能問(wèn)答,逐漸由受限領(lǐng)域問(wèn)答發(fā)展成開(kāi)放領(lǐng)域問(wèn)答,開(kāi)放領(lǐng)域問(wèn)答包括問(wèn)題分析、候選生成、候選打分、答案的合并與排序等過(guò)程。

      除了文本問(wèn)答之外,近來(lái)又出現(xiàn)了知識(shí)圖譜問(wèn)答、表格問(wèn)答、社區(qū)問(wèn)答等。文本問(wèn)答基于文本檢索生成答案,知識(shí)圖譜問(wèn)答基于結(jié)構(gòu)化的知識(shí)庫(kù)進(jìn)行問(wèn)題理解和答案生成,表格問(wèn)答基于表格進(jìn)行問(wèn)題理解和答案生成,社區(qū)問(wèn)答基于已有的問(wèn)題和答案進(jìn)行答案的檢索和生成。如何在智能問(wèn)答中引入圖像、語(yǔ)音、視頻等多模態(tài)信息,是當(dāng)前自然語(yǔ)言理解領(lǐng)域研究的新熱點(diǎn)(段楠 周明,2019)。

      20世紀(jì)80年代以來(lái),由于個(gè)人微型計(jì)算機(jī)的普遍使用,使得聯(lián)機(jī)檢索的用戶從各種中間人轉(zhuǎn)移到最終用戶,即自己有微型機(jī)算機(jī)或者手機(jī)的經(jīng)營(yíng)者、專業(yè)人員和普通家庭,使得聯(lián)機(jī)信息檢索進(jìn)一步提高其友善性和易用性,各種對(duì)用戶友好的聯(lián)機(jī)信息檢索系統(tǒng)相繼出現(xiàn)(馮志偉,1996b),自動(dòng)信息檢索(Information Retrieval, 簡(jiǎn)稱IR)系統(tǒng)開(kāi)始進(jìn)入千家萬(wàn)戶,成為了老百姓日常生活中的尋常事件。由于互聯(lián)網(wǎng)和網(wǎng)絡(luò)搜索引擎的發(fā)展,自動(dòng)信息檢索已經(jīng)成為任何一個(gè)普通網(wǎng)民獲取信息的基本手段。

      我國(guó)從1963年開(kāi)始進(jìn)行機(jī)械信息檢索的研究工作。1965年進(jìn)行了機(jī)械信息檢索試驗(yàn)。20世紀(jì)70年代以來(lái)開(kāi)始研究計(jì)算機(jī)信息檢索。1975年進(jìn)行了首次計(jì)算機(jī)信息檢索試驗(yàn)。1977年進(jìn)行了計(jì)算機(jī)聯(lián)機(jī)檢索試驗(yàn)。

      1983年在中國(guó)科學(xué)技術(shù)信息研究所建立了連接美國(guó)、歐洲主要國(guó)家的數(shù)據(jù)庫(kù)聯(lián)機(jī)檢索系統(tǒng),這個(gè)系統(tǒng)通過(guò)意大利的 ITALCABLE 分組交換中心,連接到歐洲空間組織的 ESA-IRS 系統(tǒng),并由數(shù)據(jù)交換網(wǎng)轉(zhuǎn)接美國(guó)的 DIALOG、ORBIT 系統(tǒng),這樣,我國(guó)就可以在北京利用通信衛(wèi)星檢索到歐美200多個(gè)數(shù)據(jù)庫(kù)的幾十萬(wàn)篇文獻(xiàn)(馮志偉,1996b)。

      當(dāng)時(shí),不少單位建立了各種中文文獻(xiàn)庫(kù),有的單位研究了自動(dòng)標(biāo)引和自動(dòng)文摘的問(wèn)題。全國(guó)科技信息部門配備了大中小型計(jì)算機(jī),建立各種科技文獻(xiàn)數(shù)據(jù)庫(kù)、事實(shí)數(shù)據(jù)庫(kù)、數(shù)值數(shù)據(jù)庫(kù)(馮志偉,2001)。

      隨著互聯(lián)網(wǎng)和搜索引擎的普及,信息檢索也更加受到普通老百姓的歡迎,聯(lián)網(wǎng)搜索信息已經(jīng)成為老百姓日常生活的一部分內(nèi)容。

      自動(dòng)信息檢索主要包括自動(dòng)標(biāo)引、自當(dāng)文摘、文獻(xiàn)自動(dòng)分類、全文信息自動(dòng)檢索等內(nèi)容。

      ■ 自動(dòng)標(biāo)引(automatic indexing):信息檢索系統(tǒng)的核心工作是標(biāo)引(indexing)。所謂“標(biāo)引”,就是對(duì)所收集的文獻(xiàn)給出其標(biāo)識(shí)引導(dǎo),如文獻(xiàn)標(biāo)題、作者名、分類號(hào)、主題詞、關(guān)鍵詞等。我國(guó)在20世紀(jì)70年代末期開(kāi)始探討漢語(yǔ)文獻(xiàn)的自動(dòng)標(biāo)引問(wèn)題,先后建立了一批試驗(yàn)性的自動(dòng)標(biāo)引系統(tǒng)。如上海交通大學(xué)研制的基于漢字部件詞典的中文篇名自動(dòng)標(biāo)引系統(tǒng),北京大學(xué)圖書館系研制的基于規(guī)則和詞典的中文文獻(xiàn)自動(dòng)標(biāo)引系統(tǒng),中軟件公司研制的基于非用字后綴表法的中文文獻(xiàn)自動(dòng)切詞標(biāo)引系統(tǒng)。

      ■ 自動(dòng)文摘(automatic abstracting):文摘是文獻(xiàn)內(nèi)容要點(diǎn)的簡(jiǎn)要描述或指示。所謂“自動(dòng)文摘”,就是利用計(jì)算機(jī)自動(dòng)地編制和生成文摘。目前,自動(dòng)文摘的方法基本上是建立在統(tǒng)計(jì)規(guī)律的基礎(chǔ)之上的,要進(jìn)一步的推動(dòng)自動(dòng)文摘方法的研究,必須對(duì)所摘文獻(xiàn)進(jìn)行詞匯分析、語(yǔ)法分析和語(yǔ)義分析,并對(duì)結(jié)果進(jìn)行綜合,這些都需要對(duì)自然語(yǔ)言的詞匯、語(yǔ)法語(yǔ)義規(guī)律進(jìn)行深入的研究,充分地利用自然語(yǔ)言計(jì)算機(jī)處理的新成果和新方法,使自動(dòng)文摘工作實(shí)現(xiàn)智能化。

      ■ 文獻(xiàn)自動(dòng)分類(automatic classification):所謂“文獻(xiàn)自動(dòng)分類”,就是利用計(jì)算機(jī)對(duì)一批作為實(shí)體或?qū)ο蟮奈墨I(xiàn)進(jìn)行分類。文獻(xiàn)自動(dòng)分類有利于文獻(xiàn)的快速查找。20世紀(jì)60年代初,國(guó)外就開(kāi)始了文獻(xiàn)自動(dòng)分類的研究。我國(guó)上海交通大學(xué)計(jì)算中心在IBM-5550微機(jī)上研制了一個(gè)試驗(yàn)性的中文科技文獻(xiàn)自動(dòng)分類系統(tǒng),采用文獻(xiàn)篇名作為原始分類對(duì)象,以加權(quán)的題中關(guān)鍵詞作為分類的基礎(chǔ),統(tǒng)計(jì)分析了文獻(xiàn)篇名中的關(guān)鍵詞,歸納出大約300個(gè)基本類主題詞,構(gòu)成類主題詞表。當(dāng)時(shí),用戶利用這一系統(tǒng)在微機(jī)上對(duì)一篇文獻(xiàn)進(jìn)行分類所需的時(shí)間不到一秒鐘,該系統(tǒng)對(duì)上海圖書館《全國(guó)報(bào)刊索引》收錄的1000多篇有關(guān)計(jì)算機(jī)的文獻(xiàn)進(jìn)行自動(dòng)分類試驗(yàn),自動(dòng)分類的結(jié)果與人工分類的結(jié)果有74%是相符合的。

      ■ 全文信息自動(dòng)檢索(automatic retrieval of full text):現(xiàn)行的信息自動(dòng)檢索系統(tǒng),大多數(shù)都是檢索文獻(xiàn)目錄庫(kù)和文摘,這類檢索系統(tǒng)所獲得的信息有很大的局限性,如果用戶在檢索之后,還希望獲得所檢索出記錄的全面而詳細(xì)的信息,往往還要按檢索到的文獻(xiàn)索引號(hào),再到書庫(kù)中去進(jìn)一步翻閱、摘引大量的原文文本,為了解決這個(gè)問(wèn)題,學(xué)者們提出了“全文信息自動(dòng)檢索”,簡(jiǎn)稱全文檢索。全文數(shù)據(jù)庫(kù)的建立和全文檢索功能的實(shí)現(xiàn)是全文檢索的兩大技術(shù)支持。我國(guó)的全文檢索研究開(kāi)始于20世紀(jì)80年代中期。1986年,武漢大學(xué)開(kāi)始接受國(guó)家教委文科博士點(diǎn)科研項(xiàng)目“湖北省地方志全文檢索系統(tǒng)”,建立了“湖北省地方志大事記”和“中國(guó)人民解放軍大事記”兩個(gè)全文數(shù)據(jù)庫(kù)。接著,北京文獻(xiàn)服務(wù)處(BDS)研制了“基于自然語(yǔ)言處理的中文信息檢索和處理系統(tǒng)CIRPON”,用于BDS的文獻(xiàn)自動(dòng)標(biāo)引和文摘自動(dòng)處理,文獻(xiàn)標(biāo)引的查全率和查準(zhǔn)率大體上相當(dāng)于手工標(biāo)引的質(zhì)量。1990年初,北京信息工程學(xué)院與人民日?qǐng)?bào)社合作開(kāi)發(fā)了全文檢索系統(tǒng)Biti FTRS(Full Text Retrieval System的簡(jiǎn)稱),對(duì)于《人民日?qǐng)?bào)》進(jìn)行全文自動(dòng)檢索。電子部計(jì)算機(jī)與微電子技術(shù)發(fā)展研究中心(CCID)中文信息處理開(kāi)放實(shí)驗(yàn)室(CIPOL)研制了中文全文檢索系統(tǒng)TIR,該系統(tǒng)可以對(duì)各種文本型資料和某些數(shù)據(jù)庫(kù)的文件進(jìn)行操作,能夠檢索一切輸入文本,對(duì)原始文獻(xiàn)里的字符無(wú)特別限制,可以處理各種通用的字符。(馮志偉,1996)

      隨著大量文獻(xiàn)的出版和互聯(lián)網(wǎng)的普及,文檔的數(shù)量與日俱增。而且,大多數(shù)文檔數(shù)據(jù)都是無(wú)序的、非結(jié)構(gòu)化的,文檔數(shù)據(jù)中不僅包含文字信息,而且還包含圖像信息、圖形信息、音頻信息、視頻信息。文檔數(shù)量的急劇增加和多樣化是對(duì)于信息檢索技術(shù)的嚴(yán)重挑戰(zhàn)(馮志偉,1996)。

      我國(guó)在語(yǔ)料庫(kù)語(yǔ)言學(xué)方面也取得了可喜的成績(jī)。我國(guó)從20世紀(jì)70年代末期便開(kāi)始建立語(yǔ)料庫(kù)。從1979年到1992年,在我國(guó)建立的主要的語(yǔ)料庫(kù)有:

      ■ 現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)(1979年),527萬(wàn)字,武漢大學(xué)。

      ■ 現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1983年),2千萬(wàn)字,北京航天航空大學(xué)。

      ■ 中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)(1983年),106萬(wàn)8千字,北京師范大學(xué)。

      ■ 現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1983年),180萬(wàn)字,北京語(yǔ)言學(xué)院。

      ■ 漢語(yǔ)新聞?wù)Z料庫(kù)(1988年),250萬(wàn)字,山西大學(xué),包括4部分:

      ·《人民日?qǐng)?bào)》:150萬(wàn)字,

      ·《北京科技報(bào)》:20萬(wàn)字;

      ·《電視新聞》(CCTV):50萬(wàn)字;

      ·《當(dāng)代》(雜志):30萬(wàn)字。

      ■ 北大漢語(yǔ)語(yǔ)料庫(kù)(1992年):500萬(wàn)詞,北京大學(xué)。

      (馮志偉,2001)

      此外,國(guó)家語(yǔ)言文字工作委員會(huì)語(yǔ)言文字應(yīng)用研究所還建立了英漢雙語(yǔ)語(yǔ)料庫(kù),其中包括一個(gè)計(jì)算機(jī)專業(yè)的雙語(yǔ)語(yǔ)料庫(kù)和一個(gè)Plato(柏拉圖)哲學(xué)名著《理想國(guó)》(Politeia)的雙語(yǔ)語(yǔ)料庫(kù)。在這些雙語(yǔ)語(yǔ)料庫(kù)上,他們進(jìn)行了漢字極限熵的測(cè)定和雙語(yǔ)對(duì)齊的研究(馮志偉,2001)。

      1991年,國(guó)家語(yǔ)言文字工作委員會(huì)開(kāi)始建立國(guó)家級(jí)的大型漢語(yǔ)語(yǔ)料庫(kù),以推進(jìn)漢語(yǔ)的詞法、句法、語(yǔ)義和語(yǔ)用的研究,同時(shí)也為中文信息處理的研究提供語(yǔ)言資源,其規(guī)模為7000萬(wàn)漢字。這個(gè)語(yǔ)料庫(kù)是均衡語(yǔ)料庫(kù),其語(yǔ)料要經(jīng)過(guò)精心的選材,現(xiàn)已投入使用。

      1992年以來(lái),大量的語(yǔ)料庫(kù)在研究計(jì)算語(yǔ)言學(xué)的單位建立起來(lái),語(yǔ)料庫(kù)成為了研究計(jì)算語(yǔ)言學(xué)的基本語(yǔ)言資源。目前,建設(shè)大規(guī)模真實(shí)文本語(yǔ)料庫(kù)的單位有:《人民日?qǐng)?bào)》光盤數(shù)據(jù)庫(kù)、北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所、北京語(yǔ)言大學(xué)、清華大學(xué)、山西大學(xué)、上海師范大學(xué)、北京郵電大學(xué)、香港城市大學(xué)、東北大學(xué)、哈爾濱工業(yè)大學(xué)、中國(guó)傳媒大學(xué)、中國(guó)科學(xué)院軟件研究所、中國(guó)科學(xué)院自動(dòng)化所、北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心、臺(tái)灣中央研究院語(yǔ)言研究所(籌備處)。

      例如,中國(guó)傳媒大學(xué)的語(yǔ)料庫(kù)包括文本語(yǔ)料庫(kù)(7000多萬(wàn)字)、音視頻語(yǔ)料庫(kù)(900小時(shí)的音頻和視頻語(yǔ)料)和精品語(yǔ)料庫(kù)(如著名主持人的節(jié)目、獲獎(jiǎng)節(jié)目的音頻視頻語(yǔ)料),這是世界上規(guī)模最大的、多模態(tài)的漢語(yǔ)傳媒有聲語(yǔ)言的語(yǔ)料庫(kù),語(yǔ)料庫(kù)加工體系從語(yǔ)音開(kāi)始,到文字、詞語(yǔ)、句子、篇章都進(jìn)行了標(biāo)注和處理。

      我國(guó)在20世紀(jì)80年代中期就建立了第一個(gè)英語(yǔ)語(yǔ)料庫(kù),即上海交通大學(xué)的科技英語(yǔ)語(yǔ)料庫(kù),簡(jiǎn)稱JDEST(Jiao Da English for Science and Technology),這個(gè)語(yǔ)料庫(kù)為我國(guó)大學(xué)英語(yǔ)教學(xué)大綱的制定和詞表統(tǒng)計(jì)做出了積極的貢獻(xiàn)。后來(lái)在我國(guó)建成的英語(yǔ)語(yǔ)料庫(kù)還有:ICLE中國(guó)子語(yǔ)料庫(kù)、中國(guó)英語(yǔ)學(xué)習(xí)語(yǔ)料庫(kù)、大學(xué)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)、中國(guó)專業(yè)英語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)、CEC中國(guó)英語(yǔ)語(yǔ)料庫(kù)、中學(xué)英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)等,這些英語(yǔ)語(yǔ)料庫(kù)都為我國(guó)的外語(yǔ)教學(xué)和外語(yǔ)學(xué)習(xí)做出了貢獻(xiàn)(馮志偉,2007c)。

      雙語(yǔ)平行語(yǔ)料庫(kù)也有很大的發(fā)展。北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教學(xué)研究中心研制了英漢雙語(yǔ)語(yǔ)料庫(kù),北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心研制了日漢雙語(yǔ)語(yǔ)料庫(kù)。此外,中國(guó)科學(xué)院軟件研究所、自動(dòng)化研究所也都研制了有一定規(guī)模的英漢雙語(yǔ)語(yǔ)料庫(kù)(桂詩(shī)春等,2010)。

      漢語(yǔ)樹庫(kù)(tree bank)的建設(shè)也取得可喜的成績(jī)。例如,清華大學(xué)的TCT樹庫(kù)、臺(tái)灣中央研究院的Sinica中文樹庫(kù)、哈爾濱工業(yè)大學(xué)的漢語(yǔ)依存樹庫(kù)、中國(guó)傳媒大學(xué)的中文依存樹庫(kù)、中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢語(yǔ)樹庫(kù)等,這些樹庫(kù)都成了計(jì)算語(yǔ)言學(xué)研究的重要的語(yǔ)言資源(馮志偉,2007)。

      語(yǔ)料庫(kù)建立之后,如何把“生語(yǔ)料”變成“熟語(yǔ)料”,需要對(duì)語(yǔ)料庫(kù)進(jìn)行加工,主要包括自動(dòng)分詞、自動(dòng)標(biāo)注等。為了推動(dòng)漢語(yǔ)語(yǔ)料庫(kù)的深入研究,我國(guó)建立了初步的分詞規(guī)范。1990年10 月制定了國(guó)家標(biāo)準(zhǔn)GB-13715《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》,這個(gè)國(guó)家標(biāo)準(zhǔn)提出了確定語(yǔ)單詞切分的原則,是漢語(yǔ)書面語(yǔ)自動(dòng)切詞的重要依據(jù)。在漢語(yǔ)語(yǔ)料庫(kù)的自動(dòng)加工中,我國(guó)的計(jì)算語(yǔ)言學(xué)研究取得了長(zhǎng)足的進(jìn)展(Feng Zhiwei,1995)。

      我國(guó)在機(jī)器詞典的建造方面也取得了可喜的成績(jī)。在“七五”期間,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所建立了“現(xiàn)代漢語(yǔ)語(yǔ)法信息庫(kù)”,在“八五”期間,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所把這個(gè)信息庫(kù)進(jìn)一步擴(kuò)充為機(jī)器可讀的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》,中國(guó)人民大學(xué)語(yǔ)言文字研究所從1990年開(kāi)始對(duì)于現(xiàn)代漢語(yǔ)常用動(dòng)詞的3000多個(gè)義項(xiàng)進(jìn)行格關(guān)系(case relations)的描述,編制了《動(dòng)詞大詞典》和《現(xiàn)代漢語(yǔ)動(dòng)詞大詞典》,清華大學(xué)計(jì)算機(jī)系和中國(guó)人民大學(xué)語(yǔ)言文字研究所聯(lián)合研制了《現(xiàn)代漢語(yǔ)述語(yǔ)動(dòng)詞機(jī)器詞典》。這些成果是我國(guó)計(jì)算語(yǔ)言學(xué)研究十分寶貴的語(yǔ)言資源(馮志偉,2001;劉根輝,2005)。

      在信息時(shí)代,如何把漢字輸入輸出計(jì)算機(jī),成為我國(guó)計(jì)算語(yǔ)言學(xué)的關(guān)鍵性問(wèn)題。

      我國(guó)在20世紀(jì)60年代末期就開(kāi)始對(duì)漢字信息處理進(jìn)行探索和實(shí)踐,1968年研制成漢字電報(bào)譯碼機(jī),70年代中期明確提出“漢字信息處理系統(tǒng)”的研究課題,叫做“七四八”工程。1978年以來(lái),中國(guó)開(kāi)始廣泛應(yīng)用大規(guī)模集成電路存儲(chǔ)器和成套的微處理機(jī)芯片,為漢字輸入計(jì)算機(jī)提供了物質(zhì)條件,研制成了一些新型的漢字輸入輸出設(shè)備,并配制成各種應(yīng)用系統(tǒng)。漢字信息處理的研制成果已經(jīng)在中國(guó)的現(xiàn)代化建設(shè)中發(fā)揮著重要作用(馮志偉,1997b)。

      當(dāng)時(shí)的漢字輸入方法大致可以分為六類:編碼輸入法、整字輸入法、拼音-漢字轉(zhuǎn)換法、印刷體光學(xué)輸入法、手寫輸入法、聲音輸入法等。這里著重談?wù)劸幋a輸入法。

      所謂“編碼輸入法”,就是給漢字規(guī)定一種便于計(jì)算機(jī)識(shí)別的代碼,使每一個(gè)漢字對(duì)應(yīng)于一個(gè)數(shù)字串或符號(hào)串,從而把漢字輸入計(jì)算機(jī)(馮志偉,1997b)。

      學(xué)者們提出的漢字編碼方案已有近千個(gè),其中上機(jī)通過(guò)實(shí)驗(yàn)和已被采用的編碼方案也達(dá)數(shù)十種之多。這些漢字編碼方案大致可以分為四種:

      ■ 形碼:根據(jù)漢字的字形來(lái)進(jìn)行的編碼。如筆形編碼法和五筆字形編碼法。筆形編碼法在筆畫層進(jìn)行編碼。這種方法把漢字的筆畫分為一(橫)、丨(豎)、丿(撇)、丶(點(diǎn))、┒(折)、┗(彎)、×(叉)、□(方)八類,分別用1、2、3、4、5、6、7、0等數(shù)字來(lái)代表,橫、豎、撇、點(diǎn)為單筆,折、彎、叉、方為復(fù)筆。漢字代碼是不等長(zhǎng)碼,最大碼長(zhǎng)為9碼。五筆字形編碼法在部件層進(jìn)行編碼。這種方法把漢字分解為部件,并把漢字的部件歸并為664個(gè),進(jìn)行部件的優(yōu)選,合理安排部件在鍵盤上的布局。平均碼長(zhǎng)為4碼,使用高頻字簡(jiǎn)碼和詞匯碼后,平均碼長(zhǎng)縮減為2.8碼(馮志偉,2001)。

      ■ 音碼:根據(jù)漢字的讀音來(lái)進(jìn)行編碼。音碼一般以漢語(yǔ)拼音方案為根據(jù),漢語(yǔ)拼音方案已有50多年的歷史,1982年成為國(guó)際標(biāo)準(zhǔn),國(guó)際標(biāo)準(zhǔn)號(hào)是ISO 7098, 2015年進(jìn)行修訂,國(guó)際標(biāo)準(zhǔn)號(hào)是ISO 7098: 2015。由于漢語(yǔ)拼音方案是以國(guó)際通行的拉丁字母字符集以及它們相近的發(fā)音為基礎(chǔ)制定的,有利于國(guó)際交流。采用音碼最大的困難是區(qū)分同音字的問(wèn)題。漢字的音節(jié)不計(jì)聲調(diào)共408個(gè),而漢字的數(shù)目成千上萬(wàn),這就必然導(dǎo)致大量的拼音同音字的出現(xiàn),一個(gè)音節(jié)對(duì)應(yīng)于很多漢字,漢語(yǔ)音節(jié)的歧義指數(shù)(ambiguity index)很高?,F(xiàn)有的音碼方案都把區(qū)分同音字作為主要的研究目標(biāo)。例如采用以詞定字的方法,根據(jù)漢語(yǔ)拼音正詞法規(guī)則,在計(jì)算機(jī)中存儲(chǔ)雙音詞和多音詞數(shù)萬(wàn)個(gè),按詞輸入,以詞來(lái)定字,從而減少了重碼(馮志偉,2001)。

      ■ 形音碼:這種編碼法基本上立足于字形分解,把字分解為部件和筆畫,統(tǒng)稱為字元(element),各個(gè)字元又通過(guò)它們的讀音來(lái)幫助記憶。

      ■ 音形碼:這是一種以音為主,以形為輔的編碼,利用字形來(lái)區(qū)分同音字(馮志偉,1997b,2001)。

      在20世紀(jì)70—80年代,漢字編碼的研究出現(xiàn)了“萬(wàn)馬奔騰”的局面,為了促進(jìn)漢字編碼的研究更加健康地向前發(fā)展,對(duì)已有的漢字編碼方案進(jìn)行了評(píng)測(cè),以便優(yōu)選出最佳的漢字編碼方案。目前,拼音-漢字轉(zhuǎn)換法已經(jīng)成為最普遍的鍵盤漢字輸入的方法,它逐漸地代替了形形色色的漢字編碼輸入法。漢字輸入在手機(jī)通信中也得到了廣泛的使用和普及(馮志偉,1997b)。

      漢字輸出也是漢字信息處理的難點(diǎn)之一。為了解決這個(gè)難題,“七四八”工程把能夠輸出高質(zhì)量漢字的漢字照相排版編輯系統(tǒng)作為重點(diǎn)攻關(guān)項(xiàng)目。經(jīng)過(guò)20多年的艱苦奮斗,取得了令人矚目的成就。中國(guó)已經(jīng)以計(jì)算機(jī)激光漢字編輯排版系統(tǒng)全面地改造了傳統(tǒng)的鉛字排版,在印刷技術(shù)上結(jié)束了“鉛與火”的時(shí)代,計(jì)算機(jī)激光漢字編輯排版技術(shù)在推廣應(yīng)用上達(dá)到了普及的程度,中國(guó)自行研制的計(jì)算機(jī)彩色制版系統(tǒng)(馮志偉,1997b)已成為商品推向市場(chǎng)(馮志偉,2019)。

      隨著計(jì)算機(jī)漢字輸入輸出問(wèn)題的解決,我國(guó)的漢字信息處理技術(shù)得到了多方面的發(fā)展,我國(guó)在漢字信息壓縮、漢字自動(dòng)識(shí)別、漢字信息通訊等多項(xiàng)技術(shù)上,也取得了顯著的成就。

      我國(guó)的漢字識(shí)別研究獨(dú)具特色,采用選取漢字特征點(diǎn)和數(shù)學(xué)形態(tài)學(xué)的方法來(lái)提取漢字的結(jié)構(gòu)特征,在印刷體漢字識(shí)別方面,我國(guó)已經(jīng)研究出一批實(shí)用化、商品化的系統(tǒng)(馮志偉,1992)。這些系統(tǒng)一般都具有版面分析、文本識(shí)別、識(shí)別結(jié)果后處理、自動(dòng)糾錯(cuò)、自動(dòng)編輯、自動(dòng)輸出等功能。在手寫體漢字識(shí)別方面,識(shí)別率已達(dá)到商品化的水平(馮志偉,2001)。

      我國(guó)在語(yǔ)音自動(dòng)處理的領(lǐng)域也取得了很大的成績(jī)。1999年6月9日成立的安徽科大訊飛信息科技股份有限公司(簡(jiǎn)稱“科大訊飛”)是一家專業(yè)從事智能語(yǔ)音及語(yǔ)音技術(shù)研究、軟件及芯片產(chǎn)品開(kāi)發(fā)、語(yǔ)音信息服務(wù)的國(guó)家級(jí)骨干軟件企業(yè)??拼笥嶏w在語(yǔ)音技術(shù)領(lǐng)域是基礎(chǔ)研究時(shí)間最長(zhǎng)、資產(chǎn)規(guī)模最大、歷屆評(píng)測(cè)成績(jī)最好、專業(yè)人才最多及市場(chǎng)占有率最高的公司,其智能語(yǔ)音核心技術(shù)代表了國(guó)際的最高水平(馮志偉,2018)。

      語(yǔ)音自動(dòng)處理技術(shù)實(shí)現(xiàn)了人機(jī)語(yǔ)音交互,使人與機(jī)器之間溝通變得像人與人之間溝通一樣簡(jiǎn)單。使用語(yǔ)音合成技術(shù)可以讓機(jī)器說(shuō)話,使用語(yǔ)音識(shí)別技術(shù)可以讓機(jī)器聽(tīng)懂人說(shuō)話。語(yǔ)音自動(dòng)處理技術(shù)的應(yīng)用空間是非常廣闊的。

      計(jì)算語(yǔ)言學(xué)不僅有著重大的學(xué)術(shù)意義,而且,它對(duì)社會(huì)經(jīng)濟(jì)的發(fā)展也有著現(xiàn)實(shí)的或潛在的經(jīng)濟(jì)價(jià)值。我國(guó)政府對(duì)于計(jì)算語(yǔ)言學(xué)非常重視,投入了大量的經(jīng)費(fèi)(馮志偉,2009a)。

      在國(guó)家重大基礎(chǔ)研究發(fā)展計(jì)劃973項(xiàng)目中,1999年至2003年國(guó)家科技部首批立項(xiàng)的重大基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目“圖像、語(yǔ)音、自然語(yǔ)言理解與知識(shí)挖掘”將計(jì)算語(yǔ)言學(xué)列為重要的研究?jī)?nèi)容。2004年國(guó)家科技部重大基礎(chǔ)研究發(fā)展項(xiàng)目規(guī)劃“數(shù)字內(nèi)容理解的理論與方法”再次將計(jì)算語(yǔ)言學(xué)作為重要內(nèi)容(馮志偉,2009c)。

      國(guó)家863計(jì)劃也投入了大量的資金用于計(jì)算語(yǔ)言學(xué)的研究。2002年的重大項(xiàng)目“奧運(yùn)多語(yǔ)言智能信息服務(wù)系統(tǒng)關(guān)鍵技術(shù)及示范系統(tǒng)研究”突出以人為本的信息服務(wù),通過(guò)網(wǎng)絡(luò)手段對(duì)各國(guó)記者和觀眾提供綜合、全面、多語(yǔ)種、可定制的信息服務(wù),從而通過(guò)“科技奧運(yùn)”實(shí)現(xiàn)了“人文奧運(yùn)”的目標(biāo)。

      國(guó)家自然科學(xué)基金委員會(huì)也支持計(jì)算語(yǔ)言學(xué)的研究,先后設(shè)立了重點(diǎn)項(xiàng)目、一般項(xiàng)目和青年基金項(xiàng)目,研究范圍不僅涉及到漢語(yǔ)、蒙古語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)等語(yǔ)種的語(yǔ)料庫(kù)建設(shè)和語(yǔ)義分析等基礎(chǔ)問(wèn)題,還涉及到文字輸入法、機(jī)器翻譯、自動(dòng)文摘等應(yīng)用問(wèn)題,對(duì)自然語(yǔ)言的詞匯、句子、語(yǔ)義、篇章等方面進(jìn)行了有效的探索(馮志偉,2009b)。

      國(guó)家哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室也立項(xiàng)支持計(jì)算語(yǔ)言學(xué)的研究,設(shè)立了相應(yīng)的社會(huì)科學(xué)基金研究項(xiàng)目。2003年立項(xiàng)的“計(jì)算語(yǔ)言學(xué)方法研究”,總結(jié)了國(guó)內(nèi)外的計(jì)算語(yǔ)言學(xué)方法,使之系統(tǒng)化,理論化,具體化(馮志偉,2010)。

      可以看出,國(guó)家對(duì)于計(jì)算語(yǔ)言學(xué)的大力支持,促進(jìn)了我國(guó)計(jì)算語(yǔ)言學(xué)的發(fā)展。國(guó)家在我國(guó)計(jì)算語(yǔ)言學(xué)的研制和發(fā)展中,起了舉足輕重的作用。

      目前,我國(guó)的計(jì)算語(yǔ)言學(xué)研究已經(jīng)取得了顯著的成績(jī)。語(yǔ)料庫(kù)技術(shù)得到了充分的發(fā)展,建立了一批具有重要影響的語(yǔ)言資源庫(kù),面向信息處理的漢語(yǔ)基礎(chǔ)研究有了長(zhǎng)足的進(jìn)展,理論成果初見(jiàn)成效,應(yīng)用技術(shù)開(kāi)發(fā)蓬勃發(fā)展,產(chǎn)業(yè)化進(jìn)程碩果累累(馮志偉,2009c)。

      我國(guó)開(kāi)發(fā)的這些語(yǔ)言資源庫(kù)和自然語(yǔ)言處理系統(tǒng)中,部分技術(shù)已經(jīng)達(dá)到或者基本達(dá)到實(shí)用化水平。例如,機(jī)器翻譯系統(tǒng)、智能問(wèn)答系統(tǒng)、各種類型的漢語(yǔ)語(yǔ)料庫(kù)、漢字輸入系統(tǒng)、漢字激光排版系統(tǒng)、搜索引擎等。

      許多新的研究方向不斷出現(xiàn),在實(shí)際應(yīng)用的驅(qū)動(dòng)下,自然語(yǔ)言處理技術(shù)不斷與各種新技術(shù)相結(jié)合,開(kāi)發(fā)出越來(lái)越多的實(shí)用技術(shù)。例如,網(wǎng)絡(luò)內(nèi)容管理和監(jiān)控的研究,不僅與自然語(yǔ)言處理技術(shù)有關(guān),而且與網(wǎng)絡(luò)技術(shù)、情感計(jì)算、圖像理解等技術(shù)有關(guān);語(yǔ)音自動(dòng)翻譯技術(shù)涉及到機(jī)器翻譯、語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音通訊等多種技術(shù)(馮志偉,2009b)。

      由于現(xiàn)實(shí)的自然語(yǔ)言極為復(fù)雜,不可能直接作為計(jì)算機(jī)的處理對(duì)象,為了使現(xiàn)實(shí)的自然語(yǔ)言成為可以由計(jì)算機(jī)直接處理的對(duì)象,在計(jì)算語(yǔ)言學(xué)眾多的應(yīng)用領(lǐng)域中,我們都需要根據(jù)處理的要求,把自然語(yǔ)言的計(jì)算機(jī)處理抽象為一個(gè)“問(wèn)題”(problem),再把這個(gè)問(wèn)題在語(yǔ)言學(xué)上加以“形式化”(formalism),建立語(yǔ)言的“形式模型”(formal model),使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來(lái),并且把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為“算法”(algorithm),建立自然語(yǔ)言處理的“計(jì)算模型”(computational model),使之能夠在計(jì)算機(jī)上實(shí)現(xiàn)。在自然語(yǔ)言處理中,算法取決于形式模型,形式模型是自然語(yǔ)言計(jì)算機(jī)處理的本質(zhì),而算法只不過(guò)是實(shí)現(xiàn)形式模型的手段而已。因此,這種建立語(yǔ)言形式模型的研究是非常重要的,它應(yīng)當(dāng)屬于計(jì)算語(yǔ)言學(xué)的基礎(chǔ)理論研究(馮志偉,2009c)。

      由于自然語(yǔ)言的復(fù)雜性,這樣的形式模型的研究往往是一個(gè)“強(qiáng)不適定問(wèn)題”(strongly illposed problem),對(duì)于這樣強(qiáng)不適定性問(wèn)題的求解,應(yīng)當(dāng)加入適當(dāng)?shù)摹凹s束條件”(constraint conditions),使問(wèn)題的一部分在一定的范圍內(nèi)變成“適定問(wèn)題”(well-posed problem),從而順利地求解這個(gè)問(wèn)題(馮志偉,2014)。

      計(jì)算語(yǔ)言學(xué)是一個(gè)多邊緣的交叉學(xué)科,因此,我們可以通過(guò)計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、心理學(xué)、認(rèn)知科學(xué)、人工智能、生物學(xué)等多學(xué)科的通力合作,把人類知識(shí)的威力與計(jì)算機(jī)的計(jì)算能力結(jié)合起來(lái),給計(jì)算語(yǔ)言學(xué)的形式模型提供大量的、豐富的“約束條件”,從而解決計(jì)算語(yǔ)言學(xué)中的各種困難(馮志偉,2017)。

      法國(guó)著名數(shù)學(xué)家J. Hadamard(阿達(dá)瑪)曾經(jīng)說(shuō)過(guò):“語(yǔ)言學(xué)是數(shù)學(xué)和人文科學(xué)之間的橋梁”,今天,我們可以進(jìn)一步說(shuō):“語(yǔ)言學(xué)是自然科學(xué)、思維科學(xué)和人文科學(xué)之間的橋梁”。古老的語(yǔ)言學(xué)已經(jīng)改變了它在整個(gè)現(xiàn)代科學(xué)體系中的地位,正在成長(zhǎng)為一門帶頭的科學(xué)(馮志偉,2007b),成為現(xiàn)代科學(xué)技術(shù)研究的一個(gè)熱點(diǎn),計(jì)算語(yǔ)言學(xué)也成為了人工智能技術(shù)的語(yǔ)言學(xué)支撐,成為了人工智能研究中的一個(gè)舉足輕重的學(xué)科。

      由此可見(jiàn),中華人民共和國(guó)成立70年來(lái),我國(guó)計(jì)算語(yǔ)言學(xué)取得了輝煌的成就。展望未來(lái),任重道遠(yuǎn),我們還要繼續(xù)努力。

      猜你喜歡
      語(yǔ)言學(xué)語(yǔ)料庫(kù)漢語(yǔ)
      學(xué)漢語(yǔ)
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語(yǔ) 后海
      金橋(2020年11期)2020-12-14 07:52:56
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      追劇宅女教漢語(yǔ)
      漢語(yǔ)不能成為“亂燉”
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
      环江| 崇州市| 新田县| 万荣县| 绥化市| 阆中市| 黎平县| 区。| 务川| 南岸区| 诸暨市| 吐鲁番市| 北海市| 扶余县| 黄冈市| 桐柏县| 社会| 青铜峡市| 津南区| 娄烦县| 普兰县| 苏尼特右旗| 武强县| 息烽县| 婺源县| 华宁县| 张家港市| 昌图县| 鄢陵县| 垦利县| 全椒县| 嘉善县| 奎屯市| 申扎县| 古蔺县| 宜都市| 石楼县| 千阳县| 宜兴市| 临高县| 灵台县|