馮志偉
(教育部語言文字應用研究所,北京 100010)
我的名字叫馮志偉,生于1939年4月15日,云南省昆明市人。今年我虛歲滿80歲了,應《文化學刊》之約,我在這里把這80年的生活做一個總結,以看到自己的成績和不足。
我于1945年在昆明東升小學讀小學,1951年以第一名的成績考入昆明一中,1957年考入北京大學地球化學專業(yè)本科學習,1959年棄理學文轉入北京大學中文系漢語專業(yè)本科學習,1964年考入北京大學中文系語言學專業(yè)讀研究生,1967年畢業(yè),由于文化大革命的影響,改行到昆明五中當物理教員,1978年恢復高考后,由于我的數(shù)學、物理基礎都很好,于是我干脆棄文學理,考入中國科學技術大學研究生院信息科學系機器翻譯專業(yè)學習,接著被選派到法國格勒諾布爾理科醫(yī)科大學應用數(shù)學研究所(IMAG)自動翻譯中心(CETA)師從法國著名數(shù)學家、國際計算語言學委員會主席沃古瓦(B.Vauquois)教授專門研究數(shù)理語言學和機器翻譯問題。1981年回國,在中國科學技術信息研究所計算中心擔任機器翻譯研究組組長,由一個語言學家變成了一個軟件工程師。1985年國家語言文字工作委員會成立,需要懂得計算機的語言學家,于是我被調入中國社會科學院語言文字應用研究所,擔任計算語言學研究室主任,后來語言文字應用研究所改由國家教育部領導,我又成了教育部下屬單位的工作人員,擔任研究員和博士生導師。在此期間,我于1986~1988年在德國夫瑯禾費研究院(FhG)新信息技術與通信系統(tǒng)研究所擔任客座研究員,1990~1993年在德國特里爾大學擔任客座教授,1996年在德國康斯坦茨高等技術學院國際術語學和應用語言學中心(CiTaL)擔任技術顧問。我于1998年5月退休。
退休之后我仍然繼續(xù)到國外從事語言學和自然語言處理的教學和研究工作。1999年10月~2000年8月再次在德國特里爾大學擔任客座教授。2000~2001年擔任桑夏自然語言處理研究院高級研究員,2003年在英國伯明翰大學擔任高級研究員,2001~2002年以及2003~2004年前后兩次擔任韓國科學技術院電子工程和計算機科學系訪問教授,用英語講授自然語言處理的博士課程。
除了上述工作之外,我在退休之后的大部分時間用于旅游,“小舟從此逝,江海度余生”,是我近20年退休生活的寫照。這20年來,我的退休生活的大部分時間都消磨在國內外湖光山色的美景之中,看門前花開花落,觀天空云卷云舒,盡管是虛度年華,但這是我一生中最美好的時光。
當然,虛度年華并不是碌碌無為,作為學者,我有自己的社會責任,我要回報社會。
回顧80年的蹉跎歲月,起伏跌宕,艱辛備嘗,可是我始終笑對人生的苦難,努力工作,做到了“平生無悔”?,F(xiàn)將我的主要學術成果歸納如下:
1.首次測定漢字熵值。漢字的“熵”(entropy)是漢字所含信息量大小的數(shù)學度量。近幾十年來,國外學者已陸續(xù)測出一些拼音文字字母中的熵,而漢字數(shù)量太大,各個漢字的出現(xiàn)概率各不相同,因此,要計算包含在一個漢字中的熵是十分復雜的。在20世紀70年代初期,我提出了“漢字容量極限定律”,用嚴格的數(shù)學方法,證明了當統(tǒng)計樣本中漢字的容量不大時,包含在一個漢字中的熵會隨著漢字容量的增加而增加,當統(tǒng)計樣本中的漢字容量達到12,366字時,包含在一個漢字中的熵就不再增加了,這意味著,在測定漢字的熵的時候,統(tǒng)計樣本中漢字的容量是有極限的。這個極限值就是12,366字,超出這個極限值,測出的漢字的熵再也不會增加了。當時我在中學教書,沒有條件使用計算機,我只好使用手工來計算,根據(jù)漢字容量極限定律,我在包含12,370個不同漢字的統(tǒng)計樣本的范圍內,初步估測出了在考慮語言符號出現(xiàn)概率差異的情況下,包含在一個漢字中的熵為9.65比特。由此得出結論:從漢語書面語總體來考慮,在全部漢語書面語中,包含在一個漢字中的熵是9.65比特。這是國內外首次測定的漢字熵值。20世紀80年代,國內外學者使用計算機,在大規(guī)模漢字文本的基礎上測定的漢字熵值,與我使用手工估測的結果大致相同。1995年,我又進一步首次測定了在充分考慮漢字上下文的影響時包含在一個漢字中的熵,這個熵叫做“極限熵”。我測得,漢字的極限熵平均為4.0462比特。我的方法是通過英漢文本字符容量的對比來間接地推算極限熵,避免了復雜的測試和計算。我在研究中還發(fā)現(xiàn),漢語翻譯為英語時與英語翻譯為漢語時,英漢文本字符容量之比是不一樣的,漢譯英時,英漢文本的字符容量之比為3.8,英譯漢時,英漢文本的字符容量之比為2.7。熵的測定是數(shù)理語言學的一項基礎研究,由于漢字字符量多,測定漢字的熵和極限熵都是非常困難的工作,我的研究得到了國外的好評。美國賓夕法尼亞大學梅維恒(V. H. Mair)教授曾著文《評馮志偉教授的兩本書》(《現(xiàn)代漢字和計算機》《中文信息處理與漢語研究》),文中寫道:“眾所周知,詞的概念對于有效地進行自然語言處理是十分重要的??上У氖?,漢字連書對于明確地劃清詞的界限是極為不利的,因而漢字給信息處理專家和計算機技術人員造成了巨大的障礙。在閱讀這兩本書的時候,我認識了現(xiàn)代標準漢語(MSM)中的一個新詞——‘熵’。這個新詞是用來翻譯英文‘entropy’或‘information content’的(后者也可以譯為‘信息量’)。馮志偉計算出:一個漢字的熵為9.65比特,而與其他語言相比,法語一個字母的熵為3.98比特,意大利語一個字母的熵為4.00比特,西班牙語一個字母的熵為4.01比特,英語一個字母的熵為4.03比特,德語一個字母的熵為4.12比特,俄語一個字母的熵為4.35比特,漢字的熵大得驚人。有些贊揚漢字的人宣稱,漢字的熵這樣大,似乎對于信息處理大有好處。然而,馮志偉卻提出了與此完全不同而又令人信服的觀點?!泵肪S恒教授又在文章中高興地評論說:“如果一個人能夠用科技術語和數(shù)學方程式來論述他的對于現(xiàn)代標準漢語的觀點,那么,這樣的論述當然應該是非常雄辯而有說服力的。不過,我卻樂于通過直覺和觀察的方法來研究,根據(jù)我的經(jīng)驗,我曾經(jīng)斷言,漢字的平均筆畫數(shù)應該是十二畫,二十年來對于漢字的這種低效率的性質和特性的直觀感覺和細心觀察,我的研究現(xiàn)在由馮志偉在他的書中已經(jīng)證實,簡化漢字標準集的平均筆畫數(shù)與我在過去宣布的結論幾乎完全相同,而如果考慮到被簡化的繁體字,這個平均筆畫數(shù)只是比十二畫稍微高一些。這樣的不謀而合真使我高興萬分?!庇纱丝梢?,我做的這項極為重要的科學研究,不僅指明了中文信息處理的正確方向,而且對漢字的規(guī)范化也很有重要的指導意義。
2.首次把依存語法和配價語法應用于機器翻譯中。我在法國留學期間,了解到法國語言學家泰尼埃(L. Tesnière)的依存語法和語法“價”的概念,開始用這種語法來研究漢外機器翻譯問題,首次把“價”(valence)的概念引入機器翻譯研究中,我把動詞和形容詞的行動元分為主體者、對象者、受益者三個,把狀態(tài)元分為時刻、時段、時間起點、時間終點、空間點、空間段、空間起點、空間終點、初態(tài)、末態(tài)、原因、結果、目的、工具、范圍、條件、作用、內容、論題、比較、伴隨、程度、判斷、陳述、附加、修飾等27個,以此來建立多語言的自動句法分析系統(tǒng),對于一些表示觀念、感情的名詞,也分別給出了它們的價。我還把依存語法和短語結構語法結合起來,在表示結構關系的多叉多標記樹形圖中,明確地指出中心語的位置,并用核心(GOV)、樞軸(PIVOT)等結點來表示中心詞。這是我國學者最早利用依存語法和“價”的思想來進行自然語言計算機處理的嘗試。
我還根據(jù)機器翻譯的實踐,提出了表示依存語法的依存樹(dependence tree)應該滿足如下五個條件:(1)單純結點條件:依存樹中,只有終極結點,沒有非終極結點,依存樹中的所有結點所代表的都是句子中實際出現(xiàn)的具體的單詞;(2)單一父結點條件:在依存樹中,除了根結點沒有父結點之外,所有的結點都只有一個父結點;(3)獨根結點條件:一個依存樹只能有一個根結點,這個根結點,就是依存樹中唯一沒有父結點的結點,這個根結點支配著其他的所有的結點;(4)非交條件:依存樹中的樹枝不能彼此相交;(5)互斥條件:依存樹中的結點之間,從上到下的支配關系和從左到右的前于關系之間是互相排斥的,如果兩個結點之間存在著支配關系,它們之間就不能存在前于關系。我提出的這五個條件比1970年美國計算語言學家羅賓孫(J. Robinson)提出的依存語法的四條公理更加直觀,更加便于在機器翻譯中使用。
我還研究了短語結構樹(phrase tree,簡稱P-樹)和依存樹(dependency tree,簡稱D-樹)之間的等價關系,在計算機上進行P-樹到D-樹的轉換。我在20世紀90年代末期帶領一個精干的研究小組,研制出英日機器翻譯系統(tǒng)E-to-J,采用短語結構語法進行英語自動分析,產(chǎn)生P-樹,然后把P-樹轉換為等價D-樹,然后再根據(jù)依存語法,從D-樹生成日語,減少了系統(tǒng)的空間復雜度和時間復雜度,使整個系統(tǒng)達到了實用的水平。這個系統(tǒng)已經(jīng)在1998年11月正式由日本NEC公司在日本市場上推出。
3.研究生成語法的公理化方法。我對于美國語言學家喬姆斯基(N. Chomsky)的形式文法的數(shù)學原理有濃厚的興趣,從公理化方法的角度來研究喬姆斯基的形式文法,我把喬姆斯基的形式文法同數(shù)學中的半圖厄系統(tǒng)(semi-Thue system)相比較,指出了喬姆斯基的形式文法,不過是數(shù)學中的公理系統(tǒng)理論在語言分析中的應用而已,語言就是由文法這一公理系統(tǒng)從初始符號出發(fā)推導出的無限句子的集合;文法的規(guī)則是有限的,文法中的終極符號和非終極符號的數(shù)目也是有限的,可是,由于語言符號具有遞歸性,文法這一公理系統(tǒng)就能夠根據(jù)有限的符號,通過有限的重寫規(guī)則,遞歸地推導出無限的句子來。我的這項研究從數(shù)學的基礎理論方面揭示了形式文法的實質。
4.提出多叉多標記樹模型,研制了世界上第一個把漢語自動地翻譯成多種外語的多語言機器翻譯系統(tǒng)。喬姆斯基根據(jù)形式語法的原理,提出了用短語結構語法來作為自然語言形式描述的一種手段,這種語法在自然語言處理中得到了廣泛的使用。國內外的許多機器翻譯系統(tǒng)都采用喬姆斯基的短語結構語法作為系統(tǒng)設計的基本理論依據(jù),根據(jù)喬姆斯基的短語結構語法,表示句子結構的樹形圖中的每一個結點只有一個相應的標記,結點與標記之間的這種關系是一種單值標記函數(shù)的關系。這種單值標記函數(shù)表示的語言特征是十分有限的,因而在機器翻譯的語言分析和生成中,會產(chǎn)生大量的歧義結構,形成大量的不合語法的句子,它的分析能力有限,生成能力過強,這是短語結構語法的一個致命的缺點。我在法國研制開發(fā)機器翻譯系統(tǒng)的實踐中,就敏銳地認識到短語結構語法的這種致命缺點,經(jīng)過在計算機上編寫程序進行潛心鉆研和反復試驗,我提出了多叉多標記樹模型(Multiple-branched and Multiple-labeled Tree Model,簡稱MMT模型),在這個模型中,我采用多值標記函數(shù)來代替短語結構語法的單值標記函數(shù),使得樹形圖中的一個結點,不再僅僅對應于一個標記,而是對應于若干個標記,這樣便大大地提高了樹形圖的標記能力,使得樹形圖的各個結點上,都能記錄足夠多的語法語義信息,把句子中所蘊含的豐富多彩的信息充分地表示出來。這種多值標記函數(shù)的理論,從根本上克服了喬姆斯基的短語結構語法在描述自然語言時的嚴重缺點,提高了其有限的分析能力,限制了其過強的生成能力。我當時提出的MMT模型是對喬姆斯基短語結構語法的一個帶有實質意義的重要改進,提出后立即引起了國際語言學界的重視。在1982年于布拉格召開的國際計算語言學會議(COLING'82)上,在1983年于北京召開的國際中文信息處理會議(ICCIP'83)上,在1984年于香港召開的東南亞電腦會議(SEARCC'84)上,都討論了MMT模型。就在我提出MMT模型的同時,國外一些計算語言學家也看到了短語結構語法的局限性,分別提出了各種手段來改進它。例如,1983年卡普蘭(R. M. Kaplan)和布列斯南(J. Bresnan)提出的“詞匯功能語法”、1983年馬丁·凱依(Martin Kay)提出的“功能合一語法”、1985年蓋茲達(G. Gazdar)等提出的“廣義短語結構語法”、1985 年珀拉德(C. Pollard)提出的“中心語驅動的短語結構語法”等,都采用了“復雜特征”來描述自然語言,他們所說的所謂“復雜特征”實際上也就是我提出的“多值標記”,名異而實同。所以,我提出的MMT模型是世界計算語言學者對喬姆斯基的短語結構語法進行改進的一個重要方面和不可分割的組成部分,MMT模型是20世紀80年代較早提出的一個旨在改進短語結構語法的形式化模型,當時我國學者在這方面的研究在國際上是處于前沿地位的。1984年荷蘭阿姆斯特丹北荷蘭出版社出版的多卷專著《計算機科學基礎研究》第9卷《自然語言處理的計算機模型》一書(由意大利米蘭大學主編)中,曾詳細介紹了我的MMT模型,并評論說:“馮氏關于獨立分析-獨立生成的主張,關于盡可能地從源語言分析中獲取多方面信息的主張,是當前自然語言處理研究中的一個重要進展”。
我還結合漢語的特點需要,研究了采用MMT模型來進行漢語自動分析的各種問題。我指出,在漢語的自動分析中,采用“多值標記”的必要性更加明顯。這是因為漢語的句子不能只用詞類或詞組類型等簡單特征來描述,漢語句子各個成分的詞類、詞組類型、句法功能、語義關系、邏輯關系之間,存在著極為錯綜復雜的關系,如果只采用簡單特征,就無法區(qū)分各種歧義現(xiàn)象,達不到漢語自動處理的目的。具體地說,這是由于:(1)漢語句子中的詞組類型(或詞類)與句法功能之間不存在簡單的一一對應關系;(2)漢語句子中詞組類型(或詞類)和句法功能相同的成分,它們與句子中其他成分的語義關系還可能不同,句法功能和語義關系之間也不是簡單地一一對應的;(3)漢語中單詞所固有的語法特征和語義特征,對于判別詞組結構的性質,往往有很大的參考價值,除了詞組類型這樣的簡單特征之外,再加上單詞固有的語法特征和語義特征,采用多值標記來描述,就可以判斷詞組結構的性質。
我還提出了用于多值標記的漢語“特征/值”系統(tǒng),特征可分為靜態(tài)特征和動態(tài)特征兩大類,建立了漢語自動分析的雙態(tài)系統(tǒng)(bi-state system)。其中,靜態(tài)特征有:詞類特征、單詞的固有語義特征和它的值、詞的固有語法特征和它的值;動態(tài)特征有:詞組類型特征和它的值、句法功能特征、語義關系特征、邏輯關系特征。在自動句法語義分析中,靜態(tài)特征是計算機進行運算的基礎,計算機依賴于這些預先在詞典中給出的靜態(tài)特征,通過有窮步運算,逐漸計算出各種動態(tài)特征,從而逐步弄清楚漢語句子中各個語言成分之間的關系,達到句法語義分析的目的。
我使用MMT模型,在格勒諾布爾理科醫(yī)科大學應用數(shù)學研究所的大型計算機上,完成了漢-法/英/日/俄/德多語言機器翻譯試驗,建立了FAJRA系統(tǒng)(FAJRA分別是法文的法語、英語、日語、俄語和德語的首字母簡稱)。
當時MMT模型采用的方法,是基于語言規(guī)則的理性主義方法。我學會了計算機編程技術,在計算機上編寫了漢語分析規(guī)則5000條左右,法語、英語、日語、俄語和德語的轉換規(guī)則和生成規(guī)則各3000條左右,一共20,000多條規(guī)則。此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典。這個機器翻譯系統(tǒng)涉及到多種語言,問題極為復雜,在研究的時候,似乎是從零數(shù)到無限大,越是往前研究,問題就越來越多,就越覺得前面充滿了險阻,困難重重,有看不到盡頭的感覺。由于問題復雜,工作量極大,我每天工作時間都超過10小時,扎扎實實苦干了三年,于1981年11月在IBM 4341大型計算機上輸出了法語、英語、日語、俄語和德語等五種語言的機器翻譯譯文。這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統(tǒng)。
在1982年回國之后,我又繼續(xù)使用MMT模型,于1985年在北京市遙感技術研究所的大型計算機上,進行了德-漢機器翻譯試驗和法-漢機器翻譯試驗,建立了GCAT德-漢機器翻譯系統(tǒng)和FCAT法-漢機器翻譯系統(tǒng)。
5.首次在國內開設數(shù)理語言學課程。早在1965年,我就開始關注數(shù)學方法在語言學中的應用問題,在中國社會科學院出版的《語言學資料》雜志1965年第2期上,介紹了計量語言學(quantitative linguistics)中著名的??怂构?。這是50多年前中國學者發(fā)表的最早的關于計量語言學研究的文章,開我國計量語言學研究的先河。當時我才26歲。可是不久就發(fā)生了文化大革命,我的計量語言學研究之夢就像希望的肥皂泡一樣,很快就破滅了,我只好離開了北京大學,改行到邊疆教中學。
1982年,我應北京大學的邀請,又重新回到北京大學,在中文系漢語專業(yè)開設了“語言學中的數(shù)學問題”(即“數(shù)理語言學”[mathematic linguistics])的選修課(計量語言學是數(shù)理語言學的一個分支)。這是國內首次在高等學校全面地、系統(tǒng)地講述數(shù)理語言學的課程,受到學生們的歡迎。北京大學校長、著名數(shù)學家丁石孫教授在他的專著《數(shù)學與教育》一書中,對我開設的這門課程作了如下的評價:“1982年,北京大學中文系開設了《語言學中的數(shù)學問題》,這是給漢語專業(yè)學生開的選修課程,許多同學對這門學科產(chǎn)生了很大的興趣,經(jīng)過一個學期的學習,同學們初步認識了現(xiàn)代數(shù)學的發(fā)展給語言學注入了生機,覺得獲益匪淺,對語言學這門古老的學科分支的發(fā)展充滿了信心,而且,這一舉動沖擊了相當多的人的舊概念,使閉塞的中國學術界認識到,即使在人文科學教育中,數(shù)學也在逐漸起作用?!痹诙∈瘜O校長的支持下,我于1991年在湖南教育出版社出版了《數(shù)學與語言》一書,系統(tǒng)地用數(shù)學方法來研究語言學問題。
6.出版了國內第一本《數(shù)理語言學》專著。我于1985年6月在上海知識出版社出版了《數(shù)理語言學》,這是國內第一本數(shù)理語言學專著。直到1997年國內才出版了第二本數(shù)理語言學的英文本專著,比我寫的第一本專著晚12年。2012年,商務印書館出版了《數(shù)理語言學》的增訂本,全書分“離散數(shù)學與語言”“代數(shù)語言學”“統(tǒng)計語言學”“應用數(shù)理語言學”四部分,全面地介紹了數(shù)理語言學的原理和方法,對于我國數(shù)理語言學的發(fā)展,起了奠基性的作用。
7.從事術語數(shù)據(jù)庫的開發(fā),提出了“術語形成的經(jīng)濟律”。術語是科學知識在自然語言中的結晶,計算機自然語言處理離不開術語研究。我一直關注術語研究,多年從事術語數(shù)據(jù)庫的開發(fā)。在術語數(shù)據(jù)庫研制中,我證明了,在一個術語系統(tǒng)中,術語系統(tǒng)的經(jīng)濟指數(shù)與術語平均長度的乘積恰恰等于單詞的術語構成頻度之值,并提出了“FEL公式”來描述這個定律。根據(jù)FEL公式可知,在一個術語系統(tǒng)中,提高術語系統(tǒng)經(jīng)濟指數(shù)的最好方法是在盡量不過大地改變術語平均長度的前提下,增加單詞的術語構成頻度。這樣,在術語形成的過程中,將會產(chǎn)生大量的詞組型術語,使得詞組型術語的數(shù)量大大地超過單詞型術語的數(shù)量,而成為術語系統(tǒng)中的大多數(shù)。FEL公式從數(shù)理語言學的角度,正確地解釋了為什么術語系統(tǒng)中詞組型術語的數(shù)目總是遠遠大于單詞型術語的數(shù)目的數(shù)學機理,它反映了語言中的省力原則和經(jīng)濟原則,這種原則叫做“術語形成的經(jīng)濟律”。這是我國學者對于數(shù)理語言學中齊夫定律(Zipf's law)的新發(fā)展,也是我國學者對于現(xiàn)代術語學理論的貢獻。
8.提出了“生詞增幅遞減律”。我通過仔細的觀察研究后指出,在一個術語系統(tǒng)中,每個單詞的絕對頻度是不同的,經(jīng)常使用的單詞是高頻詞,不經(jīng)常使用的單詞是低頻詞,隨著術語條目的增加,高頻詞的數(shù)目也相應地增加,而生詞出現(xiàn)的可能性越來越小,這時,盡管術語的條數(shù)還繼續(xù)增加,生詞總數(shù)增加的速率卻越來越慢,而高頻詞則反復地出現(xiàn),生詞的增幅有遞減的趨勢。這個“生詞增幅遞減律”不僅適用于術語系統(tǒng),也適用于閱讀書面文本的過程。人們在閱讀一種用自己不熟悉的語言寫的文本時,開始總有大量不認識的生詞,隨著閱讀數(shù)量的增加,生詞增加的幅度會逐漸減少,如果閱讀者能夠掌握好已經(jīng)閱讀過的生詞,閱讀將會變得越來越容易。在生詞數(shù)W與文本容量T之間存在著如下的函數(shù)關系:W=Φ(T),隨著文本容量T的增大,生詞數(shù)目W的增幅逐漸減少,反映這種函數(shù)關系的曲線也就越來越平滑,整個曲線在直角坐標系內呈現(xiàn)上凸的拋物線形狀。這條函數(shù)曲線也同時反映了閱讀書面語時生詞增加的過程,它實際上就是人們閱讀過程中生詞變化規(guī)律的數(shù)學描述,可以稱為“閱讀曲線”。
9.提出了“潛在歧義論”(Potential Ambiguity Theory,簡稱PA論)。我在術語研究中還發(fā)現(xiàn),在中文術語的歧義格式中,包含著歧義性的一面,也包含著非歧義性的一面,因而這樣的歧義格式是潛在的,它只是具有歧義的可能性,而并非現(xiàn)實的歧義。潛在的歧義能否轉化成現(xiàn)實的歧義,要通過潛在歧義結構的“實例化”(instantiation)過程來實現(xiàn),“實例化”之后,有的歧義結構會變成真正的歧義結構,有的歧義結構則不然。因此我提出了“潛在歧義論(PA論)”。這一理論是對傳統(tǒng)語言學中“類型-實例”(type-token)觀念的沖擊,深化了對于歧義格式本質的認識。后來,我又把PA論從術語領域推廣到日常語言的領域,進行自然語言處理中的歧義消解策略的研究,對于現(xiàn)代漢語中的潛在歧義結構類型進行了深入而系統(tǒng)的研究。
10.提出了漢字結構的括號式表示法,用德文、英文、希臘文向國外介紹漢字的基礎知識。我把一個個的漢字按層次分解為樹形圖結構,再用括號把漢字的結構表示出來,這種漢字結構的括號式表示法便于理解和記憶,在對外漢語教學中受到外國學生的歡迎,我根據(jù)這樣的方法,用德文寫成了《漢字的歷史和現(xiàn)狀》一書在特里爾科學出版社出版。德國特里爾大學韋荷雅(Dorothea Wippermann)博士1996年在《評馮志偉新著〈漢字的歷史和現(xiàn)狀〉(德文版)》一文中指出,馮志偉“在漢字研究中引入了現(xiàn)代的成分分析法。對于這種方法,直到現(xiàn)在為止,許多在專家圈子之外的普通人還很不熟悉,所知極少。這種分析法認為,漢字是由不同的圖形成分組合而成的一個封閉的集合,其中的每一個較大的成分都可以進一步被拆分為較小的成分,一直被拆分到單獨的筆畫為止。漢字結構的這種多層次的多分叉的構造圖形可以用樹形圖來表示,這樣一來,便為揭示漢字總體結構的研究提供了一種系統(tǒng)性的理論和方法。這種在中文信息處理中行之有效的成分分析法,對于漢字的研究和學習,也提供了一種新的記憶手段?!蔽矣玫挛膶懗蛇@本《漢字的歷史和現(xiàn)狀》在國外受到歡迎,在希臘被雅典大學的克里斯丁娜(A. Christina)教授翻譯成希臘文出版。2017年我又用英文寫成了《漢字》一書在外語教學與研究出版社出版,同樣受到了國內外漢語學習者的好評。這些書籍的出版,對于中華傳統(tǒng)文化走出國門,擴大中華傳統(tǒng)文化在世界上的影響,起了很好的推動作用。
11.研究現(xiàn)代語言學流派,寫出了中國第一本現(xiàn)代語言學流派的專著。我早年師從北京大學岑麒祥教授學習理論語言學,為了閱讀外文原著,我學會了英語、法語、德語、俄語、日語等外語,曾經(jīng)認真地閱讀過西方語言學的主要著作的原文本,因此,我在1984年寫成了《現(xiàn)代語言學流派》一書,著重介紹了索緒爾的語言學理論、布拉格學派、哥本哈根學派、美國描寫語言學、法國功能語言學、英國倫敦學派、轉換生成語法、格語法、蒙塔鳩語法、心理語言學、社會語言學、數(shù)理語言學等現(xiàn)代語言學中的主要流派和新興學科。此書于1998年由商務印書館出修訂本,增加了葉斯柏森的語言理論、法蘭西學派、配價語法等內容,2013年由商務印書館出增訂本,增加了莫斯科語義學派、語料庫語言學、語言類型學、認知語言學、計算語言學等內容。此書對于現(xiàn)代語言學知識的普及和傳播起了很好的作用,被多所大學列為語言學博士生入學考試的必讀書。
12.建立漢語文本自動切分的形式詞理論。漢語書面文本的自動切分研究中,切分單位的確定一直是懸而未決的難點。我系統(tǒng)地研究這個難題,建立了漢語文本自動切分的形式詞理論,并提出了操作性很強的鑒別方法。形式詞理論深化了現(xiàn)代漢語書面文本的自動切分基礎理論的研究。
13.出版了國內第一本《現(xiàn)代術語學引論》專著。我于1997年在語文出版社出版了《現(xiàn)代術語學引論》,這是國內第一本術語學的專著。2011年,商務印書館出版了《現(xiàn)代術語學引論》的增訂本。此書共16章,分別講述術語學的歷史和現(xiàn)狀、術語、概念系統(tǒng)和知識本體、定義、術語編纂、術語標準化、術語命名原則、術語數(shù)據(jù)的存儲與交換、中國的術語工作、中文單詞型術語、術語形成經(jīng)濟律、潛在歧義論、中文名詞詞組術語的結構、中文動詞詞組術語和形容詞詞組術語的結構、中文名動同形詞詞組術語的結構、計算術語學等問題。此書把傳統(tǒng)術語學中基于概念的術語觀推進到了基于知識本體的術語觀,把傳統(tǒng)術語學中規(guī)范性的術語觀推進到了描寫性的術語觀,把傳統(tǒng)術語學中共時性的靜態(tài)術語觀推進到了歷時性的動態(tài)術語觀,為我國的現(xiàn)代術語學構建了一個完整的理論框架。
14.建立了漢語的本體知識體系ONTOL-MT。我在研究日漢機器翻譯時,根據(jù)亞里士多德的范疇分類,建立了一個體現(xiàn)了人文精神的本體知識體系ONTOL-MT。在ONTOL-MT知識本體系統(tǒng)中的概念,實際上也就是單詞本身所固有的語義特征,它們是獨立于單詞的上下文而存在的,因此,可以用這些概念來表示機器翻譯詞典中單詞的固有語義特征。在日漢機器翻譯研制中,我利用單詞固有的這些語義特征在機器翻譯系統(tǒng)中進行日語分析中同形詞的判別,效果良好。魯東大學亢世勇教授主編《新編同義詞詞林》,請我擔任顧問,他們根據(jù)我提出的本體知識體系ONTOL-MT,把《新編同義詞詞林》中的單詞分為15個大類、203個中類、1477個小類,對于原來的《同義詞詞林》的分類進行細化,《新編同義詞詞林》于2015年在上海辭書出版社出版。
15.出版了大部頭專著《自然語言計算機形式分析的理論和方法》。我于2010年在中國科學技術大學出版社出版了《自然語言處理的形式模型》,收入中國科學技術大學校友文庫,受到讀者的歡迎。后來我在此書的基礎上進一步重寫,根據(jù)學科的最新發(fā)展增加了大量的新內容,完成了篇幅為110萬字的《自然語言計算機形式分析的理論和方法》一書,于2017年在中國科學技術大學出版社出版,收入當代科學技術基礎理論和前沿問題研究叢書,屬于“十三五”國家重點圖書出版規(guī)劃項目。全書共18章,對于自然語言處理中的各種理論和方法進行了系統(tǒng)的總結和梳理。首先討論了自然語言處理的學科定位,接著介紹了語言計算的一些先驅研究,然后以主要的篇幅討論自然語言計算機形式分析的各種理論和方法,同時還討論了自然語言處理系統(tǒng)的評測問題,最后從哲學的角度討論了自然語言處理中的理性主義和經(jīng)驗主義,探索理性主義方法和經(jīng)驗主義方法結合的途徑。本書出版后好評如潮,是中國自然語言處理的集大成之作。
16.出版了《自然語言處理簡明教程》,推動了國內的計算語言學跨學科教學。我于2012年在上海外語教育出版社出版了《自然語言處理簡明教程》,收入現(xiàn)代語言學叢書。此書共18章,分別講述了自然語言處理與理論語言學、詞匯自動處理、形態(tài)自動處理、句法自動處理、結構歧義、良構子串表與線圖、復雜特征與合一、語義自動處理、馬爾可夫鏈與隱馬爾可夫模型、語料庫語言學、機器翻譯、信息自動檢索、信息抽取和自動文摘、文本數(shù)據(jù)挖掘、自然語言理解、自動問答與人機接口、術語數(shù)據(jù)庫與計算術語學、計算機輔助語言教學和語言測試、語音合成、語音識別和漢字識別等自然語言處理的基礎知識和技術。此書成為高等學校的自然語言處理課程教材,促進了語言學和計算機科學的自然語言處理教學。
17.翻譯出版了《自然語言處理綜論》《統(tǒng)計語言學習》等國外計算語言學名著。我還關注國外計算語言學的發(fā)展情況,把國外的計算語言學名著翻譯成中文,分別在電子工業(yè)出版社和世界圖書出版公司出版。《自然語言處理總論》和《統(tǒng)計語言學習》都是國際上公認的計算語言學優(yōu)秀教材,翻譯出版后受到計算語言學師生的歡迎。我還為《自然語言交流的計算機模型》(譯自英文)、《普通術語學和術語詞典編纂學導論》(譯自德文)、《術語學、知識論和知識技術》(譯自德文)等國外名著的譯文對照原文做審校,提高了這些著作的譯文質量。
18.為國外語言學名著寫導讀。我先后為國外語言學名著《牛津計算語言學手冊》《應用語言學中的語料庫》《譯者的電子工具》《人工智能在第二語言教學中的應用——提高對于偏誤的意識》《系統(tǒng)與語料》《語言學中的數(shù)學方法》《自然語言生成系統(tǒng)的建造》等寫導讀。在寫導讀之前,我要精讀原文,找出全書各部分的內在聯(lián)系,目的在于引導青年語言學者熟悉國外語言學的最近動態(tài),促進我國語言學研究的國際化。
19.為青年作者的專著寫序言。為了鼓勵青年學者從事創(chuàng)新性的語言學研究,我先后為《漢語計算語言學——漢語形式語法和形式分析》《現(xiàn)代韓國語動詞語義組合關系研究》《現(xiàn)代語言學名著導讀》《統(tǒng)計自然語言處理》《論漢英平行語料的平行處理》《十三經(jīng)字頻研究》《現(xiàn)代漢語動賓搭配的語義分析和計算》《語料庫語言學研究叢書》《基于認知的漢語計算語言學研究》《俄羅斯計算語言學與機器翻譯》《基于雙語語料庫的漢英視點體對比研究》《面向信息檢索的漢語同義詞自動識別》《句子語義學》《俄語潛在歧義研究》《依存語法的理論與實踐》《翻譯和本地化工程》《面向大學英語教學的通用計算機作文評分和反饋方法研究》《基于動態(tài)流通語料庫的新詞語監(jiān)測研究》《英譯漢網(wǎng)上自動評測》《語料庫語言學與計算語言學叢書》《漢語拼音詞匯(專有名詞部分)》《面向大數(shù)據(jù)的高效能垃圾文本分類》《邏輯綴詞理論與漢語特殊句式句法結構》《跨學科視域下的翻譯研究》《詞語認知屬性的知識庫構建和應用》《術語管理概論》《基于修辭結構樹庫的篇章銜接標記用法研究》等專著寫序言。寫每一篇序言之前,我都要仔細閱讀全書,深入理解之后才動筆。
20.推動漢語拼音走向世界。為了適應向信息時代的需要,我受國家教育部的委托,參加了國際標準ISO 7098《信息與文獻工作—中文羅馬字母拼寫法》的修訂,并被國際標準化組織任命為國際標準ISO 7098的國際修訂組組長,先后于2011年5月、2012年5月、2013年6月、2014年5月分別到悉尼、柏林、巴黎、華盛頓參加了ISO/TC 46的國際會議。在修訂過程中,我用自己熟悉的英語、德語、法語、日語等外國語,積極地與各國代表和應用部門分別進行溝通與協(xié)調,克服多輪投票表決過程中遇到的重重困難和問題,認真應對,智慧處理,圓滿完成了這項體現(xiàn)國家語言主權和關系國家利益的重要使命。由我國主導的ISO 7098的修訂提案順利通過了工作組草案、委員會草案、國際標準草案等各階段投票以及委員會內部最終投票,于2015年用英文成功出版發(fā)布。
21.培養(yǎng)了一批計算語言學和數(shù)理語言學的研究生。我在中國科學技術信息研究所培養(yǎng)了多名機器翻譯專業(yè)的理科碩士生,在教育部語言文字應用研究所培養(yǎng)了多名計算語言學的文科碩士研究生,在中國傳媒大學培養(yǎng)了多名計算語言學的跨學科博士研究生。這些研究生中的不少人后來成為我國這一領域的帶頭人,為此我感到無比的欣慰。作為一個研究生導師,我們的責任,就是把我們對于科學和文化的熱愛,傳授給青年學子,讓他們與我們老一代人一起來分享人類知識寶庫的知識財富,為這個知識寶庫添磚建瓦,做出我們的貢獻,并以此來體現(xiàn)我們人生的價值,從中得到最大的愉快。因此,我也為我國的研究生教育工作做出了微薄的貢獻。
我現(xiàn)在是教育部(國家語言文字工作委員會)語言文字應用研究所的研究員、學術委員會委員和博士生導師、中國人工智能學會理事、中國語文現(xiàn)代化學會顧問、中國應用語言學會常務理事、北京市語言學會理事、中國術語工作網(wǎng)副秘書長、全國計算機輔助術語工作技術委員會常務副主任、中國外語教學研究中心學術委員會委員、全國術語標準化技術委員會委員、國家自然科學基金委員會信息科學部評審委員、國家社會科學基金語言學科評審委員、北京市自然科學基金評審委員,又是《中文信息學報》顧問,《中國語文》《語言文字應用》《語言科學》等學術刊物的編委,《數(shù)學辭?!房偩庉嬑瘑T會委員,《中國大百科全書》的《語言文字卷》編輯委員會成員。我還是北京大學、浙江大學、北京外國語大學、杭州師范大學、華中科技大學、西安交通大學、中國傳媒大學的兼職教授,清華大學、大連海事大學的講座教授。
在國際上,我是跨歐洲語言資源基礎建設工程學會(Trans-European Language Resources Infrastructure,簡稱TELRI)的顧問委員會委員,第一、二、三屆語言資源與評測會議(Language Resources and Evaluation Committee,簡稱LREC)的國際顧問委員會委員,《語料庫語言學國際雜志》(International Journal of Corpus Linguistics,簡稱IJCL)的編委,《中文與計算國際雜志》(International Journal of Chinese and Computing,簡稱IJCC)的編委,英國Continuum出版公司系列叢書《語料庫與話語研究》(Research in Corpus and Discourse)的編委。
我是一個多語者,能用多種語言寫作。我是在1998年退休的,僅就中文的寫作而言,退休前我寫了141篇中文論文,退休后寫了248篇中文論文;退休前我寫了16本中外文專著,退休后,我寫了22本中外文專著。顯而易見,在1998年退休之后,我實際上是退而不休,反而成為一個在學術上高產(chǎn)的學者。這是什么原因呢?
我深入地思考過這個問題,我認為,其原因在于我在退休之后擺脫了名和利的干擾。名和利就像一對可恨的影子,時時刻刻跟著我們,無法擺脫。退休之前,評職稱、評獎、評基金、評名次、評津貼等與名和利密切相關的雜事總是纏繞著我,我總是受到名和利這一對影子的干擾,做什么事情都擺脫不了名和利,思想受到束縛,寫不出很多東西來。退休之后,評職稱、評獎、評基金、評名次、評津貼都與我沒有關系了,我就像走到了一棵枝葉茂密大樹下面,大樹的樹蔭把名和利這一對影子完全遮住了、吞沒了,我再也看不到名和利這一對可恨的影子了。由于擺脫了名和利的干擾,我的思想也得到解放,思路更加開闊了,我終于獲得了獨立的人格、自由的思想,因此,我的成果比退休之前多得多。不知諸位以為然否?
八十老翁,無善可陳,平生無悔,褒貶由之。謹以此文作為我八十虛歲的紀念,恭請大家指正。
本文作者系教育部(國家語言文字工作委員會)語言文字應用研究所的研究員。