北京大學(xué)計(jì)算語言學(xué)研究所研制的綜合型語言知識庫(Comprehensive Language Knowledge Base,簡稱:CLKB)繼近幾年連續(xù)獲得政府部門和全國性學(xué)術(shù)團(tuán)體的獎(jiǎng)勵(lì)之后,更上一層樓,又獲得2011年度國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)(證書號:2011-J-220-2-02)。第一完成人俞士汶教授參加了今年2月14日在北京舉行的國家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會。
始于1986年歷時(shí)26年CLKB 的研發(fā)歷程大致可劃分為3個(gè)階段。第一階段前10年(1986-1995)的任務(wù)是探索奠基,標(biāo)志是其第一塊基石《現(xiàn)代漢語語法信息詞典》1998年獲教育部科技進(jìn)步二等獎(jiǎng)。第二階段的中間11年(1996-2006)為構(gòu)建落成階段,CLKB于2007年通過教育部組織的技術(shù)鑒定并獲教育部科技進(jìn)步一等獎(jiǎng)。第三階段(2007至今)則進(jìn)一步拓展、深化。在此期間CLKB 于2008年獲北京技術(shù)市場金橋獎(jiǎng)二等獎(jiǎng),于2010年又獲中國電子學(xué)會電子信息科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。
獲得國家獎(jiǎng)的CLKB包括6個(gè)語言知識庫、10項(xiàng)規(guī)范與標(biāo)準(zhǔn)、4個(gè)核心基礎(chǔ)軟件和4個(gè)應(yīng)用系統(tǒng),它們相互支撐,形成一個(gè)緊密聯(lián)系的有機(jī)整體。語言知識庫是CLKB的主體,主要有:(1)現(xiàn)代漢語語法信息詞典,(2)漢語短語結(jié)構(gòu)規(guī)則庫,(3)現(xiàn)代漢語多級加工語料庫, (4)多語言概念詞典, (5)平行語料庫, (6)多領(lǐng)域術(shù)語庫。CLKB的系列化語言知識庫涵蓋詞、詞組、句子、篇章各個(gè)語言單位和詞法、句法、語義各個(gè)知識層面,從漢語向多語言輻射,從通用領(lǐng)域深入到專業(yè)領(lǐng)域。
CLKB中的規(guī)范和論著被廣泛引用,數(shù)據(jù)資源的免費(fèi)用戶數(shù)以萬計(jì)。自1996年以來的簽約用戶遍布美、日、德、法、俄、英、韓、瑞典、新加坡和中國大陸、臺灣、香港,包括從事相關(guān)研究的著名企業(yè)、大學(xué)和研究所。最近的一項(xiàng)技術(shù)轉(zhuǎn)讓協(xié)議于2012年2月簽訂。CLKB生命期之長在IT領(lǐng)域?qū)崒俸币姡胰栽诎l(fā)展中。
感謝業(yè)界先進(jìn)、同仁和用戶長期以來對CLKB的支持和關(guān)愛,衷心期望大家繼續(xù)關(guān)注和扶植“綜合型語言知識庫”?!秶抑虚L期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006-2020)》將基于自然語言理解的中文信息處理列為前沿技術(shù),昭示了語言信息處理有廣闊的發(fā)展空間。期望“綜合型語言知識庫”在以漢語為中心的語言信息處理技術(shù)的發(fā)展歷程中發(fā)揮更多、更有效的作用。特別感謝中國中文信息學(xué)會和《中文信息學(xué)報(bào)》對CLKB的支持。《中文信息學(xué)報(bào)》這塊園地為“綜合型語言知識庫”的成長提供了沃土,有關(guān)“綜合型語言知識庫”的很多論文都在《中文信息學(xué)報(bào)》上發(fā)表。擇其要者,介紹CLKB的最新論文《綜合型語言知識庫及其前景》作為特邀文章發(fā)表于《學(xué)報(bào)》為慶祝中文信息學(xué)會成立30周年而組織的???2011年第25卷第6期)上?!冬F(xiàn)代漢語語法信息詞典規(guī)格說明書》最先發(fā)表于《學(xué)報(bào)》1996年第2期,為“綜合型語言知識庫”的問世發(fā)出了第一聲吶喊?!氨本┐髮W(xué)現(xiàn)代漢語語料庫基本加工規(guī)范”在《學(xué)報(bào)》2002年第5期和第6期上連載,該文又經(jīng)《學(xué)報(bào)》推薦,獲中國科學(xué)技術(shù)協(xié)會第四屆中國科協(xié)期刊優(yōu)秀學(xué)術(shù)論文獎(jiǎng)。此外,十分榮幸,俞士汶教授榮獲中國中文信息學(xué)會于2011年底頒發(fā)的 “終身成就獎(jiǎng)”。