賀召華
摘 要 自然語(yǔ)言理解是人工智能研究重要的領(lǐng)域之一,同時(shí)也是目前前沿的難題之一。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法,是未來人工智能的核動(dòng)力。因此理解自然語(yǔ)言理解以及自然語(yǔ)言理解技術(shù)的含義,闡述自然語(yǔ)言理解的研究及其相關(guān)應(yīng)用,綜述自然語(yǔ)言理解技術(shù)研究方向變化并對(duì)自然語(yǔ)言理解的發(fā)展前景進(jìn)行分析和展望,是十分有意義的。
關(guān)鍵詞 自然語(yǔ)言 發(fā)展 研究方向
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A
自然語(yǔ)言俗稱人機(jī)對(duì)話,是人工智能的分支學(xué)科。研究用電子計(jì)算機(jī)模擬人的語(yǔ)言交際過程,使計(jì)算機(jī)能理解和運(yùn)用人類社會(huì)的自然語(yǔ)言如漢語(yǔ)、英語(yǔ)等,實(shí)現(xiàn)人機(jī)之間的自然語(yǔ)言通信,以代替人的部分腦力勞動(dòng),包括查詢資料、解答問題、摘錄文獻(xiàn)、匯編資料以及一切有關(guān)自然語(yǔ)言信息的加工處理。自然語(yǔ)言理解是一門新興的邊緣學(xué)科,內(nèi)容涉及語(yǔ)言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué),而以語(yǔ)言學(xué)為基礎(chǔ)。自然語(yǔ)言理解的研究,綜合應(yīng)用了現(xiàn)代語(yǔ)音學(xué)、音系學(xué)語(yǔ)法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué)的知識(shí),同時(shí)也向現(xiàn)代語(yǔ)言學(xué)提出了一系列的問題和要求。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。
1自然語(yǔ)言的特征
用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語(yǔ)言來使用計(jì)算機(jī),而無需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言;人們也可通過它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解,后者稱為自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多,而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況近年來已有所改變。
自然語(yǔ)言處理,即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性。但從計(jì)算機(jī)處理的角度看,我們必須消除歧義,而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問題,即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無歧義的計(jì)算機(jī)內(nèi)部表示。歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理,這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來了巨大的困難。
2自然語(yǔ)言的發(fā)展
60年代至70年代初期,研究工作一直停留在單詞的語(yǔ)音識(shí)別上,進(jìn)展不大。直到70年代中期才有所突破,建立了一些實(shí)驗(yàn)系統(tǒng),能夠理解連續(xù)語(yǔ)音的內(nèi)容,但是還限于少數(shù)簡(jiǎn)單的語(yǔ)句。用文字輸入,使計(jì)算機(jī)“看懂”文字符號(hào),也用文字輸出應(yīng)答。這方面的進(jìn)展較快,70年代初期取得突破,中期以后又有所發(fā)展。目前已能在一定的詞匯、句型和主題范圍內(nèi)查詢資料,解答問題,閱讀故事,解釋語(yǔ)句等,有的系統(tǒng)已付諸應(yīng)用。由于絕大多數(shù)語(yǔ)種使用的是拼音文字,計(jì)算機(jī)識(shí)別拼音字母已無問題,而輸入又是按單詞分別拼寫,因此書面理解一般沒有切分音節(jié)和單詞的問題,只需直接分析詞匯、句法和語(yǔ)義。但是漢語(yǔ)用的是漢字,無論是用漢字編碼輸入還是將來計(jì)算機(jī)能直接認(rèn)識(shí)漢字,都要首先解決切分單詞的問題,因?yàn)檩斎刖褪且贿B串漢字,詞和詞之間沒有空隔。書面理解的基本方法是:在計(jì)算機(jī)里貯存一定的詞匯、句法規(guī)則、語(yǔ)義規(guī)則、推理規(guī)則和主題知識(shí)。語(yǔ)句輸入后,計(jì)算機(jī)自左至右逐詞掃描,根據(jù)詞典辨認(rèn)每個(gè)單詞的詞義和用法;根據(jù)句法規(guī)則確定短語(yǔ)和句子的組合;根據(jù)語(yǔ)義規(guī)則和推理規(guī)則獲取輸入句的含義;查詢知識(shí)庫(kù),根據(jù)主題知識(shí)和語(yǔ)句生成規(guī)則組織應(yīng)答輸出。目前已建成的書面理解系統(tǒng)應(yīng)用了各種不同的語(yǔ)法理論和分析方法,如生成語(yǔ)法、系統(tǒng)語(yǔ)法、格語(yǔ)法、語(yǔ)義語(yǔ)法等等,都取得了一定的成效。
3自然語(yǔ)言的研究方向
大約90年代開始,自然語(yǔ)言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是:
(1)系統(tǒng)輸入:要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值;
(2)系統(tǒng)輸出:鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。關(guān)于自然語(yǔ)言真正理解的研究目前已取得進(jìn)展。
語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式,人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來的。因而,自然語(yǔ)言理解也是人工智能的一個(gè)重要核心部分。
參考文獻(xiàn)
[1] 黃培紅.自然語(yǔ)言理解的機(jī)器認(rèn)知形式系統(tǒng)[J].湖南:計(jì)算機(jī)工程與科學(xué),2007,29(6):l13-l16.
[2] 王小捷,常寶寶.自然語(yǔ)言處理基礎(chǔ)[M].北京郵電大學(xué)出版社,2002.