• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      R.Hausser的左結合語法

      2014-10-24 01:18:47馮志偉
      外語學刊 2014年2期
      關鍵詞:樹結構結點短語

      馮志偉

      (杭州師范大學,杭州 310036)

      ●語言學

      〇引進與詮釋

      R.Hausser的左結合語法

      馮志偉

      (杭州師范大學,杭州 310036)

      本文在“語表組合線性內部匹配”理論和“數(shù)據(jù)庫語義學”基礎上,介紹Roland Hausser的“左結合語法”。 這種獨具特色的形式語法,對于自然語言的自動分析和自動生成具有重要的指導意義。

      語表組合線性內部匹配;數(shù)據(jù)庫語義學;左結合語法

      采用計算機技術來研究和處理自然語言是20世紀 40 年代末期和50年代才開始的。50多年來,這項研究取得長足的進展,成為當代語言學中一個重要的新興分支——自然語言處理(Natural Language Processing,簡稱NLP)。在信息網絡時代,自然語言處理引起包括計算機專家和語言學家在內的越來越多的學者的重視,成為文科和理科緊密結合的一門典型交叉學科(Manaris 1999)。

      由于現(xiàn)實的自然語言極為復雜,不可能直接作為計算機的處理對象,為了使現(xiàn)實的自然語言成為可以由計算機直接處理的對象,在眾多的應用領域中,我們需要根據(jù)處理的要求,把自然語言抽象處理為一個“問題”(problem),再把這個問題在語言學上加以“形式化”(formalism),建立語言的“形式模型”(formal model),使之能以一定的數(shù)學形式,嚴密而規(guī)整地表示出來,并且把這種嚴密而規(guī)整的數(shù)學形式表示為“算法”(algorithm),建立自然語言處理的“計算模型”(computational model),使之能夠在計算機上實現(xiàn)。在自然語言處理中,算法取決于形式模型,形式模型是自然語言計算機處理的本質,而算法只不過是實現(xiàn)形式模型的手段而已。這種建立語言形式模型的研究是非常重要的,它應當屬于自然語言處理的基礎理論研究。(馮志偉 2010)

      由于自然語言處理的復雜性,這樣的形式模型的研究往往是一個“強不適定問題”(strongly ill-posed problem),也就是說,在用形式模型建立算法來求解自然語言處理的問題時,往往難以滿足問題解的“存在性”、“唯一性”和“穩(wěn)定性”這3條最基本的要求,有時是不能滿足其中的一條,有時甚至3條都不能滿足。因此,對于這樣的強不適定性問題求解,應當加入適當?shù)摹凹s束條件”(constraint conditions),使問題的一部分在一定的范圍內變成“適定問題”(well-posed problem),從而順利地求解這個問題,建立自然語言處理的形式模型,以達到自然語言處理的目標。(張鈸 2007:3-7)

      我們在本文中介紹的“左結合語法”(Left-Associative Grammar,簡稱LA)就是一種獨具特色的自然語言處理的形式模型。

      左結合語法的創(chuàng)始人Roland Hausser是德國愛爾蘭根-紐倫堡大學計算語言學教授。他先后出版了《表面組成語法》、《自然人機交流》、《計算語言學基礎-人機自然語言交流》和《自然語言交流的計算機模型》等多部專著,發(fā)表文章近百篇。近年來,Hausser進一步提出了“數(shù)據(jù)庫語義學”(Database Semantics,簡稱DBS)和完整的“語表組合線性內部匹配”理論(Surface Compositional Li-near Internal Matching,簡稱SLIM),創(chuàng)立了左結合語法,在計算語言學界形成了他自己獨特的風格。

      我與Hausser曾有一面之交。2002年聯(lián)合國教科文組織(UNESCO)韓國委員會在韓國首爾舉行了一次關于“信息時代的語言問題”的學術研討會,我和Hausser都被邀請參加了這次會議,在會議期間的交談中,我對于Hausser獨特的理論有了初步的了解,回國之后,我又細讀了他的《計算語言學基礎-人機自然語言交流》一書,對于他的理論又有了進一步的認識。我認為Hausser是一位具有獨創(chuàng)精神的計算語言學家。

      2006年,Hausser又出版了《自然語言交流的計算機模型-數(shù)據(jù)庫語義學下的語言理解、推理和生成》一書(Hausse 2006)。在這本書中,他系統(tǒng)地分析了自然語言的主要結構,以英語為例,分析了聽話人模式(hearer mode)和說話人模式(speaker mode)下的示意推導。聽話人模式下的分析主要討論了如何嚴格按照時間線性順序將函詞-論元結構(hypotaxis)和并列結構(parataxis)編碼為命題因子,并把共指(coreference)作為推理基礎上的二級關系來分析。說話者模式下的分析主要討論如何在詞庫內進行以提取內容為基礎的自動導航,如何按照相應語言的語法要求輸出正確的詞形和語序,如何析出適當?shù)墓δ茉~,等等。在這本重要的著作中,Hausser構建了一個功能完整但覆蓋面有限的英語交流體系,為我們提供了一個對自然語言交流進行理論分析的功能框架。

      Hausser認為,面向未來的計算語言學的中心任務就是研究一種人類可以用自己的語言與計算機進行自由交流的認知機器。因此,自然語言的人機交流應當是計算語言學的中心任務。計算語言學研究應當通過對說話人的語言生成過程與聽話人解釋語言的過程進行建模,在適宜的計算機上復制信息的自然傳遞過程,從而構建一種可與人用自然語言自由交流的自治的認知機器,這樣的認知機器也就是機器人(robot)。為了實現(xiàn)這一目標,我們必須對于自然語言交流機制的功能模型有深刻的理解。

      Hausser提出的“語表組合線性內部匹配”理論以人作為人機交流的主體,而不是以語言符號為主體,突出了人在人機交流中的主導作用,SLIM理論要求通過完全顯化的機械步驟,使用邏輯和電子的方式來解釋自然語言理解和自然語言的生成過程。因此, SLIM理論與現(xiàn)代語言學中的結構主義、行為主義和言語行為等理論是不同的,具有明顯的創(chuàng)新特色。

      SLIM理論強調“表層成分”(Surface),以語表組合性作為它的方法論原則;SLIM理論強調“線性”(Linear),以時間線性作為它的實證原則;SLIM理論強調語言的“內部因素”(Internal),以語言的內部因素作為它的本體論原則;SLIM理論強調“匹配”(Matching),以語言和語境信息之間的匹配作為它的功能原則。事實上,SLIM這個名字本身就來自于“表層成分”、“線性”、“內部因素”和“匹配”這4項原則的英文名稱的首字母縮寫。

      SLIM理論的技術實現(xiàn)手段叫做“數(shù)據(jù)庫語義學”(DBS)。DBS是把自然語言理解和生成重新建構為“角色轉換”(turn-taking)的規(guī)則體系。角色轉換指的是從“說話人模式”向“聽話人模式”的轉換,或者從“聽話人模式”向“說話人模式”的轉換。

      在自然語言的實際交流過程中,第1個過程是聽話人模式中的自然主體從另一個主體或者語境獲得信息,第2個過程是自然主體在自己的認知當中分析信息,第3個過程是自然主體思考如何作出反應,第4個過程是自然主體用語言或者行動做出反饋。

      DBS的輸入與第1個過程相似,要求計算機或者機器人具備外部界面。接下來匹配語境和認知的內容,采用左結合語法(LA)來模擬第2個過程,這個左結合語法是處于聽話人模式中的,叫做LA-hear。左結合語法的第二個變體負責在內存詞庫中搜索合適的內容,叫做LA-think,這一部分操作對應于第3個過程。左結合語法的第三個變體的任務是語言生成,叫做LA-speak,模擬第4個過程。如圖1所示:

      圖1 角色轉換體系

      在圖1中,聽話人模式的LA-hear模擬第2個過程,說話人模式的LA-think模擬第3個過程,LA-speak模擬第4個過程。

      DBS的分析結果用DBS圖(DBS graph)來表示。DBS圖是一種樹結構,但是,DBS圖的樹結構與短語結構語法和依存語法的樹結構有所不同。例如,英語的句子The little girl slept(那個小女孩睡著了) 用短語結構語法分析后的樹結構如下:

      圖2 短語結構樹

      在這個短語結構語法的樹結構中,S(句子)由NP(名詞短語)和VP(動詞短語)組成,NP由DET(限定詞),ADJ(形容詞)和N(名詞)組成,它們分別對應于單詞the, little和girl,VP對應于單詞slept. 句子的層次和單詞之間的前后線性關系都是很清楚的,但是,在組成S的NP和VP之間,沒有說明哪一個是中心詞,在組成NP的DET, ADJ和N之間,也沒有說明哪一個是中心詞,句子中各個成分的中心不突出。

      用依存語法分析后的樹結構如下:

      圖3 依存結構樹

      在這個依存語法的樹結構中,全部結點都是具體的單詞,沒有S, NP, VP, DET, ADJ和N等表示范疇的結點,各個單詞之間的依存關系清楚,這種依存關系是二元關系,支配者是中心詞,被支配者的從屬詞。但是,單詞之間的前后線性順序不如短語結構語法的樹結構那樣明確。

      用DBS圖分析后的樹結構如圖4所示:

      圖4 DBS圖的樹結構

      在DBS圖的樹結構中,著重對語言內容進行分析,因此,沒有表示定冠詞 the 的結點,結點上的單詞都用原型詞表示。DBS圖最突出的特色在于,DBS圖樹結構的結點之間的連線各自有其明確的含義,連線不僅表示結點之間的依存關系,還可以根據(jù)連線走向的不同來表示不同的功能:垂直豎線“|” 表示修飾-被修飾關系,例如,圖4中l(wèi)ittle與girl用垂直豎線相連,表示little修飾girl;左斜線 “/” 代表主語-動詞關系,例如,圖4中girl與sleep用左斜線相連,表示girl是sleep的主語。此外,DBS圖樹結構還使用右斜線 “” 表示賓語-動詞關系,使用水平線 “-”表示并列關系。由于連線走向的不同可以表示不同的功能,這樣的樹結構表示的信息比短語結構語法的樹結構和依存語法的樹結構豐富多了。這是DBS圖樹結構最引人矚目的特點。

      上面的DBS圖中表示了little做girl的修飾語,girl做sleep的主語,表達的是句子中單詞之間的語義關系,所以,Hausser把這樣的DBS圖叫做“語義關系圖”(the semantic relations graph,簡稱SRG)。

      如果把DBS圖中每個結點上的單詞替換為代表其詞性的字母,那么,語義關系圖就變成了“詞性關系圖”(the part of speech signature,或者簡寫為signature)。上一例句的詞性關系圖如圖5所示:

      圖5 詞性關系圖

      語義關系圖和詞性關系圖是同一句子內容的不同表示,它們表示的內容相同,表示的形式不同。

      Hausser在2011年的新書中還提出了另外兩個圖:一個是“編號弧圖”(the numbered arcs graph,簡稱NAG), 一個是“語表實現(xiàn)圖”(the surface realization)。這兩個圖分別表現(xiàn)如何從內容生成語言的過程和結果。編號弧圖表示激活語義關系圖的時間線性順序,也就是說,編號弧圖在某種程度上可以說是添加了編號弧的語義關系圖。語表實現(xiàn)圖表示如何按照遍歷順序生成語言的表層形式。

      例如,英語句子“The little girl ate an apple”(這個女孩吃了一個蘋果)的語義關系圖(SRG)如圖6所示:

      圖6 語義關系圖

      由于語義關系圖(SRG)只表示句子的內容,所以,在這個SRG中,沒有表示定冠詞the的結點,也沒有表示不定冠詞an的結點,過去時形式ate用不定式動詞eat來表示。

      這個句子的詞性關系圖(signature)如圖7所示:

      圖7 詞性關系圖

      在這個詞性關系圖中,結點上的單詞都替換表示其詞性的字母。

      這個句子的編號弧圖(NAG)如圖8所示:

      圖8 編號弧圖

      由于編號弧圖要表示激活語義關系圖的時間線性順序,這種時間順序用編號弧表示,編號弧用虛線標出,并在虛線旁邊用數(shù)字注上時間的線性順序:結點eat首先激活的結點girl(編號弧1);接著,結點girl激活結點little(編號弧2),由于它們之間用垂直豎線“|”相連,因此,可推導出little修飾girl(編號弧3);由于結點girl與結點eat之間用左斜線 “/”相連,因此,可推導出girl是eat的主語(編號弧4);然后,結點eat激活結點apple(編號弧5),由于結點apple與結點eat之間用右斜線 “”相連,因此,可推導出apple是eat的賓語(編號弧6)??梢钥闯觯斜硎就茖У木幪柣〉姆较蚨际亲缘紫蛏系?。

      這個句子的語表實現(xiàn)圖如圖9所示:

      圖9 語表實現(xiàn)圖

      圖9中的數(shù)字表示單詞生成的順序。

      數(shù)據(jù)庫語義學(DBS)有兩個基礎:一個是左結合語法(LA-grammar),一個是單詞數(shù)據(jù)庫(word bank)。左結合語法和單詞數(shù)據(jù)庫在DBS中緊密結合在一起。Hausser把左結合語法比作火車頭,把單詞數(shù)據(jù)庫比作火車運行必需的鐵路系統(tǒng)。

      單詞數(shù)據(jù)庫存儲單詞的內容,其存儲形式是一種非遞歸的特征結構,叫做“命題因子”(proplets)。英文 “proplet” 取自 “proposition droplet”,表示命題的構成部分。

      一個命題因子是“屬性-值偶對”的集合。每個單詞或者句子元素的句法語義信息都體現(xiàn)為相應的屬性-值矩陣。例如,漢語“學生”這個單詞的屬性-值矩陣如圖10所示:

      圖10 屬性-值矩陣

      這樣的屬性-值矩陣就是單詞數(shù)據(jù)庫的“命題因子”。

      左結合語法是按照自然語言的時間線性順序自左向右結合進行分析與計算的方法。

      具體來講,每個句子的第一個詞為整句分析過程中的第一個“句子起始部分”(sentence start),之后輸入下“一個詞”(next word),二者經過計算構成新的句子起始部分,再繼續(xù)與下一個輸入的單詞進行組合計算。這樣不斷地進行分析,直到句子結束或者出現(xiàn)語法錯誤才終止。當出現(xiàn)句法歧義或者詞匯歧義時,左結合語法允許按照不同的推導路徑并行地繼續(xù)運算。

      Hausser將左結合語法與短語結構語法進行了對比分析。他指出,左結合語法與短語結構語法是同質的語言分析方法。它們之間的差異在于:短語結構語法依據(jù)的是“替換原則”(the principle of substitution),而左結合語法依據(jù)的則是“可接續(xù)性原則”(the principle of continuation)。如果以“a, b, c…” 來代表語言符號,以“+” 代表串連符,那么,左結合語法的計算過程可以表示如圖11:

      圖11 左結合語法的計算過程

      左結合語法在進行推導時,總是按照自左向右和自底向上的順序,沿著樹結構的左側,一步一步地把單詞逐一地結合起來的。樹結構中的推導順序如圖12所示:

      圖12 樹結構中的推導順序

      例如,英語句子“Every girl drunk water”(每一個女孩都喝了水)的推導順序如圖13所示:

      圖13 推導順序示例

      從這個樹結構中可以看出,推導從左側開始,首先把every與girl結合起來,形成(np),然后把(np)與drank結合起來,形成(np’v),最后把(np’v)與(sn)結合起來,形成(v)。

      整個推導過程遵循時間線性(time linearity)的原則。所謂“時間線性”,就是“以時間為序,與時間同向”(linear like time and in the direction of time),也就是說,在推導時,要按照時間前后的順序進行,要沿著時間的方向推進。

      顯而易見,左結合語法是一種基于短語結構語法的形式模型,同時又吸取了依存語法和數(shù)據(jù)庫語義學的一些優(yōu)點,具有明顯的創(chuàng)新特色。這種獨具特色的形式模型,對于自然語言的自動分析和自動生成具有重要的指導意義。

      馮志偉. 自然語言處理的形式模型[M]. 北京:中國科學技術大學出版社, 2010.

      張 鈸. 自然語言處理的計算模型[J]. 中文信息學報, 2007(3).

      Hausser, R.AComputationalModelofNaturalLanguageCommunication:Interpretation,InferenceandProductioninDatabaseSemantics[M]. Berlin:Springer-Verlag, 2006.

      Manaris, B.NaturalLanguageProcessing:AHuman-computerInteractionPerspective[J].AdvancesinComputers, 1999(47).

      【責任編輯謝 群】

      Left-AssociativeGrammarofRolandHausser

      Feng Zhi-wei

      (Hangzhou Normal University, Hangzhou 310036, China )

      Based upon Surface Compositional Linear Internal Matching (SCLIM) and Database Semantics (DBS), this paper introduces the Left-Associative Grammar (LA) of Roland Hausser. LA plays important role in automatic analysis and generation in natural language processing.

      Surface Compositional Linear Internal Matching; Database Semantics; Left-Associative Grammar

      H043

      A

      1000-0100(2014)02-0030-5

      2012-03-27

      猜你喜歡
      樹結構結點短語
      Ladyzhenskaya流體力學方程組的確定模與確定結點個數(shù)估計
      四維余代數(shù)的分類
      大數(shù)據(jù)背景下基于B—樹結構的SQL Server數(shù)據(jù)優(yōu)化策略研究
      基于μσ-DWC特征和樹結構M-SVM的多維時間序列分類
      采用動態(tài)樹結構實現(xiàn)網絡課程內容的動態(tài)更新
      河南科技(2014年11期)2014-02-27 14:17:57
      基于Raspberry PI為結點的天氣云測量網絡實現(xiàn)
      基于DHT全分布式P2P-SIP網絡電話穩(wěn)定性研究與設計
      結點位移的確定
      昔阳县| 蓝田县| 迁西县| 凤台县| 盱眙县| 贡嘎县| 当雄县| 新田县| 综艺| 平安县| 白城市| 荥阳市| 股票| 沭阳县| 万山特区| 鄂伦春自治旗| 闽清县| 汤阴县| 如皋市| 江油市| 武宣县| 宾川县| 北流市| 美姑县| 三亚市| 太白县| 濮阳县| 芦山县| 攀枝花市| 连城县| 中牟县| 澄城县| 环江| 西贡区| 阿巴嘎旗| 辽中县| 灵武市| 开平市| 林西县| 申扎县| 鄂尔多斯市|