• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征結(jié)構(gòu)的漢語主謂謂語句語義標注研究

      2012-07-09 03:17:58姬東鴻
      中文信息學報 2012年3期
      關鍵詞:謂語主語短語

      陳 波,姬東鴻,呂 晨

      (1. 湖北文理學院 文學院, 湖北 襄陽 441053; 2. 武漢大學 計算機學院,湖北 武漢 430072)

      1 前言

      語義分析是現(xiàn)代語言學和計算語言學領域最具挑戰(zhàn)性的課題之一,也是當前制約語言信息技術大規(guī)模應用的主要瓶頸。 在眾多語義分析的問題中,短語和句子級的語義分析是一項最基本的任務。漢語由于具有語序靈活、重視虛詞等獨特的特點,與英語法語相比,它的語義分析更具挑戰(zhàn)性。在自然語言處理(Natural Language Processing,NLP)中,對漢語語句的語義標注,一直是一個難點。其中,對于漢語特殊句型的語義標注,更是難中之難,例如,“連動句”、“兼語句”、“主謂謂語句”、“把字句”、“被動句”等。這些句型,在語言學界它們本身的界定都存在很多爭議,在NLP學界,處理的時候通常運用的是傳統(tǒng)的分析方法。

      在語言學界,主謂謂語句是漢語中一種具有獨特特點的句型。作為漢語主謂句的下位句型,它的特點是由主謂短語做句子的謂語。語言學領域關于主謂謂語句的研究有80余年,至今什么是主謂謂語句、主謂謂語句有哪些類型尚未定論,這些爭端包括:句中的成分誰是大主語誰是小主語的問題?倒裝句是不是主謂謂語句的問題?

      如何尋找一種較為有效的方法,可以對這些漢語特殊句型進行更好的語義標注,對于語言學界和NLP學界,都具有重要意義。本文提出了一種新穎的“特征結(jié)構(gòu)”(Feature Structure)理論的方法,進行了大規(guī)模的語義標注,建立了一個具有近兩萬句的漢語語義標注資源庫。在此基礎上,選取漢語主謂謂語句進行進一步語義分析,得到了比較好的結(jié)果。

      2 漢語主謂謂語句在語言學和NLP中研究現(xiàn)狀

      2.1 語言學界漢語主謂謂語句研究現(xiàn)狀概述

      主謂謂語句的語言學本體研究成果相當豐富,但是各位專家學者的觀點卻不盡相同。最早對主謂詞組做謂語的論述可追溯到1921年的陳承澤,“主謂謂語句” 概念的正式提出源于1984年《中學教學語法系統(tǒng)提要》。幾十年來,各家學者的探討主要集中在對其范圍的確定、結(jié)構(gòu)的分析、性質(zhì)及生成的探討上。

      在語言學界,主謂謂語句語形表示為:“Nx+N+V/A”。Nx指句子的主語,也稱作“大主語”,N指充當句子謂語的主謂短語中的主語,也稱作“小主語”,V/A指充當句子謂語的主謂短語中的謂語。充當大主語Nx的成分一般是名詞、代詞、動賓短語、小句等;充當小主語N的成分一般是名詞、代詞、動賓短語等;充當V/A的成分一般是不及物動詞、及物動詞、動賓短語、形容詞等。

      主謂謂語句中,大主語、小主語和小謂語之間存在著復雜的語義關系,具體有多少類型難以判定。本文并不試圖對這些語義關系進行純語言學理論的分類,而是研究其面向NLP的語義表示方法。語言學領域里主要討論過十三種語義關系[1-6],大致上包括:

      1. Nx與N具有領屬關系;Nx不和V/A直接發(fā)生關系,只和(N+V/A)整體產(chǎn)生關系。(N+V/A)整體是對Nx的一個陳述。這里的小謂語可以是單詞也可以使形容詞。例如,

      [1]他性格堅強。

      2. Nx前可以加上介詞,與Nx構(gòu)成介賓短語。例如,

      [2]這個問題我有不同意見。

      3. Nx與N具有施受關系,例如,

      [3]那個人我認識。

      4. Nx或N的施事具有周遍性,例如,

      [4]他一句話也不說。

      5. 句中包含復指成分,例如,

      [5]這樣的好同志,我們喜歡他。

      6. Nx與NV具有總分關系,例如,

      [6]他寫的字,有的大,有的小。

      7. Nx后的兩個N是對舉的,例如,

      [7]咱倆誰也別忘了誰。

      8. Nx表處所,例如,

      [8]北京城里樹木很多。

      9. Nx表時間,例如,

      [9]工作時間你嚴肅一點好嗎?

      10. Nx后是組熟語,例如,

      [10]他這個人,事事領先人人夸好。

      11. Nx是N的工具,例如,

      [11]這間屋子我們堆東西。

      12. N是數(shù)量結(jié)構(gòu),例如,

      [12]這種布,一尺五毛錢。

      13. N(動詞短語)與Nx可以構(gòu)成主謂關系,例如,

      [13]你做事認真。

      2.2 NLP中漢語主謂謂語句語義標注現(xiàn)狀及問題分析

      對于語言分析,有兩種傳統(tǒng)方法:短語結(jié)構(gòu)分析和依存語法分析。目前的漢語標注方法主要運用的就是這兩種方法。但是運用這兩種方法來標注漢語的特殊句型的語句都會遇到一些問題,如圖1所示。

      例[7]的特點是,大主語與充當謂語的主謂句中的主語和賓語之間是任指的關系,“咱倆”任指“誰1”、“誰2”。這是一個很重要的語義信息。而且如果已知“誰1”、“誰2”與“忘”之間的語義關系,再加上“咱倆”與“誰1”、“誰2”任指關系,可以通過語義傳遞,推知“咱倆”與“忘”之間的語義關系。因此,如果在語義分析中丟失了這三個詞之間的語義信息,將會為語言處理帶來困難。例[12]的特點是,該句由三個名詞短語組合而成,沒有謂語動詞。傳統(tǒng)的依存語法的標注方法,在標注例[7]、例[12]的時候?qū)τ谝恍┰~語之間語義關系,無法處理,丟失了很多詞語與詞語之間的語義信息。

      圖1 主謂謂語句句法分析圖

      可見,目前現(xiàn)有的分析方法在分析主謂謂語句時,主要遇到的問題有以下幾個。

      1. 句子表層句法結(jié)構(gòu)易于描述,但是深層的句子中各個成分之間的語義關聯(lián)難于描述出來;

      2. 即使描述了一部分的語義關系,如依存分析,得到的語義信息卻不完整。即丟失了一部分的語義信息。丟失的這些語義信息有時可能正是語句中的關鍵信息,將為語言處理帶了困難;

      3. 現(xiàn)有的方法過份依賴于句法結(jié)構(gòu),由于主謂謂語句句式的特殊性,長距離的詞語之間的語義關系存在無法標注或錯誤標注的情況。

      3 特征結(jié)構(gòu)理論

      特征結(jié)構(gòu) (Feature Structure)在現(xiàn)代語言學和計算語言學領域并不是一個新術語。語音學很早就采用類似特征結(jié)構(gòu)的機制描述音節(jié),后來形式句法理論如GPSG和LFG又采用復雜特征集描述句法結(jié)構(gòu),復雜特征集也類似于特征結(jié)構(gòu)。這兩種情況都是定義一組特征用以區(qū)分音節(jié)和句法結(jié)構(gòu),分別在生成語音學和生成語法領域產(chǎn)生了很大影響??墒侵两駷橹?,還未見到利用特征結(jié)構(gòu)進行大規(guī)模的語義描述及語義分析的嘗試。

      針對語義分析的兩種傳統(tǒng)方法分析漢語時遇到的難題,我們提出了“特征結(jié)構(gòu)”方法來解決。

      通常,一個短語或句子可以用一個特征三元組集合來表示:[實體,特征,特征值],我們稱之為這個短語結(jié)構(gòu)或句子結(jié)構(gòu)的“特征結(jié)構(gòu)”集合。正如語言中有很多詞語描述實體概念一樣,語言中也有很多詞語描述實體的特征。這些詞通常稱為特征詞。英語WordNet和漢語的同義詞詞林都有一部分專門列出這些特征詞。這里說的“特征”并不僅限于嚴格意義上的特征詞,也包括那些抽象名詞和虛詞等,只要它們用來反映概念關聯(lián),在特征結(jié)構(gòu)中就作為特征[7-9]。

      [14]紅顏色汽車

      [15]紅汽車

      在例[14]中,“汽車”是實體(entity),“顏色”是“汽車”的特征(feature),“紅”是特征“顏色”的值(value)。“顏色”一邊聯(lián)系“汽車”,一邊聯(lián)系“紅”,因此它可作為“汽車”和“紅”概念關聯(lián)種類的標記。這樣,例[14]表示成一個三元組如[14]′:

      [14]′ [汽車,顏色,紅]

      在例[15]中,“汽車”是實體,“紅”是特征“顏色”的值,值得注意的是,這里“汽車”的特征詞“顏色”并沒有出現(xiàn)。這種情況下,我們約定其特征結(jié)構(gòu)中的特征為空。這個約定的好處在于不必去設計一個一般性的特征詞表,而是根據(jù)具體應用的需求而制定相應的特征詞表。特征詞表牽涉到泛語言的范疇(包括語義格等),如果脫離具體應用而試圖設計一個一般性的特征詞表,就如設計格系統(tǒng)一樣會有很多爭議。另一方面,在具體應用中只需標注少許例子,這些空的特征就可以從這些標注例子中被激活出來。根據(jù)此約定例[15]表示成 [15]′:

      [15]′ [汽車, ,紅]

      [16]他說他是大學教師。

      該句的特征三元組表示為:

      [說, ,他]; [說, ,他是大學教師]; [是, ,教師]; [教師, ,大學]; [是, , 他]

      從例[16]我們可以發(fā)現(xiàn),特征和特征值都可以作為實體出現(xiàn)在特征結(jié)構(gòu)中。這從它們都可帶一定修飾語判斷出來?!八?是“說”的特征值?!八谴髮W教師”是“說”的另一個特征值。 這里 “他是大學教師”是作為一個整體,和“說”產(chǎn)生語義關聯(lián)。并且,特征值“他是大學教師”本身也是一個特征結(jié)構(gòu)。其中,“是”是實體,“大學教師”是特征值,“他”是“是”的另一個特征值。另外,特征值的節(jié)點“大學教師”本身也是一個特征結(jié)構(gòu),“教師”是實體,“大學”是它的特征值。

      形式上,一個三元組可看作兩個“點”(node)和連接它們的“邊”(edge),其中的“節(jié)點”表示實體或特征值,“邊”表示特征。特征一定是某個節(jié)點的特征,這個節(jié)點就作為特征擁有者,另一個節(jié)點就作為特征值。于是一個特征結(jié)構(gòu)可看作一個圖,而且是無向圖(undirected graph)??紤]到特征值也可是另外一個特征結(jié)構(gòu),因此特征結(jié)構(gòu)可看作一個遞歸圖,意即節(jié)點本身又可是一個圖。

      簡言之,同句法結(jié)構(gòu)相比,特征結(jié)構(gòu)和依存結(jié)構(gòu)類似,都主要描述詞匯之間的關系,因此不用定義句法范疇。即便在遞歸性的特征結(jié)構(gòu)中,也不用定義特征結(jié)構(gòu)的類別。和依存結(jié)構(gòu)相比,特征結(jié)構(gòu)一方面允許嵌套,另一方面允許多重關聯(lián);另外特征結(jié)構(gòu)既注重描述概念是否關聯(lián),也同時注重關聯(lián)的種類。

      4 基于特征結(jié)構(gòu)理論的漢語主謂謂語句標注

      4.1 主謂謂語句的特征結(jié)構(gòu)標注

      以例[1]、例[2]為例,本節(jié)把語言學界討論過的十三種語例分別運用特征結(jié)構(gòu)模型進行了語義分析,詳細地標注了每一種語例中詞語和詞語之間的語義關系,并畫出了特征結(jié)構(gòu)圖。然后將這些特征結(jié)構(gòu)圖進行對比分析,整理歸納出主謂謂語句的語義關系類型及其表示方法。

      例[1] 他性格堅強。

      大謂語“性格堅強”是對大主語“他”的陳述和說明。小主語“性格”是大主語“他”的一個內(nèi)在屬性,“性格堅強”可以成立,“他堅強”也可以成立。小謂語“堅強”既是“性格”的值,也可以說是“他”的值。因此,在這里,小主語“性格”是大主語的一個特征,小謂語“堅強”是特征“性格”的值。

      它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖(圖2)如下:

      [他,性格, 堅強]

      圖2 例[1]的特征結(jié)構(gòu)圖

      例[2] 這個問題我有不同意見。

      該例中,大謂語是一個完整的句子,內(nèi)含主謂賓。大主語問題前可以加上介詞“關于”、“對”等。從語義關聯(lián)上說,大主語和小賓語之間有語義關聯(lián)。它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖(圖3)如下:

      圖3 例[2]的特征結(jié)構(gòu)圖

      4.2 主謂謂語句的特征結(jié)構(gòu)類型

      基于特征結(jié)構(gòu)理論,我們運用標注軟件對這13類主謂謂語句的語料進行了語義關系的標注,共概括出了六類標注圖,如表1所示。

      表1 主謂謂語句的特征結(jié)構(gòu)類型表

      續(xù)表

      4.3 不同理論的主謂謂語句標注分析比較

      我們以例[2]和例[7]為例,進行特征結(jié)構(gòu)分析與傳統(tǒng)依存分析,將分析結(jié)果進行對比,來評測對主謂謂語句的語義分析效果。

      例[2] 這個問題我有不同意見。

      表2 例[2]的兩種分析圖

      表3 例[2]的兩種分析結(jié)果對比表

      如表2、表3所示,傳統(tǒng)依存分析結(jié)果沒有把“意見”和“問題”的語義關系表示出來。把沒有語義關系的“有”和“問題”卻表示了出來。因此它漏掉了一個語義關系對,還標注了一個沒有語義關系的語義關系對。

      例[7] 咱倆誰1也別忘了誰2。*對于句中重復出現(xiàn)的詞語,我們依照出現(xiàn)順序分別下標為1,2,3,依次類推。

      如表4、表5所示,傳統(tǒng)依存分析結(jié)果沒有把“咱倆”和“誰1”、“咱倆”和“誰2”的語義關系表示出來,把沒有語義關系的“咱倆”和“忘”卻表示了出來。

      表4 例[7]的兩種分析圖

      表5 例[7]的兩種分析結(jié)果對比表

      因此它漏掉了兩個個語義關系對,還標注了一個沒有語義關系的語義關系對。

      特征結(jié)構(gòu)模型能夠描述更多的語義關系對,因此包含更加豐富的語義信息。

      1) 傳統(tǒng)依存語法無法表示主謂謂語句中大主語與小主語或小賓語之間的語義關系,如復指、分指等。特征結(jié)構(gòu)模型可以完整地表示主謂謂語句中大主語與小主語或小賓語之間的語義關系。如例句:這個問題我有不同意見。咱倆誰也別忘了誰。勤奮的小王,我們喜歡他。

      2) 主謂謂語句中大主語和小謂語之間,有時存

      在語義關系,有時不存在語義關系。傳統(tǒng)依存語法無法辨析這兩種情況,而是無論實際的語義關系是否存在,但是傳統(tǒng)依存語法總是處理為兩者存在語義關系。特征結(jié)構(gòu)模型可以按照語言實際情況,如實地反映大主語和小謂語之間的語義關系。如例句:小王技術很好?!靶⊥酢焙汀昂谩敝g沒有語義關系,但是傳統(tǒng)依存分析卻標注為有語義關系。

      5 結(jié)論及展望

      我們可以看到,運用特征結(jié)構(gòu)對句子進行標注可反映出哪些成分充當實體,哪些充當特征,哪些充當特征值,這些詞語之間的語義關系也很清晰地反映出來。今后運用特征結(jié)構(gòu)標注的資源,通過訓練,就有可能抽取出句子中隱含的語義關系。

      特征結(jié)構(gòu)分析有如下優(yōu)點。

      1) 標注的是語義關聯(lián),而非句法關聯(lián)。我們標注的是句中詞語與詞語之間的語義關聯(lián),跟句子表層的句法結(jié)構(gòu)無關,因此跳過了句法層面的分析;

      2) 標注的是“關聯(lián)”而非“依存”。我們表示的是語義上的關聯(lián),而不是傳統(tǒng)的依存關系。因此我們的標注圖用“無向圖”表示,也弱化了中心詞的概念;

      3) 標注效率更高。特征結(jié)構(gòu)的方法不牽涉詞性爭議、結(jié)構(gòu)歧義等問題,也無需判斷中心詞,因此標注效率比句法標注和依存標注要高;

      4) 標注的結(jié)果一致性高。我們的判斷標準是基于關聯(lián),經(jīng)過人工標注,最后得到的標注結(jié)果分歧較少;

      特征結(jié)構(gòu)的理論是我們的一個新嘗試,現(xiàn)在我們已經(jīng)建立了特征結(jié)構(gòu)的基本概念和描述框架,建構(gòu)了一個大規(guī)模的漢語語義資源,并且應用到了食譜分析、國家安全信息收集和分析、汽車市場情報分析等領域,取得了比較好的效果。

      但是在標注過程中,仍然存在一些不可避免的難題,例如,不斷發(fā)展變化的語言永遠無法窮盡列舉,真實語料中會出現(xiàn)很多語言的臨時用法和特例,針對這類極少部分的語例,我們該如何制定規(guī)則確定特征結(jié)構(gòu)?這是我們下一步工作要解決的問題。

      [1] 陸儉明.新中國語言學50年[J].當代語言學,1999, (4): 1-13.

      [2] 朱德熙.語法講義[M].北京:商務印書館,1982: 95-110.

      [3] 李臨定.現(xiàn)代漢語句型[M].北京:商務印書館,1986:302-307.

      [4] 呂叔湘.主謂謂語句舉例[J].中國語文,1986,(5):334.

      [5] 胡裕樹.現(xiàn)代漢語[M].上海:上海教育出版社,1981:353.

      [6] 洪維.主謂謂語句研究綜述[J].呼蘭師專學報,1998, (2): 70-76.

      [7] B. Chen,D. Ji. Chinese Semantic Parsing Based on Dependency Graph, Feature[C]//Proceedings of the First International Conference on Electronic & Mechanical Engineering and Information Technology(EMEIT 2011), Haerbin, China. 2011:1730-1734.

      [8] B. Chen, D. Ji, C. Lv. Semantic Labeling of Chinese Subject-Predicate Predicate Sentence Based on Feature Structure [C]//Proceedings of the 11th Chinese National Conference on Computational Linguistics(CNCCL2011), Luoyang, China.2011: 161-166.

      [9] 陳波.特征結(jié)構(gòu)及其漢語語義資源建設[D].武漢:武漢大學,2011.

      猜你喜歡
      謂語主語短語
      談談引導主語從句的連接詞的用法
      非謂語動詞
      非謂語動詞
      非謂語動詞題不難答 石娟
      非謂語動詞
      盤點高考中的特殊句式(二)
      青蘋果(2014年2期)2014-04-29 20:31:27
      英語中的虛主語“it”和漢語中的虛主語“他”異同之比較
      兴国县| 青海省| 荥经县| 乌拉特后旗| 额敏县| 荣昌县| 塘沽区| 开封县| 榆林市| 富阳市| 安塞县| 宁国市| 新兴县| 顺昌县| 雅安市| 宁陵县| 靖边县| 精河县| 永年县| 修水县| 遂川县| 成都市| 苍溪县| 垫江县| 普定县| 贵德县| 武冈市| 鸡西市| 安庆市| 怀柔区| 丽水市| 宁国市| 钟山县| 石景山区| 正安县| 历史| 昭通市| 金堂县| 平安县| 阜康市| 报价|