• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語語義標(biāo)注理論的新視角
      ——《特征結(jié)構(gòu)及其漢語語義資源建設(shè)》書評

      2014-04-08 14:37:42姬東鴻
      關(guān)鍵詞:語料語義漢語

      姬東鴻

      (武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072)

      漢語語義分析(semantic parsing),特別是大規(guī)模真實(shí)文本的語義分析,一直是當(dāng)前自然語言處理(natural language processing)的難點(diǎn)。傳統(tǒng)依存分析法(dependency analysis)等標(biāo)注方法在處理漢語特殊句型和特殊語言現(xiàn)象(如:主謂謂語句、連動句、兼語句、復(fù)雜名詞短語、動補(bǔ)結(jié)構(gòu)等)時(shí)遇到一系列難題。尋求一種適合漢語自己的特點(diǎn)的漢語依存標(biāo)注體系,是中文信息處理研究的當(dāng)務(wù)之急。湖北文理學(xué)院陳波副教授所著的《特征結(jié)構(gòu)及其漢語語義資源建設(shè)》一書,正文共199頁,18.5萬字,配有114個(gè)圖表。該書的研究目的正是探索一種適合漢語自身特點(diǎn)語義標(biāo)注理論,立足于自然語言處理的語義分析需求,提出的特征結(jié)構(gòu)語義描述模型?;谡Z義分析方法建構(gòu)的標(biāo)注語料庫,是自然語言處理基礎(chǔ)研究和應(yīng)用技術(shù)研究的基礎(chǔ)。該書描述了基于特征結(jié)構(gòu)理論(Feature Structure)建構(gòu)的大規(guī)模的漢語語義資源(semantic resource)的過程,該資源對于提高語義關(guān)系抽取(特別是事件關(guān)系抽取)、自動問答、信息檢索、文本蘊(yùn)涵等系統(tǒng)的性能有積極的意義。該書對語義分析理論和語言學(xué)理論進(jìn)行了嘗試性地探討,通過特征結(jié)構(gòu)理論積極探求漢語特殊語言現(xiàn)象背后的語言規(guī)律和描述機(jī)制。

      一、《特征結(jié)構(gòu)及其漢語語義資源建設(shè)》的主要內(nèi)容

      全書由前言、六個(gè)章節(jié)和后記組成,全書內(nèi)容包括五個(gè)部分:研究背景概述、特征結(jié)構(gòu)模型、語義資源建設(shè)、在語言學(xué)領(lǐng)域的應(yīng)用及結(jié)論,具體如下:

      第一章引論部分,詳細(xì)地介紹了漢語語義分析方法的研究背景、國內(nèi)外研究現(xiàn)狀分析、研究對象界定、研究內(nèi)容等方面。通過該部分,讀者對目前自然語言處理學(xué)界的主流語義標(biāo)注方法和已完成的語義標(biāo)注資源會有一個(gè)較全面的了解。

      第二章是作者的重點(diǎn)研究成果,提出了“特征結(jié)構(gòu)模型”的理論,主要研究了特征結(jié)構(gòu)模型的界定,特征結(jié)構(gòu)的特點(diǎn)、形式化表示以及判定方法四大部分。特征結(jié)構(gòu)的特點(diǎn)是用特征三元組反映概念關(guān)聯(lián)和關(guān)聯(lián)種類,特征三元組允許多重關(guān)聯(lián)和交叉關(guān)聯(lián),允許嵌套和遞歸。特征結(jié)構(gòu)的形式化表示為特征結(jié)構(gòu)圖,是一個(gè)“可遞歸的無向圖”(recursive undirected graph)。特征結(jié)構(gòu)的判定方法是基于提問的方法,研究了各種句式中提問的條件、提問針對的成分以及特征詞在其中的分布等。

      這部分是全書的理論精華所在,特征結(jié)構(gòu)模型是一種新的漢語語義分析策略,該理論基于概念關(guān)聯(lián)和關(guān)聯(lián)種類,用特征結(jié)構(gòu)三元組:[實(shí)體,特征,特征值]來描述具有語義關(guān)聯(lián)的一組詞語。特征結(jié)構(gòu)允許語義的多重關(guān)聯(lián)和交叉關(guān)聯(lián),也允許遞歸和嵌套。特征結(jié)構(gòu)理論可以比較全面地表示漢語語句中詞與詞之間的語義關(guān)系。

      概述了基于特征結(jié)構(gòu)理論的漢語特征結(jié)構(gòu)資源建設(shè),重點(diǎn)介紹了陳波副教授所在的科研團(tuán)隊(duì)耗費(fèi)四年的時(shí)間建構(gòu)的語義資源庫。分為語料來源、標(biāo)注方式、標(biāo)注標(biāo)準(zhǔn)、標(biāo)注軟件平臺等四個(gè)部分。該語料庫的語料來源于賓州中文樹庫的生語料、國內(nèi)近三年中文新聞?wù)Z料以及中小學(xué)語文課本。標(biāo)注方式采用人工標(biāo)注和計(jì)算機(jī)標(biāo)注軟件相結(jié)合的方法。設(shè)計(jì)并編寫了漢語語義資源標(biāo)注軟件“語言標(biāo)注平臺”。研究了特征結(jié)構(gòu)的判定標(biāo)準(zhǔn)。本章重點(diǎn)在于特征結(jié)構(gòu)標(biāo)注標(biāo)準(zhǔn)的制定策略。

      繼句法樹庫之后,近二十年來國內(nèi)外各大研究機(jī)構(gòu)都在大力建構(gòu)語義資源庫。該部分的漢語特征結(jié)構(gòu)語義資源是一個(gè)從新的角度的嘗試。在語料選取上充分考慮了語料的代表性、多樣性、均勻性、時(shí)效性和通用性等因素,主要選用了賓州中文樹庫的語料、國內(nèi)近三年的新聞?wù)Z料和中小學(xué)語文課本語料。標(biāo)注標(biāo)準(zhǔn)是建構(gòu)資源庫最重要的部分,其標(biāo)注標(biāo)準(zhǔn)依據(jù)了最小單位原則、語義關(guān)聯(lián)原則、遞歸原則、無中心詞原則等四個(gè)原則,具有可操作性,確保了標(biāo)注的一致性。

      第四章和第五章是特征結(jié)構(gòu)理論在語言學(xué)界的實(shí)際應(yīng)用,分別用于主謂謂語句和連動句的語義標(biāo)注策略研究。其中,第四章是主謂謂語句的特征結(jié)構(gòu)研究。本章首先回顧了語言學(xué)界對主謂謂語句的研究成果和爭論內(nèi)容,根據(jù)漢語主謂謂語句的語法特點(diǎn),分析了面向自然語言處理時(shí)的標(biāo)注難點(diǎn),然后運(yùn)用特征結(jié)構(gòu)模型對語言學(xué)界討論過的13種類型的主謂謂語句進(jìn)行了細(xì)致的語義描述和分析,總結(jié)出了6種語義模型。將現(xiàn)有的傳統(tǒng)依存分析方法和特征結(jié)構(gòu)分析方法對主謂謂語句的分析結(jié)果進(jìn)行了對比,結(jié)果表明,特征結(jié)構(gòu)分析方法包含了更多的語義信息。第五章是連動句的特征結(jié)構(gòu)研究。本章首先回顧了語言學(xué)界對連動句的研究成果和爭論焦點(diǎn),總結(jié)了漢語連動句的語法特點(diǎn),然后分析了面向自然語言處理時(shí)連動句的標(biāo)注難點(diǎn)。運(yùn)用特征結(jié)構(gòu)模型對語言學(xué)界討論較多的16個(gè)連動句分別進(jìn)行了細(xì)致地語義描述和分析,總結(jié)出了四類語義模型。將現(xiàn)有的傳統(tǒng)依存分析方法和特征結(jié)構(gòu)分析方法對連動句的分析結(jié)果進(jìn)行了對比,結(jié)果表明,傳統(tǒng)依存語法無法表示連動句中主語和除第一個(gè)謂語動詞之外的其他謂語動詞之間的語義關(guān)系,無法表示連動句中某個(gè)謂語動詞的賓語與其他謂語動詞之間的語義關(guān)系,也無法準(zhǔn)確表示兩個(gè)或多個(gè)謂語動詞之間的語義關(guān)系。

      第六章是全書的總結(jié),包括評估、研究特色、應(yīng)用價(jià)值、下一步研究計(jì)劃等內(nèi)容。

      二、《特征結(jié)構(gòu)及其漢語語義資源建設(shè)》的特色與創(chuàng)新之處

      該書主要有三方面的創(chuàng)新點(diǎn):

      (1)采用特征結(jié)構(gòu)模型,探討漢語語句的語義表示機(jī)制。

      特征結(jié)構(gòu)模型是一個(gè)全新的漢語語義表示策略。目前國內(nèi)外雖有很多相關(guān)的工作,但總的來說都是基于句法結(jié)構(gòu)或依存結(jié)構(gòu)進(jìn)行分析的。“特征結(jié)構(gòu)”模型在進(jìn)行語義表示時(shí),允許語義的多重關(guān)聯(lián),也允許遞歸和嵌套,可以比較完整地、清晰地表示漢語語句中詞與詞之間的語義關(guān)系。

      (2)基于特征結(jié)構(gòu)模型,對漢語語句進(jìn)行語義標(biāo)注,探尋適合漢語獨(dú)特特點(diǎn)的語義分析方法和標(biāo)注標(biāo)準(zhǔn)。

      該資源可用于支持詞義消解、信息智能監(jiān)控、信息抽取、機(jī)器自動問答等任務(wù),為實(shí)現(xiàn)計(jì)算機(jī)的語義理解做出貢獻(xiàn)。另外,該語義資源具有通用性。它選用的是世界通用的中文語料庫,建成后可以為國內(nèi)外其他相關(guān)機(jī)構(gòu)共享。

      (3)運(yùn)用特征結(jié)構(gòu)模型探討了漢語特殊句型的語義分析方案,并嘗試以新的視角來解釋語言學(xué)理論中的爭議問題。

      書中以主謂謂語句和連動句為例,總結(jié)了兩種漢語特殊句型的語法特點(diǎn),然后分析了面向自然語言處理時(shí)兩種句型的標(biāo)注難點(diǎn),運(yùn)用特征結(jié)構(gòu)模型對兩種句型進(jìn)行了細(xì)致地語義描述和分析,總結(jié)了語義模型的類型,為語言學(xué)理論研究的深化提供了一定的參考。

      三、《特征結(jié)構(gòu)及其漢語語義資源建設(shè)》的理論意義與應(yīng)用意義

      該書的研究內(nèi)容立足于自然語言處理的語義分析需求,探討了適合漢語特點(diǎn)的特征結(jié)構(gòu)語義描述模型,并基于特征結(jié)構(gòu)模型,建構(gòu)了一個(gè)3萬句的漢語語義標(biāo)注資源庫,有助于提高語義關(guān)系抽取(特別是事件關(guān)系抽取)、自動問答、信息檢索、文本蘊(yùn)涵等系統(tǒng)的性能。在此基礎(chǔ)上運(yùn)用特征結(jié)構(gòu)模型分析了漢語的特殊句式(主謂謂語句、連動句等),積極探求漢語特殊語言現(xiàn)象背后的語言規(guī)律和描述機(jī)制,為漢語特殊句式的語義分析提供了一個(gè)新視角。

      語義分析一直是信息處理的難點(diǎn),該書對語義分析理論和語言學(xué)理論進(jìn)行了嘗試性地探討,對語義分析的理論研究有著積極意義。從漢語資源的建設(shè)上看,建構(gòu)的大規(guī)模漢語句子級語義標(biāo)注資源庫,標(biāo)注理論和描述機(jī)制不同于已有的漢語資源,在標(biāo)注規(guī)模和標(biāo)注深度方面都有所提高,標(biāo)注成果在一定程度上豐富了漢語語義資源。

      不過還有幾方面的工作需要在將來進(jìn)一步深入研究,如:

      (1)應(yīng)擴(kuò)大特征結(jié)構(gòu)模型對漢語語言現(xiàn)象的考察范圍。

      該書僅探討了漢語的主謂謂語句和連動句的語義表示方法,漢語的其他特殊句型,如兼語句、是字句、存現(xiàn)句、把字句、被字句、雙賓句等,特殊現(xiàn)象如靈活語序等,都是下一步的研究對象。

      (2)資源建設(shè)方面,可以從句子級向短語級過渡,研究漢語復(fù)雜名詞短語的語義資源建設(shè),也可以從句子級向語篇級過渡,研究漢語事件鏈的語義資源建設(shè)。

      依存分析法是國際上主流的分析方法,特征結(jié)構(gòu)模型的探索,源于依存分析法,又針對漢語自身的特點(diǎn)進(jìn)行了擴(kuò)展研究,為當(dāng)前中文信息處理提供了一個(gè)別樣的研究視角,為自然語言處理的發(fā)展提供了一個(gè)新的研究方向。在近兩年的學(xué)術(shù)交流中,特征結(jié)構(gòu)模型理論吸引了很多關(guān)注,相關(guān)科技企業(yè)也開始運(yùn)用特征結(jié)構(gòu)模型嘗試解決語言處理的問題?!短卣鹘Y(jié)構(gòu)及其漢語語義資源建設(shè)》一書的出版,為中文信息處理界的語義標(biāo)注理論的研究和語義資源建設(shè)有積極的參考價(jià)值。

      猜你喜歡
      語料語義漢語
      學(xué)漢語
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語 后海
      金橋(2020年11期)2020-12-14 07:52:56
      語言與語義
      追劇宅女教漢語
      漢語不能成為“亂燉”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語義模糊
      《苗防備覽》中的湘西語料
      囊谦县| 新和县| 康定县| 化德县| 邢台市| 揭东县| 和顺县| 开阳县| 安庆市| 旅游| 平邑县| 武威市| 洮南市| 新余市| 宜城市| 合川市| 德江县| 林口县| 绩溪县| 荆门市| 塔河县| 莆田市| 东乌珠穆沁旗| 贺州市| 桂林市| 西林县| 郁南县| 舟山市| 南京市| 铜鼓县| 武城县| 徐闻县| 安徽省| 阿鲁科尔沁旗| 梅河口市| 奈曼旗| 饶阳县| 旬邑县| 双柏县| 南康市| 哈密市|