• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)及其標(biāo)記研究

      2013-10-15 01:51:04包曉榮華沙寶達(dá)胡白乙拉
      中文信息學(xué)報(bào) 2013年4期
      關(guān)鍵詞:內(nèi)蒙古大學(xué)蒙古語(yǔ)論元

      包曉榮,華沙寶,達(dá)胡白乙拉

      (內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特010021)

      1 引言

      從語(yǔ)言信息處理整體的視角來(lái)看,語(yǔ)義角色標(biāo)注是對(duì)自然語(yǔ)言理解的一個(gè)有益的探索。在自然語(yǔ)言理解系統(tǒng)中,不但要識(shí)別文本中的實(shí)體,而且還需要做語(yǔ)義分析。語(yǔ)義分析是自然語(yǔ)言理解的根本性問(wèn)題,也是自然語(yǔ)言處理的難點(diǎn)和熱點(diǎn)問(wèn)題。語(yǔ)義分析包括淺層語(yǔ)義分析和深層語(yǔ)義分析。

      語(yǔ)義角色標(biāo)注是淺層語(yǔ)義分析的一種簡(jiǎn)化形式的實(shí)現(xiàn)方式,具有定義清晰、評(píng)測(cè)容易等特點(diǎn),它是目前的研究熱點(diǎn)。語(yǔ)義角色標(biāo)注綜合利用了分詞、詞性標(biāo)注等底層的語(yǔ)言信息,以及高層的句法分析,命名實(shí)體識(shí)別等信息,人們從這些信息中可以挖掘各種特征,再利用各種機(jī)器學(xué)習(xí)算法,做到自動(dòng)的語(yǔ)義角色標(biāo)注,因此,它會(huì)促進(jìn)機(jī)器學(xué)習(xí)研究的發(fā)展。在淺層語(yǔ)義分析的基礎(chǔ)上,進(jìn)行深層的語(yǔ)義分析將成為未來(lái)研究的重點(diǎn)。

      蒙古文信息處理研究工作從20世紀(jì)80年代著手建立語(yǔ)料庫(kù)開(kāi)始,基本完成了字處理、詞處理階段的工作,現(xiàn)在全面開(kāi)展句子處理階段的工作。語(yǔ)義分析是句子處理階段的重要任務(wù)之一。

      從蒙古語(yǔ)信息處理的實(shí)際需求出發(fā),為蒙古語(yǔ)信息處理研究提供一個(gè)系統(tǒng)化、形式化的蒙古語(yǔ)語(yǔ)義標(biāo)注體系和一個(gè)規(guī)模相當(dāng)?shù)恼Z(yǔ)義角色標(biāo)注語(yǔ)料資源是蒙古語(yǔ)信息處理基礎(chǔ)研究和應(yīng)用研究的基礎(chǔ)之一。建立蒙古語(yǔ)語(yǔ)義角色標(biāo)注體系和蒙古語(yǔ)語(yǔ)義角色標(biāo)注語(yǔ)料資源是蒙古文信息處理事業(yè)走向自然語(yǔ)言理解最終目標(biāo)的必經(jīng)之路,無(wú)論從理論意義還是從應(yīng)用需求來(lái)講,它的研究?jī)r(jià)值都非常重要。

      蒙古語(yǔ)淺層語(yǔ)義分析,是一項(xiàng)開(kāi)拓性的研究工作。本工作不會(huì)僅僅停留在基礎(chǔ)理論和方法論的抽象層面上,而由它產(chǎn)生的標(biāo)注語(yǔ)料資源和語(yǔ)義角色特征描述,將對(duì)多義詞的語(yǔ)義識(shí)別、確定短語(yǔ)結(jié)構(gòu)關(guān)系、指定詞語(yǔ)語(yǔ)義搭配提供有效的可操作信息,對(duì)開(kāi)發(fā)研制蒙古語(yǔ)信息檢索、指代消解、機(jī)器翻譯中的蒙古語(yǔ)語(yǔ)句自動(dòng)分析和自動(dòng)生成等應(yīng)用系統(tǒng)都有直接的應(yīng)用價(jià)值。

      2 語(yǔ)義角色分類(lèi)及標(biāo)記相關(guān)研究

      2.1 其他語(yǔ)言語(yǔ)義角色分類(lèi)及標(biāo)記

      要進(jìn)行語(yǔ)義角色標(biāo)注,相應(yīng)的標(biāo)注體系是必需的。在國(guó)內(nèi)外眾多相關(guān)研究項(xiàng)目中,都分別制定了相應(yīng)語(yǔ)言的語(yǔ)義角色標(biāo)注體系。但是,由于各種語(yǔ)言的情況不同,各個(gè)標(biāo)注系統(tǒng)的出發(fā)點(diǎn)和著眼點(diǎn)不同,各個(gè)語(yǔ)義角色標(biāo)注系統(tǒng)所制定的標(biāo)注體系也可以互不相同。下面比較Prop Bank和北京大學(xué)中文網(wǎng)庫(kù)的語(yǔ)義角色分類(lèi)和標(biāo)記。

      Prop Bank的語(yǔ)義角色是編了號(hào)的原型角色,是中觀層次上基于特定動(dòng)詞的角色。Prop Bank包括論元角色標(biāo)注集和標(biāo)注語(yǔ)料庫(kù)。在Prop Bank中出現(xiàn)的語(yǔ)義角色分為核心論元和非核心論元兩大類(lèi)。核心論元可分施事、受事、與事等多種論元,非核心論元又可以按照功能分出小類(lèi)。具體來(lái)看,主要有:ARG0,ARG1,ARG2,ARG3,ARG4,ARG5,ARGM-ASP,ARGM-BNF,ARGM-CND,ARGMCRD,ARGM-DGR,ARGM-DIR,ARGM-DIS,ARGMEXT,ARGM-FRQ,ARGM-LOC,ARGM-MNR,ARGM-PRD,ARGM-PRP,ARGM-TMP,ARGMTPC,ARGM-ADV,TBERR 等23個(gè)小類(lèi)。其中ARG0-ARG5是核心論元,其他都屬于非核心論元[1]。

      北京大學(xué)中文網(wǎng)庫(kù)是漢語(yǔ)的真實(shí)文本上進(jìn)行多層次的語(yǔ)義關(guān)系標(biāo)注的語(yǔ)料庫(kù)[2]。中文網(wǎng)庫(kù)的語(yǔ)義角色是屬于所謂中觀層級(jí)的語(yǔ)義角色。北京大學(xué)中文網(wǎng)庫(kù)的語(yǔ)義角色分為必有論元和非必有論元兩大類(lèi)。必有論元再分A.主體論元:(1)施事A(2)感事Se(3)經(jīng)事Ex(4)致事Cau(5)主事Th;B.客體論元:(1)受事P(2)與事D(3)結(jié)果R(4)對(duì)象Ta(5)系事Re。非必有論元再分為 A.憑借論元:(1)工具I(2)材料 Ma(3)方式 M (4)原因 Rn(5)目的Ai。B.環(huán)境論元:(1)時(shí)間T(2)處所L(3)源點(diǎn)So(4)終點(diǎn)Go(5)路徑Pa(6)范圍Ra(7)量幅EXT 等22個(gè)小類(lèi)[3]。

      語(yǔ)言都有共性,所以其他語(yǔ)言的語(yǔ)義角色分類(lèi)對(duì)我們制定基于依存于法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)有很大的參考價(jià)值。

      2.2 蒙古語(yǔ)語(yǔ)義角色分類(lèi)及標(biāo)記

      蒙古語(yǔ)在傳統(tǒng)研究和信息處理研究中,也注意到了語(yǔ)義角色研究的必要性。蒙古語(yǔ)語(yǔ)義角色分類(lèi)及標(biāo)記方面的研究有:

      蒙古語(yǔ)傳統(tǒng)研究進(jìn)行句子研究和語(yǔ)義研究當(dāng)中注意到了語(yǔ)義角色研究的重要性。具有代表性的有,寶·哈斯巴根[4]提出的施事、當(dāng)事等10個(gè)類(lèi)的分類(lèi),德力格爾瑪[5]提出的施事、受事等10個(gè)分類(lèi),特圖克[6]提出的主體、受體等6大類(lèi)42個(gè)小類(lèi)的分類(lèi),其木格[7]提出的主題格、客體格、領(lǐng)體格、工具格等8大類(lèi)14個(gè)小類(lèi)。

      蒙古文信息處理工作進(jìn)行句子分析和語(yǔ)義分析的時(shí)候注意到語(yǔ)義角色標(biāo)注的重要性。從蒙古語(yǔ)信息處理角度:額爾敦朝魯[8]根據(jù)內(nèi)蒙古大學(xué)編撰的《蒙漢詞典》,《蒙古語(yǔ)語(yǔ)法信息詞典》以及100萬(wàn)詞級(jí)現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù),對(duì)蒙古語(yǔ)動(dòng)詞做了語(yǔ)義分類(lèi),劃分為5個(gè)大類(lèi)121個(gè)小類(lèi)。其中,根據(jù)動(dòng)詞的不同特點(diǎn),有些類(lèi)細(xì)劃分為2層,有些劃分為3層,還有劃分為4層的。海銀花[9]根據(jù)《蒙古語(yǔ)語(yǔ)法信息詞典》的名詞分庫(kù),對(duì)14 105條名詞做了語(yǔ)義分類(lèi),大體上分7個(gè)大類(lèi),根據(jù)不同情況再細(xì)分,細(xì)分層次最多有8層。德·薩日娜[10]根據(jù)對(duì)初中語(yǔ)文第一冊(cè)的分析,提出了一套蒙古語(yǔ)語(yǔ)義角色分類(lèi),第一層分4個(gè)大類(lèi),第二層分28個(gè)小類(lèi),第三層再分39個(gè)細(xì)分類(lèi)。富濤[11]從26萬(wàn)詞規(guī)模的語(yǔ)料庫(kù)抽取2 602個(gè)例句,經(jīng)過(guò)實(shí)例分析,提出了一套針對(duì)蒙古語(yǔ)簡(jiǎn)單謂動(dòng)句的語(yǔ)義角色分類(lèi),大體上分3個(gè)層次,只是對(duì)第三層次的用具類(lèi)和位置類(lèi)進(jìn)一步做了3個(gè)細(xì)分類(lèi)和4個(gè)細(xì)分類(lèi)。

      蒙古語(yǔ)語(yǔ)義角色分類(lèi)和標(biāo)記研究在傳統(tǒng)語(yǔ)言學(xué)和信息處理研究方面進(jìn)行過(guò),還取得一定的成果。但是,這些研究成果還存在一些問(wèn)題。因?yàn)椋械姆诸?lèi)只是針對(duì)詞的語(yǔ)義特征的而不是對(duì)句子語(yǔ)義單位之間的語(yǔ)義關(guān)系的;有的雖然是針對(duì)語(yǔ)義角色的,但依據(jù)的語(yǔ)料有一定的局限性或者針對(duì)的題材單一;語(yǔ)義角色的名稱(chēng)和種類(lèi)不統(tǒng)一,命名過(guò)于隨意;劃分顆粒度過(guò)分粗或者過(guò)分細(xì),沒(méi)有經(jīng)過(guò)語(yǔ)義角色標(biāo)注實(shí)際操作檢驗(yàn)。關(guān)于蒙古語(yǔ)語(yǔ)義角色的研究成果是我們制定基于依存語(yǔ)法的語(yǔ)義角色分類(lèi)的著重參考點(diǎn)。

      3 基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)及標(biāo)記

      3.1 蒙古語(yǔ)依存句法分析樹(shù)庫(kù)

      內(nèi)蒙古大學(xué)在國(guó)家自然科學(xué)基金資助下構(gòu)建了50萬(wàn)詞級(jí)的蒙古語(yǔ)依存句法分析樹(shù)庫(kù)。為建立該樹(shù)庫(kù),借鑒了其他語(yǔ)言依存樹(shù)庫(kù)的成功經(jīng)驗(yàn),并針對(duì)蒙古語(yǔ)自身特點(diǎn),把蒙古語(yǔ)語(yǔ)義關(guān)系分為4大類(lèi),設(shè)立了包含17種依存關(guān)系的蒙古語(yǔ)依存關(guān)系標(biāo)記集,用有向弧表示從屬詞和支配詞之間的依存關(guān)系,對(duì)句子的核心詞以及上述17種語(yǔ)義關(guān)系的標(biāo)注和插入句的處理都給出了詳細(xì)的標(biāo)注規(guī)范,用了括弧形式和樹(shù)形形式兩種標(biāo)注形式[12]。

      蒙古語(yǔ)依存關(guān)系標(biāo)記集的規(guī)模和所包含的依存類(lèi)型是合理的,它覆蓋了蒙古語(yǔ)所有的依存現(xiàn)象,并且用該標(biāo)記集標(biāo)注的蒙古語(yǔ)依存句法分析樹(shù)庫(kù)包含了豐富的句法結(jié)構(gòu)信息??偟膩?lái)說(shuō),蒙古語(yǔ)依存句法分析樹(shù)庫(kù)的建立,對(duì)制定蒙古語(yǔ)語(yǔ)義角色標(biāo)注體系和標(biāo)注規(guī)范提供了重要參考依據(jù),對(duì)建立蒙古語(yǔ)語(yǔ)義角色標(biāo)注語(yǔ)料資源提供了可操作的基礎(chǔ)條件。

      基于依存語(yǔ)法的語(yǔ)義角色標(biāo)注方法是通過(guò)挖掘句子中單詞或短語(yǔ)之間存在的依存關(guān)系得出句子中成分的角色。蒙古語(yǔ)語(yǔ)義角色分類(lèi)基于依存句法樹(shù)的話,不但可以利用單詞之間的依存特征,而且也可以預(yù)測(cè)與目標(biāo)謂詞有依存關(guān)系的短語(yǔ)為某種語(yǔ)義角色。我們對(duì)一定數(shù)量的標(biāo)注依存關(guān)系的蒙古語(yǔ)語(yǔ)料進(jìn)行基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色手工標(biāo)注,分析了依存關(guān)系和語(yǔ)義角色的對(duì)應(yīng)關(guān)系。例如,依存關(guān)系“SUBJ”對(duì)應(yīng)“施事”、“當(dāng)事”、“存在”、“主題”等語(yǔ)義角色,有些被動(dòng)句中對(duì)應(yīng)“使動(dòng)”的語(yǔ)義角色。

      3.2 基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)及標(biāo)記

      基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色標(biāo)注研究中直接引用上述有關(guān)蒙古語(yǔ)語(yǔ)義的分類(lèi)和標(biāo)記仍然存在一定的問(wèn)題。

      目前,我們對(duì)蒙古語(yǔ)依存句法分析樹(shù)庫(kù)的5 000個(gè)句子進(jìn)行語(yǔ)義角色手工標(biāo)注實(shí)驗(yàn),考慮基于依存語(yǔ)法語(yǔ)義角色的手工標(biāo)注和自動(dòng)標(biāo)注,初步制定了包括主體、客體、領(lǐng)體、修飾4大類(lèi),施事、當(dāng)事等24個(gè)細(xì)分類(lèi)的語(yǔ)義角色分類(lèi)及標(biāo)記。具體分類(lèi)及其標(biāo)記如表1所示。

      表1 蒙古語(yǔ)語(yǔ)義角色分類(lèi)及其標(biāo)記

      其中,標(biāo)記代碼采用了語(yǔ)義角色蒙古語(yǔ)名稱(chēng)的前三個(gè)字母,發(fā)生重復(fù)時(shí)從后續(xù)字母中選擇一個(gè)合適的字母,調(diào)整了代碼標(biāo)記的第三個(gè)位置。

      經(jīng)過(guò)一定數(shù)量的蒙古語(yǔ)真實(shí)語(yǔ)料的驗(yàn)證,基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)基本覆蓋蒙古語(yǔ)語(yǔ)義角色現(xiàn)象。這表明基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色分類(lèi)是合理的,科學(xué)的。

      標(biāo)注依存關(guān)系的蒙古語(yǔ)語(yǔ)料庫(kù)是進(jìn)行語(yǔ)義角色標(biāo)注研究的語(yǔ)料資源,蒙古語(yǔ)依存句法分析樹(shù)庫(kù)有樹(shù)形形式和文本形式,同樣基于依存語(yǔ)法的蒙古語(yǔ)語(yǔ)義角色標(biāo)注也有樹(shù)形形式和文本形式。標(biāo)記依存關(guān)系的蒙古語(yǔ)句子語(yǔ)料上進(jìn)行語(yǔ)義角色手工標(biāo)注的句子實(shí)例如下。

      文本形式:

      注:括弧內(nèi)是蒙古語(yǔ)拉丁轉(zhuǎn)寫(xiě)和漢語(yǔ)翻譯。

      單詞后面第一個(gè)括弧內(nèi)的標(biāo)記表示依存關(guān)系,第二個(gè)括弧內(nèi)的標(biāo)記表示語(yǔ)義角色。樹(shù)形形式:注:大寫(xiě)標(biāo)記表示依存關(guān)系,小寫(xiě)標(biāo)記表示語(yǔ)義角色。

      圖1 蒙古語(yǔ)語(yǔ)義角色標(biāo)注實(shí)例

      總括,本文從蒙古文信息處理的角度出發(fā),對(duì)基于依存語(yǔ)法的5 000個(gè)蒙古語(yǔ)句子進(jìn)行語(yǔ)義角色手工標(biāo)注,制定了蒙古語(yǔ)語(yǔ)義角色分類(lèi)和標(biāo)注體系。我們將以手工標(biāo)注語(yǔ)料為基礎(chǔ),通過(guò)機(jī)器學(xué)習(xí)的方法,研制一個(gè)蒙古語(yǔ)語(yǔ)義角色自動(dòng)標(biāo)注系統(tǒng),建立蒙古語(yǔ)語(yǔ)義角色標(biāo)注的語(yǔ)料資源。

      [1]Dowty D.Thematic Proto-Role and Argnment Selection[J].Lauguage,1991,(3):547-561.

      [2]楊敏;常寶寶.基于北京大學(xué)中文網(wǎng)庫(kù)的語(yǔ)義角色分類(lèi)[J].中文信息學(xué)報(bào),2011,25(2):3-8.

      [3]袁毓林.語(yǔ)義角色的精細(xì)等級(jí)及其在信息處理中的應(yīng)用[J].中文信息學(xué)報(bào),2007,21(4):10-20.

      [4]寶哈斯巴根.現(xiàn)代蒙古語(yǔ)動(dòng)詞研究[M].北京:民族出版社,1995.

      [5]德力格爾瑪.蒙古語(yǔ)語(yǔ)義研究[M].沈陽(yáng):遼寧民族出版社,2001.

      [6]特圖克.蒙古語(yǔ)句子語(yǔ)義學(xué)結(jié)構(gòu)[J].中國(guó)蒙古學(xué),2008,1:1-7.

      [7]其木格.蒙漢語(yǔ)常用語(yǔ)義格對(duì)比研究[D].中央民族大學(xué):中央民族大學(xué)碩士學(xué)位論文,2008.

      [8]額爾敦朝魯.面向信息處理的蒙古語(yǔ)動(dòng)詞語(yǔ)義研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2005.

      [9]海銀華.面向信息處理的蒙古語(yǔ)名詞語(yǔ)義研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2010.

      [10]薩日娜.蒙古語(yǔ)格框架的研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2006.

      [10]王步康,王紅玲,袁曉虹,等.基于依存句法分析的語(yǔ)義角色標(biāo)注[J].中文信息學(xué)報(bào),2010,24(1):25-29.

      [11]富濤.面向信息處理的蒙古語(yǔ)簡(jiǎn)單句謂動(dòng)句句模研究[D].內(nèi)蒙古大學(xué):內(nèi)蒙古大學(xué)博士學(xué)位論文,2011.

      [12]馮文賀;姬東鴻.命題庫(kù):分析與展望[J].外語(yǔ)電化教學(xué),2010,6:25-32.

      [13]斯·勞格勞.現(xiàn)代蒙古與依存句法自動(dòng)分析研究[D].內(nèi)蒙古大學(xué)博士學(xué)位論文,2011.

      猜你喜歡
      內(nèi)蒙古大學(xué)蒙古語(yǔ)論元
      含有“心”一詞蒙古語(yǔ)復(fù)合詞的語(yǔ)義
      內(nèi)蒙古大學(xué)文學(xué)與新聞傳播學(xué)院
      ——高建新教授
      土默特地方蒙古語(yǔ)地名再探
      論蒙古語(yǔ)中反映心理逆境傾向的某些字的含義
      施旖旎作品
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
      基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
      俄語(yǔ)詞“Sherti”在蒙古語(yǔ)中的變義(蒙古文)
      An Analysis of Neighbors
      英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
      孟州市| 饶平县| 通河县| 五华县| 台州市| 米脂县| 洱源县| 德保县| 梅河口市| 正镶白旗| 太仆寺旗| 阳曲县| 繁昌县| 衡山县| 梓潼县| 广南县| 威宁| 灌南县| 福鼎市| 咸丰县| 呼图壁县| 武夷山市| 合作市| 陕西省| 和硕县| 马山县| 福泉市| 六盘水市| 耿马| 新津县| 揭阳市| 塔城市| 万州区| 庆安县| 柯坪县| 德江县| 洞头县| 渝北区| 双牌县| 大同县| 乐昌市|