• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      維吾爾語框架語義知識庫的概念設(shè)計

      2010-07-18 03:12:04阿里甫庫爾班吾買爾江庫爾班尼加提阿不都肉蘇力
      中文信息學(xué)報 2010年4期
      關(guān)鍵詞:維吾爾語知識庫語義

      阿里甫?庫爾班,吾買爾江?庫爾班,尼加提?阿不都肉蘇力

      (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2.新疆大學(xué)人文學(xué)院,新疆烏魯木齊830046)

      0 引言

      框架語義學(xué)(Frame Semantics)建立在Fillmore和他的同事們在過去三十余年的工作的基礎(chǔ)之上,是詞匯語義研究的一種方法,中心思想是詞的意義的描述必須與語義框架相聯(lián)系??蚣?Frame)是信仰、實踐、制度、想象等概念結(jié)構(gòu)和模式的圖解表征,它為一定言語社團(tuán)中意義的互動提供基礎(chǔ)[1]?!翱蚣堋弊鳛橐粋€語言學(xué)術(shù)語,是指人們理解語言時激活的大腦已有的認(rèn)知結(jié)構(gòu),這種認(rèn)知結(jié)構(gòu)是通過詞語反映[2]。

      FrameNet是美國加州大學(xué)伯克利分校1997年開始進(jìn)行的一項以Fillmore的框架語義學(xué)為理論基礎(chǔ)、以語料庫為事實依據(jù),其資源將用語義Web標(biāo)記語言描述的,一部計算機(jī)可讀、可理解的計算詞典編纂工程。該項目截至 2008年3月,共收錄10 000詞元,構(gòu)建了825個框架,其中6 100個詞元完成了例句標(biāo)注,共標(biāo)注了13.5萬例句的框架語義信息。許多國家的學(xué)者嘗試建立了與FrameNet并行的詞典,包括德語、日語、西班牙語、希伯萊語等[3]。

      隨著國際上的FrameNet工程的發(fā)展,國內(nèi)山西大學(xué)選擇了引進(jìn)、消化框架語義學(xué)理論和FrameNet數(shù)據(jù)庫,將Fram eNet的理論原則和體系思想吸收,以Fram eNet為參照,以漢語語料事實為依據(jù),構(gòu)建了有限詞語集合為描述對象的漢語框架語義知識庫(Chinese FrameNet,簡稱CFN)[3],為基于認(rèn)知的漢語語義知識庫建設(shè)探索出一條可行的技術(shù)路線。

      隨著國內(nèi)外框架語義知識庫構(gòu)建技術(shù)的興起和發(fā)展趨勢,少數(shù)民族自然語言處理領(lǐng)域面臨著向智能化邁進(jìn)。FrameNet描述的是詞語背后的認(rèn)知框架,許多國家的學(xué)者通過研究都承認(rèn)其數(shù)據(jù)可以跨語言使用,有通用價值。根據(jù)框架語義學(xué)理論,參考英語FrameNet工程和CFN工程的體系設(shè)計思路,結(jié)合維吾爾語的框架語義描述體系,我們探索了詞一級的維吾爾語框架語義知識庫(Uyghur FrameNet,簡稱UFN)構(gòu)建技術(shù),并確定了 UFN工程的整體研制技術(shù)路線。

      目前,UFN課題組已就維吾爾語名詞、形容詞、動詞、量詞和副詞等4 252個詞元構(gòu)建了402個框架,其中2 700個詞元完成了例句標(biāo)注,共標(biāo)注了1.85萬例句的框架語義信息。

      1 維吾爾語框架語義知識庫(UFN)描述體系

      框架語義學(xué)認(rèn)為,為了理解語言中詞的意義,首先要有一個概念框架結(jié)構(gòu),它由一組框架元素組成,框架中的任何概念,它的理解必須依賴于整個框架的概念關(guān)系??蚣苷Z義知識庫的語義描述涉及多方面內(nèi)容:詞語分類關(guān)系,詞義組合性質(zhì),場景知識,概念與概念之間的多種聯(lián)系[2]。

      UFN工程基于框架語義學(xué)理論,參考和應(yīng)用FrameNet工程和CFN工程的技術(shù)線路,確定的任務(wù)是:1)描述給定詞元所隸屬的概念結(jié)構(gòu)或者框架;2)從語料庫中抽取包含某個詞的句子,并從中挑選能夠例示具有某種給定意義的詞元的例子;3)通過把與框架相關(guān)的標(biāo)記(“框架元素”)指派到包含詞元的句子中的短語上,使挑選出來的句子得到標(biāo)注;4)準(zhǔn)備最終的標(biāo)注總結(jié)報告,簡明顯示每個詞元在組合上的可能性;這些被稱做“配價描述”[1]。

      框架是為詞在語言中的存在及話語的使用提供了背景和動力,將我們的經(jīng)驗知識和語言結(jié)構(gòu)結(jié)合起來,形成一系列的圖式推理結(jié)構(gòu)。

      UFN工程由框架庫、句子庫和詞元庫等三部分組成[4]。UFN框架庫中描述每個框架定義,參與和支撐此框架的一組框架元素,框架和其他框架之間的概念關(guān)系及維吾爾語中具有共同背景框架和意義基礎(chǔ)的一組詞元列表等內(nèi)容;句子庫中描述按照框架庫所提供的框架和框架元素類型,標(biāo)注句子的框架語義信息和句法信息;詞元庫中描述詞元的語義搭配模式和框架元素的句法實現(xiàn)方式。

      1.1 UFN框架庫

      UFN工程的框架庫以大規(guī)模維吾爾語文本語料為依據(jù),能夠客觀地反映維吾爾語語言現(xiàn)象的真實面貌,避免語言學(xué)家對語言有主觀性和片面性。它以框架為單位對詞語進(jìn)行分類描述,是由詞匯專家和語言學(xué)家對各種詞語的語義特征進(jìn)行系統(tǒng)的分析而創(chuàng)建的一系列的圖式推理結(jié)構(gòu)的庫。

      UFN框架庫中描述如下的四個內(nèi)容[4]:①框架定義中把框架視為抽象概念及根據(jù)其與框架元素之間的語義關(guān)系對之加以說明。②框架元素是一個框架的參與者和支撐者,是呈現(xiàn)圖式化情景的概念角色??蚣茉貙δ骋皇录Y(jié)構(gòu)的事件參與和支撐作用可分為核心框架元素(即核心論元)和非核心框架元素(即非核心或外圍論元)。框架元素中描述框架元素(即論元)的語義和句法特征,并帶有相應(yīng)的示例。對每一個參與元素(論元)進(jìn)行簡明的描述,使句子的語義能夠理解,并且對其句法表現(xiàn)加以提示,為文本標(biāo)注提供規(guī)則信息。③框架和框架之間存在總分關(guān)系(框架源與繼承框架),繼承關(guān)系(父框架、子框架、上框架、下框架),框架應(yīng)用關(guān)系(框架應(yīng)用域、被應(yīng)用框架、參照)。④詞元列表中列出維吾爾語中具有共同背景框架和意義基礎(chǔ)的一組詞元。

      英語FrameNet工程中一個詞項首先識別出突出其中一個詞義的框架,然后再說明框架元素的分類(核心框架元素和非核心框架元素)和框架元素(即論元)的組合是如何圍繞該詞項所組成的結(jié)構(gòu)中得以實現(xiàn)的。每個框架元素通過詞與語義框架的聯(lián)系,表示詞的語義及句法特征。FrameNet中值得一提的是Fram eNet的框架結(jié)構(gòu)體系中,框架元素的任意性較大,而且不同框架的框架元素也千差萬別。因此根據(jù)框架結(jié)構(gòu)體系并不能預(yù)測框架元素的語義類型,需借助于專門的語義類型定義將框架元素之間的關(guān)系建立對應(yīng)。

      我們參考Framenet的框架結(jié)構(gòu)體系,框架元素及框架元素的組合特點,UFN的框架結(jié)構(gòu)體系與FrameNet的框架結(jié)構(gòu)體系保持了一致,但是描述體系內(nèi)容完全針對維吾爾語自身特點出發(fā)。針對框架元素而言,到目前為止UFN構(gòu)建的框架中出現(xiàn)的所有核心和非核心元素總計5 225個,考慮到框架元素的基本語義類型應(yīng)該在各種使用中都保持一致,如果不一致,就成為不同的框架元素,即使出現(xiàn)在同樣的句法位置,也會根據(jù)所指不同,框架元素類型不同。因此根據(jù)各框架元素在UFN中語義功能的不同,我們對5 225個框架元素按語義功能進(jìn)行分類,分為14個大類,46個子類,每個框架元素?zé)o論出現(xiàn)在何種框架中語義功能保持一致。為文本標(biāo)注提供語義標(biāo)注規(guī)則信息,隸屬于46個子類的所有框架元素的語義功能用46中顏色標(biāo)注。

      根據(jù)框架庫描述內(nèi)容,我們描寫了如表1所示的維吾爾語框架語義庫。

      1.2 維吾爾語框架語義文檔的結(jié)構(gòu)

      眾所周知,框架是以框架理論為基礎(chǔ)發(fā)展起來的一種結(jié)構(gòu)化的知識表示方法[4],框架比較符合人對事物的認(rèn)知習(xí)慣,已經(jīng)在很多知識系統(tǒng)中得到了應(yīng)用。一個框架由框架名(框架定義名)和若干個槽組成,槽對應(yīng)著框架所表示實體的各種屬性(框架定義,框架元素,框架鏈接,詞元)。每個槽有由多個側(cè)面組成(框架定義描述,核心元素描述,非核心元素描述,例句,框架關(guān)系,詞元列表),每個側(cè)面從不同方面描述了槽的特性。

      維吾爾語框架語義與其他語言一樣,在語義知識表示上所采取的是框架式表示法??蚣苁且环N結(jié)構(gòu)化的知識表示方法,框架之間存在著復(fù)雜的關(guān)系。根據(jù)框架庫描述內(nèi)容和如表1所示的維吾爾語框架語義描述結(jié)構(gòu),建立如圖1所示的樹型文檔結(jié)構(gòu)。

      表1 維吾爾語框架語義描述結(jié)構(gòu)表

      維吾爾文是基于阿拉伯字符的文本,文本書寫形式是從右到左,根據(jù)書寫規(guī)則,閱讀樹型文檔結(jié)構(gòu)時應(yīng)從右到左順序閱讀。

      圖1 維吾爾語框架語義文檔的樹型結(jié)構(gòu)

      1.3 UFN句子庫

      UFN句子庫是既為UFN框架和詞元注釋提供參考,同時也為維吾爾語自然語言信息處理和理解研究提供具體實例的庫。維吾爾語是一個黏著性語言,有豐富的詞性變化體系,詞語按其意義和語法特征聚合成若干類別,而且每一類詞都有自己的形態(tài)特征和句法特點。因此UFN詞語標(biāo)注,是以詞語的語法特征和形態(tài)變化為基礎(chǔ),兼顧詞語在句中的語義功能。

      UFN句子標(biāo)注,是以框架庫為基礎(chǔ),針對一個句子,給定一個詞元和該詞元所屬框架,給框架元素所在的成分標(biāo)記框架元素、利用固定詞組的詞性標(biāo)記信息和形態(tài)變化形式,標(biāo)注短語類型并指出其句法功能。

      1.4 UFN詞元庫

      對任何一個語義知識庫而言,確定一個詞的“詞義”無疑都是一項基本的任務(wù)。在維吾爾語框架語義知識庫構(gòu)建過程中對每個詞元(lexeme)各個涵義都要詳盡地描述并給定其所隸屬的概念結(jié)構(gòu)或者框架描述;從語料庫中抽取包含每個詞元的句子,并從中挑選能夠例示我們所要分析的具有給定意義的詞元的例子;與框架相關(guān)的標(biāo)簽指派到包含詞元的句子中的短語上,獲得詞元的語義和句法的各種結(jié)合形式,這些被稱作“配價描述”[2]。

      2 維吾爾語框架語義知識庫概念模型的設(shè)計

      UFN是供維吾爾語自然語言處理使用的語義知識庫,而知識庫設(shè)計中數(shù)據(jù)模型是核心和基礎(chǔ)。為了把框架語義模型轉(zhuǎn)換為數(shù)據(jù)模型,首先建立概念模型。概念模型是對信息世界的建模,其具有較強(qiáng)的語義表達(dá)能力,能夠方便、準(zhǔn)確、易于理解和直接地表達(dá)語義知識。數(shù)據(jù)庫中概念設(shè)計通常采用E-R方法(Entity-Relationship approach)來表示數(shù)據(jù)庫的概念結(jié)構(gòu)。E-R方法用E-R圖來描述,E-R圖將現(xiàn)實世界的信息結(jié)構(gòu)統(tǒng)一用屬性、實體以及它們之間的聯(lián)系來描述。

      參照FrameNet工程和CFN工程的數(shù)據(jù)庫結(jié)構(gòu)并根據(jù)維吾爾語框架語義知識庫的描述內(nèi)容,結(jié)合維吾爾語框架語義網(wǎng)絡(luò)自身的特點,UFN數(shù)據(jù)庫中以維吾爾語語義框架為核心進(jìn)行信息存儲,確定了UFN數(shù)據(jù)庫的每個實體、實體的屬性以及它們之間的聯(lián)系,在邏輯上形成了框架庫、詞元庫和句子庫。維吾爾語框架語義知識庫的實體—聯(lián)系如圖2所示。

      圖2 維吾爾語框架語義知識庫的實體—聯(lián)系

      3 結(jié)論

      本文對維吾爾語的框架語義描述體系及內(nèi)容進(jìn)行了初步探討和嘗試,為創(chuàng)建基于認(rèn)知的維吾爾語框架語義知識庫探索了一條可行的技術(shù)路線。今后將進(jìn)一步研究維吾爾語框架語義角色自動標(biāo)注技術(shù),開展以維吾爾語框架語義角色為基礎(chǔ)的句義理解計算模型研究,研發(fā)基于句義理解的信息檢索,問答系統(tǒng)、信息抽取,并為實現(xiàn)語義Web中的語義知識共享以及智能化、個性化的Web服務(wù)提供基礎(chǔ)資源。

      [1] 馮志偉.從格語法到框架網(wǎng)絡(luò)[J].解放軍外國語學(xué)院學(xué)報,2006,29(3):1-8.

      [2] 吾買爾江?庫爾班,阿里甫?庫爾班.基于配價的維吾爾語框架語義知識庫的構(gòu)建[J].中文信息學(xué)報,2007,21(6):36-41.

      [3] 劉開瑛,由麗萍.漢語框架語義知識庫構(gòu)建工程介紹名[C]//中文信息處理前沿進(jìn)展—中文信息處理二十五周年學(xué)術(shù)會議,北京:清華大學(xué)出版社,2006:64-71.

      [4] 郝曉燕,劉偉,李茹,等.漢語框架語義知識庫及軟件描述體系[J].中文信息學(xué)報,2007,21(5):96-100.

      [5] http://www.icsi.berkeley.edu/ ~ framenet/.

      [6] Baker,Collin F,.Charles F,Fillmore u Beau Cronon.The structure of the FrameNet Database[J].International Joutnal o f Lexicography,2003,erscheint.

      [7] 郝曉燕,李濟(jì)洪,由麗萍,劉開瑛.中文閱讀理解語料庫構(gòu)建技術(shù)研究[J].中文信息學(xué)報,2007,21(6):29-35.

      猜你喜歡
      維吾爾語知識庫語義
      語言與語義
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
      統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      維吾爾語話題的韻律表現(xiàn)
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      認(rèn)知范疇模糊與語義模糊
      現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
      語言與翻譯(2014年3期)2014-07-12 10:32:09
      佛坪县| 锡林浩特市| 林口县| 余干县| 乌审旗| 鄯善县| 丽江市| 安宁市| 温宿县| 绥化市| 苏尼特左旗| 会泽县| 洪泽县| 兴义市| 黄石市| 项城市| 甘孜| 五河县| 合作市| 东辽县| 莒南县| 石台县| 新密市| 凌云县| 鲜城| 新邵县| 靖州| 上思县| 凉山| 乐昌市| 清徐县| 辰溪县| 兖州市| 华安县| 松阳县| 垣曲县| 济宁市| 三穗县| 临高县| 宁河县| 师宗县|