• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語料庫的多義詞統(tǒng)計意義解析

      2019-10-08 06:24:31曹慧
      科學大眾·教師版 2019年7期
      關(guān)鍵詞:多義詞統(tǒng)計語料庫

      曹慧

      摘 要:本文所研究的三種基于語料庫的統(tǒng)計意義解析方法,試圖通過對詞的共現(xiàn)模式的了解來推斷一個多義詞的正確意義。該技術(shù)基于貝葉斯決策理論、神經(jīng)網(wǎng)絡(luò)和信息檢索中使用的內(nèi)容向量。為了更好地理解這些方法,我們給定一組上下文,每個上下文都包含已知意義上的名詞line,構(gòu)造一個分類器來為新的上下文選擇正確的行意義。為了了解多義的程度如何影響表現(xiàn),我們比較了三種和六種感覺任務(wù)的結(jié)果。結(jié)果表明,每一種方法都能準確區(qū)分六種線形感官,準確率達70%以上。此外,分類器的響應(yīng)模式在很大程度上在統(tǒng)計上是不可區(qū)分的。兩項任務(wù)的比較表明,解決個體感官困難程度是一個比多義程度更大的表現(xiàn)因素。

      關(guān)鍵詞:語料庫; 統(tǒng)計; 多義詞

      中圖分類號:G642 ? ? ? ? ? ? ?文獻標識碼:A ? ?文章編號:1006-3315(2019)07-159-002

      1.引言

      語料庫指的是為某一個或多個應(yīng)用而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計算機程序檢索的、具有一定規(guī)模的語料的集合[1]。本研究的目的是系統(tǒng)地探討基于語料庫的統(tǒng)計意義解析方法中,每個詞的義數(shù)、每個義的訓練例數(shù)等變量對統(tǒng)計意義解析方法的影響。為了研究詞義數(shù)量的影響,我們選擇了高度多義的名詞line,在詞匯網(wǎng)絡(luò)中有25個詞義。

      2.文獻綜述

      Yarowsky[2]將貝葉斯統(tǒng)計方法與其他基于語料庫的統(tǒng)計模型發(fā)表的結(jié)果進行了比較。他通過使用相同的詞語,用相同的意義定義,將這些差異最小化。令人信服地指出,貝葉斯模型與代價更高的方法一樣好,甚至更好。

      作為本研究的試點,利用內(nèi)容向量和神經(jīng)網(wǎng)絡(luò)分類器對線進行了兩種意義上的區(qū)分任務(wù),準確率達到90%以上。然后運行一個三感區(qū)分任務(wù)。

      3.研究方法

      培訓和測試的內(nèi)容取自1987-89《華爾街日報》語料庫和來自APHB語料庫。從WordNet中提取2個包含“[L1]ine(s)”的句子,并手動分配單個意義。

      通常,實驗在目標的兩側(cè)使用固定數(shù)量的單詞或字符作為上下文。在這個實驗中,我們使用語言單位-句子-代替。選擇使用兩句上下文:包含行和前一句的句子,訓練和測試上下文的平均大小為44.5個單詞。

      詞義解析任務(wù)使用名詞行以下六種意義:

      1.a product: ‘ a new line of workstations

      2.a formation of people or things: ‘stand in line

      3.spoken or written text: ‘a(chǎn) line from Shakespeare

      4.a thin, flexible object; cord: ‘a(chǎn) nylon line

      5.an abstract division: ‘a(chǎn) line between good and evil

      6.a telephone connection: ‘the line went dead

      為了檢驗訓練樣本的數(shù)量對分類器性能的影響,我們從200個訓練集中提取了較小的訓練集,每個意義的前50和100個上下文被用來構(gòu)建新的訓練集。在給定的試驗中,對每個訓練集使用相同的894個測試上下文集。每個分類器在相同的試驗中使用相同的訓練和測試上下文,但是根據(jù)方法的需要對文本進行不同的處理。

      4.分類

      這三個分類器使用的唯一信息是字符串在上下文中同時出現(xiàn)。它們不使用其他線索,如句法標記或詞序。它們也不需要任何不是完全自動的訓練上下文的增強。

      4.1貝葉斯法

      由Gale,Church和Yarowsky[3]開發(fā)的貝葉斯分類器使用貝葉斯決策理論對與多義目標的每個意義同時出現(xiàn)的令牌進行加權(quán)。模型的主要組件標記被定義為任何字符串:單詞、數(shù)字、符號、標點符號或任何組合。整個標記都是重要的,因此基本單詞(wait vs. wait)和混合大小寫字符串(Bush vs. Bush)的變形形式是不同的標記。與每個標記相關(guān)聯(lián)的是一組顯著性,每個顯著性對應(yīng)一種感覺,由訓練數(shù)據(jù)計算得出。給定意義的標記的顯著性是Pr(token/sense)/Pr(token)。給定意義的標記的影響是其顯著性的對數(shù)。

      為了在(測試)上下文中選擇目標單詞的意義,分類器計算每個標記意義在上下文中對所有標記的影響總和,并選擇和最大的意義。在意義分辨的情況下,顯著標記包括出現(xiàn)頻率低得多的內(nèi)容詞。貝葉斯分類器實驗由AT&T貝爾實驗室的Kenneth Church進行。在這些實驗中,兩句話環(huán)境使用的一個固定大小的窗口±50標記周圍的目標詞,Gale等人找到導致一個小數(shù)量的上下文用于估計概率最優(yōu)值。

      4.2內(nèi)容向量

      信息檢索系統(tǒng)的向量空間模型推動了感知分辨率的內(nèi)容向量方法,其中,語料庫中的每個概念都定義了向量空間的一個軸,語料庫中的文本表示為該空間中的一個點。語料庫中的概念通常定義為出現(xiàn)在語料庫中的詞干集,兩個文本之間的相似性被計算為表示兩個文本的向量的函數(shù)。

      對于感知解析問題,每個感知都由一個由該感知訓練上下文構(gòu)造的單個向量表示。由訓練上下文定義的一個空間向量也是為每一個測試上下文構(gòu)造的。要為測試上下文選擇一個意義,需要計算其向量與每個意義向量之間的內(nèi)積,并選擇其內(nèi)積最大的意義。

      4.3神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)方法將感知分辨率作為一種監(jiān)督學習范式。成對的(輸入特性,期望的響應(yīng))出現(xiàn)在一個學習程序中。該程序的任務(wù)是設(shè)計一些方法來使用輸入特性將訓練上下文劃分為與期望響應(yīng)相對應(yīng)的非重疊集。

      每個上下文都被轉(zhuǎn)換成位向量。在整個訓練集中出現(xiàn)至少兩次的每個概念都被分配到位向量位置。得到的向量的位置為1,與上下文中的概念對應(yīng),否則為0。這個過程創(chuàng)建超過4000個位置的向量。然而,這些向量是極其稀疏的,它們平均包含略多于17個概念。

      對網(wǎng)絡(luò)進行訓練,直到每個訓練示例中對應(yīng)于期望響應(yīng)的單元的輸出大于任何其他單元的輸出為止。訓練一個網(wǎng)絡(luò)直到所有的例子都正確分類,這樣的結(jié)果是罕見的標記可以獲得不相稱的重要性。

      為了確定網(wǎng)絡(luò)的良好拓撲結(jié)構(gòu),研究了各種網(wǎng)絡(luò)拓撲:將0到100個隱藏單元排列在一個隱藏層中的網(wǎng)絡(luò);具有多層隱藏單元的網(wǎng)絡(luò);以及具有單層隱藏單元的網(wǎng)絡(luò),其中輸出單元連接到隱藏單元和輸入單元。在所有情況下,沒有隱藏單元的網(wǎng)絡(luò)配置要么優(yōu)越,要么在統(tǒng)計上與更復雜的網(wǎng)絡(luò)難以區(qū)分。由于沒有網(wǎng)絡(luò)拓撲明顯優(yōu)于沒有隱藏單元的網(wǎng)絡(luò)拓撲,所以這里報告的所有數(shù)據(jù)都來自這樣的網(wǎng)絡(luò)。

      5.結(jié)論

      所有分類器在訓練上下文數(shù)量最多(200)的情況下表現(xiàn)最佳。

      三種方法的響應(yīng)模式的收斂性表明,每種分類器都從訓練上下文中提取盡可能多的字數(shù)數(shù)據(jù)。如果是這樣,那么任何只使用單詞計數(shù)的技術(shù)都不會比這里測試的技術(shù)準確得多。

      雖然一詞多義的程度確實影響了感官分辨任務(wù)的難度,但更大的表現(xiàn)因素是個體感官分辨的難度。從語境的考察來看,關(guān)鍵信息似乎離詞很近,而離詞較遠的語境則是噪聲。這些基于語料庫的統(tǒng)計技術(shù)使用了訓練上下文的貧乏表示:兩個句子中出現(xiàn)的標記的簡單計數(shù)。我們認為,除非將詞序或句法信息等其他信息納入該技術(shù),否則不可能顯著提高分辨率的準確性。

      基金項目:2013年安徽省教育廳人文社會科學研究一般項目(項目編號:SK2013B227)

      參考文獻:

      [1]何婷婷.語料庫研究[D]華中師范大學博士學位論文,2003

      [2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992

      [3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992

      猜你喜歡
      多義詞統(tǒng)計語料庫
      多義詞
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      2008—2015我國健美操科研論文的統(tǒng)計與分析
      人間(2016年27期)2016-11-11 17:33:19
      山東省交通運輸投資計劃管理信息系統(tǒng)的設(shè)計
      我國居民收入與消費關(guān)系的統(tǒng)計分析
      市場經(jīng)濟背景下的會計統(tǒng)計發(fā)展探究
      商(2016年27期)2016-10-17 05:50:19
      淺議多義詞在語境中的隱喻認知
      多義詞way的語義認知分析及實證研究
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      德江县| 马山县| 望江县| 光山县| 内丘县| 襄垣县| 营山县| 呼和浩特市| 宁河县| 靖安县| 商洛市| 温州市| 阿瓦提县| 会泽县| 长春市| 上高县| 津南区| 南川市| 濮阳市| 麻江县| 岫岩| 英超| 青龙| 若羌县| 如东县| 阳新县| 海阳市| 获嘉县| 隆安县| 佛坪县| 同仁县| 吉隆县| 拉萨市| 剑河县| 定州市| 健康| 石泉县| 安西县| 庆云县| 突泉县| 达孜县|