• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞分布表征的漢語框架排歧研究

      2015-03-11 14:05:30黨帥兵李國臣王瑞波李濟(jì)洪
      關(guān)鍵詞:語料框架卷積

      黨帥兵,李國臣,2,王瑞波,李濟(jì)洪

      (1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原030006;2.太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原030008;3.山西大學(xué)軟件學(xué)院,山西 太原030006)

      0 引 言

      自然語言中廣泛存在著一詞多義現(xiàn)象,比如“打醬油”中“打”是購買的意思,而在“打毛衣”中“打”是織的意思.這種現(xiàn)象對于自然語言處理中的語義分析有著至關(guān)重要的影響.作為語義分析中的中間環(huán)節(jié),框架排歧是給定句子中的目標(biāo)詞,計(jì)算機(jī)自動(dòng)識(shí)別出其所屬框架,從而消除這種歧義現(xiàn)象.由于框架排歧研究起步較晚,目前大多數(shù)的研究工作[1-4]都是將其看作分類問題,通過人工設(shè)定特征模板來選取大量的詞、基本塊、句法標(biāo)記等標(biāo)記特征.這些標(biāo)記特征主要存在兩方面的問題.首先,每種特征的特征標(biāo)記集合較大,從而導(dǎo)致最終的特征矩陣維度較高且非常稀疏;其次,特征標(biāo)記之間被認(rèn)為相互獨(dú)立,沒有任何關(guān)聯(lián).這顯然是不對的,例如,詞語“中國”和“美國”都是描述國家的名詞,在語義上有很強(qiáng)的相關(guān)性.但在上述的標(biāo)記特征集合中,這兩個(gè)詞被分別對待.針對這兩方面問題,我們認(rèn)為,在構(gòu)建框架排歧模型時(shí),應(yīng)該構(gòu)建維度較低的特征空間,并且在特征空間中,可以很好地勾連出特征之間的語義關(guān)系.因此,本文摒棄傳統(tǒng)的標(biāo)記特征,通過使用神經(jīng)網(wǎng)絡(luò)模型來預(yù)先學(xué)習(xí)出詞語的低維、實(shí)值的分布表示信息,并把它們作為特征加入到最大熵[5]模型中.本文抽取出漢語框架網(wǎng)(Chinese FrameNet,簡稱CFN)中88個(gè)可以激起兩個(gè)以上框架的詞元中的2 077條句子作為語料來構(gòu)造框架排歧實(shí)驗(yàn).最終,使用詞分布表征的框架消歧精確率(Accuracy)達(dá)到58.11%,比使用詞特征時(shí)高出近11個(gè)百分點(diǎn).

      1 詞分布表征

      在建立框架排歧模型時(shí),特征的選取是至關(guān)重要的.本文僅采用了詞語特征.但在表示詞語特征時(shí),傳統(tǒng)0-1表示方法是將模型的每條訓(xùn)練樣例表示成一個(gè)很長的0-1向量.該向量中,不同的維度對應(yīng)著不同的詞語特征.如果某個(gè)詞語特征在當(dāng)前的訓(xùn)練樣例中出現(xiàn),則在相應(yīng)的位置使用1表示,否則為0.這種表示方法存在兩個(gè)嚴(yán)重的問題:①詞與詞被孤立地看成向量中兩個(gè)不同的維度,它們之間的語義并沒有得到體現(xiàn);②每個(gè)樣例的特征描述會(huì)隨著詞特征集合的增大而增大,從而導(dǎo)致特征集合稀疏且高維[6].本文摒棄了常用的0-1表示方法,轉(zhuǎn)而采用詞語的低維實(shí)值的分布表征.

      簡單來說,詞分布表征就是用低維的實(shí)數(shù)向量來表示所有詞語.例如,“打”這個(gè)詞語可以被表示為:[-0.153 23,0.793 14,…,1.759 32].學(xué)習(xí)詞語分布表征的主要手段就是將低維實(shí)值的詞表示矩陣作為參數(shù)矩陣引入到不同的神經(jīng)網(wǎng)絡(luò)模型中,并在大規(guī)模語料上通過無監(jiān)督學(xué)習(xí)來優(yōu)化這些參數(shù),從而將大規(guī)模語料中詞語的語義信息隱式地編碼到這些參數(shù)中.目前比較流行的詞分布 表 征 學(xué) 習(xí) 方 法 有C&W[7],Word2Vec[8-10],RNNLM[11]和Glove[12].

      本文使用C&W 方法[7]基于山西大學(xué)CFN 語料來學(xué)習(xí)詞分布表征,并將其應(yīng)用到最大熵模型中來進(jìn)行漢語框架排歧研究.表1給出了使用夾角余弦求相似度的算法,基于C&W 訓(xùn)練方法迭代10億次得到的詞分布表征,抽取出的“中國”、“我”、“肝臟”、“蘋果”和“一”,五個(gè)詞的近鄰詞.

      表1 近鄰詞抽取Tab.1 Neighbor word extraction

      2 漢語框架排歧問題描述

      漢語框架排歧任務(wù)是給定一條漢語句子、句中的目標(biāo)詞以及目標(biāo)詞的所屬框架列表,要求計(jì)算機(jī)能夠基于上下文信息,從該框架列表中,為該目標(biāo)詞自動(dòng)地標(biāo)注一個(gè)適合的框架.其形式化描述如下:

      給定目標(biāo)詞wt,其可以激起的框架集合記為F={f1,f2,…,fm},該目標(biāo)詞的上下文信息記為C,那么,框架排歧的任務(wù)為尋找唯一的f∈F,使其滿足

      3 算法描述及建模

      基于漢語框架排歧任務(wù)的形式化描述,本文將該任務(wù)看作分類問題來解決,采用最大熵思想來構(gòu)建分類模型.由于本文的主要意圖在于研究詞分布表征對于漢語框架排歧任務(wù)的影響,在特征提取時(shí),僅將詞對應(yīng)的分布表征作為特征加入到最大熵模型中去.

      實(shí)驗(yàn)中,用Y 表示當(dāng)前目標(biāo)詞所能激起的框架集合,用X 表示當(dāng)前目標(biāo)詞所對應(yīng)的上下文信息的集合,模型的目標(biāo)是:給定上下文x∈X,計(jì)算出y∈Y 的條件概率p(y|x).最大熵的思想就是從滿足條件的模型中選擇最為均勻的模型.對于條件概率p(y|x),其均勻性可以用條件熵來度量,其定義為

      則最大熵的形式化表示為

      采用拉格朗日乘數(shù)法來求解最大熵,其公式為式中:f(x,y)是表示x 和y 存在某種關(guān)系的特征函數(shù),是個(gè)二值函數(shù);λi是特征fi所對應(yīng)的權(quán)重參數(shù),也稱為拉格朗日算子;Z(x)是歸一化因子,其公式為

      本文在利用最大熵算法建模時(shí),其輸入是從人工標(biāo)注的訓(xùn)練語料中抽取到的訓(xùn)練樣本集合{(x1,y1),(x2,y2),…,(xn,yn)}.其中,(xi,yi)表示上下文信息xi所對應(yīng)的框架為yi.本文僅使用詞特征時(shí)的xi表示目標(biāo)詞前后固定窗口的詞序列,使用詞分布表示實(shí)驗(yàn)時(shí),xi是固定窗口內(nèi)的詞對應(yīng)的分布表征拉直后構(gòu)成的多維的特征向量.具體實(shí)例如下:

      例句:公元前12世紀(jì)末、11世紀(jì) 初 產(chǎn)生 了猶太教.

      其中,目標(biāo)詞“產(chǎn)生”能夠激起“使形成”、“形成”、“因果”和“創(chuàng)造”四個(gè)框架,本例句中,與之匹配的框架是“創(chuàng)造”框架.本文的窗口設(shè)定為[-2,2],詞分布表征的維數(shù)為100.則僅使用詞特征時(shí)的xi為[世紀(jì),初,產(chǎn)生,了,猶太教],yi為“創(chuàng)造”.使用詞分布表征實(shí)驗(yàn)時(shí)xi為[f1∶-0.102 59,f2∶0.489 02,…,f500∶0.553 91],

      fi表示特征名,其所對應(yīng)的特征值是由詞序列中各個(gè)詞的分布表征提供.

      模型的訓(xùn)練過程其實(shí)是對于權(quán)重λ 的參數(shù)估計(jì)過程.由于語料規(guī)模較小,為了防止在訓(xùn)練時(shí)模型對于數(shù)據(jù)的過度擬合,本文在模型訓(xùn)練時(shí)引入了均值為0、方差為C 的高斯懲罰.實(shí)驗(yàn)時(shí)通過調(diào)節(jié)高斯參數(shù)C 來得到最優(yōu)模型.圖1 為本文漢語框架排歧實(shí)驗(yàn)的具體流程.

      圖1 漢語框架排歧流程圖Fig.1 Flow chart of Chinese frame disambiguation

      受有實(shí)驗(yàn)語料所限,為了保證模型的穩(wěn)定性,本文采用3-fold交叉驗(yàn)證,因此系統(tǒng)在抽取3 次訓(xùn)練集和測試集后將結(jié)束.在利用詞分布表征來提取上下文信息時(shí),本文分別使用了4種方法:

      1)直接將[-2,2]窗口內(nèi)的詞對應(yīng)的分布表征作為特征值加入到最大熵模型中;

      2)將目標(biāo)詞所在的句子中的所有詞依次替換為分布表征后,經(jīng)過遞歸卷積運(yùn)算得到的100維的實(shí)值向量作為特征值加入到最大熵模型中,卷積公式為

      式中:n表示當(dāng)前卷積層的節(jié)點(diǎn)個(gè)數(shù),這種遞歸卷積方法的圖示化表示如圖2 所示.

      圖2 遞歸卷積運(yùn)算示意圖Fig.2 Recursive convolution operation schematic

      圖2 中最下層是句子中的詞序列,通過查找小節(jié)1中已經(jīng)訓(xùn)練好的詞分布表征將詞序列中詞轉(zhuǎn)換為各自對應(yīng)的詞分布表征.然后通過遞歸卷積運(yùn)算最后得到一個(gè)100維度的實(shí)值向量,即圖2中的最頂層.

      3)首先將目標(biāo)詞所在句子中的所有詞賦予權(quán)重,然后采用方法2對其進(jìn)行卷積運(yùn)算,同樣得到一個(gè)100維的實(shí)值向量,并將其作為特征值加入到最大熵模型中.賦權(quán)重的方法具體是:將目標(biāo)詞與句子兩端的最遠(yuǎn)距離加1作為目標(biāo)詞的權(quán)重,目標(biāo)詞左右兩邊的詞隨著離目標(biāo)詞距離增大權(quán)重依次減1.比如例句“公元前12 世紀(jì)末、11世紀(jì)初 產(chǎn)生 了 猶太教.”的目標(biāo)詞“產(chǎn)生”與句子左端“公元前”的距離最遠(yuǎn),其值是7,則目標(biāo)詞“產(chǎn)生”的權(quán)重為8,整個(gè)句子中所有詞的權(quán)重為:1,2,3,4,5,6,7,8,7,6,5.

      4)首先去除目標(biāo)詞所在句子中的停用詞,然后采用方法三對其進(jìn)行加權(quán)、卷積處理,最后同樣得到一個(gè)100維的實(shí)值向量作為特征值加入到最大熵模型中.

      4 評價(jià)指標(biāo)

      本文在三折交叉驗(yàn)證試驗(yàn)下,全部目標(biāo)詞的框架分類精確率(Accuracy)計(jì)算公式如下

      式中:n是所選用詞元總數(shù)(本文n=88);Nij是目標(biāo)詞ti的第j 份交叉驗(yàn)證實(shí)驗(yàn)中測試?yán)涞膫€(gè)數(shù);cij是目標(biāo)詞ti的第j 份交叉驗(yàn)證實(shí)驗(yàn)中框架分類正確的測試?yán)鋫€(gè)數(shù).

      5 實(shí) 驗(yàn)

      5.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)采用mallet工具包中的最大熵模型作為分類器,所用語料來自山西大學(xué)CFN 語料庫.訓(xùn)練詞分布表征時(shí)輸入序列長度為5,即當(dāng)前詞和與它相鄰的前后各兩個(gè)詞.在預(yù)處理時(shí),將語料中所有外文字母換成“WORD”,所有阿拉伯?dāng)?shù)字替換為“NUMBER”,抽取該訓(xùn)練預(yù)料中詞頻數(shù)大于1的詞構(gòu)成詞表,對于其他詞用“UNKNOWN”字符表示,人為設(shè)定詞向量的維度為100.訓(xùn)練時(shí),在不斷的迭代優(yōu)化過程中,詞分布表征中某些維數(shù)的值會(huì)不斷增大.為了避免其對最大熵模型的影響,將得到的詞分布表征進(jìn)行規(guī)范化[13],其形式化描述為

      式中:E 表示詞表中所用詞分布表征構(gòu)成的矩陣;σ是常數(shù)因子;stddev(E)表示矩陣E 的標(biāo)準(zhǔn)差.

      本文所用語料是從漢語框架語義知識(shí)庫中抽取出的可以激起兩個(gè)以上框架的88 個(gè)詞元中的2 077條句子,并按照詞元所述框架將所有句子均勻切分為3份.實(shí)驗(yàn)時(shí),任選其中2份做訓(xùn)練集,另外1份做測試集,進(jìn)行三折交叉驗(yàn)證,使用開窗口技術(shù)時(shí),窗口大小為[-2,2].

      5.2 實(shí)驗(yàn)結(jié)果及分析

      經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),本文所用的所有方法得到最好結(jié)果時(shí)的Gauss平滑參數(shù)都在1,2,…5之內(nèi).為了簡便,本文只列出Gauss平滑參數(shù)在1,2,…5之內(nèi)的實(shí)驗(yàn)結(jié)果.表2 給出了僅使用詞特征的實(shí)驗(yàn)結(jié)果.

      表2 使用詞特征的實(shí)驗(yàn)結(jié)果Tab.2 The results of using the word feature

      從表2 可以看出,僅使用開窗口的詞特征時(shí),模型最好的實(shí)驗(yàn)結(jié)果僅為47.47%.參考文獻(xiàn)[3],本文將該實(shí)驗(yàn)作為基準(zhǔn)實(shí)驗(yàn).

      表3 給出了Gauss平滑參數(shù)為1時(shí),采用方法1,在規(guī)范化常數(shù)因子分別為1,0.1,0.01,0.001 的實(shí)驗(yàn)結(jié)果.

      表3 不同迭代次在不同常數(shù)因子下的實(shí)驗(yàn)結(jié)果Tab.3 The results based on different iterations and constant factors

      分析表3,可以發(fā)現(xiàn),在常數(shù)因子為0.01時(shí),使用迭代7千萬次的詞分布表征得到了最高的實(shí)驗(yàn)結(jié)果.此時(shí)結(jié)果要比僅使用詞特征(47.47%)時(shí)高出將近11個(gè)百分點(diǎn),這說明使用詞分布表征比使用詞特征在進(jìn)行框架排歧研究時(shí)更有優(yōu)勢.后續(xù)都基于迭代7千萬次的詞分布表征,規(guī)范化常數(shù)因子為0.01時(shí)進(jìn)行實(shí)驗(yàn).

      表4 給出的是上下文信息提取是采用方法2的實(shí)驗(yàn)結(jié)果.從表4 可以看出,當(dāng)以句子中所有詞分布表征卷積后的特征表示作為特征時(shí),模型的性能與只使用詞分布表征作為特征時(shí)相比,結(jié)果并無差異.究其原因,可以認(rèn)為這種簡單的卷積運(yùn)算并沒用很好地利用整個(gè)句子中的語義和句法信息.

      表4 基于方法2的實(shí)驗(yàn)結(jié)果Tab.4 The results based on the second method

      表5 是采用方法3來對目標(biāo)詞的上下文信息進(jìn)行提取,并將得到的實(shí)值向量作為特征值加入到最大熵模型進(jìn)行漢語框架排歧的實(shí)驗(yàn)結(jié)果.

      表5 基于方法3的實(shí)驗(yàn)結(jié)果Tab.5 The results based on the third method

      從表5 可以看出,將整個(gè)句子中所有詞分布表征經(jīng)過加權(quán)、卷積處理后作為特征時(shí)可以達(dá)到58.11%的準(zhǔn)確率.與僅使用詞分布表征作為特征相比,有一定的提高.

      表6 給出了采用方法4,去掉句子中停用詞后作為特征值的實(shí)驗(yàn)結(jié)果.表6 中可以看出,其最好的實(shí)驗(yàn)結(jié)果也僅為54.31%.在使用詞分布表征進(jìn)行框架排歧實(shí)驗(yàn)時(shí),停用詞不能忽略.

      表6 基于方法4的實(shí)驗(yàn)結(jié)果Tab.6 The results based on the fourth method

      由表3~表6 可以看出,使用詞分布表征來進(jìn)行框架排歧實(shí)驗(yàn)最高可以達(dá)到58.11%的準(zhǔn)確率,其與表2中僅使用詞特征時(shí)(47.47%)的結(jié)果相比有大幅度提高,但與文獻(xiàn)[6]中實(shí)驗(yàn)結(jié)果(69.64%)相比仍有些差距.究其原因,是由于模型沒有使用詞性、句法等重要的特征信息,而如何獲取這些特征的分布表征是下一步要研究的內(nèi)容.

      6 總結(jié)與展望

      本文將漢語框架排歧任務(wù)看作分類問題,使用最大熵對其進(jìn)行建模,首次將由神經(jīng)語言模型學(xué)習(xí)到的詞的分布表征應(yīng)用到了框架排歧研究中,提供了一種新的研究思路.最終,得到了58.11%的精確率.

      在下一步的研究中,首要工作是將由Word2Vec、RNNLM 和Glove等多種方法得到的詞分布表征應(yīng)用到漢語框架排歧中,并對這些分布表征進(jìn)行比較與分析;其次,要研究學(xué)習(xí)到其他示性特征(比如詞性、依存關(guān)系等)分布表征的方法,并將學(xué)習(xí)到的分布表征應(yīng)用到框架排歧以及自然語言處理的其它子任務(wù)中.

      [1]Ken Litkowski.CLP:Integration of frame net in a text representation system[C].Proceedings of the 4th International Workshop on Semantic Evaluations,2007:113-116.

      [2]Cosmin Adrian Bejan,Hathaway Chris.UTD-SRL:a pipeline architecture for extracting frame semantic structures[C].Proceedings of the 4th International Workshop on Semantic Evaluations,2007:460-463.

      [3]李濟(jì)洪,高亞慧,王瑞波,等.漢語框架自動(dòng)識(shí)別中的歧義消解[J].中文信息學(xué)報(bào),2011,25(3):38-44.Li Jihong,Gao Yahui,Wang Ruibo,et al.Frame disambiguation in automatic identification of Chinese frame[J].Journal of Chinese Information Processing,2011,25(3):38-44.(in Chinese)

      [4]李國臣,張立凡,李茹,等.基于詞元語義特征的漢語框架排歧研究[J].中文信息學(xué)報(bào),2013,27(4):44-51.Li Guocheng,Zhang Lifan,Li Ru,et al.Chinese frame disambiguation based on the semantic feature of lexical units[J].Journal of Chinese Inforamtion Processing,2013,27(4):44-51.(in Chinese)

      [5]Berger A L,Pietra V J,Pietra S A.A maximum entropy approach to natural language processing[J].Computational Linguistic,1996,22(1):39-71.

      [6]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research(JMLR),2003(3):1137-1155.

      [7]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research (JMLR),2011(12):2493-2537.

      [8]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[DB].a(chǎn)rXiv preprint arXiv,2013:1301-3781.

      [9]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositi-onality[DB].a(chǎn)rXiv preprint arXiv,2013:1310-4546.

      [10]Mikolov T,Yih W,Zweig G.Linguistic Regularities in Continuous Space Word Representations[C].In NAACL-HLT-2013,2013.

      [11]Mikolov T,Karfiat M,Burget L,et al.Recurrent neural network based language model[C].In INTERSPEECH,2010:26-30.

      [12]Pennington J,Socher R,Manning C D.GloVe:Global Vectors for Word Representation[C].In EMNLP2014,2014.

      [13]Joseph T,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL),2010.

      猜你喜歡
      語料框架卷積
      框架
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      廣義框架的不相交性
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      一種基于OpenStack的云應(yīng)用開發(fā)框架
      《苗防備覽》中的湘西語料
      门源| 梁山县| 营口市| 洛南县| 安陆市| 嘉禾县| 大同县| 阳信县| 彭阳县| 九江县| 凉山| 蒙城县| 兰州市| 诸暨市| 修文县| 黔西县| 玉田县| 兴化市| 开平市| 神木县| 环江| 新绛县| 芜湖市| 登封市| 龙川县| 温泉县| 馆陶县| 柳林县| 绍兴县| 沭阳县| 穆棱市| 阿拉善盟| 文成县| 滨海县| 友谊县| 准格尔旗| 泰来县| 托克托县| 定州市| 定结县| 新津县|