• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BP神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)實(shí)體關(guān)系抽取

      2019-06-06 04:21:26郭莉莉孫媛
      軟件導(dǎo)刊 2019年3期
      關(guān)鍵詞:藏語(yǔ)BP神經(jīng)網(wǎng)絡(luò)

      郭莉莉 孫媛

      摘 要:隨著藏文信息開始與現(xiàn)代化接軌,藏文信息數(shù)量在網(wǎng)絡(luò)上迅速增加。面對(duì)海量的網(wǎng)絡(luò)信息,如何從中挖掘人們所需的信息成為目前關(guān)注的熱點(diǎn)。目前中文實(shí)體關(guān)系抽取研究已取得較多成果,而在藏語(yǔ)人物屬性抽取研究方面還有很大的提升空間。實(shí)驗(yàn)選取實(shí)體位置關(guān)系、實(shí)體間距離關(guān)系、實(shí)體及周圍詞特征進(jìn)行特征向量化。通過(guò)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類抽取,并且取得了較好效果。研究成果可在搜索引擎、信息安全、機(jī)器翻譯等許多應(yīng)用領(lǐng)域發(fā)揮重要作用。

      關(guān)鍵詞:藏語(yǔ);實(shí)體關(guān)系抽取;BP神經(jīng)網(wǎng)絡(luò)

      DOI:10. 11907/rjdk. 181807

      中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)003-0007-03

      0 引言

      隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子文本信息資源數(shù)量越來(lái)越多,網(wǎng)民的增長(zhǎng)速度也不斷加快,其中藏族網(wǎng)民近年來(lái)的增長(zhǎng)幅度達(dá)到86%,遠(yuǎn)高于全國(guó)的平均增長(zhǎng)速度[1]。如今自然語(yǔ)言處理技術(shù)已成為計(jì)算機(jī)領(lǐng)域的重要研究方向之一,其研究成果也為社會(huì)帶來(lái)了巨大價(jià)值。如何對(duì)龐大的電子文本信息資源進(jìn)行有效利用,并從中快速、準(zhǔn)確地獲取人們所需的信息,已成為當(dāng)前關(guān)注的熱點(diǎn)問(wèn)題。

      由于互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),使研究熱點(diǎn)更多地轉(zhuǎn)向Web內(nèi)容結(jié)構(gòu)化分析[2],在自然語(yǔ)言處理研究中,知識(shí)圖譜開始得到人們的重點(diǎn)關(guān)注。由于少數(shù)民族語(yǔ)言知識(shí)圖譜的構(gòu)建才剛剛起步,所有藏文信息以文本形式顯示為主,而缺少知識(shí)的結(jié)構(gòu)化表示。如果將藏文知識(shí)以實(shí)體方式表示,并通過(guò)實(shí)體與實(shí)體之間的鏈接表征知識(shí)之間的關(guān)系,將有利于藏文知識(shí)的結(jié)構(gòu)化分析與深度挖掘。

      80年代初期,中國(guó)社會(huì)科學(xué)院民族所張連生嘗試用計(jì)算機(jī)進(jìn)行藏文詞匯排序,開啟了藏文文本處理的先河。但由于藏語(yǔ)形式與英語(yǔ)及漢語(yǔ)有著很大不同,在計(jì)算機(jī)操作系統(tǒng)平臺(tái)上對(duì)其進(jìn)行開發(fā)十分困難。截至目前,在藏語(yǔ)文本資源及文獻(xiàn)分類、文本統(tǒng)計(jì)[3]與嫡值計(jì)算[4]、文本資源建設(shè)與詞典構(gòu)建等方面研究已取得較大進(jìn)展,從而為本文的藏語(yǔ)實(shí)體關(guān)系抽取研究打下了良好基礎(chǔ)。

      1 研究現(xiàn)狀

      實(shí)體關(guān)系抽取是信息處理技術(shù)中的重要環(huán)節(jié)。由于藏語(yǔ)人物屬性抽取工作尚處于起步階段,還有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]與基于核函數(shù)的方法[7-8],在中文研究方面也有針對(duì)這兩種方法的具體應(yīng)用研究[9-10]。在使用模式匹配技術(shù)的基礎(chǔ)上,鄧擘等[11]引入詞匯語(yǔ)義匹配技術(shù)對(duì)漢語(yǔ)實(shí)體關(guān)系進(jìn)行抽取;張葦如等[12]提出一種基于維基百科與模式聚類的方法,從開放文本中抽取高準(zhǔn)確率的中文關(guān)系實(shí)體對(duì);Culotta[13]利用一些轉(zhuǎn)換規(guī)則,定義基于依存樹的核函數(shù),并使用SVM分類器進(jìn)行關(guān)系抽取;Zhang等[14]設(shè)計(jì)了一種復(fù)合卷積樹核函數(shù)進(jìn)行關(guān)系抽取。

      藏語(yǔ)自然語(yǔ)言處理[15]研究目前存在最大的困難是藏語(yǔ)語(yǔ)料的缺乏。在藏語(yǔ)實(shí)體關(guān)系抽取方面,現(xiàn)有研究成虹非常少。在文獻(xiàn)[16]中提出基于泛化模板與SVM相結(jié)合的方法抽取實(shí)體關(guān)系;在文獻(xiàn)[17]中提出基于SVM的方法進(jìn)行藏語(yǔ)人名屬性抽取研究,并且已取得一定成果。

      2 方法描述

      BP神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取是將實(shí)體關(guān)系的判別問(wèn)題轉(zhuǎn)化為分類問(wèn)題。本文首先從許多藏文網(wǎng)站爬取得到具有實(shí)體關(guān)系的文本;然后從文本中篩選出具有實(shí)體關(guān)系的句子進(jìn)行預(yù)處理,如分詞、詞性標(biāo)注等;對(duì)于標(biāo)注好的語(yǔ)料,選取相關(guān)實(shí)體位置關(guān)系、實(shí)體之間距離、實(shí)體及實(shí)體周圍詞特征進(jìn)行向量化,作為輸入數(shù)據(jù);最后利用構(gòu)建好的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行判別分類。整體抽取過(guò)程如圖1所示。

      2.1 特征向量化

      本文對(duì)需要處理的語(yǔ)料進(jìn)行向量化。本文特征選取主要采用實(shí)體詞位置關(guān)系、實(shí)體詞距離關(guān)系、實(shí)體詞周圍特征以及實(shí)體本身特征。假設(shè)實(shí)體關(guān)系中的兩個(gè)實(shí)體分別為E1、E2。

      (1)實(shí)體位置關(guān)系。兩個(gè)實(shí)體在藏文句子中出現(xiàn)的順序是決定其關(guān)系的重要因素之一。在非包含關(guān)系的實(shí)體位置特征中考慮的情況有兩種:一種情況是實(shí)體E1在實(shí)體E2之前,表示為EP12;另一種情況是實(shí)體E1在實(shí)體E2之后,表示為EP21。

      (2)實(shí)體距離關(guān)系。兩個(gè)實(shí)體在藏文句子中會(huì)產(chǎn)生一定距離。兩個(gè)實(shí)體詞之間距離不同,表達(dá)的兩個(gè)實(shí)體詞之間的信息也不同。將兩個(gè)實(shí)體之間的距離特征表示為Ed。

      (3)實(shí)體及周圍詞特征。實(shí)體詞周圍特征以及實(shí)體本身特征包含詞特征以及詞性特征。藏語(yǔ)與漢語(yǔ)、英語(yǔ)有很大不同,比如藏語(yǔ)句型是謂語(yǔ)后置,其中的動(dòng)詞是句子的關(guān)鍵。在藏文實(shí)體關(guān)系抽取工作中,格標(biāo)記同樣起著關(guān)鍵作用。

      本文選擇實(shí)體周圍窗口Windows大小為2,也即是實(shí)體前后兩個(gè)詞的詞性特征,選取格助詞(/k)、動(dòng)詞(/v)、形容詞(/a)、數(shù)詞(/m)、連詞(/c)作為實(shí)體周圍詞的詞性特征。本文研究中實(shí)體E2為出生地、出生日期、逝世日期、父親、母親、國(guó)籍、職業(yè)、有關(guān)人物、性別等。實(shí)體E2詞性特征E2pog可以表示為/ng、/nt、/ns、/nh、/nz 共5種。實(shí)體E1全部為人名,其詞性都為人物名詞,沒(méi)有顯著區(qū)別,所以在本文中忽略不計(jì)。[EWi]表示詞匯特征,i=1,2,[Epog]表示詞匯詞性特征,分別如式(1)、式(2)所示。

      2.2 BP神經(jīng)網(wǎng)絡(luò)

      隱藏層可以有任意多個(gè),本文使用兩層隱藏層對(duì)實(shí)體關(guān)系進(jìn)行判別。隱藏層節(jié)點(diǎn)數(shù)一般根據(jù)前人設(shè)計(jì)所得經(jīng)驗(yàn)與自己試驗(yàn)進(jìn)行確定。另外,隱藏層節(jié)點(diǎn)數(shù)太多會(huì)導(dǎo)致學(xué)習(xí)時(shí)間過(guò)長(zhǎng),而節(jié)點(diǎn)數(shù)太少,識(shí)別未經(jīng)學(xué)習(xí)的樣本能力差。隱藏層節(jié)點(diǎn)數(shù)L的初始值可先由以下兩個(gè)公式中的其中之一確定:

      3 實(shí)驗(yàn)

      3.1 語(yǔ)料預(yù)處理

      本文的藏語(yǔ)語(yǔ)料是通過(guò)配置的爬蟲系統(tǒng)從多個(gè)藏文網(wǎng)站爬取的,如維基百科(藏語(yǔ)版)、康巴傳媒網(wǎng)、中國(guó)藏族中學(xué)網(wǎng)等。然后從中篩選出關(guān)于藏族人物介紹的文章,并對(duì)這些句子作一些預(yù)處理,如人工分詞、詞性語(yǔ)料標(biāo)注等,其中篩選包含人物屬性的句子4 216句,采用3 000句作為訓(xùn)練數(shù)據(jù),1 216句作為測(cè)試數(shù)據(jù)。

      3.2 評(píng)價(jià)指標(biāo)

      實(shí)體關(guān)系抽取的性能評(píng)價(jià)使用信息檢索中的評(píng)價(jià)方法,召回率(R)可被粗略看成是測(cè)量被正確抽取的信息比例,而準(zhǔn)確率(P)用來(lái)測(cè)量抽取的信息中有多少是正確的。一般召回率與準(zhǔn)確率存在反比關(guān)系,也即準(zhǔn)確率增大會(huì)導(dǎo)致召回率減小,反之亦然。本文采用F值對(duì)最終的系統(tǒng)性能進(jìn)行評(píng)價(jià),F(xiàn)值越接近1,表示結(jié)果越好。

      3.3 實(shí)驗(yàn)參數(shù)設(shè)置

      本文隱藏層選用Sigmoid函數(shù),輸出層選用線性函數(shù)。訓(xùn)練函數(shù)有trainlm算法、trainrp算法、trainbfg算法、traingdx算法等。本文選用了適合模擬分類的traingdx算法。選擇的學(xué)習(xí)速度參數(shù)不能太大,否則會(huì)出現(xiàn)算法不收斂的情況,也不能太小,否則會(huì)使訓(xùn)練時(shí)間太長(zhǎng)。一般選擇0.01~0.1之間的值,本文選用0.01,訓(xùn)練目標(biāo)誤差為0.01。

      3.4 實(shí)驗(yàn)結(jié)果及分析

      在同樣語(yǔ)料的情況下,本文采用支持向量機(jī)方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

      從表1可以直觀地看出,在選取相同特征及相同語(yǔ)料的基礎(chǔ)上,使用BP神經(jīng)網(wǎng)絡(luò)模型比使用SVM模型的實(shí)驗(yàn)結(jié)果在正確率、召回率以及F值上都有更好效果,其中F值提高了1%。

      實(shí)驗(yàn)采用MATLAB對(duì)結(jié)果作進(jìn)一步分析,如圖3所示為訓(xùn)練結(jié)果,隨著迭代次數(shù)增加,檢驗(yàn)參數(shù)的值不斷減少。在迭代106次時(shí),最佳的檢驗(yàn)參數(shù)是0.653。

      圖4是BP神經(jīng)網(wǎng)絡(luò)模型的實(shí)際與預(yù)測(cè)分類對(duì)比結(jié)果。黑色表示預(yù)測(cè)類別的標(biāo)簽,灰色表示測(cè)試之前標(biāo)注好的標(biāo)簽。

      4 結(jié)語(yǔ)

      本文介紹了使用BP神經(jīng)網(wǎng)絡(luò)模型對(duì)藏語(yǔ)實(shí)體關(guān)系進(jìn)行抽取的方法。實(shí)驗(yàn)結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)相比于SVM分類器,在正確率、召回率以及F值上都有更好效果。目前,藏語(yǔ)語(yǔ)料還不夠豐富,與漢語(yǔ)測(cè)試數(shù)據(jù)相比,實(shí)驗(yàn)中藏語(yǔ)數(shù)據(jù)相對(duì)比較單一,而且標(biāo)注數(shù)量有限,對(duì)語(yǔ)料的收集與檢驗(yàn)工作還需進(jìn)一步完善。因此,在藏語(yǔ)實(shí)體關(guān)系抽取研究上仍有很大的提升空間。該研究在搜索引擎、網(wǎng)絡(luò)信息過(guò)濾與信息安全、機(jī)器翻譯等許多應(yīng)用領(lǐng)域可發(fā)揮重要的作用。

      參考文獻(xiàn):

      [1] 李光,鐘雅瓊. 大陸研擬藏維文網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)監(jiān)控分裂風(fēng)險(xiǎn)[EB/OL].? http://news.ifeng.com/.

      [2] BIZER C,HEATH T,BERNERS-LEE T. Linked data-the story so far [J]. International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3):1-22.

      [3] 梁金寶. 藏語(yǔ)歷史文獻(xiàn)詞匯統(tǒng)計(jì)[D]. 北京:中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所,2013.

      [4] 祁坤鈺. 信息處理用藏文自動(dòng)分詞研究[J]. 西北民族大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2006,26(4): 92-97.

      [5] ZHOU G D,ZHANG M. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management,2007(43): 969-982.

      [6] NANDA KAMBHATLA. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C].? Proceedings of ACL, 2004: 178-181.

      [7] QIAN L H,ZHOU G G,KONG F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]. Proceedings of COLING, 2008: 697-704.

      [8] ZHOU G D,ZHANG? M,JI? D H, et? al. Tree? kernel-based? relation? extraction with context-sensitive structured parse tree information? [C]. Proceedings of? EMNLP/CONLL,2007:728-736.

      [9] CHE W X,JIANG J M, ZHONG SU,et al. Improved-Edit-Distance kernel for Chinese relation extraction[C]. Proceedings of IJCNLP, 2005:132-137.

      [10] 莊成龍,錢龍華,周國(guó)棟. 基于樹核函數(shù)的實(shí)體語(yǔ)義關(guān)系抽取方法研究[J].? 中文信息學(xué)報(bào),2009,23(1):3.

      [11] 鄧擘,樊孝忠,楊立公. 用語(yǔ)義模式提取實(shí)體關(guān)系的方法[J]. 計(jì)算機(jī)工程,2007,33(10):212-214.

      [12] 張葦如,孫樂(lè),韓先培. 基于維基百科和模式聚類的實(shí)體關(guān)系抽取方法[J]. 中文信息學(xué)報(bào),2012,26(2): 75-81.

      [13] CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C].? Proceedings of ACL, 2004: 423-429.

      [14] ZHANG M, ZHANG J, SU J, et al. A compo site kernel to extract relations between entities with both flat and structured features [C].? Proceedings of ACL, 2006: 825-832.

      [15] SUN Y, YAN X, ZHAO X, et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]. International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2010:1-5.

      [16] 朱臻,孫媛. 基于SVM和泛化模版協(xié)作的藏文人物屬性抽取[J]. 中文信息學(xué)報(bào),29(6): 220-227.

      [17] 蘭義涌. 藏文人名屬性抽取及消歧研究[D]. 北京:中央民族大學(xué), 2016.

      (責(zé)任編輯:黃 ?。?/p>

      猜你喜歡
      藏語(yǔ)BP神經(jīng)網(wǎng)絡(luò)
      淺談藏語(yǔ)中的禮儀語(yǔ)
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      漢藏語(yǔ)及其音樂(lè)
      藏語(yǔ)拉達(dá)克話的幾個(gè)語(yǔ)音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      就bp神經(jīng)網(wǎng)絡(luò)銀行選址模型的相關(guān)研究
      基于DEA—GA—BP的建設(shè)工程評(píng)標(biāo)方法研究
      基于BP神經(jīng)網(wǎng)絡(luò)的旅行社發(fā)展方向研究
      商情(2016年39期)2016-11-21 09:30:36
      復(fù)雜背景下的手勢(shì)識(shí)別方法
      BP神經(jīng)網(wǎng)絡(luò)在軟件質(zhì)量評(píng)價(jià)中的應(yīng)用研究 
      BP神經(jīng)網(wǎng)絡(luò)算法在數(shù)值預(yù)報(bào)產(chǎn)品釋用中的應(yīng)用
      科技視界(2016年20期)2016-09-29 14:15:12
      藏語(yǔ)地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      尚志市| 方山县| 台北县| 休宁县| 万山特区| 正安县| 德令哈市| 正镶白旗| 永嘉县| 抚州市| 耒阳市| 谷城县| 永兴县| 当阳市| 浦县| 永修县| 徐闻县| 浏阳市| 蓬莱市| 丽水市| 北辰区| 石林| 古蔺县| 自治县| 龙川县| 调兵山市| 搜索| 额尔古纳市| 永福县| 通州区| 浏阳市| 额尔古纳市| 阿拉善右旗| 拜城县| 巩义市| 工布江达县| 绍兴市| 澄江县| 突泉县| 长葛市| 萨嘎县|