• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于觸發(fā)詞優(yōu)先級的事件抽取研究

      2017-01-16 02:09:42吉久明王鑫李楠陳錦輝孫濟慶
      現(xiàn)代情報 2016年12期

      吉久明+王鑫+李楠+陳錦輝+孫濟慶

      〔摘 要〕本文將觸發(fā)詞分為時間類和非時間類,對觸發(fā)詞提取算法進行改進,以一定量導電塑料行業(yè)新聞為基礎(chǔ)語料構(gòu)建兩類觸發(fā)詞詞表,并采取時間類觸發(fā)詞優(yōu)先的事件句識別策略?;谠撚|發(fā)詞詞表對導電塑料和太陽能行業(yè)新聞?wù)Z料進行事件句識別算法有效性實驗,開放測試的召回率和準確率分別超過98%和95%。該結(jié)果表明:將觸發(fā)詞進行基于時間特性的分類,并優(yōu)先使用時間類觸發(fā)詞提取事件句,能取得顯著的效果。

      〔關(guān)鍵詞〕事件句;抽?。挥|發(fā)詞優(yōu)先

      〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)12-0046-04

      〔Abstract〕This paper focused on efficient event sentences extraction algorithm.A trigger phrase extraction algorithm to extract events sentence based on time or nontime trigger word was presented.Some trigger words were extracted from industry news corpus about conductive plastics based on the algorithm,the opening beta on industry news corpus about conductive plastics and solar higher than 98% recall ratio and 95% accuracy ratio,which indicated the effectiveness of algorithm.

      〔Key words〕event sentence extraction;trigger word priority;time trigger word;nontime trigger word

      當前有關(guān)事件抽取研究中主要以特定行業(yè)新聞事件抽取研究為主,包括金融、軍事、法律、交通等行業(yè),所采用的方法包括模式匹配、觸發(fā)詞和本體方法,觸發(fā)詞方法的使用頻率最高,且綜合效果(微平均)較優(yōu)于單純的模式匹配算法[1]。

      觸發(fā)詞也稱事件關(guān)鍵詞,通過對事件句的統(tǒng)計分析后發(fā)現(xiàn),出現(xiàn)某類術(shù)語或詞匯的句子文本中含有事件句的概率非常高,如:包含“發(fā)生”、“襲擊”、“研制”、“生產(chǎn)”、“舉行”、“舉辦”、“開幕”等動詞的句子,“今年三月份在地鐵3號線發(fā)生乘客猝死事件”、“周杰倫將于2010年6月11日在臺北小巨蛋舉辦周杰倫超時代演唱會”等基本為事件句。因此,通過建立事件觸發(fā)詞詞典獲得事件句集合再進行事件抽取能取得較好的效果。

      一般地,收集事件觸發(fā)詞的方法主要有兩種:一是建立特定的觸發(fā)詞模型,通過已有事件句中詞匯的分析統(tǒng)計,提取事件句觸發(fā)詞;二是由領(lǐng)域?qū)<一陬I(lǐng)域經(jīng)驗手工構(gòu)建。手工構(gòu)建方法主要依賴專家經(jīng)驗,一方面需要較長時間、較多人力投入,另一方面動態(tài)增加的海量事件文本也是一大挑戰(zhàn),觸發(fā)詞模型方法正好彌補了手工方法的缺陷,理論上更容易提高新增事件文本中觸發(fā)詞的查全率,但觸發(fā)詞模型的有效性仍有待進一步提升,如文獻[2],在構(gòu)建相似詞匯鏈的基礎(chǔ)上,提出了一種基于詞匯的TFIDF值、在文中的位置及相似詞匯鏈長度的事件關(guān)鍵詞模型,提取一定數(shù)量的事件關(guān)鍵詞,對較大樣本的實驗有約74%的事件關(guān)鍵詞為可接受的[2],自動提取事件觸發(fā)詞仍需要進一步研究[3-5]。

      觸發(fā)詞方法強調(diào)了觸發(fā)詞對提高事件抽取召回率的重要意義,尤其對于觸發(fā)詞表相對固定的行業(yè)領(lǐng)域事件抽取而言,能提高事件抽取的效率;模式匹配方法更突出句法或語義角色對提高事件抽取準確率的重要意義,對于句法或語義角色相對固定的事件抽取任務(wù),同樣能提高事件抽取的效率。因此,將觸發(fā)詞方法和模式匹配方法結(jié)合使用,理論上應(yīng)能取得較好的召回率、準確率,也能保證一定的效率水平,但實際效果還有待提高,如文獻[6]或文獻[7]基于觸發(fā)詞及其鄰近特征的動態(tài)權(quán)重的KNN算法或支持向量機判別事件句,準確率分別為81.8%和87.8%[6-7],且由于涉及特征選擇,實際執(zhí)行效率不理想。筆者曾設(shè)計了一種基于觸發(fā)詞句型模版的行業(yè)新聞事件句提取算法,由于過分強調(diào)“詞”的形式,所選擇的多數(shù)觸發(fā)詞所提取的句子準確率很低,如:“研制”事件抽取準確率僅為61.19%,因此需要事先編制大量的觸發(fā)詞句型模版,盡管如此,仍僅有少量觸發(fā)詞句型模版抽取事件的準確率超過80%[8]。但筆者發(fā)現(xiàn):若將“研制”改為“研制了”、“制造”改為“制造了”,則僅基于該兩種觸發(fā)詞的事件抽取準確率即可提高到90%以上。

      因此筆者認為,對于觸發(fā)詞表相對固定的行業(yè)新聞,提高基于觸發(fā)詞的事件抽取準確率的方法主要在于提高觸發(fā)詞的“專指性”,即利用中文語言的特征尋找具有很強的事件提示功能的觸發(fā)詞或詞組合。而若簡單地統(tǒng)計事件中的高頻詞,則不易獲得這類觸發(fā)詞。故本文將進一步研究獲得高“專指性”新聞事件觸發(fā)詞的有效方法,進而提高基于觸發(fā)詞的事件句抽取的準確率。

      1 基于觸發(fā)詞的行業(yè)事件抽取

      1.1 語料特征分析——以導電塑料行業(yè)新聞為例

      以“導電塑料”及其同義詞或近義詞為檢索詞,利用搜索引擎檢索相關(guān)導電塑料行業(yè)新聞,共獲得658條語料記錄。根據(jù)新聞撰寫的規(guī)定和相關(guān)理論,新聞導語句一般會報導新聞的五個要素——何時、何地、何人、何事、何因[9],這五要素正是新聞事件句的必備元素,而后續(xù)的文字則是對新聞事件的補充說明,因此理論上可從導語部分抽取事件。但事實上658篇語料中,事件句分散在導語及第2、3、4、5、6句,如下列語料的第②句為行業(yè)新聞事件句。

      ①生意社6月8日訊:想象一下,把一個USB端口插入一張紙,將它變?yōu)橐粋€平板電腦。②這可能需要一段時間,但是北卡羅萊納州立大學的研究人員已經(jīng)按照這些想法去研究如何將傳導納米涂層應(yīng)用于簡單的紡織品,如梭織棉布,或者甚至一張紙。

      因此,為減少大量非事件句對事件抽取的干擾,本文暫針對新聞?wù)Z料的前6句研究新聞事件句觸發(fā)詞的提取。

      1.2 行業(yè)新聞事件句觸發(fā)詞詞表構(gòu)建

      事件即某時發(fā)生在某地的某事,或某人某時在某地參與(見證、實施、做出、取得了)了某動作(決定、成果),對于新聞事件而言,其中的時間元素必不可少,但由于語境的關(guān)系,常有事件句的時間元素被省略的現(xiàn)象。如下列語料:

      ①人民網(wǎng)上海2月10日電:(記者姜泓冰)防偽紙幣、穿戴設(shè)備……柔性電子技術(shù)研究已成國際熱點。②近日,復旦大學一團隊……取得突破性進展……。③復旦大學信息科學與工程學院仇志軍副教授……,相關(guān)論文已發(fā)表于1月27日出版的國際權(quán)威性學術(shù)期刊《自然-通訊》(Nature Communications)。

      該語料中第②句、第③句均為事件句,兩句講述的是同一件事,但第③句的時間元素被省略了。若以“取得”或“提出”為觸發(fā)詞提取事件,則兩句均被命中,需要進一步依據(jù)其出現(xiàn)的次序進行甄別;而若以“近日”作為新聞事件觸發(fā)詞提取事件句,則可忽略第③句。

      同時,筆者注意到以下現(xiàn)象:①通過設(shè)定觸發(fā)詞準確率閾值的方法能提高整體的事件提取準確率。例如,限定在訓練語料中的準確率超過95%的候選詞為觸發(fā)詞,則整體準確率將超過95%。②若過分強調(diào)觸發(fā)詞的準確率,則召回率一定會大大降低,但由于兩個或兩個以上的詞組合召回事件句的準確率可能大于單個詞召回事件句的準確率,故有時可適當通過使用詞的組合形成觸發(fā)詞的方式在保證準確率的同時提高查全率。例如,同一子句中含有“據(jù)”和“報道”的句子為事件句的可能性大于含有“據(jù)”或“報道”的句子為事件句的可能性,含有“據(jù)”和“報道”的事件句可通過兩詞的組合召回。③將訓練語料分為事件句和非事件句,選擇召回事件句但不召回非事件句的詞或詞組合是保證事件句提取的準確率的有效途徑。

      因此,設(shè)計基于時間元素優(yōu)先的事件觸發(fā)詞字典構(gòu)建方法。算法描述如下:

      Step 1 收集各種表示近期的時間類觸發(fā)詞,如:近日、年…月…日、今日、今天、剛剛、日前、前日、昨日、本周、上周、明天、昨天、正在、下周、周一、周二、周三、周四、周五、周六、周日、近期、最近、前不久、不久前、本月、上月、下月、下個月、上個月、今年等;

      Step 2 收集一定數(shù)量的行業(yè)新聞?wù)Z料;以“。”、“?”、“!”為分隔符將語料切分為句子;人工提取新聞事件句;

      Step 3 將包含Step 1中詞列表的事件句過濾掉;

      Step 4 從Step 3中的新聞事件句中發(fā)現(xiàn)未列入Step 1中的時間類詞匯,若該詞召回新聞事件句的準確率大于給定的閾值P,則添加到Step 1的列表中,并進行同義詞擴充;

      Step 5 重復Step 4,直至無法提取新的時間類觸發(fā)詞;

      Step 6 對前6句進行分詞并統(tǒng)計詞頻(每句出現(xiàn)計1次);

      Step 7 選擇詞長大于2,僅屬于新聞事件句詞表且頻次大于等于3(非同一事件)的動詞或動名詞列入非時間類觸發(fā)詞表,并進行同義詞擴充;

      Step 8 當上述觸發(fā)詞或觸發(fā)詞組合的召回率大于R,算法終止,否則進入Step 9;

      Step 9 將事件句中不包含在非事件句中的2個詞的共現(xiàn)對(即兩詞不同時出現(xiàn)在非事件句,但同時出現(xiàn)在同一事件句中),且共現(xiàn)頻次大于等于3的2個詞共現(xiàn)對列入非時間類觸發(fā)詞組合列表,直至召回率大于R。

      由于時間類觸發(fā)詞對于行業(yè)新聞事件句的提取具有較高的召回率和準確率,一般而言,應(yīng)優(yōu)先抽取含有時間類觸發(fā)詞的事件句,且每段新聞?wù)Z料僅需提取一句即可。但對于一些含指代對象的語料,如語料3:

      復旦大學信息科學與工程學院副教授仇志軍……取得突破性進展……。相關(guān)論文近日在《自然—通訊》上發(fā)表。

      該語料所描述的事件與語料2描述的事件相同,若以“近日”為觸發(fā)詞,則提取到的事件句為“相關(guān)論文近日在《自然—通訊》上發(fā)表。”,該句主語為指代詞“相關(guān)論文”,因此,更詳細的信息需要使用其前句進一步補充。因此,設(shè)計以下行業(yè)新聞事件句提取方案:

      Step 1 首先構(gòu)建含有各種指代詞的列表,如:這、相關(guān)、他、她、該、我、上述等;

      Step 2 抽取各語料中含有新聞事件觸發(fā)詞的句子各一句(記為句子1,依觸發(fā)詞的次序而行,每段語料僅抽取一句);若基于“年…月…日”所得事件句的發(fā)生時間與當前系統(tǒng)日期的差大于N年,則繼續(xù)以其后的觸發(fā)詞抽取事件句;若所得句子的句首字為Step 1中的指代詞,則將句子1的前句與句子1合并為1句。

      其中N為參數(shù),可根據(jù)實際需要進行設(shè)置。

      2 實驗結(jié)果與分析

      2.1 新聞事件觸發(fā)詞提取

      本次實驗關(guān)注導電塑料制備行業(yè)的新聞事件,訓練語料描述詳見1.1,觸發(fā)詞算法中的R=P,均設(shè)為95%,所抽取的時間類觸發(fā)詞及相應(yīng)的準確率詳見表1。

      上述觸發(fā)詞從658篇語料中共抽取到701條事件句,其中:37句事件句主語部分存在“行業(yè)新聞事件句提取方案”Step 2中的指代詞,需要補充前1句;不具新聞性的僅5句,這5句均含有事件發(fā)生的明確時間,故可根據(jù)系統(tǒng)時間進行過濾。進一步可以對上述觸發(fā)詞進行同義詞擴充,如:“周一”、“周四”可以擴展為:周二、周三、周五、周日等。

      為進一步獲得語料中新聞事件句的非時間類觸發(fā)詞,抽取各篇的前6句共1 322句中的新聞事件句114句。依據(jù)觸發(fā)詞提取算法Step 6~7,提取訓練語料新聞事件句中準確率為100%的非時間類觸發(fā)詞及召回的句子數(shù)見表2。

      計算這些時間類和非時間類觸發(fā)詞對于前述訓練語料的事件句抽取召回率和準確率分別為93.48%和99.34%,故繼續(xù)采用觸發(fā)詞提取算法Step 9,提取訓練語料新聞事件句中準確率為100%的組合類非時間類觸發(fā)詞組合召回的句子數(shù)見表3。

      注:表3中不含“+”的詞組合表示兩個詞組成的一個詞,含有“+”的詞組合表示兩個詞分別出現(xiàn)在同一句的同一部分(即不含“,”等子句分隔符)。

      至此,上述時間類觸發(fā)詞表、非時間類觸發(fā)詞表的事件句召回率為96.2%、準確率為99.34%,達到算法終止條件。雖然本文選擇了導電行業(yè)新聞?wù)Z料作為提取事件句觸發(fā)詞詞表的語料,但從表3可以看出,所得觸發(fā)詞均不具行業(yè)相關(guān)性,因此可以應(yīng)用于不同行業(yè)的語料的事件句識別。

      2.2 開放測試實驗

      隨機收集了2015年以來導電塑料行業(yè)新聞?wù)Z料20篇(簡稱開放語料1)、太陽能電池行業(yè)新聞?wù)Z料20篇(簡稱開放語料2),共含58條新聞事件句,其中含時間類和非時間類觸發(fā)詞的事件句分別為33條、41條,測試3.1中提取的觸發(fā)詞表提取事件句的效果。

      2.2.1 時間類觸發(fā)詞事件抽取效果

      使用前文提取的時間類觸發(fā)詞表A召回的句子數(shù)見表4,準確率均為100%。

      2.2.2 非時間類觸發(fā)詞事件抽取效果

      對41篇語料通過非時間類觸發(fā)詞表提取語料中的新聞事件句,召回率達到98.27%,各觸發(fā)詞的抽取準確率均超過95%,召回句子數(shù)見表5。

      3 結(jié)束語

      本文提出的事件觸發(fā)詞抽取技術(shù)與已有的觸發(fā)詞提取技術(shù)不同,在選擇觸發(fā)詞時,更強調(diào)“專指性”。首先充分利用事件句必備的時間元素及事件觸發(fā)詞相對固定的特點,將觸發(fā)詞分為時間類和非時間類。利用一定數(shù)量的語料事件句抽取準確率很高的兩類觸發(fā)詞或詞組合字典,優(yōu)先使用時間類觸發(fā)詞提取出多數(shù)事件句后,再以非時間類觸發(fā)詞或詞組合提取余下的事件句,開放測試效果良好。

      參考文獻

      [1]趙小明,朱洪波,陳黎,等.基于多分類器的金融領(lǐng)域多元關(guān)系信息抽取算法[J].計算機工程與設(shè)計,2011,32(7):2348-2351.

      [2]Bao Jiana,Li Tingyu,Yao Tianfang.Event Information Extraction Approach based on Complex Chinese Texts[C]∥IEEE Computer Society.445 Hoes Lane-P.O.Box 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2012:61-64.

      [3]Li Peifeng,Zhu Qiaoming,Diao Hongjun,Zhou guodong.Joint modeling of trigger identification and event type determination in chinese event extraction[C]∥COLING 2012 Organizing Committee.Powai,Mumbai,400076,India:COLING 2012 Organizing Committee,2012:1635-1652.

      [4]Pei-Feng Li,Qiao-Ming Zhu,Guo-Dong Zhou.Using compositional semantics and discourse consistency to improve Chinese trigger identification[J].Information Processing & Management,2014,50(2):399-415.

      [5]魏小梅,黃鈺,陳波,等.生物事件觸發(fā)詞識別方法研究[J].計算機科學,2015,(10):239-243.

      [6]Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,et al.Chinese event extraction based on feature weighting[J].Asian Network for Scientific Information,2010,9(1):184-187.

      [7]趙小明,朱洪波,陳黎,等.基于多分類器的金融領(lǐng)域多元關(guān)系信息抽取算法[J].計算機工程與設(shè)計,2011,32(7):2348-2351.

      [8]陳錦輝.導電塑料產(chǎn)業(yè)新聞事件抽取技術(shù)應(yīng)用研究[D].上海:華東理工大學,2015.

      [9]孫曉彥.新聞寫作技巧與范例[M].北京:藍天出版社,2011.

      (責任編輯:馬 卓)

      雷州市| 乌什县| 简阳市| 苍南县| 含山县| 双流县| 沛县| 古田县| 澄江县| 祁门县| 雷波县| 溆浦县| 板桥市| 衢州市| 五河县| 砀山县| 安国市| 巩留县| 康乐县| 丹巴县| 乾安县| 堆龙德庆县| 丰原市| 宜黄县| 枞阳县| 鸡泽县| 彭州市| 苏尼特左旗| 大足县| 平邑县| 新野县| 大理市| 郁南县| 江津市| 昌江| 永州市| 滨州市| 衢州市| 武冈市| 扶沟县| 大石桥市|