• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      交互式問答中基于話語結構的指代消解研究

      2015-04-16 08:52:12周國棟
      計算機工程與應用 2015年19期
      關鍵詞:指代代詞語料

      張 超,孔 芳,周國棟

      ZHANG Chao,KONG Fang,ZHOU Guodong

      蘇州大學 計算機科學與技術學院 自然語言處理實驗室,江蘇 蘇州215006

      NLP Lab,School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China

      1 引言

      問答系統(tǒng)(Question Answering,QA),作為一種特殊的信息檢索方式,擁有比傳統(tǒng)的信息檢索技術更加智能更加便捷的特點。問答系統(tǒng)允許用戶用自然語言表達自己的搜索需求,省去了對自己的需求進行關鍵詞提取的步驟。問答系統(tǒng)還能夠以自然語言的形式返回答案,而非只返回相關文檔,然后還需讓用戶進一步提取信息。一直以來,問答系統(tǒng)都是自然語言處理領域的重要研究內(nèi)容之一[1]。早期對于問答系統(tǒng)的研究主要集中在一問一答的形式,這種形式存在一個缺陷:單個問題提供的信息量太少,不能滿足用戶大信息量的需求。因此,近幾年來越來越多的學者開始研究另一種形式的問答——交互式問答(Interactive Question Answering,IQA)。交互式問答系統(tǒng)允許用戶提出一系列與主題相關的問題,以對話的形式逐個回答用戶關于同一實體或事件多方面的問題[1]。為促進交互式問答的研究,文本信息檢索會議(TREC)在2004 年的QA 任務中開始以系列問題的方式給出問題評測集[2],如例1 所示:

      Q1 What film introduced Jar Jar Binks?

      Q2 What actor is used as his voice?

      Q3 To what alien race does he belong?

      時至今日,還沒有出現(xiàn)能夠通過圖靈測試的智能機器人,其中一個重要的原因是自然語言中存在著各種各樣的機器難以理解的語言現(xiàn)象,這些語言現(xiàn)象阻礙了計算機充分理解用戶話語表達中的所有含義。其中,指代現(xiàn)象是較為常見的一種語言現(xiàn)象。為了使表達簡潔高效,用戶會用指代詞去指代文中出現(xiàn)過的語言單位,這就是指代現(xiàn)象。如例1 中Q2 中的his 和Q3 中的he 是指代Q1 中的 Jar Jar Binks。指代現(xiàn)象對計算機理解問句造成了阻礙,因此,需要為篇章中的指代詞找回指代的語言單位,這個過程即為指代消解。

      近年來,國內(nèi)外許多學者對指代消解進行了大量細致的研究,但大部分研究都集中在新聞文本語料中的指代消解方法研究,交互式問答中的指代消解方法研究還較少。因此,本文主要研究了交互式問答文本的特點,在前人研究的基礎上,提出了基于話語結構的交互式問答文本指代消解方法。實驗結果表明,相比與基準系統(tǒng),本文的方法在交互式問答文本中有更好的性能。

      2 相關工作

      交互式問答技術的重要性日益凸顯,自TREC2004的QA 任務中加入系列問題任務以來,國內(nèi)外許多學者相繼開展了交互式問答技術的相關研究。Chai[3]等人較早地發(fā)現(xiàn)僅僅一個問題往往滿足不了用戶的需求,用戶往往是想詢問關于一個特定主題的信息或者是如何解決一個特定的任務,因此他指出以對話的形式獲取的信息比一問一答的形式更加全面和準確。Wang[4]提出使用本體與模板的方法來利用交互式問答中的上下文信息,Chai[5]根據(jù)交互式問答的特點提出了對話話語結構來使用上下文信息,但兩者都并未真正在指代詞上進行消解工作。交互式問答技術主要是通過對話的形式解答用戶的一系列問題,Carbonell[6]和Nils[7]等都指出了對話領域中指代現(xiàn)象出現(xiàn)頻繁,是計算機理解人機對話的一大障礙。

      早期的指代消解主要是基于領域和語法知識構建復雜邏輯規(guī)則的方法,具有代表性的有Hobbs 算法、中心理論、基于句法知識的方法等。隨著標注語料庫的不斷出現(xiàn),基于語料庫的指代消解方法研究越來越多并且取得了比較好的性能。Dagan 等[8]提出優(yōu)先考慮出現(xiàn)頻率較高的先行語候選作為代詞的先行語,對代詞“it”的消解進行了研究;Ge 等[9]提出了一種基于貝葉斯概率統(tǒng)計模型的方法,并將它應用于單數(shù)第三人稱代詞的消解中;Cardie 等[10]提出了通過聚類方法進行名詞短語的指代消解,主要是通過收集篇章中的基本名詞短語,根據(jù)短語的特征對名詞短語聚類,判斷兩個名詞是否屬于同一個類;McCarthy 等[11]把判斷先行語的問題轉換成分類問題,通過分類器判斷指代語與每個先行語候選之間是否存在指代關系,這一思想為日后指代消解的主要框架;Soon 等[12]則首次給出了詳盡完整的實現(xiàn)步驟,并開發(fā)出了實用的指代消解平臺。之后,許多學者在此基礎上作了許多不同程度的延伸。Ng 等[13]對Soon 等的研究進行了擴充,抽取了53 個不同的詞法、語法和語義特征。目前,大多數(shù)指代消解系統(tǒng)都采用局部優(yōu)化方法,即對于每個指代語,依據(jù)不同算法,選擇最佳的先行語。但至今大多數(shù)的指代消解都在新聞文本語料上進行。本文進行了在交互式問答文本上的指代消解研究,首先將基準系統(tǒng)運用到交互式問答文本中,觀察在新聞文本上的指代消解方法的適應性。

      3 基準系統(tǒng)

      本文使用Soon 等[12]提出的基于機器學習的指代消解平臺作為實驗的基準系統(tǒng)。它由三個基本流程構成:

      (1)訓練生成分類器模型;

      (2)使用分類器模型進行分類;

      (3)對分類結果進行評測。

      基準系統(tǒng)所使用的特征集如表1 所示。

      在基準系統(tǒng)的基礎上,根據(jù)交互式問答文本的特點,本文又提出了基于話語結構的指代消解特征集。

      4 話語結構

      Harabagiu 等[14]提出在問題和答案層面分別應用富知識型的自然語言處理技術能對問答系統(tǒng)的性能有顯著的提升;Chai 等[5]研究了交互問答中某一問題的上下文信息能否對其他問題的理解和答案的抽象有幫助的問題,在這基礎上提出了富語義的話語模型,包括問題中的話語角色和問題間的話語轉換。

      4.1 話語角色

      在交互式問答中,每一個問題都在一個有上下文的情境中。除了句子中實體帶有的語義信息,每個問題中還都含有與整個問答相關的話語角色信息。

      表1 指代消解基準系統(tǒng)所使用的特征集

      在一個完整的交互式問答中,用戶不僅僅只問問題,也可能會去重復確認系統(tǒng)提出的問題或者是簡單的確認。因此,Grosz 等[15]提出獲取用戶問題的意圖(intention)是十分重要的。話語信息包括話語的話題和話語的中心等一些語義信息。除此之外,承載用戶答案的媒體也是十分重要的,比如用戶可能會要求一個人或者一個實體的照片或者視頻資料。因此,Chai等提出了三種類型的話語角色:意圖(Intent)、內(nèi)容(Content)和媒質(Media)。

      (1)意圖信息

      意圖信息可以進一步分為行為(Act)和動機(Motivator)。行為是指用戶是從系統(tǒng)獲取信息或者回復系統(tǒng)。動機表明了用戶獲取信息的方式,是對信息的檢索還是對信息的確認。

      (2)內(nèi)容信息

      根據(jù)各自的特點,內(nèi)容信息可以分為目標(target)、主題(topic)和中心(focus)。目標是指問題所指向的答案的類型,包括實體(比如時間、位置、姓名等)和觀點(比如原因、步驟、看法等)。主題是指當前問題的討論范圍,而中心是主題中特定的一部分,是指當前主題中問題最關心的一方面。主題和中心與一個句子的語義信息有關聯(lián),主題可以有實體(Entity)和活動(Activity)?;顒涌梢栽偌毞譃榛顒宇愋停ˋctType)、參與者(Participant)和邊緣信息(Peripheral)。參與者是活動中具有不同語義類型的實體。實體又可以細分為語義角色、語義類型等語義信息。邊緣信息是指活動的地點、時間、原因等。

      (3)媒質信息

      媒質信息是問題需求信息的媒介,可分為格式(Format)和類型(Genre)。格式包括有圖片、表、文本等。類型是指答案是需要總結還是需要一個列表,比如:列舉出10個最大的城市,就需要列出符合要求的規(guī)定數(shù)量的答案。

      以問句Q4:What is the name of the volcano that destroyed the ancient city of Pompeii?為例,圖1 給出了Q4 的話語角色信息:意圖說明了Q4 的用戶是向系統(tǒng)獲取答案的;內(nèi)容說明了Q4 的主題是destroy 這個活動并且有兩個參與者,一個是作為Agent 的volcano,另一 個 為 作 為Theme 的Pompeii;Q1 的 中 心 為destroy 這個活動的參與者1 這個實體的名字;最后問題以文本的形式返回答案。

      圖1 Q1 的話語角色信息圖

      劃分話語角色的粒度可以是多樣性的。劃分的越好越細致,上下文信息的利用率就越高,但是,越好的劃分需要越深入的語義識別處理。這種富語義的表達形式能夠更好地幫助理解交互式問答中的上下文信息。

      4.2 話語轉換

      在交互式問答里,一個問題向另一個問題的轉換過程中包含了許多上下文信息,這些信息可以用來處理問題和獲取答案。問題的內(nèi)容主要是圍繞著問題的主題進行,所以,很大程度上各個問題間是如何聯(lián)系在一起的與問題的主題是如何演化的非常相關。因此,圍繞問題的主題,可以把話語的轉換分為如下的三類。

      4.2.1 話題的延伸

      下一個問題的主題與上一個問題的主題相同,但是參與者或者一些其他方面有所不同,這種情況又可以細分為:

      (1)約束變化

      下一個問題與上一個問題有著相同的主題,但有著不同或修改過的約束條件。例如:

      Q5 What’s the crime rate in Maryland and Virginia?

      Q6 What is it ten years ago?

      Q5、Q6 有相同的主題crime rate,約束條件不同,Q5是Maryland and Virginia的crime rate,而Q6是ten years ago 的crime rate,作為Q5 約束的一個修改。再比如:

      Q7:What’s the crime rate in Maryland and Virginia?

      Q8:What was it in Alabama and Florida?

      Q7 和Q8 同樣有著相同的主題,但是兩者的約束條件不同,Q7 與Q8 詢問的兩處不同地方的犯罪率。

      (2)參與者轉移

      下一個問題與上一個問題有著相同的主題,但兩個問題的參與者不相同,例如:

      Q9 In what country did the game of croquet originate?

      Q10 What about soccer?

      在這個例子中,兩個問題的主題都是originate,但是兩者的參與者不同,Q9 為croquet,Q10 為soccer。

      4.2.2 話題的擴展

      兩個相連的問題有著相同的主題,但是兩個問題的中心不同。比如:

      Q11 What is the name of the volcano that destroyed the ancient city of Pompeii?

      Q12 When did this happen?

      在這個例子中,Q11 和Q12 具有相同的主題,但兩者關注主題的方面不同。Q11 是詢問主題destroy 的參與者之一的名字,而Q12 是詢問主題的發(fā)生時間。

      4.2.3 話題的轉移

      兩個相連的問題也可能是關于兩個不同的主題。根據(jù)兩個問題間不同的語義關系,話題的轉移可以分為兩類:

      (1)活動主題轉移為另一個活動主題

      例如在下面這個例子中:

      Q13 What is the name of the volcano that destroyed the ancient city of Pompeii?

      Q14 How many people were killed?

      兩個問題的主題都是活動,但是是不相同的活動,Q13 為destroy,而Q14 為kill。

      (2)活動主題轉移為實體主題

      例如:

      Q15 What is the name of the volcano that destroyed the ancient city of Pompeii?

      Q16 How tall is this volcano?

      上述例子中,Q15 的主題為destroy,而Q16 為實體volcano。這樣的轉移中包含了可以作為指代消解的依據(jù),因為Q16 中的實體是Q15 活動中的參與者之一。

      5 話語結構特征

      話語結構能夠很好地表示交互式問答中的上下文信息以及單個問題中主要部分間的關系。因此本文根據(jù)交互式問答中的結構特征提出了描述部分話語結構的特征,如表2 所示。在交互式問答中,不同位置的問題所含的未知信息量不同,因此也加入了問題在這個問答中的位置信息特征。將這些新特征加入到交互式問答基準平臺中,進行消解實驗,測試改進后的新平臺的性能。

      表2 話語結構特征集

      6 實驗結果與分析

      6.1 實驗設置

      本文采用TREC2004 至TREC2007 的QA 評測任務的286 個問題集1 962 個問題作為實驗語料[2],在語料上標注了指代關系鏈,以及話語結構信息。

      在使用機器學習方法的步驟中,本文采用SVM-Light工具中徑向基核函數(shù)(RBF)來進行訓練與測試指代消解平臺的性能,選取60%的語料進行訓練,20%的語料作為開發(fā)集,其余20%作為測試語料。整個實驗流程如下:

      首先,去除語料中標注的標簽,生成生語料;對語料進行詞性標注、命名實體識別、句法分析等預處理工作。在預處理的結果上提取出名詞列表,并兩兩組成訓練實例對,根據(jù)單復數(shù)、性別、語義類別等規(guī)則進行實例對過濾,去除不可能具有指代關系的實例對;隨后,根據(jù)設定的特征空間,獲取實例對的各特征向量值,并結合標注信息確定實例對間的正負關系,形成訓練文件;將訓練文件提交給相應的分類器算法,訓練生成分類器模型。

      生成分類器模型之后,再去除測試語料中的所有標注信息,形成生語料;與訓練時類似,對生語料進行預處理工作;將所有名詞性短語兩兩組對,根據(jù)設定的規(guī)則進行實例對過濾,去除不可能具有指代關系的實例對;根據(jù)設定好的特征空間獲取各特征的值;將實例對的特征向量提交給分類器,分類器使用訓練時生成的分類器模型進行分類,并返回分類結果。

      最后將分類結果與標注好的指代關系進行比對,利用相應的評測算法計算得出準確率、召回率和F值。

      6.2 實驗結果及分析

      表3 給出了基準系統(tǒng)在ACE2003 NWIRE 語料上的實驗結果;表4 給出了基準系統(tǒng)與改進后的系統(tǒng)在交互式問答文本中指代消解的實驗結果。

      表3 基準系統(tǒng)在ACE2003NWIRE 上的實驗結果 %

      表4 基準系統(tǒng)和改進系統(tǒng)在交互式問答文本中的實驗結果%

      從表中可以看出:

      (1)對比表3 與表4,基準系統(tǒng)在交互式問答文本上的總體性能良好,F(xiàn)值和新聞文本相比相差不大,說明基準系統(tǒng)的特征集在交互式問答文本中的適應性良好。但基準系統(tǒng)在交互式問答文本中的代詞消解性能不佳,召回率很低,導致F值很低,說明交式問答文本中代詞的情況和新聞文本中代詞的情況有較大的差異性。

      (2)加入了話語結構特征以后,系統(tǒng)總體性能的各項指標都有所上升,準確率上升了2.8%,召回率上升了2%,F(xiàn)值上升了2.6%。由此說明話語結構特征的加入對于提高交互式問答中的指代消解性能作用明顯。

      (3)進一步分析改進系統(tǒng)對不同類別詞的指代消解性能結果顯示:對于代詞,各項性能指標均無顯著的變化,說明引入了話語結構信息對于代詞的消解沒有太大幫助。改進系統(tǒng)對有定名詞和專有名詞的消解性能均有提高,兩者的F值均有提高。有定名詞上的準確率上升明顯,但召回率略有下降;專有名詞上的準確率和召回率均有不同程度地提高。

      7 小結與展望

      本文將現(xiàn)有的新聞文本的指代消解平臺運用到交互式問答中,觀察方法的適應性,并在此基礎上提出了基于話語結構信息的特征集。通過實驗后發(fā)現(xiàn),原基準系統(tǒng)在交互式問答中的性能與在新聞文本上的總體性能差異不大,在加入了本文提出的話語結構信息特征后,改進系統(tǒng)的指代消解性能有了顯著的提高,F(xiàn)值上升了2.6%。但基準系統(tǒng)和改進系統(tǒng)對于交互式問答文本中的代詞的指代消解性能表現(xiàn)都不好,因此今后將進一步改進現(xiàn)有系統(tǒng),對交互式問答中代詞進行更加深入細致的研究。

      [1] Webb N.Introduction of interactive question answering workshop[C]//Proc of the Interactive Question Answering Workshop at HLT-NAACL 2006,2006.

      [2] Voorhees E M.Overview of the TREC 2004 question answering track[EB/OL].(2004)[2013-08-31].http://trec.nist.gov/.

      [3] Chai J,Jin R.Discourse structure for context question answering[C]//Proceedings of HLT-NAACL 2004 Workshop on Pragmatics of Question Answering,2004:23-30.

      [4] Wang Dongsheng.Answering contextual questions based on ontologies and question templates[J].Front Comput Sci China,2011,5(4):405-418.

      [5] Chai J Y,Jing R.Discourse structure for context question answering[C]//Proc of of the Workshop on Pragmatics of Question Answering at HLT-NAACL 2004,2004:23-30.

      [6] Carbonell J G.Discourse pragmatics and ellipsis resolution in task-oriented natural language interfaces[C]//Proc of 21st Annual Meeting on Association for Computational Linguistics,1983:164-168.

      [7] Nils D,Jonsson A.Empirical studies of discourse representations for natural language interfaces[C]//Proc of 4th Conference on the European Chapter of the ACL 1989,1989:291-298.

      [8] Dagan I,Itai A.Automatic processing of large corpora for the resolution of anaphora references[C]//Proceedigns of ACL 1990,1990:330-332.

      [9] Ge N Y,Hale J,Charniak B.A statistical approach to anaphora resolution[C]//Proceedings of VLC 1998,1998:161-170.

      [10] Cardie C,Wagstaff K.Noun phrase coreference as clustering[C]//Proceedings of EMNLP 1999,1999:82-89.

      [11] McCarthy,Lehnert W.Using decision trees for coreference resolution[C]//Proceedings of the 6th Message Understanding Conference(MUC-6),1995.

      [12] Soon W M,Ng H T,Lim D.A machine learning approach of coreference resolution of noun phrase[J].Computational Linguistics,2001,27(4):521-544.

      [13] Ng V,Cardie C.Improving machine learning approaches to coreference resolution[C]//Proceedings of ACL 2002,2002:104-111.

      [14] Harabagiu S,Pasca M,Maiorano S.Experiments with opendomain textual question answering[C]//Proceedings of the 18th International Conference on Computational Linguistics(COLING-2000),2000.

      [15] Grosz B J,Sidner C.Attention,intention,and the structure of discourse[J].Computational Linguistics,1986,12(3):175-204.

      猜你喜歡
      指代代詞語料
      Let’s Save Food To Fight Hunger
      復合不定代詞點撥
      奧卡姆和布列丹對指代劃分的比較
      科學咨詢(2022年19期)2022-11-24 04:23:25
      代詞(一)
      代詞(二)
      這樣將代詞考分收入囊中
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      “不一而足”話討論
      《苗防備覽》中的湘西語料
      同德县| 凯里市| 闽清县| 静海县| 兴隆县| 家居| 江北区| 神池县| 盐城市| 惠水县| 迁西县| 北海市| 政和县| 英吉沙县| 扎囊县| 榕江县| 河间市| 洪泽县| 东平县| 罗山县| 济宁市| 浠水县| 沙洋县| 宁河县| 沛县| 县级市| 英山县| 新泰市| 黑龙江省| 拜城县| 遵义市| 莲花县| 离岛区| 繁昌县| 芜湖县| 康定县| 井陉县| 新巴尔虎右旗| 太湖县| 松滋市| 绥江县|