• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      2014—2020年間論辯挖掘研討會研究述評

      2021-09-07 21:17:48徐健黃雨馨王唯一等
      現(xiàn)代情報 2021年9期
      關鍵詞:語料論點語料庫

      徐健 黃雨馨 王唯一等

      DOI:10.3969/j.issn.1008-0821.2021.09.017

      [中圖分類號]G254 [文獻標識碼]A [文章編號]1008-0821(2021)09-0167-10

      當前,論辯挖掘研究已引起人工智能、知識管理、邏輯學和語言學等學科研究者的普遍關注,是一個典型的多學科交叉領域,分析的文本包括新聞、政治演講、學術論文、法院判例等體裁。論辯挖掘建立在觀點挖掘的基礎上,對觀點的支撐性論據(jù)和論證過程進行分析,可視作前者研究的延伸和擴展。論辯挖掘最初起源于計算論辯(Computa-tional Argumentation)的概念,旨在將論辯理論(Argumentation Theory)與信息推理技術相結(jié)合,借助自然語言處理和機器學習的方法自動化地解析文本中的論辯結(jié)構(gòu),有助于實現(xiàn)對文本的深度理解和細粒度分析,提高信息智能化處理水平。隨著越來越多的論辯性文本,包括學術論文、議論性評論、法律條文與判例等的數(shù)字化發(fā)展,相關數(shù)據(jù)的可獲得性和可機讀性也越來越高,為論辯挖掘研究的產(chǎn)生、發(fā)展提供了數(shù)據(jù)支撐。與計算論辯更關注方法不同的是,論辯挖掘研究更倚重數(shù)據(jù)和應用場景,如何從中發(fā)掘出有效信息、輔助決策是論辯研究的重點。

      當前,人工智能和計算機語言學領域較多國際會議舉辦了多次論辯挖掘主題討論會,例如貝蒂諾羅國際信息學中心舉辦的AT&NLP邊界與聯(lián)系研討會(BiCi ArgNLP)、蘇格蘭信息與計算機聯(lián)盟論辯挖掘研討會(SICSA Workshop on AM)等。本文主要對2014—2020年分別在巴爾的摩、丹佛、柏林、哥本哈根、布魯塞爾、佛羅倫薩、巴塞羅那舉辦的論辯挖掘研討會(ACL Workshop on AM)進行系統(tǒng)閱讀整理,共計獲得文獻121篇。通過對文獻進行系統(tǒng)的梳理,明確該領域核心概念內(nèi)涵,介紹相關理論、技術和方法,將相關應用研究按照場景進行分類,總結(jié)各方面研究不足并對未來發(fā)展進行展望,以期為認知計算、知識組織等相關領域研究提供參考與借鑒。

      1相關概念與理論基礎

      1.1基本概念

      Argumentation作為一種行為,是指用一定證據(jù)來支持或駁斥一個觀點,以達到說服受眾的目的。例如,在經(jīng)典的三段論案例中,通過“人會死”和“亞里士多德是人”兩個命題來論證“亞里士多德會死”這個論點,其中蘊含的論辯結(jié)構(gòu)由論辯部件和論辯關系組成。

      1)論辯部件

      論辯部件(Argument Component)是論辯結(jié)構(gòu)的基本組成單位,也有學者稱其為Argumentative Discourse Unit(ADU)、Argument Unit。論辯部件具有判斷性(Declarative)和可證偽性(Falsifi-ability)兩大特征,與邏輯學中命題(Statement或Proposition)概念相對應。其中,判斷性是相對記敘性(Narrative)、描述性(Descriptive)而言的,可證偽性是指在邏輯上要存在一個或多個與該部件相沖突的命題或判斷的可能性。Walton D提出論辯結(jié)構(gòu)包括一系列前提、一個結(jié)論及其之間的支持與攻擊關系。此處,前提(Premise)和結(jié)論(Con-clusion)均可視為一種論辯部件,兩者在推理過程中承擔的角色不同,結(jié)論的正確性要建立在證據(jù)正確的基礎之上。需要注意的是,一個論辯部件可能同時具有前提和結(jié)論兩種角色,比如前一個論點的結(jié)論可作為后一個論點的前提。

      前提是指對論點起支撐作用的證據(jù),也稱論據(jù)。對應的英文詞匯有Evidence、Proof、Premise等。現(xiàn)有研究主要關注證據(jù)的類型劃分問題。例如,Aharoni E等將論據(jù)分為研究類、專家類和軼事類3個類型。其中,研究類是指通過定量分析論證,專家類是對個人或組織的觀點進行引用,軼事類是用事例對論點進行作證。Walker V R等將論據(jù)分為證詞、案例報告、法律條文等類型??梢钥闯?,現(xiàn)有研究對論據(jù)的劃分均與具體的場景有關,缺少整體層面的劃分維度和框架,同時對不同類型論據(jù)的特征分析與可信度評估也應在后續(xù)研究中不斷完善。

      結(jié)論,是指某人對一件事情、物體靜態(tài)屬性和動態(tài)發(fā)展趨勢的判斷,也叫論點、觀點、論斷、斷言或主張等。與論據(jù)相比,論點更強調(diào)判斷的主觀性,對應的英文詞匯有Opinion、Argument、Per-spective、View、Viewpoint、Claim、Assertion。在論辯挖掘中,一般Claim(Declarative Sentence)表示論點,用Argumentation表示論辯。需要注意的是,觀點具有多重含義,相關研究應辨別其與情感、視角概念的邊界和關聯(lián)。

      2)論辯關系

      論辯關系就是指論辯部件間的論證關系,包括微觀和宏觀兩個層面。微觀層面論辯關系是指“Premise-Conclusion”推理和論證關系。論辨對應英文單詞Justification、Validation、Verification、Rea-soning等。在拓撲結(jié)構(gòu)方面,代表性模型有Moch-ales R等提出的鏈式論證模型,F(xiàn)reeman J B提出的組合一收斂論證模型,Eemeren F V等提出的多重—并列復合論證。在論辯方法上,主要有三段論(Syllogism)和演繹—歸納模型(Induction-Deduction),其中具體的Argument Schema包括例證、引證、推理等。目前,宏觀層面的論辯關系主要有“支持—攻擊”(Support-Attack)模型,前者是相互印證的支撐關系,而后者是相互對立關系。

      1.2論辯挖掘相關理論

      論辯挖掘研究的理論基礎多來自哲學、邏輯學領域。在計算機語言學的方法和技術涉足論辯挖掘任務前,論辯分析多采用專家手工繪制論證圖(Argument Diagram)的方式開展。相關理論主要包括圖爾敏模型(Toulmin Model)、修辭結(jié)構(gòu)理論(Rhetorical Structure Theory)和論證塊模型(Argu-mentative Zoning,簡稱AZ)。

      圖爾敏模型(Toulmin Model)最早于1958年被提出,共包括主張(Claim)、數(shù)據(jù)(Data/Grounds)、擔保(Warrant)、佐證(Backing)、限定詞(Qualier)、反駁(Rebuttal)6個組成成分。在此基礎上,F(xiàn)reeman J B借鑒了美國哲學家波洛克(John L.Pollock)的觀點,將反駁分為消解反駁(Undercutting Defeater)和直接反駁(Rebut-ting Defeater),可視為圖爾敏模型的改良版本。

      修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,簡稱RST)也叫作修辭關系。該理論于1988年提出,將文獻單元間關系界定為對比、例證、詳述等24種。在此基礎上,IMRC、IMRD、BIM-RCD等語步模型也被廣泛地應用于文本功能的識別與組織。從概念上來說,論辯結(jié)構(gòu)是修辭結(jié)構(gòu)的一種類型。因此,也有部分學者研究如何在修辭樹的基礎上抽取論辯結(jié)構(gòu)。

      論證塊模型(Argumentative Zoning,簡稱AZ)最早由Teufel S于1999年在其博士論文中提出,并在科學論文上進行了標注。之后,Teufel S在上一版本的模型基礎上進行改進,提出了15種句子功能類型對科學文獻中句子的修辭與論證功能進行界定。AZ模型來源于對科技論文內(nèi)容的標注,被認為是論辯挖掘研究重要的理論基礎。

      可以看出,圖爾敏模型和論證塊模型都是對句子或文本單元的功能進行刻畫,而修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,簡稱RST)則更多關注文本功能單元之間的聯(lián)系。這些理論模型對論辯挖掘方法和應用研究的開展具有重要的啟發(fā)和指導意義。

      2論辯性文本識別及其關系判定方法

      目前,論辯挖掘在方法層面主要聚焦于論辯性文本及其間論辯關系的識別兩個方面。前者包括論辯句子識別與邊界的劃分,后者包括對論辯單元間微觀關系和宏觀關系的識別。

      2.1論辯性文本識別

      論辯性文本(Argumentative Text)是指在文本中具有推理和判斷功能的文本塊,其目的在于提高話語的可信性和說服力,在學術論文、法律判定與條款、辯論稿等類型文本中廣泛存在。對論辯性文本進行識別與分類是對論辯結(jié)構(gòu)進一步分析和挖掘的基礎。

      1)論辯性句子識別

      論辯性句子識別工作起始于對語料的獲取與標注工作,對于標注過程和結(jié)果的分析是現(xiàn)有研究的一個熱點。Reed C等、Stab C等和Eckle-Kohler J等分別對法律判決和學生撰寫議論文進行論辯結(jié)構(gòu)標注,Kappa指標常被用于評估人員標注結(jié)果的一致性,其值與標注難度呈負相關關系。相關工作形成的語料庫為論辯性文本的自動識別提供了數(shù)據(jù)基礎。

      在非監(jiān)督學習方面,Petasis G等發(fā)現(xiàn)抽取式摘要技術在論辯性文本識別中有著正向影響。Levy R等提出一種基于檢索查詢的論斷句識別方法。Jo Y等提出了一個瀑布模型(Cascade Model),不僅對陳述句進行識別,對疑問句、祈使句中的隱性論點也做了識別,并對論點中的指代消解問題做了研究。在監(jiān)督學習方面,Palau R M等、Palau R M等、Moens M F等在Arau-caria數(shù)據(jù)集上訓練包括最大熵、樸素貝葉斯、支持向量機等分類器,各種詞匯、句法特征的識別效果也得到了全面的分析驗證,相關研究通過句子二元分類已取得比較好的識別效果。近年來,深度學習方法在論辯性文本識別中也得到了應用。例如,Spliethover M等通過實驗否定了注意力機制在論辯部件識別中的效果。

      2)論辯部件邊界識別

      Habernal Ⅰ等發(fā)現(xiàn)并非所有論辯部件都以句子形式呈現(xiàn),還存在一對多、多對一情況。李永澤等提出應用句子關系分析和邊界識別的方法對論辯部件進行準確的抽取。研究多使用序列標注的方式對句內(nèi)詞匯進行是否為邊界詞的判斷,Park J等、Sardianos C等、Petasis G使用CRF(條件隨機場)、LSTM-CRF方法進行論辯部件邊界的識別。在非監(jiān)督學習方面,F(xiàn)errara A等提出了一種基于主題模型論辯部件邊界識別方法。在論辯部件分類方面,大多將識別的論辯部件分為Conclusion和Premise兩類。Oraby S等將論辯信息分為事實性(Factual)和情緒性(Emotional)兩種。Hidey C等在此兩類的基礎上,進一步對結(jié)論和前提的語義類型進行了標注。

      由上可知,論辯性文本識別通常作為一種句子二元分類問題來處理的,現(xiàn)有研究主要關注在分類器特征的選擇上,缺乏對論辯性文本判斷標準的研究。識別效果的評估也依賴數(shù)據(jù)標注質(zhì)量,缺少具體應用場景中的評估。目前,學者們大多關注句子內(nèi)部論辯部件邊界識別(Argument Boundary Detec-tion)問題。對跨多句論辯部件識別的研究相對較少,這也是未來應重點突破的研究方向。

      2.2論辯性文本間關系判別

      論辯性文本間關系判別是論辯挖掘的重要任務。相關研究可分為微觀和宏觀層面關系的識別。其中,前者常見于獨白型文本或篇幅較短的評論信息中,后者多見于對白型文本或多文檔間關系的分析中。

      1)論辯文本間的微觀關系

      論辯文本間的微觀關系旨在識別論辯性功能部件(Argumentative Components)間的推理關系。Tre-visan B等總結(jié)了論辯性文本中表示推理關系的提示詞。Carstens L等通過句子間的支持和論證關系來識別論辯性句子,探索出一條論辯文本及其關系綜合識別的方法。Stab C等在對論辯部件分類的基礎上,采用SVM分類器來判定給定的“前提—結(jié)論”二元對是否為支持關系。LawrenceJ等提出一種基于主題模型的論據(jù)和論點間推理關系判斷方法。近年來,深度學習方法在論辯性文本關系識別方面得到越來越多的應用。例如,Ko-reeda Y等基于蒯嵌入技術,通過帶有注意力模型的循環(huán)神經(jīng)網(wǎng)絡(RNN)識別論據(jù)與斷言之間的支撐與攻擊關系。Deguchi M等將神經(jīng)網(wǎng)絡和文本秩技術結(jié)合,對論辯性功能部件間的關系進行識別。

      2)論辯文本間的宏觀關系

      論辯性文本間宏觀關系包括論點間的語義關系和對比關系。語義關系主要可分為攻擊性(At-tack)與支持性(Support)關系兩類。Palau R M等提出一種基于上下文無關語法(Context-Free Grammar,CFG)法律文本中論點間關系判別方法。Bohui F等采用文本蘊涵分析(Text Entailment Analysis)方法推斷論壇帖子間的關系。對比關系主要對觀點的可信性進行比較,Potash P等從二元對的角度提出了論辯性文本說服力比較算法。相關方法對論點的影響力預測和說服力評價具有借鑒作用。

      論辯文本間的關系是多元和復雜的?,F(xiàn)有研究模型在微觀和宏觀層面還存在較多不足。具體來講,微觀層面僅關注論點與論據(jù)間的推理關系,對論點一子論點間的包含關系研究較少。在宏觀層面,缺少相同、相似、對立、競爭性關系的識別,這些類型關系的識別在觀點查重、查新和評估方面也有重要的價值。未來相關研究應重點關注論辯部件的內(nèi)部組成結(jié)構(gòu),在更深層次和細粒度的層面研究論辯部件及其關系的結(jié)構(gòu)化表示問題。相關研究有助于實現(xiàn)對論辯性信息的組織,實現(xiàn)論辯性文本的深度理解。

      3論辯挖掘應用研究

      論辯挖掘應用場景主要包括法律場景、在線辯論和學術場景等。各場景涉及的文本均具有論辯性的特征,但在體裁、文本長度、修辭結(jié)構(gòu)方面有著各自的特點。

      3.1法律場景

      法律過程和法律文本具有規(guī)范性和嚴謹性的特點,非常重視證據(jù)和推理過程。因此,法律場景是論辯挖掘應用最早和最成熟的領域,相關文本涵蓋判決書、法律條文、案例報告等。主要分析法律場景下的事實推理和量刑論證問題,以期輔助判案過程。目前,該方向?qū)W者已經(jīng)探索了英文、希臘文、日文、葡萄牙文、西班牙文等語言的法律文本的挖掘研究。該領域影響較大的語料庫有Araucari-aDB、ECHR(European Human Right Court)、疫苗注射論辯等。Palau R M等使用文本分類方法,從歐洲人權法院判決文中對論辯性文本進行自動抽取。Savelka J等標注了法庭判決文本中對術語的解釋性語句,并構(gòu)建了此類句子的識別特征。Fierro C等標注智利國民在2015年新憲法制定過程中生成的政治觀點,對觀點中的核心概念進行分類,并將這些觀點分為政治、事實和價值3類。Walker V R等把對美國退伍軍人傷殘索賠裁決文本中句子的語義分為證據(jù)、推理、事實3大類,并對其中證據(jù)類型做了進一步劃分。YamadaH等以民事法庭判決為例,將其按照一定主題劃分,對論點層次結(jié)構(gòu)(Argument、Sub-argument)進行標注。

      對法律文本中的論辯結(jié)構(gòu)進行識別并以友好的方式進行展示可以提高相關人員的閱讀效率。然而,不同國家和地區(qū)的司法體制并不相同,可分為大陸法系和英美法系,相關研究需要專業(yè)的法律背景知識。當前,相關研究主要集中在英文、日語和西班牙語等語料的研究中,而漢語場景下的法律論辯挖掘研究甚少,可參考語料庫數(shù)目不多。在未來的研究中,可以借鑒國外相關研究,開展面向中文法律語料的標注與論辯挖掘分析研究。

      3.2社交媒體場景

      隨著Web技術的發(fā)展,用戶越來越傾向于在互聯(lián)網(wǎng)上發(fā)表自己對某事件的理解、看法和意見,而不局限于被動地接受信息。在該場景中,使用論辯挖掘方法具有增強論點說服力、發(fā)現(xiàn)對方觀點漏洞、總結(jié)整體結(jié)論等功能。目前,該場景下已形成Idebate、Convinceme、Createdebate等與論辯挖掘有關的語料庫與平臺,為相關研究的開展提供了數(shù)據(jù)基礎。相關應用集中于爭議性觀點識別、觀點影響力與可信性評估、觀點的檢索與呈現(xiàn)3方面。

      在爭議性觀點識別方面,Cabrio E等從De-batepedia等網(wǎng)站上對有爭議性帖子進行標注。Aha-roni E等選擇了維基百科中有爭議的話題,對各方論點和論據(jù)進行標注。Mao F等抽取了在討論是否對爭議性百科詞條刪除討論中的祈使句。Peldszus A等對文本中相互對立的論斷進行了標注。Bilu Y等提出了一種基于規(guī)則的自動生成對立性觀點的算法。Reisert P等提出一種基于圖爾敏模型和知識庫的自動生成支持正反雙方辯論話語的模型。

      在觀點影響力和可信性評估方面,學者多從語言和受眾兩個方面研究說服機理。Mao F等提出觀點對網(wǎng)民影響可以從顯著性、來源、維持和偏差4個方面體現(xiàn)。Wei Z等對在線辯論語料中的駁論策略、立論策略、辯論質(zhì)量開展了標注。在此基礎上,有關學者對觀點的可信性和說服力水平進行了評估。Park J等對用戶評論中命題的被論證情況進行了標注。Ng L等對多種類的語料進行了論辯質(zhì)量的標注。Passon M等利用論辯挖掘技術對商品評論的有用性進行評估。Gu Y等通過對評論的說服力進行自動識別,發(fā)現(xiàn)隱性的主題特征有助于提高識別效果。Kotonya N等利用論辯挖掘方法對新聞的真實性進行評估,進而識別出虛假新聞。

      在觀點檢索和呈現(xiàn)方面,Wachsmuth H等研究網(wǎng)絡觀點檢索問題,包括獲取、查詢、評估、索引、排序和呈現(xiàn)等環(huán)節(jié)。Le D T等使用開發(fā)了一個基于檢索的可與用戶討論有爭議話題的對話系統(tǒng)。觀點呈現(xiàn)主要以代表性觀點抽取和總結(jié)的方式開展,Barker E等提出了一種以問題為中心的觀點聚類方法,對新聞評論中的意見進行總結(jié)。Chris R等使用語義文本相似性(Semantic Tex-tual Similarity)對論點進行聚類進而識別出在線辯論中的代表性論點。在多文檔層面,Carlebach M等研究對于新聞報道的多視角聚合方法。

      由上可知,社交媒體場景下的論辯挖掘研究主要對在線辯論、貼吧、評論、維基百科、新聞社評等類型文本進行分析。相關研究與觀點挖掘(O-pinion Mining)存在一定重合,兩類研究均以主觀性文本信息的度量與分析為目標,前者研究情感分類、情感詞典構(gòu)建及其極性強度計算方法;后者則更關注所持立場和觀點的原因。與法律和學術場景相比,該場景的語料存在規(guī)范性差、表達隨意的問題。論辯挖掘的理論并不完全適用該場景的語料,需要對數(shù)據(jù)進行質(zhì)量評估與篩選,在此基礎上開展輿情分析等深層次的研究。

      3.3學術場景

      在學術場景中,合理的論辯結(jié)構(gòu)有助于說服同領域的讀者。因此,論辯挖掘在學術領域有著廣泛的應用前景。例如,人文社會科學研究通過論辯挖掘的方法可更全面地分析學術論著中蘊含的論點和思想。自然科學則可以使用論辯挖掘的方式對知識的論證過程進行評估,從而提高學術信息傳播與交流效率。目前,相關研究聚焦于學術論文論辯結(jié)構(gòu)標注、學術觀點知識表示和學生撰寫文章分析3個方面。

      在學術論文論辯結(jié)構(gòu)標注方面,Lawrence J等對比了人工標注和論辯挖掘的方法在心理學著作論辯結(jié)構(gòu)識別效果的差異。Graves H等分析了生物醫(yī)學領域期刊論文標題中論辯性觀點出現(xiàn)情況,研究發(fā)現(xiàn)時態(tài)動詞有助于觀點識別。Faiz S Ⅰ等提出一種基于規(guī)則的關系抽取方法,并對生物學中反映實體間因果關系的句子進行了識別。Mayer T等對醫(yī)學隨機對照類論文中的論據(jù)進行了標注和自動識別。Accuosto P等對學術論文中的觀點及其論證進行了分析,并據(jù)此預測會議論文的接受程度。Lauscher A等構(gòu)建了一種細粒度的學術論文論辯挖掘工具ArguminSci,提供命令行、Web等使用方式。

      在學術觀點表示方面,Green N最早研究使用修辭關系和論辯理論研究論文中認識重構(gòu)問題。隨后,Green N探索了使用語義實體及其關聯(lián)的方式對生物學期刊論文中學術觀點的表示問題。王曉光等提出了科學論文的論證本體SAO(Scien-tific Paper Argumentation),并以圖書情報和生物醫(yī)學領域論文論證區(qū)域進行標注實驗。Blake C提出一種對醫(yī)學論文研究發(fā)現(xiàn)的論點框架,研究發(fā)現(xiàn),摘要中出現(xiàn)的論點僅占總數(shù)的7.8%,所以需要對全文中的論點進行識別。

      對學生撰寫文章進行論辯結(jié)構(gòu)與質(zhì)量評估也是當前論辯挖掘研究中的研究熱點。Lugini L等將學生課堂討論轉(zhuǎn)為文字,提出一種語篇特征、主題模型和機器學習融合的方法以識別命題間的論辯關系。Stab C等對文章中反方觀點缺失情況進行識別。在此基礎上,學者開始對學生撰寫文章質(zhì)量水平進行評估。例如,Ong N等使用基于規(guī)則的方法對本科生論文中論辯要素進行識別,發(fā)現(xiàn)其與專家文章評分的相關性。Song Y等和Kleban-ov B B等使用回歸分析的方法,利用論證結(jié)構(gòu)對文章質(zhì)量進行預測。

      隨著數(shù)字學術出版物的爆發(fā)式增長,研究者面臨著學術信息爆炸與知識匱乏的困境。當前,信息檢索和文本處理技術已為用戶提供了信息篩選和呈現(xiàn)工具。然而,學術論文的最大貢獻在于其提出的創(chuàng)新學術觀點,其與論辯結(jié)構(gòu)仍需學者閱讀和梳理文獻才能獲得,該工作不僅需要花費時間和精力,還需要一定經(jīng)驗,這對于新進入一個領域的學者而言更加困難。相較于另外兩類應用情景,學術場景內(nèi)論辯性文本具有規(guī)范性強的特點,但也存在篇幅長和標注門檻高的缺點,使得目前該場景研究要少于另外兩類場景。此外,不同領域的學術研究有不同的研究范式,未來可對各領域在論辯方法和結(jié)構(gòu)上的特點開展分析,為用戶提供更細致和專業(yè)的服務。

      4當前研究存在的不足與面臨的挑戰(zhàn)

      論辯挖掘旨在從非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的論辯結(jié)構(gòu),識別出論辯部件并明確其間邏輯推理關系。相關研究對于實現(xiàn)論辯性文本信息的深度理解并進一步開展認知計算具有非常重要的意義。目前,該領域研究文獻的數(shù)量逐年增多。然而,現(xiàn)有研究在整體上還存在一些不足之處,同時也面臨著一些挑戰(zhàn)。

      4.1研究缺乏系統(tǒng)性和整體性

      論辯挖掘研究是一個復雜、多樣的研究范疇,涉及多種應用場景、處理環(huán)節(jié)、文本體裁。目前,相關研究缺乏系統(tǒng)性和整體性。主要體現(xiàn)在:①學科間合作和交叉不緊密。主要表現(xiàn)在邏輯學領域、人工智能領域相關研究團隊缺乏深入的合作。究其原因,主要是邏輯學和人工智能分屬人文、理工門類,兩者重點關注的對象、問題、解決思路和效果評估等研究范式方面存在差異,導致跨學科合作存在困難。隨著新興學科的不斷涌現(xiàn),各領域邊界被打破,學科間合作也會不斷深入;②不同場景下論辯性文本的語言特征、結(jié)構(gòu)特點的識別存在較大差異。目前,大多數(shù)研究僅關注具體領域和單一環(huán)節(jié),對多任務、環(huán)節(jié)類聯(lián)合建模研究比較少,更缺少不同體裁、場景間差異化的對比與關聯(lián)分析;③相較于國外,國內(nèi)論辯研究整體上處于起步階段,導致以中文為語料的論辯挖掘還比較少。然而,作為一種廣泛使用的語言,中文在詞法、句法和修辭語步上與英語、德語等語言存在巨大差異,這需要引起國內(nèi)相關領域研究人員的重視。

      4.2語料庫構(gòu)建規(guī)模與規(guī)范方面的不足

      目前,各類論辯挖掘研究已經(jīng)構(gòu)建了多種類型、體裁的語料庫。這在某種程度上給論辯結(jié)構(gòu)的分析和抽取提供了寶貴的數(shù)據(jù)資源。然而,該領域語料庫構(gòu)建還存在如下不足:①除Debater等少數(shù)語料庫外,大部分語料庫存在規(guī)模較小的問題,主要是由于數(shù)據(jù)獲取還存在一定壁壘。受制于數(shù)據(jù)規(guī)模,目前無論是論辯部件識別,還是微觀和宏觀層面論辯結(jié)構(gòu)的抽取,各類方法、模型的準確性、召回率還存在一定提升空間。一些依賴大規(guī)模訓練語料的深度學習模型效果還不如傳統(tǒng)的機器學習算法。此外,各方法的魯棒性均不強,存在過適應性的問題。在大數(shù)據(jù)環(huán)境下,更多的論辯性數(shù)據(jù)將以非結(jié)構(gòu)化文本的形式呈現(xiàn)在互聯(lián)網(wǎng)上,這些語料可能包含大量不規(guī)范信息,這給語料庫的收集、處理和更新帶來挑戰(zhàn);②目前,對語料庫中數(shù)據(jù)的標注工作主要通過人工的方式開展,該過程比較消耗人力與時間。由于理論與觀察之間存在的差異,大部分研究者均針對各自語料的特點制定了具體的標注規(guī)則。對不同標注者,尤其是對缺乏邏輯學、法學背景的標注人員間標注結(jié)果進行一致性評估時,發(fā)現(xiàn)當前研究人員對于論辯結(jié)構(gòu)的認知存在較大差異。這說明,當前論辯挖掘領域語料標注還缺少統(tǒng)一的規(guī)范。

      4.3研究深度不足

      論辯在人類交流過程中起著增強語言說服力的重要作用。論辯性文本信息廣泛地出現(xiàn)在法律、政治和學術等各個場景中。對于論辯自身而言,其機理、結(jié)構(gòu)具有變化豐富、差別細微等特征。當前,論辯挖掘主要是利用機器學習技術對論辯部件及其間關系進行自動化標注,研究深度還存在不足。主要體現(xiàn)在:①論辯挖掘研究中,無論是論辯部件的識別還是論辯結(jié)構(gòu)的抽取,仍然是以句子或連續(xù)字符串為單位進行處理。較少深入論辯部件內(nèi)部,就其組成要素和構(gòu)成結(jié)構(gòu)進行建模。此外,論辯性文本中廣泛存在的指代、語態(tài)語氣、省略、間接、反諷、引用等修辭手法,也加大了論辯結(jié)構(gòu)抽取的難度;②各研究團隊對前提、論斷也缺乏細粒度分類與表示,論辯單元間關系也主要以攻擊和支持等推理關系表示,這種方式雖然可以滿足單篇獨白型或?qū)Π仔臀谋局姓撧q結(jié)構(gòu)的抽取,但在多文檔或語料庫層面論辯結(jié)構(gòu)抽取上,仍然需要從語義對比關系入手研究,將論辯單元使用結(jié)構(gòu)化語義模型進行表示,從語義、主題、功能等多個角度對論辯單元間關系進行建模。

      5未來研究展望

      當前,大數(shù)據(jù)、云計算、人工智能等技術的蓬勃發(fā)展對論辯挖掘方法的革新、應用均具有一定推動作用,為相關研究提供更全面的數(shù)據(jù)資源、更強大的處理能力和分析工具。同時,跨學科研究的興起也為論辯理論和文本挖掘技術的進一步融合提供了保障。未來研究應朝如下方向努力:

      5.1推動論辯挖掘應用研究

      論辯挖掘的主要目的是從非結(jié)構(gòu)化文本中抽取論辯結(jié)構(gòu),在此基礎上可以面向?qū)嶋H應用場景提供更精準的信息服務。未來可以開展的應用主要包括:①論辯性信息檢索,其本質(zhì)是一種特殊化的信息檢索任務,包括對論據(jù)、論點和論證方法的查詢,相關技術涵蓋論辯信息的收集、索引、去重、排序和呈現(xiàn)過程,旨在滿足各種場景下的信息查詢需求;②文本說服力分析和評估,是指對論點的文本特征與其論證合理性間關系進行回歸建模分析,主要包括對論證策略、論據(jù)充實程度進行評估。這兩類任務的本質(zhì)都是對論辯性文本語料的深入挖掘,旨在減輕有關論辯信息需求者閱讀負擔。

      5.2提升語料庫構(gòu)建質(zhì)量

      作為一種文本挖掘研究,語料庫的構(gòu)建在論辯挖掘研究中起著非常重要的基礎性資源作用。現(xiàn)有的語料庫多以特定場景為依據(jù),缺乏通用性,其構(gòu)建規(guī)模和質(zhì)量也存在不足。未來語料庫構(gòu)建應朝如下兩個方向努力:①保證全面性、規(guī)模性要求。其中,全面性是指各個領域和體裁的文本都應當進行收集和分析,而規(guī)模性是指語料要有一定的覆蓋范圍,可隨語料發(fā)展進行更新,借鑒眾包的方式開展大范圍的標注;②提升標注質(zhì)量。研究者應對標注者標注結(jié)果間的差異及其原因進行歸納、分析和深入探討,形成統(tǒng)一的標注規(guī)范。此外,應改進標注過程,更多地采用專家標注、增加標注輪次以提升標注質(zhì)量。按照實用性原則制定和優(yōu)化論辯挖掘語料庫評估指標,采用目標導向的方式提升語料庫構(gòu)建質(zhì)量。

      5.3從論辯理解向論辯生成過渡

      隨著自然語言處理、深度學習等技術的進一步發(fā)展,未來論辯挖掘研究應從目前對文本論辯結(jié)構(gòu)的抽取轉(zhuǎn)向文本論辯結(jié)構(gòu)的自動生成。也就是說,計算機對于論辯不僅應有理解能力,還應具有一定判斷、分析和表達能力。例如,面向一個有爭議的問題,根據(jù)問題描述和知識經(jīng)驗生成對問題的論斷,依托各類事實、數(shù)據(jù)等證據(jù),利用歸納、演繹等推理方式,自動分析原因,形成對策,為決策提供充足的論據(jù)。當前,人工智能還處于弱智能階段,還需深入理解和模擬人類認知、思考和語言表達過程,才可能真正實現(xiàn)論辯內(nèi)容生成與自動論辯。

      猜你喜歡
      語料論點語料庫
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      議論文分論點的提取
      華語電影作為真實語料在翻譯教學中的應用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      中共黨史論文論點摘編
      怎樣確定議論文的中心論點
      語文知識(2014年11期)2014-02-28 22:01:16
      兴文县| 绿春县| 丰都县| 普兰店市| 安吉县| 漳平市| 南丹县| 天水市| 乌苏市| 滨海县| 舞阳县| 托克逊县| 襄汾县| 全南县| 汝南县| 白银市| 龙里县| 闸北区| 宁陵县| 奉节县| 休宁县| 高邮市| 江达县| 绥德县| 乐昌市| 江津市| 宜都市| 阿合奇县| 黔西县| 通山县| 共和县| 会东县| 大田县| 佛学| 石阡县| 巍山| 防城港市| 鹿邑县| 都昌县| 彭阳县| 绥滨县|