唐帥,李青
(山東科技大學(xué),山東 青島 266000)
?
文本蘊(yùn)含問題簡介
唐帥,李青
(山東科技大學(xué),山東 青島 266000)
文本蘊(yùn)含是自然語言處理中的一個重要概念。本文對文本蘊(yùn)含問題本身以及其研究現(xiàn)狀進(jìn)行簡單的介紹。
人工智能;自然語言處理;文本蘊(yùn)含
文本蘊(yùn)含(Textual Entailment)是自然語言處理(Natural Language Processing)中的一個重要概念。它描述的是兩個文本片段的有向性關(guān)系。當(dāng)其中一個文本片段內(nèi)容的真實性依賴于另外一個文本片段的真實性時,這種關(guān)系存在。文本蘊(yùn)含沒有純邏輯蘊(yùn)含(pure logical entailment)般的嚴(yán)謹(jǐn)性。非形式化地,如果一個閱讀某文本片段的人類讀者會推斷另外一個文本片段中的內(nèi)容極可能是真實的,那么這兩個文本片段之間存在文本蘊(yùn)含關(guān)系??梢杂涀鳎骸皌 entails h” (t?h),其中t和h分別為蘊(yùn)含和被蘊(yùn)含的文本片段。文本蘊(yùn)含關(guān)系是有向的。因為在t?h 成立的情況下,h?t 成立與否通常是不確定的。
文本蘊(yùn)含在自然語言處理領(lǐng)域中的地位非常關(guān)鍵。因為它與自然語言的多樣性(variability)(比如同一個語義可以對應(yīng)多種不同的具體表達(dá)方式)緊密相關(guān),而如何處理語言的多樣性可謂自然語言研究領(lǐng)域中最大的難點(diǎn)。與此同時,有效處理自然語言的多樣性問題是自然語言諸多重要應(yīng)用領(lǐng)域中取得突破的基礎(chǔ)。
人工智能與自然語言處理領(lǐng)域的研究者們越發(fā)意識到文本蘊(yùn)含問題的重要性,RTE(Recognizing Textual Entailment)于2004年被作為一項一般性任務(wù)(generic task)被提出。自2004年到2013年,8界RTE挑戰(zhàn)(RTE Challenges)成功舉行,旨在為研究者們提供可以用來評估和比較他們的研究方法的具體數(shù)據(jù)集。歷年來RTE的主要組織者包括巴伊蘭大學(xué)(Bar-Ilan University),F(xiàn)ondazione Bruno Kessler 研究中心,美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST),以及意大利的語言和通信技術(shù)評價中心(CELCT)。
在現(xiàn)階段,語言多樣化問題往往出現(xiàn)于一些實用性的系統(tǒng)中。而這些系統(tǒng)對語言多樣化問題的處理通常是建立在比較“膚淺(shallow)”的語義層面。這是因為基于邏輯的含義層面(meaning-level)的表示是難以實現(xiàn)的。然而缺乏一種不限于具體應(yīng)用的通用性框架,來對語言多樣化進(jìn)行建模。Ido Dagan等人在《PROBABILISTIC TEXTUAL ENTAILMENT: GENERIC APPLIED MODELING OF LANGUAGE VARIABILITY》一文中提出了一個膚淺語義層面的通用的語言多樣化模型,并將其實現(xiàn)為一個可以投入到多種應(yīng)用的實用性引擎。這個模型被廣泛認(rèn)可,并在很大程度上影響了人們對于文本蘊(yùn)含問題的研究方法。
在文本蘊(yùn)含的原始定義中,這種關(guān)系是確定性的。即t?h 要不成立,要么不成立。而在Ido Dagan等人提出的模型中采用了一種更加模糊的處理方法,給每一個文本蘊(yùn)含實例分配一個概率,用以表示該文本蘊(yùn)含關(guān)系成立的可能性。文章提出的重要概念如下:
樣板(template):一個文本片段(language expression)以及與之對應(yīng)的句法分析。其中的一些次結(jié)構(gòu)可以用變量來替代。這些變量可以是根據(jù)句法結(jié)構(gòu)分類的。(比如詞類,詞性,或者依賴性解析(dependency parsing)中的關(guān)系類型。)
蘊(yùn)含式樣(entailment pattern):一個蘊(yùn)含式樣包括由共享變量域的一個蘊(yùn)含樣板和一個被蘊(yùn)涵樣板組成的結(jié)構(gòu),以及式樣相對應(yīng)的概率(包括先驗和后驗)。例如:
X←subjbuyobj→Y?X←subjownobj→Y
推理機(jī)制:模型利用既有的蘊(yùn)含式樣庫,通過不斷對其運(yùn)用概率推理邏輯的方式以獲得更加龐大和復(fù)雜的文本之間的蘊(yùn)含關(guān)系。推理模型中用到的核心推理規(guī)則如表1所示:
表1
其中第一條規(guī)則計算所有匹配的蘊(yùn)含式樣中的最大概率。第三個第四條規(guī)則描述了兩種在不影響蘊(yùn)含關(guān)系的前提下,將前提和結(jié)論分別組成更復(fù)雜的文本的方法。
以下介紹一種比較有代表性的模型。
一種最簡單和直接的處理方式是基于兩個文本片段在詞法層面上的相似度來評估二者之間的蘊(yùn)含關(guān)系。通常利用兩個文本片段中所含單詞的重疊程度(word overlap)來建立二者的相似度計算方法。一種可能的計算方法如下:
首先提取文本h中的單詞集合,以及其與文本t中單詞集合的交集。然后用加權(quán)處理(比如采用TF-IDF進(jìn)行加權(quán))過后的交集比上加權(quán)后的h中單詞的集合,以得到所考察的一對文本片段之間的單詞重疊度,從而基于這個重疊度對二者之間的蘊(yùn)含關(guān)系做出評估。
[1]Dagan,I.,and Glickman,O.Probabilistic textual entailment: generic applied modelingof language variability[C].Grenoble,France: PASCAL Workshop on Learning Methods for Text Understanding and Mining,2004.
[2]Marco,P.,and Fabio,Z.Learning Shallow Semantic Rules for Textual Entailment[C].Borovets,Bulgaria: Recent Advances in Natural Language Processing,2007.
[3]Yongmei,T.,and Junyu,Z.BUPTTeam Participation[C].TAC Recognizing Textual Entailment,2011.
唐帥(1987-),男,漢族,山東臨沂人,山東科技大學(xué)在讀碩士研究生,研究方向:人工智能、自然語言處理。
李青(1991-),女,漢族,山東濟(jì)寧人,山東科技大學(xué)情報學(xué)在讀碩士研究生,研究方向:信息系統(tǒng)工程、智能數(shù)據(jù)分析與處理。
TN929.53
A
1671-1602(2016)18-0251-01