王寶鑫 鄭德權(quán) 王曉雪 趙姍姍 趙鐵軍
?
基于文本蘊(yùn)含的選擇類(lèi)問(wèn)題解答技術(shù)研究
王寶鑫 鄭德權(quán)?王曉雪 趙姍姍 趙鐵軍
哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; ?通信作者, E-mail: dqzheng@mtlab.hit.edu.cn
利用選擇類(lèi)問(wèn)題具有明確候選項(xiàng)的特點(diǎn), 簡(jiǎn)化問(wèn)題分類(lèi)過(guò)程, 并針對(duì)長(zhǎng)文本語(yǔ)義蘊(yùn)含短文本語(yǔ)義的語(yǔ)言現(xiàn)象, 提出一種根據(jù)文本蘊(yùn)含強(qiáng)度大小對(duì)候選答案進(jìn)行排序的方法。在沒(méi)有大規(guī)模問(wèn)答對(duì)的情況下, 采用維基百科中文語(yǔ)料庫(kù), 以全國(guó)各省市高考地理選擇題作為實(shí)驗(yàn)數(shù)據(jù), 通過(guò)句子相似度和文本蘊(yùn)含兩種方法來(lái)解答地理選擇題。實(shí)驗(yàn)表明, 基于文本蘊(yùn)含方法的準(zhǔn)確率為36.93%, 比基于詞嵌入的句子相似度方法提高2.44%, 比基于向量空間模型的句子相似度方法提高7.66%, 驗(yàn)證了該文本蘊(yùn)含強(qiáng)度計(jì)算方法的有效性。
文本蘊(yùn)含; 選擇題; 詞嵌入; 句子相似度
問(wèn)答系統(tǒng)通常分為三類(lèi): 基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)、基于大規(guī)模文本的問(wèn)答系統(tǒng)和基于問(wèn)答對(duì)的問(wèn)答系統(tǒng)[1]。隨著互聯(lián)網(wǎng)的快速發(fā)展以及電子文本的增多, 社區(qū)問(wèn)答系統(tǒng)(community question answering, CQA)和基于大規(guī)模文本的問(wèn)答系統(tǒng)的相關(guān)研究不斷增多, 但是針對(duì)選擇題這類(lèi)對(duì)人們?nèi)粘I詈蛯W(xué)習(xí)影響較大的問(wèn)答系統(tǒng)的研究相對(duì)較少。
本文對(duì)具有明確候選項(xiàng)的選擇題問(wèn)答系統(tǒng)進(jìn)行研究, 利用大規(guī)模維基百科中文語(yǔ)料作為數(shù)據(jù)源, 提出一種根據(jù)文本蘊(yùn)含強(qiáng)度大小對(duì)候選答案進(jìn)行排序的方法, 利用選擇題選項(xiàng)的規(guī)范性來(lái)確定問(wèn)題分類(lèi), 降低了問(wèn)題分析過(guò)程的復(fù)雜度。最后將本文的方法與傳統(tǒng)的句子相似度計(jì)算方法進(jìn)行比較。
1 相關(guān)工作
1.1 文本蘊(yùn)含相關(guān)工作
文本蘊(yùn)含[2]是一個(gè)連貫文本與一個(gè)假設(shè)文本之間的一種關(guān)系, 如果假設(shè)文本的語(yǔ)義可以通過(guò)文本推斷出來(lái), 則認(rèn)為文本蘊(yùn)含文本。文本蘊(yùn)含由Dagan等[2]在2004年提出, 其相關(guān)的任務(wù)一般包含識(shí)別、產(chǎn)生和抽取, 其中關(guān)于文本蘊(yùn)含識(shí)別(recognize textual entailment, RTE)的相關(guān)研究相對(duì)較多, RTE在問(wèn)答系統(tǒng)、信息抽取、機(jī)器翻譯評(píng)測(cè)等很多應(yīng)用中起關(guān)鍵作用[3]。RTE常采用的方法有單獨(dú)基于詞匯、句法、淺層語(yǔ)義的無(wú)監(jiān)督方法和基于分類(lèi)器的有監(jiān)督學(xué)習(xí)方法等[4]。有監(jiān)督方法往往需要較多訓(xùn)練數(shù)據(jù), 并且對(duì)于訓(xùn)練數(shù)據(jù)的領(lǐng)域依賴(lài)性較強(qiáng), 因此本文采用基于詞匯的無(wú)監(jiān)督方法。以往對(duì)文本蘊(yùn)含識(shí)別的研究多集中在兩個(gè)句子之間, 評(píng)測(cè)的任務(wù)也僅僅是評(píng)估句子是否蘊(yùn)含句子。本文文本蘊(yùn)含識(shí)別則是集中在長(zhǎng)文本與短語(yǔ)之間、長(zhǎng)文本與句子之間。實(shí)際上, 兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系很難分清界限, 所以現(xiàn)有的文本蘊(yùn)含識(shí)別系統(tǒng)多是根據(jù)某一確定標(biāo)準(zhǔn)來(lái)判斷兩個(gè)句子是否存在蘊(yùn)含關(guān)系。由于本文研究的是已有明確候選答案的選擇題類(lèi)問(wèn)答系統(tǒng), 需要比較文本對(duì)文本1的蘊(yùn)含關(guān)系是否大于文本對(duì)文本2的蘊(yùn)含關(guān)系, 而不是簡(jiǎn)單地判斷兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系。因此, 為衡量蘊(yùn)含關(guān)系的大小, 本文提出文本蘊(yùn)含強(qiáng)度的概念。
1.2 問(wèn)答系統(tǒng)相關(guān)工作
問(wèn)答系統(tǒng)一般包含3個(gè)主要組成部分: 問(wèn)題分析、信息檢索和答案抽取。依據(jù)處理數(shù)據(jù)的格式, 問(wèn)答系統(tǒng)可以劃分為三類(lèi): 基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)、基于自由文本的問(wèn)答系統(tǒng)和基于問(wèn)題答案對(duì)的問(wèn)答系統(tǒng)。早期的問(wèn)答系統(tǒng)大部分是基于知識(shí)庫(kù)的問(wèn)答系統(tǒng), 但是由于知識(shí)庫(kù)構(gòu)建需要消耗大量的資源, 產(chǎn)生的問(wèn)答系統(tǒng)局限性也比較大, 所以該類(lèi)問(wèn)答系統(tǒng)多用來(lái)解決限定領(lǐng)域的問(wèn)題。隨著互聯(lián)網(wǎng)的興起, 網(wǎng)絡(luò)上的文本數(shù)量激增, 隨之興起的是基于自由文本的問(wèn)答系統(tǒng), 即從已經(jīng)存在的非結(jié)構(gòu)化文本中抽取答案。自2005年末以來(lái), 隨著CQA數(shù)據(jù)的大量出現(xiàn), 問(wèn)題答案對(duì)數(shù)量的增多[5], 基于問(wèn)答對(duì)的問(wèn)答系統(tǒng)逐漸成為研究熱點(diǎn)。
本文采用全國(guó)各省市高考地理選擇題作為實(shí)驗(yàn)數(shù)據(jù), 進(jìn)行關(guān)于選擇題問(wèn)答系統(tǒng)的研究。由于知識(shí)庫(kù)的匱乏, 構(gòu)建知識(shí)庫(kù)需要消耗大量人力和時(shí)間, 且關(guān)于高考題的問(wèn)答對(duì)的數(shù)目相對(duì)較少, 重復(fù)問(wèn)題出現(xiàn)的可能性低, 因此本文采用依賴(lài)于自由文本的問(wèn)答系統(tǒng)。本文的選擇題問(wèn)答系統(tǒng)可以看做問(wèn)答對(duì)類(lèi)和自由文本類(lèi)問(wèn)答系統(tǒng)的結(jié)合: 一方面, 它與CQA一樣擁有天然的候選答案可供選擇; 另一方面, 該系統(tǒng)通過(guò)自由文本對(duì)選擇題進(jìn)行解答。傳統(tǒng)的基于自由文本的問(wèn)答系統(tǒng)由于沒(méi)有天然可靠的候選答案, 所以問(wèn)題研究的重點(diǎn)多集中在對(duì)問(wèn)題精細(xì)分類(lèi)、從文本中檢索相關(guān)信息以及從文本中抽取簡(jiǎn)潔的答案等方面。本文中涉及的選擇題問(wèn)答, 由于候選選項(xiàng)已經(jīng)確定, 所以重點(diǎn)研究如何對(duì)候選項(xiàng)進(jìn)行評(píng)分排序。本文采用計(jì)算文本蘊(yùn)含(textual entailment, TE)強(qiáng)度的方法來(lái)解決選擇題型問(wèn)答。
2 算法與理論推導(dǎo)
2.1 問(wèn)題定義
定義1 文本蘊(yùn)含強(qiáng)度。
對(duì)于一個(gè)連貫文本與一個(gè)假設(shè)文本, 如果可以根據(jù)推斷出, 則說(shuō)明與之間存在一個(gè)有向的文本蘊(yùn)含關(guān)系。過(guò)去對(duì)于文本蘊(yùn)含的研究多集中于兩個(gè)文本與是否含有蘊(yùn)含關(guān)系, 然而在很多實(shí)際任務(wù)中, 不僅需要定性地判斷兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系, 而且在不蘊(yùn)含的情況下, 可能還需要判斷是否部分蘊(yùn)含, 以及部分蘊(yùn)含多少[6]。例1給出一個(gè)部分蘊(yùn)含的示例。
例1: 李娜出生于1982年, 是中國(guó)著名網(wǎng)球運(yùn)動(dòng)員。
: 李娜是中國(guó)女子網(wǎng)球運(yùn)動(dòng)員。
在例1中可以看到, 從句中可以推斷出句的部分信息, 然而并不能推斷出句的全部信息, 其中“女子”這一信息無(wú)法從句中推斷出來(lái)。
針對(duì)此現(xiàn)象, 本文提出文本蘊(yùn)含強(qiáng)度的概念, 文本對(duì)的文本蘊(yùn)含強(qiáng)度指與之間信息的交集占全部信息的比重, 即連貫文本對(duì)假設(shè)文本的蘊(yùn)含關(guān)系的大小。
定義2 長(zhǎng)文本蘊(yùn)含。
過(guò)去針對(duì)文本蘊(yùn)含的研究, 多是判斷兩個(gè)句子之間的蘊(yùn)含關(guān)系。然而實(shí)際問(wèn)題中, 可能會(huì)出現(xiàn)需要判斷長(zhǎng)文本(多個(gè)句子)對(duì)一個(gè)句子的文本蘊(yùn)含關(guān)系, 即長(zhǎng)文本蘊(yùn)含。例2給出一個(gè)長(zhǎng)文本對(duì)單句的語(yǔ)義蘊(yùn)含示例。
例2: 李娜, 1982年2月26日出生在湖北省武漢市, 中國(guó)女子網(wǎng)球運(yùn)動(dòng)員。2008年北京奧運(yùn)會(huì)女子單打第四名。
: 網(wǎng)球運(yùn)動(dòng)員李娜在2008年北京奧運(yùn)會(huì)獲得女子單打第四名。
顯然從文本可以推斷出文本, 因此文本蘊(yùn)含文本。然而文本包含兩個(gè)句子, 每個(gè)句子分別包含一部分文本的信息, 過(guò)去RTE的很多研究方法對(duì)于該類(lèi)問(wèn)題并不適用。
RTE常常采用有監(jiān)督的機(jī)器學(xué)習(xí)算法, 將其作為一個(gè)分類(lèi)任務(wù)進(jìn)行解決, 但是在文本是多個(gè)句子的情況下, 很多特征對(duì)該類(lèi)問(wèn)題并不適用, 并且需要人工標(biāo)注較多的訓(xùn)練數(shù)據(jù)(長(zhǎng)文本蘊(yùn)含的標(biāo)注往往需要消耗更多的時(shí)間和人力)。Glickman等[7]采用基于詞對(duì)齊的產(chǎn)生式模型, 計(jì)算文本蘊(yùn)含關(guān)系, 但是他們只考慮了詞之間的共現(xiàn)關(guān)系而忽視了詞語(yǔ)語(yǔ)義、詞語(yǔ)位置等信息。Jijkoun等[8]利用詞語(yǔ)相似度的方法來(lái)識(shí)別兩個(gè)句子的語(yǔ)義蘊(yùn)含關(guān)系, 但其語(yǔ)義相似度是基于WordNet計(jì)算的, 有一定局限性, 并且也沒(méi)有考慮詞語(yǔ)位置的關(guān)系。本文改進(jìn)了文獻(xiàn)[7-8]的算法, 提出一個(gè)啟發(fā)式算法對(duì)文本蘊(yùn)含強(qiáng)度進(jìn)行求解。
2.2 文本蘊(yùn)含強(qiáng)度計(jì)算方法
文本對(duì)文本的蘊(yùn)含強(qiáng)度大小TES(Textual Entailment Strength)滿足式(1):
其中,表示連貫文本的詞數(shù),表示假設(shè)文本的詞數(shù),表示文本中的詞對(duì)文本中的詞語(yǔ)義蘊(yùn)含的大小,表示詞語(yǔ)對(duì)應(yīng)蘊(yùn)含強(qiáng)度占總蘊(yùn)含強(qiáng)度的權(quán)重。本文用與之間的相似度來(lái)近似估計(jì)對(duì)的語(yǔ)義蘊(yùn)含大小。
可以這樣理解式(1): 對(duì)于文本中的每個(gè)詞, 找到在文本中與它相似度最高的詞, 計(jì)算與之間的相似度, 最后再對(duì)所有詞語(yǔ)相似度加權(quán)平均, 求得文本蘊(yùn)含強(qiáng)度。其中與的關(guān)系相當(dāng)于一種詞對(duì)齊關(guān)系, 如圖1所示。
的計(jì)算過(guò)程如下: 定義()表示文本出現(xiàn)的概率,()表示詞語(yǔ)所在文本出現(xiàn)的概率,(|)表示在詞語(yǔ)出現(xiàn)的情況下, 文本出現(xiàn)的概率。直觀上,(|)越大,在公式中所占的比重越大。
由貝葉斯公式(式(2))可知, 當(dāng)(|H)=1,()為定值時(shí),(|)與成正比。恰好是IDF(inverse document frequency), 常用來(lái)表示一個(gè)詞語(yǔ)對(duì)文本的區(qū)分度。本文使用式(3)所示的歸一化IDF作為權(quán)重。
傳統(tǒng)詞義相似度計(jì)算多是通過(guò)WordNet和HowNet等知識(shí)庫(kù)計(jì)算的, 因此詞義相似度的計(jì)算效果往往會(huì)受限于知識(shí)庫(kù)的大小。近幾年, 基于神經(jīng)網(wǎng)絡(luò)的Word Embedding因其在詞語(yǔ)語(yǔ)義表示方面的良好性能受到廣泛關(guān)注[9–11]。Word Embedding將語(yǔ)料庫(kù)中的每個(gè)詞表示為一個(gè)低維實(shí)數(shù)向量, 可以很好地表示兩個(gè)詞語(yǔ)語(yǔ)義之間的距離。Glickman等[7]的方法需要計(jì)算任意兩個(gè)詞語(yǔ)在一句話的共現(xiàn)次數(shù), 往往需要較大的空間開(kāi)銷(xiāo)。Word Embedding也利用了詞共現(xiàn)的信息, 并且能更好地表達(dá)一個(gè)詞語(yǔ)的語(yǔ)義。因此, 本文中的相似度是采用Word Embedding計(jì)算余弦相似度得到的, 余弦相似度的計(jì)算如下:
將式(1)~(4)的過(guò)程進(jìn)行總結(jié),得到算法1。
算法1 基于詞語(yǔ)相似度的文本蘊(yùn)含強(qiáng)度計(jì)算。
初始化:
總相似度totalSim=0
總權(quán)重totalWeight=0
1 for= 1, ...,do
3 totalSim+=IDF(v) maxSim
4 totalWeight+=IDF(v)
5 end for
6 文本蘊(yùn)含強(qiáng)度TES=totalSim/totalWeight
7 Return TES
2.3 算法改進(jìn)
算法1雖然可以在一定程度上表達(dá)文本蘊(yùn)含關(guān)系, 但是沒(méi)有考慮詞語(yǔ)位置信息。當(dāng)文本過(guò)長(zhǎng)時(shí), 如果文本中相鄰的兩個(gè)詞在文本中所對(duì)應(yīng)的詞之間的距離很大, 那么與的詞語(yǔ)之間的語(yǔ)義蘊(yùn)含強(qiáng)度相應(yīng)降低, 如例3所示。
例3: 新月與滿月時(shí), 太陽(yáng)、地球、月球呈一直線, 潮差最大, 稱(chēng)作大潮; 上下弦月時(shí), 三者呈直角, 潮差最小, 稱(chēng)為小潮。
1: 地球處在太陽(yáng)與月球之間, 出現(xiàn)大潮。
2: 地球處在太陽(yáng)與月球之間, 出現(xiàn)小潮。
對(duì)于例3, 顯然文本對(duì)1的文本蘊(yùn)含強(qiáng)度應(yīng)該大于對(duì)2的蘊(yùn)含強(qiáng)度。事實(shí)上, 從文本可以推斷出1, 而無(wú)法推斷出2。因此, 我們提出對(duì)應(yīng)的改進(jìn)算法, 相應(yīng)的蘊(yùn)含強(qiáng)度計(jì)算如下:
其中,和分別表示假設(shè)文本和連貫文本的詞數(shù),表示詞語(yǔ)在文本中所在的位置下標(biāo),表示詞語(yǔ)在文本中對(duì)應(yīng)詞所在的位置下標(biāo), 即是文本中的兩個(gè)詞之間的距離。
文本中相鄰的兩個(gè)詞所對(duì)應(yīng)的文本中的兩個(gè)詞距離越遠(yuǎn), 其語(yǔ)義蘊(yùn)含強(qiáng)度越低, 且這種降低趨勢(shì)隨距離增大先緩慢降低, 到一定距離后再加速降低, 最后再緩慢降低, 高斯函數(shù)(式(6))正好滿足這種下降趨勢(shì)。
我們用動(dòng)態(tài)規(guī)劃求解獲得最終TES的值, 具體描述如算法2所示。
算法2 改進(jìn)的文本蘊(yùn)含強(qiáng)度計(jì)算
輸出: 文本蘊(yùn)含強(qiáng)度TES
1 初始化:
2 遞推:
3 終止:
3 選擇類(lèi)問(wèn)題解答及分析
鑒于高考地理題具有易獲取、少干擾、形式規(guī)范以及可靠性高的特點(diǎn), 本文采用各地高考近十年的地理選擇題, 去除其中含有圖片的題目以及計(jì)算類(lèi)題目, 剩余287道選擇題作為最終的實(shí)驗(yàn)數(shù)據(jù)。
本文方法分為預(yù)處理、問(wèn)題分析、信息檢索與答案抽取4個(gè)模塊, 如圖2所示。
3.1 預(yù)處理
預(yù)處理階段, 對(duì)維基百科文本語(yǔ)料進(jìn)行分詞, 并用分詞后的維基百科中文文本語(yǔ)料和Mikolov 等[10–11]提出的word2vec工具實(shí)現(xiàn)Word Embedding的訓(xùn)練。使用目前國(guó)際上句法分析效果比較好的ZPar[12]工具, 對(duì)選擇題選項(xiàng)進(jìn)行句法分析。
3.2 問(wèn)題分析
3.2.1 關(guān)鍵詞抽取
本文通過(guò)傳統(tǒng)的TF-IDF方法來(lái)提取關(guān)鍵詞, 即根據(jù)計(jì)算選擇題題干部分的TF-IDF的數(shù)值大小進(jìn)行排序, 去除停用詞后, 依據(jù)TF-IDF值的大小依次選取關(guān)鍵詞, 本文實(shí)驗(yàn)中選取的關(guān)鍵詞數(shù)目為3。例4是一道高考地理選擇題的實(shí)例。例5是針對(duì)例4的一個(gè)抽取關(guān)鍵詞的例子。從例5可以看出, 基于TF-IDF抽取關(guān)鍵詞的方法雖然簡(jiǎn)單, 但是在地理選擇題題干中的表現(xiàn)很好。
例4 春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是
A. 反氣旋控制下沉增溫
B. 暖鋒過(guò)境釋放熱量
C. 西風(fēng)帶南移釋放熱量
D. 局地氣流下沉增溫
例5 題干:“春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是”。抽取關(guān)鍵詞:背風(fēng)坡、阿爾卑斯、雪崩。
3.2.2 問(wèn)題分類(lèi)
傳統(tǒng)問(wèn)答系統(tǒng)的問(wèn)題分類(lèi)通常比較精細(xì), 一方面為了確定答案的類(lèi)型, 同時(shí)也為了對(duì)不同類(lèi)別的問(wèn)題采用不同的方法來(lái)解答。本文采用的高考題具有規(guī)范性, 候選答案的形式規(guī)范且符合問(wèn)題要求。根據(jù)該特點(diǎn), 依據(jù)選擇題的選項(xiàng)對(duì)問(wèn)題分為兩大類(lèi):一類(lèi)是候選答案為名詞短語(yǔ)的選擇題; 另一類(lèi)是候選答案為句子的選擇題。本文對(duì)選項(xiàng)的分析判斷采用句法分析, 4個(gè)選項(xiàng)中含有名詞短語(yǔ)(NP)的選項(xiàng)有兩個(gè)及兩個(gè)以上則為名詞短語(yǔ)類(lèi)型, 否則即為句子類(lèi)型(IP)。
例6是一道地理選擇題, 其中的4個(gè)選項(xiàng)都是NP, 因此該選擇題將會(huì)被劃分為名詞短語(yǔ)類(lèi)型。
例6 人類(lèi)已知月球上的能源有
A. (NP (NN 生物能) (PU 、) (NN 風(fēng)能))
B. (NP (NN 核能) (PU 、) (NN 潮汐能))
C. (NP (NN 潮汐能) (PU 、) (NN 太陽(yáng)能))
D. (NP (NN 太陽(yáng)能) (PU 、) (NN 核能))
3.2.3 問(wèn)句正誤傾向分析
選擇題經(jīng)常會(huì)要求判斷“不正確”、“錯(cuò)誤”或“不合理”。對(duì)于這類(lèi)問(wèn)題, 我們將其識(shí)別出來(lái), 為后面的答案抽取過(guò)程提供幫助。該部分主要通過(guò)人工配置詞典的方法, 對(duì)選擇題題干進(jìn)行識(shí)別, 例如, 在題目的問(wèn)句中出現(xiàn)“不正確”一詞, 則將該問(wèn)題作為錯(cuò)誤傾向類(lèi)的問(wèn)題。
3.3 信息檢索
對(duì)中文維基百科的詞條建立索引, 根據(jù)問(wèn)題分析階段抽取出來(lái)的關(guān)鍵詞, 在維基百科語(yǔ)料中檢索相應(yīng)的詞條, 將與其對(duì)應(yīng)的百科文本提取出來(lái)。
3.4 答案抽取
該階段分別采用句子相似度和文本蘊(yùn)含兩種方法來(lái)實(shí)現(xiàn)答案抽取。最后根據(jù)問(wèn)題分析中的正誤傾向性判斷來(lái)選擇答案。如果是正向問(wèn)題, 則選擇分值最高的選項(xiàng), 否則, 選擇分值最低的選項(xiàng)。
3.4.1 句子相似度
在中文維基百科文本中檢索關(guān)鍵詞對(duì)應(yīng)的百科文本, 將選項(xiàng)與百科文本中的所有句子一一進(jìn)行相似度計(jì)算, 選取最高的相似度作為該選項(xiàng)最終的分?jǐn)?shù)。相似度計(jì)算分別采用基于TF-IDF的向量空間模型和基于Word Embedding的句子相似度計(jì)算。
基于VSM的句子相似度: 將兩個(gè)句子表示為兩個(gè)向量, 向量的每一維權(quán)值對(duì)應(yīng)每個(gè)詞的TF-IDF值, 再對(duì)兩個(gè)向量計(jì)算余弦相似度, 作為兩個(gè)句子最終的相似度。
基于Word Embedding的句子相似度: 如式(7)和(8)所示, 將句子中每個(gè)詞的Word Embedding向量相加取平均值作為句子的向量, 再對(duì)兩個(gè)句子的向量計(jì)算余弦相似度, 作為兩個(gè)句子最終的相似度。
3.4.2 文本蘊(yùn)含
將關(guān)鍵詞對(duì)應(yīng)的維基百科文本整體作為文本, 句子選項(xiàng)作為文本, 對(duì)短語(yǔ)類(lèi)的問(wèn)題采用算法1, 對(duì)句子類(lèi)的問(wèn)題采用算法2, 計(jì)算對(duì)的文本蘊(yùn)含強(qiáng)度。
4 實(shí)驗(yàn)結(jié)果與分析
由于本文問(wèn)答系統(tǒng)中候選項(xiàng)已經(jīng)確定, 正確答案一定會(huì)出現(xiàn)在候選項(xiàng)中, 且每道題都有固定的4個(gè)候選項(xiàng), 所以本文對(duì)問(wèn)答系統(tǒng)的評(píng)測(cè)標(biāo)準(zhǔn)采用準(zhǔn)確率。算法2中高斯函數(shù)的參數(shù)設(shè)置如下:,。
根據(jù)句子相似度和文本蘊(yùn)含得到的最終問(wèn)答系統(tǒng)準(zhǔn)確率如表1所示。從表1可見(jiàn), 基于Word Embedding的相似度計(jì)算方法好于基于VSM的方法??梢?jiàn)基于Word Embedding的方法比VSM的方法能更好地表達(dá)句子的語(yǔ)義。從表1還可以看出, 算法1對(duì)名詞短語(yǔ)類(lèi)的問(wèn)題效果比較好, 而算法2對(duì)于句子類(lèi)的問(wèn)題效果較好。綜合兩種方法后, 本文提出的方法最終的準(zhǔn)確率可達(dá)36.93%。
表1 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文方法的有效性, 在選取關(guān)鍵詞對(duì)應(yīng)的百科全部文本作為連貫文本之外, 還將百科文本中不同數(shù)目的連續(xù)句子作為進(jìn)行實(shí)驗(yàn), 選取其中最大的文本蘊(yùn)含強(qiáng)度作為最終選項(xiàng)的分值。
圖3是對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果, 可以看出, 算法1對(duì)應(yīng)名詞短語(yǔ)類(lèi)問(wèn)題的解答準(zhǔn)確率隨著句子數(shù)目的增大而呈上升趨勢(shì), 但是算法1卻無(wú)法對(duì)候選項(xiàng)為句子的問(wèn)題進(jìn)行有效解答。隨著句子數(shù)目增大, 算法1對(duì)句子類(lèi)問(wèn)題逐漸失效。原因可能有以下兩點(diǎn): 1)算法1無(wú)法很好地分析含有完整句法結(jié)構(gòu)的句子所對(duì)應(yīng)的文本蘊(yùn)含情況; 2)詞短語(yǔ)部分的選擇題更傾向于概念類(lèi)題目, 相對(duì)簡(jiǎn)單, 而候選答案為句子的選擇題分析則較為復(fù)雜, 需要更深層的語(yǔ)義分析, 因此無(wú)法直接從百科抽取答案。
例7是在算法2中正確而在算法1中錯(cuò)誤的一個(gè)例子(算法2的答案為D, 算法1的答案為A), 其對(duì)應(yīng)的候選項(xiàng)都為句子。例7在一定程度上反映了算法2對(duì)候選項(xiàng)為句子的問(wèn)題的解答效果比算法1好。
例7 在森林中一旦遭遇火災(zāi), 下列做法正確的是
A. 使用沾濕的毛巾遮住口鼻, 順風(fēng)逃離
B. 如果火勢(shì)突然減弱, 則可以放心休息
C. 選擇低洼地或坑洞躲避
D. 伺機(jī)逆風(fēng)突破林火包圍
算法2在名詞短語(yǔ)類(lèi)問(wèn)題上的表現(xiàn)不如算法1, 原因可能是名詞短語(yǔ)類(lèi)選項(xiàng)大多由多個(gè)實(shí)體名詞混合在一起組成, 在百科文本中出現(xiàn)的位置相對(duì)分散, 限制其位置會(huì)導(dǎo)致最終的準(zhǔn)確率較低。算法2對(duì)于候選項(xiàng)為句子的問(wèn)題解答效果顯然比算法1好很多, 并且其準(zhǔn)確率隨著句子數(shù)目增多而增大, 這也說(shuō)明算法2對(duì)于計(jì)算長(zhǎng)文本對(duì)句子的文本蘊(yùn)含強(qiáng)度的效果明顯。
5 結(jié)論
本文針對(duì)選擇類(lèi)問(wèn)題解答方法進(jìn)行了研究, 提出了一種新的計(jì)算文本蘊(yùn)含強(qiáng)度的方法。在沒(méi)有大規(guī)模訓(xùn)練數(shù)據(jù)的情況下, 僅用維基百科中文語(yǔ)料庫(kù), 通過(guò)Word Embedding計(jì)算文本蘊(yùn)含強(qiáng)度來(lái)解決地理選擇類(lèi)問(wèn)題, 最終基于文本蘊(yùn)含方法的準(zhǔn)確率為36.93%, 比基于VSM的句子相似度方法的準(zhǔn)確率高7.66%, 比基于Word Embedding的句子相似度方法高2.44%。實(shí)驗(yàn)驗(yàn)證了本文提出的文本蘊(yùn)含計(jì)算方法對(duì)長(zhǎng)文本蘊(yùn)含短文本的情況效果明顯, 并且文本蘊(yùn)含也是解答選擇類(lèi)問(wèn)題的有效的方法。
由于本文關(guān)于文本蘊(yùn)含強(qiáng)度的計(jì)算方法是分別針對(duì)長(zhǎng)文本對(duì)短語(yǔ)和長(zhǎng)文本對(duì)句子兩種類(lèi)型的文本蘊(yùn)含情況進(jìn)行的, 所以該方法在句子對(duì)句子類(lèi)型的文本蘊(yùn)含強(qiáng)度的計(jì)算效果仍有待提升。此外, 對(duì)于推理類(lèi)地理選擇題, 本文的方法在很多情況下并不適用, 需要后期構(gòu)建大型的知識(shí)庫(kù)以及邏輯推理框架來(lái)解決。
[1]毛先領(lǐng), 李曉明. 問(wèn)答系統(tǒng)研究綜述. 計(jì)算機(jī)科學(xué)與探索, 2012, 6(3): 193-207
[2]Dagan I, Glickman O. Probabilistic textual entail-ment: generic applied modeling of language varia-bility // Proc of the Pascal Workshop on Learning Methods for Text Understanding & Mining. Grenoble, 2004: 26–29
[3]Androutsopoulos I, Malakasiotis P. A survey of paraphrasing and textual entailment methods. Journal of Artificial Intelligence Research, 2009, 38(4): 135–187
[4]袁毓林, 王明華. 文本蘊(yùn)涵的推理模型與識(shí)別模型. 中文信息學(xué)報(bào), 2010, 24(2): 3–13
[5]張中峰, 李秋丹. 社區(qū)問(wèn)答系統(tǒng)研究綜述. 計(jì)算機(jī)科學(xué), 2010, 37(11): 19–23
[6]Levy O, Zesch T, Dagan I, et al. Recognizing partial textual entailment // Proceedings of the 51st Annual Meeting of the Association for Computational Lingui-stics. Sofia, 2013: 451–455
[7]Glickman O, Dagan I M. A lexical alignment model for probabilistic textual entailment // Machine Lear-ning Callenges: Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment. Berlin: Springer, 2006: 287–298
[8]Jijkoun V, de Rijke M. Recognizing textual entailment using lexical similarity // Proc of the First PASCAL Challenges Workshop on RTE. Southampton, 2005: 73–76
[9]Collobert R, Weston J. A unified architecture for natural language processing: deep neural networks with multitask learning // Proceedings of the 25th International Conference on Machine Learning. Helsinki, 2008: 160–167
[10]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space // Proceedings of the Workshop at ICLR. Scottsdale, 2013: 1–12
[11]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of Neural Information Processing Systems. Lake Tahoe, 2013: 3111–3119
[12]Zhang Y, Clark S. Syntactic processing using the generalized perceptron and beam search. Compu-tational Linguistics, 2011, 37(1): 105–151
Multiple-Choice Question Answering Based on Textual Entailment
WANG Baoxin, ZHENG Dequan?, WANG Xiaoxue, ZHAO Shanshan, ZHAO Tiejun
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001; ? Corresponding author, E-mail: dqzheng@mtlab.hit.edu.cn
This paper proposes a method to compute textual entailment strength, taking multiple-choice questions which have clear candidate answers as research objects, aiming at the phenomenon of long text entailing short text. Two methods are used to answer the college entrance examination geography multiple-choice questions based on the Wikipedia Chinese Corpus in the absence of large-scale questions and answers. One is based on the sentence similarity and the other is based on the textual entailment proposed above. The accuracy rate of the proposed method is 36.93%, increasing by 2.44% than the way based on the word embedding sentence similarity, increasing 7.66% than the way based on the Vector Space Model sentence similarity, which confirm the effectiveness of the method based on the textual entailment.
textual entailment; multiple-choice question; word embedding; sentence similarity
10.13209/j.0479-8023.2016.017
TP391
2015-06-19;
2015-08-17; 網(wǎng)絡(luò)出版日期: 2015-09-29
國(guó)家自然科學(xué)基金(61173073)和863計(jì)劃(2015AA015405)資助