何東 于曉昕 葉子銘 于中華 陳黎
摘 要: 抽取式閱讀理解是自然語言處理的重要任務(wù),需要機器在閱讀理解自然語言文本的基礎(chǔ)上,從中抽取給定問題的答案(輸入文本中的片段),并在問題不可回答時拒絕回答. 這種不可回答情況的存在使機器閱讀理解更具有挑戰(zhàn)性,特別是在輸入文本含有似是而非文本片段時,現(xiàn)有模型很容易將這樣的片段混淆為問題答案,進而錯誤判斷問題的可回答性. 為了進一步提高抽取式機器閱讀理解模型的效果,本文將SQuAD 2. 0 數(shù)據(jù)集中的似是而非答案看成對抗樣本,將其既作為答案文本片段抽取的正例,也作為問題可回答性的負例,在現(xiàn)有模型答案交叉熵損失的基礎(chǔ)上增加排序損失. 在SQuAD 2. 0 上進行的實驗表明,本文方法可以提高現(xiàn)有模型的閱讀理解能力,明顯提升可回答性判斷及答案文本片段抽取的效果.
關(guān)鍵詞: 閱讀理解; 不可回答問題; 對抗樣本
中圖分類號: TP391 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 022001