• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      問答系統(tǒng)中問句相似度研究

      2020-07-26 14:23:53宋文闖劉亮亮張?jiān)佘S
      軟件導(dǎo)刊 2020年7期

      宋文闖 劉亮亮 張?jiān)佘S

      摘 要:百度知道中用戶提出問題較短,采用常規(guī)基于空間向量的TF-IDF句子相似度計(jì)算、基于語義依存關(guān)系的句子相似度計(jì)算等方法往往很難較好完成其相似度計(jì)算。鑒于此,基于長度較短問句的特點(diǎn),引入問題元和詞模思想,對用戶問題進(jìn)行分解,并與傳統(tǒng)相似度計(jì)算方法相融合,提出新的相似度計(jì)算方法。對于長度低于20個(gè)詞的問句,與傳統(tǒng)TF-IDF方法相比,F(xiàn)1值提高了12%。

      關(guān)鍵詞:問題元;關(guān)鍵字?jǐn)U展;TF-IDF;句子相似度;問答系統(tǒng)

      DOI:10. 11907/rjdk. 191544 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      中圖分類號:TP391文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1672-7800(2020)007-0148-05

      Study on the Similarity of Question Sentences in Question and Answer System

      SONG Wen-chuang1, LIU Liang-liang2, ZHANG Zai-yue1

      (1. School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003,China;

      2. School of Statistics and Information, Shanghai University of International Business and Economics, Shanghai 201620,China)

      Abstract:In view of the short length of questions raised by Baidu users, the conventional space vector-based TF-IDF sentence similarity calculation and the semantic similarity-based sentence similarity calculation are often difficult to perform good similarity calculation. To this end, this paper introduces the idea of problem element and lexical model for the characteristics of short-length question, decomposes the users problems and then combines with the traditional similarity calculation method, and proposes a new similarity calculation method. For questions with a length of less than 20 words, the F1 value is increased by 12% compared to the traditional TF-IDF method.

      Key Words: question element; keyword expansion; TF-IDF; sentence similarity; question and answer system

      0 引言

      隨著信息技術(shù)的快速發(fā)展,各行各業(yè)的數(shù)據(jù)開始出現(xiàn)爆發(fā)式增長,如何從海量數(shù)據(jù)中獲取有效信息成為當(dāng)前重要的研究課題。傳統(tǒng)搜索引擎依據(jù)關(guān)鍵詞和關(guān)鍵字的組合進(jìn)行文檔檢索,但是這種檢索存在諸多弊端。如不能準(zhǔn)確反映用戶意圖,返回結(jié)果是網(wǎng)頁列表,用戶需要篩選才能獲取信息[1]。對于某個(gè)用戶的搜索,在沒有獲得滿意的搜索結(jié)果時(shí),用戶通常會(huì)不斷更換關(guān)鍵詞進(jìn)行檢索,傳統(tǒng)搜索引擎并沒有考慮到短時(shí)間內(nèi)用戶問題的相關(guān)性[2]。針對搜索引擎存在的諸多弊端,問答系統(tǒng)成為當(dāng)今學(xué)術(shù)界的一個(gè)研究熱點(diǎn)。第一批問答系統(tǒng)出現(xiàn)于20世紀(jì)60年代,BasaBall能夠回答美國籃球聯(lián)賽相關(guān)問題[3]。隨著技術(shù)的不斷發(fā)展,出現(xiàn)了各種問答系統(tǒng),主要分為閑聊對話型問答系統(tǒng)、計(jì)算機(jī)視覺問答系統(tǒng)以及社區(qū)問答系統(tǒng)等。

      目前,相似度計(jì)算大體可以分為3個(gè)方面。一是基于詞語粒度的相似度計(jì)算方法,例如基于詞語重疊的方法[4]、空間向量的方法[5]、詞語語義的方法[6-7]。其中,基于詞語重疊的方法采用共現(xiàn)詞的個(gè)數(shù)占整個(gè)句子的比例進(jìn)行計(jì)算;基于空間向量的方法采用傳統(tǒng)的TF-IDF或者Word2vec訓(xùn)練出詞向量之后計(jì)算余弦相似度;基于詞語語義的方法,一般需要借助外部知網(wǎng)、同義詞詞林、本體等技術(shù)進(jìn)行計(jì)算。二是以句法為特征的相似度計(jì)算,例如,李彬等[8]將漢語的依存關(guān)系句法信息融入到問句分析中;Chang等[9]將長句子切分成短句,再進(jìn)行問句分析。三是融合上述兩種方法的混合算法,例如周艷平等[10]提出一種基于同義詞詞林的句子語義相似度方法,通過對詞形、詞序、語義依存相似度加權(quán)結(jié)合獲得句子之間的最終相似度。這些方法雖然取得了一定效果,但仍然受到問答系統(tǒng)性能的影響,不能保持較高計(jì)算精準(zhǔn)度。針對這些問題,結(jié)合百度知道問句的特點(diǎn),本文引入問題和詞模的思想,對句子進(jìn)行分解,進(jìn)而計(jì)算句子相似度,并使用該方法在問答系統(tǒng)中應(yīng)用,驗(yàn)證了該方法的合理性。

      1 相關(guān)技術(shù)

      一個(gè)傳統(tǒng)的問答系統(tǒng),包括對問句的基本處理,如問句的分詞、詞性標(biāo)注、去停用詞等操作。

      1.1 中文分詞

      中文分詞是計(jì)算機(jī)對文本進(jìn)行后續(xù)處理的基礎(chǔ)[11]。中文不同于英文,詞與詞之間沒有空格,故對中文問句的分詞是有別于英文的普通的字符串分割。目前,針對中文的分詞算法大體可以分為3類:第一類是基于字符串匹配的算法,主要包括正向匹配、逆向匹配、最長匹配以及最短匹配[12],為了提升效率,一般以索引表或者Tire樹進(jìn)行存儲(chǔ);第二類是基于統(tǒng)計(jì)的方法,其主要思想是根據(jù)相鄰字的緊密程度進(jìn)行文本分詞,一般可以通過N-gram模型[13]和最大熵模型[14]實(shí)現(xiàn);第三類是基于語義理解的分詞,其模擬人對句子的理解過程,此種方法需要大量的語言學(xué)知識(shí),鑒于漢語知識(shí)的錯(cuò)綜復(fù)雜,目前很難將各種語言直接組織成機(jī)器可以直接讀取的形式。

      1.2 詞性標(biāo)注

      詞性是詞匯的一個(gè)重要屬性,是每個(gè)詞所屬的詞類。詞類是根據(jù)詞匯意義和語法特點(diǎn)對詞進(jìn)行的分類,如名詞、動(dòng)詞、形容詞等。詞性標(biāo)注就是確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其它詞性,并賦予合適的標(biāo)記,為后續(xù)分析提供基本信息。詞性標(biāo)注一般采用序列化標(biāo)注模型,目前比較常見的算法有最大熵模型、HMM模型、CRF模型等[15]。

      1.3 停用詞處理

      停用詞指文檔中高頻出現(xiàn)但是區(qū)分度非常低的詞語。停用詞的存在不僅占存儲(chǔ)空間,也降低了文本中關(guān)鍵詞的價(jià)值。停用詞不僅包括常見的語氣詞,還包括問答系統(tǒng)中用戶提問的客氣用語等。

      停用詞的選擇采用基于詞頻的選擇方法[16],其處理過程為統(tǒng)計(jì)各詞在文檔中的詞頻,然后根據(jù)詞頻和逆文檔頻率進(jìn)行降序排列,選擇排名較高的若干個(gè)詞作為停用詞。

      1.4 中文文本表示模型(空間向量模型)

      空間向量模型首先假設(shè)文本為一個(gè)出現(xiàn)于文本中的詞條所組成的集合,所有詞兩兩獨(dú)立。在建模過程中,通過分詞將文本中的每個(gè)詞條作為特征空間中的一個(gè)維度,利用這樣形成的特征空間將每篇文本表示為一個(gè)向量。具體實(shí)現(xiàn)流程如下:

      設(shè)分詞后所有文檔中詞構(gòu)成的集合為[T={t1,t2,?tN}],所有文檔構(gòu)成的文檔集合為[D={d1,d2,?dM}]。則文檔[di∈D]可通過一個(gè)[N]維向量表示為[(wi1,wi2,?wiN)]。其中[wik][(1kN)]為詞條[tk]在文檔[di]中的權(quán)值,權(quán)值一般表示為某詞條在文檔集中出現(xiàn)頻率的函數(shù),主要計(jì)算方法有TF-IDF函數(shù)、布爾函數(shù)等,最廣為人知的當(dāng)屬TF-IDF函數(shù)。

      TF-IDF中TF為詞頻,表示某一詞條在某一文檔中出現(xiàn)的總次數(shù),詞條[tk]在文檔[di]中的詞頻表示為[freqk,i]。IDF為文檔總數(shù)[n]與包含詞條[tk]的文章數(shù)量[nk]比值的對數(shù)。對于文檔中的詞條[tk],其對應(yīng)的TF-IDF值[tf-idf(tk)] 如式(1)所示。

      其中,[tf-idf(tk)]表示某詞條對于這篇文檔的重要程度。

      1.5 詞的分布式表達(dá)

      詞的分布式表達(dá)即為詞向量,就是用多個(gè)分量表達(dá)文檔中每個(gè)詞條的意義。其基本思想為:首先獲取大規(guī)模的語料,通過對語料的訓(xùn)練將語料中的每個(gè)詞語表示為一個(gè)定長向量。常見的詞向量工具包括Google的Word2vec和Facebook的FastText。

      Word2vec是Google在2013年開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,利用深度學(xué)習(xí)思想,通過訓(xùn)練將對文本內(nèi)容的處理簡化為 K 維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度[17]。

      FastText是facebook開源的一個(gè)詞向量與文本分類工具,在2016年開源,典型應(yīng)用場景是“帶監(jiān)督的文本分類問題”。提供簡單而高效的文本分類和表征學(xué)習(xí)的方法,性能比肩深度學(xué)習(xí)而且速度更快[18]。

      2 相似度計(jì)算

      文本相似度計(jì)算是實(shí)現(xiàn)問答系統(tǒng)的重要一步,通過計(jì)算用戶輸入的問句與知識(shí)庫中每一條知識(shí)所對應(yīng)問題的相似度,返回相似度排名中較為靠前的知識(shí),從而確保答案更加精準(zhǔn)。計(jì)算語句相似度的方法有很多,包括基于統(tǒng)計(jì)的句子相似度計(jì)算、基于語義的句子相似度計(jì)算,以及基于依存關(guān)系的句子相似度計(jì)算。

      2.1 基于統(tǒng)計(jì)的句子相似度計(jì)算

      基于統(tǒng)計(jì)的句子相似度計(jì)算一般采用基于向量空間的TF-IDF句子相似度計(jì)算[19]。依據(jù)上述空間向量模型,將每個(gè)句子表示成一個(gè)空間向量,通過計(jì)算兩個(gè)句子之間空間向量的余弦值,判斷句子是否相似。

      其中,[xi]為句子1中的某個(gè)特征詞的詞向量,[yi]為句子2中某個(gè)特征詞的詞向量。

      2.2 基于語義的相似度計(jì)算

      在問句中,有的詞具有同義詞或近義詞。因此采用基于語義的方法,可以識(shí)別出問句中詞的同義詞或近義詞。使用《同義詞詞林》可以對通用詞匯的同義詞進(jìn)行擴(kuò)展[20]。

      詞典中的每個(gè)詞均用8位編碼表示。兩個(gè)詞的相似度按照如下規(guī)則計(jì)算。

      如果兩個(gè)詞編碼的前k-1(k<7)位相同,但第k位編碼不同,則兩個(gè)詞之間的相似度計(jì)算如式(3)所示。

      如果兩個(gè)詞編碼的第8位都是“#”并且前7位編碼相同,則兩個(gè)詞的相似度如式(4)所示。

      如果兩個(gè)詞編碼的第8位為“=”或者“@”,而前7位編碼相同,則兩個(gè)詞的相似度如式(5)所示。

      計(jì)算兩個(gè)詞之間的相似度,便可進(jìn)一步計(jì)算句子間的相似度。假設(shè)S是用戶提問的句子,[S']是常用問題集中的句子,S中包含的詞分別為[W1W2,?,Wm],[S']中包含的詞分別為[W1'W2',?,Wn'],則可用[sWi,Wj']表示詞[Wi]和[Wj']之間的相似度。句子[S]和[S']的相似度如式(6)所示。

      2.3 基于依存句法的句子相似度計(jì)算

      句法分析是自然語言處理中的關(guān)鍵技術(shù)之一,其基本任務(wù)是確定句子的句法結(jié)構(gòu)或者句子中詞匯之間的依存關(guān)系[21]。句子各成分之間的依存關(guān)系是使用依存句法計(jì)算相似度的要點(diǎn)。在使用詞方法時(shí),為確保簡單和高效,只需計(jì)算有效配對數(shù)之間的相似度。有效配對指全句核心詞和直接依存于它的有效詞組成的搭配對,名詞、動(dòng)詞和形容詞均為有效詞。如式(7)所示。

      其中,[i=1nWi]為句子[S1]、[S2]有效配對匹配的總權(quán)重,[PairCount1]、[PairCount2]分別為句子[S1]、[S2]有效搭配對總數(shù)。

      3 基于詞模與問題元的問句分析

      3.1 概述

      通過對爬取的百度知道用戶問題進(jìn)行研究發(fā)現(xiàn),用戶提出的問題往往符合特定規(guī)范和格式。通過對其進(jìn)行分析,可以將用戶的問句進(jìn)行分解。

      針對長問句,其句子結(jié)構(gòu)比較復(fù)雜,復(fù)雜原因歸于兩點(diǎn):①有描述性現(xiàn)象,回答這種問句需要精確理解這些現(xiàn)象;②有比較復(fù)雜的事件,這些事件有前因、后果,以及不同的經(jīng)過,因此其答案也較為復(fù)雜[22]。

      用戶的長問題還有以下特點(diǎn):①問句長度較長,包含的信息量較大,采用同義詞相似度計(jì)算等方法精度會(huì)較高;②“現(xiàn)象”和“事件”多種多樣,不能窮舉,但“現(xiàn)象”和“事件”的類別卻是有限并可以總結(jié)的,可對這些類型加以識(shí)別。

      3.2 相關(guān)概念

      針對用戶的短問題,結(jié)合本體和問題元,將比較常見的問題進(jìn)行規(guī)范化。為此,引入相關(guān)定義及相關(guān)解釋。

      (1)問題元??梢愿F舉的通用的標(biāo)準(zhǔn)化短問句,一般位于咨詢尾部,其含有一定的變元,所有用戶問題必與一個(gè)問題元相結(jié)合,如表1所示。

      (2)中心詞。一個(gè)事物在句子中處于意思中心的位置,中心詞所涉事件是一個(gè)本體結(jié)構(gòu),有自己的屬性或相關(guān)事項(xiàng),咨詢中也常出現(xiàn)中心詞的一些屬性或相關(guān)事項(xiàng)。

      (3)中心事件現(xiàn)象關(guān)鍵詞。事件是一個(gè)復(fù)雜的過程,但可以將事件進(jìn)行細(xì)粒度的類別劃分,這種事件也是一個(gè)本體結(jié)構(gòu),有發(fā)生的原因、所涉及的對象和事情的結(jié)果等。

      (4)關(guān)系屬性詞。中心詞或中心事件的屬性或相關(guān)事項(xiàng)(如事物的部分、做某事等)。

      中心詞本體詞模:中心詞為一個(gè)事物,該事物對就一個(gè)本體,利用該本體自動(dòng)產(chǎn)生詞模。比較常用的詞模形式為:以事物名為必選項(xiàng),其屬性為可性項(xiàng)。

      (5)中心事件現(xiàn)象關(guān)鍵詞本體詞模。將事件或現(xiàn)象劃分成不同的細(xì)粒度的類后,也要為這些類建立本體。由這些本體生成的詞模稱為中心事件現(xiàn)象關(guān)鍵詞本體詞模[23]。

      通過整理歸納百度知道爬取的問題,對句子模式進(jìn)行歸納,超過80%的用戶問句符合如表2所示問句模式。

      4 基于詞模與問題元的問句算法實(shí)現(xiàn)

      4.1 問題元識(shí)別與擴(kuò)展

      針對上述思想提出了問題元識(shí)別方法。問題元特點(diǎn):①一般位于句子末尾;②含有一定的變元;③是標(biāo)準(zhǔn)化的段語句,也即出現(xiàn)的概率偏大。

      算法1:問題元識(shí)別和擴(kuò)展算法

      1. 分析每個(gè)問句的特點(diǎn),總結(jié)出通用的問題元;

      2. 對用戶的問句進(jìn)行分詞,詞性標(biāo)注以及依存關(guān)系分析;

      3. 對分詞后的結(jié)果,以及依存關(guān)系的分析,獲取可能存在的搭配對;

      4. 通過大量文本,對可能的搭配對,采用Word2Vec工具,得到搭配對的向量化表示;

      5. 返回相似的問題元,作為問題元候選;

      6. 將候選問題元與用戶提問的問題元進(jìn)行相似度計(jì)算,大于一定閾值的問題元作為最終候選問題元。

      問答系統(tǒng)中的問句分類一直是一個(gè)較復(fù)雜的問題,分類粒度的好壞將直接影響對不同類別采取的策略。一般的分類算法僅僅是將問句分為時(shí)間、地點(diǎn)、人物、時(shí)間、數(shù)值、原因、定義、比較等類別,但是這種類別本身其實(shí)并沒有任何實(shí)質(zhì)性的作用。采用問題元方式,可對細(xì)粒度的對語料進(jìn)行總結(jié)歸納。

      當(dāng)用戶的問句沒有匹配到問題元時(shí),采用算法1進(jìn)行問題元擴(kuò)充,進(jìn)而作后續(xù)處理。

      4.2 中心詞識(shí)別

      正確識(shí)別出中心詞,對于確定問句的主體至關(guān)重要。通過分析問句可知,中心詞與其位置有著密切關(guān)系,在中文問題中,中心詞的語法結(jié)構(gòu)較靈活。中文問題里中心詞的語義角色可能為:①疑問詞的修飾語;②當(dāng)疑問詞包含在賓語中時(shí),整個(gè)問句的主語是中心詞;③當(dāng)疑問詞包含在主語中時(shí),整個(gè)問句的賓語是中心詞。

      中心詞的選取準(zhǔn)則:①中心詞不能是停用詞;②中心詞不能是疑問詞;③高頻詞優(yōu)先、名詞優(yōu)先。

      算法2:中心詞識(shí)別算法

      輸入:用戶的問句[Si={x1,x2,?,xN}]

      輸出:中心詞集合

      過程:

      1. 構(gòu)建疑問詞詞典,停用詞詞典;

      2. 用戶輸入問句,系統(tǒng)將輸入問句進(jìn)行去除標(biāo)點(diǎn)符號、去除停用詞和分詞處理;

      3. 對問句進(jìn)行詞性標(biāo)注;

      4. 遍歷詞性為N的詞語作為中心語候選;

      5. 過濾掉疑問詞和停用詞;

      6. 計(jì)算該詞語的TF-IDF值,返回上述TF-IDF值較大的候選詞作為中心詞,如果是比較問題,則返回的是中心詞集合。

      4.3 中心詞擴(kuò)展

      由于漢語語言的復(fù)雜性,一個(gè)類似的含義往往可以有多種表達(dá),而中心詞可以采用《同義詞詞林》進(jìn)行中心詞擴(kuò)展,這樣可以提高匹配結(jié)果[24]。

      算法3:中心詞擴(kuò)展

      1. 利用《同義詞詞林》擴(kuò)展板得到初始查詢中心詞[Ti]的同義詞集合為[Ti(ti1,ti2,?,tin)];

      2. 利用基于《知網(wǎng)》詞語相似度算法計(jì)算出初始查詢術(shù)語[ti]和集合[Ti]中每個(gè)[tij]的詞語相似度[Sim(ti,tij)]。選擇相似度大于閾值[α]的詞語作為[ti]的同義詞,小于閾值[α]的詞語直接刪除,將符合條件的[tij]組成集合[Ti'](0.7<=[α]<-1);

      3. 最后得到集合[Ti'={t'i1,t'i2,?,t'im}], [Ti']即為選取的中心詞[ti]的同義擴(kuò)展詞的集合。

      4.4 改進(jìn)后的相似度計(jì)算

      最后對上述算法進(jìn)行整合,提出與傳統(tǒng)相似度算法相結(jié)合的算法。

      算法4:多相似度計(jì)算算法融合

      1. 首先對問句進(jìn)行問題元識(shí)別,如果識(shí)別到問題元,則轉(zhuǎn)向3;

      2. 采用算法1,對問題元進(jìn)行擴(kuò)展;

      3. 采用算法2,對中心詞進(jìn)行識(shí)別;

      4. 采用算法4,對中心詞進(jìn)行擴(kuò)展;

      5.相似度計(jì)算,[Sim(S1,S2)=λ1*Sim1(S1,S2)+λ2*Sim2(S1,][S2)+λ3*Sim3(S1,S2)]

      其中,[λ1+λ2+λ3=1],[Sim1(S1,S2)]是采用基于向量空間的TF-IDF句子相似度計(jì)算,[Sim2(S1,S2)]是采用詞向量計(jì)算問題元之間的相似度,[Sim3(S1,S2)]采用同義詞詞林計(jì)算句子相似度。

      5 實(shí)驗(yàn)

      本文采用的數(shù)據(jù)集為百度問答公開的數(shù)據(jù)集以及通過爬取百度知道擴(kuò)展的問題答案對,共包括16 843個(gè)問題答案對。

      5.1 知識(shí)庫建立

      網(wǎng)絡(luò)爬蟲是按照一定規(guī)則,自動(dòng)抓取萬維網(wǎng)信息的程序或腳本。實(shí)現(xiàn)原理為:深度遍歷網(wǎng)站資源,分析網(wǎng)站的URL并提交Http請求,然后將網(wǎng)頁抓取到本地,生成本地文件及相應(yīng)的日志信息等。常用的開源網(wǎng)絡(luò)爬蟲有Nutch、Larbin和Heritrix。將文檔進(jìn)行xPath解析,得到問題答案對,存入知識(shí)庫中。

      5.2 知識(shí)庫解析

      對上述爬取的問題答案對,在保留問題答案對的同時(shí),將問題依據(jù)上文詞模方法進(jìn)行解析,分解成問題元、中心詞、關(guān)系詞等。

      例如:{‘A_問題:‘鈦精礦含量可不可能達(dá)到72%,求解答?,

      --中心詞:鈦精礦 關(guān)系詞:含量 問題元:是否能達(dá)到比例(*%)

      {‘A_問題:‘我的手機(jī)是波導(dǎo)i800的,又個(gè)java還有個(gè)至尊寶3g平臺(tái),不是安卓的,可以刷機(jī)嗎?,

      --中心詞:手機(jī){波導(dǎo)i800、java、3g、非安卓系統(tǒng)} 問題元:是否可以(手機(jī),刷機(jī))

      {‘A_問題:‘求幾本好的武俠小說,要類似金庸的,

      --中心詞:武俠小說{類似金庸} 問題元:請求介紹

      5.3 數(shù)據(jù)查詢

      對上述問題模式及其構(gòu)成進(jìn)行識(shí)別后,查詢相關(guān)知識(shí)庫,如表3所示。

      5.4 評估標(biāo)準(zhǔn)

      5.4.1 查詢率(Precision)

      [S]表示知識(shí)問答對,[TN(S)]表示問答系統(tǒng)返回知識(shí)中正確答案的個(gè)數(shù),[RN(S)]表示問答系統(tǒng)返回所有答案的個(gè)數(shù)。問答系統(tǒng)查準(zhǔn)率如式(8)所示。

      5.4.2 查全率(Recall)

      [S]表示知識(shí)庫問答對,[TN(S)]表示問答系統(tǒng)返回知識(shí)中正確答案的個(gè)數(shù),[AN(S)]表示問答系統(tǒng)中所有正確答案的個(gè)數(shù)。問答系統(tǒng)查全率如式(9)所示。

      5.4.3 F1-Measure

      [P(S)]表示問答系統(tǒng)的查準(zhǔn)率,[R(S)]表示問答系統(tǒng)的查全率。問答系統(tǒng)F1-Measure如式(10)所示。

      用戶在系統(tǒng)內(nèi)輸入所要搜索的問題,問答系統(tǒng)將用戶輸入的問句與知識(shí)庫中的問句進(jìn)行相似度計(jì)算,并將相似度大于閾值的知識(shí)庫問句對應(yīng)的答案返回給用戶,由用戶判斷返回答案中正確答案的個(gè)數(shù),匹配相似度最高的3個(gè)問句。

      5.5 實(shí)驗(yàn)結(jié)果及分析

      通過對比表4實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),對于短文本的用戶問題,本文方法相對于傳統(tǒng)TF-IDF空間向量模型有一定提升。但是隨著問句長度的增加,問句中包含的信息量越來越大,在性能上差距會(huì)越來越小。

      本文通過爬取“百度知道”真實(shí)的問題和答案對,構(gòu)建數(shù)據(jù)集,并對其中的問題模式進(jìn)行研究,引入問題元和本體相關(guān)概念。一個(gè)短的問題往往是中心詞加上問題元,一個(gè)長的問題往往是一個(gè)復(fù)雜的事件加上中心詞和問題元,通過對問句進(jìn)行分解,對問句的相似度算法進(jìn)行改進(jìn),有效提高了問答系統(tǒng)返回結(jié)果的F1值。但該方法存在一大不足,即前期需要使用大量人力去歸納總結(jié)問句模式以及常見問題元,這有待后續(xù)研究解決。

      參考文獻(xiàn):

      [1] 于甜甜. 基于語義樹的語句相似度和相關(guān)度在問答系統(tǒng)中的研究[D]. 濟(jì)南:山東財(cái)經(jīng)大學(xué),2014.

      [2] 劉里,曾慶田. 自動(dòng)問答系統(tǒng)研究綜述[J]. 山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(4):73-76.

      [3] 鄭實(shí)福,劉挺,秦兵,等. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào),2002(6):46-52.

      [4] 鐘敏娟,萬常選,劉愛紅,等. 基于詞共現(xiàn)模型的常問問題集的自動(dòng)問答系統(tǒng)研究[J]. 情報(bào)學(xué)報(bào), 2009,28(2):242-247.

      [5] LEGRAND J,COLLOBERT R. Joint RNN-based greedy parsing and word composition[J]. Computer Science,2014.

      [6] 郜強(qiáng). 基于語義詞語相似度計(jì)算模型的研究與實(shí)現(xiàn)[D]. 西安:西安電子科技大學(xué),2011.

      [7] 張新旭. 基于本體相似度的語義Web服務(wù)匹配算法研究[D]. 成都:電子科技大學(xué),2013.

      [8] 李彬,劉挺,秦兵,等. 基于語義依存的漢語句子相似度計(jì)算[J]. 計(jì)算機(jī)應(yīng)用研究,2003, 20(12):15-17.

      [9] CHANG J W, LEE M C, WANG T I, et al. Using grammar patterns to evaluate semantic similarity for short texts[C]. 2012 8th International Conference on Computing Technology and Information Management (NCM and ICNIT),2012.

      [10] 周艷平,李金鵬,蔡素. 基于同義詞詞林的句子語義相似度方法及其在問答系統(tǒng)中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(8):65-68,81.

      [11] 黃昌寧,趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào),2007(3):8-19.

      [12] 常建秋,沈煒. 基于字符串匹配的中文分詞算法的研究[J]. 工業(yè)控制計(jì)算機(jī),2016,29(2):115-116,119.

      [13] 秦健.? N-gram技術(shù)在中文詞法分析中的應(yīng)用研究[D]. 青島:中國海洋大學(xué),2009.

      [14] 于江德,王希杰,樊孝忠. 基于最大熵模型的詞位標(biāo)注漢語分詞[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2011,43(1):70-74.

      [15] 蘇勇. 基于理解的漢語分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué),2011.

      [16] 梁喜濤,顧磊. 中文分詞與詞性標(biāo)注研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(2):175-180.

      [17] 化柏林. 知識(shí)抽取中的停用詞處理技術(shù)[J]. 現(xiàn)代圖書情報(bào)技術(shù),2007(8):48-51.

      [18] 李曉,解輝,李立杰. 基于Word2vec的句子語義相似度計(jì)算研究[J]. 計(jì)算機(jī)科學(xué),2017,44(9):256-260.

      [19] 代令令. 基于fastText的問答系統(tǒng)用戶意圖識(shí)別與關(guān)鍵詞抽取研究[D]. 南寧:廣西大學(xué),2018.

      [20] 武永亮,趙書良,李長鏡,等. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學(xué)報(bào),2017,31(5):138-145.

      [21] 趙蔚. 基于同義詞詞林的詞語相似度計(jì)算方法[J]. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608.

      [22] 吳佐衍,王宇. 基于HNC理論和依存句法的句子相似度計(jì)算[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(3):97-102

      [23] 劉小明,樊孝忠,劉里. 融合事件信息的復(fù)雜問句分析方法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011,39(7):140-145.

      [24] 張克亮,李偉剛,王慧蘭. 基于本體的航空領(lǐng)域問答系統(tǒng)[J]. 中文信息學(xué)報(bào),2015, 29(4):192-198.

      [25] 劉茂福,周斌,胡慧君,等. 問答系統(tǒng)中基于維基百科的問題擴(kuò)展技術(shù)研究[J]. 工業(yè)控制計(jì)算機(jī), 2012,25(9):101-103.

      (責(zé)任編輯:孫 娟)

      砀山县| 晴隆县| 兴业县| 海兴县| 彭山县| 泸定县| 平和县| 静海县| 延寿县| 司法| 邵武市| 隆安县| 鄢陵县| 铁岭市| 长乐市| 凤城市| 佛学| 吴桥县| 隆化县| 柳州市| 增城市| 博爱县| 宜州市| 荣成市| 百色市| 马尔康县| 孟津县| 梨树县| 昭苏县| 遵化市| 曲阜市| 临江市| 安福县| 东乌珠穆沁旗| 大兴区| 江永县| 呼图壁县| 泌阳县| 古田县| 团风县| 巩义市|