• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      VSM在旅游自動(dòng)問(wèn)答系統(tǒng)中的應(yīng)用研究

      2019-09-10 21:13:51歐陽(yáng)林艷
      關(guān)鍵詞:權(quán)值文檔準(zhǔn)確率

      歐陽(yáng)林艷

      向量空間模型VSM是一種文本相似度比較算法,在自然語(yǔ)言處理領(lǐng)域有著十分重要的作用。自動(dòng)問(wèn)答系統(tǒng)作為自然語(yǔ)言處理的一個(gè)應(yīng)用領(lǐng)域,可以根據(jù)用戶問(wèn)題,將用戶問(wèn)題與問(wèn)答庫(kù)中的問(wèn)題進(jìn)行相似度比較,找出相似度最高的問(wèn)題,檢索出其對(duì)應(yīng)的答案,作為對(duì)用戶的回答。采用向量空間模型VSM算法來(lái)進(jìn)行相似度計(jì)算,能較好地解決這一類型的問(wèn)題。

      1 自動(dòng)問(wèn)答系統(tǒng)

      自動(dòng)問(wèn)答系統(tǒng)(Question Answering System,QAS)是自然語(yǔ)言處理的一個(gè)重要應(yīng)用領(lǐng)域,成為當(dāng)前信息處理中的一個(gè)十分熱門的話題。所謂問(wèn)答(Question Answering ,QA),是指針對(duì)用戶以自然語(yǔ)言方式提出的問(wèn)題(Q),從文檔集合DS={d1,d2,…dn}中,找出簡(jiǎn)短精確的答案(A)的過(guò)程。自動(dòng)問(wèn)答系統(tǒng)能夠根據(jù)用戶的自然語(yǔ)言提問(wèn),從知識(shí)庫(kù)中抽取一個(gè)比較符合用戶所提問(wèn)題的答案,從而很好地回答用戶問(wèn)題,而不再像傳統(tǒng)的信息檢索只提供與關(guān)鍵詞相關(guān)的信息列表。大規(guī)模文本處理技術(shù)的日趨成熟也成為推動(dòng)問(wèn)答系統(tǒng)實(shí)現(xiàn)的強(qiáng)大力量。

      自動(dòng)問(wèn)答系統(tǒng)的處理步驟:

      (1)輸入問(wèn)題;

      (2)通過(guò)計(jì)算從數(shù)據(jù)庫(kù)中找出與用戶問(wèn)題相近的問(wèn)題;

      (3)根據(jù)數(shù)據(jù)庫(kù)中的“問(wèn)答對(duì)”找出與之匹配的答案;

      (4)將該答案反饋給用戶,作為其需要的答案。

      而其中,如何找出與用戶問(wèn)題最相近的數(shù)據(jù)庫(kù)中的問(wèn)題則成為了一個(gè)核心的問(wèn)題,要進(jìn)行相近問(wèn)題的尋找,就必須采用合適的相似度計(jì)算方法進(jìn)行計(jì)算。

      2向量空間模型VSM

      向量空間模型(VSM)是20世紀(jì)60年代末由Gerard Salton等人提出的,在Smart檢索系統(tǒng)中有進(jìn)行應(yīng)用。該模型的設(shè)計(jì)思想是:將要比較的文檔看成是空間中的兩個(gè)向量,要判斷兩個(gè)文檔的相似程度,則只要計(jì)算這兩個(gè)“向量”之間的內(nèi)積,內(nèi)積越小,說(shuō)明兩個(gè)文檔的相似程度越低;反之亦然。兩個(gè)文檔D1與D2之間的相關(guān)程度(Degree of Relevance)常常用它們之間的相似度Sim(D1,D2)來(lái)度量。

      其中W表示的是每篇文檔中每個(gè)項(xiàng)對(duì)應(yīng)的權(quán)值。權(quán)值主要指的是在整個(gè)文檔中,該項(xiàng)所攜帶的信息量的多少。在VSM算法中,定義每個(gè)項(xiàng)的權(quán)值則成為了一個(gè)重要問(wèn)題。

      3 TF-IDF算法

      TF-IDF(Term Frequency–Inverse Document Frequency)算法是一種比較實(shí)用的權(quán)值定義算法,它是利用統(tǒng)計(jì)學(xué)原理,來(lái)評(píng)價(jià)一個(gè)字或者是詞語(yǔ)對(duì)于文檔集中某個(gè)文檔的重要性。在TF-IDF算法中,權(quán)值可以表示為如公式2所示:

      tfik表示項(xiàng)Tk在文檔Di中的文檔內(nèi)頻數(shù),idfk表示項(xiàng)Tk的反比文檔頻數(shù),其中idfk的計(jì)算一般采用idfk=log(N/nk)。N表示文檔集中文檔數(shù)量,nk表示項(xiàng)Tk的文檔頻數(shù)。

      如果包含項(xiàng)Tk的文檔越多,也就是nk越大,idfk越小,則說(shuō)明項(xiàng)Tk類別區(qū)分能力不強(qiáng),反之,則說(shuō)明項(xiàng)Tk具有很好的區(qū)分能力。除此之外,文檔的長(zhǎng)度也是必須考慮的因素,因?yàn)樵谖覀冞@種計(jì)算的情況下,如果某個(gè)文檔越長(zhǎng),那么它被檢索到的可能性也就越大。因此,通過(guò)對(duì)上式進(jìn)行歸一化處理,得到如公式3所示:

      4 VSM在自動(dòng)問(wèn)答系統(tǒng)中的應(yīng)用

      根據(jù)VSM相似度計(jì)算方法,以及自動(dòng)問(wèn)答系統(tǒng)本身的特點(diǎn),設(shè)計(jì)的自動(dòng)問(wèn)答系統(tǒng)架構(gòu)體系如圖1,其核心主要包含預(yù)處理、問(wèn)題檢索以及答案抽取。

      4.1問(wèn)題預(yù)處理

      4.1.1詞的切分

      利用中科院分詞系統(tǒng)ICTCLAS將用戶輸入的問(wèn)句以及問(wèn)答庫(kù)中的問(wèn)題進(jìn)行分詞。對(duì)問(wèn)句進(jìn)行關(guān)鍵詞語(yǔ)的提取,這樣的好處是區(qū)分用戶問(wèn)句所關(guān)心的主題是什么,實(shí)際上也是提取主題關(guān)鍵詞。關(guān)鍵詞詞典是一個(gè)有著相同或相似意義的詞的聚類,可降低模板的復(fù)雜度,提高了詞的重用性。同時(shí)在旅游問(wèn)答庫(kù)進(jìn)行分類預(yù)處理,把相同類的問(wèn)題放在一起,這樣在把用戶問(wèn)句與知識(shí)庫(kù)中問(wèn)題進(jìn)行比較的時(shí)候就避免了盲目比較和多余計(jì)算。

      4.1.2 TF、IDF與權(quán)值的計(jì)算

      按照TF、IDF的計(jì)算方法,將分詞后每個(gè)問(wèn)題的每個(gè)詞語(yǔ)其TF、IDF計(jì)算出來(lái),如“西安/有/哪些/景點(diǎn)”,則該問(wèn)題中每個(gè)詞語(yǔ)的TF均為1/4,每個(gè)IDF的值取決于兩個(gè)因素:整個(gè)問(wèn)題集的個(gè)數(shù),以及該詞語(yǔ)在整個(gè)問(wèn)題集中出現(xiàn)的次數(shù)。從而根據(jù)這兩個(gè)數(shù)據(jù)計(jì)算出初步的N/nk,假設(shè)“西安”只出現(xiàn)3次,則nk為3,而整個(gè)問(wèn)題集為300個(gè),則其N/nk的值為100。從而將每個(gè)問(wèn)題的TF、IDF計(jì)算出來(lái),并計(jì)算出每個(gè)詞語(yǔ)的權(quán)值w,保存在數(shù)據(jù)庫(kù)中。

      當(dāng)問(wèn)答庫(kù)中的問(wèn)題有更新時(shí),再重新計(jì)算TF、IDF以及w,保證每次后續(xù)計(jì)算相似度時(shí)都是最新狀態(tài)的數(shù)據(jù)。

      4.2問(wèn)題相似度計(jì)算

      當(dāng)在用戶界面輸入用戶問(wèn)題時(shí),系統(tǒng)將用戶問(wèn)句與知識(shí)庫(kù)中的問(wèn)題進(jìn)行相似度比較,采用VSM算法進(jìn)行文本相似度計(jì)算以及文本特征的提取。具體計(jì)算步驟如圖2。

      在這個(gè)算法計(jì)算過(guò)程中,文檔中的項(xiàng)的順序沒(méi)有進(jìn)行考慮,僅僅考慮的是文檔的各項(xiàng)的權(quán)值。對(duì)數(shù)據(jù)值進(jìn)行分析可知,一個(gè)詞語(yǔ)在一個(gè)文檔中不出現(xiàn),或者在文檔集每一個(gè)文檔中都出現(xiàn),其對(duì)于文本區(qū)分的貢獻(xiàn)都為0。

      4.3答案抽取

      答案抽取是問(wèn)答系統(tǒng)的最后階段,這一階段主要利用相似度值進(jìn)行。

      (1)按相似度值高低進(jìn)行庫(kù)中相關(guān)問(wèn)題排序,將與用戶問(wèn)題相似度最高的問(wèn)答表中的問(wèn)題排在最前面。如用戶問(wèn)題:“什么時(shí)候去太白山比較適合”,算得與其相似度最高的值對(duì)應(yīng)的問(wèn)題是:“太白山適合什么時(shí)候去”,則將這個(gè)問(wèn)題排在最前面。

      (2)選出相似度值最高的問(wèn)題,這個(gè)問(wèn)題對(duì)應(yīng)的答案也就是最貼近用戶問(wèn)題的答案。在數(shù)據(jù)庫(kù)中“太白山適合什么時(shí)候去”對(duì)應(yīng)的答案是“5月到10月”那么這個(gè)答案也就是回答用戶問(wèn)題“什么時(shí)候去太白山比較適合”的最佳答案。

      5實(shí)驗(yàn)評(píng)測(cè)與分析

      目前,對(duì)于一個(gè)問(wèn)答系統(tǒng)的答案抽取效果評(píng)測(cè)有兩個(gè)指標(biāo):準(zhǔn)確率(Precision)與召回率(Recall)。對(duì)于這兩個(gè)評(píng)測(cè)指標(biāo)來(lái)說(shuō),不是所有的用戶需要兩個(gè)指數(shù)都要高,或者說(shuō)在一般情況下,準(zhǔn)確率和召回率雙高并不是一件容易之事。對(duì)于需要結(jié)果集較小的用戶來(lái)說(shuō),比較偏向于高準(zhǔn)確率,而對(duì)于需要較大結(jié)果集的用戶來(lái)說(shuō),則偏向于高召回率。

      本自動(dòng)問(wèn)答系統(tǒng)通過(guò)實(shí)驗(yàn)評(píng)測(cè),每類采用100個(gè)問(wèn)題進(jìn)行測(cè)試,通過(guò)測(cè)試,本系統(tǒng)的準(zhǔn)確率結(jié)果見表1。

      從上表結(jié)果來(lái)看,VSM算法能檢索出較為準(zhǔn)確的答案,定義型的準(zhǔn)確率要高于其他幾種類型,這是因?yàn)槎x型的問(wèn)題比較簡(jiǎn)單,并且在最初用關(guān)鍵詞對(duì)問(wèn)題進(jìn)行分類,而只在特定的范圍來(lái)進(jìn)行抽取,這樣防止了其他問(wèn)題干擾,因而提高了準(zhǔn)確率。同時(shí),采用了同義詞表,這也是提高準(zhǔn)確率的原因之一。而關(guān)系型相對(duì)準(zhǔn)確率較低,這個(gè)主要因素是問(wèn)答庫(kù)中數(shù)據(jù)不夠全面引起,問(wèn)題中各要素之間的關(guān)系也較為復(fù)雜,因而要不斷擴(kuò)充和完善問(wèn)答庫(kù),將問(wèn)題進(jìn)行結(jié)構(gòu)化處理,來(lái)提高回答問(wèn)題的準(zhǔn)確度。

      6結(jié)束語(yǔ)

      向量空間模型VSM的優(yōu)點(diǎn)在于它把文檔內(nèi)容進(jìn)行了一定的簡(jiǎn)化,將其表示為一些特征項(xiàng)的形式及其權(quán)值的向量,把對(duì)文檔內(nèi)容的處理轉(zhuǎn)化為向量空間中的向量運(yùn)算,從而很大程度上降低了問(wèn)題的復(fù)雜度。但是,在有的情況下,簡(jiǎn)化過(guò)多通常會(huì)影響對(duì)于文檔內(nèi)容的理解,而丟失在自然語(yǔ)言理解中十分重要的信息。在文本相似度計(jì)算的過(guò)程中,由于考慮的僅是項(xiàng)的一些統(tǒng)計(jì)信息,未必能很客觀地反應(yīng)項(xiàng)的重要性,故在分析過(guò)程中有時(shí)會(huì)存在一定的偏差。因此除了計(jì)算方法上的應(yīng)用以外,將問(wèn)答庫(kù)中數(shù)據(jù)進(jìn)行分類,設(shè)計(jì)知識(shí)庫(kù)中近義詞庫(kù),進(jìn)行必要的轉(zhuǎn)換,并進(jìn)行問(wèn)題的結(jié)構(gòu)化處理,也是提高系統(tǒng)效率和準(zhǔn)確率的方法之一。

      【參考文獻(xiàn)】

      [1]文勖.中文問(wèn)答系統(tǒng)中問(wèn)題分類及答案候選句抽取的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

      [2]黃新,徐小娟.基于ontology的智能答疑系統(tǒng)的研究[J].科學(xué)技術(shù)與工程,2007,7(12):3001-3003.

      [3]張江濤,杜永萍.基于語(yǔ)義鏈的檢索在QA系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(2):257-260,300

      [4]張華平,劉群.基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J].中文信息學(xué)報(bào),2002,16(5):1-7.

      [5]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2007.

      [6]G.Salton,M.E.Lesk.Computer Evaluation of Indexing and Text Processing[J].Journal of the ACM,1968,15(1):8-36.

      [7]劉亮亮,林樂(lè)宇.基于查詢模板的特定領(lǐng)域中文問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,25(2):163-168.

      猜你喜歡
      權(quán)值文檔準(zhǔn)確率
      一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
      有人一聲不吭向你扔了個(gè)文檔
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      CONTENTS
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      永泰县| 聂荣县| 嫩江县| 武冈市| 滨海县| 竹北市| 临海市| 同江市| 潮州市| 绍兴市| 武川县| 峨眉山市| 界首市| 安新县| 乡宁县| 柏乡县| 无为县| 文山县| 千阳县| 松滋市| 祥云县| 仁布县| 紫云| 剑河县| 友谊县| 衡阳县| 陇川县| 东光县| 育儿| 芒康县| 江陵县| 天祝| 项城市| 凤阳县| 林口县| 区。| 娱乐| 安庆市| 昭通市| 万年县| 和平区|