• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      問答系統(tǒng)中問句分類算法研究

      2015-05-30 10:48:04陳玉
      軟件工程 2015年11期

      陳玉

      摘 要:近年來,問答系統(tǒng)被大量廣泛的研究,問答系統(tǒng)的目標是給定一個問題,能夠得到簡短精確的答案;而問句分類在問答系統(tǒng)中有著重要的作用,為此本文用樸素貝葉斯算法對問句分類做了一定的研究。從實驗結(jié)果來看,該方法在實際應(yīng)用中取得了較好的效果。

      關(guān)鍵詞:問答系統(tǒng);問句分類;樸素貝葉斯

      中圖分類號:TP391 文獻標識碼:A

      1 引言(Introduction)

      傳統(tǒng)網(wǎng)絡(luò)搜索引擎通過輸入關(guān)鍵字來查找所需信息,如百度、谷歌等搜索引擎,關(guān)鍵字搜索往往缺乏語義性,其搜索結(jié)果只是一些相關(guān)網(wǎng)頁;相比而言,問答系統(tǒng)(Question Answering System)允許用戶輸入自然語言問句,并最終提交給用戶簡潔而準確的結(jié)果;問答系統(tǒng)主要由幾部分構(gòu)成:問題語法解析、問題分類、搜索引擎、語料解析、答案選擇及答案排序等。問答系統(tǒng)大致分為定型問答系統(tǒng)和開放域問答系統(tǒng)兩種。

      定型問答系統(tǒng)在受限領(lǐng)域內(nèi)表現(xiàn)較好。而開放域問答系統(tǒng)要對來自任何領(lǐng)域的提問都能夠提供答案,為此,需用自然語言處理方法來提取答案[1]。設(shè)計開放域問答系統(tǒng)的難點在于系統(tǒng)需要處理問句的大跨度性;問句有可能是涉及命名實體的,問句也有可能涉及復(fù)雜事件或情況。基于開放域問答系統(tǒng)的特點,所以問句分類在其中起著重要的前提作用,正確合理的分類對問答系統(tǒng)結(jié)果的準確性有著重要的影響。

      2 問句正確分類的意義(The significance of question

      correct classification)

      2.1 問句的正確分類可以有效確定候選的答案的數(shù)量

      例如當問答系統(tǒng)的問句是“中國的首都在哪里?”,通過問句的具體分類算法處理,知道該問句主要是問及關(guān)于地名的命名實體,所以問答系統(tǒng)在后續(xù)處理中只要去關(guān)注一些有關(guān)地名的相關(guān)答案即可,而沒必要去關(guān)注無關(guān)的候選語料。

      2.2 問句的合適分類可以確定候選答案的類型

      問答系統(tǒng)中的問句種類繁雜,提前確定不同的問句類型,可以在候選答案的處理中明確問句的具體類型。如:問句“美國第一人總統(tǒng)是誰?”,根據(jù)問句分類,問答系統(tǒng)知道只要處理與人名相關(guān)的語料即可。再如:問句“什么是互聯(lián)網(wǎng)?”,這類問句系統(tǒng)不可能用一個簡短的答案回答,而應(yīng)該返回給用戶一段描述性的文字。

      上述例句說明,對于不同的問句類型,我們使用不同的答案選擇策略,一個好的問句分類算法能夠有效改善問答系統(tǒng)的性能。

      2.3 問句的詳細分類可以在語義上確定候選答案的類型

      問句的詳細分類可以在語義上細化答案的抽取。如:問句“獲得諾貝爾獎的中國人是誰?”及問句“2015年獲得諾貝爾獎的中國人是誰?”,這兩個問句由于在時間上有區(qū)別,系統(tǒng)返回的答案也會有明顯的區(qū)別,如果在問句的分類算法上進一步的細化,那么就可以使系統(tǒng)的返回答案更加準確。

      3 問句分類算法(The algorithm of question

      classification)

      目前對于問句分類的研究一般都是借鑒文本分類的思想,結(jié)合問句分類本身的特征進行的。如果沒有問句分類,則會對問答系統(tǒng)的性能產(chǎn)生很大的影響。

      3.1 各類算法介紹

      自然語言處理中,常用統(tǒng)計分類算法主要有:樸素貝葉斯算法、聚類分類算法、K近鄰法、神經(jīng)網(wǎng)絡(luò)算法及決策樹分類算法[2]。

      樸素貝葉斯分類算法是由貝葉斯決策理論發(fā)展而來的,是現(xiàn)在比較熱門的一個分類方法,樸素貝葉斯分類法是假定被分類對象的特征項是相互獨立的,相對于問句分類來說,就是問句中的詞是相互獨立的。聚類方法屬于無監(jiān)督分類法,聚類的核心思想是被分類對象的相似性,聚類主要是根據(jù)對象的距離進行測度。K近鄰法主要通過構(gòu)造kd樹來提高對訓練數(shù)據(jù)的搜索速度,而傳統(tǒng)的線性掃描法面對大的訓練數(shù)據(jù)時,則會在時間復(fù)雜度上變大。神經(jīng)網(wǎng)絡(luò)算法具有較好的容錯能力和自適應(yīng)學習能力,對數(shù)據(jù)中的噪聲和數(shù)據(jù)的一些變形具有較好的抵抗能力,并具有較快速的分類處理能力。決策樹分類法計算復(fù)雜度相對較低,對不相關(guān)特征數(shù)據(jù)的處理有優(yōu)勢,分類結(jié)果直觀,但有時會產(chǎn)生過度匹配的問題。

      本文中的問句分類主要是依據(jù)樸素貝葉斯算法,具體將每一用戶問句中的各個分詞單元作為條件獨立的特征項,通過樸素貝葉斯算法計算概率最大的分類結(jié)果,同時既可確定用戶問句類型。

      3.2 具體分類算法基礎(chǔ)

      為了能夠?qū)柎鹣到y(tǒng)中的問句分類,我們定義了問答系統(tǒng)中的問句類型分為7類,即人物、空間、時間、數(shù)量、組織及其他。每個大類又進行了進一步的細分,一共形成了45個細的類別。

      樸素貝葉斯算法是由傳統(tǒng)貝葉斯定理和特征屬性相互獨立的前提下演變而來的。根據(jù)訓練樣本集,先計算每個分類的先驗概率,最后再根據(jù)貝葉斯公式及條件概率轉(zhuǎn)換關(guān)系計算后驗概率的最大值。

      (1)設(shè)屬于,訓練樣本集的分類,是和的聯(lián)合概率分布。訓練樣本集由特征屬性相互獨立而得。

      (2)在條件概率獨立的基礎(chǔ)上,樸素貝葉斯法又對條件特征項作了獨立性的假設(shè),于是得到:

      (1)

      分類特征項在條件獨立假定的基礎(chǔ)上,會使樸素貝葉斯公式變得容易計算,不過有時候這在一定程度上會影響到分類結(jié)果的合理性。

      樸素貝葉斯算法的具體計算過程為,在已知的特征條件各特征屬性獨立的基礎(chǔ)上,通過計算,最后取概率最大的特征輸入量,計算得:

      (2)

      將式(1)代入式(2)得:

      (3)

      在式(3)中,分母對所有都是相同的,所以

      (4)

      本文根據(jù)樸素貝葉斯思想,設(shè)定系統(tǒng)中用戶問句里的各個詞之間是相互獨立的,詞之間不存在語義聯(lián)系,同時也不考慮詞之間的順序。

      具體如用戶輸入問句,“誰發(fā)明了電燈?”,那么問答系統(tǒng)對問句進行分詞和詞性標注處理后,上述問句形式上變成“誰/r發(fā)明/v了/u電燈/n”,本算法中假設(shè)問句中詞與詞之間不存在任何關(guān)系,本算法就是要在系統(tǒng)問句庫中查找和用戶所提問句最接近的問句,用式(4)可具體將各變量解釋為:表示問句庫中的某一問句,表示用戶所提問句的中的某一個詞,如:誰、發(fā)明、電燈;同時問了降低系統(tǒng)的計算復(fù)雜度,本文將式(4)簡化為:

      (5)

      3.3 具體算法步驟如下:

      (1)依次計算在中出現(xiàn)的類型,具體用表示。

      (2)計算

      其中表示問句庫總的問句數(shù)量,加入0.5是為了避免結(jié)果為0。

      (3)最后計算得出用戶問句類型。

      4 結(jié)論(Conclusion)

      本文通過構(gòu)建本地問句的樣本句庫和測試句庫對算法進行了驗證,其中樣本句庫包括2000句,測試句庫包括200句,最后總體測試準確率可以達到64%。對于樣本句庫中含有較多實例的問句類型,由于問句類型的特征信息比較豐富,因此屬于這些類型的問句分類相對比較準確。而對于樣本句庫中含有較少實例的問句類型,會造成這一類的問句分類準確率偏低[3]。

      本文對用戶問句進行分類主要采用了樸素貝葉斯算法,通過假定用戶問句特征詞項相互獨立、無關(guān)的特性,不僅簡化了運算過程,同時也取得了很好的問句分類效果,總體上改善了開放域問答系統(tǒng)的性能,不過由于開放域問答系統(tǒng)所涉及領(lǐng)域的廣泛性,系統(tǒng)算法還有待于更多用戶問句的驗證,以及嘗試并使用其他有效的算法來改進問句的分類。

      參考文獻(References)

      [1] Agichtein E,Lawrence S,Gravano L.Learning to find answers

      to questions on the Web[J].ACM Transactions on Internet

      Technology,2004,4(2):129-162.

      [2] Clarke C,et al.Question answering by passage selection(multitext

      experiments for TREC-9)[C]//Proceedings of the 9th Text

      Retrieval Conference(TREC-9),2000.

      [3] Cody Kwok,Oren Etzioni and Daniel S.Weld.Scaling Question

      Answering to the Web[J].ACM Transactions on Information

      Systems(TOIS)archive Volume19,Issue 3.2001:242-262.

      作者簡介:

      陳 玉(1975-),男,碩士,實驗師.研究領(lǐng)域:計算機應(yīng)

      用,中文信息處理.

      瑞安市| 舒兰市| 吴旗县| 乌海市| 安塞县| 皮山县| 宜春市| 合水县| 阿瓦提县| 荔浦县| 固阳县| 图木舒克市| 江北区| 海晏县| 孟村| 万全县| 灵丘县| 兰西县| 京山县| 连云港市| 神池县| 曲麻莱县| 简阳市| 阳东县| 奉新县| 富宁县| 平顺县| 汪清县| 肇东市| 如皋市| 谷城县| 公安县| 连平县| 东港市| 邯郸市| 安陆市| 博客| 平谷区| 镇沅| 泸定县| 东明县|