• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于文本相似計(jì)算的校園智能問(wèn)答系統(tǒng)設(shè)計(jì)

      2019-09-10 07:22:44李月周江
      現(xiàn)代信息科技 2019年22期
      關(guān)鍵詞:語(yǔ)料庫(kù)

      李月 周江

      摘? 要:?jiǎn)柎鹣到y(tǒng)是繼搜索引擎之后誕生的又一用來(lái)幫助用戶在海量數(shù)據(jù)中提高檢索效率的系統(tǒng)。目前常見的問(wèn)答系統(tǒng)主要應(yīng)用于商業(yè)領(lǐng)域,針對(duì)在校學(xué)生這一特定用戶群體的智能問(wèn)答系統(tǒng)并不多見。本文在分析問(wèn)答系統(tǒng)現(xiàn)狀以及建設(shè)難點(diǎn)的基礎(chǔ)上,提出了一種面向?qū)W校這一特定領(lǐng)域的,用來(lái)提升在校學(xué)生學(xué)習(xí)、生活質(zhì)量的校園智能問(wèn)答系統(tǒng)建設(shè)方法,并從語(yǔ)料庫(kù)建設(shè)方法、問(wèn)題及答案提取等多個(gè)方面進(jìn)行了詳細(xì)闡述。

      關(guān)鍵詞:?jiǎn)柎鹣到y(tǒng);文本處理;相似度計(jì)算;語(yǔ)料庫(kù)

      中圖分類號(hào):TP311.52 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)22-0009-05

      Abstract:Question Answering System(QAS) is a system that appears after the search engine to improve the retrieval efficiency of users in massive data. At present,the common QAS is mainly used in the business field,but the intelligent QAS for the students in school is rare. Based on the analysis of the current situation and difficulties in the construction of question answering system,this paper puts forward a construction method of campus intelligent question answering system,which is oriented to the specific field of school and is used to improve the quality of students’study and life. It also elaborates on the construction method of corpus,the extraction of questions and answers and so on.

      Keywords:question answering system;text processing;similarity computing;corpus

      0? 引? 言

      隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上流通的信息日益增加,人們所面臨的問(wèn)題不再是信息的貧乏,而是信息過(guò)載的問(wèn)題。搜索引擎是目前常見的一種解決信息過(guò)載的通用解決方法,人們可以通過(guò)使用諸如百度、谷歌、360搜索等系統(tǒng)實(shí)現(xiàn)從海量數(shù)據(jù)里檢索自己需要的信息。但是對(duì)于一個(gè)通用型的搜索系統(tǒng)來(lái)說(shuō),系統(tǒng)往往提供的也是大量存在冗余的搜索答案,用戶還需要進(jìn)行二次檢索和分析才能取得自己真正需要的數(shù)據(jù)。在此情形之下,問(wèn)答系統(tǒng)被開發(fā)出來(lái)并且搭載在各類系統(tǒng)上,成為系統(tǒng)解決用戶疑問(wèn)的一種輔助手段。針對(duì)特定用戶設(shè)計(jì)和開發(fā)高效問(wèn)答系統(tǒng),可以有效解決信息過(guò)載的問(wèn)題,提高用戶使用系統(tǒng)的效率。

      目前常見的問(wèn)答系統(tǒng)通常針對(duì)商業(yè)領(lǐng)域。在信息檢索需求上,除了商業(yè)領(lǐng)域的需求之外,還有很多非商業(yè)需求。如在校學(xué)生在學(xué)校生活中往往會(huì)遇到各種問(wèn)題,而這些問(wèn)題又不具備共通性,即這個(gè)學(xué)校的學(xué)生遇到的問(wèn)題可能其他學(xué)校的學(xué)生并沒有遇到過(guò),或者這個(gè)學(xué)校的學(xué)生遇到的問(wèn)題在這個(gè)學(xué)校的規(guī)章制度下具有特定的解答。因此,針對(duì)非商業(yè)應(yīng)用的特定領(lǐng)域開發(fā)智能問(wèn)答系統(tǒng),能較好地解決該領(lǐng)域下用戶的疑問(wèn),方便該領(lǐng)域用戶的生活。本文即針對(duì)在校學(xué)生開發(fā)特定的非商業(yè)應(yīng)用的智能問(wèn)答系統(tǒng),提升在校學(xué)生這一龐大用戶群體在校園生活中使用信息數(shù)據(jù)的質(zhì)量。

      1? 問(wèn)答系統(tǒng)現(xiàn)狀

      問(wèn)答系統(tǒng)的雛形最早誕生于七十多年前,國(guó)外科學(xué)家希望計(jì)算機(jī)能像人一樣去理解和處理人類自然語(yǔ)言,但是受硬件設(shè)備和計(jì)算算法的限制,直到1980年左右,問(wèn)答系統(tǒng)才開始真正受到人們的關(guān)注。計(jì)算科學(xué)之父圖靈表示,具有人工智能的計(jì)算機(jī)應(yīng)該能夠像人類一樣理解自然語(yǔ)言并進(jìn)行交流[1]。隨后人們開始關(guān)注并開展基于自然語(yǔ)言理解的研究和開發(fā),越來(lái)越多的公司和研究機(jī)構(gòu)也投入到基于自然語(yǔ)言處理的問(wèn)答系統(tǒng)中來(lái)。

      國(guó)外在問(wèn)答系統(tǒng)技術(shù)上的研究起步比較早,目前在工業(yè)界或者學(xué)術(shù)界已經(jīng)產(chǎn)出了一些比較成熟的問(wèn)答系統(tǒng)和聊天機(jī)器人系統(tǒng),例如,蘋果公司的Siri,谷歌的Google Now,MIT大學(xué)的Start系統(tǒng),還有AnswerBus、MULDER、LAMP等,其開發(fā)機(jī)構(gòu)和使用目的如表1所示。

      與國(guó)外研究相比,國(guó)內(nèi)的問(wèn)答系統(tǒng)發(fā)展較為緩慢。主要原因在于中文的信息處理與英文、法文、德文等語(yǔ)言體系不同,在語(yǔ)義解析、詞法分析上較為困難,在將國(guó)外現(xiàn)有的問(wèn)答系統(tǒng)遷移到中文系統(tǒng)上時(shí)存在較大的語(yǔ)言差異鴻溝。另外,問(wèn)答系統(tǒng)的構(gòu)建基礎(chǔ)之一是語(yǔ)料庫(kù)的建設(shè),基于中文的問(wèn)答系統(tǒng)在構(gòu)建時(shí)需要重新設(shè)計(jì)和建立語(yǔ)料庫(kù),也無(wú)法重用國(guó)外現(xiàn)有系統(tǒng)的語(yǔ)料資源,因此提升了中文問(wèn)答系統(tǒng)的建設(shè)難度。

      國(guó)內(nèi)在問(wèn)答系統(tǒng)領(lǐng)域走得比較靠前的研究機(jī)構(gòu)主要有清華大學(xué)、北京大學(xué)、中科院計(jì)算所、哈工大、北京語(yǔ)言大學(xué)等,另外研究漢語(yǔ)問(wèn)答系統(tǒng)的還有香港大學(xué)、香港中文大學(xué)等單位[1]。目前國(guó)內(nèi)常見的問(wèn)答系統(tǒng)如表2所示。

      2? 問(wèn)答系統(tǒng)關(guān)鍵技術(shù)

      在中文問(wèn)答系統(tǒng)的實(shí)現(xiàn)中需要經(jīng)過(guò)語(yǔ)料收集、問(wèn)題解析、答案提取及答案展示幾個(gè)階段,具體實(shí)現(xiàn)流程如圖1所示。

      在系統(tǒng)實(shí)現(xiàn)過(guò)程中,首先需要構(gòu)建龐大的語(yǔ)料庫(kù)。語(yǔ)料庫(kù)內(nèi)容的廣度與深度決定了問(wèn)答系統(tǒng)中答案的質(zhì)量。如果語(yǔ)料庫(kù)過(guò)小,則問(wèn)答系統(tǒng)會(huì)遇到答案抽取失敗的情況。如果語(yǔ)料庫(kù)質(zhì)量過(guò)低,則在問(wèn)答過(guò)程中則會(huì)出現(xiàn)“答非所問(wèn)”的情形,同樣會(huì)影響用戶體驗(yàn)。但是要構(gòu)建一個(gè)高質(zhì)量的龐大語(yǔ)料庫(kù),需要花費(fèi)大量的時(shí)間及硬件資源。本文所探討的系統(tǒng)設(shè)計(jì)針對(duì)特定領(lǐng)域,即主要針對(duì)學(xué)校這一特定環(huán)境開發(fā)智能問(wèn)答系統(tǒng),因此在語(yǔ)料庫(kù)的建設(shè)上必須針對(duì)特定領(lǐng)域收集、整理數(shù)據(jù)。除語(yǔ)料收集具有特定性之外,智能問(wèn)答系統(tǒng)在建設(shè)上還具有分詞技術(shù)、語(yǔ)義消歧等通用型的問(wèn)題需解決。

      2.1? 中文分詞

      中文分詞是自然語(yǔ)言處理過(guò)程中的一個(gè)技術(shù)問(wèn)題。在問(wèn)答系統(tǒng)中,用戶的提問(wèn)是一個(gè)完整的句子,里面的內(nèi)容從形式上看是一個(gè)一個(gè)的漢字,但是從語(yǔ)義理解上來(lái)看,里面包含的既有單個(gè)漢字也有連續(xù)的詞語(yǔ)。中文分詞技術(shù)就是將漢字序列切割成一個(gè)個(gè)單獨(dú)的詞語(yǔ)。與英文分詞不同,英文的句子里單詞和單詞之間以空格作為分界符,因此英文分詞技術(shù)相對(duì)來(lái)說(shuō)簡(jiǎn)單很多[2]。中文句子里通常只包含逗號(hào)(,)、分號(hào)(;)、頓號(hào)(、)等分隔符,分隔出的也是一段具有完整含義的內(nèi)容,并不存在分隔符將詞與詞隔開,因此中文分詞要顯得復(fù)雜而困難。

      目前常見的中文分詞技術(shù)主要基于以下三種:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法[3]?;谧址ヅ涞姆衷~方法又叫作機(jī)械分詞方法,該方法將需要分解的句子按照一定的規(guī)則與一個(gè)足夠大的詞典進(jìn)行逐詞掃描匹配,如果在這個(gè)足夠大的詞典中能找到某個(gè)一致的字符串,則將這個(gè)詞識(shí)別出來(lái)并將其與周圍的字分隔開。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法[4]。

      基于理解的分詞方法是通過(guò)算法讓計(jì)算機(jī)模擬人識(shí)別句子的過(guò)程,將輸入的句子切割成單個(gè)單詞。但是由于漢語(yǔ)的語(yǔ)言系統(tǒng)歷經(jīng)幾千年的發(fā)展,具有其特有的復(fù)雜性、概括性等特點(diǎn),難以將中文像英文等西方語(yǔ)言體系一樣較好地轉(zhuǎn)化為計(jì)算機(jī)可以理解的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。

      基于統(tǒng)計(jì)的分詞方法主要是采用基于統(tǒng)計(jì)學(xué)的知識(shí)對(duì)文本進(jìn)行識(shí)別并分詞。從漢語(yǔ)語(yǔ)言的使用習(xí)慣上來(lái)看,中文詞是一種相對(duì)穩(wěn)定的字與字的組合,如果一個(gè)字與另一個(gè)字相鄰出現(xiàn)的頻率越高,則這兩個(gè)字構(gòu)成詞語(yǔ)的可能性就越大。基于統(tǒng)計(jì)的分詞方法就是統(tǒng)計(jì)字與字相鄰出現(xiàn)的頻率或概率,通過(guò)設(shè)定一個(gè)概率閾值判定是否構(gòu)成詞語(yǔ)[5]。目前基于概率統(tǒng)計(jì)的分詞方法應(yīng)用也較為廣泛,但是該方法也有一定的缺陷,即會(huì)在詞語(yǔ)抽取上抽取出一些經(jīng)常搭配出現(xiàn),但是在語(yǔ)義上并不構(gòu)成詞語(yǔ)的“偽詞”。

      2.2? 語(yǔ)義消歧

      中文問(wèn)答系統(tǒng)構(gòu)建中還需要解決的一個(gè)問(wèn)題是語(yǔ)義歧義的問(wèn)題。與英文詞語(yǔ)不同,英文單詞是天然有間隔的,計(jì)算機(jī)在分析句子的時(shí)候不存在會(huì)將一個(gè)單詞的一部分與另一個(gè)單詞的一部分連接起來(lái)從而構(gòu)成新詞去理解的情形。但是基于中文系統(tǒng)中詞語(yǔ)間不存在間隔的現(xiàn)狀,中文問(wèn)答系統(tǒng)在理解句子時(shí)可能會(huì)出現(xiàn)對(duì)詞語(yǔ)存在多種解答的情況。例如一個(gè)句子“我家門前有條大河很難過(guò)”,這里面可以分割出“我家”“門前”“有”“條”“大河”“很”“難過(guò)”一種分詞結(jié)果,也可能分割出“我”“家門”“前”“有”“條”“大河”“很”“難過(guò)”這另一種分詞結(jié)果。這兩種分詞下體現(xiàn)的語(yǔ)義就完全不同。在漢語(yǔ)體系里,“家門”和“門前”是完全不同的含義。此外,即使是同一種分詞結(jié)果,系統(tǒng)在理解上也可能存在歧義。如上一句的分詞結(jié)果:“我家”“門前”“有”“條”“大河”“很”“難過(guò)”,其中對(duì)于“難過(guò)”一詞的理解也會(huì)存在不同含義?!半y過(guò)”可以表示心情低落不開心,也可以表達(dá)動(dòng)作上難以通過(guò)的意思,系統(tǒng)在理解上同樣可能存在歧義。

      2.3? 未登錄詞識(shí)別

      問(wèn)答系統(tǒng)對(duì)于問(wèn)題的理解是基于語(yǔ)料庫(kù)知識(shí)的理解,而語(yǔ)料庫(kù)的創(chuàng)建具有時(shí)效性,可能會(huì)出現(xiàn)在問(wèn)答過(guò)程中出現(xiàn)語(yǔ)料庫(kù)未收集詞語(yǔ)的情況。在自媒體與微媒體日益發(fā)達(dá)的今天,用戶的語(yǔ)言習(xí)慣也發(fā)生了巨大的改變,許多基于互聯(lián)網(wǎng)的新詞層出不窮并且擴(kuò)散速度很快,很可能有一個(gè)詞上個(gè)星期還不存在,但是這個(gè)星期人們?cè)诨ヂ?lián)網(wǎng)上已經(jīng)開始大面積使用了。這些未被收集及識(shí)別的詞即稱之為“未登錄詞”。常見的未登錄詞包含一些人名、地名、公司名、互聯(lián)網(wǎng)流行語(yǔ)等等。在問(wèn)答系統(tǒng)中,對(duì)于新詞的收錄更新率也成為了問(wèn)答系統(tǒng)用戶體驗(yàn)度的檢驗(yàn)標(biāo)志之一。

      2.4? 短文本語(yǔ)義提取

      在問(wèn)答系統(tǒng)中,用戶的提問(wèn)往往就是一兩個(gè)簡(jiǎn)單的句子,文本篇幅較短。對(duì)于用戶提問(wèn),要抽取正確答案,還需要理解用戶提問(wèn)數(shù)據(jù)的核心內(nèi)容,也就是需要對(duì)用戶問(wèn)題實(shí)現(xiàn)核心語(yǔ)義提取。在用戶語(yǔ)義提取上,即需要理解用戶問(wèn)題的關(guān)鍵詞,也需要結(jié)合用戶問(wèn)題的語(yǔ)境,還需要綜合考慮用戶提問(wèn)時(shí)的上下文環(huán)境,在多方面數(shù)據(jù)信息結(jié)合的基礎(chǔ)上,才能夠正確理解用戶問(wèn)題的核心本質(zhì),從而從語(yǔ)料庫(kù)中抽取最符合該問(wèn)題的答案[6]。目前關(guān)于自然語(yǔ)言處理中的核心語(yǔ)義提取主要還是基于關(guān)鍵詞的提取方式。

      3? 特定領(lǐng)域問(wèn)答系統(tǒng)構(gòu)建方法

      本文主要針對(duì)校園環(huán)境這一特定領(lǐng)域用戶構(gòu)建智能問(wèn)答系統(tǒng),因此系統(tǒng)構(gòu)建不論從用戶分類、使用目的、語(yǔ)料庫(kù)構(gòu)建上都存在與學(xué)校這一特定環(huán)境相關(guān)的特定內(nèi)容。與通用型的問(wèn)答系統(tǒng)不同,針對(duì)校園環(huán)境構(gòu)建的問(wèn)答系統(tǒng)用戶主要面向在校學(xué)生,他們希望獲取的信息內(nèi)容主要和在校生活相關(guān),如課程相關(guān)問(wèn)題、學(xué)籍管理問(wèn)題、校園制度問(wèn)題、后勤管理問(wèn)題等。除此之外,也存在校外游客需要針對(duì)校園相關(guān)問(wèn)題提問(wèn)并獲得解答。因此,針對(duì)校園領(lǐng)域的智能問(wèn)答系統(tǒng)的用戶主要包含以下三種,如表3所示。

      3.1? 語(yǔ)料庫(kù)構(gòu)建

      針對(duì)校園環(huán)境這一特定領(lǐng)域的問(wèn)答系統(tǒng)在語(yǔ)料庫(kù)構(gòu)建上并無(wú)太多可以借鑒的已有語(yǔ)料知識(shí),主要原因在于不同的學(xué)校具有不同的管理制度,數(shù)據(jù)信息存在較強(qiáng)的個(gè)性化特點(diǎn),因此要構(gòu)建一個(gè)智能化的校園問(wèn)答系統(tǒng),首先需要收集各類校園相關(guān)的數(shù)據(jù)資料作為語(yǔ)料庫(kù)構(gòu)建的基礎(chǔ)。語(yǔ)料來(lái)源可以是學(xué)校的有關(guān)規(guī)章制度、工作手冊(cè)或管理規(guī)范,也可以來(lái)源于學(xué)校在信息化建設(shè)中形成的網(wǎng)絡(luò)數(shù)據(jù)信息。對(duì)于網(wǎng)絡(luò)數(shù)據(jù)信息可以采用爬蟲技術(shù)爬取相關(guān)內(nèi)容,然后經(jīng)過(guò)數(shù)據(jù)清洗形成可以進(jìn)入語(yǔ)料庫(kù)的數(shù)據(jù)。在語(yǔ)料庫(kù)構(gòu)建上可以采取基于以下流程的建設(shè)方法,如圖2所示。

      對(duì)于獲得原始語(yǔ)料信息,需要將長(zhǎng)文本切割成短文本以方便實(shí)現(xiàn)問(wèn)題和答案的抽取。對(duì)于整理形成的短文本,還需要運(yùn)用分詞技術(shù)提取文本核心信息。目前常見的中文分詞工具包括開源及商業(yè)應(yīng)用兩種,應(yīng)用較為廣泛的開源分詞工具包括HanLP、結(jié)巴分詞、FudanNLP分詞、THULAC分詞等,這些工具在實(shí)現(xiàn)上涵蓋了支持Java、C++、Python等主流編程語(yǔ)言的實(shí)現(xiàn)方式。雖然不同工具分詞的準(zhǔn)確率和時(shí)間效率有所差異,但是對(duì)于校園環(huán)境下的問(wèn)答系統(tǒng)建設(shè)而言,這些開源工具的分詞結(jié)果都是可以接受的。

      3.2? 文本相似度量算法

      在構(gòu)建盡可能完善的語(yǔ)料庫(kù)的基礎(chǔ)上,提高問(wèn)答系統(tǒng)效率、提升用戶使用感受的另一影響因素是對(duì)用戶問(wèn)題在語(yǔ)料庫(kù)中的匹配檢查。因?yàn)閱?wèn)答系統(tǒng)中用戶提交的是文本數(shù)據(jù),因此在語(yǔ)料庫(kù)中尋找與用戶問(wèn)題匹配的答案時(shí)最關(guān)鍵的技術(shù)就是基于文本相似度的計(jì)算。

      目前基于文本的相似度計(jì)算主要包含三種方法[7,8]。第一種是基于單詞重疊數(shù)量統(tǒng)計(jì)的計(jì)算方法。該方法主要分析兩個(gè)不同的文本中相同單詞重疊的數(shù)量,數(shù)量越多,則認(rèn)為兩個(gè)文本越接近。但是這種方法僅僅考慮單詞出現(xiàn)的數(shù)量而不考慮單詞出現(xiàn)的位置,以及其他單詞對(duì)文本語(yǔ)義的不同貢獻(xiàn),屬于較為粗略的文本分析方法,在使用過(guò)程中也常常會(huì)出現(xiàn)提取共性失敗的情況。第二種方法是基于單詞語(yǔ)義相近度度量的方法。該方法通過(guò)將單詞轉(zhuǎn)換成向量,計(jì)算不同向量之間的相似程度來(lái)衡量不同單詞的相似性。該種方法解決了中文中同一含義可能有不同表達(dá)方式的情況,比起機(jī)械衡量?jī)蓚€(gè)單詞是否一樣更加切合問(wèn)答系統(tǒng)的實(shí)際使用情形,但也存在無(wú)法整體解析句子含義、上升到句子層面整體衡量相似度的缺陷。第三種方法是以句法作為衡量依據(jù),通過(guò)計(jì)算兩個(gè)句子之間的相似程度提取問(wèn)題核心。該種方法更加符合用戶實(shí)際情況,可以減少問(wèn)答系統(tǒng)中提取失敗或者對(duì)應(yīng)到語(yǔ)料庫(kù)時(shí)問(wèn)題精確度低的情況。本文設(shè)計(jì)的問(wèn)答系統(tǒng)主要針對(duì)句子進(jìn)行相似度的計(jì)算。

      針對(duì)文本進(jìn)行相似度計(jì)算首先需要將中文文本轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別并計(jì)算的形式。通常情況下是將文本轉(zhuǎn)化為一個(gè)向量矩陣。對(duì)于學(xué)校領(lǐng)域下的智能問(wèn)答系統(tǒng),首先可以將用戶問(wèn)題轉(zhuǎn)化成向量Q,其中Q=(q1,q2,q3,…,qn),其中Q表示問(wèn)題向量,qi表示向量中的第i個(gè)維度。對(duì)于兩個(gè)文本向量,可以對(duì)其相似度進(jìn)行計(jì)算。常用的相似度計(jì)算方法有余弦相似度計(jì)算(COS)、皮爾森相關(guān)系數(shù)計(jì)算(PCC)、Jaccard系數(shù)計(jì)算(JA)等方式,對(duì)于兩個(gè)問(wèn)句A和B,其計(jì)算公式如下:

      在文本相似度計(jì)算中,不同的相似度計(jì)算方法帶來(lái)的計(jì)算結(jié)果也各不相同。因?yàn)楸疚奶接懙闹悄軉?wèn)答系統(tǒng)中,用戶提問(wèn)往往是一兩個(gè)簡(jiǎn)短的句子,因此收集到的文本屬于較短的文本類型。對(duì)于短文本通過(guò)轉(zhuǎn)化形成的向量,往往具有較低的維度。因此,在計(jì)算問(wèn)答系統(tǒng)中的提問(wèn)文本相似度時(shí),對(duì)于低維度數(shù)據(jù),選用Jaccard系數(shù)進(jìn)行計(jì)算比較有計(jì)算優(yōu)勢(shì)。

      3.3? 相似度閾值

      對(duì)于計(jì)算得到的相似度數(shù)據(jù),還需要根據(jù)實(shí)際情況設(shè)置相似度閾值。如果相似度閾值設(shè)置過(guò)高,那么在系統(tǒng)實(shí)際運(yùn)行過(guò)程中會(huì)出現(xiàn)用戶問(wèn)題在語(yǔ)料庫(kù)中找不到匹配問(wèn)題的情況,導(dǎo)致系統(tǒng)無(wú)法給出回答,會(huì)極大地影響用戶體驗(yàn)感受。同時(shí),如果相似度閾值設(shè)置得過(guò)低,則會(huì)在系統(tǒng)運(yùn)行中出現(xiàn)用戶的一個(gè)問(wèn)題可以在語(yǔ)料庫(kù)中匹配到多個(gè)答案的情況,這樣系統(tǒng)實(shí)現(xiàn)的效果將與普通搜索引擎毫無(wú)區(qū)別,用戶依然需要從大量數(shù)據(jù)中二次檢索答案。因此,一個(gè)合理的相似度閾值設(shè)置在系統(tǒng)設(shè)計(jì)中至關(guān)重要。在本文中,為找到短文本相似度設(shè)置的最佳閾值進(jìn)行了多次試驗(yàn),在相同語(yǔ)料庫(kù)的基礎(chǔ)上,采取50名志愿者對(duì)系統(tǒng)給出的答案進(jìn)行評(píng)分(10分記為滿分),每個(gè)問(wèn)題的評(píng)分取50個(gè)用戶的評(píng)價(jià)平均值。每個(gè)問(wèn)題在語(yǔ)料庫(kù)中搜索答案時(shí),相似度閾值分別從0.3、0.4、0.5遞增至0.8。對(duì)于不同問(wèn)題在相同語(yǔ)料庫(kù)下獲得的答案滿意度試驗(yàn)數(shù)據(jù)如表4所示。

      表4? 相似度閾值試驗(yàn)

      從上表數(shù)據(jù)可以看到,在相似度閾值較低和較高的情況下,用戶評(píng)分都不理想,在相似度閾值為0.5或0.6時(shí)可以取得試驗(yàn)中較為滿意的評(píng)價(jià)。但是需要注意的是,用戶滿意度除了與相似度閾值的設(shè)定有關(guān)系之外,還和語(yǔ)料庫(kù)的大小有關(guān)。只有在語(yǔ)料庫(kù)數(shù)據(jù)充分涵蓋用戶實(shí)際生活中會(huì)遇到的問(wèn)題時(shí),用戶才能獲得較好的問(wèn)答體驗(yàn)。否則在語(yǔ)料庫(kù)不充分的情形下,即使將相似度閾值設(shè)置為試驗(yàn)取得的最好數(shù)據(jù),用戶也會(huì)產(chǎn)生較差的用戶體驗(yàn)。

      4? 結(jié)? 論

      問(wèn)答系統(tǒng)經(jīng)歷了多年的發(fā)展,已經(jīng)取得了一定的成就。但是目前的問(wèn)答系統(tǒng)一般針對(duì)商業(yè)應(yīng)用領(lǐng)域,針對(duì)在校學(xué)生構(gòu)建的問(wèn)答系統(tǒng)并不多見。我國(guó)現(xiàn)有2000余所高校,在校學(xué)生人數(shù)超過(guò)3000萬(wàn)人,針對(duì)這一龐大的用戶領(lǐng)域構(gòu)建面向?qū)W生的問(wèn)答系統(tǒng)具有較高的應(yīng)用價(jià)值。但是針對(duì)特定領(lǐng)域的問(wèn)答系統(tǒng)構(gòu)建不論從語(yǔ)料庫(kù)的建設(shè)還是問(wèn)答方式的設(shè)計(jì)上都需要針對(duì)領(lǐng)域問(wèn)題尋找最適合的方法。在本文探討內(nèi)容的基礎(chǔ)上,還可進(jìn)一步研究在智能問(wèn)答系統(tǒng)中加入語(yǔ)料庫(kù)自動(dòng)增長(zhǎng)、語(yǔ)料庫(kù)自動(dòng)糾錯(cuò)的設(shè)計(jì),從而使得面向?qū)W校這一特定領(lǐng)域的問(wèn)答系統(tǒng)具有更高的智慧。目前問(wèn)答系統(tǒng)雖然已有一定的建設(shè)成果,但是在大數(shù)據(jù)和人工智能蓬勃發(fā)展的今天,面向特定領(lǐng)域的問(wèn)答系統(tǒng)也還有更多的建設(shè)細(xì)節(jié)亟待建設(shè)者去思考和探索。

      參考文獻(xiàn):

      [1] 馮升.聊天機(jī)器人問(wèn)答系統(tǒng)現(xiàn)狀與發(fā)展 [J].機(jī)器人技術(shù)與應(yīng)用,2016(4):34-36.

      [2] 黃偉,范磊.基于多分類器投票集成的半監(jiān)督情感分類方法研究 [J].中文信息學(xué)報(bào),2016,30(2):41-49+106.

      [3] 王朝.面向網(wǎng)上訂餐的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) [D].成都:電子科技大學(xué),2016.

      [4] 徐曉.智能答疑系統(tǒng)的設(shè)計(jì)與研究 [J].微型機(jī)與應(yīng)用,2014,33(5):8-10.

      [5] 雷鵬飛.輿情系統(tǒng)中特征選擇和情感分析的研究與實(shí)現(xiàn) [D].成都:電子科技大學(xué),2017.

      [6] 郭浩,許偉,盧凱,等.基于CNN和BiLSTM的短文本相似度計(jì)算方法 [J].信息技術(shù)與網(wǎng)絡(luò)安全,2019,38(6):61-64+68.

      [7] 趙永標(biāo),張其林,谷瓊.社區(qū)問(wèn)答系統(tǒng)中基于當(dāng)前興趣的問(wèn)題推薦研究 [J].現(xiàn)代信息科技,2019,3(11):1-4.

      [8] 張明輝.情感分析在商品評(píng)論中的應(yīng)用 [J].現(xiàn)代信息科技,2019,3(10):187-190.

      作者簡(jiǎn)介:李月(1979-),女,漢族,湖北荊門人,講師,碩士研究生,研究方向:機(jī)器學(xué)習(xí)、人工智能、軟件工程。

      猜你喜歡
      語(yǔ)料庫(kù)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      基于語(yǔ)料庫(kù)的“はずだ”語(yǔ)義用法分析
      基于語(yǔ)料庫(kù)“隱秘”的詞類標(biāo)注初步探究
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      基于COCA語(yǔ)料庫(kù)的近義詞辨析 ——以choose和select為例
      口譯不宜“任性”:基于語(yǔ)料庫(kù)的外事翻譯等效探索
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
      基于英漢雙語(yǔ)平行語(yǔ)料庫(kù)的無(wú)根回譯研究
      基于語(yǔ)料庫(kù)的近義詞辨析研究——以suspect和doubt為例
      低碳經(jīng)濟(jì)英語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用
      远安县| 平乐县| 故城县| 阜平县| 灌阳县| 东源县| 临沧市| 遂川县| 广昌县| 枣阳市| 永川市| 张家口市| 合肥市| 墨玉县| 台州市| 吴江市| 新源县| 浮山县| 呼和浩特市| 汾西县| 和田县| 孟村| 大渡口区| 元阳县| 马公市| 武安市| 吴桥县| 梁山县| 汝州市| 兴安盟| 台江县| 水富县| 平阳县| 沽源县| 镇康县| 柳州市| 灵寿县| 中牟县| 任丘市| 樟树市| 天门市|