戚夢(mèng)瑤
關(guān)鍵詞:?jiǎn)柎鹣到y(tǒng);校園問(wèn)答;數(shù)字化校園;文本分類;文本相似度
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)36-0033-03
1 概述
智能問(wèn)答系統(tǒng)是一種能夠理解用戶提出的用自然語(yǔ)言表述的問(wèn)題,并能夠自動(dòng)、準(zhǔn)確地給出用戶答案的軟件系統(tǒng)[1]?,F(xiàn)今互聯(lián)網(wǎng)上的資源信息飛速增長(zhǎng),如何精確、快速地從海量信息中挖掘用戶想要的信息成為亟待解決的問(wèn)題。智能問(wèn)答系統(tǒng)是進(jìn)行該項(xiàng)工作的重要手段,很大程度上可以替代或輔助傳統(tǒng)人工咨詢的方式。
根據(jù)應(yīng)用領(lǐng)域的不同,智能問(wèn)答系統(tǒng)一般可分為面向開(kāi)放域的問(wèn)答系統(tǒng)和面向限定域的問(wèn)答系統(tǒng)[2]。面向開(kāi)放域的問(wèn)答系統(tǒng)包含豐富的知識(shí)庫(kù),為回答多個(gè)領(lǐng)域的問(wèn)題提供了一定的基礎(chǔ),但在回答專業(yè)領(lǐng)域的問(wèn)題時(shí)難以精準(zhǔn)定位答案、表現(xiàn)較差[3]。目前針對(duì)法律[4]、醫(yī)療[5]、金融[6]等限定領(lǐng)域的智能問(wèn)答系統(tǒng)研究較為成熟,而針對(duì)高校領(lǐng)域的問(wèn)答系統(tǒng)研究仍處于起步階段。為了能夠整合多方面資源,為高校學(xué)生提供快速、高效、準(zhǔn)確的校園智能問(wèn)答服務(wù),同時(shí)建立起統(tǒng)一的信息獲取平臺(tái),完善數(shù)字化校園建設(shè),并進(jìn)一步實(shí)現(xiàn)學(xué)生在校情況動(dòng)態(tài)監(jiān)測(cè),本文旨在運(yùn)用人工智能、自然語(yǔ)言處理等相關(guān)技術(shù),研究和設(shè)計(jì)面向高校的智能問(wèn)答系統(tǒng)。
2 高校應(yīng)用智能問(wèn)答系統(tǒng)的意義
高校是一個(gè)復(fù)雜的社會(huì)化服務(wù)系統(tǒng),應(yīng)向?qū)W生提供各類服務(wù),如教育服務(wù)、生活服務(wù)等。學(xué)生在接受服務(wù)的過(guò)程中可能會(huì)遇到問(wèn)題,需要進(jìn)行咨詢得到解答,例如食堂供應(yīng)時(shí)間、圖書館開(kāi)放時(shí)間、請(qǐng)假審批流程等;在招生季,學(xué)生會(huì)咨詢大量有關(guān)報(bào)考方面的問(wèn)題,例如招生計(jì)劃、專業(yè)選擇、學(xué)校制度等。學(xué)生在遇到問(wèn)題時(shí)會(huì)咨詢班主任、輔導(dǎo)員或者學(xué)校行政人員,但事實(shí)上,學(xué)生提出的大多數(shù)問(wèn)題具有相似性,同時(shí)教師和行政人員難以對(duì)每個(gè)學(xué)生提出的問(wèn)題都做出非常及時(shí)和詳細(xì)的解答,而智能問(wèn)答系統(tǒng)的研究和開(kāi)發(fā)可以在以上校園問(wèn)答場(chǎng)景中發(fā)揮重要作用,具體有以下三點(diǎn)意義:
1)建立統(tǒng)一信息獲取平臺(tái)、提高校園咨詢效率。通過(guò)分析高校這一限定領(lǐng)域的特點(diǎn),以校園為導(dǎo)向幫助院校建立起統(tǒng)一、可靠的信息獲取平臺(tái),自動(dòng)解答學(xué)生用自然語(yǔ)言提出的問(wèn)題,為學(xué)校提供良好的信息化服務(wù)途徑。相比傳統(tǒng)的人工問(wèn)答方式,使用智能問(wèn)答系統(tǒng)可以為高校降低人力成本,解決大量重復(fù)、可自動(dòng)化的工作內(nèi)容,并能夠24小時(shí)為學(xué)生提供高效、標(biāo)準(zhǔn)化的校園咨詢服務(wù)。
2)完善數(shù)字化校園建設(shè)。數(shù)字化校園建設(shè)已成為教育信息化的重要部分,也是衡量教育現(xiàn)代化發(fā)展的主要標(biāo)志?;谌斯ぶ悄芗夹g(shù)開(kāi)發(fā)的智能問(wèn)答系統(tǒng)輔助傳統(tǒng)的人工咨詢流程,可以提升高校管理效能和服務(wù)水平,實(shí)現(xiàn)校園服務(wù)工作信息化、自動(dòng)化、便捷化,持續(xù)推動(dòng)數(shù)字校園的建設(shè)和發(fā)展[7]。
3)實(shí)現(xiàn)學(xué)生在校情況動(dòng)態(tài)監(jiān)測(cè)。學(xué)生在平臺(tái)咨詢的問(wèn)題能夠體現(xiàn)學(xué)生在校期間的各方面情況,在智能問(wèn)答系統(tǒng)的運(yùn)行推廣過(guò)程中,可以不斷收集和整合學(xué)生咨詢的問(wèn)題,并基于問(wèn)題數(shù)據(jù)做進(jìn)一步的統(tǒng)計(jì)與分析,統(tǒng)計(jì)分析的結(jié)果可供高校有關(guān)部門進(jìn)行參考,使得對(duì)學(xué)生在校生活、學(xué)習(xí)情況有大致的了解,真正落實(shí)“以學(xué)生為中心”的理念。
3 智能問(wèn)答系統(tǒng)框架
本文設(shè)計(jì)的面向高校的智能問(wèn)答系統(tǒng)框架如圖1所示,分為數(shù)據(jù)、算法、應(yīng)用三個(gè)部分。用戶通過(guò)前端界面輸入用自然語(yǔ)言表述的問(wèn)題,首先系統(tǒng)會(huì)對(duì)問(wèn)題進(jìn)行分詞、去除停用詞等預(yù)處理操作,并使用詞向量模型表示文本,接著通過(guò)問(wèn)題分類模塊以及文本相似度計(jì)算模塊,向用戶返回結(jié)果。在上述過(guò)程中,若無(wú)法成功在系統(tǒng)中匹配到用戶的問(wèn)題,則管理員需要及時(shí)在校園問(wèn)答庫(kù)中進(jìn)行補(bǔ)充,從而使得問(wèn)答庫(kù)能夠不斷更新和完善。
數(shù)據(jù):包括構(gòu)建校園問(wèn)答庫(kù)以及數(shù)據(jù)預(yù)處理。構(gòu)建校園問(wèn)答庫(kù)是智能問(wèn)答庫(kù)的基礎(chǔ),通過(guò)網(wǎng)絡(luò)爬取數(shù)據(jù)以及問(wèn)卷收集數(shù)據(jù)兩種方式構(gòu)建問(wèn)答對(duì)。為了后續(xù)算法的實(shí)現(xiàn),還需進(jìn)行數(shù)據(jù)預(yù)處理步驟,構(gòu)建詞向量表示文本。
算法:包括問(wèn)題分類模塊以及文本相似度計(jì)算模塊。問(wèn)題分類模塊使用訓(xùn)練得到的分類器對(duì)已經(jīng)預(yù)處理的用戶問(wèn)題進(jìn)行分類,得到問(wèn)題所屬的類別。文本相似度計(jì)算模塊將用戶問(wèn)題和問(wèn)答庫(kù)中的問(wèn)題進(jìn)行文本相似度計(jì)算,獲取用戶需要的答案。
應(yīng)用:向用戶提供方便操作的可視化前端界面,用戶可通過(guò)前端界面發(fā)送問(wèn)題并接收結(jié)果。為方便用戶的使用,接入微信公眾號(hào),可采取基于MVC(Mod?el View Controller模型-視圖-控制器)設(shè)計(jì)模式,采用Vue.js框架實(shí)現(xiàn)微信客戶端的開(kāi)發(fā)。
4 構(gòu)建校園問(wèn)答庫(kù)(FAQ)
構(gòu)建校園問(wèn)答庫(kù)是實(shí)現(xiàn)自動(dòng)問(wèn)答系統(tǒng)的基礎(chǔ),其優(yōu)劣對(duì)于智能問(wèn)答系統(tǒng)的適用性以及可靠性起著至關(guān)重要的作用。校園問(wèn)答庫(kù)中的問(wèn)題要能夠基本覆蓋高校學(xué)生會(huì)遇到的常見(jiàn)問(wèn)題,答案需要根據(jù)不同高校的實(shí)際情況對(duì)問(wèn)題進(jìn)行有針對(duì)性地解答。本文收集問(wèn)題數(shù)據(jù)的方式有兩種,一種是使用爬蟲(chóng)技術(shù),爬取各高等院校貼吧中的問(wèn)題數(shù)據(jù);另外一種是通過(guò)問(wèn)卷調(diào)查的方式,收集學(xué)生在平常學(xué)習(xí)、生活過(guò)程中容易碰到的問(wèn)題。
在收集完問(wèn)題之后,需要給問(wèn)題標(biāo)注準(zhǔn)確的答案,形成問(wèn)答對(duì)。同時(shí)為實(shí)現(xiàn)后續(xù)自動(dòng)問(wèn)答模塊的問(wèn)題分類功能,還需手工給問(wèn)題標(biāo)注分類標(biāo)簽,本文針對(duì)校園場(chǎng)景將問(wèn)題分為3種類別,最終得到的校園問(wèn)答庫(kù)示例數(shù)據(jù)如表1所示。
5 自動(dòng)問(wèn)答模塊設(shè)計(jì)
5.1 自動(dòng)問(wèn)答模塊處理流程
自動(dòng)問(wèn)答模塊是本系統(tǒng)的核心,其處理流程如圖2所示。首先對(duì)用戶提出的問(wèn)題進(jìn)行分類,若問(wèn)題屬于某個(gè)類別的可能性最大且超過(guò)閾值,則將問(wèn)題標(biāo)記為該類別,否則提示用戶該問(wèn)題類型不在問(wèn)答庫(kù)中,同時(shí)系統(tǒng)記錄該問(wèn)題并通知管理員是否考慮添加新問(wèn)題類別。在得到問(wèn)題所屬類別后,將其與校園問(wèn)答庫(kù)(FAQ)中同類別下的問(wèn)題進(jìn)行相似度計(jì)算,找到問(wèn)答庫(kù)中與用戶提出的問(wèn)題相似度最高的問(wèn)題,并判斷相似度是否超過(guò)閾值,若超過(guò)閾值則將對(duì)應(yīng)的答案返回給用戶,否則提示用戶該問(wèn)題不在問(wèn)答庫(kù)中,同時(shí)系統(tǒng)記錄該問(wèn)題并通知管理員在問(wèn)答庫(kù)中添加該問(wèn)題以及對(duì)應(yīng)的答案。
5.2 自動(dòng)問(wèn)答模塊實(shí)現(xiàn)流程
自動(dòng)問(wèn)答模塊通過(guò)獲取詞向量、問(wèn)題分類、問(wèn)句相似度計(jì)算三個(gè)步驟,基于Word2vec詞向量模型和TextCNN模型實(shí)現(xiàn)自動(dòng)問(wèn)答模塊關(guān)鍵算法。
5.2.1 文本向量表示
首先,需要將用自然語(yǔ)言表述的問(wèn)題轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的格式,使用Word2vec模型進(jìn)行文本向量表示。在構(gòu)建詞向量前,需要對(duì)校園問(wèn)答庫(kù)(FAQ)中問(wèn)題進(jìn)行數(shù)據(jù)預(yù)處理,主要包括對(duì)問(wèn)句的分詞處理、去除停用詞、特征詞提取等操作。
1)分詞處理:詞是漢語(yǔ)中最基本的語(yǔ)義單位,分詞主要是將原先沒(méi)有分割符的中文語(yǔ)句(例如“我想咨詢食堂開(kāi)放時(shí)間”)按照規(guī)定的劃分原則拆分其中的字或詞(“我/想/咨詢/食堂/開(kāi)放/時(shí)間”)的過(guò)程。
2)去除停用詞:為提升文本特征的質(zhì)量,降低文本特征的維度,進(jìn)行去除停用詞操作。“停用詞”為經(jīng)常出現(xiàn)在文本中但對(duì)信息檢索沒(méi)有幫助的、應(yīng)該提前消除的詞語(yǔ),例如中文語(yǔ)句中的語(yǔ)氣詞、助詞、虛詞等,目前常見(jiàn)的去除停用詞的方法是通過(guò)構(gòu)建停用詞表,主流的通用中文停用詞表有百度停用詞表、哈工大停用詞表等。
3)特征詞提取:特征詞是指能表示文本意向的關(guān)鍵詞,能否正確地找出問(wèn)題中的特征詞,影響著后續(xù)文本分類及相似度計(jì)算的準(zhǔn)確性和效率[8]。
接著基于Word2vec模型對(duì)知識(shí)庫(kù)中的問(wèn)題數(shù)據(jù)構(gòu)建詞向量集。Word2vec有兩種詞向量訓(xùn)練模式,包括CBOW和Skip-gram[9]。對(duì)于用戶輸入的問(wèn)題,也需要利用Word2vec模型獲取其詞向量,從而方便進(jìn)行下一步的問(wèn)題分類和相似度計(jì)算。
5.2.2 問(wèn)題分類
對(duì)用戶輸入的問(wèn)題進(jìn)行分類,從而縮小問(wèn)題集比對(duì)范圍,提高問(wèn)答的準(zhǔn)確性。文本分類過(guò)程包括兩個(gè)步驟:模型訓(xùn)練和測(cè)試。在得到詞向量后,基于Ten?sorflow機(jī)器學(xué)習(xí)框架構(gòu)建Text-CNN[10]模型,該模型首先通過(guò)卷積層、池化層提取特征,其流程框架如圖3所示,然后對(duì)提取到的特征進(jìn)行分析就可以實(shí)現(xiàn)文本分類。
利用訓(xùn)練數(shù)據(jù)集訓(xùn)練分類模型,在模型訓(xùn)練過(guò)程中,性能評(píng)價(jià)指標(biāo)可以使用損失(loss)和準(zhǔn)確率(Ac?curacy)。然后,對(duì)訓(xùn)練好的分類模型進(jìn)行測(cè)試,在模型測(cè)試過(guò)程中,性能評(píng)價(jià)指標(biāo)可以使用損失(loss)、準(zhǔn)確率(Accuracy)、查準(zhǔn)率(precision)、召回率(recall)、F1 Score以及混淆矩陣。如果訓(xùn)練結(jié)果不理想,調(diào)整參數(shù)進(jìn)行訓(xùn)練,再次對(duì)模型進(jìn)行測(cè)試,直到找到最優(yōu)的文本分類模型。
5.2.3 計(jì)算相似度
最后,計(jì)算用戶提出的問(wèn)題與校園問(wèn)答庫(kù)(FAQ)中的問(wèn)題集的相似度,根據(jù)相似度逆序排序得到答案,并將答案返回用戶可視化前端界面。采用Word2vec結(jié)合余弦相似度公式計(jì)算問(wèn)句詞向量間的距離。對(duì)于每個(gè)文本組合(q,a),其中q 為用戶提出的問(wèn)題,a 為問(wèn)題庫(kù)中的候選問(wèn)題,詞向量余弦相似度計(jì)算公式如式(1)所示。
6 結(jié)束語(yǔ)
本文設(shè)計(jì)了一個(gè)適用于高校的智能問(wèn)答系統(tǒng),并基于Word2vec詞向量模型、TextCNN模型設(shè)計(jì)自動(dòng)問(wèn)答算法,能基本實(shí)現(xiàn)校園場(chǎng)景下的自動(dòng)問(wèn)答應(yīng)用,為學(xué)生提供更高效的問(wèn)答服務(wù),為高校有關(guān)部門提升工作效率提供參考。但系統(tǒng)仍有不完善之處需要在未來(lái)進(jìn)行進(jìn)一步優(yōu)化,主要有以下兩個(gè)方面。
1)添加用戶評(píng)價(jià)及反饋功能。在用戶通過(guò)智能問(wèn)答系統(tǒng)提問(wèn)并得到答案之后,邀請(qǐng)用戶對(duì)答案的滿意度進(jìn)行評(píng)分,從而能夠在問(wèn)答庫(kù)構(gòu)建以及算法模型訓(xùn)練過(guò)程不斷改進(jìn),形成良性循環(huán),使得系統(tǒng)能夠更符合用戶的使用需求。
2)與可視化大屏系統(tǒng)相結(jié)合。在問(wèn)答系統(tǒng)的運(yùn)行過(guò)程中可以積累大量的問(wèn)答數(shù)據(jù),結(jié)合大數(shù)據(jù)技術(shù)分析問(wèn)答數(shù)據(jù),開(kāi)發(fā)可視化大屏,使用圖表的形式進(jìn)行統(tǒng)計(jì)展示,與問(wèn)答系統(tǒng)相結(jié)合,開(kāi)放接口,構(gòu)建全方面、閉環(huán)、可拓展的智能校園問(wèn)答體系,推動(dòng)校園數(shù)字化建設(shè)。