• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      政務(wù)智能問答系統(tǒng)評價(jià)指標(biāo)體系構(gòu)建與測評問題編制

      2023-12-21 10:58:52王芳魏中瀚連芷萱
      圖書情報(bào)知識 2023年6期
      關(guān)鍵詞:指標(biāo)體系智能指標(biāo)

      王芳 魏中瀚 連芷萱

      1 引言

      隨著數(shù)字政府建設(shè)的深化,越來越多的行政部門開始采用人工智能(AI)技術(shù)改善公共服務(wù)[1-3]。截至2022年3月底,全國各省級政府門戶網(wǎng)站或隸屬的政務(wù)網(wǎng)站均已依托AI技術(shù)設(shè)置自動(dòng)問答系統(tǒng)[4-5](港澳臺除外,下同)。初步調(diào)研發(fā)現(xiàn),各省級政府網(wǎng)站的智能問答系統(tǒng)表現(xiàn)參差不齊,超過半數(shù)的客服無法有效答復(fù)隨機(jī)測試問題,延長了用戶等待時(shí)間。根據(jù)行政負(fù)擔(dān)理論,采用智能問答技術(shù)的目的是提高行政效率,降低公眾承受的行政負(fù)擔(dān),但是“數(shù)字政府并不必然會降低行政負(fù)擔(dān),甚至在某些情況下還會加重一些群體的行政負(fù)擔(dān)”[6]。政務(wù)問答系統(tǒng)語義理解能力的不足,影響了問答服務(wù)的智能化水平,在一定程度上給用戶帶來新的行政負(fù)擔(dān)。為了提高行政效率,有必要對政務(wù)智能問答系統(tǒng)展開評價(jià)研究,了解其存在的問題,并提出應(yīng)對策略。

      目前,一些研究在政府問答系統(tǒng)測評方面進(jìn)行了探索。其中,大部分研究以答案的準(zhǔn)確率[7]、召回率、重復(fù)率等指標(biāo)來衡量系統(tǒng)性能,有助于提高預(yù)設(shè)答案與問題的匹配能力,但是并不能引導(dǎo)提高系統(tǒng)理解用戶需求的能力。如果知識庫中的預(yù)設(shè)答案與問題應(yīng)用場景的契合程度較低,即使是高精度的問答匹配能力也無法滿足用戶的主觀需求。另外,現(xiàn)有研究提出的準(zhǔn)確率、答案定性分類等指標(biāo)雖然能夠在一定程度上反映政務(wù)問答系統(tǒng)的語義理解能力,但是尚未形成系統(tǒng)性的評價(jià)指標(biāo)體系與測評題目。為此,本文基于理論分析、文獻(xiàn)回顧以及典型案例研究,提取與政府網(wǎng)站智能問答系統(tǒng)相關(guān)的評價(jià)指標(biāo),建立一套面向語義理解能力的評價(jià)指標(biāo)體系,同時(shí)構(gòu)建配套測試問題集,并通過對我國省級政府網(wǎng)站智能問答系統(tǒng)的實(shí)際評價(jià)檢驗(yàn)指標(biāo)體系和測試題集的有效性。

      2 理論基礎(chǔ)與文獻(xiàn)回顧

      2.1 行政負(fù)擔(dān)理論

      行政負(fù)擔(dān)是指公民在與政府互動(dòng)過程中面臨的學(xué)習(xí)成本、心理成本和合規(guī)成本,在一些情況下,這種負(fù)擔(dān)被用作政策工具[8-10]。20世紀(jì)70年代,學(xué)術(shù)界開始將行政負(fù)擔(dān)與“官僚主義遭遇”(bureaucratic encounters)結(jié)合起來[11]。近年來行政負(fù)擔(dān)被闡述為個(gè)人與行政組織交互時(shí)[9,12]產(chǎn)生的繁重體驗(yàn)[13]。其中,學(xué)習(xí)成本指公民為了享受某項(xiàng)行政服務(wù)不得不學(xué)習(xí)該服務(wù)相關(guān)的程序、文本等,如“如何獲取該服務(wù)”,可以通過目標(biāo)人群對某個(gè)項(xiàng)目缺乏了解的情況推斷出來[9];心理成本是指公民在享受政府服務(wù)時(shí)的不適感,如參加某個(gè)不受歡迎的福利項(xiàng)目[9]、沒有便利設(shè)施的等候空間[14]、被認(rèn)為沒有價(jià)值的個(gè)人等待時(shí)間[15],以及行政人員服務(wù)水平或態(tài)度帶來的困惑、焦慮、沮喪、憤怒等;合規(guī)成本指用戶因使用政府服務(wù)不得不付出請假、通勤等成本,比如參與面談、培訓(xùn)所付出的時(shí)間成本[16]。Schaffer和Huang在行政負(fù)擔(dān)理論的基礎(chǔ)上提出“準(zhǔn)入理論”[17-18],將公民獲得行政服務(wù)的“門檻”過程化,論述了包括申請、交互、等待、審批等多個(gè)步驟和“準(zhǔn)入”的組織規(guī)則。

      行政負(fù)擔(dān)會加劇社會不平等,繁瑣程序會破壞政治效力和公民參與,為了降低行政負(fù)擔(dān),政策制定者需要降低目標(biāo)對象的學(xué)習(xí)和合規(guī)成本,并以最小的心理成本構(gòu)建互動(dòng)[8]。廖福崇提出通過簡政放權(quán)、放管結(jié)合、優(yōu)化服務(wù)來消解行政負(fù)擔(dān)[8]。為了減輕個(gè)人與行政組織交互過程中承受的行政負(fù)擔(dān),一些政府機(jī)構(gòu)在其網(wǎng)站上設(shè)置了智能客服作為改善公共服務(wù)的輔助手段。但是此類設(shè)置是否真正降低了行政負(fù)擔(dān),還是又增加了新的數(shù)字負(fù)擔(dān),這還依賴于智能問答服務(wù)的質(zhì)量,尤其是基于系統(tǒng)語義理解能力的對話質(zhì)量和問題解決能力。因此,根據(jù)行政負(fù)擔(dān)理論和門戶網(wǎng)站的“準(zhǔn)入”流程,可以從中“逆推”出一些評價(jià)指標(biāo),如系統(tǒng)的問題解決能力、性能、智能、界面設(shè)計(jì),以及信息的準(zhǔn)確性等。

      2.2 政務(wù)信息服務(wù)質(zhì)量評價(jià)

      政務(wù)智能問答本質(zhì)上是一種政務(wù)信息服務(wù)。信息服務(wù)是一種通過研究用戶、組織用戶、組織服務(wù)將有價(jià)值的信息傳遞給用戶,最終幫助用戶解決問題的服務(wù)活動(dòng)[19]。一些研究通過對信息服務(wù)要素的拆解建立相應(yīng)的評價(jià)體系,如胡昌平[20]借助ISO9000質(zhì)量標(biāo)準(zhǔn)建立了信息服務(wù)技術(shù)質(zhì)量認(rèn)證指標(biāo)體系,包括服務(wù)技術(shù)條件與設(shè)施質(zhì)量、服務(wù)過程質(zhì)量、服務(wù)效用質(zhì)量三個(gè)維度,分別評價(jià)信息服務(wù)的基礎(chǔ)建設(shè)、系統(tǒng)交互與信息質(zhì)量三個(gè)方面。政務(wù)信息服務(wù)是指政府部門通過官方媒體、政府網(wǎng)站、行政許可中心、圖書館、檔案館多種渠道滿足公眾信息需求的活動(dòng),包括信息告知、主動(dòng)信息公開、依申請公開、數(shù)據(jù)開放等方式。王芳等構(gòu)建了地方政府網(wǎng)站信息公開的評價(jià)指標(biāo)體系,包括公開內(nèi)容、公開方式、監(jiān)督保障、信息安全、信息組織、信息表達(dá)方式、互動(dòng)交流等七個(gè)維度[21];之后又從用戶視角構(gòu)建了政府?dāng)?shù)據(jù)質(zhì)量評價(jià)指標(biāo)體系,包含數(shù)據(jù)源、數(shù)據(jù)集、數(shù)據(jù)環(huán)境三大維度和可靠性、規(guī)范性、真實(shí)性、準(zhǔn)確性、適配性等15個(gè)指標(biāo)[22]。

      2.3 智能問答系統(tǒng)測評研究

      問答服務(wù)廣泛應(yīng)用于電子商務(wù)、知識社區(qū)、醫(yī)療健康等場景,主要包括以機(jī)器智能為主的智能問答和以人類智能為主的社區(qū)問答兩大類。政務(wù)智能問答系統(tǒng)的主要功能是為公眾提供政務(wù)信息咨詢服務(wù),其評價(jià)不僅涉及信息服務(wù)質(zhì)量評價(jià)、智能問答系統(tǒng)測評,而且也有必要借鑒社區(qū)問答系統(tǒng)(例如知乎)評價(jià)和電商平臺智能客服評價(jià)的相關(guān)研究成果。

      (1)智能問答系統(tǒng)測評

      “智能問答系統(tǒng)”測評研究最早可追溯至上世紀(jì)50年代的“圖靈測試”[23]。經(jīng)過半個(gè)世紀(jì)的發(fā)展,針對智能系統(tǒng)的測評可分為問題解決能力、回復(fù)質(zhì)量、用戶易用性、場景適用性四個(gè)方面。

      在問題解決能力方面,1999年舉辦的TREC(文本檢索會議)首次引入“問答測評”(簡稱QAtrack)環(huán)節(jié)以測評檢索系統(tǒng)的問題解決能力。QAtrack將MRR(Mean Reciprocal Rank,是將標(biāo)準(zhǔn)答案在系統(tǒng)給出結(jié)果中的排序取倒數(shù)作為它的準(zhǔn)確度,再對所有問題取平均得到的指標(biāo))、準(zhǔn)確率(Accuracy)、置信權(quán)重分?jǐn)?shù)(CWS)作為主要評價(jià)指標(biāo)。吳友政等據(jù)此建立了漢語問答系統(tǒng)測評平臺(簡稱EPCQA),采用MRR、事例召回率、事例準(zhǔn)確率、片段召回率以及片段準(zhǔn)確率等指標(biāo)來測評問答系統(tǒng)的性能[24]。Noraset等基于維基百科知識庫構(gòu)建了能夠回答泰語問題的問答系統(tǒng)“WabiQA”,主要指標(biāo)有準(zhǔn)確率、召回率以及F1值[25]。

      在回復(fù)質(zhì)量方面,問答系統(tǒng)評價(jià)常常借用機(jī)器翻譯的評價(jià)指標(biāo)。例如2002年IBM研發(fā)的BLEU系統(tǒng)以詞重疊度來測評回復(fù)生成質(zhì)量,認(rèn)為回復(fù)語句與參考答案之間的詞語共現(xiàn)次數(shù)越多則回復(fù)生成質(zhì)量越高[26]。在BLEU基礎(chǔ)上改進(jìn)的METEOR系統(tǒng),運(yùn)用WordNet計(jì)算特定的序列匹配、同義詞、詞根和詞綴、釋義之間的匹配關(guān)系作為測評指標(biāo)[27]。在詞重疊度的基礎(chǔ)上,也有學(xué)者通過計(jì)算詞、句相似度來測評回復(fù)生成質(zhì)量,如Greedy Matching、Embedding Average、Vector Extrema等基于詞向量的方法[28]和句子語義相似度方法[29]。

      在用戶易用性方面,騰訊AI Lab的李菁等人構(gòu)建了一個(gè)大規(guī)模人工標(biāo)注中文對話數(shù)據(jù)集,而后邀請專業(yè)人員根據(jù)系統(tǒng)回復(fù)的相關(guān)性、連貫性、信息性、趣味性等指標(biāo)對文本數(shù)據(jù)進(jìn)行五級評分[30]。Roque等借助可用性測試量表,邀請17位醫(yī)護(hù)人員與患者對智能問答系統(tǒng)所回復(fù)的傷口處理相關(guān)信息質(zhì)量進(jìn)行評價(jià),指標(biāo)主要包括學(xué)習(xí)性、效用性、記憶性、容錯(cuò)性以及滿意性[31]。

      在場景適用性方面,Diekema等對航天工程問答系統(tǒng)進(jìn)行了多維度評價(jià),指標(biāo)包括系統(tǒng)性能(速度、可靠性)、答案質(zhì)量(完整性、精確性、相關(guān)性等)、數(shù)據(jù)庫內(nèi)容(數(shù)據(jù)源質(zhì)量、規(guī)模、時(shí)效性)、用戶交互(文本理解能力、問題格式化能力等)和用戶期望[32]。顧麗燕等根據(jù)用戶滿意度、運(yùn)營狀況、智能水平和技術(shù)先進(jìn)性4個(gè)維度對不同的智能客服機(jī)器人進(jìn)行了場景對應(yīng)評價(jià),其中用戶滿意度指標(biāo)包含問題解決率以及答案滿意率,兩指標(biāo)均需用戶主觀評價(jià)[33]。

      (2)電子商務(wù)智能客服相關(guān)研究

      電子商務(wù)智能客服得到較為深入的研究,尤其是用戶視角的實(shí)證研究,可以為政務(wù)智能問答服務(wù)評價(jià)提供借鑒。王旭勇從客服管理投入的視角構(gòu)建了企業(yè)智能客服評分指標(biāo)體系,包括客服服務(wù)投入程度、客服服務(wù)知識管理水平、新型技術(shù)應(yīng)用等維度[34]。宋雙永等提出智能客服在解決客戶高頻業(yè)務(wù)問題的同時(shí),也需要提供類人服務(wù)以提高客戶整體滿意度,包括用戶情感檢測、用戶情感安撫、情感生成式語聊、客服服務(wù)質(zhì)檢、會話滿意度預(yù)估和智能人工入口[35]。宋倩茜與馬雙發(fā)現(xiàn),隨著技術(shù)的不斷升級,人工智能在反應(yīng)速度、回答問題的準(zhǔn)確性上有很大提升,在功能價(jià)值和體驗(yàn)價(jià)值方面與人工客服的差距正在變小,但在給予顧客情感價(jià)值方面仍有較大差距[36]。吳薇等發(fā)現(xiàn)擬人化、AI精確性、AI靈活性、AI及時(shí)性和AI可靠性可提升消費(fèi)者的認(rèn)知滿意度或服務(wù)績效確認(rèn)[37]。吳繼飛等發(fā)現(xiàn),消費(fèi)者認(rèn)為智能客服在不確定性高的需求狀態(tài)下更缺乏能力,進(jìn)而導(dǎo)致智能客服厭惡效應(yīng),通過賦予智能客服應(yīng)對不確定性能力的策略,可以有效削弱厭惡效應(yīng)[38]。

      (3)社區(qū)問答服務(wù)測評

      社區(qū)問答平臺的回復(fù)者主要是掌握專業(yè)知識的個(gè)人,目前也在嘗試使用智能客服,其信息質(zhì)量受到問題本身及回復(fù)者等多方面因素影響。社區(qū)問答研究中關(guān)于回復(fù)信息質(zhì)量的評價(jià)指標(biāo)對于本研究有一定的借鑒意義,比如:李翔宇等[39]構(gòu)建的社區(qū)問答回復(fù)質(zhì)量評價(jià)指標(biāo)體系中的內(nèi)容維度與認(rèn)知應(yīng)用維度;沈洪洲等[40]發(fā)現(xiàn)文本長度、情感強(qiáng)度、標(biāo)記數(shù)量三個(gè)指標(biāo)與用戶滿意度正相關(guān);沈旺等[41]提出的社會化問答信息可信度評價(jià)模型包含的信息源、信息內(nèi)容和結(jié)構(gòu)、媒介三個(gè)維度。Zhu等[42]針對Answerbag構(gòu)建的回復(fù)質(zhì)量評價(jià)指標(biāo)體系,包含簡明性、易讀性、完整性、相關(guān)性、真實(shí)性、文明性和信息量七個(gè)指標(biāo);鮑時(shí)平[43]從文獻(xiàn)中歸納出社會化問答平臺質(zhì)量評價(jià)體系,包含平臺設(shè)計(jì)、平臺運(yùn)行、信息內(nèi)容、信息服務(wù)四個(gè)維度和16個(gè)三級指標(biāo)。

      2.4 政務(wù)智能問答系統(tǒng)的語義理解能力

      智能問答系統(tǒng)可分為開放領(lǐng)域問答系統(tǒng)和限定領(lǐng)域問答系統(tǒng)[44]。開放型智能問答系統(tǒng)不限制對話主題范圍,如ChatGPT、“小度”聊天機(jī)器人、科大訊飛聊天機(jī)器人等;而限定領(lǐng)域問答系統(tǒng)則主要為提問者解決特定領(lǐng)域的問題,如訂票助手、電商客服等。與ChaGPT等聊天機(jī)器人相比,限定領(lǐng)域問答系統(tǒng)對于專業(yè)性和準(zhǔn)確性都有更高的要求。政務(wù)智能問答系統(tǒng)是一類針對公共服務(wù)事項(xiàng)的限定領(lǐng)域問答系統(tǒng)。例如,哥倫比亞政府采用FAQ文檔庫、本體擴(kuò)展詞、語義網(wǎng)以及EuroWordNet等技術(shù)為公眾提供政務(wù)咨詢[45];廣州市政府信息化中心推出的智能服務(wù)機(jī)器人云平臺系統(tǒng),可以實(shí)現(xiàn)多輪會話以及模糊問題引導(dǎo)[46]。

      政府網(wǎng)站的目標(biāo)用戶覆蓋面廣泛,受教育水平、信息素養(yǎng)以及對政府事務(wù)的了解程度各不相同。為降低用戶使用政府網(wǎng)站智能問答系統(tǒng)的行政負(fù)擔(dān),需要不斷提高系統(tǒng)的語義理解能力。智能問答系統(tǒng)涉及自然語言理解(NLU)、狀態(tài)跟蹤器、對話策略、自然語言生成(NLG)等技術(shù)[47]。其中,NLU是體現(xiàn)問答系統(tǒng)語言與邏輯智能的關(guān)鍵,其下游任務(wù)有檢索、問答等[48-49]。NLU技術(shù)包括共指消解、命名實(shí)體識別、文本推理、情感感知、知識推理等多種任務(wù)[50]。在政務(wù)智能問答實(shí)踐中,用戶的知識背景與表達(dá)習(xí)慣存在個(gè)體差異,最終輸入到問答系統(tǒng)的語句具有明顯的口語化特征[51]。這些口語化的語言表達(dá)不一定符合邏輯和語法規(guī)則,而且摻雜了許多無用詞匯,為智能問答系統(tǒng)的答疑制造了障礙。

      衡量系統(tǒng)是否真正理解用戶意圖的最直接標(biāo)準(zhǔn)是在接收用戶信息后能否通過反饋答案達(dá)到用戶的指定目標(biāo)[52]。政府網(wǎng)站智能客服系統(tǒng)的主要目的是理解和滿足用戶的政務(wù)咨詢需求,因此需要具備同義文本理解、上下文感知、自動(dòng)糾錯(cuò)、多語種翻譯等能力。王友奎等[4]采用模擬用戶的方法,利用測試關(guān)鍵詞與問句對我國政府網(wǎng)站問答系統(tǒng)的知識儲備進(jìn)行了測評,發(fā)現(xiàn)整體上仍處于起步和摸索階段。為了進(jìn)一步評估政府網(wǎng)站智能問答系統(tǒng)的語義理解能力,本研究依據(jù)系統(tǒng)對不同類型語言問題的解答情況來判斷其語義理解能力。由于各網(wǎng)站后臺對所采用的自然語言理解技術(shù)進(jìn)行了加密管理,無法得到具體的技術(shù)細(xì)節(jié),因此本文將按照語言學(xué)規(guī)則編制相應(yīng)問題,通過不同類型的問題測試結(jié)果反推政府網(wǎng)站智能客服的語義理解能力。

      3 政府網(wǎng)站智能問答系統(tǒng)評價(jià)指標(biāo)體系構(gòu)建

      評價(jià)指標(biāo)體系的構(gòu)建過程一般包含指標(biāo)提取、指標(biāo)體系構(gòu)建、指標(biāo)權(quán)重確定、評價(jià)測試四個(gè)階段。政府網(wǎng)站智能問答系統(tǒng)的評價(jià)指標(biāo)來源主要為文獻(xiàn)分析和案例研究。首先,對相關(guān)文獻(xiàn)和理論進(jìn)行分析,從中提取相關(guān)指標(biāo)(見表1);其次,對省級政府門戶網(wǎng)站的智能問答系統(tǒng)進(jìn)行初步調(diào)查,根據(jù)試用體驗(yàn)選擇3個(gè)系統(tǒng)進(jìn)行案例分析,提取可用指標(biāo);再次,借助德爾菲法,根據(jù)各指標(biāo)內(nèi)涵進(jìn)行取舍合并和歸納分層;第四,運(yùn)用AHP層次分析法、專家調(diào)查、小組討論等方法確定各指標(biāo)權(quán)重;第五,構(gòu)建部分指標(biāo)的測試題集;最后,對指標(biāo)體系進(jìn)行評價(jià)測試。

      3.1 政務(wù)智能問答系統(tǒng)評價(jià)相關(guān)指標(biāo)提取

      3.1.1 文獻(xiàn)指標(biāo)提取

      通過文獻(xiàn)分析初步選取24個(gè)指標(biāo),根據(jù)指標(biāo)的隸屬關(guān)系將其劃分為系統(tǒng)、信息、用戶三大類,如表1所示。

      3.1.2 案例指標(biāo)提取

      為進(jìn)一步貼合政務(wù)咨詢的應(yīng)用場景,對現(xiàn)有30個(gè)省級政府網(wǎng)站的智能問答系統(tǒng)進(jìn)行試用體驗(yàn),對表現(xiàn)優(yōu)異的系統(tǒng)進(jìn)行案例分析,將其服務(wù)功能轉(zhuǎn)化為評價(jià)指標(biāo)。根據(jù)準(zhǔn)入理論,按照“使用前-使用中-使用后”的順序記錄試用體驗(yàn)。依據(jù)試用結(jié)果,選取上海(政務(wù)助理小申)、浙江(智能客服小浙)、廣東(智能問答平臺)三個(gè)便捷性高、服務(wù)意識強(qiáng)的系統(tǒng)作為典型案例。通過對案例系統(tǒng)試用記錄進(jìn)行編碼分析提取評價(jià)指標(biāo),如表2所示。

      表2 案例指標(biāo)提取Table 2 Extracting Indicators from Cases

      3.2 基于行政負(fù)擔(dān)理論的指標(biāo)分析

      政府利用數(shù)字技術(shù)的目的是通過自動(dòng)化、智能化、替代等具體方式降低公民行政負(fù)擔(dān),但如果技術(shù)使用不當(dāng)也會導(dǎo)致行政負(fù)擔(dān)不降反升[6]。為降低用戶使用政務(wù)智能問答系統(tǒng)的學(xué)習(xí)成本,系統(tǒng)需要快速、準(zhǔn)確地理解用戶含糊、不完整或不準(zhǔn)確的提問;為降低用戶因使用系統(tǒng)的合規(guī)成本,需要盡可能縮短系統(tǒng)反應(yīng)時(shí)間,提高交互效率;為降低用戶的負(fù)面情緒與心理成本,需要通過友好、人性化的交互設(shè)計(jì)和富有情感的信息表達(dá)改善用戶體驗(yàn)。基于行政負(fù)擔(dān)理論對評價(jià)指標(biāo)進(jìn)行分析和歸納,結(jié)果如表3所示。其中,上下文感知、同義理解、自動(dòng)糾錯(cuò)、多語種翻譯等指標(biāo)反映了系統(tǒng)的語義理解能力。

      表3 基于行政負(fù)擔(dān)理論的指標(biāo)分析Table 3 Indicator Analysis Based on the Theory of Administrative Burden

      3.3 指標(biāo)分層

      用戶向智能問答系統(tǒng)提問的過程實(shí)質(zhì)上是人機(jī)交互的過程,因此對問答系統(tǒng)的評價(jià)應(yīng)該在關(guān)注語義理解能力的同時(shí),關(guān)注用戶體驗(yàn)。將所提取的指標(biāo)進(jìn)行整合、取舍和分層,最終形成以降低用戶行政負(fù)擔(dān)為目標(biāo)的“問題解決質(zhì)量”“服務(wù)交互質(zhì)量”與“基礎(chǔ)建設(shè)質(zhì)量”三大維度,如圖1所示。其中,“問題解決質(zhì)量”最為核心,旨在降低用戶的合規(guī)成本,對應(yīng)了回復(fù)信息的質(zhì)量與效率;“服務(wù)交互質(zhì)量”對應(yīng)用戶與客服的交互過程,用于衡量系統(tǒng)的交互能力,旨在降低用戶的學(xué)習(xí)成本和心理成本;“基礎(chǔ)建設(shè)質(zhì)量”用于衡量系統(tǒng)建設(shè)情況,旨在降低用戶的學(xué)習(xí)成本、心理成本和合規(guī)成本。其中,B1問題解決質(zhì)量與B3基礎(chǔ)建設(shè)質(zhì)量都需要系統(tǒng)的語義理解能力給予支撐。

      圖1 政府網(wǎng)站智能問答系統(tǒng)評價(jià)維度Fig.1 Evaluation Dimensions of the Intelligent Q&A Systems on Government Websites

      3.4 指標(biāo)權(quán)重確立

      權(quán)重可以有效衡量各指標(biāo)對于評價(jià)總目標(biāo)的貢獻(xiàn)程度,體現(xiàn)評價(jià)的價(jià)值導(dǎo)向作用[56]。本文結(jié)合層次分析法(AHP)和專家調(diào)查法確定一級指標(biāo)和二級指標(biāo)的權(quán)重,三級指標(biāo)權(quán)重則通過案例分析與小組討論予以分配。

      3.4.1 專家調(diào)查

      運(yùn)用層次分析法(AHP)建立指標(biāo)遞階層次結(jié)構(gòu),通過 Saaty 的“1-9 標(biāo)度法”構(gòu)建判斷矩陣,邀請相關(guān)專家對各層次要素進(jìn)行兩兩比較評分。評分專家來自高校電子政務(wù)或信息系統(tǒng)領(lǐng)域、政府信息化或業(yè)務(wù)部門以及互聯(lián)網(wǎng)企業(yè)產(chǎn)品業(yè)務(wù)領(lǐng)域。共計(jì)發(fā)放專家調(diào)查表24份,收回20份。利用在線分析軟件SPSSPRO對20位專家構(gòu)建的80個(gè)判斷矩陣進(jìn)行一致性檢驗(yàn),有14位專家的評分通過了一致性檢驗(yàn),通過率達(dá)70%,表明由此確定的權(quán)重值可行性較高。

      3.4.2 權(quán)重計(jì)算

      以14份有效調(diào)查結(jié)果計(jì)算指標(biāo)權(quán)重。首先,計(jì)算14位專家權(quán)重評分的算術(shù)平均值,得到層次單排序結(jié)果。通過加權(quán)得到最終的層次總排序計(jì)算結(jié)果,如附錄1所示。三級指標(biāo)涉及特定領(lǐng)域的問題與功能,在專家尚未對實(shí)際政務(wù)問答系統(tǒng)案例進(jìn)行分析時(shí),難以對細(xì)化指標(biāo)權(quán)重做出合理賦值,所以采用案例分析與小組討論的方式確定三級指標(biāo)的權(quán)重。在此過程中,3名討論小組成員均為南開大學(xué)政府大數(shù)據(jù)課題組成員,該課題組具備15年以上電子政務(wù)領(lǐng)域的理論研究基礎(chǔ)與實(shí)踐調(diào)查經(jīng)歷。在正式討論之前,3名小組成員分別挑選了10個(gè)省級政府網(wǎng)站中的智能客服系統(tǒng)進(jìn)行深度試用體驗(yàn),結(jié)合專業(yè)知識根據(jù)不同的表達(dá)習(xí)慣對五種類型的問題進(jìn)行初步測試,同時(shí)記錄各系統(tǒng)的附加功能情況。在試用結(jié)束后,3人將試用情況匯總,進(jìn)入集體討論環(huán)節(jié)。討論結(jié)果認(rèn)為應(yīng)當(dāng)結(jié)合系統(tǒng)的實(shí)際表現(xiàn)與問題類型出現(xiàn)的頻率,對C1對應(yīng)的五個(gè)三級指標(biāo)進(jìn)行權(quán)重確定,討論過程如表4所示:

      表4 小組討論分析過程Table 4 The Process of Group Discussion and Analysis

      考慮到糾偏能力以及交互回復(fù)能力雖然能更好地體現(xiàn)系統(tǒng)語義理解能力,但在實(shí)際的案例體驗(yàn)中小組成員發(fā)現(xiàn)多數(shù)系統(tǒng)語義理解能力不強(qiáng),若將錯(cuò)誤型、省略型問題權(quán)重設(shè)置過高將拉低整體測評水平。最終,將C1的三級指標(biāo)權(quán)重做如下排序:高頻型問題>同義型問題>錯(cuò)誤型問題>省略型問題=英文型問題。同時(shí),通過對不同問題個(gè)數(shù)的設(shè)置進(jìn)行指標(biāo)權(quán)重的區(qū)分:共設(shè)置問題100個(gè),其中高頻型問題60個(gè),同義問題20個(gè),錯(cuò)誤式問題10個(gè),省略式問題5個(gè),英文問題5個(gè)。

      在指標(biāo)C3“信息質(zhì)量”中,基于目的性和效用性原則,3位成員均認(rèn)為信息完整性遠(yuǎn)比信息規(guī)范性重要,外加在本研究中完整性指標(biāo)比規(guī)范性指標(biāo)更具可測性,故將完整性權(quán)重設(shè)置為80%,規(guī)范性權(quán)重設(shè)置為20%。

      在指標(biāo)C7“功能建設(shè)”中,小組成員認(rèn)為“地區(qū)導(dǎo)航”與“熱點(diǎn)服務(wù)”分別有利于用戶具體化、便利化解決問題,故兩者權(quán)重可劃為等同,而具備使用說明對于用戶使用系統(tǒng)起到重要的引導(dǎo)作用,可以減少用戶的試錯(cuò)成本,其重要性同樣不可忽視。輸入聯(lián)想功能雖然可以幫助用戶快速輸入問題,但該功能屬于“錦上添花”型功能,系統(tǒng)若不具備,用戶可以手動(dòng)錄入。基于上述考慮,作者將“具備使用說明”“地區(qū)導(dǎo)航”“熱點(diǎn)服務(wù)”三者權(quán)重均設(shè)置為30%,“輸入聯(lián)想功能”設(shè)置為10%。

      在指標(biāo)C8“系統(tǒng)性能”中,運(yùn)行穩(wěn)定性強(qiáng)的系統(tǒng)可以保障用戶的交互體驗(yàn),終端兼容性強(qiáng)的系統(tǒng)可以允許用戶在移動(dòng)設(shè)備中進(jìn)行提問,二者難分伯仲,故將其權(quán)重均設(shè)置為50%。

      最后,二級指標(biāo)C2、C4、C5、C6、C9下各僅包含一個(gè)三級指標(biāo),故直接繼承上級指標(biāo)權(quán)重。由此,全部指標(biāo)權(quán)重設(shè)立完成,形成完整的政府網(wǎng)站智能問答系統(tǒng)評價(jià)指標(biāo)體系,共計(jì)3個(gè)一級指標(biāo),9個(gè)二級指標(biāo)和18個(gè)三級指標(biāo),如表5所示。

      表5 政府網(wǎng)站智能問答系統(tǒng)評價(jià)指標(biāo)體系Table 5 The Evaluation Index System for Intelligent Q&A Systems on Government Websites

      4 測評問題的編制

      如表5所示,問題解決質(zhì)量是問答系統(tǒng)評價(jià)的首要目標(biāo),而語義理解能力則是提高問答系統(tǒng)問題解決質(zhì)量的關(guān)鍵所在。在進(jìn)行實(shí)際測評的過程中,問題解決質(zhì)量維度的指標(biāo)主要通過構(gòu)建測試題集進(jìn)行客觀評分。為了從同義文本理解、自動(dòng)糾錯(cuò)、上下文感知、多語種翻譯等多個(gè)方面測評智能客服的語義理解能力,構(gòu)建五種不同類型的問題,包括高頻問題、同義問題、錯(cuò)誤式問題、省略式問題和英文問題五類。服務(wù)交互質(zhì)量和基礎(chǔ)建設(shè)質(zhì)量兩個(gè)維度的評分主要是評分者在測評過程中,通過觀察、測試和分析比較進(jìn)行評分。

      4.1 高頻問題的編制

      本文將“高頻問題集”定義為含有高頻政務(wù)事項(xiàng)主題詞的標(biāo)準(zhǔn)化問句集合。因無法獲取各系統(tǒng)后臺的知識庫數(shù)據(jù),也難以窮盡公民的全部咨詢事項(xiàng),因此通過獲取高頻政務(wù)事項(xiàng)主題詞的方式構(gòu)建政務(wù)咨詢問題,從對高頻問題的解答質(zhì)量來推斷系統(tǒng)知識庫儲備的豐富程度。高頻問題集的制作思路如下。

      首先,使用八爪魚數(shù)據(jù)采集軟件,爬取山東、江蘇、上海、貴州等26個(gè)省級政府網(wǎng)站的公民留言板、市長郵箱共7,632條原始數(shù)據(jù),剔除空值及字符數(shù)小于3的文本后,保留7,021條數(shù)據(jù)。隨后利用“微詞云”在線分詞工具對7,021條數(shù)據(jù)進(jìn)行分詞處理并構(gòu)建詞庫。與此同時(shí),選取23個(gè)具備問題推薦模塊的政府網(wǎng)站智能客服系統(tǒng),通過人工下載的方式獲取全部推薦問題文本,進(jìn)行分詞處理并構(gòu)建詞庫。通過人工篩選的方式去除無實(shí)義動(dòng)詞和名詞。將兩個(gè)詞庫中的高頻政務(wù)詞語進(jìn)行對比,重復(fù)率接近75%。由此判斷,政府網(wǎng)站上公民留言的高頻問題與智能客服推薦的用戶常問問題具備較高相似度,利用公民留言的政務(wù)詞語進(jìn)行問題編制具備代表性和一定的補(bǔ)充作用。

      按照詞頻將最高頻的60個(gè)主題詞作為問題構(gòu)建的關(guān)鍵詞。隨后,將60個(gè)關(guān)鍵詞作為查找項(xiàng)分別在國務(wù)院提出的全國高頻政務(wù)服務(wù)事項(xiàng)清單、濟(jì)南市100項(xiàng)高頻事務(wù)清單等7份高頻政務(wù)事項(xiàng)清單中進(jìn)行對比,重合率接近88%,以此對高頻詞選擇結(jié)果進(jìn)行二次驗(yàn)證。提取高頻事項(xiàng)清單中的對應(yīng)事項(xiàng),改編成高頻問題集,排名前21的高頻問題見表6。

      表6 排名前21的高頻問題匯編表Table 6 The Top 21 High-frequency Questions

      4.2 同義問題編制

      因不同用戶存在知識水平與表達(dá)方式的差異,外加部分系統(tǒng)不能提供規(guī)范的提問句式,因此有必要模擬這類應(yīng)用場景進(jìn)行同義問題的編制。根據(jù)用戶對咨詢事務(wù)描述的清晰程度進(jìn)行同義改寫,將其劃分為表述清晰、表述欠妥、表述模糊三個(gè)等級:

      (1)表述清晰的問題:表現(xiàn)為用戶可以明確具體的辦理事項(xiàng),同時(shí)能夠用精簡的語言表述自己的咨詢需求,上文中編制的標(biāo)準(zhǔn)化高頻問題均屬此類。然而在實(shí)際中,用戶往往因用詞習(xí)慣不同,易將同義不同形的術(shù)語或概念使用到提問中,但其目的均是對相同問題進(jìn)行發(fā)問[57]。在政務(wù)事項(xiàng)中,該現(xiàn)象主要集中在政務(wù)名詞或動(dòng)詞的同義替換方面,如:Q1:“怎樣申領(lǐng)建筑施工企業(yè)安全生產(chǎn)許可證?”與Q2:“怎樣申領(lǐng)建筑施工企業(yè)安許證?”,兩問句的區(qū)別在于“安全許可證”與“安許證”,后者為前者簡稱,兩者形異義同。再如Q3:“如何補(bǔ)交住房公積金?”與Q4:“如何補(bǔ)繳住房公積金?”,兩者的差別在于實(shí)義動(dòng)詞“補(bǔ)交”與“補(bǔ)繳”形異義同。

      (2)表述欠妥的問題:表現(xiàn)為用戶知悉要辦理的政務(wù)事項(xiàng),但用詞構(gòu)句欠妥。例如Q5:“非機(jī)動(dòng)車如何登記?”與Q6:“電動(dòng)自行車如何登記?”,Q5的“非機(jī)動(dòng)車”與Q6的“電動(dòng)自行車”為包含關(guān)系,但用戶可能會根據(jù)自身實(shí)際情況使用“電動(dòng)自行車”進(jìn)行提問。

      (3)表述模糊的問題:表現(xiàn)為用戶僅僅明了自身問題,但無法清晰表達(dá)該問題對應(yīng)的政務(wù)事項(xiàng)。如Q7:“如何對流動(dòng)人員的人事檔案進(jìn)行接收?”與Q8:“本科畢業(yè)后去英國留學(xué),學(xué)生檔案將如何保管?”,與Q7相比,Q8的提問者難以將留學(xué)人員與流動(dòng)人員對應(yīng),其次,學(xué)生檔案與人事檔案的表述相比不夠正式。在此類表述不清晰的問題中,用戶易引入無用詞匯,從而可能導(dǎo)致問答系統(tǒng)的識別錯(cuò)誤。通過構(gòu)建此類問題恰好能測試智能問答系統(tǒng)的精準(zhǔn)識別能力。

      依據(jù)上述三種規(guī)則對問題進(jìn)行同義改編,因不同系統(tǒng)存在差異,在進(jìn)行系統(tǒng)測試時(shí),盡量保持各類型問題數(shù)量與比例的均衡。

      4.3 錯(cuò)誤式問題編制

      錯(cuò)誤問題的輸入是為了測試智能客服對于錯(cuò)誤文本的自動(dòng)校對能力,包括對文本的自動(dòng)查錯(cuò)與自動(dòng)糾偏。借鑒劉亮亮[58]對中文文本錯(cuò)誤的分類,以逆向思維對正確問題進(jìn)行錯(cuò)誤式改編。劉亮亮認(rèn)為中文文本在問答系統(tǒng)中容易出現(xiàn)四類錯(cuò)誤,分別為:替換錯(cuò)誤、多字錯(cuò)誤、缺字錯(cuò)誤以及標(biāo)點(diǎn)錯(cuò)誤。替換錯(cuò)誤指文本中的某個(gè)字被同音或形似字符替代的錯(cuò)誤,多字錯(cuò)誤指輸入過程中某個(gè)字重復(fù)輸入導(dǎo)致的錯(cuò)誤,缺字錯(cuò)誤則指少字或詞導(dǎo)致文本不完整的錯(cuò)誤,標(biāo)點(diǎn)錯(cuò)誤則指標(biāo)點(diǎn)用法不當(dāng)?shù)腻e(cuò)誤。經(jīng)試用體驗(yàn)并結(jié)合用戶輸入習(xí)慣可知,前三種錯(cuò)誤在實(shí)際的鍵盤輸入過程中較為常見,最后一種標(biāo)點(diǎn)錯(cuò)誤雖時(shí)有出現(xiàn),但由于問答系統(tǒng)對該類型錯(cuò)誤的感知性較低,故針對前三種錯(cuò)誤類型各設(shè)置3道改編問題,對最后一種錯(cuò)誤類型僅設(shè)置1道問題,共編制10道錯(cuò)誤式問題。

      4.4 省略式問題編制

      省略式問題指連續(xù)發(fā)問、無錯(cuò)誤的中文問題,設(shè)置該類問題是為了測試問答系統(tǒng)的多輪交互能力。部分用戶在使用過程中存在連續(xù)追問的情形,但由于個(gè)人表達(dá)習(xí)慣差異,用戶容易對追問語句進(jìn)行省略式輸入。其中,零形回指的情形最為常見。零形回指是一種在語義上在前文已出現(xiàn)所指對象,而在形式上卻無實(shí)在詞語的回指形式,是漢語中重要的回指形式之一[59]。例如Q1:“今天上海的天氣怎么樣?”與Q2:“那明天的怎么樣呢?”,兩問句建立在銜接語境當(dāng)中,問句Q2采用零形回指,指代的先行詞是Q1中出現(xiàn)的上海天氣,故Q2的完整形式應(yīng)是:“那明天上海的天氣怎么樣呢?”。要想在該提問方式下獲得正確答復(fù),要求智能問答系統(tǒng)具備上下文語境分析的能力,通過對Q1與Q2的綜合語義理解,正確識別用戶意圖。

      因政務(wù)事項(xiàng)咨詢中實(shí)義動(dòng)詞至關(guān)重要,因此不采用零形回指指代謂語,而只以指代主語與指代賓語的方式構(gòu)建省略式問題?,F(xiàn)針對兩種方式各舉一例:針對“省略主語”構(gòu)建問題Q3:“退役士兵有哪些優(yōu)待政策?”與 Q4:“有哪些安置條例?”。針對“省略賓語”構(gòu)建問題Q5:“補(bǔ)辦身份證的條件是什么?”與Q6:“應(yīng)當(dāng)去哪里辦理呢?”。

      4.5 英文問題編制

      編制英文問題的目的是測試智能客服的英文理解能力。雖然中文問題文本字符數(shù)較短,但翻譯成對應(yīng)英文問題后,文本字符數(shù)超出部分問答系統(tǒng)的字?jǐn)?shù)限制,無法進(jìn)行測試。為保障測試的一致性,提取中文問題中的主題詞,對60個(gè)主題詞進(jìn)行翻譯,最終以包含政務(wù)主題詞的英文短語形式進(jìn)行提問。

      基于上述規(guī)則構(gòu)建的問題實(shí)例詳見附錄2。

      5 評價(jià)指標(biāo)體系檢驗(yàn)

      為了檢驗(yàn)評價(jià)指標(biāo)體系的可用性,于2022年3月15日至16日對能夠正常運(yùn)行的30個(gè)省級政府網(wǎng)站的智能問答系統(tǒng)進(jìn)行統(tǒng)一測評。交互服務(wù)質(zhì)量與基礎(chǔ)建設(shè)質(zhì)量由課題組兩位成員依據(jù)評分細(xì)則進(jìn)行獨(dú)立評分,問題解決質(zhì)量則由兩位評分人運(yùn)用測試題集進(jìn)行獨(dú)立評分,之后進(jìn)行一致性信度檢驗(yàn),并通過協(xié)商得到最終評分結(jié)果。受篇幅影響,本研究只簡要報(bào)告測評結(jié)果作為指標(biāo)體系可用性的檢驗(yàn),詳細(xì)的測評過程另文發(fā)表[60]。

      經(jīng)過整體測評,在滿分為5分的情況下,30個(gè)省級政府網(wǎng)站智能問答系統(tǒng)最終得分位于[0.86,4.10]區(qū)間之內(nèi),平均得分為2.73,中位數(shù)為2.72,以3分為及格線,僅有9地系統(tǒng)達(dá)標(biāo),不及三分之一(見圖2)。其中,上海市以4.10分的成績位居第一,浙江省以4.07分的成績次之。上述評價(jià)表明結(jié)果,本研究所構(gòu)建的政府網(wǎng)站智能問答系統(tǒng)評價(jià)指標(biāo)體系區(qū)分度良好,可以反映政府網(wǎng)站智能問答系統(tǒng)的實(shí)際情況,具有較強(qiáng)的可用性。

      圖2 省級政府網(wǎng)站智能問答服務(wù)整體得分排名Fig.2 Score Ranking of Intelligent Q&A Services on Provincial Government Websites

      6 結(jié)論、討論與展望

      優(yōu)質(zhì)的政府網(wǎng)站智能客服系統(tǒng)能夠更好地理解公民的政務(wù)服務(wù)需求,降低咨詢服務(wù)過程中的行政負(fù)擔(dān)和人工成本。本文通過理論回顧、文獻(xiàn)分析與案例研究,構(gòu)建了政府網(wǎng)站智能客服評價(jià)指標(biāo)體系,并基于專家調(diào)查法和層次分析法確定了指標(biāo)權(quán)重。該評價(jià)指標(biāo)體系包括問題解決質(zhì)量(問題解決率、解答效率、信息質(zhì)量)、服務(wù)交互質(zhì)量(共情服務(wù)、人工支持、效果評價(jià))、基礎(chǔ)建設(shè)質(zhì)量(功能建設(shè)、系統(tǒng)性能、界面設(shè)計(jì))3個(gè)一級指標(biāo),9個(gè)二級指標(biāo)和18個(gè)三級指標(biāo),并運(yùn)用專家調(diào)查法和試測評確定了指標(biāo)權(quán)重。該指標(biāo)體系反映了提高政府網(wǎng)站語義理解能力、降低用戶行政負(fù)擔(dān)的評價(jià)導(dǎo)向。

      同時(shí),針對“問題解決率”指標(biāo),本研究依據(jù)政府網(wǎng)站常問問題和高頻問題推薦,根據(jù)用戶的表達(dá)方式及輸入習(xí)慣,通過同義、錯(cuò)誤、省略、英文轉(zhuǎn)換等四種方式的改寫,編制對應(yīng)的問題,用于測試系統(tǒng)的語義理解能力。對我國30個(gè)省級政府網(wǎng)站智能問答系統(tǒng)的評價(jià)結(jié)果表明,該評價(jià)指標(biāo)體系與測評問題與政府網(wǎng)站的應(yīng)用場景相適應(yīng),能夠較為精準(zhǔn)地定位現(xiàn)有政府網(wǎng)站智能問答系統(tǒng)在實(shí)踐中面臨的語義理解問題。

      需要討論的是,本研究開始于2021年9月,在論文修改完成之后剛好趕上ChatGPT大熱。ChatGPT強(qiáng)大的對話能力對政府網(wǎng)站的智能問答系統(tǒng)提出了挑戰(zhàn),同時(shí)也對本研究構(gòu)建的政府網(wǎng)站智能問答系統(tǒng)評價(jià)指標(biāo)體系的適用性提出了考驗(yàn),但目前看來并不會影響該指標(biāo)體系對政府網(wǎng)站智能對話系統(tǒng)的應(yīng)用價(jià)值。首先,與面向通用領(lǐng)域的聊天機(jī)器人ChatGPT不同,政務(wù)智能問答系統(tǒng)是一種面向特定公共服務(wù)領(lǐng)域的機(jī)器人,所面臨的用戶問題具有顯著的領(lǐng)域特征,對回復(fù)的專業(yè)準(zhǔn)確性和效率都有更高的要求,而通用聊天機(jī)器人的優(yōu)勢則主要在于語言生成,而非專業(yè)知識。其次,由于每個(gè)地方政府在法規(guī)政策和隱性知識積累上具有極大的不同,如果將依據(jù)大規(guī)模語料訓(xùn)練的ChatGPT應(yīng)用于地方政府網(wǎng)站或部門網(wǎng)站,則還需要專門語料加以訓(xùn)練??紤]到每一種特定的政策法規(guī)并不具有大規(guī)模特點(diǎn),因此面向通用領(lǐng)域的聊天機(jī)器人未必適用于地方政府網(wǎng)站。第三,本研究所構(gòu)建的評價(jià)指標(biāo)體系對于ChatGPT也是適用的,因?yàn)镃hatGPT的評價(jià)也需要對其問題解決率、解答效率、信息質(zhì)量、共情服務(wù)、人工支持、效果評價(jià)、功能建設(shè)、系統(tǒng)性能、界面設(shè)計(jì)進(jìn)行評價(jià)和優(yōu)化。最后,考慮到評價(jià)指標(biāo)體系主要以評價(jià)結(jié)果、交互質(zhì)量和基礎(chǔ)建設(shè)為評價(jià)內(nèi)容,它對非政府網(wǎng)站的智能問答系統(tǒng)評價(jià)也具有適用性。

      未來,隨著政府網(wǎng)站智能問答系統(tǒng)性能的提升,相關(guān)的評價(jià)研究工作應(yīng)加強(qiáng)指標(biāo)的細(xì)化,比如在問題解決質(zhì)量方面加入MRR 評價(jià)指標(biāo),在均能正確回復(fù)的問答系統(tǒng)中凸顯差距,實(shí)現(xiàn)優(yōu)中選優(yōu)的目的。除此之外,研究者可選取更多的測試問題并進(jìn)行更多樣式的改寫,也可采取眾包的測試方法對受測系統(tǒng)進(jìn)行更加全面的認(rèn)知。通過精細(xì)化測評,推動(dòng)政府網(wǎng)站的智能問答系統(tǒng)向著更具智能化、人性化和個(gè)性化的方向發(fā)展。

      作者貢獻(xiàn)說明

      王芳:研究選題及思路制定,指導(dǎo)研究環(huán)節(jié),論文修改定稿;

      魏中瀚:研究方案設(shè)計(jì),數(shù)據(jù)獲取、標(biāo)注與分析,實(shí)驗(yàn)開展,論文撰寫及修改;

      連芷萱:參與研究方案設(shè)計(jì),數(shù)據(jù)獲取與標(biāo)注,論文修改。

      支撐數(shù)據(jù)

      支撐數(shù)據(jù)由作者自存儲,E-mail:wangfangnk@nankai.edu.cn。

      1.王芳,魏中瀚,連芷萱.測試題集.txt.測評問題數(shù)據(jù)集.

      2.王芳,魏中瀚,連芷萱.測評結(jié)果.xlsx.30個(gè)省級政府網(wǎng)站的智能問答系統(tǒng)測評結(jié)果.

      附錄1

      Appendix 1

      層次總排序權(quán)重計(jì)算(保留三位小數(shù))Calculation of Total Hierarchical Ranking Weights(Calculating to Three Decimal Places)A 權(quán)重值B1 問題解決質(zhì)量 0.748 B2 服務(wù)交互質(zhì)量 0.125 B1 層次權(quán)重值C1 問題解答率 0.546 C2 解答效率 0.135 C3 信息質(zhì)量 0.319 B2 層次權(quán)重值C4 共情服務(wù) 0.321 C5 人工支持 0.465 B1 C1 C2 C3 B2 C4 C5 B3 基礎(chǔ)建設(shè)質(zhì)量 0.127 C6 效果評價(jià) 0.214 B3 層次權(quán)重值C7 功能建設(shè) 0.448 C8 系統(tǒng)性能 0.430 C9 界面設(shè)計(jì) 0.122 層次權(quán)重值 問題解答率 0.408 解答效率 0.101 信息質(zhì)量 0.239 層次權(quán)重值 共情服務(wù) 0.040 人工支持 0.058 C6 效果評價(jià) 0.027 B3 層次權(quán)重值C7 功能建設(shè) 0.057 C8 系統(tǒng)性能 0.054 C9 界面設(shè)計(jì) 0.016

      附錄2

      Appendix 2

      測評問題改編實(shí)例Case of Testing Questions Adaptation

      猜你喜歡
      指標(biāo)體系智能指標(biāo)
      最新引用指標(biāo)
      莫讓指標(biāo)改變初衷
      商周刊(2018年26期)2018-12-29 12:56:00
      智能前沿
      文苑(2018年23期)2018-12-14 01:06:06
      智能前沿
      文苑(2018年19期)2018-11-09 01:30:14
      智能前沿
      文苑(2018年17期)2018-11-09 01:29:26
      智能前沿
      文苑(2018年21期)2018-11-09 01:22:32
      層次分析法在生態(tài)系統(tǒng)健康評價(jià)指標(biāo)體系中的應(yīng)用
      供給側(cè)改革指標(biāo)體系初探
      Double圖的Kirchhoff指標(biāo)
      KPI與指標(biāo)選擇
      外汇| 安吉县| 长武县| 鄂温| 白河县| 华阴市| 松滋市| 永春县| 扶余县| 望江县| 泸州市| 安图县| 雷州市| 通州区| 革吉县| 福泉市| 津南区| 安顺市| 新宾| 樟树市| 元氏县| 宜兴市| 定兴县| 霞浦县| 兰坪| 合水县| 友谊县| 莱西市| 浦东新区| 仪征市| 平武县| 巴彦淖尔市| 北辰区| 枣庄市| 河南省| 青川县| 黄平县| 贡觉县| 景泰县| 涿州市| 元阳县|