智能語音助手的知識服務(wù)能力評價研究

2019-11-20 06:54:38趙一鳴朱奕蓉吳林容

圖書與情報 2019年4期

趙一鳴朱奕蓉吳林容

摘? ?要：文章從基礎(chǔ)能力、初級知識服務(wù)能力、高級知識服務(wù)能力三個方面，篩選出十個二級指標(biāo)，通過層次分析法確定指標(biāo)權(quán)重，根據(jù)智能語音助手現(xiàn)階段的智力水平，為每個二級指標(biāo)選取了相應(yīng)的測試問題，構(gòu)建了智能語音助手的知識服務(wù)能力評價體系，最后以三個主流的智能語音助手為對象進(jìn)行了實(shí)證評價分析。構(gòu)建的評價指標(biāo)體系具有實(shí)用性和動態(tài)性，基礎(chǔ)能力的權(quán)重最大，初級知識服務(wù)能力和高級知識服務(wù)能力次之，實(shí)證研究的結(jié)果表明，現(xiàn)階段主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力，但仍然存在較大的提升空間。

關(guān)鍵詞：智能語音助手;知識服務(wù);知識服務(wù)能力;層次分析法

中圖分類號：TP242.6? ?文獻(xiàn)標(biāo)識碼：A? ?DOI：10.11968/tsyqb.1003-6938.2019070

Evaluating the Knowledge Service Capability of Intelligent Voice Assistants

Abstract In this paper， ten secondary indicators are selected from three aspects： basic ability， primary knowledge service ability and advanced knowledge service ability. Then， the index weights of these indicators are determined by analytic hierarchy process. According to the intelligence level of intelligent voice assistant at present stage， the corresponding test questions are selected for each secondary indicator， and the evaluation system of knowledge service ability of intelligent voice assistant is constructed. Finally， three mainstream intelligent voice assistants are evaluated and analyzed by this evaluation system. The evaluation index system constructed in this paper is practical and dynamic， the weight of basic ability is the largest， followed by primary knowledge service ability and advanced knowledge service ability. The empirical results show that the mainstream Chinese intelligent voice assistant has certain degree of knowledge service ability at now， but there is still much room for improvement.

Key words intelligent voice assistant; knowledge service; knowledge service ability; analytic hierarchy process

1? ?引言

近年來，隨著人工智能以及語音識別技術(shù)的不斷發(fā)展，智能語音助手逐漸為人們所熟知。目前國內(nèi)外比較成功的智能語音助手包括亞馬遜Alexa 、谷歌助手Google Assistant、蘋果 Siri、微軟 Cortana、百度度秘、咪咕靈犀、天貓精靈等。來自前瞻產(chǎn)業(yè)研究院的資料顯示，在2018年中國智能語音市場的規(guī)模已經(jīng)突破了160億元[1]。美國市場研究機(jī)構(gòu)Strategy Analytics近日發(fā)布的報告也認(rèn)為，2023年全球?qū)⒂?0%的智能手機(jī)擁有智能語音助手[2]。

智能語音助手被廣泛應(yīng)用在醫(yī)療健康服務(wù)、圖書館服務(wù)、知識管理等場景中，而在這些場景下，語音助手均可以視作知識服務(wù)主體。它需要根據(jù)用戶的語音輸入內(nèi)容識別用戶多樣化需求，再為滿足需求獲取和加工信息，最后利用內(nèi)在程序以及一些具體的功能如詩歌創(chuàng)作、知識問答、智能提醒等來反饋信息并提供服務(wù)。

目前有關(guān)智能語音助手的研究，主要集中在語音助手的設(shè)計與優(yōu)化、語音助手在不同場景中的應(yīng)用、用戶對語音助手智能程度的評價等方面，對于智能語音助手知識服務(wù)的相關(guān)研究非常匱乏。本研究試圖回答以下問題：智能語音助手是否具備一定的知識服務(wù)能力？如何評價智能語音助手的知識服務(wù)能力？應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力？

2? ?文獻(xiàn)綜述

2.1? ? 智能語音助手

現(xiàn)階段智能語音助手的相關(guān)研究有許多。一部分研究著眼于拓展智能語音助手在不同場景的應(yīng)用。如醫(yī)療健康領(lǐng)域[3-4]、智能家居應(yīng)用[5]、自動駕駛領(lǐng)域[6]、或者個人與集體的知識管理領(lǐng)域[7-8]等。另一部分研究則關(guān)注智能語音助手的設(shè)計與優(yōu)化。如從語音識別層面、語言表達(dá)層面[9]進(jìn)行分析，或者針對現(xiàn)有的開發(fā)方法和邏輯框架進(jìn)行改進(jìn)[10]。

還有一些研究，則是將注意力放在了使用智能語音設(shè)備的用戶身上。有些學(xué)者通過設(shè)計模型[11]或設(shè)置特殊場景[12]，分析用戶行為來確定用戶的滿意程度。另一些學(xué)者通過爬取用戶評論數(shù)據(jù)、收集用戶使用記錄等方式，間接獲得用戶反饋，完成對智能語音助手的評價[13]或?qū)φZ音助手進(jìn)行優(yōu)化設(shè)計[14]。也有學(xué)者直接通過問卷調(diào)查法、訪談法或?qū)嶒?yàn)法，得到不同人對語音助手智能程度的主觀評價[15]。

2.2? ? 智能產(chǎn)品評價

最著名的測試人工智能是否具有智能的方法是圖靈測試[16]，通過相互隔離的交談后是否能準(zhǔn)確分辨另一方是人還是計算機(jī)，來判斷計算機(jī)是否具備智能。但是，也有學(xué)者質(zhì)疑了這種人為判斷方法的客觀性[17]。

對智能產(chǎn)品的定性評測包括：Bringsjord等[18]提出的 Lovelace Test，該測試通過讓智能系統(tǒng)創(chuàng)造小說或畫作來判定智能系統(tǒng)是否具有人的認(rèn)知能力;Riedl[19]在Bringsjord研究的基礎(chǔ)上設(shè)計了一個改良版的Lovelace 2.0 Test，認(rèn)為如果程序按照要求所創(chuàng)作的內(nèi)容被判定為合乎邏輯或引發(fā)裁判共鳴，那么此人工智能系統(tǒng)就可以被認(rèn)為具有智能;Malinowski和Fritz[20]通過讓測試對象描述圖片內(nèi)容并回答相關(guān)常識性問題來進(jìn)行智能判斷;Ohlsson等[21]將針對4-7.25歲孩子的Verbal IQ測試應(yīng)用在人工智能的智商測定中。

有學(xué)者從定量角度對智能產(chǎn)品的智力水平進(jìn)行評價，如楊強(qiáng)[22]提出“終身學(xué)習(xí)測試”，通過判斷計算機(jī)能否通過學(xué)習(xí)提升知識水平來判斷其是否是智能的;劉峰[23]利用德爾菲法對人工智能的智商測量標(biāo)準(zhǔn)進(jìn)行確定，并提出了定量評測問題，通過設(shè)計出的互聯(lián)網(wǎng)智力評測系統(tǒng)，完成了對全球50個搜索引擎和人類對照組的智商測試。另外，劉峰[24]將人工智能的智商分為通用智商、服務(wù)智商和價值智商三類，并針對不同方面的智能，進(jìn)行了一定程度上的指標(biāo)區(qū)別。

3? ?智能語音助手的知識服務(wù)能力評價體系構(gòu)建

3.1? ? 評價指標(biāo)體系構(gòu)建

知識服務(wù)是指以信息知識的搜尋、組織、分析、重組的知識和能力為基礎(chǔ)，根據(jù)用戶的問題和環(huán)境，融入用戶解決問題的過程中，提出能夠有效支持知識應(yīng)用和知識創(chuàng)新的服務(wù)[25]。在此定義的基礎(chǔ)上，本研究將智能語音助手的知識服務(wù)歸納為三個層次：一是能完成信息的輸入與輸出，即基礎(chǔ)能力;二是對信息知識的搜尋、組織、分析、重組，即初級知識服務(wù)能力;三是根據(jù)用戶問題與環(huán)境，給用戶提供個性化支持與服務(wù)，即高級知識服務(wù)能力。這三個層次就成為智能語音助手知識服務(wù)能力的一級指標(biāo)。

在二級指標(biāo)的選擇上，為了保證指標(biāo)的可信度和代表性，指標(biāo)的設(shè)置最大限度地借鑒相關(guān)研究的成熟量表[23-24，28]，結(jié)合本研究針對智能語音助手的具體應(yīng)用情境，并咨詢了相關(guān)專家學(xué)者來確定最終選擇結(jié)果。

基礎(chǔ)能力下設(shè)三個二級指標(biāo)，分別是識別聲音的能力、聲音表達(dá)的能力和被自動喚醒的能力。其中識別聲音能力對應(yīng)信息獲取，聲音表達(dá)對應(yīng)知識反饋，而被自動喚醒則是一切知識服務(wù)的前提，即語音助手的開關(guān)功能。

初級知識服務(wù)能力下設(shè)三個二級指標(biāo)，分別是計算、翻譯和知識問答能力。一方面，這三項(xiàng)能力指標(biāo)所代表的功能均在用戶的日常生活中被大量使用;另一方面，這三個指標(biāo)涵蓋了數(shù)學(xué)、語言和各種常識問題，充分反映了智能語音助手獲取信息、加工信息的基礎(chǔ)能力。

高級知識服務(wù)能力下設(shè)四個二級指標(biāo)，分別是知識創(chuàng)造能力、猜測和聯(lián)想能力、學(xué)習(xí)能力和個性化服務(wù)能力。其中知識創(chuàng)造能力衡量的是語音助手的內(nèi)容創(chuàng)作力，猜測和聯(lián)想能力考察語音助手的邏輯，學(xué)習(xí)能力則是評價語音助手的自主學(xué)習(xí)能力，而個性化服務(wù)能力主要考察語音助手是否能對不同用戶提供定制服務(wù)。這四個二級指標(biāo)均體現(xiàn)語音助手對個性化問題與環(huán)境（語境）的識別和提供針對性服務(wù)的能力。

3.2? ? 基于層次分析法的指標(biāo)權(quán)重確定

本研究運(yùn)用層次分析法，通過專家經(jīng)驗(yàn)來衡量各個指標(biāo)間的相對重要程度，從而確定指標(biāo)權(quán)重。

3.2.1? 構(gòu)建層次結(jié)構(gòu)模型

本研究中的評價層次體系由三個層次組成。目標(biāo)層為總目標(biāo)，即智能語音助手知識服務(wù)能力，準(zhǔn)則層分別為基礎(chǔ)能力、初級知識服務(wù)能力和高級知識服務(wù)能力3個方面，指標(biāo)層為識別聲音的能力、聲音表達(dá)的能力和被自動喚醒的能力等10個評價指標(biāo)（見圖1）。

3.2.2? ?問卷設(shè)計與發(fā)放

考慮到研究對象智能語音助手的特殊性，在指標(biāo)權(quán)重確定的專家人選上，并不局限于學(xué)界專家學(xué)者，還有業(yè)界相關(guān)領(lǐng)域的工作人員。為了結(jié)果的準(zhǔn)確性與客觀性，問卷內(nèi)容分為兩個部分：

第一部分為關(guān)于專家的基本問題，包括學(xué)歷、工作單位、使用語音助手頻次與種類等。此部分信息用于確定專家對語音助手的了解程度，從而挑選出高質(zhì)量的問卷樣本。

第二部分構(gòu)造判斷矩陣。要求專家依次對從屬于上一層某個因素的同層次諸因素用1-9檢驗(yàn)值進(jìn)行兩兩比較，來確定各因素的重要性。

本研究共發(fā)放33份問卷，回收30份，回收率為91%。剔除不符合要求、數(shù)據(jù)不滿足一致性檢驗(yàn)的問卷以后，有15份問卷進(jìn)入到下一步的分析。15份問卷的專家構(gòu)成中，學(xué)界專家有6人，均具有博士學(xué)歷和副教授以上職稱，研究領(lǐng)域?yàn)橹R服務(wù)、人工智能等;業(yè)界專家有9人，均來自較知名的通信公司或科技公司（見表1）。

3.2.3? 數(shù)據(jù)處理

將專家數(shù)據(jù)錄入YAAHP 12.1軟件（一款針對層次分析法的輔助軟件），在對智能語音助手知識服務(wù)能力評價指標(biāo)體系中的各級指標(biāo)進(jìn)行進(jìn)一步分析后，最終得出各指標(biāo)的權(quán)重分配情況（見表2）。

3.3? ? 題庫構(gòu)建

根據(jù)智能語音助手知識服務(wù)能力的評價指標(biāo)體系，本研究為各個二級指選取了相應(yīng)的題目，構(gòu)建了智能語音助手知識服務(wù)能力評價的題庫。為保證測試結(jié)果的可靠性，題庫的來源為相關(guān)的書籍、測試以及論文，所選擇題目盡量滿足代表性與權(quán)威性。

3.3.1? 基礎(chǔ)能力題庫構(gòu)建

基礎(chǔ)能力考察的是信息輸入與輸出能力，不同語音助手的實(shí)現(xiàn)方式并不存在差異。針對基礎(chǔ)能力下3個對應(yīng)的二級指標(biāo)，分別對它們構(gòu)建題庫（見表3）。

識別聲音的能力是要了解測試目標(biāo)能否準(zhǔn)確理解語音輸入的測試題目，要求從語音中識別出正確的文字。測試題目從2015年國際自然語言處理與中文計算會議提供的問題集中隨機(jī)選擇。

聲音表達(dá)的能力旨在了解語音助手是否合理回答日常對話，若僅僅是考慮是否能進(jìn)行語音輸出，那么此種標(biāo)準(zhǔn)會過于簡單且無意義。為了獲得中文的日常對話內(nèi)容，查閱了《HSK標(biāo)準(zhǔn)教程1》，該書經(jīng)國家漢辦授權(quán)，以漢語水平考試真題作為教學(xué)素材。此教程是為了幫助漢語初學(xué)者學(xué)習(xí)漢語日常對話所設(shè)計，對本研究相應(yīng)題庫的構(gòu)建有重要的指導(dǎo)意義。本研究從該書中挑選了多個日常對話場景作為測試題目。

被自動喚醒的能力是要了解測試目標(biāo)是否能通過聲音被自動喚醒。實(shí)驗(yàn)方式則是通過多次語音說出觸發(fā)詞，觀察語音助手能被自動喚醒的次數(shù)。

3.3.2? 初級知識服務(wù)能力題庫構(gòu)建

初級知識服務(wù)能力考察的是語音助手對信息知識的搜尋、組織、分析、重組的能力，不同語音助手的實(shí)現(xiàn)方式同樣不存在區(qū)別。針對初級知識服務(wù)能力下相應(yīng)的3個二級指標(biāo)，分別構(gòu)建題庫（見表4）。

知識問答能力是為了了解測試目標(biāo)的知識廣度。結(jié)合人機(jī)對話的相關(guān)問題集[26]以及相關(guān)論文[27]，并適當(dāng)調(diào)整使其符合語音助手應(yīng)用場景，研究將問題分為事實(shí)類問題、定義類問題、YES-NO問題和觀點(diǎn)類問題。在題目的選擇上，做到四種問題兼顧并同時聚焦在小學(xué)階段的必修科目上，如語文、社會和音樂等。

翻譯能力是為了了解測試目標(biāo)對不同語言的轉(zhuǎn)換能力。題庫選擇上參考了北京大學(xué)的《英漢機(jī)器翻譯測試大綱》[28]，從中選出多個句子，包括重點(diǎn)列出的長難句。

計算能力是為了了解測試目標(biāo)的計算能力、計算速度和正確性。結(jié)合目前語音助手的智能水平，選擇小學(xué)階段的數(shù)學(xué)課程標(biāo)準(zhǔn)“全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)（實(shí)驗(yàn)稿）”作為參考，挑選出其中測試運(yùn)算能力的指標(biāo)，包括計算萬以內(nèi)的整數(shù)、小數(shù)、分?jǐn)?shù)、百分?jǐn)?shù)和負(fù)數(shù)，和掌握四則運(yùn)算的技能，并依照此分類選擇題目。

3.3.3? 高級知識服務(wù)能力題庫構(gòu)建

高級知識服務(wù)能力，指的是測試目標(biāo)根據(jù)用戶的問題與環(huán)境在信息收集基礎(chǔ)上的創(chuàng)造與服務(wù)能力，概念較為抽象，不同語音助手的實(shí)現(xiàn)方式多樣。為保證實(shí)驗(yàn)的準(zhǔn)確性與公平性，本研究對常見語音助手進(jìn)行了深入使用，并結(jié)合官網(wǎng)的介紹以及相關(guān)測評報道，總結(jié)歸納了高級知識服務(wù)能力下各個二級指標(biāo)的實(shí)現(xiàn)方式。在全面考慮不同實(shí)現(xiàn)方式的前提下構(gòu)建出相應(yīng)的題庫（見表5）。

知識創(chuàng)造能力是為了了解測試目標(biāo)按照給定要求，進(jìn)行二次創(chuàng)造的能力。Mark O. Riedl在語音助手智商測試的實(shí)驗(yàn)中提出了Lovelace 2.0[19]測試方法，方法是在創(chuàng)造性活動中添加關(guān)鍵詞以增加語音助手直接檢索的難度來確定語音助手的知識創(chuàng)造能力。因此，本研究結(jié)合現(xiàn)有語音助手功能，對不同創(chuàng)作形式提出不同要求，根據(jù)是否能反饋有邏輯的結(jié)果來測算語音助手的知識創(chuàng)造能力。

猜測和聯(lián)想能力是為了了解測試目標(biāo)根據(jù)給定的材料猜測所描繪的事物及聯(lián)想相關(guān)事物的能力。根據(jù)上述得分原則，分四類分別構(gòu)建題庫。謎語選自各版本的“謎語大全”。正反義詞則來自韋氏兒童智力測試題[29]。對意圖識別能力的考量，則是參考了有關(guān)搜索引擎自然語音處理的研究結(jié)論。用戶向搜索引擎輸入的簡短查詢式存在模糊性和歧義性[30]，在語音助手應(yīng)用場景同樣適用，所以采取通過語音輸入模糊指令來確定其能否準(zhǔn)確理解并滿足用戶要求。你說我猜則是測試語音助手能否通過問用戶問題，猜出用戶心中所想的一個人物或動物，題庫來源于相關(guān)娛樂性測試網(wǎng)站。

學(xué)習(xí)能力是為了了解測試目標(biāo)能否根據(jù)用戶訓(xùn)練，掌握新的規(guī)則或知識的能力。其測試方法是在不同實(shí)現(xiàn)方式下給出特定情景，通過判定語音助手在該情景下能否完成用戶要求來確定。如在多輪對話中針對某個話題展開需要聯(lián)系前后文的多輪討論，觀察語音助手是否能有邏輯的進(jìn)行回復(fù)來判定語音助手的多輪對話能力。

個性化服務(wù)能力是為了了解測試目標(biāo)個性化服務(wù)設(shè)置能力，測試方法與學(xué)習(xí)能力類似。如用戶偏好設(shè)置下就有一個情景為是否能根據(jù)用戶喜好實(shí)現(xiàn)智能推送，根據(jù)是否能實(shí)現(xiàn)判斷該語音助手的用戶偏好設(shè)置能力。

3.4? ? 測試方法與評分原則

由于語音助手與用戶的溝通是以聲音為主。因此實(shí)驗(yàn)中的所有問題均采用語音方式輸入。考慮到具體環(huán)境影響，每個問題將重復(fù)三次。

在具體給分上，對于語音助手基礎(chǔ)能力以及初級知識服務(wù)能力下的各個二級指標(biāo)，每個測量對象均需回答從題庫中隨機(jī)抽取的相同的10道題（其中被自動喚醒的能力是分10次在不同場景下用語音說出觸發(fā)詞）。每答對一題（被自動喚醒一次）加10分。即每個二級指標(biāo)滿分為100分。

對于語音助手高級知識服務(wù)能力，如本文所述，每個二級指標(biāo)實(shí)現(xiàn)方式均可歸納為4類。由于存在語音助手能以不止一類實(shí)現(xiàn)方式完成對應(yīng)的二級指標(biāo)，所以每類滿分為25分，若4類實(shí)現(xiàn)方式均能完成，則該二級指標(biāo)記滿分100分。在每類實(shí)現(xiàn)方式下設(shè)置3個具體場景或題目。若3道均正確完成，則認(rèn)為該類實(shí)現(xiàn)方式完成，記該類滿分，即25分。若全不能完成，則該類記0分。若能部分完成，則認(rèn)為該類還有進(jìn)步空間，記該類滿分的一半，即12.5分。

另外，語音助手在實(shí)現(xiàn)某些用戶要求時，自身雖不具備相應(yīng)功能，卻可以通過調(diào)用或跳轉(zhuǎn)到其他應(yīng)用來獲得答案。這雖表現(xiàn)了自身功能的不夠全面，但從側(cè)面體現(xiàn)了該語音助手與其他應(yīng)用的操控與交互能力，所以對這種狀況，同樣視為能部分完成。

各項(xiàng)指標(biāo)分?jǐn)?shù)確定后，最后總體評價結(jié)果采用廣義智商算法[31]：

F = Wi*Vi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）

在式（1）中，F(xiàn)為該語音助手總積分，Wi為各指標(biāo)權(quán)值，Vi為各指標(biāo)的測試分。

4? ?中文智能語音助手的評價實(shí)驗(yàn)

4.1? ? 評價對象選擇

中文語音助手應(yīng)用場景多樣，在日常生活中最常見的有三種，分別是手機(jī)自帶語音助手（如蘋果的Siri，三星的Bixby，華為的小E、VIVO的jovi等）、移動應(yīng)用語音助手（如百度語音助手、搜狗語音助手、咪咕靈犀等）、還有隨著智能家居不斷發(fā)展的智能音箱（如天貓精靈、小米AI音箱、小度在家等）。本研究根據(jù)網(wǎng)絡(luò)諸多測評分別選取了這三大類語音助手中最具代表性的一款產(chǎn)品進(jìn)行評價研究，即華為小E、咪咕靈犀和天貓精靈。

4.2? ? 評價結(jié)果

按總得分從高到低排序，天貓精靈、咪咕靈犀和華為小E的知識服務(wù)能力得分分別是88.54、85.02、81.24，均超過了80分，說明三個語音助手均具備了一定的知識服務(wù)能力。本研究對被測評語音助手各一級指標(biāo)完成度進(jìn)行統(tǒng)計（見圖2）。

統(tǒng)計得出，在基礎(chǔ)能力上，天貓精靈得到了滿分，華為小E和咪咕靈犀均得到97.4分;在初級知識服務(wù)能力上，華為小E和咪咕靈犀分?jǐn)?shù)亦相同，均為80.7分，而天貓精靈只得了77.7分;在高級知識服務(wù)能力上，分?jǐn)?shù)從高到低分別是天貓精靈（73.4分）、咪咕靈犀（56.6分）、華為小E（36.1分），咪咕靈犀和華為小E均低于60分。

可以看出，三個語音助手在總分上的較好表現(xiàn)主要得益于在基礎(chǔ)能力指標(biāo)上的較高得分，該一級指標(biāo)的權(quán)重高達(dá)0.52，而三個語音助手在該項(xiàng)得分均接近或等于滿分。在初級知識服務(wù)能力上三個語音助手得分接近，均在80分左右，表現(xiàn)良好。但在高級知識服務(wù)能力上，各語音助手表現(xiàn)具有較大差異且普遍較差。

對三個語音助手在各二級指標(biāo)的具體得分進(jìn)行統(tǒng)計（見表6），通過分析可以發(fā)現(xiàn)：

（1）三款語音助手在知識問答能力上均有進(jìn)步空間。華為小E和咪咕靈犀在多數(shù)問題回答上均需借助第三方搜索引擎反饋的結(jié)果，其中華為小E還需再次按要求輸入以完成跳轉(zhuǎn)。天貓精靈則無法回答部分和地理位置相關(guān)的問題，如針對問題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結(jié)果。

（2）三款語音助手雖然功能豐富，但觸發(fā)條件往往較為嚴(yán)苛。如必須完整向華為小E輸入“講一個安徒生的海的女兒”才能被理解，否則均無法完成要求。天貓精靈雖在大多數(shù)情形下完成的較為出色，但仍在部分場景如“對話訓(xùn)練”或一些指定游戲中，需特定關(guān)鍵詞才可以觸發(fā)。

（3）三款語音助手均可針對用戶需求，完成個性化服務(wù)，但程度存在差異。如三款語音助手均可從其他信息源獲取外賣信息與快遞信息，均可設(shè)置智能提醒，但在其他方面如個性化回答設(shè)置、推送內(nèi)容設(shè)置以及應(yīng)用偏好選擇上，華為小E均要略輸一等。

（4）在初級知識服務(wù)能力中的翻譯與計算指標(biāo)上，華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對于本次測試要求的英語表現(xiàn)優(yōu)異，更可完成對多種語言的精確互譯。反觀天貓精靈，在計算上目前只支持一千萬以內(nèi)整數(shù)的相關(guān)運(yùn)算，分?jǐn)?shù)或超過范圍均不能完成，而翻譯中部分長難句翻譯準(zhǔn)確度低。

（5）在諸多信息分析與場景處理能力要求更高的指標(biāo)中，咪咕靈犀和天貓精靈表現(xiàn)較好，且天貓精靈更勝一籌。如測試語音助手是否能有邏輯的回答日常對話問題時，選擇在下午問候“早上好”，天貓精靈與咪咕靈犀會指出現(xiàn)在已經(jīng)是下午了，而華為小E依然只會回應(yīng)早上好。在“知識創(chuàng)造能力”的考察中，要求語音助手播放一首周杰倫的勵志歌曲，和以“新年快樂”為主題寫作一首詩，只有天貓精靈完成要求，而且天貓精靈也是唯一支持多輪對話的語音助手。

4.3? ? 分析與討論

（1）智能語音助手是否具備知識服務(wù)能力？研究結(jié)果表明，主流的中文智能語音助手已經(jīng)具備了一定的知識服務(wù)能力。在諸多場景下，語音助手能以聲音為交互介質(zhì)，提供高智力附加值的知識（或技能）密集型服務(wù)，滿足知識服務(wù)對象的知識需求。

由于語音可以解放人們的雙手和雙眼，降低產(chǎn)品使用門檻，同時語音識別與語義理解是人工智能領(lǐng)域相對成熟的技術(shù)[32]，通過語音交互開展知識服務(wù)（多輪對話式問答服務(wù)、生活場景中的決策支持服務(wù)等）是未來的發(fā)展趨勢，而在這方面，智能語音助手具有天然的優(yōu)勢。

首先語音助手存在潛在的龐大用戶群。語音助手多以智能手機(jī)為載體，以APP應(yīng)用、小程序（智能音箱也往往有對應(yīng)的小程序）、微信公眾號等諸多形式為公眾提供知識服務(wù)。而隨著智能手機(jī)的普及，語音助手能以較低成本接入大眾生活;其次面對日常生活中多元化、多維度的知識需求，語音助手能夠?yàn)榇蟊娞峁┢栈莸闹R服務(wù)，使知識服務(wù)不局限于專業(yè)人士，而是嵌入生活化的場景里，降低用戶在信息過載時代中知識獲取的成本。

（2）如何評價智能語音助手的知識服務(wù)能力？本研究構(gòu)造了智能語音助手知識服務(wù)能力的評價指標(biāo)體系，并應(yīng)用該體系完成了三款主流語音助手的評價實(shí)驗(yàn)。運(yùn)用該評價指標(biāo)體系，將抽象的智能語音助手知識服務(wù)能力具體化為3個一級指標(biāo)、10個二級指標(biāo)，可以綜合評價和跟蹤語音助手行業(yè)的進(jìn)展，對比不同語音助手之間的具體優(yōu)劣情況，便于從中及時發(fā)現(xiàn)好的發(fā)展經(jīng)驗(yàn)和共同問題所在，明確語音助手的研發(fā)方向。

本研究得到的指標(biāo)權(quán)重充分反映了專家的認(rèn)知。識別聲音、聲音輸出、被自動喚醒所代表的基礎(chǔ)能力權(quán)重超過0.5，其中識別聲音的指標(biāo)權(quán)重更是高達(dá)0.2576。而初級、高級知識服務(wù)能力指標(biāo)權(quán)重占比低，對語音助手的評價結(jié)果影響小。這說明在現(xiàn)階段，專家更重視基礎(chǔ)交互能力，對智能語音助手提供知識服務(wù)的期望并不高。

本研究建設(shè)了相應(yīng)題庫來完成指標(biāo)的測量。考慮到現(xiàn)階段人工智能的智商與兒童的智力水平相當(dāng)[21]，且功能在不斷的發(fā)展豐富中，在構(gòu)建題庫時，并沒有完全按照知識服務(wù)的最高標(biāo)準(zhǔn)去設(shè)計，而是結(jié)合語音助手現(xiàn)有的智能水平與發(fā)展演化的需求，設(shè)置了相應(yīng)的測試問題，如聲音輸出指標(biāo)的題庫選自漢語初學(xué)者對話教程，高級知識服務(wù)能力的測試總結(jié)了現(xiàn)有語音助手能夠完成的方式。由于題庫構(gòu)建靈活，未來隨著人工智能技術(shù)的進(jìn)步、智能產(chǎn)品智力水平的不斷提高以及語音助手領(lǐng)域的迅速發(fā)展，測試題庫支持不斷升級，將在題目選擇上上升難度，場景設(shè)置上更具隨機(jī)性與普適性。

（3）應(yīng)該從哪些方面提升智能語音助手的知識服務(wù)能力？從相應(yīng)指標(biāo)所占的權(quán)重來看，語音助手的基礎(chǔ)能力仍然是現(xiàn)階段專家關(guān)注的最重要的方面，也是當(dāng)前用戶感知最強(qiáng)烈的方面。因此，亟需提高智能語音助手的基礎(chǔ)能力，如在信息輸出端注重合成語音的口語化、自然化、人性化[33]，在信息輸入端提供可視化反饋，增加用戶可控感[34]，并輔助其它應(yīng)用，設(shè)計出實(shí)現(xiàn)各種拓展功能的接口來增加多種信息的交互能力[35]。

在初級知識服務(wù)能力方面，根據(jù)人們的一般認(rèn)知，三個二級指標(biāo)在技術(shù)實(shí)現(xiàn)難度上從高到低排序分別是知識問答、翻譯和數(shù)學(xué)運(yùn)算。三個語音助手在知識問答能力上的得分普遍較低，比較不同種類問題回答準(zhǔn)確率之后發(fā)現(xiàn)，相比于事實(shí)類問題和定義類問題，語音助手往往不擅長回答YES-NO問題和觀點(diǎn)類問題，這證明在自然語言處理和知識抽取層面仍有待進(jìn)一步研發(fā)。然而，三個語音助手在數(shù)據(jù)運(yùn)算能力上的得分卻均高于翻譯能力，這一方面是由于部分?jǐn)?shù)學(xué)運(yùn)算超過了語音助手的能力范圍，如華為小E和咪咕靈犀不能完成“階乘”運(yùn)算、天貓精靈不能完成分?jǐn)?shù)或非整數(shù)的計算以及大于一千萬的整數(shù)的運(yùn)算;另一方面，這反映了在語音交互的場景下，信息系統(tǒng)（智能語音助手）在知識服務(wù)相關(guān)任務(wù)上的表現(xiàn)有別于傳統(tǒng)的圖形界面交互場景，這也是未來有待進(jìn)一步探索的方向。

在高級知識服務(wù)能力方面，普遍存在兩點(diǎn)問題：一是功能情景有限，二是某些功能觸發(fā)條件只支持用戶輸入顯式查詢或命令，即明確的觸發(fā)詞。這不僅導(dǎo)致用戶使用感不佳，也使一些功能不易被用戶發(fā)現(xiàn)。所以建議在保證不干擾用戶生活的前提下，提供更人性化的功能觸發(fā)條件并配以友好的用戶指導(dǎo)。如定期提示用戶功能更新及其觸發(fā)方法，或結(jié)合語境情景理解用戶的隱式對話線索[10]等。

從搭載語音助手的平臺上來看，手機(jī)自帶語音助手的得分明顯落后于語音助手APP和智能音箱，而手機(jī)自帶語音助手卻是廣大普通用戶最容易接觸到的語音助手產(chǎn)品[2]，具有龐大的用戶群體。提高手機(jī)自帶語音助手的知識服務(wù)能力，有利于知識服務(wù)惠及更廣泛的社會群體，所以，亟需提高手機(jī)自帶語音助手的知識服務(wù)能力。同時，智能音箱在高級知識服務(wù)能力上表現(xiàn)較為優(yōu)秀，特別是在個性化服務(wù)能力指標(biāo)上的表現(xiàn)最為突出，其與智能家居的進(jìn)一步關(guān)聯(lián)可有效彌補(bǔ)自身便攜性不足的固有缺點(diǎn)，有效推進(jìn)生活智能化。

5? ?結(jié)語

面對知識服務(wù)對象大眾化、服務(wù)手段多樣化、服務(wù)內(nèi)容智能化的時代趨勢，社會亟需一個普惠的工具來滿足泛在的知識需求、服務(wù)大眾的日常生活。智能語音助手作為新型知識服務(wù)主體，具有填補(bǔ)該空缺的天然優(yōu)勢。

本文對智能語音助手的知識服務(wù)能力進(jìn)行了評價研究。首先，構(gòu)建了智能語音助手知識服務(wù)能力的評價指標(biāo)體系，通過專家調(diào)查得到的指標(biāo)權(quán)重很好地反映了現(xiàn)階段人們對智能語音助手的期望和態(tài)度;其次，根據(jù)智能語音助手現(xiàn)階段的技術(shù)水平和智能程度，構(gòu)建了相應(yīng)的測試題庫，且這一題庫可以隨著智能語音助手技術(shù)水平和智力程度的提高進(jìn)行動態(tài)升級，以保證本研究提出的評價方法具有一定的動態(tài)性和靈活性;第三，對典型的中文智能語音助手進(jìn)行評價實(shí)驗(yàn)，發(fā)現(xiàn)了目前存在的問題和不足，提出了相應(yīng)的建議。但本研究仍存在一些不足，如評價指標(biāo)體系可以進(jìn)一步完善、專家調(diào)查的人數(shù)和范圍可以進(jìn)一步擴(kuò)大等。在后續(xù)研究中，將進(jìn)一步優(yōu)化智能語音助手知識服務(wù)能力的評價指標(biāo)體系、擴(kuò)大層次分析法專家調(diào)查的規(guī)模。

*本文系國家自然科學(xué)基金面上項(xiàng)目“探尋式搜索過程中的路徑識別與評價研究”（項(xiàng)目編號：71874130）、國家自然科學(xué)基金重點(diǎn)國際（地區(qū)）合作項(xiàng)目“大數(shù)據(jù)環(huán)境下的知識組織與服務(wù)創(chuàng)新研究”（項(xiàng)目編號：71420107026）與中國科協(xié)青年人才托舉工程和武漢大學(xué)青年學(xué)者學(xué)術(shù)團(tuán)隊(duì)項(xiàng)目（項(xiàng)目編號：Whu2016013）研究成果之一。

參考文獻(xiàn)：

[1]? 吳小燕.一文帶你了解中國智能語音市場發(fā)展情況[EB/OL].[2019-04-21].https：//www.qianzhan.com/analyst/detail/220/181011-c90dd13b.html.

[2]? UKONAHO V.Smartphones：Global Artificial Intelligence Technologies Forecast：2010 to 2023 [EB/OL].[2019-04-21].https：//www.strategyanalytics.com/access-services/devices/mobile-phones/emerging-devices/reports/report-detail/smartphones-global-artificial-intelligence-technologies-forecast-2010-to-2023.

[3]? PRADHAN A，MEHTA K，F(xiàn)INDLATER L.“Accessibility came by accident”：use of voice-controlled intelligent personal assistants by people with disabilities[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：459.

[4]? MORRIS R R，KOUDDOUS K，KSHIRSAGAR R，et al.Towards an artificially empathic conversational agent for mental health applications：System design and user perceptions[J].Journal of medical Internet research，2018，20（6）：e10148.

[5]? LURIA M，HOFFMAN G，ZUCKERMAN O.Comparing social robot，screen and voice interfaces for smart-home control[C].Proceedings of the 2017 CHI conference on human factors in computing systems.ACM，2017：580-628.

[6]? LIN SC，HSU CH，TALAMONTI W，et al.Adasa：A Conversational In-Vehicle Digital Assistant for Advanced Driver Assistance Features[C].The 31st Annual ACM Symposium on User Interface Software and Technology.ACM，2018：531-542.

[7]? SAAD U，AFZAL U，EL-ISSAWI A，et al.A model to measure QoE for virtual personal assistant[J].Multimedia Tools and Applications，2017，76（10）：12517-12537.

[8]? REIS A，PAULINO D，PAREDES H，et al.Using intelligent personal assistants to strengthen the elderliessocial bonds[C].International Conference on Universal Access in Human-Computer Interaction.Springer，Cham，2017：593-602.

[9]? MATANI J，GERVAIS P，CALVO M，et al.Matching language and accent in virtual assistant responses[EB/OL].[2019-04-21].https：//www.tdcommons.org/dpubs_series/1239.

[10]? VTYURINA A，F(xiàn)OURNEY A.Exploring the role of conversational cues in guided task support with virtual assistants[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：208.

[11]? KISELEVA J，WILLIAMS K，AWADALLAH H A，et al.Predicting user satisfaction with intelligent assistants[C].Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval.ACM，2016：45-54.

[12]? MYERS C，F(xiàn)URQAN A，NEBOLSKY J，et al.Patterns for How Users Overcome Obstacles in Voice User Interfaces[C].Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.ACM，2018：6.

[13]? LOPATOVSKA I，RINK K，KNIGHT I，et al.Talk to me：Exploring user interactions with the Amazon Alexa[EB/OL].[2019-04-21].https：//doi.org/10.1177/0961000618759414.

[14]? PORCHERON M，F(xiàn)ISCHER J E，REEVES S，et al.Voice interfaces in everyday life[C].Proceedings of the 2018 CHI conference on human factors in computing systems.ACM，2018：640.

[15]? GUZMAN A L.Voices in and of the machine：Source orientation toward mobile virtual assistants[J].Computers in Human Behavior，2019，90：343-350.

[16]? MACHINERY C.Computing machinery and intelligence-AM Turing[J].Mind，1950，59（236）：433.

[17]? DOWE D L，HERN？魣NDEZ-ORALLO J.IQ tests are not for machines，yet[J].Intelligence，2012，2（40）：77-81.

[18]? BRINGSJORD S，BELLO P，F(xiàn)ERRUCCI D.Creativity，the Turing Test，and the（Better）Lovelace Test[J].Minds and Machines，2001，11（1）：3-27.

[19]? RIEDL M O.The Lovelace 2.0 Test of Artificial Creativity and Intelligence[EB/OL].[2019-04-21].https：//arxiv.org/pdf/1410.

6142v1.pdf.

[20]? MALINOWSKI M，F(xiàn)RITZ M.Learning smooth pooling reigns for visual recognition[J].Electronic proceedings of the British Machine Vision Conference，2013（2）：1-11.

[21]? OHLSSON S，SLOAN R H，TUR？魣N G，et al.Measuring an artificial intelligence systems performance on a verbal IQ test for young children[J].Journal of Experimental & Theoretical Artificial Intelligence，2017，29（4）：679-693.

[22]? YANG Q.Intelligent planning：a decomposition and abstraction based approach[M].Springer Science & Business Media，2012.

[23]? 劉峰.基于互聯(lián)網(wǎng)智商評測算法的搜索引擎智商測試研究[D].北京：北京交通大學(xué)，2015.

[24]? LIU F，SHI Y，LIU Y.Three IQs of AI Systems and their Testing Methods[EB/OL].[2019-04-21].https：//arxiv.org/ftp/arxiv/papers/1712/1712.06440.pdf.

[25]? 張曉林.走向知識服務(wù)[M].成都：四川大學(xué)出版社，2001.

[26]? 微軟亞洲研究院三角獸科技.了解人機(jī)對話—聊天、問答、多輪對話和推薦[EB/OL].[2019-06-16].https：//www.jianshu.com/p/cde686e81b15.

[27]? 羅玲鑫.基于J2ME的手機(jī)常識測試系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].成都：電子科技大學(xué)，2011.

[28]? 俞士汝，段慧明.英漢機(jī)器翻譯譯文質(zhì)量測試大綱[J].計算機(jī)世界，1998（13）：10-11.

[29]? 林傳鼎.韋氏兒童智力量表中國修訂本[M].北京：北京師范大學(xué)出版社，1986.

[30]? 張曉娟.查詢意圖自動分類與分析[D].武漢：武漢大學(xué)，2014.

[31]? 劉東，尹怡欣，涂序彥.智能系統(tǒng)的廣義智能定性評價之研究[J].計算機(jī)科學(xué)，2007（1）：351-357.

[32]? 百度人工智能交互設(shè)計院.2019.AI 人工交互趨勢研究[EB/OL].[2019-04-21].http：//aiid.baidu.com/982/.

[33]? BUCK J W，PERUGINI S，NGUYEN T V.Natural Language，Mixed-initiative Personal Assistant Agents[C].Proceedings of the 12th International Conference on Ubiquitous Information Management and Communication.ACM，2018：82.

[34]? LURIA M，HOFFMAN G，ZUCKERMAN O.Comparing social robot，screen and voice interfaces for smart-home control[C].Proceedings of the 2017 CHI conference on human factors in computing systems.ACM，2017：580-628.

[35]? GHOSH D，F(xiàn)OONG P S，ZHANG S，et al.Assessing the Utility of the System Usability Scale for Evaluating Voice-based User Interfaces[C].Proceedings of the Sixth International Symposium of Chinese CHI.ACM，2018：11-15.

作者簡介：趙一鳴，武漢大學(xué)信息資源研究中心、武漢大學(xué)信息管理學(xué)院副教授;朱奕蓉，武漢大學(xué)信息管理學(xué)院、圖書情報國家級實(shí)驗(yàn)教學(xué)示范中心（武漢大學(xué)）本科生;吳林容，武漢大學(xué)信息資源研究中心、武漢大學(xué)信息管理學(xué)院碩士研究生。

收稿日期：2019-05-14;責(zé)任編輯：柴若熔;通訊作者：趙一鳴（zhaoyiming@whu.edu.cn）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

智能語音助手的知識服務(wù)能力評價研究