潘亞林,李思琪,童慧,何思南,周茉莉,關(guān)岱松
(百度人工智能交互設(shè)計院,北京 100193)
近年來,依托人工智能技術(shù)、智能服務(wù)機器人應(yīng)用場景和服務(wù)模式的不斷拓展,智能服務(wù)機器人市場高速發(fā)展,據(jù)國際機器人聯(lián)盟(IFR,International Federation of Robotics)介紹,2013年以來,全球智能服務(wù)機器人市場規(guī)模年均增速達23.5%。其中,面向兒童的智能服務(wù)機器人受到了人們的廣泛關(guān)注,他們一般擁有擬人的外形和動作,具備語音交互、智能識別等功能[1],不僅可以照顧陪伴孩子,向孩子提供娛樂,輔導(dǎo)孩子學(xué)習(xí),還可以與孩子建立情感聯(lián)系[2]。智能服務(wù)機器人的出現(xiàn)為兒童帶來了前所未有的新體驗。
在兒童發(fā)展心理學(xué)領(lǐng)域,兒童的年齡大概被分為4個階段:嬰兒期和學(xué)步期(出生至3歲),學(xué)前期(3-6歲),學(xué)齡期(6-12歲)和青春期(12-20歲)[3]。從以往研究兒童與智能服務(wù)機器人交互的文獻來看,被研究兒童的年齡主要集中在學(xué)前期(3-6歲)和學(xué)齡期(6-12歲)。學(xué)前期兒童以直覺形象思維為主,語言能力仍處于快速發(fā)展階段,詞匯量、句子長度、句法和語法的運用比較有限,且記憶力和注意力等都有待提高。學(xué)齡期兒童雖然語言的運用能力和閱讀能力都有所發(fā)展,且開始能夠考慮和區(qū)分自己和他人的觀點,邏輯思維也開始出現(xiàn),但他們的語言能力仍處于發(fā)展當(dāng)中,對問題的理解也比較表面直接[3-4]。由于學(xué)前期和學(xué)齡期兒童的認知發(fā)展尚未成熟,其體驗評價方法同成人也會有所差異。所以,如何理解和評價兒童與智能服務(wù)機器人的交互體驗成為企業(yè)和用戶體驗研究人員普遍關(guān)注的問題。
本文對已有研究中涉及的兒童與智能服務(wù)機器人交互體驗評價方法進行了梳理,并對各方法進行了對比總結(jié),最后對兒童與智能服務(wù)機器人交互評價方法的未來發(fā)展方向進行了展望。
兒童與智能服務(wù)機器人交互體驗評價方法主要分為四類:行為測量、主觀報告測量、績效測量和生理測量,其中使用最多的是行為測量和主觀報告測量,績效測量和生理測量使用相對較少,接下來會結(jié)合相關(guān)研究分別介紹這四類方法。
行為測量是指研究人員通過觀察兒童與智能服務(wù)機器人的交互行為特點,來了解兒童的心理過程或心理狀態(tài)。行為測量最常用的調(diào)研方法是觀察法,適用范圍受年齡限制較小,在兒童群體,尤其是學(xué)前期兒童的研究中被廣泛使用。
2.1.1 測量內(nèi)容
大多數(shù)研究主要觀察兒童與智能服務(wù)機器人交互過程中的注視、肢體動作、自發(fā)式言語和面部表情,少數(shù)研究還會關(guān)注兒童與智能服務(wù)機器人交互的距離。
(1) 注視
注視的測量指標(biāo)可以是注視方向、注視時長、注視次數(shù)等,它們通常用來反映兒童的參與度和專注度。Hae Won Park等人在評估一套促進兒童語言表達的機器人行為模型時,使用兒童注視機器人的時長和注視其他地方的次數(shù)來判斷兒童的專注度和參與度,注視時長越長,注視其他地方的次數(shù)越少說明兒童在互動中專注度越高[5]。注視有時也可以反映兒童的困惑程度,Mirjam de Haas等人發(fā)現(xiàn)當(dāng)兒童對機器人的指令出現(xiàn)困惑時會更多地第一時間看向研究人員,兒童注視研究人員的次數(shù)和時長,可以反映孩子在交互過程中存在困惑的程度,便于發(fā)現(xiàn)一些可用性問題[6]。
(2) 肢體行為
兒童在與智能服務(wù)機器人交互過程中,會產(chǎn)生各種肢體行為,這些行為可以反映兒童不同的交互動機。Andri Ioannou等人通過觀察4名3-5歲兒童與NAO機器人的交互行為發(fā)現(xiàn):孩子們在初次見到NAO機器人時會好奇地摸機器人的眼睛手指等;會輕吻機器人的頭或把手放在機器人的背上防止他跌倒來傳達善意和友好;會把機器人當(dāng)成自己的同伴送給他泰迪熊;會觸碰他的肩膀試圖和他一起跳舞。通過編碼這些行為背后的動機,研究人員將這些行為聚為三類:愛撫型、探索型和玩伴互動型[7]。
(3) 自發(fā)式言語
兒童在與智能服務(wù)機器人交互過程中的自發(fā)式言語,能真實客觀地表達他們的喜好、困惑、抱怨等,輔助研究人員分析兒童的態(tài)度和想法。Yasemin D?nmez等人在觀察兒童與機器人玩具Ixi-play交互時,發(fā)現(xiàn)兒童會與研究人員分享他們的興奮、疑問、抱怨和評價;也會試圖和Ixi-play直接交流,來鼓勵它做出回應(yīng)[8]。
(4) 面部表情
面部表情可以比較直接地反映兒童在與智能服務(wù)機器人交互過程中的情感反應(yīng)和情緒變化,在研究中經(jīng)常會被采集分析。Sofia Serholt等人對兒童和機器人導(dǎo)師互動過程進行了長期的觀察,通過分析兒童負面情緒超過5秒的行為發(fā)現(xiàn)交互過程中的可用性問題[9]。David Cameron等人在研究機器人面部表情對兒童與機器人社交互動的影響時,使用FaceReader自動編碼互動過程中兒童的面部表情,來探查兒童在與有表情的機器人互動時是否會出現(xiàn)更加積極的情緒[10]。
(5) 人機距離
人與人之間所保持的空間距離,直接反映著彼此相互接納的水平,在社會心理學(xué)中被稱為人際距離。人際距離受到個體之間情感距離的影響,可以作為判斷人與人之間情感關(guān)系的一種依據(jù)。部分研究學(xué)者認為在人與機器人的相處中也存在這種心理場,人與機器人的空間距離可以間接反映人和機器人的情感距離。David Cameron 等人記錄了孩子和機器人互動過程中的距離變化,作為判斷孩子和機器人之間親密關(guān)系的指標(biāo)之一[10]。
2.1.2 測量工具
傳統(tǒng)的行為測量主要通過研究人員依據(jù)觀察提綱進行現(xiàn)場觀察和記錄,或借助錄像、錄音等方式進行現(xiàn)場數(shù)據(jù)采集,后通過人工打碼進行記錄分析,這些方式相對都比較費時費力。隨著各種非侵入式傳感設(shè)備和行為記錄分析技術(shù)的進步,研究人員開始嘗試各種自動化的數(shù)據(jù)采集和分析工具,如使用The Observer X等行為觀察記錄軟件來實時編碼兒童的行為,并對不同觀察者間的觀察結(jié)果進行可靠性檢驗[10];使用FaceReader、Affdex等面部表情分析系統(tǒng)來自動標(biāo)記兒童與機器人交互過程中的情緒喚醒強度和效價[5,10];使用kinect傳感器來自動測量兒童與機器人的交互距離等[10]。
2.1.3 優(yōu)劣勢分析
行為測量是一種相對比較客觀的測量方法,且適用兒童的年齡范圍廣,但它也有一定的局限性。
首先,兒童比較好動,很容易跑離攝像區(qū)域或者造成攝像模糊,易造成數(shù)據(jù)缺失[11]。雖然目前很多研究機構(gòu)都建有比較完善的行為觀察實驗室,布置全方位攝像頭來保證數(shù)據(jù)的完整性,但兒童研究的觀察往往是在自然環(huán)境或他們相對熟悉的環(huán)境中,如幼兒園,所以如何搭建移動便捷、觀察全面且對被觀察兒童無干擾的自然觀察環(huán)境或?qū)嶒灜h(huán)境非常重要。
其次,研究人員對行為的分析帶有一定的主觀性,缺乏客觀統(tǒng)一的編碼標(biāo)準,存在觀察者偏差[12];且傳統(tǒng)的行為數(shù)據(jù)采集和分析方法比較費時費力。所以,更加客觀準確,高效便捷,且非侵入式的行為數(shù)據(jù)自動采集和分析方法是未來兒童類交互研究需要持續(xù)探索優(yōu)化的重要方向。
主觀報告測量是指研究者通過直接詢問兒童的觀點與態(tài)度,來了解他們的想法和感受。主觀報告測量最常用的調(diào)研方式是問卷法,部分研究者也會使用簡單的訪談或焦點小組作為輔助方式。從學(xué)前期開始,針對兒童已可以開始使用主觀報告測量法,但需要以他們能夠理解的方式和對他們有意義的事件進行詢問,盡力保證回答的可靠性。
2.2.1 測量內(nèi)容
在以往的兒童與智能服務(wù)機器人交互研究中,主觀報告測量主要被用來探究兒童對智能服務(wù)機器人的喜好度和再次互動意愿、對與智能服務(wù)機器人交互過程的滿意度、對機器人的人格化感知(包括性別、性格、角色關(guān)系等)以及對機器人的信任感等。
有些研究人員將成人與智能服務(wù)機器人交互研究中使用過的一些成熟量表,進行了修改,用于兒童相關(guān)的研究中。如用來測量機器人擬人化交互程度的godspeed量表,最初是由Christoph Bartneck設(shè)計的,分為5個維度:擬人度(Anthropomorphism),生命度(Animacy),喜好度(Likeability),感知智力(Perceived Intelligence),和感知安全(Perceived Safety)[13]。Amol Deshmukh等人將該套量表改良后運用在孩子身上,包含友好度、愉悅度和共情能力三個指標(biāo)[14]。Fang-Wu Tong等人在探究兒童對人形機器人外形擬人化程度的態(tài)度時使用的量表[15],修改自McCroskey and McCain社會吸引力和物理吸引力量表的一部分[16]。
2.2.2 測量工具
在兒童群體研究中主觀報告最常用的方式是問卷法。在調(diào)查中詢問兒童問題的方式會對答案的可靠性產(chǎn)生影響。如Breakwell等人報告說:“兒童中存在強烈的默許反應(yīng)偏見:兒童傾向于說‘是’,無論問題是什么或他們對此有何看法[17]?!彼浴笆欠瘛毙蛦栴}會帶來一定的數(shù)據(jù)偏差,尤其是在低齡兒童中運用時。因此在兒童問卷的問題設(shè)計上需要仔細斟酌,我們總結(jié)了幾種以往兒童問卷中常使用的問題形式,不同的問題形式適合測量的內(nèi)容有所差異,對于不同認知發(fā)展階段的兒童,其適用性也會有所不同。
Fun toolkit是專為兒童產(chǎn)品評估而設(shè)計的工具包,由三個工具組成:the Smileyometer(圖1),the Fun Sorter(圖2),the Again Again table(圖3)[18]。The Smileyometer是一個基于五點李克特量表的視覺模擬評分量表,采用擬人化的笑臉表情傳達對應(yīng)的觀點或態(tài)度,但它更適用于年齡相對較大的孩子,年齡較小的孩子總是傾向于給出偏高的評價[19]。還有研究發(fā)現(xiàn),即使年齡較大的孩子也會傾向于選擇積極分數(shù),因此Lynne Hall等人針對笑臉量表的表情進行了優(yōu)化,把所有的表情都換成了笑臉只是程度不同(圖1),經(jīng)過作者驗證比傳統(tǒng)笑臉量表表現(xiàn)更好[20]。The Fun Sorter通常用來進行對比評價,讓孩子根據(jù)一個或多個維度對不同對象進行排名,但年幼的兒童,對The Fun Sorter的結(jié)構(gòu)理解有些困難,所以也適合年齡相對較大的孩子,且進行比較的對象不宜過多,從以往研究來看,通常不超過4個[18,21]。The Again Again table是一個非常簡單的量表,通常用于探查兒童的再次使用意愿,兒童只需要回答“是,否,不確定”就可以了,該量表的使用沒有年齡限制,學(xué)齡前兒童也非常適用且結(jié)果有比較高的可靠性[18][22]。
This or That工具通常用于探查兒童的態(tài)度偏好[23]。如“你認為機器人A和機器人B哪個是更好的傾聽者?”孩子可以選擇“this,that或無法判斷”。為增加研究互動的趣味性,研究人員有時也會發(fā)給孩子貼紙讓他們給喜歡的對象貼上[5]。該方法簡單易理解,易操作,也廣泛應(yīng)用于各年齡段兒童的研究中。
當(dāng)探究兒童對智能服務(wù)機器人的人格化感知時,也會用到選項型問題,如“你覺得這個機器人是男的還是女的?”[24]“你覺得這個機器人和你是什么關(guān)系?朋友?玩具?寵物?”[25]。這時需要注意要使用孩子能理解的詞匯進行表達,同時可以借助圖片等更直觀化的工具輔助孩子理解選項。
2.2.3 優(yōu)劣勢分析
主觀報告測量由于數(shù)據(jù)采集簡單方便,能直接傾聽孩子的聲音,在兒童與智能服務(wù)機器人的交互體驗評價中使用很多,但由于兒童的認知理解、語言表達能力有限,且缺乏耐心,研究人員需根據(jù)不同年齡段兒童的認知水平和語言表達特點來設(shè)計問題的表述、題目及選項數(shù)量,還要適當(dāng)?shù)亟柚鷪D片、繪畫等直觀可視化的形式以及情景化游戲化的任務(wù)促進孩子的理解和表達,保持孩子的興趣,且要通過反復(fù)的預(yù)測試來保證兒童對問題理解的準確性。此外,由于主觀報告通常會在體驗任務(wù)結(jié)束后進行,所以無法實現(xiàn)對兒童心理狀態(tài)的即時評價。
在兒童與智能服務(wù)機器人的交互研究中,研究者常用績效來衡量機器人干預(yù)對兒童學(xué)習(xí)效果的影響。James Kennedy在探究機器人的3d形象和2d形象對兒童學(xué)習(xí)效果影響時,就采用游戲得分作為判斷學(xué)習(xí)效果變化的指標(biāo)之一[26];Hsien-Sheng Hsiao等人在研究智能機器人iRobiQ同平板電腦相比是否能提高兒童的閱讀效果時,通過閱讀理解能力、講故事能力、文字識別能力和故事復(fù)述能力四方面的前后測試對比來衡量兒童閱讀效果的改善程度[27]。此外,兒童在交互過程中完成某項活動的時長及特定行為發(fā)生的次數(shù)也可以作為績效測量的指標(biāo)。SANDRA Y.OKITA等人在研究機器人的注意力如何影響兒童的行為和參與時,采用兒童在活動期間與機器人目光直接接觸的次數(shù),兒童對機器人直接評論的次數(shù)和互動時長作為測量指標(biāo)[28]??冃y量主要側(cè)重對任務(wù)達成效果和效率的測量,缺乏對心理和情感層面的關(guān)注。
生理測量技術(shù)在人機交互領(lǐng)域主要用來測量用戶的認知負荷和情感體驗,具有客觀、實時、連續(xù)等特點,一直是用戶體驗研究中重要的探索方向,其中皮電(EDA)、心電(ECG)、腦電(EEG)在研究中應(yīng)用最為廣泛且報告了更多的顯性結(jié)果[29]。在兒童人機交互研究中已有使用生理測量的案例,但數(shù)量仍然比較少。
究其原因主要有三個:首先,大多數(shù)電生理測量設(shè)備都是有線、固定的,而兒童的性格較為活躍,注意力有限,常見的有線、固定設(shè)備不適合兒童長時間參與互動,且兒童好動的特點也會影響到生理信號采集的純凈性;其次,為了讓兒童更加自然地和機器人交互,一般會選擇在孩子們熟悉的場地進行,如校園,而生理測量由于精準性問題常需要在環(huán)境嚴格的實驗室中完成;最后,兒童的生理反應(yīng)可能和成人測量的平均反應(yīng)不同,需要更多的基礎(chǔ)研究來驗證各種生理指標(biāo)對兒童用戶體驗評估的適用性[28][30]。
隨著生物傳感器技術(shù)的發(fā)展,小型無線、非侵入式的傳感器在市場上出現(xiàn),研究者開始在兒童與智能服務(wù)機器人交互研究領(lǐng)域做了一些嘗試和探索。SANDRA Y.OKITA 等人嘗試用 effective Q 傳感器從6名與 ASTMO 機器人交互的兒童中收集了 EDA 數(shù)據(jù),結(jié)果初步表明皮電有助于判斷孩子的情緒喚醒水平,但由于樣本量太小,研究者表示需要進一步的大樣本驗證[28]。Iolanda Leite 等人同樣用 effective Q 傳感器收集了38名8-9歲兒童在與社交機器人交互過程中的 EDA 信號,結(jié)合交互日志和主觀問卷的數(shù)據(jù),驗證了皮電信號可用于測量兒童對機器人的感知和相互作用,尤其在參與度、動機和注意力上兒童的皮電特征區(qū)分顯著[30]。
表1綜合了以上兒童與智能服務(wù)機器人交互體驗評價的四類方法,從使用頻次、適用對象、研究目標(biāo)、研究方法、優(yōu)劣勢幾個方面對四類方法進行了梳理總結(jié)。由于各種測量方法各有優(yōu)劣勢,研究人員在實際研究中需要結(jié)合兒童的年齡、研究目標(biāo)以及交互環(huán)境選擇合適的方法。
表1 兒童與智能服務(wù)機器人交互體驗評價四種方法比較
續(xù)表1
行為測量主觀報告測量績效測量生理測量研究目標(biāo)發(fā)現(xiàn)交互體驗問題,總結(jié)交互行為規(guī)律,推測用戶心理感受評估認知、態(tài)度、情感層面的體驗和任務(wù)強相關(guān),評估任務(wù)完成效果或效率評估認知和情感層面的體驗研究方法定性定量相結(jié)合定性主要用于發(fā)現(xiàn)用戶體驗問題及交互動機定量主要用于量化行為表現(xiàn)發(fā)現(xiàn)交互規(guī)律定量為主,定性為輔定量量化主觀體驗定性簡單描述感受定量定量優(yōu)勢客觀,非干擾簡單,高效客觀,直接客觀,實時,連續(xù),精確劣勢數(shù)據(jù)容易缺失人工編碼耗時費力存在觀察者偏差結(jié)果可解釋性差受兒童認知和語言發(fā)展水平影響較大受兒童注意力水平和興趣影響較大存在社會贊許效應(yīng)和主試效應(yīng)非實時評價只注重任務(wù)達成,忽略心理和情感體驗設(shè)備、環(huán)境局限大基礎(chǔ)研究數(shù)據(jù)有限結(jié)果可解釋性差
研究兒童與智能服務(wù)機器人交互的主要挑戰(zhàn)之一是如何捕捉兒童對機器人及交互體驗的自發(fā)和真實的感知。本文對以往研究人員常用的四類方法進行了闡述和分析,未來,兒童與智能服務(wù)機器人交互體驗評價的方法仍有可進一步探索的空間。
(1)設(shè)計并驗證兒童與智能服務(wù)機器人交互體驗評價的標(biāo)準化量表。從以往文獻來看,還沒有專門針對兒童與智能服務(wù)機器人交互體驗評價的標(biāo)準化量表,雖然有的研究借鑒了成人與智能服務(wù)機器人交互的成熟量表,但在兒童群體中的信效度缺乏相關(guān)的驗證。此外,由于不同年齡兒童的認知發(fā)展水平差異較大,所以在設(shè)計和檢驗測量量表時需要考慮到兒童年齡的影響。
(2)對各測量方法進行相關(guān)性研究,掌握方法選擇和結(jié)合的規(guī)律。以往兒童與智能服務(wù)機器人的交互研究中,通常僅針對使用的測量方法進行單獨的分析,未來,可以嘗試對各測量方法之間的相關(guān)性進行研究,幫助其他研究者更好地認識和掌握如何將各測量方法結(jié)合運用。
(3)多維度數(shù)據(jù)自動采集整合分析,全面評價兒童的交互體驗。以往的研究,主要采用行為和主觀報告測量,且測量數(shù)據(jù)大多是由研究人員進行采集和分析的,耗時費力且數(shù)據(jù)有限。未來,需要探索更多科學(xué)有效的行為采集分析技術(shù)和生理測量技術(shù)在兒童人機交互研究領(lǐng)域的應(yīng)用,并實現(xiàn)多維度指標(biāo)數(shù)據(jù)的同步采集和整合分析,以更全面地評價兒童的生理心理狀態(tài)。