多模態(tài)交互方式的用戶接受度研究

2020-01-03 09:22:36郭夢(mèng)瑤徐進(jìn)波夏宇誠(chéng)

藝術(shù)與設(shè)計(jì)·理論 2019年12期

郭夢(mèng)瑤，徐進(jìn)波，夏宇誠(chéng)

（武漢理工大學(xué) 藝術(shù)學(xué)院，武漢 430070）

一、多模態(tài)交互概覽

“模態(tài)“俗稱為“感官”，即人類憑借感知和經(jīng)驗(yàn)獲得信息的渠道，“多模態(tài)”即將多種感官融合。多模態(tài)交互場(chǎng)景涉及用戶借助多種模態(tài)和通信渠道（如語(yǔ)音、姿勢(shì)、表情等等）與計(jì)算機(jī)實(shí)現(xiàn)溝通交流的信息輸入輸出系統(tǒng)。

得益于傳統(tǒng)單一模態(tài)技術(shù)（如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和音頻處理/傳感器等硬件技術(shù)）的發(fā)展，多模態(tài)交互技術(shù)的應(yīng)用取得了重大進(jìn)展。計(jì)算機(jī)計(jì)算與交互技術(shù)的有效匹配使越來(lái)越多的多模態(tài)交互設(shè)備問(wèn)世。多模態(tài)交互設(shè)備有智能手機(jī)、筆記本電腦、屏幕墻、智能音箱等等，而且大數(shù)據(jù)、深度語(yǔ)義理解、AI感知模態(tài)的發(fā)展與變革不斷催生著包括手勢(shì)、眼動(dòng)、表情在內(nèi)的交互新途徑，具有觸覺(jué)反饋、視線跟蹤和眨眼檢測(cè)的點(diǎn)設(shè)備也逐漸投入商用，可感知用戶界面，有形用戶界面正在日趨成熟。而且隨著物聯(lián)網(wǎng)的發(fā)展，越來(lái)越多的智能家居、遠(yuǎn)程協(xié)作和藝術(shù)創(chuàng)作等新的多模態(tài)交互場(chǎng)景應(yīng)用到實(shí)際生活中來(lái)，在此類交互場(chǎng)景中交互指令并非總是顯性的，而且通常都包含多個(gè)用戶。（圖1）

圖1

種種新的多模態(tài)交互形式的產(chǎn)生，用戶參與多模態(tài)交互動(dòng)態(tài)決策過(guò)程發(fā)生在不同的社會(huì)環(huán)境中，處于不同的交互階段，并沒(méi)有充分考慮到多模態(tài)接口要求用戶在現(xiàn)實(shí)情境中執(zhí)行新的、可能令人尷尬的行為的問(wèn)題。

二、研究過(guò)程與方法

手勢(shì)和語(yǔ)音被作為此次研究的重點(diǎn)，因?yàn)樗诂F(xiàn)下的交互場(chǎng)景中被廣泛應(yīng)用，且具有高度可見(jiàn)性。本研究主要分為三個(gè)階段采集用戶對(duì)多模態(tài)交互場(chǎng)景可接受度。

首先，采用視頻和調(diào)查問(wèn)卷的形式探究了影響交互技術(shù)接受度的因素。用視頻采集記錄研究員基于手勢(shì)交互的初始反應(yīng)，收集一些用戶可能接受的互動(dòng)技術(shù)的初始數(shù)據(jù)，將視頻整理剪輯形成互聯(lián)網(wǎng)調(diào)查問(wèn)卷，在更廣的范圍內(nèi)調(diào)查了這些交互技術(shù)能夠被感知的可能情況。

其次，將交互方式分類，如接觸設(shè)備和不接觸設(shè)備即為不同交互方式。設(shè)備抖動(dòng)和按壓都涉及直接操作移動(dòng)設(shè)備。眼動(dòng)追蹤、手勢(shì)識(shí)別和語(yǔ)音控制是不接觸設(shè)備的交互方式。在街頭做隨機(jī)采訪，要求用戶在公共場(chǎng)合做一組手勢(shì)、身體動(dòng)作，或者發(fā)出聲音等交互方式，并詢問(wèn)用戶為什么喜歡或不喜歡這些交互方式。

最后，調(diào)查了特定多模態(tài)交互場(chǎng)景中的不同用戶對(duì)交互方式做出的反應(yīng)。探討了更復(fù)雜的社會(huì)環(huán)境中不同因素是如何影響用戶可接受程度的。

三、研究發(fā)現(xiàn)

（一）用戶接受意愿的過(guò)程性

社會(huì)可接受性是用戶對(duì)于由接觸交互場(chǎng)景開(kāi)始到獲得反饋為止連續(xù)收集信息并受過(guò)往經(jīng)驗(yàn)所影響的對(duì)交互場(chǎng)景的由圍觀到接納認(rèn)同的過(guò)程或予以忽視、拒絕等行為反應(yīng)。在整個(gè)過(guò)程中，社會(huì)可接受性不是一個(gè)簡(jiǎn)單的可接受或不可接受的問(wèn)題，而是一個(gè)隨著時(shí)間不斷發(fā)展的連續(xù)決策過(guò)程。用戶執(zhí)行相關(guān)動(dòng)作，對(duì)交互指令做出決策，收集來(lái)自當(dāng)前或想象中的社會(huì)因素的反饋，并適當(dāng)?shù)卣{(diào)整決策。而過(guò)往經(jīng)驗(yàn)與個(gè)人所處的環(huán)境和過(guò)往決策密切相關(guān)，同時(shí)受更高層次的社會(huì)經(jīng)驗(yàn)影響。個(gè)人經(jīng)驗(yàn)受個(gè)人決策產(chǎn)生，而個(gè)人決策反過(guò)來(lái)又作用于更高層的次整體社會(huì)經(jīng)驗(yàn)變化。（圖2）

圖2

在多模態(tài)交互場(chǎng)景的交互執(zhí)行過(guò)程中，單就用戶與交互裝置之間的性能交互來(lái)看，用戶可接受度來(lái)源于認(rèn)知有用、工作適配、相對(duì)優(yōu)勢(shì)以及成果期望，當(dāng)用戶認(rèn)為該交互方式的使用能提高效率，明顯感受到比其他工具更強(qiáng)烈的優(yōu)越性時(shí)，他們對(duì)該交互方式接受程度較高。觀察用戶對(duì)交互設(shè)備的使用情況，通過(guò)屏幕上的交互指引，或者觀察其他用戶的操作過(guò)程而選擇是否采用此種交互方式。初次使用過(guò)后，對(duì)操作的熟識(shí)程度提高，進(jìn)而進(jìn)入深度使用階段，用戶會(huì)獨(dú)立完成操作，甚至?xí)龑?dǎo)朋友學(xué)會(huì)使用該裝置，在該過(guò)程中體現(xiàn)的已經(jīng)不限于“性能交互”，而是更廣泛的適用性?；?dòng)的完整過(guò)程的滿意度是評(píng)價(jià)其對(duì)該多模態(tài)交互場(chǎng)景接受程度的關(guān)鍵指標(biāo)。

（二）本能動(dòng)作一致性

當(dāng)用戶接觸新的交互裝置或者接觸新的交互方式的時(shí)候會(huì)陷入思維困境，每個(gè)人都會(huì)以自己的一套思維模式去嘗試?yán)斫?，而交互設(shè)計(jì)就是要用最簡(jiǎn)單的方式打破思維困境。因此用戶接觸新的多模態(tài)交互方式時(shí)，為用戶提供熟悉的與之前習(xí)慣相符的交互模式可以滿足用戶的預(yù)期心理模型。

用戶接受或拒絕多模態(tài)交互技術(shù)，很大程度上取決于這類交互行為是否與日常行為相似。在實(shí)地調(diào)研中，用戶描述輕敲或者輕拍是高度可接受的，因?yàn)檫@是日常生活中已經(jīng)發(fā)生的行為。例如搖動(dòng)手機(jī)是可以被接受的，因?yàn)閾u動(dòng)手機(jī)就像搖動(dòng)瓶子一樣自然。因此在采用新的多模態(tài)交互技術(shù)時(shí)，應(yīng)該考慮交互模仿日常生活中用戶的生活習(xí)慣。

（三）交互動(dòng)作的目的性

交互操作過(guò)程中交互動(dòng)作目的性對(duì)接受意愿起著重要作用。交互動(dòng)作應(yīng)該具有明確的目的性，這需要交互裝置的圖形界面或者語(yǔ)音提示用戶執(zhí)行該操作的時(shí)候所觸發(fā)的反應(yīng)與操作意向一致。參與者描述不喜歡基于手勢(shì)交互的原因之一是可能引起不必要的注意或引起用戶的誤解。單純的滿足實(shí)現(xiàn)交互裝置的功能需求，還不足以促使用戶接受該交互方式，用戶還希望隱藏他們的交互行為。

在交互場(chǎng)景以外不具有明確意義的姿勢(shì)比日常生活中常用的象征性姿勢(shì)更加難以接受。因?yàn)椴痪哂忻鞔_意義的姿勢(shì)容易使用戶產(chǎn)生誤解，容易被用戶遺忘，學(xué)習(xí)成本較高。在二次應(yīng)用到新的交互場(chǎng)景中容易產(chǎn)生理解偏差，因此這些交互行為結(jié)合到其他交互裝置乃至日常生活中時(shí)更為困難。

這項(xiàng)研究表明用戶對(duì)不同手勢(shì)模式準(zhǔn)確性的感知極大地影響他們的體驗(yàn)，這些包括更大的控制感，隱藏交互的能力，或者僅僅是交互的新體驗(yàn)。這些結(jié)果為設(shè)計(jì)者提供了鼓勵(lì)用戶采取新的互動(dòng)的方法，否則這些互動(dòng)會(huì)被認(rèn)為是不可接受的。相較于身體協(xié)同動(dòng)作而言簡(jiǎn)單的上肢動(dòng)作更容易被用戶所接受。此外在公眾場(chǎng)合和認(rèn)知負(fù)荷的狀態(tài)下用戶的交互意愿顯著降低。

（四）交互空間私密性

用戶置身于交互場(chǎng)景中與設(shè)備進(jìn)行交互的時(shí)候，受到圍觀群眾的影響，而觀眾也會(huì)根據(jù)操作者對(duì)多模態(tài)交互技術(shù)做出的反應(yīng)，而決定是否嘗試使用設(shè)備。在有圍觀群眾的情況下，操縱可見(jiàn)性則成為影響用戶接受意愿的主要因素。在公共場(chǎng)合類似“自言自語(yǔ)”的互動(dòng)對(duì)用戶來(lái)說(shuō)是不可以接受的。

隨著空間私密程度的降低，用戶操作意愿減弱。用戶最樂(lè)意接受的是獨(dú)自一人操作設(shè)備，最不愿意接受的是在陌生人面前操作設(shè)備。設(shè)計(jì)師在選用尤其是用于在陌生人面前的公共設(shè)備中使用的交互接口時(shí)必須考慮到這一點(diǎn)。本研究觀察用戶在同一交互場(chǎng)景下面對(duì)不同的觀眾是否會(huì)影響其交互方式的選擇。這些結(jié)果表明，熟悉他人的存在顯著地提高了進(jìn)行手勢(shì)或基于語(yǔ)音的交互的可接受性。在互動(dòng)過(guò)程中，用戶更傾向于多人互動(dòng)。這表明在開(kāi)發(fā)社交或協(xié)作界面，多個(gè)用戶一起參與交互，可以利用熟悉受眾的存在來(lái)鼓勵(lì)更有表現(xiàn)力的交互。

表1

以手勢(shì)交互接受程度為例，用戶最能接受的地方是家，最不能接受的地方是開(kāi)車，緊接著是人行道。由此可以看出除了考慮其私密性的因素以外，還要考慮用戶同時(shí)進(jìn)行多項(xiàng)任務(wù)時(shí)的認(rèn)知負(fù)荷狀態(tài)。（表1）

（五）文化背景導(dǎo)致交互初始偏好的差異性

在潛在動(dòng)機(jī)相同的情況下，不同的文化背景驅(qū)動(dòng)用戶選擇不同的初始偏好。例如，在兩種文化中都存在交互而不引起不必要注意的動(dòng)機(jī)，但是表達(dá)方式不同，導(dǎo)致不同的偏好。中國(guó)的受訪者，更傾向于渴望執(zhí)行微妙或隱藏的動(dòng)作，如用眼睛凝視或輕敲。在日本，這種動(dòng)機(jī)被表達(dá)為不想用基于語(yǔ)音的交互偏好來(lái)打擾別人。對(duì)基于語(yǔ)音的交互拒絕率顯著較高，因?yàn)檫@些行為在文化交流中被認(rèn)為對(duì)其他人有破壞性的。而中國(guó)地區(qū)參與者對(duì)象征性手勢(shì)的拒絕率明顯更高，因?yàn)檫@些手勢(shì)因其高度標(biāo)志性、可識(shí)別性而難以秘密執(zhí)行。然而，即使參與者具有不同的初始偏好，雖然文化背景存在差異，在考慮交互應(yīng)該如何相對(duì)于設(shè)備工作、使用功能有多普遍時(shí)，他們表現(xiàn)出更多的相似性而不是差異性。

四、結(jié)論

隨著技術(shù)的變化和進(jìn)步，創(chuàng)造新的互動(dòng)方式，對(duì)用戶可接受性的評(píng)價(jià)從一個(gè)執(zhí)行的角度將有助于將這些新的互動(dòng)成功地融入日常生活中。多模態(tài)交互技術(shù)目前主要應(yīng)用于圖像識(shí)別、信息檢索和人機(jī)對(duì)話方面。越來(lái)越多的研究成果顯示，多種模態(tài)相互配合的信息處理方法能夠給用戶帶來(lái)更高效更優(yōu)質(zhì)的用戶體驗(yàn)。例如，采用語(yǔ)義表達(dá)配合視覺(jué)呈現(xiàn)要優(yōu)于純文字的分布式語(yǔ)義表達(dá)，在愉悅度方面，文本模態(tài)的交互方式優(yōu)于音頻傳遞給用戶的信息，激活度方面，音頻模態(tài)的喚醒速度和操作限制度又優(yōu)于文本模態(tài)。在設(shè)計(jì)早期完成社會(huì)可接受性評(píng)估對(duì)多模態(tài)交互方式的選擇具有較強(qiáng)的指導(dǎo)意義，確定不同社會(huì)或文化群體中的用戶的初始偏好，僅選擇社會(huì)可接受的交互技術(shù)開(kāi)發(fā)和部署以節(jié)省寶貴的設(shè)計(jì)和實(shí)現(xiàn)資源，并最終實(shí)現(xiàn)更可接受的接口，以提高這些交互技術(shù)的接受程度。