• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人智交互體驗(yàn)度量:受控實(shí)驗(yàn)的應(yīng)用及啟示

      2023-05-20 01:30:26姜婷婷田慧溢許艷閏傅詩(shī)婷
      圖書(shū)情報(bào)知識(shí) 2023年2期
      關(guān)鍵詞:參與者樣本測(cè)量

      姜婷婷田慧溢許艷閏傅詩(shī)婷

      (1.武漢大學(xué)信息管理學(xué)院,武漢,430072;2.武漢大學(xué)信息資源研究中心,武漢,430072)

      1 引言

      20世紀(jì)80年代起,計(jì)算機(jī)和信息系統(tǒng)開(kāi)始深刻地影響、改變甚至重塑人們的生活方式。人機(jī)交互(Human-Computer Interaction, HCI)領(lǐng)域秉持“以人為本”的宗旨,多年來(lái)為優(yōu)化系統(tǒng)設(shè)計(jì)和提高用戶體驗(yàn)提供了規(guī)范、準(zhǔn)則、策略和建議[1]。人工智能(Artificial Intelligence, AI)的出現(xiàn)為HCI領(lǐng)域帶來(lái)全新的挑戰(zhàn)和機(jī)遇,“人智交互”(Human-AI interaction, HAII)成為HCI領(lǐng)域的前沿課題[2]。人智交互體驗(yàn)研究關(guān)注人類使用人工智能系統(tǒng)完成特定任務(wù)的過(guò)程和結(jié)果,采用多種用戶研究方法和手段揭示交互主體、任務(wù)、環(huán)境等各要素在其中的作用機(jī)制,旨在幫助人工智能系統(tǒng)提供更好的用戶體驗(yàn)[3]。關(guān)注交互體驗(yàn)不僅是HCI領(lǐng)域的基礎(chǔ)內(nèi)容,也是推動(dòng)HAII領(lǐng)域持續(xù)發(fā)展的重要?jiǎng)恿3]。近年來(lái),HAII相關(guān)研究積極地探索著人與AI的交互體驗(yàn),致力于增強(qiáng)人類與AI的相互理解和協(xié)作共生[4-7]。

      實(shí)驗(yàn)方法是HCI領(lǐng)域重要的研究方法之一,被廣泛應(yīng)用于以往的HCI用戶體驗(yàn)研究[8]。采用實(shí)驗(yàn)法來(lái)探究交互體驗(yàn)有以下優(yōu)點(diǎn)。第一,確定因果關(guān)系。在交互體驗(yàn)研究中,情境復(fù)雜并且影響因素眾多[9],實(shí)驗(yàn)法通過(guò)嚴(yán)格控制額外變量來(lái)分離出自變量對(duì)因變量的影響,有助于確定因果關(guān)系[10]。第二,提高可重復(fù)性。HCI交互體驗(yàn)研究面臨嚴(yán)峻的“重復(fù)危機(jī)”(Replication Crisis/Replicability Crisis/Reproducibility Crisis),即現(xiàn)在很難或無(wú)法復(fù)現(xiàn)以往的研究結(jié)果,這極大地阻礙了領(lǐng)域發(fā)展并降低了人們對(duì)以往研究的信心[11]。實(shí)驗(yàn)法遵循嚴(yán)格的實(shí)驗(yàn)流程并且對(duì)變量有明確的操作性定義,可以提高交互體驗(yàn)研究的可重復(fù)性[12]。第三,主動(dòng)復(fù)現(xiàn)。交互過(guò)程中可能存在不穩(wěn)定出現(xiàn)但重要的效應(yīng)或事件,實(shí)驗(yàn)法能夠操縱自變量水平來(lái)重現(xiàn)某些效應(yīng)或事件[10]。因此,實(shí)驗(yàn)法適用于HCI領(lǐng)域?qū)换ンw驗(yàn)進(jìn)行理論驗(yàn)證、設(shè)計(jì)實(shí)踐、效應(yīng)探索等多方面探索[13]。

      由于HAII萌芽于HCI領(lǐng)域,HAII自然繼承了實(shí)驗(yàn)法對(duì)領(lǐng)域發(fā)展的重要意義。HAII領(lǐng)域的發(fā)展日新月異,為了解目前HAII體驗(yàn)實(shí)驗(yàn)研究的發(fā)展現(xiàn)狀和趨勢(shì),以及為后續(xù)開(kāi)展HAII實(shí)驗(yàn)研究提供參考,有必要對(duì)現(xiàn)有的HAII體驗(yàn)實(shí)驗(yàn)研究進(jìn)行梳理。為此本研究采用系統(tǒng)性綜述法,梳理114篇HAII領(lǐng)域內(nèi)交互體驗(yàn)實(shí)驗(yàn)研究的結(jié)構(gòu)和內(nèi)容,構(gòu)建HAII實(shí)驗(yàn)研究的基本框架,揭示HAII實(shí)驗(yàn)研究的發(fā)展現(xiàn)狀和趨勢(shì),以期為后續(xù)開(kāi)展HAII實(shí)驗(yàn)研究提供參考和借鑒。

      2 研究方法

      2.1 文獻(xiàn)采集和篩選

      本研究開(kāi)展系統(tǒng)性綜述對(duì)人智交互體驗(yàn)的實(shí)驗(yàn)研究進(jìn)行了梳理和總結(jié)。系統(tǒng)性綜述是一種對(duì)特定研究問(wèn)題、主題領(lǐng)域、感興趣現(xiàn)象有關(guān)的全部現(xiàn)有研究進(jìn)行識(shí)別、評(píng)價(jià)與解釋的方法[14],具有系統(tǒng)、全面、透明、可復(fù)制等特點(diǎn)[15]。本研究按照系統(tǒng)性綜述的常用流程開(kāi)展工作,具體如圖1所示。

      圖1 系統(tǒng)性綜述的工作流程Fig.1 Workflow of the Systematic Review

      在搜索人智交互體驗(yàn)的實(shí)驗(yàn)研究時(shí),本研究首先在Web of Science(WoS)中,以“Human-AI interaction”or“Humanrobot interaction”or“Human-AI collaboration”and“User experiment”為查詢式開(kāi)展標(biāo)題、摘要和關(guān)鍵詞字段的搜索,不設(shè)置時(shí)間跨度;接著使用同樣的查詢式在Google Scholar和ResearchGate中進(jìn)行搜索,補(bǔ)充未收錄進(jìn)WoS的文獻(xiàn)。此外,本研究還采用了珠型增長(zhǎng)策略進(jìn)一步獲取與這些文獻(xiàn)具有各種關(guān)聯(lián)(如引用和共引)的其他文獻(xiàn),以對(duì)現(xiàn)有搜索結(jié)果進(jìn)行補(bǔ)充。最終初步獲取2002年1月1日至2022年6月30日的310篇相關(guān)文獻(xiàn),經(jīng)去重后得到306篇。

      在文獻(xiàn)篩選階段,本研究的綜述文獻(xiàn)集納入了發(fā)表在同行評(píng)審期刊或是會(huì)議論文集上的英文論文,但排除其中可用性測(cè)試研究、演化仿真研究、基于用戶數(shù)據(jù)集的機(jī)器學(xué)習(xí)研究??捎眯詼y(cè)試是研究人員預(yù)先設(shè)置好測(cè)試任務(wù),用戶到現(xiàn)場(chǎng)操作產(chǎn)品并記錄結(jié)果的一種研究方法[16],它無(wú)法隨機(jī)抽取樣本并嚴(yán)格地控制額外變量;演化仿真研究采用系統(tǒng)動(dòng)力學(xué)建模仿真來(lái)分析因變量的變化[17],但實(shí)驗(yàn)中并沒(méi)有真實(shí)用戶的參與;基于用戶數(shù)據(jù)集的機(jī)器學(xué)習(xí)研究并不關(guān)注用戶體驗(yàn),用戶只提供數(shù)據(jù)集來(lái)訓(xùn)練并測(cè)試算法模型的運(yùn)行效果。經(jīng)篩選后共得到174篇文獻(xiàn),這些研究均開(kāi)展了受控實(shí)驗(yàn),觀測(cè)并分析了人智交互中的用戶體驗(yàn),包括用戶的主觀感知和評(píng)價(jià),以及客觀的行為表現(xiàn)等。

      為確保綜述內(nèi)容的質(zhì)量,本研究對(duì)每篇論文進(jìn)行了質(zhì)量評(píng)估。主要考慮以下因素:①研究目標(biāo)及研究問(wèn)題是否明確;②研究方法是否采用了規(guī)范的實(shí)驗(yàn)法,即嚴(yán)格地控制額外變量,隨機(jī)選取樣本,通過(guò)精確地操縱有明確操作性定義的自變量的不同水平來(lái)觀測(cè)自變量對(duì)因變量的影響[18];③研究設(shè)計(jì)是否適用于研究問(wèn)題且闡述清晰;④實(shí)驗(yàn)流程是否清晰且具有可重復(fù)性;⑤數(shù)據(jù)采集方法是否合適,操作過(guò)程是否恰當(dāng)且闡述清晰;⑥數(shù)據(jù)分析方法是否合適。經(jīng)過(guò)質(zhì)量評(píng)估完成了二次篩選,最終得到了包含114篇高質(zhì)量研究文獻(xiàn)的集合。

      2.2 文獻(xiàn)的內(nèi)容分析與編碼

      本研究采用內(nèi)容分析法對(duì)人智交互體驗(yàn)實(shí)驗(yàn)研究進(jìn)行梳理。內(nèi)容分析法是對(duì)各種信息交流形式的顯性內(nèi)容進(jìn)行客觀、系統(tǒng)的定性或定量描述的一種研究方法[19],包含單元化、抽樣、記錄/編碼、歸納、溯因推理、陳述[20]。本研究嚴(yán)格遵循上述流程,在“實(shí)驗(yàn)樣本”“實(shí)驗(yàn)觀測(cè)維度”“數(shù)據(jù)分析方法”既有編碼體系的基礎(chǔ)上,通過(guò)對(duì)文獻(xiàn)內(nèi)容的歸納提取出“實(shí)驗(yàn)材料”和“實(shí)驗(yàn)任務(wù)”兩個(gè)分類,最終形成如附錄所示的人智交互體驗(yàn)實(shí)驗(yàn)研究的分析編碼體系。

      實(shí)驗(yàn)研究一般都會(huì)從目標(biāo)群體中選擇一定數(shù)量的典型用戶參與實(shí)驗(yàn),這些實(shí)驗(yàn)參與者組成研究的樣本[18]。如何選擇參與者、邀請(qǐng)多少參與者、如何將參與者分配到不同自變量水平中去,都在很大程度上決定了實(shí)驗(yàn)的成敗[21]。因此,針對(duì)人智交互體驗(yàn)實(shí)驗(yàn)研究的樣本,本研究主要關(guān)注抽樣方式、樣本規(guī)模和樣本分配方式這三個(gè)方面。

      任何實(shí)驗(yàn)研究均需包含一定的實(shí)驗(yàn)任務(wù),它是研究者根據(jù)研究問(wèn)題在實(shí)驗(yàn)中為參與者設(shè)置的特定實(shí)驗(yàn)內(nèi)容[22]。實(shí)驗(yàn)任務(wù)的設(shè)置首先需要考慮任務(wù)環(huán)境和任務(wù)情景。前者是參與者完成任務(wù)時(shí)所處的物理環(huán)境,可分為線上或線下[23];后者是由研究者設(shè)置了真實(shí)、模擬或虛構(gòu)的情景,以增強(qiáng)參與者的臨場(chǎng)感,提高實(shí)驗(yàn)的外部效度[24]。此外,研究者需要根據(jù)特定的研究目的來(lái)設(shè)置任務(wù)的交互模態(tài)和類型,即明確參與者在交互過(guò)程中的信息交換形式[25],以及參與者在實(shí)驗(yàn)中需要完成的具體任務(wù)內(nèi)容。

      實(shí)驗(yàn)研究需要用到不同實(shí)驗(yàn)條件下的實(shí)驗(yàn)材料,是精確控制變量的基礎(chǔ)。與絕大多數(shù)實(shí)驗(yàn)研究相比,人智交互體驗(yàn)實(shí)驗(yàn)研究所用到的材料主要圍繞著AI進(jìn)行設(shè)計(jì)。以何種形式呈現(xiàn)AI并實(shí)現(xiàn)AI的功能是研究者必須考慮的設(shè)計(jì)和技術(shù)問(wèn)題。此外,還需要根據(jù)實(shí)驗(yàn)?zāi)繕?biāo)來(lái)為AI安排特定的任務(wù)角色和任務(wù)功能。因此,本研究主要從AI的外觀、AI在任務(wù)中的角色、AI提供的功能、AI功能的實(shí)現(xiàn)途徑這四個(gè)方面來(lái)關(guān)注人智交互體驗(yàn)實(shí)驗(yàn)研究中實(shí)驗(yàn)材料的設(shè)置。

      實(shí)驗(yàn)研究中因變量的測(cè)量維度需要根據(jù)研究?jī)?nèi)容和實(shí)驗(yàn)條件進(jìn)行選擇[26]。根據(jù)實(shí)驗(yàn)過(guò)程中的觀測(cè)對(duì)象,可以將實(shí)驗(yàn)的觀測(cè)維度劃分為對(duì)用戶的心理測(cè)量、行為測(cè)量和生理測(cè)量。研究人員通過(guò)對(duì)用戶的心理測(cè)量收集用戶交互過(guò)程的主觀體驗(yàn)[27],從行為測(cè)量得到客觀的非介入性數(shù)據(jù),借助生理測(cè)量來(lái)獲取用戶的生理反應(yīng)信號(hào),進(jìn)而能夠從不同維度上分析、解釋并預(yù)測(cè)用戶體驗(yàn)和行為[28-30]。

      3 分析結(jié)果

      3.1 實(shí)驗(yàn)樣本

      一般來(lái)說(shuō),實(shí)驗(yàn)研究可以使用容易接觸到的便利樣本,也可以根據(jù)研究需要選取特定樣本[31]??v觀114篇HAII體驗(yàn)實(shí)驗(yàn)文獻(xiàn),大多數(shù)研究都使用了便利樣本(N=78,68%),以高校學(xué)生為代表(N=69);部分研究選取了AI所服務(wù)的人群對(duì)象作為樣本(N=26,23%),比如病人、老年人、殘疾人等;少數(shù)研究并未對(duì)抽樣方式進(jìn)行說(shuō)明(N=10,9%)。高校學(xué)生這一便利樣本類型在實(shí)驗(yàn)研究中十分常見(jiàn),招募他們參與實(shí)驗(yàn)?zāi)軌蛴行У靥岣邔?shí)驗(yàn)效率、節(jié)省實(shí)驗(yàn)成本,但由此也帶來(lái)了結(jié)論適用性低的問(wèn)題[32]。

      在樣本規(guī)模上,采用21~50人(N=43,38%)或51~100人(N=32,28%)的樣本規(guī)?;蚣纯蓾M足大多數(shù)HAII體驗(yàn)實(shí)驗(yàn)研究的需求,部分研究的樣本量擴(kuò)大至100人以上的研究占比16%(N=18),20人以下的研究占比14%(N=16),未說(shuō)明樣本規(guī)模研究占比4%(N=5)。需要注意的是,在這114篇HAII體驗(yàn)實(shí)驗(yàn)研究文獻(xiàn)中,有86%的研究在文中未明確說(shuō)明樣本規(guī)模的確定依據(jù),過(guò)小的樣本規(guī)模會(huì)降低樣本的代表性[33],而過(guò)大的樣本規(guī)模則可能存在可疑性研究操作[34]。

      實(shí)驗(yàn)研究有三種將參與者分配到不同自變量水平中的方式:被試間設(shè)計(jì)、被試內(nèi)設(shè)計(jì)和混合設(shè)計(jì)。被試間設(shè)計(jì)是每名參與者只接受一種實(shí)驗(yàn)條件;被試內(nèi)設(shè)計(jì)是每名參與者需要接受所有的實(shí)驗(yàn)條件;混合設(shè)計(jì)則是綜合應(yīng)用上述兩種設(shè)計(jì)方案,主要用于多自變量實(shí)驗(yàn)[35]。人智交互體驗(yàn)實(shí)驗(yàn)研究多采用被試間設(shè)計(jì)(N=78,68%),能夠有效避免不同交互條件的相互干擾以及順序效應(yīng);23%(N=26)的研究采用被試內(nèi)設(shè)計(jì),能夠減少實(shí)驗(yàn)所需樣本;只有9%的研究采用了混合設(shè)計(jì)(N=10)。

      3.2 實(shí)驗(yàn)任務(wù)

      任務(wù)設(shè)計(jì)是實(shí)驗(yàn)研究中的關(guān)鍵工作。在HAII體驗(yàn)實(shí)驗(yàn)中,用戶與AI的交互需由適當(dāng)?shù)娜蝿?wù)來(lái)觸發(fā)。根據(jù)用戶在執(zhí)行任務(wù)過(guò)程中的具體活動(dòng)內(nèi)容,以往研究所采用的實(shí)驗(yàn)任務(wù)主要可以分為以下五大類。(1)游戲任務(wù)(N=30,26%):用戶需要和AI一起玩游戲,比如走出迷宮、拼七巧板或競(jìng)技游戲中分出勝負(fù)等[36-38]。(2)對(duì)話任務(wù)(N=27,24%):用戶主動(dòng)或被動(dòng)地與AI進(jìn)行交流,通過(guò)語(yǔ)音對(duì)話或文本聊天的形式,不需要進(jìn)行其他操作[39]。(3)瀏覽任務(wù)(N=26,23%):用戶獨(dú)自瀏覽與AI相關(guān)的實(shí)驗(yàn)材料并在瀏覽結(jié)束后評(píng)價(jià)AI的表現(xiàn),或是用戶與AI共同瀏覽實(shí)驗(yàn)材料后,用戶評(píng)價(jià)AI在他們共同瀏覽過(guò)程中表現(xiàn)出的智能水平、共情能力、擬人度等[40]。(4)評(píng)測(cè)任務(wù)(N=24,21%):在體驗(yàn)了AI提供的服務(wù)(如授課、拿取物品、擁抱等),用戶需要對(duì)服務(wù)和AI進(jìn)行評(píng)價(jià)[41]。(5)決策任務(wù)(N=7,6%):用戶需要在AI給出的選項(xiàng)中做出選擇,比如是否接受AI提供建議、是否購(gòu)買AI推薦的商品等[42]。值得注意的是,很多研究在對(duì)實(shí)驗(yàn)任務(wù)進(jìn)行描述時(shí)缺少必要的細(xì)節(jié),71%的研究(N=81)未說(shuō)明任務(wù)時(shí)長(zhǎng)或?qū)嶒?yàn)總時(shí)長(zhǎng),這增加了重復(fù)評(píng)估或重現(xiàn)實(shí)驗(yàn)的難度[43]。

      線下實(shí)驗(yàn)由于其臨場(chǎng)感和交互性更強(qiáng)而受到青睞(N=109,96%),但也有少數(shù)研究會(huì)根據(jù)其實(shí)驗(yàn)設(shè)計(jì)的需要而采取線上實(shí)驗(yàn)(N=5,4%)。此外,為了提高實(shí)驗(yàn)結(jié)論的生態(tài)效度,實(shí)驗(yàn)任務(wù)通常會(huì)設(shè)置在更貼近日常生活的情景中,研究人員會(huì)設(shè)計(jì)具體的場(chǎng)景線索以及指導(dǎo)語(yǔ)來(lái)告知參與者其所處的任務(wù)情景?,F(xiàn)有HAII體驗(yàn)實(shí)驗(yàn)研究所涵蓋的情景主要包括居家(N=46,40%)、游戲(N=13,12%)、購(gòu)物(N=7,6%)、醫(yī)療護(hù)理(N=6,7%)、教學(xué)(N=4,4%)、駕駛(N=3,3%)、軍事演習(xí)(N=2,2%)、旅游觀光(N=2,2%)。然而也有部分研究(N=31,27%)并未在實(shí)驗(yàn)中指定具體的任務(wù)情景。

      人類是通過(guò)視、聽(tīng)、觸、味、嗅等感官接受外界刺激以實(shí)現(xiàn)與環(huán)境的交互的。在與AI交互時(shí),用戶主要在視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)通道上與AI進(jìn)行著信息交換。在已有的HAII體驗(yàn)實(shí)驗(yàn)研究中,實(shí)驗(yàn)任務(wù)所涉及的視覺(jué)信息主要包括文本、圖片、視頻等[44],聽(tīng)覺(jué)信息主要包括音樂(lè)、AI與用戶以語(yǔ)音形式進(jìn)行的問(wèn)答對(duì)話等[45],觸覺(jué)信息則主要包括溫度、壓力、震動(dòng)反饋等[46],這三類信息分別支持人與AI之間的視覺(jué)交互(N=35,31%)、聽(tīng)覺(jué)交互(N=26,23%)和觸覺(jué)交互(N=7,6%)。值得注意的是,復(fù)雜的交互情境可能同時(shí)調(diào)動(dòng)多個(gè)感官通道,從而實(shí)現(xiàn)視聽(tīng)(N=18,16%)、視觸(N=14,12%)、聽(tīng)觸(N=9,8%)雙模態(tài)交互,甚至是視聽(tīng)觸三模態(tài)交互(N=5,4%)。

      3.3 實(shí)驗(yàn)材料

      不同于傳統(tǒng)HCI研究通常在電腦或移動(dòng)設(shè)備上展示實(shí)驗(yàn)材料,HAII體驗(yàn)的實(shí)驗(yàn)材料必須以AI為核心?!懊兰春糜眯?yīng)”(Aesthetic Usability Effect)表明,具有吸引力的AI系統(tǒng)外觀對(duì)于用戶體驗(yàn)的提升發(fā)揮了關(guān)鍵作用[47]。本研究根據(jù)AI有無(wú)物理實(shí)體和AI有無(wú)具體形象這兩個(gè)維度將以往研究中的AI外觀劃分為四種類型:(1)有具體形象的實(shí)體AI系統(tǒng)(N=54,47%),如擬人機(jī)器人、類動(dòng)物機(jī)器人[38,48];(2)有具體形象的虛擬AI系統(tǒng)(N=28,25%),如虛擬人、虛擬寵物等[41,49];(3)無(wú)具體形象的實(shí)體AI系統(tǒng)(N=18,16%),如機(jī)械手臂、智能拐杖等[50-51];(4)無(wú)具體形象的虛擬AI系統(tǒng)(N=14,12%),如個(gè)性化推薦系統(tǒng)、自動(dòng)駕駛系統(tǒng)、手機(jī)語(yǔ)音助手等[52]。圖2依次展示了前三類AI的外觀(已獲授權(quán)的網(wǎng)絡(luò)圖片)。

      圖2 a 實(shí)體-有具體形象AIFig.2a AI with Physical Body and Appearance

      圖2 b 虛擬-有具體形象AIFig.2b AI with Virtual Body and Appearance

      圖2 c 實(shí)體-無(wú)具體形象AIFig.2c AI with Physical Body Without Appearance

      AI在人智交互體驗(yàn)實(shí)驗(yàn)任務(wù)中的角色可以根據(jù)其貢獻(xiàn)程度分為主導(dǎo)者、合作者和協(xié)作者。作為主導(dǎo)者的AI需要承擔(dān)實(shí)驗(yàn)任務(wù)中的大部分工作[53],例如AI獨(dú)自完成走出迷宮的游戲、AI向用戶介紹產(chǎn)品等,用戶則只需要評(píng)估AI的任務(wù)表現(xiàn)。作為合作者的AI則是與用戶共同完成任務(wù),例如在駕駛、創(chuàng)意活動(dòng)中進(jìn)行合作等[54],完成任務(wù)后用戶評(píng)估AI的任務(wù)表現(xiàn)、交互體驗(yàn)以及對(duì)AI的印象或態(tài)度。作為協(xié)助者時(shí),AI通常是在用戶執(zhí)行任務(wù)的過(guò)程中為其提供一定的輔助,例如幫用戶拿取物品、提供提示/意見(jiàn)/建議等[55],旨在提高用戶的任務(wù)表現(xiàn)。在所有文獻(xiàn)中,AI作為合作者的情況最常見(jiàn)(N=59,52%),其次是作為協(xié)作者(N=37,32%),最少是作為主導(dǎo)者(N=18,16%)。

      為了實(shí)現(xiàn)以上角色,AI需要具備相應(yīng)的功能。在以往研究中,AI的功能可以分為以下五類。(1)建議(N=32,28%):AI根據(jù)具體任務(wù)情境向參與者提出相應(yīng)的意見(jiàn)或建議,比如提示游戲線索、提供額外可選選項(xiàng)或方案、表達(dá)AI的決策和依據(jù)[56]。(2)信息處理(N=26,23%):AI進(jìn)行信息的篩選、排序、提煉等處理,并向用戶展示信息處理結(jié)果[40]。(3)物理輔助(N=20,17%):通常由AI為用戶提供引路、拿取或抓取物品等輔助[57]。(4)問(wèn)答(N=18,16%):AI可以向用戶提問(wèn),但AI不會(huì)根據(jù)回答進(jìn)行追問(wèn)或建議; AI也可以根據(jù)用戶提問(wèn)中的關(guān)鍵詞作出固定回答,但對(duì)關(guān)鍵詞之外的問(wèn)題不予回應(yīng)[58]。(5)決策(N=18,16%):AI根據(jù)具體情境自行作出決策并執(zhí)行,常見(jiàn)于對(duì)弈等人智競(jìng)爭(zhēng)情境[59]。

      在接近一半(N=54,47%)的HAII體驗(yàn)實(shí)驗(yàn)研究中,AI的功能是已經(jīng)實(shí)現(xiàn)了的,即研究人員可以使用編程語(yǔ)言實(shí)現(xiàn)真實(shí)的AI交互功能,通過(guò)算法實(shí)現(xiàn)簡(jiǎn)單的判斷交互,或者建立有數(shù)據(jù)輸入輸出的交互模型來(lái)實(shí)現(xiàn)數(shù)據(jù)融合,亦或是搭建交互系統(tǒng)實(shí)現(xiàn)具有完備功能的人智交互,從而使得用戶與AI之間的真實(shí)交互成為可能。其次,有36項(xiàng)(32%)研究通過(guò)綠野仙蹤(Wizard of Oz)這一手段實(shí)現(xiàn)了用戶與AI之間的模擬交互,即實(shí)驗(yàn)人員遠(yuǎn)程操控AI與用戶進(jìn)行實(shí)時(shí)互動(dòng),使用戶相信自己所面對(duì)的是AI而非人類,這樣可以探索目前的技術(shù)水平尚無(wú)法實(shí)現(xiàn)的功能[60]。此外,還有24項(xiàng)(21%)研究使參與者處于旁觀者視角來(lái)實(shí)現(xiàn)用戶與AI的間接交互,研究人員要求參與者觀看其他人與AI交互過(guò)程的視頻或圖片,觀看后用戶對(duì)呈現(xiàn)材料中的AI進(jìn)行評(píng)估。

      3.4 實(shí)驗(yàn)觀測(cè)維度

      人智交互體驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)來(lái)自于研究人員在實(shí)驗(yàn)過(guò)程中對(duì)用戶心理、行為和生理反應(yīng)三個(gè)維度的觀測(cè)。(1)心理測(cè)量:通過(guò)問(wèn)卷或量表來(lái)測(cè)量用戶對(duì)AI的感知以及用戶的交互體驗(yàn),感知測(cè)量會(huì)通過(guò)用戶對(duì)AI的接受度、喜愛(ài)度和智能感知的評(píng)分來(lái)體現(xiàn)[61](N=31,27%),體驗(yàn)測(cè)量主要是用戶對(duì)整體人智交互過(guò)程的沉浸感、有效性和交互滿意度進(jìn)行評(píng)估[62](N=28,25%)。(2)行為測(cè)量:為了提高實(shí)驗(yàn)結(jié)論的客觀性,研究人員會(huì)從多個(gè)方面觀測(cè)用戶行為[63],包括用戶的語(yǔ)言(N=3,3%)、面部表情和肢體動(dòng)作(N=4,4%)、用戶完成實(shí)驗(yàn)任務(wù)的表現(xiàn)(如得分、耗時(shí)、排名)等(N=12,11%)。(3)生理測(cè)量:生理反應(yīng)是心理和行為反應(yīng)的基礎(chǔ),有研究借助認(rèn)知神經(jīng)科學(xué)的測(cè)量工具對(duì)用戶進(jìn)行各個(gè)維度的生理測(cè)量,包括心率變化率(N=1,1%)、皮膚電反應(yīng)(N=2,2%)、眼動(dòng)(N=3,3%)、腦電(N=2,2%)。值得注意的是,另有28項(xiàng)(25%)研究開(kāi)展了多維度觀測(cè),將三類測(cè)量結(jié)合起來(lái)以解決單一維度測(cè)量可能存在的局限或偏差。

      3.5 數(shù)據(jù)分析方法

      通過(guò)受控實(shí)驗(yàn)采集到的人智交互體驗(yàn)數(shù)據(jù)基本上都是定量的,研究人員會(huì)根據(jù)研究問(wèn)題和實(shí)驗(yàn)?zāi)康倪x擇合適的統(tǒng)計(jì)分析方法。大多數(shù)研究采用假設(shè)檢驗(yàn)對(duì)不同實(shí)驗(yàn)條件下的均值進(jìn)行差異分析,因此假設(shè)檢驗(yàn)是以上114項(xiàng)研究使用頻率最高的統(tǒng)計(jì)分析方法,根據(jù)數(shù)據(jù)總體分布特點(diǎn),假設(shè)檢驗(yàn)分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)兩大類。參數(shù)檢驗(yàn)用到了方差分析(Analysis of Variance, ANOVA)(N=31,27%)和t檢驗(yàn)(N=14,13%),采用參數(shù)檢驗(yàn)方法要求總體為正態(tài)分布、各處理內(nèi)方差齊性[64],但僅有11篇研究檢驗(yàn)并報(bào)告了前提條件。非參數(shù)檢驗(yàn)主要用到了卡方檢驗(yàn)(N=9,8%)、Mann-Whitney U檢驗(yàn)(N=9,8%)和Wilcoxon符號(hào)秩檢驗(yàn)(N=6,5%)。此外,回歸分析用到線性回歸(N=3,3%)和logistic回歸(N=2,2%)兩種具體的方法來(lái)分析變量之間的影響,相關(guān)分析采用Spearman秩相關(guān)系數(shù)(N=3,3%)和Pearson相關(guān)系數(shù)(N=2,2%)來(lái)說(shuō)明變量間的相關(guān)關(guān)系。另外,有35項(xiàng)(31%)研究采用了多種分析方法進(jìn)行統(tǒng)計(jì)分析。

      4 討論

      4.1 受控實(shí)驗(yàn)在人智交互體驗(yàn)研究中的應(yīng)用現(xiàn)狀與特點(diǎn)

      (1)實(shí)驗(yàn)樣本抽樣方式單一

      目前人智交互體驗(yàn)實(shí)驗(yàn)研究在樣本抽樣方式上以便利抽樣為主,高校師生是最常被選擇的樣本群體。便利抽樣簡(jiǎn)便易行,能夠得到較高的問(wèn)卷回收率。但此種抽樣方式通常會(huì)帶來(lái)較大的抽樣結(jié)果偏差,使得便利樣本通常沒(méi)有足夠的代表性,降低了研究結(jié)論的可靠性和普適性[65]。用戶和AI作為人智交互的兩大主體,其自身特征會(huì)對(duì)交互過(guò)程和結(jié)果產(chǎn)生極大影響[3]。而便利樣本掩蓋了不同用戶群體間的差異性,造成現(xiàn)有絕大多數(shù)人智交互體驗(yàn)的研究結(jié)果缺乏群體針對(duì)性,阻礙了相關(guān)研究成果面向?qū)嶋H應(yīng)用的落地轉(zhuǎn)化。

      (2)實(shí)驗(yàn)材料可復(fù)用性低

      實(shí)驗(yàn)材料作為實(shí)驗(yàn)設(shè)計(jì)的重要組成部分,是實(shí)驗(yàn)變量的具體體現(xiàn),需要在實(shí)驗(yàn)任務(wù)中與參與者進(jìn)行交互。人智交互體驗(yàn)研究的實(shí)驗(yàn)材料主要就是AI。為此,研究者需要根據(jù)實(shí)驗(yàn)?zāi)康膶?duì)AI的外觀、角色、功能,以及功能實(shí)現(xiàn)方式進(jìn)行設(shè)計(jì)。然而目前許多人智交互體驗(yàn)實(shí)驗(yàn)研究在文中并未對(duì)AI的設(shè)定進(jìn)行詳細(xì)說(shuō)明,這就導(dǎo)致后續(xù)研究難以通過(guò)復(fù)刻或參考這些實(shí)驗(yàn)材料來(lái)檢驗(yàn)已有實(shí)驗(yàn)結(jié)論的穩(wěn)健性,或是開(kāi)展新的相關(guān)研究課題,不利于人智交互體驗(yàn)研究的規(guī)范性和持續(xù)性發(fā)展。

      (3)客觀的實(shí)驗(yàn)觀測(cè)手段使用不足

      人智交互體驗(yàn)的觀測(cè)維度較為多樣,但客觀的實(shí)驗(yàn)觀測(cè)手段使用不足。本研究綜述的文獻(xiàn)中,超過(guò)一半的研究?jī)H僅采用問(wèn)卷對(duì)用戶進(jìn)行心理測(cè)量。然而,問(wèn)卷難以精準(zhǔn)地度量用戶與AI的交互體驗(yàn)。首先,問(wèn)卷收回的數(shù)據(jù)具有高度的主觀性,不同參與者對(duì)于同一問(wèn)題的理解往往不盡相同;其次,由于問(wèn)卷是一種自我報(bào)告式方法,參與者可能會(huì)出于個(gè)人原因拒絕真實(shí)回答某些題目,這會(huì)嚴(yán)重干擾到實(shí)驗(yàn)結(jié)果;最后,參與者通常是在完成實(shí)驗(yàn)任務(wù)之后填寫(xiě)問(wèn)卷,因而問(wèn)卷對(duì)用戶體驗(yàn)的測(cè)量有所延遲,無(wú)法捕捉且精確度量某一交互時(shí)刻的用戶體驗(yàn)。

      (4)實(shí)驗(yàn)設(shè)計(jì)的報(bào)告缺乏細(xì)節(jié)

      以往人智交互體驗(yàn)實(shí)驗(yàn)研究在論文中報(bào)告實(shí)驗(yàn)設(shè)計(jì)時(shí)存在以下問(wèn)題。①實(shí)驗(yàn)樣本信息說(shuō)明不足:41%的研究未說(shuō)明樣本的性別組成,47%的研究未說(shuō)明招募和補(bǔ)償方式。②未明確說(shuō)明樣本規(guī)模的確定依據(jù)。③缺少實(shí)驗(yàn)倫理信息的說(shuō)明,包括在實(shí)驗(yàn)后為參與者解釋實(shí)驗(yàn)?zāi)康?。例如,基于綠野仙蹤法的實(shí)驗(yàn)需在實(shí)驗(yàn)結(jié)束后向參與者說(shuō)明這一情況[66]。④實(shí)驗(yàn)材料中AI的外觀、功能參數(shù)、功能實(shí)現(xiàn)方式并未清楚說(shuō)明。⑤實(shí)驗(yàn)的具體設(shè)置不清楚,包括實(shí)驗(yàn)任務(wù)的數(shù)量、任務(wù)時(shí)長(zhǎng)和實(shí)驗(yàn)總時(shí)長(zhǎng)、實(shí)驗(yàn)采用的指導(dǎo)語(yǔ)等[67]。

      (5)實(shí)驗(yàn)任務(wù)前瞻性強(qiáng)

      本研究發(fā)現(xiàn),在三種主要的AI功能實(shí)現(xiàn)方式之中,綠野仙蹤和旁觀者視角都不依賴于具體的AI技術(shù)。這極大地拓展了實(shí)驗(yàn)任務(wù)的設(shè)計(jì)空間,研究者可以根據(jù)具體的研究目的和需求,在嚴(yán)格控制實(shí)驗(yàn)變量的基礎(chǔ)之上,較為靈活地對(duì)實(shí)驗(yàn)任務(wù)進(jìn)行設(shè)計(jì),而無(wú)需過(guò)多考慮技術(shù)的實(shí)現(xiàn)與否。憑借于此,人智交互體驗(yàn)研究的實(shí)驗(yàn)任務(wù)能夠具備高度的前瞻性,支持研究者對(duì)可能存在的人智交互情景中的具體問(wèn)題進(jìn)行探索,更加聚焦于用戶與AI交互體驗(yàn)的提升,為AI的交互設(shè)計(jì)和技術(shù)發(fā)展提供方向。

      4.2 受控實(shí)驗(yàn)在人智交互體驗(yàn)研究中的應(yīng)用前景與趨勢(shì)

      (1)用戶群體多元化與樣本規(guī)模合理化

      受控實(shí)驗(yàn)雖然已經(jīng)在人智交互體驗(yàn)研究當(dāng)中被較為廣泛地應(yīng)用,但其中的科學(xué)性和合理性仍有待提高。多數(shù)人智交互體驗(yàn)的實(shí)驗(yàn)研究選擇了便利樣本,且在論文中并未明確說(shuō)明樣本規(guī)模的確定依據(jù)。但實(shí)際上,標(biāo)準(zhǔn)的實(shí)驗(yàn)研究在樣本抽樣方式和樣本規(guī)模的選擇上已有既定的規(guī)范。研究者應(yīng)首先根據(jù)具體的研究目標(biāo)選擇用戶群體,若人智交互體驗(yàn)是針對(duì)某些特殊群體進(jìn)行優(yōu)化,則應(yīng)通過(guò)合理的方式招募這些參與者;若無(wú)群體限制,則應(yīng)在滿足具體招募要求的基礎(chǔ)之上(如聽(tīng)力正常、有語(yǔ)音助手使用經(jīng)歷等),盡可能地覆蓋更為多元的用戶群體,從而提高研究結(jié)論的普適性。在樣本規(guī)模的確定上,一方面可參考實(shí)驗(yàn)設(shè)計(jì)類似的已有研究的樣本量,另一方面可使用G-power等軟件來(lái)確定樣本量大小。

      (2)多模態(tài)交互支持實(shí)驗(yàn)任務(wù)的精細(xì)化設(shè)計(jì)

      近年來(lái)伴隨著AI技術(shù)的巨大進(jìn)步,用戶體驗(yàn)設(shè)計(jì)迎來(lái)了新的挑戰(zhàn)與契機(jī)。用戶與AI的互動(dòng)從視覺(jué)、聽(tīng)覺(jué)等單一模態(tài)向多模態(tài)轉(zhuǎn)變,容納了觸覺(jué)、嗅覺(jué)乃至味覺(jué)等通道。多模態(tài)交互(multimodal interaction)是指融合了人的多個(gè)感官通道,通過(guò)語(yǔ)音、手勢(shì)、觸摸、面部表情等其他方式來(lái)實(shí)現(xiàn)人機(jī)之間的交流[68],重新定義了用戶與智能產(chǎn)品的交互模式?,F(xiàn)有人智交互體驗(yàn)研究中的實(shí)驗(yàn)任務(wù)雖已涉及視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)三種模態(tài),但在實(shí)驗(yàn)任務(wù)的精細(xì)化設(shè)計(jì)和交互模態(tài)的豐富性上仍有巨大的探索空間。人類與世界的交互本質(zhì)上就是多模態(tài)的,未來(lái)的人智交互體驗(yàn)研究可最大程度地模擬甚至突破用戶的真實(shí)交互環(huán)境,充分挖掘多感官信息在提升交互體驗(yàn)上的潛力。

      (3)生理測(cè)量推動(dòng)主客觀觀測(cè)手段相結(jié)合

      受控實(shí)驗(yàn)在很大程度上提升了用戶體驗(yàn)度量的精準(zhǔn)性,科學(xué)揭示了變量間的作用關(guān)系。但現(xiàn)有人智交互體驗(yàn)實(shí)驗(yàn)研究中的觀測(cè)以心理測(cè)量為主,主觀性較高,限制了研究結(jié)論的客觀性和可靠性。隨著學(xué)科發(fā)展的融合,認(rèn)知神經(jīng)科學(xué)使用的測(cè)量工具和手段被越來(lái)越多地用于研究人與計(jì)算機(jī)乃至AI的交互,以眼動(dòng)追蹤、皮膚電、腦電圖、心電圖為主。生理測(cè)量能夠直接客觀地測(cè)量情感、認(rèn)知、決策等引發(fā)或伴隨的機(jī)體活動(dòng),有效克服了心理測(cè)量在數(shù)據(jù)收集過(guò)程中的測(cè)量偏差[69]。然而受限于成本、實(shí)驗(yàn)復(fù)雜度等原因,生理測(cè)量在人智交互體驗(yàn)研究中的應(yīng)用目前并不廣泛。但值得肯定的是,主客觀觀測(cè)手段的結(jié)合將是未來(lái)實(shí)驗(yàn)研究的必然趨勢(shì),生理工具能夠?qū)崟r(shí)監(jiān)測(cè)用戶生理指標(biāo)的變化,驗(yàn)證自我報(bào)告數(shù)據(jù)的有效性,并揭示行為背后的心理生理機(jī)制;而主觀數(shù)據(jù)能夠?yàn)榻忉屵@些生理測(cè)量數(shù)據(jù)提供一個(gè)良好的出口。

      5 結(jié)論

      近年來(lái),HAII研究發(fā)展迅速,旨在增進(jìn)人類福祉。本研究首次采用系統(tǒng)性綜述方法,聚焦HAII實(shí)驗(yàn)研究,構(gòu)建出實(shí)驗(yàn)設(shè)計(jì)的基礎(chǔ)框架,對(duì)114篇文獻(xiàn)中報(bào)告的樣本、實(shí)驗(yàn)任務(wù)、實(shí)驗(yàn)觀測(cè)維度和數(shù)據(jù)分析方法進(jìn)行內(nèi)容分析。梳理了各個(gè)部分研究現(xiàn)狀并提出相應(yīng)建議。本研究有助于未來(lái)人智交互體驗(yàn)實(shí)驗(yàn)研究的發(fā)展,為未來(lái)開(kāi)展人智交互體驗(yàn)實(shí)驗(yàn)研究提供了清晰指引。

      作者貢獻(xiàn)說(shuō)明

      姜婷婷:提出研究思路,設(shè)計(jì)研究方案,論文修訂與定稿;

      田慧溢:收集與梳理文獻(xiàn),撰寫(xiě)部分論文;

      許艷閏:撰寫(xiě)部分論文,論文修訂;

      傅詩(shī)婷:論文修訂。

      附錄1

      Appendix 1

      人智交互體驗(yàn)實(shí)驗(yàn)研究文獻(xiàn)內(nèi)容分析編碼體系(實(shí)驗(yàn)設(shè)計(jì)基本框架)Coding System of Literature Content Analysis for Experimental Research on HAII Experience(Basic Framework of Experimental Design)

      猜你喜歡
      參與者樣本測(cè)量
      休閑跑步參與者心理和行為相關(guān)性的研究進(jìn)展
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      把握四個(gè)“三” 測(cè)量變簡(jiǎn)單
      滑動(dòng)摩擦力的測(cè)量和計(jì)算
      淺析打破剛性兌付對(duì)債市參與者的影響
      推動(dòng)醫(yī)改的“直銷樣本”
      滑動(dòng)摩擦力的測(cè)量與計(jì)算
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      海外僑領(lǐng)愿做“金絲帶”“參與者”和“連心橋”
      測(cè)量
      绿春县| 武汉市| 宁阳县| 安阳市| 仙桃市| 嘉禾县| 连城县| 同心县| 建水县| 稷山县| 汉川市| 全椒县| 晋中市| 桑日县| 开封市| 尚义县| 桃园市| 新郑市| 浦城县| 麦盖提县| 海兴县| 岐山县| 满洲里市| 台北县| 墨竹工卡县| 汨罗市| 苏尼特左旗| 临潭县| 甘泉县| 龙江县| 宁远县| 任丘市| 长治县| 青阳县| 安吉县| 奉贤区| 来凤县| 孝昌县| 江陵县| 汤阴县| 山西省|