物聯(lián)網(wǎng)視覺的智能化交互技術(shù)

2022-06-17 23:25:03劉定張婷

衛(wèi)星電視與寬帶多媒體 2022年9期

劉定　張婷

【摘要】物聯(lián)網(wǎng)中機器和機器的通信、人和人的通信不是天然有界限的，機器和機器通信還是要受人為控制的，最終也是為人服務(wù)的;所以人機交互是物聯(lián)網(wǎng)中必不可少的重要環(huán)節(jié)。所以說，人機的智能交互是物聯(lián)網(wǎng)中人物之間聯(lián)系的重要方面，智能交互也是物聯(lián)網(wǎng)智能的重要體現(xiàn)之一。本文討論的物聯(lián)網(wǎng)視覺的智能化交互技術(shù)，根據(jù)“擬人”的技術(shù)分析，將人類感知外在世界的視覺智能化交互技術(shù)進行簡要分析。

【關(guān)鍵詞】物聯(lián)網(wǎng);視覺;智能化;交互技術(shù)

中圖分類號：J9? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼：A? ? ? ? ? ? ? ? ? ? ? ? ? DOI：10.12246/j.issn.1673-0348.2022.09.078

“人機交互”這個名詞對于計算機領(lǐng)域的人來說，有點兒老舊?？墒牵靶隆泵~——可穿戴設(shè)備也并不新。第一臺可穿戴設(shè)備誕生于1961年。進入21世紀，隨著物聯(lián)網(wǎng)的蓬勃發(fā)展，人機交互也步入物聯(lián)網(wǎng)時代，出現(xiàn)了眾多基于微交互的可穿戴產(chǎn)品。微交互是只為實現(xiàn)單一任務(wù)而存在的一系列操作行為。也就是當(dāng)前主流微交互的三種實現(xiàn)方法。物聯(lián)網(wǎng)雖然是“物物相連的網(wǎng)”，例如，谷歌AR眼鏡、3D手勢互動、體感交互等概念產(chǎn)品正顛覆著我們的傳統(tǒng)認知。這些基于五覺（眼、耳、口、鼻、舌）及其綜合應(yīng)用的多維協(xié)同感知與交互，正是物聯(lián)網(wǎng)作為深度信息化的重要體現(xiàn)，將深刻影響著人們的日常生活。本文對視覺的智能化交互技術(shù)進行簡要分析。

1. 視覺的智能化

物聯(lián)網(wǎng)視視覺源自圖像、視頻等能夠代替人眼功能的系統(tǒng)，這些系統(tǒng)能夠?qū)崿F(xiàn)視覺增強感知、視覺理解與交流等視覺功能。

視覺增強技術(shù)。視覺增強屬于AR（增強現(xiàn)實）中的一種，也有人稱AR為混合現(xiàn)實。視覺增強就是借助計算機技術(shù)、可視化技術(shù)以及可以突破人類視覺限制的技術(shù)，簡單來說，視覺增強是虛擬世界和真實世界通過人類視覺融合的一種增強現(xiàn)實技術(shù)，屬于視覺類人機交互技術(shù)。視覺增強將會是通過視覺融合能夠突破人類視覺極限的技術(shù)之一。它的出現(xiàn)與下述幾種技術(shù)密切相關(guān)。

一是計算機圖形圖像處理技術(shù)和光學(xué)傳感器。視覺增強的實現(xiàn)，可以通過基于圖形圖像處理技術(shù)的融合，實現(xiàn)人眼所無法實現(xiàn)的廣度和清晰度。整套系統(tǒng)的核心是一個不斷旋轉(zhuǎn)的熱傳感器，置于其上的處理器持續(xù)不斷地將圖像拼接在一起，為一個持續(xù)刷新的全景視頻系統(tǒng)源源不斷地提供圖片，而且，智能軟件會發(fā)現(xiàn)潛在的威脅。

二是3D技術(shù)，目前，裸眼3D技術(shù)產(chǎn)品已經(jīng)在市面出現(xiàn)。實現(xiàn)裸眼3D視圖，與千里之外的家人可實現(xiàn)面對面交流，而且不需要借助任何媒介。

三是夜視技術(shù)和穿透技術(shù)。紅外技術(shù)和微光夜視技術(shù)作為夜視技術(shù)中較為成熟的技術(shù)，突破了人類在黑暗無光的環(huán)境中無法看到的視力限制，廣泛用于搜救和軍事用途。美國軍事部門DARPA最近正在開發(fā)一種可穿透墻壁、路障等視覺障礙物的可視技術(shù)，被稱為“生物識別技術(shù)AT-T距離”。根據(jù)DARPA的項目計劃，不僅可以看到兩個墻壁后面的范圍，而且可以檢測墻壁背后的人的心跳。其余的視覺增強技術(shù)應(yīng)用還包括哈勃望遠鏡、電子顯微鏡等電子輔助感知系統(tǒng)，能夠?qū)崿F(xiàn)視覺穿透的雷達和衛(wèi)星技術(shù)中常用的遙感應(yīng)用。

2. 視覺理解與交流

人類視覺的理解并不僅局限于能夠看見，目光、眼神和視線的移動也能傳達視覺信息。可以把獨立于眼睛所看到的圖像之外的視覺信息表達為視覺理解與視覺交流。

2.1 眼動檢測

眼動檢測是討論人機交互中眼睛運動模式（各種眼部姿勢與動作）的辨識技術(shù)，也叫眼姿辨別。根據(jù)眼電信號產(chǎn)生的生理機制和采集方法，分析各種眼姿勢的特點，包括基本眼動模式（眼睛上移、下移、左移、右移）、眨眼模式、凝視模式等，并據(jù)此研究相應(yīng)的辨識技術(shù)。應(yīng)用眼姿辨別匹配等多種算法可將基本眼動模式、眨眼模式、凝視等各種眼姿勢進行特征分類、準確辨識，為設(shè)計眼機接口、實現(xiàn)人機交互提供基礎(chǔ)。眼姿勢的準確辨識是成功實現(xiàn)新型的眼機接口的關(guān)鍵環(huán)節(jié)之一。

2.2 視線追蹤

跟蹤瞳孔（虹膜）、眼球方位及視線方向，可以實現(xiàn)用戶視線（感興趣區(qū)域）的跟蹤和分析。視線追蹤作為眼機接口技術(shù)，能夠使老年人和殘疾人更加方便地使用計算機進行信息交互，同時增加計算機對人類視覺信息的理解。視線追蹤不僅是AR/VR的關(guān)鍵技術(shù)之一，還應(yīng)用于兒童早期自閉癥檢測、神經(jīng)病學(xué)、視力科學(xué)、心理學(xué)、體育訓(xùn)練等領(lǐng)域。

2.3 視覺交流

基于視線追蹤、眼姿辨別等視覺理解技術(shù)最終能夠通過眼機接口，實現(xiàn)目光對計算機或者便攜終端、可穿戴設(shè)備的操作。例如，在閱覽電子書時，目光能夠代替我們手指的部分功能，視線之下，一切跟著目光走?？磿鴷r，書本內(nèi)容會隨著目光的移動自動向上向下移動，書本的翻頁隨著目光的自左而右或自右而左實現(xiàn)翻頁。上網(wǎng)時，頁面內(nèi)容隨著眼神的游走或聚焦而變換;看電視時，通過視覺交流實現(xiàn)換臺和調(diào)節(jié)音量。眼動檢測、視線追蹤、視覺交流這些新興技術(shù)研究人類視覺系統(tǒng)在心理學(xué)中的心理語言。

表述與應(yīng)用，可作為一種輸入裝置用于人機交互。應(yīng)用包括Web可用性、廣告、包裝設(shè)計和汽車工程，其中，汽車設(shè)計領(lǐng)域被認為是最有前途的應(yīng)用之一。

3. 智能視覺的應(yīng)用

基于視覺的智能交互技術(shù)的發(fā)展，最終將作為物聯(lián)網(wǎng)視覺感知與交互的組成部分，在交通領(lǐng)域?qū)崿F(xiàn)“智能視覺物聯(lián)網(wǎng)”。智能視覺物聯(lián)網(wǎng)是指由智能視覺傳感器、智能視覺信息傳輸、智能視覺信息處理和針對人、車、物三大類目標(biāo)的物聯(lián)網(wǎng)應(yīng)用。智能視覺還可以被“打上”情感標(biāo)簽，頗具情感創(chuàng)意的Ping Lamp異地感應(yīng)Wi-Fi臺燈，可以使分居兩地的親人通過燈光溫暖彼此的思念。該款可以分合式設(shè)計的花蕾般模樣的臺燈，可以分成兩個獨立的“花瓣”，每一部分都可以獨立照明。

分居兩地的親人（戀人）可以各拿一瓣各自使用，這分開的兩瓣臺燈可以通過無線網(wǎng)絡(luò)相連接，只要有一方打開了自己的臺燈，另一瓣臺燈也將會亮起來。當(dāng)對方也開啟臺燈時，燈的亮度就會加強來回應(yīng)你的思念。這份借物傳情的含蓄表達，顯然擴大了視覺理解與情感交流的領(lǐng)域，把人類的情感納入了物聯(lián)網(wǎng)中。智能視覺還可以把AR用于知識傳播、表示和刺激腦洞的打開，例如，Amazon網(wǎng)站上可以找到售價20美元的AR魔法書，閱讀中可享受裸眼3D視圖頁面。如DRS技術(shù)公司推出的廣角駕駛員視覺增強器。該熱像儀稱為廣角駕駛員視覺增強器，它采用圖像拼接技術(shù)可獲得107°×30°的視場。廣角駕駛員視覺增強器可對現(xiàn)有的駕駛員視覺增強器（視場為40°×30°）進行一對一傳感器替換，具有向后兼容能力，非常便于部署和安裝。

4. 智能視覺聯(lián)合標(biāo)示與識別

2016年12月，亞馬遜推出的Amazon Go“免結(jié)賬”實體便利店，據(jù)稱不需要排隊，無須注冊，也不需要排隊結(jié)賬。用戶進入時只需在手機上打開Amazon Go APP的二維碼，在閘機上刷一下，選好商品就可以徑直離開。從官方的宣傳看，其技術(shù)亮點包括傳感器融合和深度學(xué)習(xí)算法。然而，亞馬遜并未公布該系統(tǒng)的詳細工作原理，所以網(wǎng)絡(luò)中的大討論只能是對其進行大致推測。

在商店中，所有物品都會被標(biāo)記。結(jié)合對于人（客戶標(biāo)簽）的標(biāo)示，計算機可以創(chuàng)建物品的動態(tài)地圖。此外，通過壓力傳感器和稱重傳感器，系統(tǒng)可以判斷貨架上的商品是否已經(jīng)被拿走或還回。再配合圖像分析，系統(tǒng)就能及時發(fā)現(xiàn)用戶在還回商品時是否放錯了貨架。

更有網(wǎng)友BrianRoemmlel透露，亞馬遜曾提交過兩份專利文件，里面的描述和Amazon Go如出一轍。這兩份文件分別為：《檢測物品互動與移動》和《物品從物料處理設(shè)施上轉(zhuǎn)移》?！稒z測物品互動與移動》這份專利的大致內(nèi)容是：用戶從貨架上拿起或放下物品時，系統(tǒng)可以檢測到這個動作，并且更新用戶移動設(shè)備里的清單。從專利中能夠了解到，系統(tǒng)中包含多個攝像頭，它們被分別置于天花板、貨架兩側(cè)和內(nèi)部。其中，天花板上的攝像頭用來采集用戶和貨品的位置，貨架兩側(cè)的攝像頭用來捕捉用戶的圖像和周圍的環(huán)境，貨架內(nèi)的攝像頭則用來確定貨品的位置或用戶手的移動。《物品從物料處理設(shè)施上轉(zhuǎn)移》這份專利主要是說：物品被識別，并且當(dāng)用戶正在拿起物品時，物品自動與用戶發(fā)生關(guān)聯(lián)。當(dāng)用戶進入或穿過“轉(zhuǎn)移區(qū)”，被拿起的物品將自動轉(zhuǎn)移到用戶，而不需要有用戶的“確認”輸入或帶來附加延遲。

測試階段的Amazon Go暫時只對亞馬遜員工開放，通過網(wǎng)絡(luò)上的分析可見，計算機視覺還需要聯(lián)合貨架上的傳感器，在一個智能視覺的環(huán)境中，判斷被標(biāo)記的人和被標(biāo)記的商品之間，是拿起、放下，還是拿走。所有被標(biāo)記為同一人“拿走”的商品，在出口處自動結(jié)賬。使用智能視覺減少員工（減輕勞動程度）的思路不止這一種。Autonomous展示的遠程控制機器人，可代替員工巡視店面，員工只要坐在辦公室，就能一次監(jiān)控多個機器人，在店內(nèi)以更髙的密度提供顧客所需的服務(wù)，包括用遠程操控提供資訊，以及回答問題等。

物聯(lián)網(wǎng)的智能特征也要求著更為智能化的交互方式，一方面是強調(diào)了終端的智能化，為了把機器的世界和人的世界結(jié)合起來，我們要增強機器對信息的智能收集和處理的能力，這樣對終端的智能化就有所要求，因為這些信息的來源不僅局限于物，還可能是源自人或人的感官的信息。另一方面強調(diào)了交互的智能化，因為我們不會僅停留在鼠標(biāo)、鍵盤這樣的交互上，需要在更為融洽的人機環(huán)境中用觸摸、語音、眼神、動作甚至心理感應(yīng)，與機器交流人類的真實想法。視覺標(biāo)簽作為智能視覺物聯(lián)網(wǎng)的重要技術(shù)，是指對圖像和視頻中內(nèi)容所進行的識別、理解、分類?？傊?，智能視覺物聯(lián)網(wǎng)是基于視覺的大感知技術(shù)，不僅局限于上述的幾個方面，還可以包括車輛行駛環(huán)境感知、生態(tài)環(huán)境感知、空間感知等。智能視覺物聯(lián)網(wǎng)使人類視覺突破生理極限，借助機器（計算機）視覺技術(shù)看得更遠、更細、更準、更全。

參考文獻：

[1]物聯(lián)網(wǎng)信息感知與交互技術(shù)研究[J].王曉東.山西煤炭管理干部學(xué)院學(xué)報.2016（01）

[2]基于物聯(lián)網(wǎng)信息安全感知與交互技術(shù)研究[J].王為民.信息安全與技術(shù).2016（01）

[3]物聯(lián)網(wǎng)信息感知與交互技術(shù)研究[J].劉建慶.電子技術(shù)與軟件工程.2016（01）

作者簡介：劉定，1989，男，漢族，河南省焦作市人，焦作大學(xué)，助教，研究方向：物聯(lián)網(wǎng)應(yīng)用技術(shù).張婷，1992，女，漢族，河南省焦作市人，焦作大學(xué)，助教，研究方向：大數(shù)據(jù)與云計算.