黃靖芳
2024年的首個學期,香港科技大學開設了一堂跨校區(qū)的創(chuàng)意社交媒體課程,AI講師和真人講師共同完成了這堂課程。
AI教學的場景是怎樣的?上這門課的同學—無論是在廣州的南沙校區(qū)還是香港的清水灣校區(qū),他們只要坐在教室內,戴上眼前的VR設備,就能進入AI講師呈現(xiàn)的課堂環(huán)境。
負責這門課程的許彬教授和他的研究團隊,根據(jù)課程主題設計了十個不同形象的AI講師,他們會是一名網紅、政策倡導者、卡通人物,也會是歷史人物,譬如愛因斯坦以及約翰·福布斯·納什。
在課堂里,AI講師會教授媒體故事敘述、社交媒體對社會影響、助推理論 (Nudge Theory) 等主題課程。為了讓AI講師呈現(xiàn)得生動自然,團隊研發(fā)了3D動作生成系統(tǒng),并且采用了不少AI工具,還改良了開源3D表情生成算法—由此誕生了亞洲首批的AI講師。
學生們所處的課室是元宇宙工作室的一部分,其中配備了綠幕和大量的動作捕捉設備。平時這里是記錄實驗數(shù)據(jù)的現(xiàn)場,而在課堂上,這里就變成了虛擬與現(xiàn)實交匯的場所。
這個小小的課室,承載了許彬和學生們廣袤的“宇宙”。
創(chuàng)作AI講師的許彬,是香港科技大學(廣州)計算媒體與藝術學域講座教授與香港科技大學新興跨學科領域講座教授,同時,他還是英國皇家工程院國際院士、歐洲科學院院士。許彬畢業(yè)于劍橋大學的計算機科學專業(yè),畢業(yè)后從事移動計算、計算機網絡等領域的研究,近十多年來,他把目光逐漸轉向了AR/VR/MR/XR/元宇宙領域等沉浸式科技技術。
回顧2020年前后,元宇宙進入技術突破階段,大眾開始普遍接觸這個概念,投資界人士更很快地奉其為風口,連社交媒體巨頭Facebook也宣布改名Meta,押注“共享的虛擬環(huán)境”。不過,這股熱潮漸漸冷卻,對普通用戶來說,元宇宙顯得遙遠而又抽象。
眼下,生成式AI迎來了大爆發(fā),豐富了人們關于虛擬世界的各種想象,更是帶動了元宇宙重新受到關注:當內容創(chuàng)作的成本降低,通往元宇宙的通道會如何打開?
就這些科技熱點話題,許彬接受了南風窗的采訪。他講述了創(chuàng)作和訓練AI講師的經歷,并且提及了生成式AI工具的出現(xiàn)給元宇宙帶來的影響。他提到,希望AI講師能推廣到經濟落后地區(qū),解決全球教師資源短缺的問題;他還分享了自己和元宇宙的故事。
南風窗:能跟我們分享創(chuàng)作AI講師的細節(jié)嗎?你們是怎樣對其訓練和微調的?
許彬:其實早在2022年初,我們團隊已經開始思考怎么把AI技術和元宇宙應用到教育領域。去年底的時候,香港科技大學推出了元宇宙教室的第一個課程“元宇宙設計思維”。元宇宙教室是香港科技大學實體—數(shù)字雙子校園項目的一部分,這個項目是用元宇宙連接香港、廣州兩個校區(qū)的同學,初衷是讓不同校區(qū)的學生都能獲得歸屬感,一起上同一堂課。最后課程效果很不錯,我們發(fā)現(xiàn)同學們對這樣的技術接受度很高,這一點很重要,如果接受度低,那創(chuàng)新很難展開。
這學期我們運用AI講師的課程名叫創(chuàng)意社交媒體,選這門課的同學其實對各種創(chuàng)新科技都很感興趣,課程本身也涉及了很多不同的領域,講求知識性、趣味性,所以我認為這門課嘗試用AI的方式來展示是合適的。
當然,為了讓同學們能接受AI講師,我們進行了很多技術上的準備。從新聞報道也能發(fā)現(xiàn),使用AI講師授課在全球大學范圍內還是很前沿的,這里面涉及很多研究議題。
2021年疫情席卷而來,國內外的生活都有著出行上的限制,我們的生活像變成一座孤島,那段時間更推動我開始思考怎么把元宇宙結合到教學和實際生活上。
在這個學期,雖然AI講師還沒有實現(xiàn)跟同學互動的功能,但是從技術上來說這是能做到的。這學期我們主要想探討一個最基礎的問題—同學對AI講師的形象、肢體語言和口音等各種表現(xiàn)的接受程度如何?
科技界有一個詞叫Uncanny Valley(恐怖谷效應),指的是當AI技術愈加發(fā)展,人們會對機器人身上的具體特征很敏感,當人能察覺到機器人雖然很像人,但又不是真人時,會產生毛骨悚然的感覺。所以,設置AI講師形象時我們進行了很多探討,包括研究老師的身份背景、口音、肢體表情、膚色等等。
具體來說,我為這門課程準備了教材和簡報。在此基礎上,我們將使用AI工具生成腳本;我完成初稿修訂后,將腳本交由AI生成音頻資料;這些音頻將用于驅動AI講師表現(xiàn)出不同的面部表情和肢體語言。最后,我們還會對生成的內容進行剪輯和編輯,確保教學內容的準確性。
在課堂呈現(xiàn)時,AI講師有2D和3D的形象:2D形象以視頻形式展現(xiàn)給學生,而3D形象則通過VR設備進行教學。
南風窗:經過一個學期的實踐,目前最受學生歡迎的AI講師形象是怎樣的?
許彬:學生們的喜好十分多樣。例如,喜歡動漫的學生傾向于偏愛卡通形象的講師,而有些學生則更青睞接近真人的老師形象,或是虛擬現(xiàn)實中的教師。
在我們的項目中,評分最高的是一位亞洲年輕女性講師,其次是一位年輕的白人女性。由于我們是進行英語教學,帶有英式口音的講師更受學生們的歡迎。
我們還嘗試調整了AI講師的聲音,包括高音和夾子音等,但學生們更喜歡稍顯成熟和權威的聲音。此外,如果講師在說話時能將面部表情和手勢相配合,學生的接受度也會更高。
南風窗:接下來,你對AI講師的改進計劃是怎樣的?
許彬:我們一直在探索讓AI講師與學生互動的可能性,并逐步實踐這一想法。我們也打算引入大語言模型。不過,即便使用了像GPT-4這樣的高級模型,當涉及它不熟悉的領域時,它仍可能回答錯誤。
此外,目前的大語言模型都是通用的,要使其在特定領域內提供準確回答,我們采用了檢索增強生成的方法,輸入相關領域(如社交媒體)的教科書和論文進行訓練,以期使AI講師的回答更加精準和有針對性。
經過一個學期的實踐,我們已經詳細了解了學生對AI講師形象的偏好。結合這些偏好,我們計劃推出具有互動功能的AI講師,并集成學生喜歡的外觀、肢體語言和聲音特征。
南風窗:談一談你的研究經歷,以前你在博士期間的專業(yè)是計算機,后來從事計算機網絡的研究、移動計算等,是怎么決定轉向研究元宇宙的?
許彬:我一直讀的是計算機專業(yè),2012年的時候,我還在德國柏林工作,當時公司需要制定未來的策略性計劃,大家都在思考實驗室5年到10年以后的研究方向。
其實,我的研究范圍很廣泛,做過網絡、社交網絡、AI等等,當時根據(jù)自己的興趣和對未來的預測,我認為AR和VR是未來的重要方向,那一年開始,就主力做元宇宙方面的研究。
2021年疫情席卷而來,國內外的生活都有著出行上的限制,我們的生活像變成一座孤島,那段時間更推動我開始思考怎么把元宇宙結合到教學和實際生活上。
其實,元宇宙能拓寬我們的生活邊界,讓有限的空間變得不再狹窄,比如我們習慣使用的通信軟件都只是一個個二維平面,而人類習慣的是三維空間,元宇宙就能實現(xiàn)讓人們在三維的虛擬世界里交流、互動。
南風窗:你曾經提到元宇宙不僅是數(shù)字孿生,還包括數(shù)字原生,未來的虛擬世界將以沉浸式的方式與物理世界共存,以至于人們無法區(qū)分真實和虛擬。在這個虛擬世界里,其規(guī)則的建立是和物理世界一樣嗎?
許彬:“數(shù)字孿生”是指現(xiàn)實世界里有的東西復制到虛擬世界,“數(shù)字原生”則是指現(xiàn)實世界里不存在的東西,事實上,我所提到的“數(shù)字原生”更多是指內容創(chuàng)作層面的。
理論上,虛擬世界里可以有一個盤旋在空中的島嶼,但如果用戶進入到這個物理世界里面,人是需要倒著走的話,那用戶體驗不會很好。
另一方面,物理世界與虛擬世界的最佳融合方式,并不是我們進入虛擬世界,而是將數(shù)字對象帶入現(xiàn)實空間。這就是所謂的“超現(xiàn)實”概念。
虛擬世界里,所有東西并不是必須遵守各種物理定律,但起碼要遵守三維的規(guī)則,符合物理世界的性質。
在虛擬世界里,我們能看到小鳥會說話,也會有塊石頭飛來飛去的,雖然這些不會在現(xiàn)實里發(fā)生,但如果能讓用戶感覺舒服且自在,其實這些都是沒有問題的。最終,元宇宙的展示方法及設計還是要講究用戶體驗。
物理世界與虛擬世界的最佳融合方式,并不是我們進入虛擬世界,而是將數(shù)字對象帶入現(xiàn)實空間。這就是所謂的“超現(xiàn)實”概念。
南風窗:不久前,OpenAI發(fā)布了文生視頻的模型Sora,它的精彩表現(xiàn)讓很多人體驗到虛擬世界的生動感,而且OpenAI將其稱為世界的模擬器。你認為,生成式AI的發(fā)展會給元宇宙帶來什么樣的改變?AI技術和元宇宙的結合點在哪里?
許彬:我們之前也提到過,元宇宙主要關注數(shù)字原生的內容創(chuàng)作。如果元宇宙內沒有吸引人的內容,人們自然不會有興趣參與進來。
因此,我認為生成式AI工具的發(fā)展將極大地促進元宇宙的發(fā)展,使內容創(chuàng)作變得更快速、成本更低。例如,像AI講師這樣的項目就能更迅速地被開發(fā)出來。同時,AI工具還可以幫助完成元宇宙內的導覽和介紹工作。
以往創(chuàng)建元宇宙場景需要藝術家逐步繪制,耗時而繁瑣,許多游戲世界就是這樣構建出來的。但如果生成式AI工具得到廣泛應用,虛擬環(huán)境的創(chuàng)建將會大為簡化,實現(xiàn)數(shù)字孿生也將變得更加容易。
南風窗:香港在元宇宙的探索上有著許多優(yōu)勢,而且還被Meta選為亞洲的元宇宙試點中心,你怎么看待香港適合發(fā)展元宇宙的要素?
許彬:Meta選擇香港作為試點有多方面原因,香港具有城市密度高、人們生活聚集在市中心、各種通信設備發(fā)達的特點,而且每個人都會擁有不少智能設備,對高科技的接受程度高。
另外,香港也正在大力建設國際虛擬資產中心,全力發(fā)展Web3.0產業(yè),并且出臺了虛擬資產交易新規(guī),無論在經濟收入還是知識產權層面,創(chuàng)作者的權益都能得到保護,他們的創(chuàng)作意愿會相對較高。我想,未來元宇宙發(fā)展的愿景應該也是如此,需要這樣的硬件配套設施來支持。
南風窗:你也關心城市等大型人類活動空間的數(shù)字化轉型,目前AI技術的發(fā)展會給城市公共建設帶來什么幫助?
許彬:這也是我感興趣的一個議題。雖然我本身是計算機專業(yè)出身,但我指導的一些博士生也在研究城市規(guī)劃相關議題,我們主要探討AI和元宇宙如何更好地與城市活動空間結合。
首先,與傳統(tǒng)城市規(guī)劃方法相比,人工智能帶來了創(chuàng)新變化。傳統(tǒng)城市規(guī)劃依賴于經驗,而現(xiàn)在得益于數(shù)據(jù)科學的推動,規(guī)劃師可以深入理解復雜的土地和交通系統(tǒng),從而做出更有效的決策。
其次,人工智能在實時監(jiān)控方面也能發(fā)揮巨大作用。傳統(tǒng)方法通常是收集數(shù)據(jù)、再進行處理,而數(shù)字技術可以實時、大規(guī)模處理地理空間和社交數(shù)據(jù),識別出可行的模式。例如,城市基礎設施中安裝的傳感器和攝像機可以預測積水和洪澇情況,使得快速響應成為可能。
在物理空間中,AI可以為物體的結構、功能和美學帶來新的見解。目前一些知名的建筑的設計(比如大興機場,還有AI Build設計的作品Daedalus Pavilion)結合了人工智能和數(shù)據(jù)分析,利用生成式工具,創(chuàng)造出流暢的視覺美感和體驗。而在虛擬空間中,AI工具能快速生成元宇宙空間,創(chuàng)造出具有時空背景的場景。
南風窗:元宇宙的概念在廣泛傳播后,很快成為風口,但也引來了不少質疑。比如目前普通消費者能接觸的消費設備選項不多;元宇宙的場景很豐富,但內容顯然還不夠;因此,元宇宙看起來離普通人還很遙遠,對這個現(xiàn)象你是怎么看的?元宇宙會變得更“平民化”嗎?
許彬:其實,目前市面上的VR設備價格不算很高,像Meta出的Quest 2頭戴式設備,價格在200美元左右,質量已經很不錯了。
但是,如果說讓元宇宙的發(fā)展更好,那還是我們上述談到的內容—怎么樣提高內容創(chuàng)作的質量、擴展內容的范圍?,F(xiàn)在很多人想到元宇宙還只能想到一些游戲,但不是每個人都玩游戲的,有人想到元宇宙學東西,目前學習的場景不多,想要推動元宇宙發(fā)展,內容創(chuàng)作是關鍵。
關于元宇宙炒作的爭議,其實在三四年前確實存在,當時有在元宇宙里進行虛擬土地交易的,一塊地能賣出數(shù)百萬美元,這里面的操作肯定充滿投機與風險。如今,幾年時間過去了,元宇宙的概念得到沉淀,炒作那一輪勢頭逐漸過去了,元宇宙發(fā)展的環(huán)境也在逐漸改善。
南風窗:數(shù)字技術的發(fā)展讓人們看到了很多可能性,也帶來了道德邊界上的爭議,比如版權爭議、隱私問題還有數(shù)據(jù)安全。當你在設計模型或者項目的時候,會怎樣考慮風險?
許彬:AI誕生以來就伴隨著不少爭議,其中一個體現(xiàn)是,如果訓練AI的數(shù)據(jù)模型是偏頗的,那這個AI模型就不會公平。
若AI講師能進行完善和推廣,到時候每個學校只需要一部電腦,講師24小時都可在線,就能解決教師數(shù)量不足的問題。
當然,元宇宙也會有其它問題。我是國際刑警組織元宇宙專家組的創(chuàng)始成員,每隔一段時間,會和國際刑警方面進行溝通,主要了解元宇宙會帶來什么新的罪行?,F(xiàn)實世界里的違法犯罪行為—洗黑錢、避稅等問題也會出現(xiàn)在虛擬世界里,除此以外,還會衍生出新的問題,需要及時發(fā)現(xiàn)和跟進。
現(xiàn)實生活里,元宇宙的應用必然涉及很多數(shù)據(jù),以頭戴式設備為例,它會接觸身體的各項隱私,怎樣相信設備能保護我的數(shù)據(jù)?數(shù)年前,我們進行過一項專門的研究,內容是當攝錄機在拍攝時,怎樣通過自己的表情、手勢和攝錄機進行溝通,讓它不要拍攝到這些數(shù)據(jù),并且將我的樣子模糊掉。新科技一定會帶來很多爭議,我們學界持續(xù)關注、發(fā)聲的目的,就是讓這些科技的優(yōu)缺點被公眾得知,實現(xiàn)信息溝通的透明。
南風窗:最后,談談你目前在研究的項目?
許彬:我可以分享兩個項目,第一個是研究如何通過AR完成城市敘事,很多現(xiàn)實里的故事、電影里的場景其實都發(fā)生在城市區(qū)域內,我們希望發(fā)揮香港、廣州的城市特點,打造成具有元宇宙要素的敘事內容。最近維港兩岸也出現(xiàn)了融合了科技、科學的藝術裝置,我們希望未來能把這樣的技術運用到珠江沿岸的風景上,把數(shù)字技術投放到城市中,營造出不一樣的城市景觀。
另一個項目依舊是AI講師的推廣,我們希望隨著其功能逐步完善,能推廣到更多學校。AI技術出現(xiàn)后,每個崗位都會出現(xiàn)“會否擔心被AI取代”的問題。我也常常會被問到同樣的問題。其實放眼全球,教師是稀缺資源,全球有6900萬的教師缺口,例如,一些偏遠地區(qū)或四五線城市同樣面臨著教師資源短缺的問題。若AI講師能進行完善和推廣,到時候每個學校只需要一部電腦,講師24小時都可在線,就能解決教師數(shù)量不足的問題。
隨著AI講師項目的不斷完善,我們的下一步計劃是融合互動性功能,讓其更適合大規(guī)模教學,這樣它能用在更多地方,偏遠地區(qū)的小朋友也能因此受益。