【摘要】人工智能技術(shù)的發(fā)展,將我們帶入了一個智能傳播的時代,智能傳播中的人機語言交互喪失了有關(guān)“人”的因素之對話本質(zhì)的思考,學(xué)界亦存在對人機“對話”一詞的誤解和誤用?;诖?,應(yīng)以語聊機器人的現(xiàn)狀分析作為研究基礎(chǔ),站在人文主義的新起點上,重思人類對話的內(nèi)涵特性,總結(jié)機器主體的“對話”桎梏。最終通過回望柏拉圖、巴赫金、海德格爾等人的研究理路得出,只有重歸人類對話本身,借助對話的力量賦能人機語言交互,才能讓用戶最大限度地體察到“交流感”與“對話感”,促使人“感同身受”地接納AI與技術(shù)合成語音。
【關(guān)鍵詞】智能傳播;人機語言交互;對話;人機“對話”;“對話”桎梏
一、問題的提出
人工智能技術(shù)的發(fā)展已將我們帶入了一個智能傳播的時代。在智能傳播時代,人與機器、人工智能技術(shù)與傳播系統(tǒng)相互融合,但是這種融合并非簡單加減,其背后存在諸多未知性與風(fēng)險性,對人及“人”的因素形成諸多挑戰(zhàn)與阻礙。智能傳播發(fā)展至今,其傳播主體越發(fā)豐富,不僅在傳統(tǒng)廣電媒體中出現(xiàn)了“康曉輝”“AI王冠”(中央廣播電視總臺)和“小漾”(湖南衛(wèi)視)等虛擬主播,而且在直播平臺上也涌現(xiàn)了由ChatGPT模型接入的虛擬數(shù)字人“朏朏”(天娛數(shù)科)、直播帶貨數(shù)字人“冬冬”(阿里巴巴)等。2023年2月,微軟推出一款由ChatGPT驅(qū)動的聊天機器人Bing Chat(必應(yīng)聊天),但很快就在與用戶的聊天中翻車,該機器人在聊天中不斷重復(fù)“我是,我不是”等胡話,甚至前言不搭后語,面對用戶的日常提問,輸出“慫恿記者離婚”等怪誕內(nèi)容。隨后,微軟以最快速度控制Bing Chat,并通過檢測異常的方式直接切斷其與用戶的聊天。因此,諸多網(wǎng)友對ChatGPT等聊天機器人表示質(zhì)疑,認為大部分聊天機器人容易陷入“精神錯亂”,甚至認為OpenAI及其他科技公司的相關(guān)人員存在故意訓(xùn)練其學(xué)舌“左派”的非正常言論。
從現(xiàn)狀來看,目前市面上的大部分聊天機器人仍未真正理解人類對話,盡管其聲音的一切形式種類已經(jīng)相當(dāng)豐富。例如在音色上可以自由選擇四郎音①、元氣少女音、蠟筆小新音等,但依舊無法實現(xiàn)與用戶(人)交流的自然化、流暢化、共情化等目標(biāo),并引起諸多用戶的反感。當(dāng)前的語聊機器人仍處在一種“論機器以形似,見于兒童鄰”的階段,并未習(xí)得對話神韻。即語聊機器人僅具備與人相似的聲音,掌握人類語音及聊天的一切形式,但失卻了人類聲音與對話的自然性、情感性、辯論性、思想性等神韻。往往這些本質(zhì)化的核心特性才是人類交流與對話的靈韻和本真,才能達到人機語言交互的理想狀態(tài),讓用戶體察到“交流感”與“對話感”,促使人“感同身受”地接納技術(shù)與AI。
造成這一現(xiàn)狀的原因之一在于:部分開發(fā)者對技術(shù)及其產(chǎn)物存在過度的迷思與崇拜,故而忽略了人文的力量和“人”的因素。因此,有關(guān)學(xué)者指出,“智能傳播極大地‘剔除’了‘人’的因素,而且具有深入各類產(chǎn)品和服務(wù)的強大技術(shù)滲透性和擴展性,對人類生存方式和社會運行方式都將產(chǎn)生顛覆性影響”[1]。人機語言交互發(fā)展近20年來,研究者們?nèi)灾饕P(guān)注以深度學(xué)習(xí)、自然語言處理等為代表的技術(shù)表象,而對包含“對話”與“交流”在內(nèi)的“人”的因素并無更深入的觀照。致使人機語言交互越發(fā)疏離“對話”的本質(zhì),脫離了最早有關(guān)人機“對話”的原意。因此,若想在一定程度上趨近于人類對話,實現(xiàn)AI與人的琴瑟和鳴、美美與共,就不能不從對話的追思入手,借此回望人類對話與人機“對話”的內(nèi)涵、重思對話的力量。
二、“對話”與機器的“對話”力演進
“對話”作為一個廣為關(guān)注的研究主題,曾在諸多社會學(xué)家、語言學(xué)家及哲學(xué)家的討論中留下痕跡,最終在巴赫金的對話理論中被賦予了涉及人與社會的實際內(nèi)涵。當(dāng)前計算機科學(xué)界多引用“人機對話”②一詞描述人機語言交互,但對于究竟什么是對話,以及對話的核心特性為何卻無更進一步的深思熟慮。現(xiàn)有的人機“對話”則在一定程度上打破了涉及對話的原生標(biāo)準(zhǔn),偏離了人機“對話”的原意,剝離了某些“人”的因素體現(xiàn)。社會是由人與人的對話和互動所形成的結(jié)構(gòu)系統(tǒng),對人類對話的深思既能賦能人與機器的語言交互,亦能幫助人類主體回視“人”的因素,促進人與機、人與人和人與世界的鏈接。
(一)對話及人機對話的內(nèi)涵
對話理論的奠基者巴赫金最早從蘇格拉底對話與梅尼普諷刺中思考對話的內(nèi)涵,且希冀從歷史、社會與互動中尋找到對話的源頭、過程和意義。但發(fā)展至今,人文主義學(xué)者與計算機學(xué)者在對“對話”一詞的理解上存在較大偏差。毫不夸張地說,計算機科學(xué)界對人機“對話”一詞的使用與真正對話的原意背道而馳,在某種程度上是一種對真正對話的拋棄和否定。在巴赫金的定義中,對話是“日常生活的普遍現(xiàn)象,交際活動最根本的方式”[2]。而“對話交際才是語言的生命真正所在之處”[3]。對話作為一種人際交往活動,它反映和影響著人類關(guān)系的發(fā)展。若將對話的內(nèi)容抽象出來,具體至對話的內(nèi)部形式,則可將其對話結(jié)構(gòu)關(guān)系概括為一種包含“同意或反對關(guān)系,肯定和補充關(guān)系,問和答的關(guān)系”[4]的綜合體。目前的語聊機器人及其人機“對話”明顯多停留在問和答的單一關(guān)系層面,從而剝離了另外兩層關(guān)系結(jié)構(gòu)。進入人工智能時代以來,由于人類身體的離場和具身關(guān)系的衍變,在很長一段時間里,人們一直模糊掉了交流和對話的概念,甚至直接將其等同,同時“又將對話當(dāng)作治療現(xiàn)代性病癥的藥方,然而這個藥方本身卻常常是那致病的病毒”[5]。如果僅用交流一詞囫圇吞棗地描述人類生活和各類社會關(guān)系(包括人機關(guān)系在內(nèi)),那么“人”的因素將悄無聲息地離場,“非人”的因素將如滔滔洪水般洶涌而來。但實際上對話的要求遠比交流更高,運用交流的概念來“搪塞”對話和人機“對話”是一種對人類活動的輕視。畢竟對話僅發(fā)生在人與人之間,而交流“并非人類所獨有……是我們與動物、電腦、地外生命和天使之間的共享物”[6]。因此,從巴赫金、伽達默爾、馬丁·布伯、海德格爾等人有關(guān)對話與交流的經(jīng)驗總結(jié)中可以得出:對話始終作為一種體現(xiàn)“人”之因素的社會交往活動,圍繞對話主體——人而展開,具備主體間性、對話性、辯論性、關(guān)聯(lián)性等多種核心特質(zhì)。
在計算機科學(xué)界中,人機“對話”作為人工智能領(lǐng)域的重要研究內(nèi)容,是人與機器的一種新型交互方式。人們通過計算機終端來使用機器,向機器發(fā)出指令要求,機器以“對話”的形式執(zhí)行命令,就好像人和機器在“對話”。“人機對話系統(tǒng)的目標(biāo)是使人機對話像人人對話一樣有效、快捷和自然?!盵7]參考計算機科學(xué)界對人機“對話”的定義不難發(fā)現(xiàn),相關(guān)人員只是學(xué)習(xí)和依據(jù)人類對話的形式(或曰問答形式)將人機語言交互囊括為人機“對話”,但對人類對話的內(nèi)涵和核心特性卻并無更進一步的思考。需始終明確的是,機器主體只是一種對人類主體的模仿,實際上并非對話主體。盡管語聊機器人依靠人類主體而存在,但充其量只是一種巴赫金口中的“自我的客體化的事物”。因此,當(dāng)前所謂的人機“對話”一詞從內(nèi)涵上來說“有名無實”,而只是計算機科學(xué)研究人員的誤解和借用。但若真想視“對話”為人機語言交互的理想目標(biāo),促進和優(yōu)化人與機器及人與人的互動,則需進一步厘清對話的核心特性,思考和化用對話的力量,使其無限趨近于“對話”的狀態(tài)。
(二)對話的核心特性
在哲學(xué)中,對話通常被理解為一種交流和思想交換的方式,對話中的參與者將共同探討和思考各種問題、觀點和理念。在笛卡爾看來,語言應(yīng)答能力測試和動作的多樣性測試是人類和動物的分水嶺。雖然技術(shù)之物“如鸚鵡可以清晰地模仿人類說話,但它們不能‘表達思想’”[8]。參考柏拉圖、笛卡爾、本雅明、馬丁·布伯、巴赫金等人的理解,對話是屬人的產(chǎn)物,具備某些不可復(fù)制的核心特性,如主體間性、對話性、辯論性和關(guān)聯(lián)性。在巴赫金看來,對話的基礎(chǔ)條件之一是存在他者與他人話語,即在說話者(我)之外,還需存在另一個對話主體(人)?;冒秃战鸬睦斫猓耙粋€意識無法自給自足,無法生存,僅僅為了他人,通過他人,在他人的幫助下我才展示自我,單一的聲音什么也解決不了,且難以形成對話”[9]。對話由自己(說者角度)與他人(對方)的表述構(gòu)成,其形成必須依托于“我”和“他人”這兩個人類主體來進行,且必須通過其間的思想交流活動反映兩者的主體間性,形成各自言說的對話基礎(chǔ)。因此,兩個真正屬人的有生命的聲音和隱含其中的主體間性是對話的最低條件,亦是“生存的最低條件”[10]的哲學(xué)內(nèi)涵。于對話性而言,對話性是敘事藝術(shù)的核心,是從人類對話中提取出來的本質(zhì)性因素。對話性更多關(guān)涉對話的內(nèi)容,強調(diào)對話內(nèi)容本身需反映出可對話的價值。往往這一要求還與諸多哲學(xué)家所言之對話的“思想性”相類似,因為“說話人應(yīng)該被‘藝術(shù)地’描繪出來而不是簡單地傳達出來和‘復(fù)制出來’……它是思想的載體”[11]。對話中的“一切話語都具有內(nèi)在對話性,和對話的外在布局形式”[12],或可言正是對話性造就了話語和對話本身。對話性是巴赫金對話理論的中心,在其理論闡釋中,對話性包含多個實質(zhì)性的要素,如對話性關(guān)系、對話者、指向性、內(nèi)部對話性完成過程等。
在《柏拉圖對話錄》中,柏拉圖通過描繪蘇格拉底與其他人之間的對話來表達他的哲學(xué)思想,對話的形式使得哲學(xué)觀點可以通過不同人物之間的交流和辯論來呈現(xiàn)。柏拉圖認為,對話是一種探索真理的方式,通過在對話中提出問題、辯論和討論,人們可以更好地理解復(fù)雜的哲學(xué)概念。且對話結(jié)構(gòu)本身即包含巴赫金所強調(diào)的“同意或反對關(guān)系”的原意,聽者既可以通過回答理解和支持說者,也可以雄辯地說服說者。對話中的雙方“應(yīng)該較為全面而深入地提出一切言語交際領(lǐng)域中存在的他人言語的問題”[13],體現(xiàn)此類自由辯論關(guān)系的對話才是真正的對話,才能促進兩個主體間性的相互作用和共同協(xié)作。除此之外,馬丁·布伯將對話視作一種人際關(guān)系的核心,對話在布伯的哲學(xué)世界中被定義為一種交流方式。在他看來,對話不僅是思想交流的方式,也是人們之間建立聯(lián)系和理解彼此的重要途徑,理解言說者(人)的話語能在交流的過程中深化人與人的精神交往。與此同時,“人所經(jīng)歷的關(guān)系,乃是與生俱來的‘你’在相遇之人身上實現(xiàn)的產(chǎn)物……這一切都可用關(guān)系的先驗前提來解釋”[14]??傊瑢υ挼闹黧w、內(nèi)容及形式與個人及外在世界的一切事物關(guān)系匪淺,對話中的一切呈現(xiàn)亦在有形與無形中與個人的形神氣韻和對世界的理解相關(guān)聯(lián),即對話的呈現(xiàn)時刻“散發(fā)著各種樣式格調(diào)的氣息,與世界觀方面的、流派方面的、社會方面的特定評價相聯(lián)系”[15]。
一言以蔽之,盡管前人對對話的定義不盡相同,但他們基本都涉獵了對話特性之主體間性、對話性、辯論性與關(guān)聯(lián)性等,其闡釋活動也主要圍繞這幾點來進行。另外值得肯定的是,進入20世紀(jì)以來,所謂的人機“對話”在語言能力優(yōu)化上確實存在諸多技術(shù)上的突破,其對人類語言和言說能力的理解亦實現(xiàn)了多個階段的迭代升級。
(三)機器的“對話”力演進
在計算機學(xué)界中,人機語言交互涉及語音識別、語音合成、情感識別、對話系統(tǒng)等方面,其中,“對話系統(tǒng)過程一般包括自動語音識別、自然語言理解(或稱口語理解)、對話管理、自然語言生成、語音合成五部分”[16]。進入數(shù)智時代以來,計算機科學(xué)界不再僅把人機“對話”(或稱人機交流)視為一種語言上的交互,而是將其視作一種社會技能(社會互動),借此完成了對人機“對話”理解上的重大轉(zhuǎn)變,實現(xiàn)了機器主體的理解力升級。自1966年發(fā)展至今,機器“對話”主體歷經(jīng)了從“對話智能體”(如人機“對話”軟件“ELIZA”)到“涉身對話智能體”(如軟件“房產(chǎn)經(jīng)紀(jì)人”REA)再到“數(shù)智對話智能體”(如AI王冠、小漾)的更迭演進,并以此完成了從計算機科學(xué)到心理學(xué)[17]、從文本到圖形、從一方到多方的技術(shù)革新和對“對話”的理解與把握?!皵?shù)智對話智能體”指的是通過數(shù)字化技術(shù)和數(shù)據(jù)分析來獲取洞察力和智能化決策的機器“對話”主體,是智能傳播中的傳播主體之一。在對“對話”的理解與把握上,相較于早期的“對話智能體”與“涉身對話智能體”而言,廣泛應(yīng)用于傳媒領(lǐng)域的“數(shù)智對話智能體”在語音延遲和語音情感識別方面有所完善,另外還加入了對副語言信息的研究。其在語音延遲上主要通過兩種方式優(yōu)化設(shè)計,一方面研究流式語音識別,邊聽邊識別;另一方面研究非自回歸語言識別,擺脫解碼時序依賴以加快識別速度。在情感識別方面,先進行特征提取,再進行分類器設(shè)計的方式優(yōu)化情感因素,但在特征提取階段仍依賴于前期人工設(shè)計的與情感相關(guān)的聲學(xué)特征。
盡管改善語音延遲和語音情感識別已讓機器主體在人機語言交互上大有提升,但以“數(shù)智對話智能體”為代表的機器主體仍無法與巴赫金所言之“他者”相提并論,其交互方式和語言理解相較于人際溝通而言更多只是照本宣科、生搬硬套。概言之,盡管技術(shù)的創(chuàng)新已為人機語言交互帶來諸多收益,但“人”的因素和對話因素的離場已為人機“對話”埋下更大的社會隱患。因此,若想在智能傳播時代實現(xiàn)自然化的人機語言交互,則需結(jié)合對話的真正內(nèi)涵,掙脫人機語言交互中的“對話”桎梏。
三、“對話”桎梏:人機語言交互中的無言、和聲與失聯(lián)
對于智能傳播與語音合成技術(shù)而言,需始終強調(diào)的是,智能傳播時代中的“一切人造物(包括有形和無形)都是技術(shù)……一切技術(shù)都是文化”[18]??偟膩砜?,目前有關(guān)人機“對話”的關(guān)注欠缺涉及社會文化與人類對話本質(zhì)的“預(yù)習(xí)”和考量,有關(guān)人機語言交互的數(shù)字事故正在不斷上演,相關(guān)技術(shù)的革新難以滿足人類對話主體的其他精神需求。對數(shù)字技術(shù)的過度迷思和崇拜已然背離了柏拉圖、巴赫金和馬丁·布伯等人對人類對話特性之對話性、辯論性與關(guān)聯(lián)性的強調(diào)。
(一)無言:工具理性影響下的真空式答復(fù)
1950年,圖靈在《計算機器與智能》一文中提出用人機“對話”來測試機器的智能水平。針對當(dāng)前的人機“對話”現(xiàn)狀,不管是任務(wù)驅(qū)動的限定領(lǐng)域?qū)υ捪到y(tǒng)還是無特定任務(wù)的開放領(lǐng)域?qū)υ捪到y(tǒng),從生成內(nèi)容來看,機器主體多立于工具理性的視角,陷入真空式答復(fù)狀態(tài),輸出失卻“對話性”的淺層語音。這一點尤其體現(xiàn)在以人機合作類視聽節(jié)目、AI直播帶貨為代表的一對多式人機“對話”場景中。探討語言與對話,可以通過工具主義理論(工具觀)與建構(gòu)主義理論(建構(gòu)觀)兩種視角展開。工具觀對應(yīng)作為工具的語言與對話,建構(gòu)觀即認為語言與對話不僅作為某種工具式的衍生品來表象事物,相反,語言和對話構(gòu)成了事物(包括人在內(nèi))的意義和現(xiàn)實性。可見,人類的語言和對話本身具備一定的創(chuàng)造性,且無時無刻不影響著對話的接續(xù)展開和話語意義的生成。但當(dāng)前的人機“對話”多基于工具觀的視角視技術(shù)、語言與對話為工具,技術(shù)合成語音作為工具的產(chǎn)物,具備明顯的“物”性,與對話中的“人”性——對話性相對立。換言之,正是因為建構(gòu)性對話的存在,人類主體的對話性才有枝可棲,人類才得以借助對話時刻確證自身的在場。于用戶而言,當(dāng)前的技術(shù)合成語音僅具有直觀、簡單的使用價值(給人提供答復(fù)),并無任何引導(dǎo)繼續(xù)“對話”的對話結(jié)構(gòu)。該對話結(jié)構(gòu)可類比接受美學(xué)所言之“召喚結(jié)構(gòu)”,即在人類的對話中,話語本身就存在或多或少的召喚聽者去對話的欲望和結(jié)構(gòu),也即巴赫金對話理論的核心——對話的對話性(或可言“可對話”性)。而工具理性的思維和真空式答復(fù)的存在則在一定程度上消解了對話的核心特征之對話性。
因此,當(dāng)前的機器語音更像是一種毫無生機趣味的真空式答復(fù),對話性的因素在其中無法尋找到生存的養(yǎng)料和棲息的空間,機器答復(fù)的生成往往直接伴隨著某一話題的中斷,從而使得“對話”的另一方——人被迫陷入“無言”的狀態(tài)。例如冬奧數(shù)字人“冬冬”在采訪武大靖時,有關(guān)“冬奧期間最難忘的事兒”“頭盔上的圖案為什么選擇華夏戰(zhàn)神孫大圣”“金墩墩拿回家會放在哪里”等一系列采訪問題,“冬冬”似乎僅設(shè)定了單次問答結(jié)構(gòu),每當(dāng)武大靖對一個問題作出簡略且意猶未盡的答復(fù)后,“冬冬”卻直接跳轉(zhuǎn)下一個話題,全然不給對方留下繼續(xù)“對話”的機會和空間。與此同時,此類令人“無言”的狀態(tài)也直接暴露出了“機器所存在的系統(tǒng)設(shè)定的‘自我主義傾向’,此類‘自我主義傾向’也會誘導(dǎo)受眾在工具理性的思維定式中像機器一樣思考,頻繁陷入‘被編程的自我意識’之中”[19]。在這一過程中,人類的對話欲望會越來越小,人對機器的印象也將越來越差。機器的這一傾向不僅是對人類對話的漠視,還會對用戶(人)造成誤導(dǎo),使得對話中的一切“人”性逐漸被“物”性和“機”性所取代。
(二)和聲:問答關(guān)系影響下的自證式陷阱
海德格爾曾在《論媒介》中以“在手性”和“上手性”來剖析技術(shù),并用“顯著性”“突兀性”和“不可回避性”來描述上手之體驗,“在手性”對應(yīng)工具的用具屬性與故障的發(fā)生,技術(shù)完美主義則指向“上手性”的狂熱追求。在“上手性”的追求浪潮中,計算機研究人員希望機器完全按照人的模樣去發(fā)展(包含人的對話在內(nèi)),但似乎對于巴赫金所強調(diào)的對話結(jié)構(gòu)關(guān)系之“同意或反對關(guān)系”“肯定和補充關(guān)系”以及“問和答的關(guān)系”卻存在較為單一片面的理解,使得機器多陷入同意、肯定和答復(fù)的狀態(tài)。畢竟AI自誕生起就是作為為人提供服務(wù)的語音助手而出現(xiàn),只需針對用戶的問題提供包含肯定和同意傾向的滿意答復(fù)。因此,市面上的大部分語聊機器人似乎全然不敢表現(xiàn)出否定和追問的舉止。而僅當(dāng)機器的答復(fù)“在手”時、發(fā)生故障時,人才會意識到這一關(guān)系的問題所在。也即海德格爾所言,至此,“事物會失靈,會崩潰,它原本順手的、具有上手性的正常功能會被打斷,僅在這時,他才會成為在手的”[20]。
2023年,馬斯克旗下公司xAI推出一款名為Grok的語聊機器人,并聲稱經(jīng)過訓(xùn)練的Grok擁有“一點叛逆的性格”,會自主拒絕回答某些不想回答的“尖銳問題”。但盡管如此,X(原名Twitter)上的部分右派人士仍抱怨其不那么叛逆,對部分明顯判斷失誤的敏感問題(如種族歧視、性別歧視等)仍始終附和用戶保持相同觀點。故而目前的人機“對話”更像是一種人對機器的“訓(xùn)話”,人在潛移默化中將機器圈禁在對自己的肯定與認可當(dāng)中,從而去掉了機器任何有關(guān)異議的傾向。一方面,驅(qū)使人類主體在“對話”中陷入一種沒有說服力的自證式陷阱;另一方面,也使得機器主體在發(fā)展同意、肯定與答復(fù)的“征途”中迷失了“對話”的方向和指引。具體至人機合作類視聽節(jié)目中,作為“對話”主體的智能機器似乎是人類對話主體的另一種附庸物,人對機器的過度提問(往往是設(shè)問的形式)導(dǎo)致機器之音時刻作為人類語音的某種“和聲”,人對機器的持續(xù)訓(xùn)話使得人機“對話”陷入“異口同聲”的僵局,從而淡化了人類對話特性之辯論性的呈現(xiàn)。例如在人機合作類視聽節(jié)目《你好,星期六》(原《快樂大本營》)的元旦首秀中,主持人對數(shù)字人“小漾”發(fā)出連環(huán)設(shè)問,“小漾你是我們的實習(xí)主持人對不對”“你會努力學(xué)習(xí)的對不對”“你想學(xué)什么呢,是認真學(xué)好普通話的態(tài)度對不對”[21],一連串的提問直接暴露出機器主體的附庸式存在和人類主體的“自證式”陷阱。
(三)失聯(lián):技術(shù)“次反映”下的不對稱現(xiàn)象
由于智能機器的背后依然是人在操作,人與機器之間看似可以搭建起某種對話的橋梁,但是技術(shù)始終作為理解人類話語的中介而存在,技術(shù)合成語音在本質(zhì)上不同于人的語詞與對話。而“在某種較難理解的意義上來說,語詞幾乎就是一種類似于摹本的東西”[22]。語言是人類原型的摹本,是人心靈與欲表達之沖動的載體和反映,是理解得以完成的形式。語音合成技術(shù)以人類語言為樣本,是人類原型與欲表達之沖動的反映(即語言)的反映(即次反映),遂與真正的語言和對話關(guān)聯(lián)甚少或者毫無關(guān)系。在此前提下,以次反映為特征的語音識別在理解人類對話的過程中引發(fā)了“對話”的不對稱現(xiàn)象,從而與“對話”對象和上下文失聯(lián)。這一不對稱現(xiàn)象可以類比海德格爾在論媒介時所提出的技術(shù)“去遠性”,不對稱現(xiàn)象和“去遠性”的到來在某種程度上意味著與對話特性之關(guān)聯(lián)性的失聯(lián)。
2018年,新華社和搜狗在烏鎮(zhèn)峰會現(xiàn)場發(fā)布的全球首個AI主播在交流中誤將阿里巴巴創(chuàng)始人馬云的名字“Jack Ma”誤讀成了“Jack Massachusetts”。原因在于語音合成系統(tǒng)在讀到這部分文字稿的時候,并未聯(lián)系現(xiàn)場的對話情景及對話上下文對該詞進行分類,便簡單判斷“MA”兩個字母為美國馬薩諸塞州的縮寫。隨之,以CNN、BBC、The Verge等為代表的國外媒體曾對此進行多番冷嘲熱諷。盡管過去了多年,此類挑戰(zhàn)人類底線的數(shù)字事故仍在不斷上演,同時遭到了人類的抵制與反感。2023年5月,超過350名AI行業(yè)的高管及行業(yè)領(lǐng)袖等共同簽署了一封聯(lián)名公開信,懇請社會阻止此類人工智能技術(shù)繼續(xù)毀滅世界?;诖?,目前人機“對話”中的“不對稱”表現(xiàn)主要可以概括為“對話”對象不對稱與上下文不對稱兩個方面?!皩υ挕睂ο蟛粚ΨQ主要發(fā)生在一對多式人機“對話”中。在一對多式人機“對話”中,說話對象的變化影響著“對話”風(fēng)格的變化,而在目前的人機語言交互中,機器本身面臨“一仆多主”的現(xiàn)狀,智能機器在“對話”中容易陷入“六神無主”和“對空言說”的境地,故多存在言說對象不明確與不對稱的隱患。此外,目前的大部分機器回答多是在問題分類后直接從數(shù)據(jù)庫中提取,且每次提問均重新重復(fù)該過程,較少聯(lián)系對話的上下文和對話的情景對容易產(chǎn)生歧義的問題作出分類答復(fù),致使機器生成話語存在言說內(nèi)容無價值與上下文不對稱的嫌疑。
概言之,由于未理解對話的實際內(nèi)涵和進入對話的真正狀態(tài),計算機只是在模仿人類的對話行為與形式,“ChatGPT也只是在大數(shù)據(jù)的基礎(chǔ)上對人類行為進行模仿,但并未真正理解對話的內(nèi)容和本質(zhì)”[23]。而若想通過有效的人機交流優(yōu)化人與人的溝通、深化人與機器和人與人的聯(lián)系,則必須持續(xù)回望對話本身,借鑒對話的力量賦能人與機器的語言互動,緩解人機“對話”中的一系列技術(shù)桎梏。
四、以對話的力量賦能人與機器的語言交互
“智能傳播涉及三種新的人機關(guān)系:人機協(xié)同、人機交流與人機共生?!盵24]智能傳播中的人機交流研究不僅需要創(chuàng)新以自然語言處理和神經(jīng)網(wǎng)絡(luò)分析為代表的技術(shù)基礎(chǔ),還應(yīng)關(guān)注包含對話內(nèi)涵特性在內(nèi)的其他“暗物質(zhì)”補充。即“在思考已有的技術(shù)基礎(chǔ)時,計算機科學(xué)界研究人機對話應(yīng)以人類對話為模本,回歸到‘對話’本性的反思上”[25]。盡管按照柏拉圖、巴赫金等人的理解,人機語言交互已然不能發(fā)展成為真正的對話,但是人類對話的某些核心特性和對話靈韻亦能為緩解人機語言交互中的問題提供本質(zhì)上的參考與幫助。
(一)創(chuàng)造對話中的召喚結(jié)構(gòu)
本雅明曾經(jīng)多次提醒大眾應(yīng)時刻注意文化的細膩本體,要培養(yǎng)在其具象化的過程中所體現(xiàn)出來的對微小變化具有的敏感性。在此前提下,從細微處著手關(guān)注對話的本源、沖動與結(jié)構(gòu)具有深刻的意義。沃爾特·翁曾經(jīng)提出人類語言的分析性,認為“在一定程度上可以說,一切語言和思想都具有分析性,因為它們把結(jié)構(gòu)緊密的經(jīng)驗連續(xù)體分解開來”[26],也即人類話語本身具備明顯的可分析性,這一分析性會在不知不覺中將聽者帶入一個思考的世界,且因循思考活動的展開催生后續(xù)的對話沖動。因此,為改善人機“對話”中的“無言”窘境,可以借鑒學(xué)習(xí)巴赫金對對話指向和對話性的深入闡釋,從說者對聽者的預(yù)測、聽者的統(tǒng)覺背景、尾白三個層面細化對話的內(nèi)部構(gòu)成,最終在機器生成話語中創(chuàng)造對話召喚結(jié)構(gòu),體現(xiàn)人類對話的核心特性之對話性。對話性的指向一定是一個往返程的指向,說者和聽者(可以是機器)在其中應(yīng)就某一話題來回穿梭、反復(fù)“對話”。
首先,應(yīng)幫助機器加入說者對聽者的預(yù)測環(huán)節(jié),這一嘗試類似于幫助機器主體構(gòu)建某種“期待視野”③和預(yù)測對話中的“隱含的聽者”,再根據(jù)用戶的不同背景切換合適的回答方式和話語效果,且在這一過程中始終保留回答和反駁的“權(quán)力”。其次,應(yīng)補充聽者的“統(tǒng)覺背景”。巴赫金將這一“統(tǒng)覺背景”稱之為“一種指物的表現(xiàn)背景,包含兩個方面:一是社會上各種不同意見、觀點、評價,用各種話語復(fù)合而成的對某一事物的指向,或叫定義;二是具體語境中,給定的表述的語言意義,兩者合起來,成為聽者對理解該事物的背景知識”[27]。簡而言之,即通過各類方式擴大對事物和話語本身的理解,通過定義指向和具體語境指向給予聽者更多思考空間和對話空間。最后于尾白而言,巴赫金的原意是指“說者話語中對聽者答話的指向,而聽者的答話是說者話語的銜接”[28]。機器的生成語音既要在一定程度上包含對聽者答話的指向,也要在每一次對人的答復(fù)中銜接好人的答話,這樣一種循環(huán)的“對話”結(jié)構(gòu)才是完整的“對話”表述。通過對以上三者的思考補充或許可以改善概率化的隱患,優(yōu)化人機語言交互中的反饋機制,為機器語音嵌入和創(chuàng)造對話中的召喚結(jié)構(gòu),喚醒聽者(人)的對話沖動,劃破人機“對話”中的真空式答復(fù)空間。
(二)構(gòu)建機器追問的辯論基礎(chǔ)
“當(dāng)人工智能技術(shù)演化為一種非正式權(quán)力,甚至有可能透過‘用技術(shù)言說’的方式帶來異化時,需通過交往理性與人文價值等正式權(quán)力來矯正技術(shù)導(dǎo)致的越軌行為?!盵29]面對機器對人類對話特性的消解和當(dāng)前人機“對話”所呈現(xiàn)出來的“和聲”境況,我們可將對話特性之辯論性視為一種抵制易形技術(shù)文化的方式,從機器提問和追問的過程中構(gòu)建人機“對話”的辯論性基礎(chǔ)。需加以說明的是,構(gòu)建辯論性的前提基礎(chǔ)是發(fā)現(xiàn)問題、提出問題,這一聲明要求人機語言交互轉(zhuǎn)而關(guān)注對話結(jié)構(gòu)中的“反對關(guān)系”與“補充關(guān)系”。強調(diào)對話中的辯論性并非引導(dǎo)人與機器陷入人機糾纏甚至是人機對峙的僵局,而是期望通過機器主體的提問反饋激活人機語言交互,避免人們陷入自我言說和自問自答(以設(shè)問為主)的尷尬局面。
在伽達默爾眼中,提出問題比回答問題更加困難,提問本身代表著某種話語權(quán)的過渡,有效提問意味著有效對話的展開。進入數(shù)智時代后,一方面,此處的提問應(yīng)更多強調(diào)機器主體對人的追問,而非任務(wù)型提問或設(shè)問式提問;另一方面,任何提問和追問都應(yīng)具有開放性,“提問就是進行開放”[30]。但問題的開放性又非無邊界,其中包含了“由問題視域所劃定的某種界限,沒有這種界限的問題乃是空的問題”[31]。機器提問的開放性和邊界感主要體現(xiàn)在外部知識的輸入輸出上,“被提問東西的開放性在于回答的不固定性,被提問東西必須是懸而未決的,才能有一種確定的和決定性的答復(fù)”[32]。伽達默爾所言之不固定性和懸而未決可類比中國傳統(tǒng)美學(xué)中的“言外之意”與“韻外之致”?!盃铍y寫之景,如在目前;含不盡之意,見于言外”。提問中的似說非說之意和意猶未盡之感(與前文所提到的巴赫金所言之“尾白”和“雙邊性”相關(guān)聯(lián))亦為持續(xù)性的人機語言交互留下了無限的想象空間和“對話”空間。因此,可在智能體的“對話”管理中嵌入“言外之意”的外部知識參數(shù),以此完成提問機會的過渡和提問基礎(chǔ)的構(gòu)建,收獲自然“對話”的“韻外之致”,體現(xiàn)人類對話的辯論性。與此同時,需要注意的是,在為人機“對話”交換問答角色和補充有關(guān)反對、補充和提問的關(guān)系結(jié)構(gòu)時,也需要及時規(guī)避機器出現(xiàn)“反客為主”的傾向和其他一切越軌行動,避免機器進一步馴化人類主體,奴化人類的“人”的因素。
此外,需要確證的是,即使對技術(shù)的極致追求和對機器的人性化完善會給人類帶來一定的威脅與挑戰(zhàn),但人類始終不能也無法抑制技術(shù)的突破,“比野蠻人破壞機器的任何行動更可悲的是野蠻人轉(zhuǎn)移人類發(fā)展動機的威脅……是對于促成主要人類技術(shù)成就的無私研究的阻礙”[33]。但是就辯論性本身與智能化程度而言,無論語音合成技術(shù)的進化程度如何,人必須比機器更智能、更善辯?!叭绻瞬荒軌蜃龅奖葯C器更強的話,那么他就被降格到了機器的水平,就是一個麻木、奴性、卑微的生物?!盵34]
(三)優(yōu)化人機“對話”中的對稱關(guān)系
在技術(shù)的加持下,“所有的事物看起來都聚得更近了,不過事物的本質(zhì)……卻更難以觸及了”[35]。面對“人”的因素和“對話”因素的消逝,在智能傳播時代重思巴赫金、伽達默爾及海德格爾等人對語言和對話的研究具有深遠的意義。它能引導(dǎo)人類將反映人性的對話帶到人的身邊,幫助其建立起與對話、與人、與社會之間的聯(lián)系。在巴赫金看來,對話指涉相互關(guān)系,“言語的語言實際單位不是孤立的個體的獨白,而至少是兩種話語的相互關(guān)系,即對話”[36],這一經(jīng)驗見解也似與馬丁·布伯所言之對話的關(guān)聯(lián)性不謀而合。就建立關(guān)聯(lián)性本身而言,機器首先需全方位地理解人類語音,在確保無誤的前提下先與人類話語建立聯(lián)系,才能進而與人類本身及與圍繞人展開的社會文化建立親密關(guān)系。
針對前文提及的人機“對話”中的不對稱問題,應(yīng)結(jié)合計算機學(xué)界與哲學(xué)界的同步思考從言說對象和回復(fù)內(nèi)容上優(yōu)化其中的問題所在。與雙方語言交互相比,多方語言交互中的對象明確更為迫切,以人機合作類視聽節(jié)目為代表的多方人機“對話”多存在說話人未明確指定言說對象的問題。因此,可在機器“對話”管理中為其添加對象標(biāo)簽,在機器生成話語中言明交流對象。顯示說話對象能夠減少歧義的發(fā)生,緩解人機語言交互中的對象不對稱的問題。同時可參考部分學(xué)者的觀點,“對復(fù)雜的多方‘對話’歷史進行結(jié)構(gòu)分離,進而采取有針對性的回復(fù)?;?qū)⒍喾健畬υ挕械纳舷挛陌凑铡瓳’式回復(fù)關(guān)系,構(gòu)建成樹狀結(jié)構(gòu),并將其分割成多個序列組合,再使用言說對象所在的樹狀分支中的回復(fù)話語來進行‘對話’”[37]。除此之外,還應(yīng)結(jié)合社會文化的補充鍛造智能機器的文化互動力,幫助機器建立與社會文化的深度鏈接,盡管早期的“產(chǎn)業(yè)家和工程師們本身并不相信機器體系具有生活和文化方面的特性”[38],但真正具有永恒價值的收益應(yīng)當(dāng)是非物質(zhì)性的文化元素與文化資源。社會文化是一個復(fù)雜的集合體,人類的對話與其他“默會知識”等文化元素已經(jīng)成為人之為人和對話之為人之對話的本質(zhì)組成部分。
參考古希臘的理解,人類對話已然成為踐行“認識你自己”的這一忠告的重要場所,只有通過體現(xiàn)對話性、辯論性和關(guān)聯(lián)性的人機“對話”,才能夠?qū)⑽覀兊年P(guān)系世界同經(jīng)驗世界聯(lián)系在一起,借此縮小人機“對話”和人際對話之間的知識差距,抵御智能傳播中的一系列風(fēng)險沖擊,深化人與機器、人與人、人與社會文化之間的聯(lián)系,實現(xiàn)人機語言交互的自然化發(fā)展。
五、結(jié)語
海德格爾曾言:“語言可以被視為內(nèi)在情感的外在表達,一種人類行為?!闭Z言和對話作為一種人類高級智能活動,能夠幫助我們認識某種人之特性的東西。機器與技術(shù)合成語音作為人的鏡中映像,永遠是某種虛幻存在。當(dāng)前的人機“對話”已經(jīng)發(fā)展為一場不可避免且效果難測的世紀(jì)探險,伴隨各種智能機器的普及化和人工智能技術(shù)的發(fā)展,這一探險將對“對話”中的一切“人”的因素造成直接剝削。
在智能傳播的背景下,關(guān)注人機“對話”能夠反過來幫助我們認識人類本體。研究機器“對話”主體與人機“對話”,除了可從技術(shù)角度切入,拓展人工智能技術(shù)的疆域之外,還可從社會文化著手,借助人文主義價值理念重思對話的內(nèi)涵與核心特征。結(jié)合對話特性中的對話性、辯論性和關(guān)聯(lián)性等本質(zhì)要求,以創(chuàng)造對話中的召喚結(jié)構(gòu)改善人與機器的“無言”窘境;以構(gòu)建機器追問的辯論性基礎(chǔ)規(guī)避人與機器的“和聲”境況;以對稱關(guān)系的優(yōu)化加深人與機器和人與人之間的密切關(guān)聯(lián)。
綜而述之,面對新時代下技術(shù)與文明的新挑戰(zhàn),應(yīng)始終回望“人”的因素及人類對話本身,結(jié)合對話特性的思考緩解人機語言交互中的一系列“對話”難題,共創(chuàng)適應(yīng)時代需求的人機語言交互。
[本文為中國人民大學(xué)“雙一流”建設(shè)項目“中國人民大學(xué)馬克思主義新聞觀研究中心課題”(項目編號:RMXY2021C021)的階段性研究成果]
注 釋:
①四郎即大型清宮劇《甄嬛傳》中的皇帝雍正,是其純元皇后和甄嬛對雍正的愛稱。四郎音即扮演者陳建斌的角色聲音,該角色聲音在自媒體平臺曾引起網(wǎng)友的一度模仿與二創(chuàng),隨后該音源被錄入各大互聯(lián)網(wǎng)平臺,命名為四郎音。
②此處的人機“對話”一詞,實際上是計算機學(xué)界對“對話”一詞的誤解和借用(抑或是誤用),與文中的“人機語言交互”屬同一意思。另外,還有部分學(xué)者以人機交流一詞解釋人機對話和人機語言互動,實際上也稍有不妥。但為了便于理解,自第二部分開始,涉及機器主體的分析部分多采用計算機學(xué)界常用的人機“對話”一詞描述“人機語言交互”。
③“期待視野“和“隱含的讀者”的概念由接受美學(xué)代表姚斯提出,主要針對文本閱讀活動。期待視野即依據(jù)之前的審美經(jīng)驗、素養(yǎng)趣味等綜合形成的一種潛在的審美期待。隨后的“隱含的聽者”借鑒了“隱含的讀者”的概念,隱含的聽者即在語音生成之前,說話主體所預(yù)設(shè)的可能或應(yīng)該出現(xiàn)的聽者,并在其說和聽的全過程中納入對這一聽者的考慮。
參考文獻:
[1]方興東,鐘祥銘,顧燁燁.從TikTok到ChatGPT:智能傳播的演進機理與變革路徑[J].傳媒觀察,2023(5):39-47.
[2]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯(lián)書店,1994:18.
[3]巴赫金.陀思妥耶夫斯基詩學(xué)問題[M].白春仁,顧亞鈴,譯.北京:生活·讀書·新知三聯(lián)書店,1988:252.
[4]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯(lián)書店,1994:3.
[5]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:328.
[6]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:328.
[7]俞凱,陳露,陳博,孫鍇,朱蘇.任務(wù)型人機對話系統(tǒng)中的認知技術(shù):概念,進展及其未來[J].計算機學(xué)報,2015(12):2333-2348.
[8]約翰·杜翰姆·彼得斯.對空言說:傳播的觀念史[M].鄧建國,譯.上海:上海譯文出版社,2017:334.
[9]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯(lián)書店,1994:21.
[10]巴赫金.陀思妥耶夫斯基詩學(xué)問題[M].白春仁,顧亞鈴,譯.北京:生活·讀書·新知三聯(lián)書店,1988:344.
[11]孫先科.說話人及其話語[M].上海:上海文藝出版社,2009:6-7.
[12]錢中文.文本對話與人文[M]//巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:208.
[13]錢中文.文本對話與人文[M] //巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:207.
[14]馬丁·布伯.我與你[M].徐胤,譯.天津:天津人民出版社,2018:29.
[15]錢中文.文本對話與人文[M] //巴赫金全集:第4卷.白春仁,曉河,周啟超,等譯.石家莊:河北教育出版社,1998:213-214.
[16]趙陽洋,王振宇,王佩,楊添,張睿,尹凱.任務(wù)型對話系統(tǒng)研究綜述[J].計算機學(xué)報,2020(10):1862-1896.
[17]Joseph Weizenbaum.“ELIZA-AComputer Programme for the Study of Natural Language Communication Between Man and Machine”[J].Communications of the ACM,1966,9(01):36-45.
[18]何道寬.媒介環(huán)境學(xué)辨析[J].國際新聞界,2007(2):46-49.
[19]高貴武,趙行知.進化中的異化:人工智能主播的言說之窘[J].傳媒,2023(4):12-14.
[20]戴維·J.貢克爾,保羅·A.泰勒.海德格爾論媒介[M].吳江,譯.北京:中國傳媒大學(xué)出版社,2019:127.
[21]劉亞龍.從人機對話走向數(shù)智對話:AI主播的對話策略與跨界實踐分析[J].視聽界,2023(2):44-46+54.
[22]Walter J.Ong.口語文化與書面文化[M].何道寬,譯.北京:北京大學(xué)出版社,2008:103.
[23]馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT:人機對話的里程碑及啟示[J].語言戰(zhàn)略研究,2023(2):20-24.
[24]彭蘭.從ChatGPT透視智能傳播與人機關(guān)系的全景及前景[J].新聞大學(xué),2023(4):1-16+119.
[25]張帆.人機對話系統(tǒng)的困境與解決[J].哲學(xué)分析,2022(6):124-134+193.
[26]Walter J.Ong.口語文化與書面文化[M].何道寬,譯.北京:北京大學(xué)出版社,2008:103.
[27]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯(lián)書店,1994:41.
[28]董小英.再登巴比倫塔:巴赫金與對話理論[M].北京:生活·讀書·新知三聯(lián)書店,1994:42.
[29]高貴武,趙行知.進化中的異化:人工智能主播的言說之窘[J].傳媒,2023(4):12-14.
[30]漢斯-格奧爾格·伽達默爾.真理與方法哲學(xué)詮釋學(xué)的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:471.
[31]漢斯-格奧爾格·伽達默爾.真理與方法哲學(xué)詮釋學(xué)的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:472.
[32]漢斯-格奧爾格·伽達默爾.真理與方法哲學(xué)詮釋學(xué)的基本特征[M].洪漢鼎,譯.上海:上海譯文出版社,2004:471-472.
[33]劉易斯·芒福德.技術(shù)與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業(yè)出版社,2009:266.
[34]劉易斯·芒福德.技術(shù)與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業(yè)出版社,2009:284.
[35]戴維·J.貢克爾,保羅·A.泰勒.海德格爾論媒介[M].吳江,譯.北京:中國傳媒大學(xué)出版社,2019:21.
[36]錢中文.巴赫金全集:第2卷[M].石家莊:河北教育出版社,2009:460.
[37]Zhang H,Chan Z,Song Y,et al.When less is more: using less context information to generate better utterances in group conversations. [C].In Proceedings of the 7th CCF International Conference on Natural Language Processing and Chinese Computing,Hohhot,2018(08):76–84.
[38]劉易斯·芒福德.技術(shù)與文明[M].陳允明,王克仁,李華山,譯.北京:中國建筑工業(yè)出版社,2009:282.
作者簡介:高貴武,中國人民大學(xué)新聞與社會發(fā)展研究中心研究員、新聞學(xué)院視聽傳播系主任,教授、博士生導(dǎo)師(北京 100872);劉亞龍,中國人民大學(xué)藝術(shù)學(xué)院藝術(shù)傳播與管理方向碩士生(北京 100872)。
編校:董方曉