朱飛虎 徐康生
【摘 要】智能語音平臺是在人工智能驅動下的全新信息中樞,對媒體的發(fā)展有著至關重要的作用。本文結合國內外實踐論述了智能語音的崛起與其在媒體的應用、智能語音帶來的媒體變革以及智能語音平臺上媒體面臨的挑戰(zhàn),從而梳理出智能語音平臺上媒體的發(fā)展邏輯。
【關鍵詞】智能語音;新聞媒體;發(fā)展邏輯
智能語音技術與傳統(tǒng)語音技術之間的差異在于前者是人工智能與語音媒介的融合,它旨在通過語音識別(ASR)、語義處理(NLP)、語音合成(TTS)等技術實現(xiàn)高層級的人機交互。目前,智能語音應用的軟件層面包括手機、電視等終端的獨立智能語音軟件(如三星Bixby語音助手)及各種軟件內嵌的智能語音功能(如搜狗輸入法中的語音輸入功能),硬件層面包括專門針對語音交互推出的硬件產(chǎn)品(如亞馬遜Echo智能音箱、訊飛翻譯機)。這些產(chǎn)品進入市場后獲得了越來越多用戶的認可,推動了智能語音產(chǎn)品在消費市場的崛起?,F(xiàn)階段,智能語音已經(jīng)成為人工智能領域應用最廣泛的技術之一。
面對智能語音所帶來的新產(chǎn)業(yè)形態(tài),媒體如何把握智能語音的風口,擴展媒體格局則成為了一項重要議題。目前,從國內外媒體的實踐來看,智能語音在媒體中的應用主要包括三類:
(一)內容采寫
目前,智能語音中的語音轉文字技術已經(jīng)達到極高的應用水準,以科大訊飛為例,新版訊飛輸入法在語音輸入上的準確率已經(jīng)提高到98%,方言準確率均已達到80%以上,且支持中英語音混合輸入。[1]這為推動智能語音技術在新聞內容采寫上的應用奠定了基礎。十三屆全國人大一次會議召開期間,人民日報就是通過引入類似的人工智能語音識別系統(tǒng),實現(xiàn)了對直播音頻的中英文同步文本翻譯,極大地提高了新聞采寫速度,減少了人工耗時,提高了新聞傳播的效率。國家級媒體的示范作用也推動了智能語音技術在新聞媒體行業(yè)中的應用。
(二)平臺接入
良好的用戶體驗導致智能語音產(chǎn)品對內容供給有海量的需求,對于媒體來說,一方面專業(yè)聲音內容生產(chǎn)者可以將已有內容庫與智能語音平臺對接,增加新的內容流通渠道,擴展內容影響力;另一方面,成熟的文字轉語音技術已經(jīng)為媒體接入智能語音平臺提供了完整方案,如亞馬遜已與包括《紐約時報》在內的多家媒體合作,使其優(yōu)秀的文字內容能夠通過Echo智能音箱播放,訊飛則在手機端推出了訊飛有聲軟件,讓用戶可以將感興趣的文章轉化為語音進行播放。
(三)智能交互
在傳統(tǒng)媒體時代,用戶進行內容消費的邏輯是隔斷式的“確認—閱讀”,而智能語音則提供了一種全新的交互式內容消費方式,即連續(xù)性的“詢問—聆聽”。一方面,這意味著用戶可以發(fā)揮主動性,通過語音交互隨時獲取自己感興趣的內容;另一方面,它讓用戶與智能語音產(chǎn)品之間進行新聞內容的討論成為可能,從而提升了內容消費的深度。這得益于智能語音技術在“整體邏輯”上的進步。目前以亞馬遜Alexa為代表的智能語音助手已可以進行上下文理解,為加入其系統(tǒng)的媒體提供以用戶需求為中心的新聞內容串聯(lián)與討論。
(一)VUI化
VUI,即Voice User Interface(語音用戶界面),VUI化則是指促進語音交互的發(fā)展,擴展人類在圖像交互之外新的人機交互形式。誠如瑪麗·米克爾所言:“語音正在被重塑,成為人機交互的新范式,在過去75年里,每十年就有一次人機交互的重大革新,人類對機器的操作從物理手柄按鍵的物理鍵盤鼠標再到觸摸屏,而現(xiàn)在語音成為了重要的交互方式?!盵2]
VUI化意味著媒體敘事邏輯的改變,建立以語音為核心的人媒連接成為新聞行業(yè)熱門的探索方向。從目前的發(fā)展情況來看,媒體的VUI化至少在三個層面得到了體現(xiàn):技術上,像現(xiàn)成的IOS及Android平臺一樣,以智能語音平臺為操作系統(tǒng),并在此基礎上開發(fā)應用程序的思路得到了廣泛認可。亞馬遜開發(fā)出了基于VUI設計的Skills應用程序,目前,包括《華盛頓郵報》《每日郵報》等在內的眾多媒體都已經(jīng)在亞馬遜Echo音箱上進行了應用程序投放,截至今年3月,Alexa平臺上的Skills應用程序已超過30000個,并且這個數(shù)字還呈爆發(fā)式增長中;[3]形式上,由于語音的特點,開發(fā)簡潔明了的內容呈現(xiàn)形式顯得尤為重要,外媒Quartz便融入了亞馬遜Echo音箱的“新聞簡報(Flash Briefing)”功能,除此之外,它還開發(fā)了Brain和Kendra兩位語音機器人,用以呈現(xiàn)更適合聆聽的對話式新聞;內容上,相對于圖像交互,用戶在進行語音交互時,漫不經(jīng)心的操作會少得多,語義指向一般非常明確,同時,語音界面并不能像圖像界面一樣讓多條信息同時展示,這促使眾多新聞媒體在進行VUI設計時延續(xù)了人工智能時代以大數(shù)據(jù)為核心的原則,從而盡可能地為用戶提供有用并受到喜愛的新聞內容。
(二)場景化
場景化是智能語音平臺上媒體進行內容生產(chǎn)升級和用戶進行內容消費升級的重要發(fā)展方向。作為人工智能的重要入口,智能語音需要“向下實現(xiàn)AI底層運算能力調用,向上和應用場景融合?!盵4]突破語音平臺原本只能被動由用戶觸發(fā)操作的局限,通過人工智能的調用,實現(xiàn)智能語音針對特定場景的主動預判是場景化的基礎要義。用戶在什么時間、什么地點、什么場合、聽什么、用哪種聲音角色聽、用多大音量聽、聽多長時間等效果都是智能語音可以通過場景學習的,這需要智能語音平臺為新聞媒體完善場景化分發(fā)機制,為用戶提供貼心與實用的信息。這也為由場景所帶來的除內容消費之外的其他消費提供了可能性,通過場景預判實現(xiàn)定向廣告分發(fā)正是許多媒體在智能語音平臺上的變現(xiàn)思路之一。
(三)人性化
小愛、小娜、小冰……這些聽起來可愛的名字其實都是智能語音助手。現(xiàn)在,很多語音助手不僅有名字,而且還有性別、民族、性格、音色可供挑選。比如亞馬遜Echo音箱搭載的Alexa智能語音助手便提供了多達47種真人發(fā)音和24種語言。之所以要為智能語音賦予角色形態(tài),是因為在滿足基礎信息供給功能后,內容消費的人性化層級開始上升。智能語音在新聞媒體中應用的目的不僅在于可以幫助用戶進行資訊篩選,信息定制,成為一個信息助手,更重要的是了解用戶的喜好,成為具有親密感與溫度感的生活助手。
(四)一體化
智能語音作為物聯(lián)網(wǎng)的重要入口,能夠突破原有信息終端分散割裂的局限,將各種媒介融而為一,實現(xiàn)多終端聯(lián)動,建立統(tǒng)一互聯(lián)的媒介生態(tài)。通過家庭智能音箱可以實現(xiàn)語音操作電視、電腦、平板、手機,而同樣的,也可以通過手機語音控制其他設備。智能語音技術的多終端分布性,讓無論是近場還是遠場終端都被納入智能語音生態(tài)之中,更為智能語音的媒介融合化發(fā)展提供了重要方向。20年前,尼葛洛龐帝便已預言:“20 年后,你可能對著桌上一群八英寸高的全息式助理說話。這種預想一點也不牽強??梢钥隙ǖ氖?,聲音將會成為你和你的界面代理人之間最主要的溝通渠道?!盵5]實際上,以智能語音為中樞,融合平面圖像甚至全息影像正是當下智能語音技術的發(fā)展前沿。2017年5月,亞馬遜公司就推出了帶有屏幕的回聲音箱Echoshow,2018年7月31日,Line公司也推出了擁有全息形象的Gatebox智能語音助手。
應當說,作為一個發(fā)展中的信息中樞,智能語音平臺為新聞媒體的發(fā)展提供了新的可能性,然而,在這一平臺上,媒體面臨的挑戰(zhàn)也很嚴峻。
(一)品牌認知
減輕用戶的認知負荷是進行智能語音VUI設計的首要原則,這讓如何在用戶有限的聲音記憶空間中維持對媒體品牌的認知成為一個問題。畢竟,在海量的聲音內容源面前,品牌屬性本來就會被弱化,更何況當不同品牌內容是以相同的語音助手聲音呈現(xiàn)時,媒體與用戶之間的連接將進一步降低,這對于文字屬性強的媒體尤其不利。品牌認知度的降低,實則意味著新聞媒體能動性的逐漸剝離,其在智能語音平臺上的角色開始淪為“無名的內容生產(chǎn)者”。
(二)隱私問題
非語言符號系統(tǒng)中的語氣信息的加入,讓智能語音在認知用戶的層面進入了新的維度,與此同時,人們使用智能語音的頻次越來越高,人格化的智能語音讓用戶愿意更加袒露地表述自己的需求,當一個數(shù)字化的自己越來越完整地被人工智能記錄與重繪,隱私問題將更加凸顯。而這或許不只與智能語音平臺有關,當用戶在使用智能音箱中的應用程序時,用戶的語音信息將同時被平臺和應用程序接收,如何保護隱私權,如何確定統(tǒng)一的隱私規(guī)范以及隱私泄露之后的責任確定,都是未來智能語音平臺將面臨的問題。
國務院于2017年制定的《新一代人工智能發(fā)展規(guī)劃》報告指出,“人工智能是引領未來發(fā)展的戰(zhàn)略性技術?!盵6]盡管在國內還尚未形成氣候,但可以預見的是,在人工智能驅動下的智能語音平臺將成為下一個媒體行業(yè)激烈競逐的市場,這不僅將對智能語音平臺的發(fā)展起到關鍵性作用,更將對媒體行業(yè)的態(tài)勢產(chǎn)生深度影響。媒體應當在充分了解智能語音生態(tài)的基礎上,及時融入,與智能語音平臺攜手發(fā)展。
[1]科大訊飛推新版輸入法,1分鐘語音輸入400字.鈦媒體網(wǎng),http://www.tmtpost.com/nictation/3297926.html,2018-6-12.
[2]Mary Meeker:2016 Internet Trends Report,https://www.kleinerperkins.com/perspectives/2016-internet-trends-report,2016-3-31.
[3]Bret Kinsella:Amazon Alexa Skill Count Surpasses 30,000 in the U.S,https://voicebot.ai/2018/03/22/amazon-alexa-skill-count-surpasses-30000-u-s/,2018-3-22.
[4]智能語音作為快速崛起的人工智能入口,將會用到更多應用場景.搜狐網(wǎng),http://www.sohu.com/a/243417955_100190773,2018-7-26.
[5]尼古拉·尼葛洛龐帝.數(shù)字化生存[M]. 胡泳,范海燕 譯.北京:電子工業(yè)出版社,2017.
[6]國務院.新一代人工智能發(fā)展規(guī)劃[Z].2017-7-8.
(作者單位:朱飛虎 ,安徽師范大學新聞與傳播學院;徐康生, 安徽科大訊飛股份有限公司)
責編:姚少寶