你愿意讀，還是愿意聽？

2024-11-24 00:00:00王俊煜

第一財經(jīng) 2024年11期

9月，Google的NotebookLM“火”了。中文科技媒體的報道標題中充滿了“出圈”“爆火”“下一個ChatGPT”這樣的關鍵詞，仿佛這就是AI的終極形態(tài)。

看，我的同行們就是這樣的一驚一乍?！盎稹保窍鄬Χ?。按Google的說法，這個產(chǎn)品的日均用戶量在9月增長了10倍。據(jù)第三方機構(gòu)監(jiān)測，整個9月，NotebookLM大約有1000萬訪問量。

聽起來很多？折算一下，就是每天30萬次。ChatGPT每天訪問量在億級，人們還在擔憂它何時能跨越鴻溝、真正走向大眾，NotebookLM所謂的“火”，只能說是引起了AI從業(yè)者的關注而已。

所以，如果你沒有聽說過它，那太正常不過了。NotebookLM其實不是一個新產(chǎn)品，這是Google去年在全面應對ChatGPT時，和Gemini同步推出的一個試驗性產(chǎn)品，發(fā)布至今已經(jīng)一年多了。其最初的功能，是可以上傳文檔，然后針對文檔向AI提問，請AI根據(jù)文檔生成學習指南、提綱、自測題等。我一直覺得Google對NotebookLM不太認真，一個證據(jù)就是NotebookLM這個普通人很難理解的名字—我還以為正式發(fā)布的時候會換一個名字呢。至于產(chǎn)品本身的完成度，按我一位在Google工作的朋友的吐槽，看起來就像是大一新生的計算機課作業(yè)。

話又說回來，ChatGPT這個名字也沒有更好就是了。

但NotebookLM最新的功能的確讓人耳目一新。9月初，Google在NotebookLM中增加了一個名為“音頻概覽”的功能，可以根據(jù)你上傳的文檔生成一段類似播客的音頻，一男一女兩位“主播”會一唱一和，將你文檔中的內(nèi)容“聊”一遍。

就是這個功能引發(fā)了行業(yè)關注。我嘗試用不同的文章生成了一些播客，例如本專欄之前的作品，聽兩位“主播”對我自己寫的東西評頭論足，的確挺有趣的。它對我的啟發(fā)是將文本自動轉(zhuǎn)換為音頻，過去的思路局限在類似有聲書的朗讀上，微信公眾號現(xiàn)在就有這個功能。即使更進一步，比較容易想到的也是類似“七分鐘聽完一本書”這樣的聽書產(chǎn)品，重點在信息的濃縮提煉、節(jié)約時間上。NotebookLM將文本轉(zhuǎn)換成雙人對談的播客，在省略了大量原文中的細節(jié)的同時也注了許多水。兩位“主播”之間的互動，閑聊中夾雜的語氣詞、口頭禪，甚至故意插入一些可有可無的“觀點”和口水話……這些都沒有帶來新的信息量，卻讓人聽起來更加輕松。

在NotebookLM的這個功能發(fā)布之前，我們做過一個小嘗試，將閱覽室每天推薦的5篇文章錄制成一段大約10分鐘的播客。讀完這5篇文章需要的時間超過一小時。播客起的作用，既不是取代閱讀，也不是提升效率，而是幫助讀者用更輕松的方式來了解這些文章的大致內(nèi)容，引發(fā)他們的閱讀興趣。只是我們沒有使用AI生成，而是真實錄制的，因此每天更新的話制作成本有些高。

NotebookLM只支持英文。我花了一個小時，簡單嘗試了一下能否使用市面上現(xiàn)成的技術(shù)來實現(xiàn)類似的效果，遇到的主要困難是語音合成的效果還不夠自然。然后，我加入了一個研究如何復刻NotebookLM的群，里面竟然已經(jīng)有差不多300人在摩拳擦掌。

現(xiàn)狀似乎就是這樣。隔一小段時間，就會有一個類似NotebookLM這樣的海外產(chǎn)品引起國內(nèi)從業(yè)者的注意（上一個是Cursor），被稱贊為AI的終極形態(tài)，然后所有人一窩蜂地跟進。這個模式在20年前的Web 2.0時代是非常讓人熟悉的，即所謂的“copy to China”。經(jīng)過這些年的發(fā)展，中國市場在社交、娛樂、電商、移動支付等很多應用領域在全球已經(jīng)遙遙領先，變成了“copy from China”。但面對AI這個最具革命性的技術(shù)趨勢時，我們還是回到了老的模式。

實際上，早在今年5月，Google就在年度開發(fā)者大會Google I/O上展示過NotebookLM的這個新功能。當時展示的版本更加炫酷，聽眾甚至可以隨時插話、打斷兩位主播，加入到聊天之中。不過，當時演示的場景是幫助中學生學習物理，我的確沒有聯(lián)想到可以用在別的場景。這是這項功能真正發(fā)布、上手使用后我才得到的啟發(fā)。

這也說明產(chǎn)品真正上線的重要性。今年5月時，Google I/O的風頭有一點被OpenAI突然舉行的小型發(fā)布會（見6月刊本專欄）搶走，當時OpenAI展示了一個令人驚嘆的實時音視頻互動的能力。這個功能在最近終于上線了，買家秀和賣家秀效果差別巨大，令人失望。

只想到可以批量生成播客、上傳到小宇宙，就有些大材小用了。生成式AI真正的潛力是能為每個人制作獨一無二的個性化內(nèi)容。將內(nèi)容在不同媒介形式之間相互轉(zhuǎn)換，是生成式AI一個比較直接的應用。但我們不能僅從技術(shù)角度去探討不同的媒介形式，還需要理解不同媒介形式在人們?nèi)粘Ｉ钪兴鶟M足的不同場景—什么內(nèi)容適合讀，什么內(nèi)容適合聽？

就播客而言，我覺得沒有必要從非常概念的層面去探討播客的本質(zhì)是什么（這也許是傳播學學者的工作），重要的是去理解，“播客”在用戶的腦海中占據(jù)了哪個位置，用戶在想到“播客”時會想到什么。我認為，在中國市場，“播客”代表的其實是一種內(nèi)容質(zhì)量屬性，而不單純是一種媒介形式。這些內(nèi)容的核心受眾閱讀文字的動機和收聽播客的動機是類似的，只是媒介形式本身的特點會影響其使用的場景。

舉個例子，我們前幾年投資了播客廠牌聲動活潑，其旗下播客《聲動早咖啡》在小宇宙日常占據(jù)“最熱榜”第一名。這就不是一檔傳統(tǒng)的、長約1小時的對談節(jié)目，而是周一到周五每天更新、每期只有十多分鐘的商業(yè)資訊節(jié)iIjEFueyixeAGtWwt92fzg==目。每天在通勤路上通過音頻這種形式快速了解當天需要知道的資訊，同時也獲得一些和商業(yè)有關的新知識，這對許多人來說比閱讀文本更輕松自然。而且，這也能發(fā)揮播客不需要占據(jù)眼睛的優(yōu)勢。

當然，不是所有人都喜歡這么做，不同人對媒介形式有強烈的偏好，有些人喜歡用眼睛，有些人喜歡用耳朵。在從業(yè)者探索如何通過文本生成音頻、視頻的同時，市場上也有許多AI工具可以幫助用戶將播客、視頻轉(zhuǎn)化為文本，可謂形成閉環(huán)了。但人生下來就會用眼睛看東西，然后才學會聽和說；至于讀和寫，直到幾十年前還是少數(shù)人才能習得的能力。我們的確可以斷言，看視頻比聽音頻容易，聽音頻又比讀文本輕松。不可否認，閱讀需要耗費更多的腦力，但文字的效率、深度、準確性等優(yōu)勢仍然無法被取代，也有一部分人樂在其中。

內(nèi)容本身不同，適用的媒介形式也不同。簡單粗暴地將一種形式轉(zhuǎn)換成另一種格式，效果并不好。羅永浩老師的演講錄音聽起來讓人捧腹大笑，結(jié)集出版后，讀起來索然無味，很多訪談錄也是如此。一些需要深度思考的、難度較高的文本，朗讀出來幾乎無法被理解，但轉(zhuǎn)換成互動式的講解，也許就容易理解得多。過去，文本的一大優(yōu)勢是制作和傳輸成本低廉。隨著技術(shù)的進步，這些差距在逐步縮小。一些過去不得不由文本媒介承擔的場景，已經(jīng)被視頻、音頻等媒介形式接管。生成式AI會加速媒介形式自由轉(zhuǎn)換的過程，我對未來的想象，是同樣的內(nèi)容會根據(jù)每個人不同的背景知識、理解能力和偏好，有完全個性化的呈現(xiàn)。

雖然我自己喜歡閱讀，從事的工作也仍然聚焦在文本媒介上，但我并不認為這是問題。如果技術(shù)能用這種方式來降低更多信息的理解、接受門檻，對整個社會是有益的。另外，客觀理解事物變化的規(guī)律，也有助于我們更明確文本媒介在人們?nèi)粘Ｉ顖鼍爸袘敯缪莸慕巧?，理解文本的?yōu)勢在哪里，而不是盲目去和視頻、音頻競爭。

NotebookLM給我們演示了一種充滿想象力的可能性。不論它是否真的“火”了，Google至少也證明了自己有創(chuàng)新能力。Google CEO 桑達爾·皮查伊還特意在官方博客上“表揚”了NotebookLM—這樣一來，至少這個項目暫時不會說停就停了。

但正如前面所說，場景很重要。NotebookLM更多是為研究、學習而設計的，適用面有限。人和人之間的差異，除了對媒介形式的偏好，對“閱讀”的理解、閱讀習慣、閱讀目的都有很大區(qū)別。9月我參與了一次關于RSS閱讀器的討論（錄音在播客《亂翻書》），傳統(tǒng)的RSS閱讀器滿足的是“資訊狂人”不錯過任何信息的需求，這也是很不同的場景。閱讀小說也是很不同的場景，而閱覽室中最常見的是需要耐心閱讀的通識內(nèi)容。

所以，盡管NotebookLM給了我不小的啟發(fā)，但我對于復制一個NotebookLM沒有任何的興趣。設想的場景不同，即使最后的關鍵詞都是“閱讀”，產(chǎn)品設計的差別也會很大。重要的，還是要結(jié)合自己對用戶的理解，從用戶的場景出發(fā)，給出自己的答案，而不是盲目跟進。

當然，如果做不出來，一切都是廢話。

第一財經(jīng)2024年11期

第一財經(jīng)的其它文章: 黃旺：一個人想得過于透徹，就不可能開啟行動; 今非昔比; 英國保守黨為何難免沒落; 游散之島：事仔、船塢、海員墓地與大造荔枝; 重新定義“珠光寶氣”：珠寶首飾行業(yè)市場新洞察; “不塌房”是主播的核心競爭力？

你愿意讀，還是愿意聽？

你愿意讀，還是愿意聽？