9月,Google的NotebookLM“火”了。中文科技媒體的報道標題中充滿了“出圈”“爆火”“下一個ChatGPT”這樣的關鍵詞,仿佛這就是AI的終極形態(tài)。
看,我的同行們就是這樣的一驚一乍?!盎稹保窍鄬Χ?。按Google的說法,這個產(chǎn)品的日均用戶量在9月增長了10倍。據(jù)第三方機構(gòu)監(jiān)測,整個9月,NotebookLM大約有1000萬訪問量。
聽起來很多?折算一下,就是每天30萬次。ChatGPT每天訪問量在億級,人們還在擔憂它何時能跨越鴻溝、真正走向大眾,NotebookLM所謂的“火”,只能說是引起了AI從業(yè)者的關注而已。
所以,如果你沒有聽說過它,那太正常不過了。NotebookLM其實不是一個新產(chǎn)品,這是Google去年在全面應對ChatGPT時,和Gemini同步推出的一個試驗性產(chǎn)品,發(fā)布至今已經(jīng)一年多了。其最初的功能,是可以上傳文檔,然后針對文檔向AI提問,請AI根據(jù)文檔生成學習指南、提綱、自測題等。我一直覺得Google對NotebookLM不太認真,一個證據(jù)就是NotebookLM這個普通人很難理解的名字—我還以為正式發(fā)布的時候會換一個名字呢。至于產(chǎn)品本身的完成度,按我一位在Google工作的朋友的吐槽,看起來就像是大一新生的計算機課作業(yè)。
話又說回來,ChatGPT這個名字也沒有更好就是了。
但NotebookLM最新的功能的確讓人耳目一新。9月初,Google在NotebookLM中增加了一個名為“音頻概覽”的功能,可以根據(jù)你上傳的文檔生成一段類似播客的音頻,一男一女兩位“主播”會一唱一和,將你文檔中的內(nèi)容“聊”一遍。
就是這個功能引發(fā)了行業(yè)關注。我嘗試用不同的文章生成了一些播客,例如本專欄之前的作品,聽兩位“主播”對我自己寫的東西評頭論足,的確挺有趣的。它對我的啟發(fā)是將文本自動轉(zhuǎn)換為音頻,過去的思路局限在類似有聲書的朗讀上,微信公眾號現(xiàn)在就有這個功能。即使更進一步,比較容易想到的也是類似“七分鐘聽完一本書”這樣的聽書產(chǎn)品,重點在信息的濃縮提煉、節(jié)約時間上。NotebookLM將文本轉(zhuǎn)換成雙人對談的播客,在省略了大量原文中的細節(jié)的同時也注了許多水。兩位“主播”之間的互動,閑聊中夾雜的語氣詞、口頭禪,甚至故意插入一些可有可無的“觀點”和口水話……這些都沒有帶來新的信息量,卻讓人聽起來更加輕松。
在NotebookLM的這個功能發(fā)布之前,我們做過一個小嘗試,將閱覽室每天推薦的5篇文章錄制成一段大約10分鐘的播客。讀完這5篇文章需要的時間超過一小時。播客起的作用,既不是取代閱讀,也不是提升效率,而是幫助讀者用更輕松的方式來了解這些文章的大致內(nèi)容,引發(fā)他們的閱讀興趣。只是我們沒有使用AI生成,而是真實錄制的,因此每天更新的話制作成本有些高。
NotebookLM只支持英文。我花了一個小時,簡單嘗試了一下能否使用市面上現(xiàn)成的技術(shù)來實現(xiàn)類似的效果,遇到的主要困難是語音合成的效果還不夠自然。然后,我加入了一個研究如何復刻NotebookLM的群,里面竟然已經(jīng)有差不多300人在摩拳擦掌。
現(xiàn)狀似乎就是這樣。隔一小段時間,就會有一個類似NotebookLM這樣的海外產(chǎn)品引起國內(nèi)從業(yè)者的注意(上一個是Cursor),被稱贊為AI的終極形態(tài),然后所有人一窩蜂地跟進。這個模式在20年前的Web 2.0時代是非常讓人熟悉的,即所謂的“copy to China”。經(jīng)過這些年的發(fā)展,中國市場在社交、娛樂、電商、移動支付等很多應用領域在全球已經(jīng)遙遙領先,變成了“copy from China”。但面對AI這個最具革命性的技術(shù)趨勢時,我們還是回到了老的模 式。
實際上,早在今年5月,Google就在年度開發(fā)者大會Google I/O上展示過NotebookLM的這個新功能。當時展示的版本更加炫酷,聽眾甚至可以隨時插話、打斷兩位主播,加入到聊天之中。不過,當時演示的場景是幫助中學生學習物理,我的確沒有聯(lián)想到可以用在別的場景。這是這項功能真正發(fā)布、上手使用后我才得到的啟發(fā)。
這也說明產(chǎn)品真正上線的重要性。今年5月時,Google I/O的風頭有一點被OpenAI突然舉行的小型發(fā)布會(見6月刊本專欄)搶走,當時OpenAI展示了一個令人驚嘆的實時音視頻互動的能力。這個功能在最近終于上線了,買家秀和賣家秀效果差別巨大,令人失望。
只想到可以批量生成播客、上傳到小宇宙,就有些大材小用了。生成式AI真正的潛力是能為每個人制作獨一無二的個性化內(nèi)容。將內(nèi)容在不同媒介形式之間相互轉(zhuǎn)換,是生成式AI一個比較直接的應用。但我們不能僅從技術(shù)角度去探討不同的媒介形式,還需要理解不同媒介形式在人們?nèi)粘I钪兴鶟M足的不同場景—什么內(nèi)容適合讀,什么內(nèi)容適合聽?
就播客而言,我覺得沒有必要從非常概念的層面去探討播客的本質(zhì)是什么(這也許是傳播學學者的工作),重要的是去理解,“播客”在用戶的腦海中占據(jù)了哪個位置,用戶在想到“播客”時會想到什么。我認為,在中國市場,“播客”代表的其實是一種內(nèi)容質(zhì)量屬性,而不單純是一種媒介形式。這些內(nèi)容的核心受眾閱讀文字的動機和收聽播客的動機是類似的,只是媒介形式本身的特點會影響其使用的場景。
舉個例子,我們前幾年投資了播客廠牌聲動活潑,其旗下播客《聲動早咖啡》在小宇宙日常占據(jù)“最熱榜”第一名。這就不是一檔傳統(tǒng)的、長約1小時的對談節(jié)目,而是周一到周五每天更新、每期只有十多分鐘的商業(yè)資訊節(jié)iIjEFueyixeAGtWwt92fzg==目。每天在通勤路上通過音頻這種形式快速了解當天需要知道的資訊,同時也獲得一些和商業(yè)有關的新知識,這對許多人來說比閱讀文本更輕松自然。而且,這也能發(fā)揮播客不需要占據(jù)眼睛的優(yōu)勢。
當然,不是所有人都喜歡這么做,不同人對媒介形式有強烈的偏好,有些人喜歡用眼睛,有些人喜歡用耳朵。在從業(yè)者探索如何通過文本生成音頻、視頻的同時,市場上也有許多AI工具可以幫助用戶將播客、視頻轉(zhuǎn)化為文本,可謂形成閉環(huán)了。但人生下來就會用眼睛看東西,然后才學會聽和說;至于讀和寫,直到幾十年前還是少數(shù)人才能習得的能力。我們的確可以斷言,看視頻比聽音頻容易,聽音頻又比讀文本輕松。不可否認,閱讀需要耗費更多的腦力,但文字的效率、深度、準確性等優(yōu)勢仍然無法被取代,也有一部分人樂在其中。
內(nèi)容本身不同,適用的媒介形式也不同。簡單粗暴地將一種形式轉(zhuǎn)換成另一種格式,效果并不好。羅永浩老師的演講錄音聽起來讓人捧腹大笑,結(jié)集出版后,讀起來索然無味,很多訪談錄也是如此。一些需要深度思考的、難度較高的文本,朗讀出來幾乎無法被理解,但轉(zhuǎn)換成互動式的講解,也許就容易理解得多。過去,文本的一大優(yōu)勢是制作和傳輸成本低廉。隨著技術(shù)的進步,這些差距在逐步縮小。一些過去不得不由文本媒介承擔的場景,已經(jīng)被視頻、音頻等媒介形式接管。生成式AI會加速媒介形式自由轉(zhuǎn)換的過程,我對未來的想象,是同樣的內(nèi)容會根據(jù)每個人不同的背景知識、理解能力和偏好,有完全個性化的呈現(xiàn)。
雖然我自己喜歡閱讀,從事的工作也仍然聚焦在文本媒介上,但我并不認為這是問題。如果技術(shù)能用這種方式來降低更多信息的理解、接受門檻,對整個社會是有益的。另外,客觀理解事物變化的規(guī)律,也有助于我們更明確文本媒介在人們?nèi)粘I顖鼍爸袘敯缪莸慕巧?,理解文本的?yōu)勢在哪里,而不是盲目去和視頻、音頻競爭。
NotebookLM給我們演示了一種充滿想象力的可能性。不論它是否真的“火”了,Google至少也證明了自己有創(chuàng)新能力。Google CEO 桑達爾·皮查伊還特意在官方博客上“表揚”了NotebookLM—這樣一來,至少這個項目暫時不會說停就停了。
但正如前面所說,場景很重要。NotebookLM更多是為研究、學習而設計的,適用面有限。人和人之間的差異,除了對媒介形式的偏好,對“閱讀”的理解、閱讀習慣、閱讀目的都有很大區(qū)別。9月我參與了一次關于RSS閱讀器的討論(錄音在播客《亂翻書》),傳統(tǒng)的RSS閱讀器滿足的是“資訊狂人”不錯過任何信息的需求,這也是很不同的場景。閱讀小說也是很不同的場景,而閱覽室中最常見的是需要耐心閱讀的通識內(nèi)容。
所以,盡管NotebookLM給了我不小的啟發(fā),但我對于復制一個NotebookLM沒有任何的興趣。設想的場景不同,即使最后的關鍵詞都是“閱讀”,產(chǎn)品設計的差別也會很大。重要的,還是要結(jié)合自己對用戶的理解,從用戶的場景出發(fā),給出自己的答案,而不是盲目跟進。
當然,如果做不出來,一切都是廢話。