文/ 佚 名
寫稿機(jī)器人
文/ 佚 名
2015年9月10日,一條標(biāo)題為《8月CPI漲2%創(chuàng)12個月新高》的新聞在騰訊財(cái)經(jīng)上發(fā)布。看上去,這條新聞的內(nèi)容和媒體記者日常的消息稿無異,引用了統(tǒng)計(jì)局的數(shù)據(jù),還加入了國家統(tǒng)計(jì)局城市司高級統(tǒng)計(jì)師余秋梅以及銀河證券等分析師對數(shù)據(jù)的分析和預(yù)測。但它背后的作者,其實(shí)是騰訊財(cái)經(jīng)開發(fā)的寫稿機(jī)器人 Dream Writer。
“機(jī)器人來搶記者飯碗了!”“記者們已哭暈”……寫稿機(jī)器人一時間引發(fā)業(yè)內(nèi)熱議。
“根據(jù)算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內(nèi)將重要資訊和解讀送達(dá)用戶。”當(dāng)時騰訊這樣描述自家的寫稿機(jī)器人。
距離寫稿機(jī)器人Dream Writer發(fā)出的第一篇新聞已有一年多的時間,媒體中陸續(xù)已有如第一財(cái)經(jīng)“DT稿王”、新華社“快筆小新”等機(jī)器人開始參與寫稿工作。
Dream Writer項(xiàng)目副總監(jiān)劉康對包括第一財(cái)經(jīng)在內(nèi)的媒體透露,目前財(cái)經(jīng)+科技應(yīng)用的發(fā)稿量超過2000篇/天,體育稿量500篇/天,包括每天行情報盤、上市公司公告精要報道,以及體育賽事每輪每場的消息。
不僅如此,基于寫稿機(jī)器人,騰訊內(nèi)部一款集合了新聞資訊類AI和超級資訊服務(wù)秘書類的應(yīng)用正在研發(fā)當(dāng)中。
之所以開發(fā)一款寫稿機(jī)器人,源自騰訊自己的“痛點(diǎn)”。
劉康回憶,當(dāng)時他所在的騰訊財(cái)經(jīng)頻道招了一批新人和實(shí)習(xí)生,大量的基礎(chǔ)工作、快速的稿件、財(cái)報、宏觀數(shù)據(jù)變動、板塊變動都需要快稿,這對新人來說既枯燥也辛苦?!八源蠹叶荚趩柲懿荒茏寵C(jī)器來做,這樣的話,我們富有創(chuàng)造力的新人可以把自己的精力留下來,做更有創(chuàng)造力的事情,這是我們做這件事情的起點(diǎn)?!?/p>
于是,從2014年12月開始籌劃并建立數(shù)據(jù)庫,到2015年3月正式啟動機(jī)器人寫作項(xiàng)目,經(jīng)過開發(fā)和測試約半年后,騰訊寫稿機(jī)器人Dream Writer于2015年9月正式上線。
事實(shí)上Dream Writer的團(tuán)隊(duì)僅有5個人,不過多個騰訊部門均被卷入Dream Writer工作中,參與搭建和底層支持。
在過去一年半的時間里,這支團(tuán)隊(duì)一直在低調(diào)運(yùn)作。Dream Writer一直在持續(xù)工作,尤其在奧運(yùn)會期間,Dream Writer產(chǎn)出內(nèi)容達(dá)3600余篇,其中第一塊金牌的新聞就是機(jī)器人寫的。
劉康表示,從文本的角度,機(jī)器寫作實(shí)現(xiàn)從0到1,是相對簡單的,例如,用技術(shù)團(tuán)隊(duì)簡單做一個財(cái)報系統(tǒng),或是給體育賽事做一個基本的描述這類模塊化的寫作,但是如何從1到3,讓機(jī)器人的稿子寫得有“人情味兒”、對細(xì)節(jié)描述更加到位和精彩,花費(fèi)了相當(dāng)多的精力。
以寫跳水新聞為例,這是一個評分制的比賽,評委對于走板、空中姿態(tài)、落水姿態(tài)、水花等等每個動作的打分,都有詳實(shí)的數(shù)據(jù)被記錄在數(shù)據(jù)庫里。接下來,這些數(shù)據(jù)會被騰訊通過一定的算法和機(jī)器自己的識別——先讓機(jī)器跑幾十萬篇的數(shù)據(jù),跑一個規(guī)則出來,它會自己把這些數(shù)據(jù)重新還原。因?yàn)槊恳粋€分?jǐn)?shù)都可以還原成一個動作,這樣通過一定的算法把它還原成原先的場面就變得可行。
其實(shí)競爭對手也有很聰明的寫稿機(jī)器人,不過對方的做法是抓直播間的描述,通過一定的算法和邏輯拼接成一篇文章,而騰訊寫稿機(jī)器人Dream Writer不一樣,是基于特別細(xì)顆?;臄?shù)據(jù)進(jìn)行還原。
“今天數(shù)據(jù)量非常細(xì),細(xì)到可以描述到每一個數(shù)據(jù)的顆粒還原?!眲⒖嫡f,“比如足球的一個動作怎么記進(jìn)數(shù)據(jù)庫里面,射門包括射偏、打中立柱、高出立柱……這些都可以用數(shù)據(jù)還原?!?/p>
而在寫稿機(jī)器人背后的核心技術(shù),主要涉及的有包括智能撰文技術(shù)、內(nèi)容抽取技術(shù)、要聞萃取技術(shù)這三項(xiàng)。目前騰訊已經(jīng)獲得相關(guān)專利。
以內(nèi)容抽取的技術(shù)為例,Dream Writer可以把一篇千字文章概括為數(shù)百字,其中涉及到統(tǒng)計(jì)學(xué)、深度學(xué)習(xí)等技術(shù)。在財(cái)經(jīng)領(lǐng)域,寫稿機(jī)器人更依賴統(tǒng)計(jì)學(xué),但在其他內(nèi)容領(lǐng)域,騰訊可能需要單獨(dú)研發(fā)一款算法產(chǎn)品模型。
此外,針對寫稿機(jī)器人所寫的稿件,騰訊成立了一個專門的安全管理平臺進(jìn)行內(nèi)容風(fēng)險管控:第一輪,機(jī)器寫作時會單獨(dú)做一個算法和規(guī)則判斷機(jī)器寫的有沒有問題;第二輪是經(jīng)過安全審核;第三輪才能正式推出來。這中間銜接時間越少,意味著出來的作品既準(zhǔn)確又迅速。
劉康透露,目前Dream Writer在財(cái)經(jīng)、科技、體育等領(lǐng)域的常規(guī)撰文、批量撰文已經(jīng)開發(fā)完成,這款寫稿機(jī)器人未來一年甚至更長的時間的工作重點(diǎn),主要在于持續(xù)進(jìn)行優(yōu)化文本,并且將內(nèi)容生產(chǎn)領(lǐng)域從目前的科技、財(cái)經(jīng)和體育擴(kuò)充到全品類,并不急于考慮商業(yè)化。
例如,在財(cái)經(jīng)領(lǐng)域新聞的寫作上,盡管目前寫稿機(jī)器人本身具備強(qiáng)算法規(guī)則和模型,但難度也不小,特別是對數(shù)據(jù)的解讀和認(rèn)知,甚至將來的預(yù)測。劉康坦言,如果希望Dream Writer寫得更深度,甚至將來要寫行業(yè)研報、垂直類深入的研究,目前仍需要再花時間深耕。
在劉康看來,寫稿機(jī)器人不會搶走記者的飯碗,而是希望Dream Writer能夠解放記者,讓記者從事更具挑戰(zhàn)和智慧的工作。“遠(yuǎn)遠(yuǎn)談不上取代(記者),我希望它始終是個助手,幫我整理資料,然后我來賦予它生命?!?/p>