李鳳
本刊訊 一個叫「Xiaomingbot」的AI機(jī)器人,最近忙壞了。
里約奧運(yùn)會期間,AI機(jī)器人「Xiaomingbot」通過對接奧組委的數(shù)據(jù)庫信息,實(shí)時撰寫新聞稿件,以跟電視直播幾乎同時的速度發(fā)布稿件。據(jù)了解,Xiaomingbot主要報道乒乓球、網(wǎng)球、羽毛球和女足的比賽,在16天內(nèi)共發(fā)布奧運(yùn)新聞456篇簡訊和資訊。
Xiaomingbot是今日頭條實(shí)驗(yàn)室研發(fā)的AI機(jī)器人,可以通過兩種文本生成技術(shù)產(chǎn)出新聞:一是針對數(shù)據(jù)庫中表格數(shù)據(jù)和知識庫生成自然語言的比賽結(jié)果報道,即簡訊;二是利用體育比賽文字直播精煉合成比賽過程的總結(jié)報道,即資訊。
Xiaomingbot到底是什么來頭?
Xiaomingbot,是今日頭條實(shí)驗(yàn)室的研發(fā)成果,其「寫稿」模塊是由頭條實(shí)驗(yàn)室與北京大學(xué)計(jì)算所(萬小軍團(tuán)隊(duì))聯(lián)合研發(fā)而成。
李磊博士正在跟團(tuán)隊(duì)的小伙伴改良機(jī)器人算法。
這是國內(nèi)第一款可以報道奧運(yùn)賽事的人工智能機(jī)器人,在結(jié)合了最新的自然語言處理、機(jī)器學(xué)習(xí)和視覺圖像處理的技術(shù)之后,通過語法合成與排序?qū)W習(xí)生成新聞。頭條實(shí)驗(yàn)室負(fù)責(zé)人李磊博士介紹道,Xiaomingbot通過連接數(shù)據(jù)庫實(shí)時更新比賽信息,搜集相關(guān)選手背景信息,根據(jù)比賽規(guī)則判斷比賽進(jìn)程,進(jìn)而生成文本,自動配選圖片,最后潤色完成報道。機(jī)器人可根據(jù)比賽的總比分、每節(jié)比分情況以及比賽的不同項(xiàng)目、不同狀態(tài),生成不同的短訊和長文比賽詳情描述。
相比國內(nèi)第一代寫稿機(jī)器人——騰訊的 「Dreamwriter」和第一財(cái)經(jīng)的「DT稿王」,Xiaomingbot的寫稿技術(shù)已經(jīng)進(jìn)入第二代寫稿水平。與第一代機(jī)器人相比 ,Xiaomingbot特征顯著:
1. 速度快 數(shù)據(jù)庫數(shù)據(jù)更新的2秒之內(nèi),即可生成新聞稿并完成發(fā)布。2秒的時間包含了從生成、提交到頭條號「奧運(yùn)AI小記者Xiaomingbot」發(fā)布、通過頭條的推薦算法機(jī)制分發(fā)推薦給用戶的整個過程。
2. 樣式多 既可以生成長的詳細(xì)比賽描述總結(jié),也可以生成簡明扼要的快訊簡報,以前的自動體育新聞只能生成較短的文章。
3. 自適應(yīng) 根據(jù)比賽選手的排名,賽前預(yù)測與實(shí)際賽果的差異,比分懸殊程度,可以自動調(diào)整生成新聞的語氣,并使用感情色彩的詞語,如實(shí)力不俗、笑到了最后等。
4. 自動配圖 以前的自動新聞都只能生成文本,通過自動選圖技術(shù),Xiaomingbot可以給新聞配圖,更加生動形象。
能做到這些,頭條實(shí)驗(yàn)室給Xiaomingbot的寫稿模塊使用了3種核心技術(shù):一種是通過概率文法生成文章,也就是說這個機(jī)器人生成的句子會有完整語法結(jié)構(gòu),有主語、謂語、賓語、時間、人物、地點(diǎn)等要素,同時不拘泥于一種形式來描述比賽,會有變化;另一種是通過排序?qū)W習(xí)算法決定一場比賽新聞描述中需要選擇什么樣的句子,重要的句子才會在新聞里出現(xiàn);還有一種是在技術(shù)上不算特別難,卻非常重要的比賽邏輯判斷,可根據(jù)每種項(xiàng)目不同的比賽規(guī)則來判斷比賽的激烈程度和比賽進(jìn)程如是否結(jié)束、是否中間退出比賽等。
據(jù)了解,目前在做奧運(yùn)報道的機(jī)器人只有兩家——《華盛頓郵報》的「Heliograf」和今日頭條的頭條實(shí)驗(yàn)室「Xiaomingbot」。
Xiaomingbot并非想取代記者。相反,新聞機(jī)器人是記者的助手,可以幫助記者更高效的完成新聞報道工作。頭條實(shí)驗(yàn)室負(fù)責(zé)人李磊博士說道。
Xiaomingbot最大的意義在于,面對奧運(yùn)會這樣同時舉行上百場比賽的綜合賽事,記者很難關(guān)注到每一場比賽,而機(jī)器人可以任勞任怨的為每一場比賽報道,無論這場比賽多么冷門和不重要。傳統(tǒng)新聞理論并不認(rèn)為這些冷門比賽或者熱門比賽(比如乒乓球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發(fā)現(xiàn)對冷門場次的報道仍然有可觀的閱讀量,這個閱讀量非常長尾,而新聞機(jī)器人可以彌補(bǔ)對這種長尾的新聞需求。