【摘要】 隨著技術(shù)的發(fā)展,越來越多的新聞媒體希望通過先進(jìn)的技術(shù)來提高發(fā)稿數(shù)量,提升新聞服務(wù)質(zhì)量。美聯(lián)社已經(jīng)采用稿件自動生成軟件撰寫財經(jīng)、體育類稿件。本文研究了自動生成稿件所采用的關(guān)鍵技術(shù)、主要應(yīng)用模式及未來的應(yīng)用展望,并探討了此類技術(shù)在中文領(lǐng)域的實踐。
【關(guān)鍵詞】 自動生成稿件 智能語義分析 知識概念模型
隨著技術(shù)的發(fā)展,越來越多的新聞媒體希望通過先進(jìn)的技術(shù)來實現(xiàn)用機(jī)器取代人力,提高發(fā)稿數(shù)量,提升新聞服務(wù)質(zhì)量。 美聯(lián)社、彭博社、洛杉磯時報等媒體已經(jīng)在體育、財經(jīng)、天氣等領(lǐng)域?qū)崿F(xiàn)了“機(jī)器人寫新聞”。
一、關(guān)鍵技術(shù)
1.1數(shù)據(jù)抽取與挖掘技術(shù)
該技術(shù)對海量數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理、清洗,形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),通過對結(jié)構(gòu)化數(shù)據(jù)的抽取、計算及統(tǒng)計,根據(jù)模板實現(xiàn)自動寫稿功能。
1.2知識概念模型技術(shù)
利用該技術(shù)能夠?qū)π侣劯寮?、分析報告等作者進(jìn)行行為分析,從海量數(shù)據(jù)中抽取出記者、編輯、分析師在知識經(jīng)驗、思維邏輯、推理規(guī)則等方面的專家智慧,將專家智慧轉(zhuǎn)換成計算機(jī)能夠識別并處理的數(shù)據(jù),從而形成支持高效查詢、存儲管理,可用于挖掘分析的專家智慧數(shù)據(jù)。
1.3結(jié)合智能語義分析的大數(shù)據(jù)分析技術(shù)
該技術(shù)是結(jié)合語義計算等人工智能方法的綜合性技術(shù),將人對事物概念、事物間的關(guān)系、事物屬性的描述、事物間相互影響和影響的傳遞規(guī)則等形成一個框架,將自然語言的詞匯附著在這個框架上,二者結(jié)合就可以在文章中發(fā)現(xiàn)上述內(nèi)容并結(jié)構(gòu)化的抽取出來,也可以依據(jù)上述框架結(jié)合模板生成更加豐富的自然語言。依托專家智慧數(shù)據(jù)對海量數(shù)據(jù)進(jìn)行規(guī)?;幚恚7聦<业男袨樵诤A繑?shù)據(jù)中發(fā)現(xiàn)和挖掘有價值的信息并抽取出來,自動生成包括原因、結(jié)論、推測等深度內(nèi)容的新聞和報告,應(yīng)用范圍廣泛,不局限于財經(jīng)、體育等領(lǐng)域。隨著專家智慧數(shù)據(jù)的積累,逐漸形成超越個人的超級“大腦”,其分析結(jié)果的價值也會越來越高。
二、主要應(yīng)用現(xiàn)狀和展望
2.1利用高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)自動發(fā)稿
通過抓取、采購等形式獲取高質(zhì)量結(jié)構(gòu)化的數(shù)值型數(shù)據(jù),使用行業(yè)領(lǐng)域?qū)<姨峁┑挠嬎愎胶团袆e規(guī)則,在預(yù)先設(shè)置好的新聞模板中生成新聞或快訊,彭博社、洛杉磯時報也有類似的應(yīng)用,主要應(yīng)用于財經(jīng)、體育等能產(chǎn)生較為成熟的結(jié)構(gòu)化數(shù)據(jù)的領(lǐng)域。
2.2自動生成適應(yīng)多種媒介形式的稿件
對每篇新聞自動生成標(biāo)簽和200字以內(nèi)的摘要,并能夠?qū)⒏寮詣由蛇m用于網(wǎng)站、PAD、智能手機(jī)、短彩信等多種篇幅、多種格式的多篇稿件,在不增加人力成本的基礎(chǔ)上增加發(fā)稿數(shù)量和發(fā)稿形式。
2.3個性化自動生成稿件并推送
對用戶的閱讀內(nèi)容、閱讀習(xí)慣進(jìn)行行為分析挖掘,獲得用戶喜好,根據(jù)用戶自定義的標(biāo)簽及喜好,可以將同一篇稿件根據(jù)不同的喜好自動生成多篇不同報道角度、不同語言風(fēng)格、不同篇幅的稿件,為用戶推送個性化的新聞,提高新聞推送的精確性,有效增強(qiáng)用戶粘性。
2.4根據(jù)素材智能化生成稿件
將采訪獲得的錄音通過語音識別技術(shù)轉(zhuǎn)換成文字材料,將文字材料、背景資料等原始素材與某個記者的專家智慧數(shù)據(jù)相結(jié)合,由計算機(jī)自動生成符合該記者風(fēng)格的稿件,提高記者撰寫稿件的效率,提升報道的時效性。
三、在中文領(lǐng)域的實踐探討
1、利用結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)的自動發(fā)稿,主要依賴高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)、明確無誤的結(jié)構(gòu)化數(shù)據(jù)計算算法和公式以及新聞業(yè)務(wù)人員校對確認(rèn)過的模板,比較容易做到極高的自動新聞生成的準(zhǔn)確率和完全自動化。
2、在英文領(lǐng)域,自動新聞生成中的關(guān)鍵技術(shù)和方法日趨成熟,中文領(lǐng)域相關(guān)標(biāo)準(zhǔn)和技術(shù)由于中文的復(fù)雜度,不適合照搬英文領(lǐng)域的方法。目前中文領(lǐng)域智能化寫稿不太容易做到非常精準(zhǔn),但可以做到結(jié)論有依據(jù)、可解釋,這樣已經(jīng)足夠減輕記者、編輯工作強(qiáng)度,并提供足夠的規(guī)?;吒郊又敌畔⑸赡芰?。
四、結(jié)束語
“機(jī)器人寫新聞”是一系列技術(shù)的一個落地應(yīng)用,這些技術(shù)的核心價值是提供了一個專家智慧的持續(xù)積累方式,讓計算機(jī)處理大數(shù)據(jù)越來越智能。隨著技術(shù)的發(fā)展,高質(zhì)量的數(shù)據(jù)資產(chǎn)和智慧資產(chǎn)積累日益豐富,不僅能實現(xiàn)“機(jī)器人寫新聞”,還將會是深度報道、智庫及咨詢業(yè)務(wù)規(guī)?;_展的重要基礎(chǔ)。