■徐楨虎
最近幾年,技術(shù)賦能在新聞?lì)I(lǐng)域的土壤里蓬勃生長(zhǎng),已經(jīng)逐漸形成了當(dāng)前人工智能應(yīng)用的一個(gè)重要分支。目前在新聞?lì)I(lǐng)域,人工智能技術(shù)應(yīng)用尚處于初級(jí)階段,即“弱人工智能時(shí)代”,應(yīng)用側(cè)重點(diǎn)聚焦在提升效率上,是對(duì)新聞的“策采編審發(fā)”生產(chǎn)環(huán)節(jié)中重復(fù)性較高的人力勞動(dòng)的替代。較為常用的人工智能應(yīng)用包括:通過全網(wǎng)監(jiān)控?zé)狳c(diǎn)來篩選新聞選題,利用抓取技術(shù)獲取及時(shí)的全網(wǎng)信息,進(jìn)行各種類型的快訊機(jī)器寫稿,算法實(shí)現(xiàn)自動(dòng)審核校對(duì),借助個(gè)性化推薦實(shí)現(xiàn)內(nèi)容精準(zhǔn)分發(fā)等。
封面新聞早在2015年就投入人工智能技術(shù)的媒體應(yīng)用研究,經(jīng)過5年時(shí)間與實(shí)際業(yè)務(wù)的磨合,逐漸摸索出一套適合主流媒體應(yīng)用的算法模型。封面新聞推出的主流媒體算法包括內(nèi)容質(zhì)量、內(nèi)容分發(fā)、內(nèi)容傳播、內(nèi)容生產(chǎn)四大類算法模型,已經(jīng)在各個(gè)業(yè)務(wù)場(chǎng)景中穩(wěn)定運(yùn)行。
內(nèi)容分發(fā)算法以App應(yīng)用為主要載體,包括推薦算法、相關(guān)新聞算法、搜索算法等。其中推薦算法一直處于輿論的討論熱點(diǎn)中。在目前主流的推薦算法中,用戶的內(nèi)容閱讀習(xí)慣將成為內(nèi)容推薦的主要指標(biāo),個(gè)性化內(nèi)容推送讓用戶過濾掉不感興趣的信息內(nèi)容,這無形間影響了用戶對(duì)于信息內(nèi)容的自主選擇,導(dǎo)致用戶對(duì)于信息接觸面越來越狹隘、單一和固化,形成“信息繭房”效應(yīng)①。用戶一旦身處其中,就會(huì)滿足于被動(dòng)的知識(shí)積累,很難再接受不同的觀點(diǎn),甚至在不同群體間造成溝通阻礙。2019年12 月20 日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了第5 號(hào)令《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》②,其中針對(duì)當(dāng)前網(wǎng)絡(luò)信息內(nèi)容服務(wù)平臺(tái)采用個(gè)性化算法推薦技術(shù)推送信息所帶來的問題,給出了一套全新的解決方案。即將算法推薦模型+人工干預(yù)+用戶自主選擇三者進(jìn)行有機(jī)結(jié)合,旨在構(gòu)建一個(gè)具備整體性、群體性以及個(gè)體性的網(wǎng)絡(luò)信息內(nèi)容生態(tài),實(shí)現(xiàn)信息內(nèi)容的高度和寬度。
隨之而來的問題是,傳統(tǒng)媒體通常并不具有高水平的技術(shù)團(tuán)隊(duì)進(jìn)行算法研發(fā),而互聯(lián)網(wǎng)資訊平臺(tái)又不具有傳統(tǒng)媒體那么強(qiáng)的信息安全敏銳性和內(nèi)容生產(chǎn)專業(yè)性,因此適合于主流媒體的推薦算法并沒有在很大程度上達(dá)成共識(shí)。封面新聞現(xiàn)在應(yīng)用的主流媒體推薦算法,經(jīng)過了多個(gè)版本的迭代,在封面新聞App6.0 上線的為最新版本。其推薦策略與《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》的要求高度一致,即將“算法推薦模型+人工干預(yù)+用戶自主選擇”三者有機(jī)結(jié)合生成實(shí)時(shí)推薦流,確保內(nèi)容的范圍、尺度可控,同時(shí)更加突出正能量信息和主流價(jià)值觀。
首先是健全人工干預(yù)機(jī)制。保證信息內(nèi)容的多樣化,在推薦信息流中增加內(nèi)容綠區(qū)和電子圍欄,增加媒體原創(chuàng)稿件和重大事件的曝光權(quán)重,限制低質(zhì)量UGC 內(nèi)容(用戶生產(chǎn)內(nèi)容)進(jìn)入推薦頻道,保證主流價(jià)值引導(dǎo),同時(shí)也能夠彌補(bǔ)算法無法判斷信息內(nèi)容所體現(xiàn)的價(jià)值傾向的弊端。人工干預(yù)機(jī)制的健全,對(duì)于算法偏見和主流媒體自身內(nèi)容生產(chǎn)的優(yōu)化也能起到重要作用。同時(shí)業(yè)務(wù)部門通過對(duì)推薦頻道各類型新聞的發(fā)稿量、曝光率、閱讀轉(zhuǎn)化率等指標(biāo)進(jìn)行數(shù)據(jù)分析、針對(duì)性的內(nèi)容補(bǔ)充和算法策略優(yōu)化,以達(dá)到用戶獲取信息多樣性的目的。
其次是建立用戶自主選擇機(jī)制。強(qiáng)化用戶的自我決定和主觀能動(dòng)性,防止人類成為算法的奴隸。傳統(tǒng)的推薦算法僅僅是在用戶第一次使用App時(shí),采用冷啟動(dòng)的方式讓用戶進(jìn)行興趣選擇。依托封面新聞的用戶分析模型,用戶不僅能實(shí)時(shí)看到個(gè)人的興趣標(biāo)簽畫像,同時(shí)還能以可交互的方式自主選擇內(nèi)容興趣及其權(quán)重,選擇結(jié)果會(huì)通過系統(tǒng)分析計(jì)算并實(shí)時(shí)生效。想要實(shí)現(xiàn)用戶自主選擇機(jī)制,前提是要構(gòu)建一個(gè)完善的用戶標(biāo)簽系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù),以支撐對(duì)于用戶個(gè)性化的服務(wù)應(yīng)用。
最后是優(yōu)化個(gè)性化算法推薦機(jī)制。個(gè)性化的算法推薦,依然是推薦系統(tǒng)中不可缺少的一部分。封面的推薦算法由用戶興趣分析、用戶場(chǎng)景分析、新聞內(nèi)容分析、行為實(shí)時(shí)計(jì)算、新聞推薦召回五大模塊構(gòu)成,采用算法包括:基于用戶興趣標(biāo)簽的tag 算法,基于協(xié)同過濾的CF 算法,以及基于NLP 的召回算法等。個(gè)性化推薦的流程主要包含三層邏輯,第一層是內(nèi)容召回,主要看重新聞內(nèi)容特征的應(yīng)用和搜索排序,對(duì)于文本、視頻的標(biāo)簽編目是核心;第二層是興趣召回,主要根據(jù)第一層的排序結(jié)果,再與用戶的行為特征信息進(jìn)行匹配;第三層主要是敏感信息的過濾,包括黑白名單以及文章分類的權(quán)重的判定,通過內(nèi)容質(zhì)量算法模型提供支撐。
對(duì)于內(nèi)容分發(fā)來說,推薦算法是核心,而相關(guān)新聞算法和搜索算法中不僅應(yīng)用到推薦的部分算法策略和具體技術(shù),也應(yīng)用了內(nèi)容質(zhì)量、內(nèi)容傳播的一些基礎(chǔ)算法。
內(nèi)容質(zhì)量算法以智能化內(nèi)容生產(chǎn)系統(tǒng)“封巢”為主要載體,包括熱點(diǎn)聚合算法、內(nèi)容審核算法、新聞標(biāo)簽算法、價(jià)值判斷算法等。
熱點(diǎn)聚合算法通過對(duì)全網(wǎng)數(shù)據(jù)的抓取和分析,進(jìn)行實(shí)時(shí)熱點(diǎn)的判斷。我們已經(jīng)建立了全網(wǎng)抓取平臺(tái),通過實(shí)時(shí)監(jiān)測(cè)匯聚網(wǎng)站、微信、微博、論壇社區(qū)等各大媒體平臺(tái)內(nèi)容大數(shù)據(jù),現(xiàn)已經(jīng)支持超過1000 個(gè)國(guó)內(nèi)主流媒體的圖文、視頻源采集??勺鳛檩浨樾畔R集、區(qū)域資訊同步、記者編輯素材,支持二次編輯或自動(dòng)發(fā)布,同時(shí)支持將采集資源進(jìn)行敏感詞、重復(fù)度等策略過濾。結(jié)合實(shí)時(shí)采集的多平臺(tái)熱榜熱點(diǎn)進(jìn)行分析,為編輯提供熱點(diǎn)選題參考。
內(nèi)容審核算法包括文本審核、圖片審核、視頻審核三部分,主要是通過針對(duì)網(wǎng)絡(luò)抓取、UGC 內(nèi)容上傳、記者采集等內(nèi)容源進(jìn)行AI 智能審核,通過深度學(xué)習(xí)技術(shù)自動(dòng)完成文本和視頻的理解并反饋是否存在涉黃、恐暴、涉政嫌疑,同時(shí)可對(duì)視頻質(zhì)量進(jìn)行判斷,幫助后臺(tái)編輯快速定位需加強(qiáng)審核的片段,提高審核效率。同時(shí)在封巢系統(tǒng)的內(nèi)容審核流程中加入了標(biāo)注功能,內(nèi)容審核算法可以進(jìn)行識(shí)別準(zhǔn)確度的自學(xué)習(xí)和迭代升級(jí)。
新聞標(biāo)簽算法更多是作為基礎(chǔ)算法應(yīng)用到內(nèi)容分發(fā)中,海量的內(nèi)容如何分發(fā)給目標(biāo)用戶,光靠人工肯定不現(xiàn)實(shí),必須要給新聞打上標(biāo)簽,對(duì)于最近流行的短視頻更是需要進(jìn)行精準(zhǔn)的標(biāo)簽編目。解決問題的核心就是新聞實(shí)體標(biāo)簽?zāi)P秃皖I(lǐng)域知識(shí)圖譜的構(gòu)建,主要包括人物、地點(diǎn)、組織機(jī)構(gòu)三大類實(shí)體。一方面新聞標(biāo)題和正文中的實(shí)體存在大量的歧義現(xiàn)象,無論在詞法層次、句法層次,還是在語義層次和語用層次。另一方面,互聯(lián)網(wǎng)新的詞匯(新的人名、地名、組織機(jī)構(gòu)名和專用詞匯)每一天都在不斷出現(xiàn),尤其在微博、B 站等90 后、00 后使用較多的互聯(lián)網(wǎng)產(chǎn)品中,稀奇古怪的新詞和語句結(jié)構(gòu)更是司空見慣,如何在內(nèi)容分發(fā)中理解這些內(nèi)容并分發(fā)給用戶是需要媒體進(jìn)行深入研究的。除了要有編輯專門對(duì)熱搜進(jìn)行追蹤,人工智能算法能起到輔助作用。需要應(yīng)用到的研究技術(shù)包括了圖文視頻信息抽取、命名實(shí)體識(shí)別、實(shí)體消歧、三元組構(gòu)建等,在推薦系統(tǒng)、搜索、相關(guān)新聞、用戶興趣標(biāo)簽等業(yè)務(wù)場(chǎng)景都有用武之地。
內(nèi)容傳播算法主要包括媒體區(qū)塊鏈算法、用戶分析算法、輿情分析算法等,這部分的算法通常都不是獨(dú)立的算法模型,而是由多個(gè)基礎(chǔ)算法整合應(yīng)用到具體的業(yè)務(wù)場(chǎng)景中。
比如媒體區(qū)塊鏈算法是由智能合約算法、共識(shí)算法、哈希算法、公鑰密碼算法等基礎(chǔ)算法組成,目前應(yīng)用在封面?zhèn)髅阶灾餮邪l(fā)的區(qū)塊鏈數(shù)字內(nèi)容版權(quán)存證系統(tǒng)里。每一篇記者創(chuàng)作的原創(chuàng)稿件,發(fā)布即“上鏈”,并生成獨(dú)一無二的存證證書,可以在封面新聞App的新聞詳情頁看到實(shí)時(shí)上鏈信息。在當(dāng)前媒體行業(yè)中,數(shù)據(jù)的共享交換往往是個(gè)難題,直接開放自己的數(shù)據(jù)庫(kù)會(huì)帶來安全隱患,開放接口服務(wù)又需要自己去維護(hù)繁瑣的權(quán)限關(guān)系,目前主流的爬蟲方式面臨穩(wěn)定、法律限制等諸多因素的影響。在基于區(qū)塊鏈數(shù)字內(nèi)容版權(quán)存證系統(tǒng)的聯(lián)盟鏈中,聯(lián)盟各成員只需要經(jīng)過授權(quán)就可實(shí)時(shí)獲取其他節(jié)點(diǎn)的數(shù)據(jù),極大地降低了數(shù)據(jù)共享成本和復(fù)雜性。
用戶分析算法主要應(yīng)用于用戶閱讀行為研究,應(yīng)用到的算法包括相關(guān)分析、對(duì)應(yīng)分析、聚類分析、因子分析等。我們建立了智能分析云系統(tǒng),通過對(duì)用戶分類分層、事件漏斗、閱讀偏好、用戶行為路徑等各個(gè)維度提供日常數(shù)據(jù)分析能力和自動(dòng)生成報(bào)表。利用數(shù)據(jù)輔助App精準(zhǔn)運(yùn)營(yíng)。不僅支持對(duì)App用戶閱讀興趣、個(gè)人偏好、觀看時(shí)長(zhǎng)、點(diǎn)評(píng)贊等互動(dòng)信息的數(shù)據(jù)分析,提供新增用戶、用戶留存率、用戶活躍度、使用時(shí)段等維度的數(shù)據(jù)分析功能,還能夠提供對(duì)圖文、視頻、發(fā)布量、發(fā)布渠道內(nèi)容傳播情況等多維度的數(shù)據(jù)分析。
體育教學(xué)并不是一種“副課”,其本身的教學(xué)有著其他學(xué)科無法替代的作用。初中體育教師應(yīng)當(dāng)對(duì)體育教學(xué)有著正確的理解,同時(shí)在評(píng)價(jià)上還應(yīng)當(dāng)做到客觀性與科學(xué)性,讓評(píng)價(jià)深入學(xué)生的內(nèi)心,保障初中體育的教學(xué)成果。
作為主流新聞媒體來說,輿情分析算法是非常有必要的。通過全網(wǎng)抓取平臺(tái)對(duì)全網(wǎng)信息進(jìn)行監(jiān)測(cè),當(dāng)互聯(lián)網(wǎng)上有與話題相關(guān)的輿情產(chǎn)生時(shí)能及時(shí)發(fā)現(xiàn),對(duì)這些輿情信息進(jìn)行分析。具體可以從時(shí)間、情感、網(wǎng)友討論度、主題等幾個(gè)方面入手進(jìn)行分析,并以此來了解輿情的情感傾向。應(yīng)用到的基礎(chǔ)算法包括分類聚類、線性和非線性、時(shí)間序列以及決策樹等。
內(nèi)容生成算法主要包括機(jī)器寫作算法、視頻生成算法、文本生成算法等。傳統(tǒng)媒體在轉(zhuǎn)型過程中的另外一大問題是原創(chuàng)生產(chǎn)內(nèi)容效率不夠?,F(xiàn)在這個(gè)信息爆炸的時(shí)代,用戶注意力不再像以前紙媒時(shí)代那樣集中,如果媒體還是以以前的內(nèi)容生產(chǎn)方式來做新聞App,生產(chǎn)內(nèi)容的量級(jí)是遠(yuǎn)遠(yuǎn)滿足不了用戶的需求的。而UGC 平臺(tái)的大部分流量都被頭條、騰訊幾家頭部互聯(lián)網(wǎng)平臺(tái)所占據(jù),再加上自媒體的興起,所以在原創(chuàng)內(nèi)容生產(chǎn)上主流媒體也要擁抱人工智能技術(shù)。
利用機(jī)器撰寫時(shí)效性要求高、強(qiáng)調(diào)客觀事實(shí)的新聞快訊,能在時(shí)效性和產(chǎn)出量同時(shí)得到保證,從而使有限的人力資源能夠投入到更加專業(yè)深度的報(bào)道中去。除了在報(bào)道質(zhì)量上能滿足要求之外,機(jī)器寫作的主要優(yōu)勢(shì)在于極大地提升了新聞產(chǎn)出的效率。生成一篇新聞耗時(shí)短,可同時(shí)生成多篇新聞,機(jī)器寫作已經(jīng)幫助新聞生產(chǎn)掙脫時(shí)間和人力的桎梏。并且技術(shù)進(jìn)步正在逐步實(shí)現(xiàn)機(jī)器人進(jìn)行基于理解的新聞創(chuàng)作。語法分析使語言流暢,深度學(xué)習(xí)能夠自適應(yīng)多種場(chǎng)景、更多信息粒度和維度構(gòu)建的知識(shí)圖譜、多樣化的輸出形式。
封面新聞從2016 年開始試水機(jī)器寫作,現(xiàn)在自研的AI 自動(dòng)化寫作平臺(tái)每月寫稿量已超過50000 篇,包括文本和視頻兩種類型,寫稿的領(lǐng)域涉及到體育、財(cái)經(jīng)、生活、科技等10 大類40 多個(gè)小類。頻道采用機(jī)器輔助編輯管理,實(shí)現(xiàn)了全國(guó)范圍內(nèi)新聞內(nèi)容的自動(dòng)抓取、地理定位、智能分發(fā)。并將這些新聞接入聊天機(jī)器人語料、語音查詢功能、個(gè)性化推薦定制化寫作等多種交互渠道中去。
在業(yè)內(nèi)提出了“主流算法”的基礎(chǔ)上,封面新聞進(jìn)一步把主流媒體算法的概念進(jìn)行了豐富和完善。在應(yīng)用路徑上,需要從以下四個(gè)維度執(zhí)行算法實(shí)踐的具體工作:
明確能力模型,也就是對(duì)算法本身要達(dá)到的應(yīng)用能力的要求。明確哪些算法能力是需要完全自主研發(fā),哪些能力是自身不具備可以通過先合作共建,后期再學(xué)習(xí)借鑒的。
明確產(chǎn)品化制定,也就是對(duì)算法在業(yè)務(wù)中的實(shí)際應(yīng)用場(chǎng)景要制定詳細(xì)的方案,有了明確的規(guī)劃并要在具體的工作安排中同步推進(jìn)情況。
明確評(píng)估體系,也就是對(duì)算法效果要有相應(yīng)的評(píng)估標(biāo)準(zhǔn),才能找準(zhǔn)升級(jí)優(yōu)化的重點(diǎn)。包括曝光率、點(diǎn)擊率、召回率等,都需要明確每次算法迭代時(shí)需要提升的指標(biāo),量化算法的效果。
扎扎實(shí)實(shí)走好這四步,主流媒體算法的構(gòu)建與應(yīng)用工作才能落到實(shí)處,這也絕不是一個(gè)短期內(nèi)就能完成的項(xiàng)目,需要長(zhǎng)時(shí)間在業(yè)務(wù)場(chǎng)景的實(shí)踐。以具有價(jià)值觀判斷的主流媒體算法為核心,貫穿內(nèi)容質(zhì)量、內(nèi)容分發(fā)、內(nèi)容傳播、內(nèi)容生成這四大場(chǎng)景,這也是我們目前正在做的事情。其中智能推薦、搜索、內(nèi)容審核等算法場(chǎng)景已經(jīng)應(yīng)用到多個(gè)對(duì)外輸出項(xiàng)目中。
注釋:
①《國(guó)家網(wǎng)信辦新規(guī)如何規(guī)范“算法推薦”?解讀來了!》,https://m.sohu.com/a/361830154_181884/?pvid=000115_3w_a。
②國(guó)家網(wǎng)信辦發(fā)布第5 號(hào)令《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》,http://www.cac.gov.cn/2019-12/20/c_1578375159509309.htm。