邵德奇, 關(guān)培培, 石 聰
(科技日?qǐng)?bào)社 技術(shù)研發(fā)部,北京 100038)
互聯(lián)網(wǎng)的快速發(fā)展,特別是新媒體的發(fā)展,給傳統(tǒng)媒體帶來了巨大的挑戰(zhàn)。一是公眾的需求發(fā)生了變化。面對(duì)互聯(lián)網(wǎng)繁雜的海量信息,需要快速獲取主題信息,同時(shí)需要全面了解與主題內(nèi)容相關(guān)的信息,深度理解主題內(nèi)容的內(nèi)涵。二是媒體發(fā)展的需求發(fā)生了變化。近年來新媒體發(fā)展迅速,移動(dòng)端、微信、微博、抖音號(hào)、頭條號(hào)、百家號(hào)等新媒體對(duì)內(nèi)容呈現(xiàn)差異化的需求,新聞的傳播方式也不再是刻板、固定、一成不變的,而是越來越向連續(xù)、不間斷、實(shí)時(shí)更新的新型模式方向發(fā)展,媒體需求的這個(gè)變化對(duì)主題內(nèi)容的快速反應(yīng)要求更高。三是主題內(nèi)容建設(shè)的需求發(fā)生了變化。現(xiàn)在對(duì)于突發(fā)的重大事件,需要快速形成主題專欄內(nèi)容且需要對(duì)專欄內(nèi)容進(jìn)行全方位、實(shí)時(shí)、高效的維護(hù)更新,及時(shí)為受眾提供真實(shí)可靠的資訊,以便正確地引導(dǎo)輿論,避免謠言、錯(cuò)誤信息傳播引發(fā)不必要的恐慌。
為了解決上述問題,我們利用智能化信息技術(shù),實(shí)現(xiàn)主題內(nèi)容快速聚合,解決主題內(nèi)容的缺乏、主題專欄的快建和維護(hù)、聚合內(nèi)容的版權(quán)等媒體發(fā)展的痛點(diǎn)。本文通過大數(shù)據(jù)、AI等技術(shù)實(shí)現(xiàn)資訊內(nèi)容的智能主題聚合、精準(zhǔn)分類和特征提取,使資訊內(nèi)容智能化,通過智能算法實(shí)現(xiàn)精準(zhǔn)主題內(nèi)容制作與定制主題內(nèi)容的推送,從而實(shí)現(xiàn)內(nèi)容主題智能化聚合服務(wù)的目標(biāo)。
為了實(shí)現(xiàn)主題內(nèi)容的智能聚合,首先要建立相關(guān)領(lǐng)域的智能化資訊數(shù)據(jù)庫,通過分類、標(biāo)注、自動(dòng)聚類、深度學(xué)習(xí)等信息化技術(shù),將資訊內(nèi)容智能化,形成智能化資訊數(shù)據(jù)庫。在智能化資訊數(shù)據(jù)庫的基礎(chǔ)上,通過主題內(nèi)容定制與內(nèi)容加工,實(shí)現(xiàn)主題內(nèi)容聚合服務(wù)。主題內(nèi)容聚合平臺(tái)由基礎(chǔ)設(shè)施層、系統(tǒng)層、數(shù)據(jù)中心層和應(yīng)用層組成。其中,基礎(chǔ)設(shè)施層由服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、安全設(shè)備組成,系統(tǒng)層由操作系統(tǒng)、中間件、數(shù)據(jù)庫和虛擬化服務(wù)器組成,數(shù)據(jù)中心層由主題內(nèi)容采集接入系統(tǒng)、主題內(nèi)容智能處理系統(tǒng)、主題內(nèi)容知識(shí)加工系統(tǒng)、主題內(nèi)容數(shù)據(jù)管理系統(tǒng)4個(gè)系統(tǒng)組成,應(yīng)用層由智能主題內(nèi)容服務(wù)、主題內(nèi)容加工、主題內(nèi)容定制服務(wù)、主題內(nèi)容推送組成(如圖1所示)。
圖1 主題內(nèi)容聚合平臺(tái)系統(tǒng)架構(gòu)Fig.1 System architecture of subject content aggregation platform
數(shù)據(jù)中心層在主題內(nèi)容聚合平臺(tái)的構(gòu)建中起著至關(guān)重要的作用。數(shù)據(jù)中心層的任務(wù)為完成數(shù)據(jù)的聚合、語義分析、知識(shí)加工、大數(shù)據(jù)管理等功能,為上層應(yīng)用提供數(shù)據(jù)支持與算法能力。
1.1.1 主題內(nèi)容采集接入系統(tǒng) 主題內(nèi)容采集接入系統(tǒng)重點(diǎn)解決數(shù)據(jù)源的接入問題,針對(duì)多源異構(gòu)數(shù)據(jù)的接入,將推送數(shù)據(jù)進(jìn)行多源、多時(shí)態(tài)、多尺度的整合。主題內(nèi)容采集接入系統(tǒng)主要包括以下功能模塊。
1)數(shù)據(jù)接入和采集功能模塊。數(shù)據(jù)接入是指將已構(gòu)建的資訊數(shù)據(jù)接入進(jìn)來。數(shù)據(jù)接入服務(wù)功能可提供數(shù)據(jù)傳輸服務(wù),在統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)及存儲(chǔ)邏輯的基礎(chǔ)上,通過多種數(shù)據(jù)接入渠道,支持?jǐn)?shù)據(jù)文件、數(shù)據(jù)庫、表、字段及數(shù)據(jù)內(nèi)容片段的接入。實(shí)現(xiàn)對(duì)新聞、報(bào)刊、社交媒體、移動(dòng)客戶端、網(wǎng)站、公眾號(hào)等平臺(tái)的實(shí)時(shí)監(jiān)控和自動(dòng)采集,滿足對(duì)海量互聯(lián)網(wǎng)信息資源的快速獲取需求。
2)數(shù)據(jù)清洗和校驗(yàn)排重功能模塊。實(shí)現(xiàn)數(shù)據(jù)清洗功能,處理字段的殘缺、錯(cuò)誤和重復(fù)等數(shù)據(jù)問題。實(shí)現(xiàn)在接入數(shù)據(jù)時(shí)對(duì)數(shù)據(jù)進(jìn)行有效性檢驗(yàn)、數(shù)據(jù)質(zhì)量校驗(yàn)和過濾排重標(biāo)記等數(shù)據(jù)預(yù)處理工作,確保數(shù)據(jù)質(zhì)量。
3)標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換和校驗(yàn)功能模塊。對(duì)清洗之后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)將不同格式的數(shù)據(jù)按照統(tǒng)一數(shù)據(jù)格式規(guī)范轉(zhuǎn)換后接入系統(tǒng),包括實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)的標(biāo)準(zhǔn)化定義。
1.1.2 主題內(nèi)容智能處理系統(tǒng) 主題內(nèi)容智能處理系統(tǒng)通過大數(shù)據(jù)智能處理技術(shù)手段進(jìn)行自動(dòng)分詞、關(guān)鍵詞提取、信息分類、聚類等。重點(diǎn)解決數(shù)據(jù)的智能化問題,主要包括以下功能模塊。
1)自動(dòng)分詞功能模塊。提供基于融合了詞典和CRF1、HMM2分詞模型的文本自動(dòng)分詞功能,實(shí)現(xiàn)對(duì)文本的分詞操作,返回正確的處理結(jié)果。
2)關(guān)鍵詞提取功能模塊。提供文本的關(guān)鍵詞提取功能,利用文檔中詞語的統(tǒng)計(jì)信息、詞性和位置信息進(jìn)行權(quán)重的綜合計(jì)算,將文本中語義最相關(guān)的若干核心詞語抽取出來。
3)知識(shí)圖譜功能模塊。提供實(shí)體識(shí)別、事件抽取等功能,可以從半結(jié)構(gòu)化、結(jié)構(gòu)化的文本中識(shí)別出與目標(biāo)相關(guān)的實(shí)體與事件元素。
4)文本分類模塊。提供基于Word2vec3、BERT4算法的文本分類能力,可實(shí)現(xiàn)基于文本內(nèi)容語義的自動(dòng)抽取與分類功能。文本分類模塊協(xié)助構(gòu)建了基于相關(guān)領(lǐng)域的內(nèi)容分類體系,對(duì)于文本內(nèi)容打標(biāo)、主題內(nèi)容的快速形成、用戶畫像與用戶個(gè)性化推薦提供了關(guān)鍵支撐。
應(yīng)用于水產(chǎn)品加工、保鮮等過程中最重要,也最普遍的生物技術(shù)是酶工程技術(shù)。通過酶工程技術(shù)可以將原本低價(jià)值的水產(chǎn)品轉(zhuǎn)變成高附加值的產(chǎn)品,顯著提高了產(chǎn)品的經(jīng)濟(jì)效益。然而,水產(chǎn)品工業(yè)中酶的選擇取決于其成本、來源、反應(yīng)條件、穩(wěn)定性和對(duì)酶抑制劑或激活劑的敏感性等因素。大多數(shù)酶穩(wěn)定性差、對(duì)環(huán)境敏感,且來源受限,限制了其在水產(chǎn)品開發(fā)上的應(yīng)用前景。未來通過基因工程等技術(shù)改善酶的性質(zhì)和提高酶的產(chǎn)量將是酶開發(fā)的主要方向。相信隨著科技和社會(huì)的進(jìn)步,生物技術(shù)在水產(chǎn)品開發(fā)中的應(yīng)用將越來越廣泛。
5)稿件聚類模塊。提供基于新聞熱點(diǎn)、語義、新聞事件的文本聚類能力。通過熱點(diǎn)追蹤、事件識(shí)別、語義聚類等算法,自動(dòng)挖掘熱點(diǎn)新聞、系列事件新聞等,可快速地實(shí)現(xiàn)對(duì)突發(fā)大事件的新聞主題生成與追蹤報(bào)道。
6)熱詞分析功能模塊。在文本預(yù)處理的基礎(chǔ)上,提供候選熱詞評(píng)估、面向熱點(diǎn)表征的熱詞甄選等算法,利用多機(jī)數(shù)據(jù)交互技術(shù)智能分析出可以表征文本內(nèi)容的短語或短句。
1.1.3 大數(shù)據(jù)管理子系統(tǒng) 大數(shù)據(jù)管理子系統(tǒng)主要是解決數(shù)據(jù)的存儲(chǔ)管理、檢索服務(wù)與數(shù)據(jù)管理,主要包括以下功能模塊。
1)數(shù)據(jù)存儲(chǔ)功能模塊。數(shù)據(jù)存儲(chǔ)要求采用分布式存儲(chǔ)框架及分布式數(shù)據(jù)庫,提供大規(guī)模稀疏數(shù)據(jù)的存儲(chǔ)方案和技術(shù)方法,并實(shí)現(xiàn)大規(guī)模稀疏數(shù)據(jù)的有效存儲(chǔ)。
2)數(shù)據(jù)管理功能模塊。一是數(shù)據(jù)質(zhì)量管理。系統(tǒng)應(yīng)能夠?qū)φ麄€(gè)數(shù)據(jù)鏈路的數(shù)據(jù)質(zhì)量進(jìn)行管理,從數(shù)據(jù)的完整性、一致性、唯一性等多個(gè)層面輕松實(shí)現(xiàn)對(duì)數(shù)據(jù)的全面稽核和預(yù)警,提高數(shù)據(jù)使用質(zhì)量,指導(dǎo)決策者的決定。二是元數(shù)據(jù)管理。實(shí)現(xiàn)數(shù)據(jù)服務(wù)平臺(tái)全局的數(shù)據(jù)預(yù)覽,血緣分析和影響性分析,不同組織的數(shù)據(jù)共享以及系統(tǒng)數(shù)據(jù)的健康監(jiān)控。用戶可通過元數(shù)據(jù)分析直觀了解到數(shù)據(jù)的來源、數(shù)據(jù)之間的關(guān)系、數(shù)據(jù)流向、數(shù)據(jù)被引用次數(shù)等重要信息,便于用戶直觀地把握數(shù)據(jù)資產(chǎn)狀況。三是統(tǒng)一數(shù)據(jù)生命周期管理。系統(tǒng)應(yīng)提供數(shù)據(jù)的采集處理應(yīng)用和分析服務(wù)的各個(gè)階段,提供統(tǒng)一處理流程和中間狀態(tài)的調(diào)度、管理和監(jiān)控,主要是對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查和分析,定期形成報(bào)告,并管理質(zhì)量規(guī)則,使數(shù)據(jù)創(chuàng)建、獲取、加工、使用、維護(hù)的全流程質(zhì)量可控。四是資源調(diào)度與任務(wù)管理。數(shù)據(jù)服務(wù)平臺(tái)通過統(tǒng)一資源調(diào)度和任務(wù)管理,實(shí)現(xiàn)對(duì)所有計(jì)算和查詢等操作任務(wù)管理,實(shí)現(xiàn)對(duì)任務(wù)所需CPU、內(nèi)存和網(wǎng)絡(luò)等資源調(diào)度,保障所有任務(wù)平穩(wěn)、快速地運(yùn)行,狀態(tài)可監(jiān)控可管理。五是要求實(shí)現(xiàn)數(shù)據(jù)檢索功能。能夠?qū)ξ谋具M(jìn)行快速切詞,并采用多種索引技術(shù)和索引管理、校驗(yàn)技術(shù),完成對(duì)數(shù)據(jù)文本信息檢索。
3)上傳下載功能模塊。用戶可單個(gè)或批量上傳和下載稿件、圖片、視頻、主題內(nèi)容、音頻、pdf、word、PPT等資訊。一方面滿足各種數(shù)據(jù)接入管理、主題定制、資源上傳、數(shù)據(jù)統(tǒng)計(jì)等功能的交互要求,另一方面對(duì)數(shù)據(jù)接入管理的內(nèi)容、主題內(nèi)容定制的結(jié)果、資源上傳的結(jié)果進(jìn)行良好的展示。
1)知識(shí)標(biāo)注和任務(wù)管理功能模塊。通過知識(shí)圖譜技術(shù)實(shí)現(xiàn)知識(shí)的自動(dòng)抽取擴(kuò)充,支持機(jī)器自動(dòng)抽取與人機(jī)結(jié)合方式形成準(zhǔn)確的知識(shí)庫構(gòu)建,支持多人協(xié)同標(biāo)注;支持對(duì)主題內(nèi)容的屬性進(jìn)行標(biāo)注,例如資訊分類、關(guān)鍵詞、摘要等。提供知識(shí)條目級(jí)和屬性級(jí)的知識(shí)加工功能,實(shí)現(xiàn)標(biāo)注的具體要求與標(biāo)注內(nèi)容,支持協(xié)同標(biāo)注的任務(wù)分發(fā),對(duì)標(biāo)注任務(wù)實(shí)現(xiàn)全流程監(jiān)控與管理。在知識(shí)標(biāo)注的過程中,實(shí)現(xiàn)具備知識(shí)新鮮度的知識(shí)更新功能。
2)粗知識(shí)管理功能模塊。提供粗知識(shí)管理功能,系統(tǒng)支持已有粗知識(shí)的導(dǎo)入,以及導(dǎo)入粗知識(shí)的有效管理和協(xié)同標(biāo)注任務(wù)發(fā)布;支持已有結(jié)構(gòu)化知識(shí)的導(dǎo)入,對(duì)于用戶已有的結(jié)構(gòu)化知識(shí)需要導(dǎo)入到知識(shí)庫,與現(xiàn)有知識(shí)庫進(jìn)行融合。
3)知識(shí)庫管理功能模塊。對(duì)知識(shí)加工平臺(tái)實(shí)現(xiàn)系統(tǒng)的配置管理,包括知識(shí)庫標(biāo)注字段配置、用戶管理、關(guān)系管理、分類管理、關(guān)鍵詞管理。對(duì)知識(shí)標(biāo)注任務(wù)的結(jié)果實(shí)現(xiàn)導(dǎo)出,支持批量導(dǎo)出功能。
應(yīng)用層是主題內(nèi)容聚合平臺(tái)的應(yīng)用,包括智能主題內(nèi)容服務(wù)、主題內(nèi)容定制服務(wù)、主題內(nèi)容加工與主題內(nèi)容推送。平臺(tái)通過聚合、眾籌、創(chuàng)作、融合等智能化內(nèi)容生產(chǎn)方式,匯聚國內(nèi)外相關(guān)主題資訊,利用大數(shù)據(jù)、AI等技術(shù)實(shí)現(xiàn)資訊的“智能化”加工,利用知識(shí)圖譜、NLP等技術(shù)實(shí)現(xiàn)資訊的“智慧化”服務(wù)。
1.2.1 智能主題內(nèi)容服務(wù) 智能主題內(nèi)容服務(wù)使用事件識(shí)別、熱點(diǎn)識(shí)別等算法實(shí)現(xiàn)熱門事件內(nèi)容的自動(dòng)發(fā)現(xiàn)與捕捉功能。通過自動(dòng)聚類算法,匯聚主題內(nèi)容,自動(dòng)聚合、生產(chǎn)相近內(nèi)容主題。通過深度學(xué)習(xí)分類模型,構(gòu)建基于行業(yè)垂類的分類體系,智能計(jì)算稿件所屬類別,快速形成各領(lǐng)域?qū)谂c相關(guān)主題。
1.2.2 智能內(nèi)容定制服務(wù) 智能內(nèi)容定制服務(wù)支持用戶錄入相關(guān)條件(關(guān)鍵詞、來源、媒體類型、分類標(biāo)簽、屬性、發(fā)稿時(shí)間等),系統(tǒng)自動(dòng)啟動(dòng)數(shù)據(jù)匯聚工作,支持實(shí)時(shí)數(shù)據(jù)與歷史數(shù)據(jù)的匯聚,支持人工設(shè)定匯聚條件,包括是否去重、是否是可信源、匯聚條數(shù)、匯聚頻次等,提供主題內(nèi)容定制服務(wù)。
1.2.3 主題內(nèi)容加工 主題內(nèi)容加工提供主題內(nèi)容創(chuàng)建、修改、刪除、檢索等操作??梢凿浫胫黝}內(nèi)容標(biāo)簽、關(guān)鍵詞、起止時(shí)間、主題內(nèi)容文字描述等主題屬性數(shù)據(jù)??删S護(hù)主題中的稿件,按日期、分類進(jìn)行內(nèi)容加工。支持主題頁面生成模板,主題制作成功后平臺(tái)可實(shí)時(shí)顯示主題內(nèi)容列表與詳情。
1.2.4 主題內(nèi)容推送 主題內(nèi)容生產(chǎn)完后可推送至全媒體采編系統(tǒng)、網(wǎng)站發(fā)布系統(tǒng)、APP管理系統(tǒng)等其他平臺(tái)與系統(tǒng),可實(shí)現(xiàn)基于規(guī)定時(shí)間段的推送頻次。支持?jǐn)?shù)據(jù)查詢接口與推送接口,協(xié)助媒體各環(huán)節(jié)展開主題內(nèi)容定制工作。
青少年科普主題內(nèi)容庫是主題內(nèi)容智能化聚合平臺(tái)的應(yīng)用之一,是為了滿足青少年對(duì)科普資訊的個(gè)性化要求,建立的涵蓋不同科技主題的科普知識(shí)庫。
圖2 青少年科普主題內(nèi)容庫Fig.2 Youth popular science theme content database
如圖2所示,主題內(nèi)容數(shù)據(jù)庫為青少年科普平臺(tái)提供了基礎(chǔ)的數(shù)據(jù)支撐。圍繞青少年科普內(nèi)容需求,通過自動(dòng)分類、自動(dòng)聚類、事件識(shí)別、熱點(diǎn)識(shí)別等能力挖掘科普主題內(nèi)容。在此基礎(chǔ)上,通過使用關(guān)鍵詞、分類、熱點(diǎn)、事件等組合條件匯聚形成涵蓋定制內(nèi)容的青少年科普主題內(nèi)容庫。再通過主題內(nèi)容加工、推送等技術(shù)手段將主題內(nèi)容推送到中國科普網(wǎng)相關(guān)欄目與頻道中,實(shí)現(xiàn)自動(dòng)化主題內(nèi)容定制服務(wù)。
本文得到拓爾思信息技術(shù)有限公司的支持,在此謹(jǐn)表感謝。
安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年2期