全媒體文字智能檢測(cè)解決方案
——關(guān)鍵詞檢測(cè)系統(tǒng)解析

2019-03-20 16:05:53王菲達(dá)

傳媒論壇 2019年15期

王菲達(dá)

（上海文化廣播影視集團(tuán)有限公司技術(shù)運(yùn)營(yíng)中心，上海 200041）

一、前言

在媒體積極變革融合的大背景下，新聞生產(chǎn)過(guò)程中對(duì)正確性、權(quán)威性提出了更高要求。因此，關(guān)鍵內(nèi)容的準(zhǔn)確性，成為了在新聞生產(chǎn)環(huán)節(jié)過(guò)程中至關(guān)重要的一環(huán)。

上海廣播電視臺(tái)作為一個(gè)飛速發(fā)展的全媒體機(jī)構(gòu)更需要追求內(nèi)容的準(zhǔn)確性。其內(nèi)容生產(chǎn)業(yè)務(wù)流程仍以嚴(yán)格的人工審核為主，輔以新時(shí)代智媒體作為生產(chǎn)工具，力求內(nèi)容生產(chǎn)的快速、高效、嚴(yán)謹(jǐn)。而關(guān)鍵詞檢測(cè)系統(tǒng)作為輔助工具，可以強(qiáng)化各環(huán)節(jié)文字準(zhǔn)確性的審查力度。

二、總體目標(biāo)

本文從目前正在使用的主流非編制播系統(tǒng)（索貝非編制播系統(tǒng)）入手，開(kāi)發(fā)關(guān)鍵詞檢測(cè)軟件，對(duì)電視播出相關(guān)的文稿內(nèi)容、字幕內(nèi)容進(jìn)行自動(dòng)審核校對(duì)，輔助節(jié)目三審流程，達(dá)到助力節(jié)目?jī)?nèi)容得準(zhǔn)確、權(quán)威、安全的目的。

在功能方面，關(guān)鍵詞檢測(cè)系統(tǒng)的主要涉及以下三個(gè)方面：

（一）在檢測(cè)功能方面

檢測(cè)不能出錯(cuò)的內(nèi)容，如重要領(lǐng)導(dǎo)人姓名、職位、重大會(huì)議名稱和政治專有名詞等。

檢測(cè)需要謹(jǐn)慎對(duì)待的詞句，如落馬官員姓名，某些特定稱謂（如“大陸” “內(nèi)地等”），禁用慎用詞匯。

檢測(cè)錯(cuò)別字。

（二）在日志功能方面

系統(tǒng)對(duì)用戶每一次的檢測(cè)行為，記錄相關(guān)數(shù)據(jù)，并保留日志。

對(duì)日志數(shù)據(jù)進(jìn)行匯總呈現(xiàn)，形成系統(tǒng)能力及用戶行為分析報(bào)表。

（三）在后臺(tái)管理功能方面

系統(tǒng)需有彈性的詞庫(kù)管理功能，為生產(chǎn)平臺(tái)新建一套自有詞庫(kù)打下基礎(chǔ)。

對(duì)涉及用戶權(quán)限的模塊，對(duì)用戶行為進(jìn)行管理。

三、需求分析

（一）功能需求

功能點(diǎn)主要包括以下幾點(diǎn)：

（1）文稿文字內(nèi)容檢測(cè)。包括文字內(nèi)容抓取、文稿文字內(nèi)容關(guān)鍵詞檢測(cè)，關(guān)鍵詞檢測(cè)結(jié)果通過(guò)顏色標(biāo)記的方式反饋出來(lái)，并給出修改建議。關(guān)鍵詞包括重要領(lǐng)導(dǎo)人姓名職位、重要會(huì)議、國(guó)家部委名稱、專有名詞禁用語(yǔ)慎用語(yǔ)、錯(cuò)別字五大項(xiàng)。

（2）日志功能。該檢測(cè)系統(tǒng)需要提供可追溯的日志功能，每日在每臺(tái)客戶端本地及服務(wù)端為每臺(tái)客戶端生成一個(gè)日志文件，記錄每次點(diǎn)擊校驗(yàn)的時(shí)間、當(dāng)前登錄的用戶名、設(shè)備IP、每次校驗(yàn)后的檢測(cè)結(jié)果及相應(yīng)時(shí)間，以及檢出項(xiàng)目。

（3）報(bào)表功能。該系統(tǒng)可以按照時(shí)間或用戶在服務(wù)端生成整個(gè)系統(tǒng)的審計(jì)分析日志，不僅可總結(jié)每臺(tái)單機(jī)的使用情況，也可對(duì)所有用戶的使用習(xí)慣進(jìn)行全局性分析。

（4）詞庫(kù)更新功能。該系統(tǒng)需要能夠提供在線自動(dòng)及離線手動(dòng)更新詞庫(kù)的功能，并記錄和體現(xiàn)更新變化的內(nèi)容以便用戶核查。

（5）詞庫(kù)自定義功能。該系統(tǒng)的關(guān)鍵詞庫(kù)主要涉及標(biāo)準(zhǔn)用語(yǔ)和禁用語(yǔ)，需對(duì)管理員開(kāi)放詞庫(kù)入口，已供輸入用戶自定義的關(guān)鍵詞?？商峁┕芾碓~庫(kù)的工具，使用戶能夠按照自身的業(yè)務(wù)特點(diǎn)設(shè)置“白名單”和“黑名單”設(shè)置后，在檢測(cè)系統(tǒng)中立即生效。

（6）深度學(xué)習(xí)功能。系統(tǒng)上線初期，使用的是廠商自有詞庫(kù)及其根據(jù)各自的原始海量語(yǔ)料編寫(xiě)的模型，上線后，系統(tǒng)應(yīng)能夠使用定期提供的、脫敏后的、本地化的語(yǔ)料進(jìn)行模型的離線訓(xùn)練，以通過(guò)人工智能手段達(dá)到模型本地化的效果，進(jìn)一步提升系統(tǒng)檢測(cè)準(zhǔn)確率。

（7）用戶管理功能。頻道用戶的賬號(hào)管理跟隨原稿件或制作業(yè)務(wù)系統(tǒng)；對(duì)于總編室用戶，因涉及詞庫(kù)管理工作，系統(tǒng)需提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理；對(duì)于管理員用戶，因涉及詞庫(kù)優(yōu)先級(jí)選擇、報(bào)表生成等操作，也將提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理。

（二）文字抓取軟件子系統(tǒng)設(shè)計(jì)（軟件子系統(tǒng)）

文字抓取軟件采用基于C++程序語(yǔ)言開(kāi)發(fā)的C/S架構(gòu)軟件，在現(xiàn)有新聞業(yè)務(wù)管理系統(tǒng)（基于IE瀏覽器的B/S架構(gòu)）的基礎(chǔ)上，開(kāi)發(fā)一個(gè)兼容IE的外殼，在文稿編輯、文稿審核的工作站上安裝該軟件,輔助文稿編輯軟件完成關(guān)鍵詞的檢測(cè)。

文字抓取軟件主要包括基于第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)的IE瀏覽器套殼軟件，主要負(fù)責(zé)獲取客戶端文稿編輯區(qū)域指定的文字內(nèi)容，并通過(guò)接口發(fā)送給后臺(tái)檢測(cè)系統(tǒng)。

1.文字檢測(cè)系統(tǒng)設(shè)計(jì)（雙檢測(cè)引擎）

（1）從軟件設(shè)計(jì)上，A引擎只提供文字輸入輸出接口，及詞庫(kù)自定義入口，其余封裝為黑盒子，不對(duì)外部系統(tǒng)所見(jiàn)。

（2） B引擎核心通過(guò)積累的4000萬(wàn)篇高質(zhì)量的文字語(yǔ)料，拆分成1000億詞語(yǔ)語(yǔ)料，采用基于統(tǒng)計(jì)算法和深度學(xué)習(xí)框架相融合的方式，實(shí)現(xiàn)高質(zhì)量的錯(cuò)別字檢測(cè)功能，檢測(cè)算法的流程如下：第一步：利用條件隨機(jī)場(chǎng)（Conditional Random Field, CRF）算法對(duì)文字進(jìn)行分詞；第二步：針對(duì)分詞后的詞語(yǔ)進(jìn)行詞向量計(jì)算；第三步：使用Seq2Seq的深度學(xué)習(xí)框架計(jì)算句子的語(yǔ)言模型；第四步：融合語(yǔ)言模型進(jìn)行詞語(yǔ)糾錯(cuò)。

其中，條件隨機(jī)場(chǎng)CRF算法是一種機(jī)器學(xué)習(xí)技術(shù)，最早用于自然語(yǔ)言處理（Natural Language Processing, NLP）技術(shù)領(lǐng)域。CRF算法在NLP技術(shù)領(lǐng)域中主要用于文本標(biāo)注，并有分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等多種應(yīng)用場(chǎng)景。

詞向量計(jì)算，word2vec是2013年，Google開(kāi)源的一款用于詞向量計(jì)算的工具。首先，它可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練；其次，該工具得到的訓(xùn)練結(jié)果——詞向量（word embedding），可以很好地度量詞與詞之間的相似性。word2vec算法的背后是一個(gè)淺層神經(jīng)網(wǎng)絡(luò)，主要包含用于計(jì)算word vector的CBoW模型和Skip-gram模型。

seq2seq（Sequence-to-sequence）模型，是深度學(xué)習(xí)的技術(shù)應(yīng)用、自然語(yǔ)言的生成和理解等方面的研究成果，是目前自然語(yǔ)言處理技術(shù)中非常重要而且非常流行的一個(gè)模型，該技術(shù)突破了傳統(tǒng)的固定大小輸入問(wèn)題框架，開(kāi)創(chuàng)了將經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型運(yùn)用于翻譯與智能問(wèn)答這一類(lèi)序列型任務(wù)的先河，并且被證實(shí)在各主流語(yǔ)言之間的相互翻譯以及語(yǔ)音助手中人機(jī)短問(wèn)快答的應(yīng)用中有著非常好的表現(xiàn)。

人工智能錯(cuò)別字檢測(cè)系統(tǒng)基于Docker模式進(jìn)行軟件分發(fā)，可以做到和云平臺(tái)、微服務(wù)模式無(wú)縫集成，可有效地降低企業(yè)軟件TOC總成本。

2.服務(wù)器子系統(tǒng)設(shè)計(jì)（硬件子系統(tǒng)）

服務(wù)器包括兩臺(tái)物理實(shí)體設(shè)備，采用分布式部署方式使得系統(tǒng)具有良好的可擴(kuò)展性，服務(wù)器同時(shí)在線提供服務(wù)，之間可以實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)和準(zhǔn)實(shí)時(shí)同步，以“雙活互備”方式保證數(shù)據(jù)的完整性和業(yè)務(wù)的高可用性。兩臺(tái)物理服務(wù)器處于不同的業(yè)務(wù)網(wǎng)內(nèi)，之間經(jīng)過(guò)兩套IPS隔離防護(hù)，滿足信息安全管控要求。

服務(wù)器部署架構(gòu)基于KVM虛擬化運(yùn)行環(huán)境，根據(jù)業(yè)務(wù)需求，分別虛擬出windows server操作系統(tǒng)和Linux操作系統(tǒng)，其中Windows操作系統(tǒng)主要部署“黑馬校對(duì)”相關(guān)服務(wù)、產(chǎn)品；Linux操作系統(tǒng)采用基于docker的容器封裝技術(shù)實(shí)現(xiàn)服務(wù)的統(tǒng)一部署和管理，部署JCJC相關(guān)服務(wù)、產(chǎn)品，及MySQL數(shù)據(jù)庫(kù)等。

四、關(guān)鍵技術(shù)介紹

（一）關(guān)鍵技術(shù)一：自動(dòng)獲取文稿編輯區(qū)文字內(nèi)容

第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)獲取文稿編輯區(qū)域文字內(nèi)容會(huì)遇到以下幾個(gè)難點(diǎn)：

文稿系統(tǒng)設(shè)定了登錄驗(yàn)證機(jī)制，通過(guò)文字爬取的方式進(jìn)行文字抓取時(shí)，很難跳過(guò)該驗(yàn)證機(jī)制。

文稿系統(tǒng)文稿編輯區(qū)域基于iFrame框架原理，準(zhǔn)確獲取用戶當(dāng)前編輯的文字內(nèi)容有難度。

通過(guò)反復(fù)測(cè)試和驗(yàn)證，最終項(xiàng)目組決定采用基于extjs、jquery-ui的前端技術(shù)框架，不改變現(xiàn)有系統(tǒng)任何代碼實(shí)現(xiàn)頁(yè)面編輯區(qū)域文字內(nèi)容的抓取。

（二）關(guān)鍵技術(shù)二：自定義詞庫(kù)、NLP自然語(yǔ)言處理以及深度學(xué)習(xí)相結(jié)合實(shí)現(xiàn)文字檢測(cè)

關(guān)鍵詞檢測(cè)系統(tǒng)不單純對(duì)錯(cuò)誤字詞、錯(cuò)誤名稱等進(jìn)行判斷檢測(cè)，還可以結(jié)合詞庫(kù)進(jìn)行句子的語(yǔ)義語(yǔ)法分析，對(duì)新聞宣傳中不適合的敏感詞、慎用詞進(jìn)行辨別，同時(shí)具有深度學(xué)習(xí)的功能，不斷提高關(guān)鍵詞的檢測(cè)率。

（三）關(guān)鍵技術(shù)三：多家產(chǎn)品互相融合，共同提高系統(tǒng)檢測(cè)率

由于各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同，關(guān)鍵詞檢測(cè)系統(tǒng)為了提供系統(tǒng)檢測(cè)率，設(shè)計(jì)將兩套檢測(cè)系統(tǒng)相結(jié)合的方式來(lái)完成關(guān)鍵詞的檢測(cè)，即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給A和B檢測(cè)系統(tǒng)，將兩套檢測(cè)系統(tǒng)檢出的結(jié)果合并呈現(xiàn)出來(lái)。并根據(jù)系統(tǒng)的成長(zhǎng)性，制定了合理的沖突解決規(guī)則，應(yīng)對(duì)不同檢測(cè)系統(tǒng)輸出結(jié)果沖突的情況，不斷復(fù)盤(pán)系統(tǒng)檢測(cè)準(zhǔn)確率，提升系統(tǒng)能力。

（四）關(guān)鍵技術(shù)四：雙活互備的架構(gòu)

關(guān)鍵詞檢測(cè)系統(tǒng)包括兩臺(tái)服務(wù)器，采用基于“KVM+Docker”的系統(tǒng)架構(gòu)，每臺(tái)服務(wù)器同時(shí)部署兩套的產(chǎn)品，兩臺(tái)服務(wù)器之間的數(shù)據(jù)實(shí)時(shí)或近實(shí)時(shí)同步。

采用“雙活互備”的架構(gòu)模式，主要實(shí)現(xiàn)方式是：兩臺(tái)服務(wù)器分別位于上視大廈和廣電大廈業(yè)務(wù)網(wǎng)機(jī)房并接入各自業(yè)務(wù)網(wǎng)交換機(jī)，第一財(cái)經(jīng)關(guān)鍵詞檢測(cè)業(yè)務(wù)優(yōu)先訪問(wèn)位于廣電大廈機(jī)房的關(guān)鍵詞檢測(cè)服務(wù)器1，一旦該服務(wù)器訪問(wèn)超時(shí)或故障則自動(dòng)訪問(wèn)位于上視大廈廣電的關(guān)鍵詞檢測(cè)服務(wù)器2。

五、創(chuàng)新點(diǎn)和亮點(diǎn)

（一）創(chuàng)新點(diǎn)：首次實(shí)現(xiàn)廣播電視行業(yè)文字內(nèi)容的智能化檢測(cè)

該項(xiàng)目首次將自動(dòng)化、智能化的校驗(yàn)環(huán)節(jié)植入新聞業(yè)務(wù)生產(chǎn)流程中，并在保證該系統(tǒng)對(duì)用戶業(yè)務(wù)保障性初衷的前提下，促進(jìn)其與現(xiàn)有成熟的業(yè)務(wù)流程的融合，并探索該系統(tǒng)提升用戶業(yè)務(wù)能力的有效機(jī)制，形成完整的產(chǎn)品形態(tài)。

（二）亮點(diǎn)一：多產(chǎn)品融合，取長(zhǎng)補(bǔ)短，提升系統(tǒng)檢測(cè)率

經(jīng)過(guò)調(diào)研和分析，大部分文字檢測(cè)系統(tǒng)都是使用單一廠商檢測(cè)系統(tǒng)進(jìn)行內(nèi)容的檢測(cè)。但各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同，為提升系統(tǒng)檢測(cè)率，設(shè)計(jì)將兩套檢測(cè)系統(tǒng)結(jié)合的方式來(lái)完成內(nèi)容的檢測(cè)，即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給兩套檢測(cè)系統(tǒng)，檢出的結(jié)果合并呈現(xiàn)，有效地提高了系統(tǒng)的整體檢測(cè)率。

（三）亮點(diǎn)二：考慮系統(tǒng)可擴(kuò)展性，著眼未來(lái)產(chǎn)品化的愿景

系統(tǒng)設(shè)計(jì)之初，無(wú)論從軟件功能上，還是架構(gòu)設(shè)計(jì)上，都沒(méi)有局限于電視新聞業(yè)務(wù)。而是站在公共服務(wù)能力平臺(tái)布局的層面，充分考慮整個(gè)保障系統(tǒng)功能的可移植性，為成長(zhǎng)為橫向服務(wù)各業(yè)務(wù)陣地的關(guān)鍵詞檢測(cè)系統(tǒng)做準(zhǔn)備，可打包成具有自主知識(shí)產(chǎn)權(quán)、具有行業(yè)垂直深度和行業(yè)專業(yè)化詞庫(kù)的關(guān)鍵詞檢測(cè)產(chǎn)品推向市場(chǎng)。

六、結(jié)語(yǔ)

關(guān)鍵詞檢測(cè)系統(tǒng)的松耦合實(shí)現(xiàn)方式，詞庫(kù)自定義、后臺(tái)審核、人工智能深度學(xué)習(xí)等核心功能已逐漸成為融媒體大環(huán)境下的稿件編輯和內(nèi)容審核的基本需求，這對(duì)于保證媒體宣傳準(zhǔn)確性和權(quán)威性有著重要的意義。相信隨著智媒體技術(shù)的井噴發(fā)展，在不久即將到來(lái)的“4K+5G”時(shí)代中也能發(fā)揮其重要性作用。

傳媒論壇2019年15期

傳媒論壇的其它文章: 基層政務(wù)微信發(fā)展現(xiàn)狀及對(duì)策研究
——以蘭州市城關(guān)區(qū)為例; 焦作市圖書(shū)館業(yè)務(wù)輔導(dǎo)工作探析; 青少年網(wǎng)絡(luò)游戲中的媒介素養(yǎng); 探析城市文化基因的媒體表達(dá)
——北京晚報(bào)《周末跟我GO》周刊的創(chuàng)新編輯思路; 論潮州非物質(zhì)文化遺產(chǎn)在知網(wǎng)空間的傳播特征
——以潮州木雕和潮州音樂(lè)為例; 新媒體時(shí)代下迪士尼樂(lè)園的成功之道

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

全媒體文字智能檢測(cè)解決方案——關(guān)鍵詞檢測(cè)系統(tǒng)解析

一、前言

二、總體目標(biāo)