——關(guān)鍵詞檢測(cè)系統(tǒng)解析"/>
王菲達(dá)
(上海文化廣播影視集團(tuán)有限公司技術(shù)運(yùn)營(yíng)中心,上海 200041)
在媒體積極變革融合的大背景下,新聞生產(chǎn)過(guò)程中對(duì)正確性、權(quán)威性提出了更高要求。因此,關(guān)鍵內(nèi)容的準(zhǔn)確性,成為了在新聞生產(chǎn)環(huán)節(jié)過(guò)程中至關(guān)重要的一環(huán)。
上海廣播電視臺(tái)作為一個(gè)飛速發(fā)展的全媒體機(jī)構(gòu)更需要追求內(nèi)容的準(zhǔn)確性。其內(nèi)容生產(chǎn)業(yè)務(wù)流程仍以嚴(yán)格的人工審核為主,輔以新時(shí)代智媒體作為生產(chǎn)工具,力求內(nèi)容生產(chǎn)的快速、高效、嚴(yán)謹(jǐn)。而關(guān)鍵詞檢測(cè)系統(tǒng)作為輔助工具,可以強(qiáng)化各環(huán)節(jié)文字準(zhǔn)確性的審查力度。
本文從目前正在使用的主流非編制播系統(tǒng)(索貝非編制播系統(tǒng))入手,開(kāi)發(fā)關(guān)鍵詞檢測(cè)軟件,對(duì)電視播出相關(guān)的文稿內(nèi)容、字幕內(nèi)容進(jìn)行自動(dòng)審核校對(duì),輔助節(jié)目三審流程,達(dá)到助力節(jié)目?jī)?nèi)容得準(zhǔn)確、權(quán)威、安全的目的。
在功能方面,關(guān)鍵詞檢測(cè)系統(tǒng)的主要涉及以下三個(gè)方面:
檢測(cè)不能出錯(cuò)的內(nèi)容,如重要領(lǐng)導(dǎo)人姓名、職位、重大會(huì)議名稱和政治專有名詞等。
檢測(cè)需要謹(jǐn)慎對(duì)待的詞句,如落馬官員姓名,某些特定稱謂(如“大陸” “內(nèi)地等”),禁用慎用詞匯。
檢測(cè)錯(cuò)別字。
系統(tǒng)對(duì)用戶每一次的檢測(cè)行為,記錄相關(guān)數(shù)據(jù),并保留日志。
對(duì)日志數(shù)據(jù)進(jìn)行匯總呈現(xiàn),形成系統(tǒng)能力及用戶行為分析報(bào)表。
系統(tǒng)需有彈性的詞庫(kù)管理功能,為生產(chǎn)平臺(tái)新建一套自有詞庫(kù)打下基礎(chǔ)。
對(duì)涉及用戶權(quán)限的模塊,對(duì)用戶行為進(jìn)行管理。
功能點(diǎn)主要包括以下幾點(diǎn):
(1) 文稿文字內(nèi)容檢測(cè)。包括文字內(nèi)容抓取、文稿文字內(nèi)容關(guān)鍵詞檢測(cè),關(guān)鍵詞檢測(cè)結(jié)果通過(guò)顏色標(biāo)記的方式反饋出來(lái),并給出修改建議。關(guān)鍵詞包括重要領(lǐng)導(dǎo)人姓名職位、重要會(huì)議、國(guó)家部委名稱、專有名詞禁用語(yǔ)慎用語(yǔ)、錯(cuò)別字五大項(xiàng)。
(2) 日志功能。該檢測(cè)系統(tǒng)需要提供可追溯的日志功能,每日在每臺(tái)客戶端本地及服務(wù)端為每臺(tái)客戶端生成一個(gè)日志文件,記錄每次點(diǎn)擊校驗(yàn)的時(shí)間、當(dāng)前登錄的用戶名、設(shè)備IP、每次校驗(yàn)后的檢測(cè)結(jié)果及相應(yīng)時(shí)間,以及檢出項(xiàng)目。
(3) 報(bào)表功能。該系統(tǒng)可以按照時(shí)間或用戶在服務(wù)端生成整個(gè)系統(tǒng)的審計(jì)分析日志,不僅可總結(jié)每臺(tái)單機(jī)的使用情況,也可對(duì)所有用戶的使用習(xí)慣進(jìn)行全局性分析。
(4) 詞庫(kù)更新功能。該系統(tǒng)需要能夠提供在線自動(dòng)及離線手動(dòng)更新詞庫(kù)的功能,并記錄和體現(xiàn)更新變化的內(nèi)容以便用戶核查。
(5) 詞庫(kù)自定義功能。該系統(tǒng)的關(guān)鍵詞庫(kù)主要涉及標(biāo)準(zhǔn)用語(yǔ)和禁用語(yǔ),需對(duì)管理員開(kāi)放詞庫(kù)入口,已供輸入用戶自定義的關(guān)鍵詞??商峁┕芾碓~庫(kù)的工具,使用戶能夠按照自身的業(yè)務(wù)特點(diǎn)設(shè)置“白名單”和“黑名單”設(shè)置后,在檢測(cè)系統(tǒng)中立即生效。
(6) 深度學(xué)習(xí)功能。系統(tǒng)上線初期,使用的是廠商自有詞庫(kù)及其根據(jù)各自的原始海量語(yǔ)料編寫(xiě)的模型,上線后,系統(tǒng)應(yīng)能夠使用定期提供的、脫敏后的、本地化的語(yǔ)料進(jìn)行模型的離線訓(xùn)練,以通過(guò)人工智能手段達(dá)到模型本地化的效果,進(jìn)一步提升系統(tǒng)檢測(cè)準(zhǔn)確率。
(7) 用戶管理功能。頻道用戶的賬號(hào)管理跟隨原稿件或制作業(yè)務(wù)系統(tǒng);對(duì)于總編室用戶,因涉及詞庫(kù)管理工作,系統(tǒng)需提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理;對(duì)于管理員用戶,因涉及詞庫(kù)優(yōu)先級(jí)選擇、報(bào)表生成等操作,也將提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理。
文字抓取軟件采用基于C++程序語(yǔ)言開(kāi)發(fā)的C/S架構(gòu)軟件,在現(xiàn)有新聞業(yè)務(wù)管理系統(tǒng)(基于IE瀏覽器的B/S架構(gòu))的基礎(chǔ)上,開(kāi)發(fā)一個(gè)兼容IE的外殼,在文稿編輯、文稿審核的工作站上安裝該軟件,輔助文稿編輯軟件完成關(guān)鍵詞的檢測(cè)。
文字抓取軟件主要包括基于第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)的IE瀏覽器套殼軟件,主要負(fù)責(zé)獲取客戶端文稿編輯區(qū)域指定的文字內(nèi)容,并通過(guò)接口發(fā)送給后臺(tái)檢測(cè)系統(tǒng)。
1.文字檢測(cè)系統(tǒng)設(shè)計(jì)(雙檢測(cè)引擎)
(1) 從軟件設(shè)計(jì)上,A引擎只提供文字輸入輸出接口,及詞庫(kù)自定義入口,其余封裝為黑盒子,不對(duì)外部系統(tǒng)所見(jiàn)。
(2) B引擎核心通過(guò)積累的4000萬(wàn)篇高質(zhì)量的文字語(yǔ)料,拆分成1000億詞語(yǔ)語(yǔ)料,采用基于統(tǒng)計(jì)算法和深度學(xué)習(xí)框架相融合的方式,實(shí)現(xiàn)高質(zhì)量的錯(cuò)別字檢測(cè)功能,檢測(cè)算法的流程如下:第一步:利用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)算法對(duì)文字進(jìn)行分詞;第二步:針對(duì)分詞后的詞語(yǔ)進(jìn)行詞向量計(jì)算;第三步:使用Seq2Seq的深度學(xué)習(xí)框架計(jì)算句子的語(yǔ)言模型;第四步:融合語(yǔ)言模型進(jìn)行詞語(yǔ)糾錯(cuò)。
其中,條件隨機(jī)場(chǎng)CRF算法是一種機(jī)器學(xué)習(xí)技術(shù),最早用于自然語(yǔ)言處理(Natural Language Processing, NLP)技術(shù)領(lǐng)域。CRF算法在NLP技術(shù)領(lǐng)域中主要用于文本標(biāo)注,并有分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等多種應(yīng)用場(chǎng)景。
詞向量計(jì)算,word2vec是2013年,Google開(kāi)源的一款用于詞向量計(jì)算的工具。首先,它可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練;其次,該工具得到的訓(xùn)練結(jié)果——詞向量(word embedding),可以很好地度量詞與詞之間的相似性。word2vec算法的背后是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包含用于計(jì)算word vector的CBoW模型和Skip-gram模型。
seq2seq(Sequence-to-sequence)模型,是深度學(xué)習(xí)的技術(shù)應(yīng)用、自然語(yǔ)言的生成和理解等方面的研究成果,是目前自然語(yǔ)言處理技術(shù)中非常重要而且非常流行的一個(gè)模型,該技術(shù)突破了傳統(tǒng)的固定大小輸入問(wèn)題框架,開(kāi)創(chuàng)了將經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型運(yùn)用于翻譯與智能問(wèn)答這一類(lèi)序列型任務(wù)的先河,并且被證實(shí)在各主流語(yǔ)言之間的相互翻譯以及語(yǔ)音助手中人機(jī)短問(wèn)快答的應(yīng)用中有著非常好的表現(xiàn)。
人工智能錯(cuò)別字檢測(cè)系統(tǒng)基于Docker模式進(jìn)行軟件分發(fā),可以做到和云平臺(tái)、微服務(wù)模式無(wú)縫集成,可有效地降低企業(yè)軟件TOC總成本。
2.服務(wù)器子系統(tǒng)設(shè)計(jì)(硬件子系統(tǒng))
服務(wù)器包括兩臺(tái)物理實(shí)體設(shè)備,采用分布式部署方式使得系統(tǒng)具有良好的可擴(kuò)展性,服務(wù)器同時(shí)在線提供服務(wù),之間可以實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)和準(zhǔn)實(shí)時(shí)同步,以“雙活互備”方式保證數(shù)據(jù)的完整性和業(yè)務(wù)的高可用性。兩臺(tái)物理服務(wù)器處于不同的業(yè)務(wù)網(wǎng)內(nèi),之間經(jīng)過(guò)兩套IPS隔離防護(hù),滿足信息安全管控要求。
服務(wù)器部署架構(gòu)基于KVM虛擬化運(yùn)行環(huán)境,根據(jù)業(yè)務(wù)需求,分別虛擬出windows server操作系統(tǒng)和Linux操作系統(tǒng),其中Windows操作系統(tǒng)主要部署“黑馬校對(duì)”相關(guān)服務(wù)、產(chǎn)品;Linux操作系統(tǒng)采用基于docker的容器封裝技術(shù)實(shí)現(xiàn)服務(wù)的統(tǒng)一部署和管理,部署JCJC相關(guān)服務(wù)、產(chǎn)品,及MySQL數(shù)據(jù)庫(kù)等。
第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)獲取文稿編輯區(qū)域文字內(nèi)容會(huì)遇到以下幾個(gè)難點(diǎn):
文稿系統(tǒng)設(shè)定了登錄驗(yàn)證機(jī)制,通過(guò)文字爬取的方式進(jìn)行文字抓取時(shí),很難跳過(guò)該驗(yàn)證機(jī)制。
文稿系統(tǒng)文稿編輯區(qū)域基于iFrame框架原理,準(zhǔn)確獲取用戶當(dāng)前編輯的文字內(nèi)容有難度。
通過(guò)反復(fù)測(cè)試和驗(yàn)證,最終項(xiàng)目組決定采用基于extjs、jquery-ui的前端技術(shù)框架,不改變現(xiàn)有系統(tǒng)任何代碼實(shí)現(xiàn)頁(yè)面編輯區(qū)域文字內(nèi)容的抓取。
關(guān)鍵詞檢測(cè)系統(tǒng)不單純對(duì)錯(cuò)誤字詞、錯(cuò)誤名稱等進(jìn)行判斷檢測(cè),還可以結(jié)合詞庫(kù)進(jìn)行句子的語(yǔ)義語(yǔ)法分析,對(duì)新聞宣傳中不適合的敏感詞、慎用詞進(jìn)行辨別,同時(shí)具有深度學(xué)習(xí)的功能,不斷提高關(guān)鍵詞的檢測(cè)率。
由于各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同,關(guān)鍵詞檢測(cè)系統(tǒng)為了提供系統(tǒng)檢測(cè)率,設(shè)計(jì)將兩套檢測(cè)系統(tǒng)相結(jié)合的方式來(lái)完成關(guān)鍵詞的檢測(cè),即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給A和B檢測(cè)系統(tǒng),將兩套檢測(cè)系統(tǒng)檢出的結(jié)果合并呈現(xiàn)出來(lái)。并根據(jù)系統(tǒng)的成長(zhǎng)性,制定了合理的沖突解決規(guī)則,應(yīng)對(duì)不同檢測(cè)系統(tǒng)輸出結(jié)果沖突的情況,不斷復(fù)盤(pán)系統(tǒng)檢測(cè)準(zhǔn)確率,提升系統(tǒng)能力。
關(guān)鍵詞檢測(cè)系統(tǒng)包括兩臺(tái)服務(wù)器,采用基于“KVM+Docker”的系統(tǒng)架構(gòu),每臺(tái)服務(wù)器同時(shí)部署兩套的產(chǎn)品,兩臺(tái)服務(wù)器之間的數(shù)據(jù)實(shí)時(shí)或近實(shí)時(shí)同步。
采用“雙活互備”的架構(gòu)模式,主要實(shí)現(xiàn)方式是:兩臺(tái)服務(wù)器分別位于上視大廈和廣電大廈業(yè)務(wù)網(wǎng)機(jī)房并接入各自業(yè)務(wù)網(wǎng)交換機(jī),第一財(cái)經(jīng)關(guān)鍵詞檢測(cè)業(yè)務(wù)優(yōu)先訪問(wèn)位于廣電大廈機(jī)房的關(guān)鍵詞檢測(cè)服務(wù)器1,一旦該服務(wù)器訪問(wèn)超時(shí)或故障則自動(dòng)訪問(wèn)位于上視大廈廣電的關(guān)鍵詞檢測(cè)服務(wù)器2。
該項(xiàng)目首次將自動(dòng)化、智能化的校驗(yàn)環(huán)節(jié)植入新聞業(yè)務(wù)生產(chǎn)流程中,并在保證該系統(tǒng)對(duì)用戶業(yè)務(wù)保障性初衷的前提下,促進(jìn)其與現(xiàn)有成熟的業(yè)務(wù)流程的融合,并探索該系統(tǒng)提升用戶業(yè)務(wù)能力的有效機(jī)制,形成完整的產(chǎn)品形態(tài)。
經(jīng)過(guò)調(diào)研和分析,大部分文字檢測(cè)系統(tǒng)都是使用單一廠商檢測(cè)系統(tǒng)進(jìn)行內(nèi)容的檢測(cè)。但各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同,為提升系統(tǒng)檢測(cè)率,設(shè)計(jì)將兩套檢測(cè)系統(tǒng)結(jié)合的方式來(lái)完成內(nèi)容的檢測(cè),即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給兩套檢測(cè)系統(tǒng),檢出的結(jié)果合并呈現(xiàn),有效地提高了系統(tǒng)的整體檢測(cè)率。
系統(tǒng)設(shè)計(jì)之初,無(wú)論從軟件功能上,還是架構(gòu)設(shè)計(jì)上,都沒(méi)有局限于電視新聞業(yè)務(wù)。而是站在公共服務(wù)能力平臺(tái)布局的層面,充分考慮整個(gè)保障系統(tǒng)功能的可移植性,為成長(zhǎng)為橫向服務(wù)各業(yè)務(wù)陣地的關(guān)鍵詞檢測(cè)系統(tǒng)做準(zhǔn)備,可打包成具有自主知識(shí)產(chǎn)權(quán)、具有行業(yè)垂直深度和行業(yè)專業(yè)化詞庫(kù)的關(guān)鍵詞檢測(cè)產(chǎn)品推向市場(chǎng)。
關(guān)鍵詞檢測(cè)系統(tǒng)的松耦合實(shí)現(xiàn)方式,詞庫(kù)自定義、后臺(tái)審核、人工智能深度學(xué)習(xí)等核心功能已逐漸成為融媒體大環(huán)境下的稿件編輯和內(nèi)容審核的基本需求,這對(duì)于保證媒體宣傳準(zhǔn)確性和權(quán)威性有著重要的意義。相信隨著智媒體技術(shù)的井噴發(fā)展,在不久即將到來(lái)的“4K+5G”時(shí)代中也能發(fā)揮其重要性作用。