——關(guān)鍵詞檢測(cè)系統(tǒng)解析"/>
  • 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      全媒體文字智能檢測(cè)解決方案
      ——關(guān)鍵詞檢測(cè)系統(tǒng)解析

      2019-03-20 16:05:53王菲達(dá)
      傳媒論壇 2019年15期

      王菲達(dá)

      (上海文化廣播影視集團(tuán)有限公司技術(shù)運(yùn)營(yíng)中心,上海 200041)

      一、前言

      在媒體積極變革融合的大背景下,新聞生產(chǎn)過(guò)程中對(duì)正確性、權(quán)威性提出了更高要求。因此,關(guān)鍵內(nèi)容的準(zhǔn)確性,成為了在新聞生產(chǎn)環(huán)節(jié)過(guò)程中至關(guān)重要的一環(huán)。

      上海廣播電視臺(tái)作為一個(gè)飛速發(fā)展的全媒體機(jī)構(gòu)更需要追求內(nèi)容的準(zhǔn)確性。其內(nèi)容生產(chǎn)業(yè)務(wù)流程仍以嚴(yán)格的人工審核為主,輔以新時(shí)代智媒體作為生產(chǎn)工具,力求內(nèi)容生產(chǎn)的快速、高效、嚴(yán)謹(jǐn)。而關(guān)鍵詞檢測(cè)系統(tǒng)作為輔助工具,可以強(qiáng)化各環(huán)節(jié)文字準(zhǔn)確性的審查力度。

      二、總體目標(biāo)

      本文從目前正在使用的主流非編制播系統(tǒng)(索貝非編制播系統(tǒng))入手,開(kāi)發(fā)關(guān)鍵詞檢測(cè)軟件,對(duì)電視播出相關(guān)的文稿內(nèi)容、字幕內(nèi)容進(jìn)行自動(dòng)審核校對(duì),輔助節(jié)目三審流程,達(dá)到助力節(jié)目?jī)?nèi)容得準(zhǔn)確、權(quán)威、安全的目的。

      在功能方面,關(guān)鍵詞檢測(cè)系統(tǒng)的主要涉及以下三個(gè)方面:

      (一)在檢測(cè)功能方面

      檢測(cè)不能出錯(cuò)的內(nèi)容,如重要領(lǐng)導(dǎo)人姓名、職位、重大會(huì)議名稱和政治專有名詞等。

      檢測(cè)需要謹(jǐn)慎對(duì)待的詞句,如落馬官員姓名,某些特定稱謂(如“大陸” “內(nèi)地等”),禁用慎用詞匯。

      檢測(cè)錯(cuò)別字。

      (二)在日志功能方面

      系統(tǒng)對(duì)用戶每一次的檢測(cè)行為,記錄相關(guān)數(shù)據(jù),并保留日志。

      對(duì)日志數(shù)據(jù)進(jìn)行匯總呈現(xiàn),形成系統(tǒng)能力及用戶行為分析報(bào)表。

      (三)在后臺(tái)管理功能方面

      系統(tǒng)需有彈性的詞庫(kù)管理功能,為生產(chǎn)平臺(tái)新建一套自有詞庫(kù)打下基礎(chǔ)。

      對(duì)涉及用戶權(quán)限的模塊,對(duì)用戶行為進(jìn)行管理。

      三、需求分析

      (一)功能需求

      功能點(diǎn)主要包括以下幾點(diǎn):

      (1) 文稿文字內(nèi)容檢測(cè)。包括文字內(nèi)容抓取、文稿文字內(nèi)容關(guān)鍵詞檢測(cè),關(guān)鍵詞檢測(cè)結(jié)果通過(guò)顏色標(biāo)記的方式反饋出來(lái),并給出修改建議。關(guān)鍵詞包括重要領(lǐng)導(dǎo)人姓名職位、重要會(huì)議、國(guó)家部委名稱、專有名詞禁用語(yǔ)慎用語(yǔ)、錯(cuò)別字五大項(xiàng)。

      (2) 日志功能。該檢測(cè)系統(tǒng)需要提供可追溯的日志功能,每日在每臺(tái)客戶端本地及服務(wù)端為每臺(tái)客戶端生成一個(gè)日志文件,記錄每次點(diǎn)擊校驗(yàn)的時(shí)間、當(dāng)前登錄的用戶名、設(shè)備IP、每次校驗(yàn)后的檢測(cè)結(jié)果及相應(yīng)時(shí)間,以及檢出項(xiàng)目。

      (3) 報(bào)表功能。該系統(tǒng)可以按照時(shí)間或用戶在服務(wù)端生成整個(gè)系統(tǒng)的審計(jì)分析日志,不僅可總結(jié)每臺(tái)單機(jī)的使用情況,也可對(duì)所有用戶的使用習(xí)慣進(jìn)行全局性分析。

      (4) 詞庫(kù)更新功能。該系統(tǒng)需要能夠提供在線自動(dòng)及離線手動(dòng)更新詞庫(kù)的功能,并記錄和體現(xiàn)更新變化的內(nèi)容以便用戶核查。

      (5) 詞庫(kù)自定義功能。該系統(tǒng)的關(guān)鍵詞庫(kù)主要涉及標(biāo)準(zhǔn)用語(yǔ)和禁用語(yǔ),需對(duì)管理員開(kāi)放詞庫(kù)入口,已供輸入用戶自定義的關(guān)鍵詞??商峁┕芾碓~庫(kù)的工具,使用戶能夠按照自身的業(yè)務(wù)特點(diǎn)設(shè)置“白名單”和“黑名單”設(shè)置后,在檢測(cè)系統(tǒng)中立即生效。

      (6) 深度學(xué)習(xí)功能。系統(tǒng)上線初期,使用的是廠商自有詞庫(kù)及其根據(jù)各自的原始海量語(yǔ)料編寫(xiě)的模型,上線后,系統(tǒng)應(yīng)能夠使用定期提供的、脫敏后的、本地化的語(yǔ)料進(jìn)行模型的離線訓(xùn)練,以通過(guò)人工智能手段達(dá)到模型本地化的效果,進(jìn)一步提升系統(tǒng)檢測(cè)準(zhǔn)確率。

      (7) 用戶管理功能。頻道用戶的賬號(hào)管理跟隨原稿件或制作業(yè)務(wù)系統(tǒng);對(duì)于總編室用戶,因涉及詞庫(kù)管理工作,系統(tǒng)需提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理;對(duì)于管理員用戶,因涉及詞庫(kù)優(yōu)先級(jí)選擇、報(bào)表生成等操作,也將提供工具對(duì)該用戶賬戶、密碼進(jìn)行管理。

      (二)文字抓取軟件子系統(tǒng)設(shè)計(jì)(軟件子系統(tǒng))

      文字抓取軟件采用基于C++程序語(yǔ)言開(kāi)發(fā)的C/S架構(gòu)軟件,在現(xiàn)有新聞業(yè)務(wù)管理系統(tǒng)(基于IE瀏覽器的B/S架構(gòu))的基礎(chǔ)上,開(kāi)發(fā)一個(gè)兼容IE的外殼,在文稿編輯、文稿審核的工作站上安裝該軟件,輔助文稿編輯軟件完成關(guān)鍵詞的檢測(cè)。

      文字抓取軟件主要包括基于第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)的IE瀏覽器套殼軟件,主要負(fù)責(zé)獲取客戶端文稿編輯區(qū)域指定的文字內(nèi)容,并通過(guò)接口發(fā)送給后臺(tái)檢測(cè)系統(tǒng)。

      1.文字檢測(cè)系統(tǒng)設(shè)計(jì)(雙檢測(cè)引擎)

      (1) 從軟件設(shè)計(jì)上,A引擎只提供文字輸入輸出接口,及詞庫(kù)自定義入口,其余封裝為黑盒子,不對(duì)外部系統(tǒng)所見(jiàn)。

      (2) B引擎核心通過(guò)積累的4000萬(wàn)篇高質(zhì)量的文字語(yǔ)料,拆分成1000億詞語(yǔ)語(yǔ)料,采用基于統(tǒng)計(jì)算法和深度學(xué)習(xí)框架相融合的方式,實(shí)現(xiàn)高質(zhì)量的錯(cuò)別字檢測(cè)功能,檢測(cè)算法的流程如下:第一步:利用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)算法對(duì)文字進(jìn)行分詞;第二步:針對(duì)分詞后的詞語(yǔ)進(jìn)行詞向量計(jì)算;第三步:使用Seq2Seq的深度學(xué)習(xí)框架計(jì)算句子的語(yǔ)言模型;第四步:融合語(yǔ)言模型進(jìn)行詞語(yǔ)糾錯(cuò)。

      其中,條件隨機(jī)場(chǎng)CRF算法是一種機(jī)器學(xué)習(xí)技術(shù),最早用于自然語(yǔ)言處理(Natural Language Processing, NLP)技術(shù)領(lǐng)域。CRF算法在NLP技術(shù)領(lǐng)域中主要用于文本標(biāo)注,并有分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等多種應(yīng)用場(chǎng)景。

      詞向量計(jì)算,word2vec是2013年,Google開(kāi)源的一款用于詞向量計(jì)算的工具。首先,它可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練;其次,該工具得到的訓(xùn)練結(jié)果——詞向量(word embedding),可以很好地度量詞與詞之間的相似性。word2vec算法的背后是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包含用于計(jì)算word vector的CBoW模型和Skip-gram模型。

      seq2seq(Sequence-to-sequence)模型,是深度學(xué)習(xí)的技術(shù)應(yīng)用、自然語(yǔ)言的生成和理解等方面的研究成果,是目前自然語(yǔ)言處理技術(shù)中非常重要而且非常流行的一個(gè)模型,該技術(shù)突破了傳統(tǒng)的固定大小輸入問(wèn)題框架,開(kāi)創(chuàng)了將經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型運(yùn)用于翻譯與智能問(wèn)答這一類(lèi)序列型任務(wù)的先河,并且被證實(shí)在各主流語(yǔ)言之間的相互翻譯以及語(yǔ)音助手中人機(jī)短問(wèn)快答的應(yīng)用中有著非常好的表現(xiàn)。

      人工智能錯(cuò)別字檢測(cè)系統(tǒng)基于Docker模式進(jìn)行軟件分發(fā),可以做到和云平臺(tái)、微服務(wù)模式無(wú)縫集成,可有效地降低企業(yè)軟件TOC總成本。

      2.服務(wù)器子系統(tǒng)設(shè)計(jì)(硬件子系統(tǒng))

      服務(wù)器包括兩臺(tái)物理實(shí)體設(shè)備,采用分布式部署方式使得系統(tǒng)具有良好的可擴(kuò)展性,服務(wù)器同時(shí)在線提供服務(wù),之間可以實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)和準(zhǔn)實(shí)時(shí)同步,以“雙活互備”方式保證數(shù)據(jù)的完整性和業(yè)務(wù)的高可用性。兩臺(tái)物理服務(wù)器處于不同的業(yè)務(wù)網(wǎng)內(nèi),之間經(jīng)過(guò)兩套IPS隔離防護(hù),滿足信息安全管控要求。

      服務(wù)器部署架構(gòu)基于KVM虛擬化運(yùn)行環(huán)境,根據(jù)業(yè)務(wù)需求,分別虛擬出windows server操作系統(tǒng)和Linux操作系統(tǒng),其中Windows操作系統(tǒng)主要部署“黑馬校對(duì)”相關(guān)服務(wù)、產(chǎn)品;Linux操作系統(tǒng)采用基于docker的容器封裝技術(shù)實(shí)現(xiàn)服務(wù)的統(tǒng)一部署和管理,部署JCJC相關(guān)服務(wù)、產(chǎn)品,及MySQL數(shù)據(jù)庫(kù)等。

      四、關(guān)鍵技術(shù)介紹

      (一)關(guān)鍵技術(shù)一:自動(dòng)獲取文稿編輯區(qū)文字內(nèi)容

      第一財(cái)經(jīng)新聞業(yè)務(wù)管理系統(tǒng)獲取文稿編輯區(qū)域文字內(nèi)容會(huì)遇到以下幾個(gè)難點(diǎn):

      文稿系統(tǒng)設(shè)定了登錄驗(yàn)證機(jī)制,通過(guò)文字爬取的方式進(jìn)行文字抓取時(shí),很難跳過(guò)該驗(yàn)證機(jī)制。

      文稿系統(tǒng)文稿編輯區(qū)域基于iFrame框架原理,準(zhǔn)確獲取用戶當(dāng)前編輯的文字內(nèi)容有難度。

      通過(guò)反復(fù)測(cè)試和驗(yàn)證,最終項(xiàng)目組決定采用基于extjs、jquery-ui的前端技術(shù)框架,不改變現(xiàn)有系統(tǒng)任何代碼實(shí)現(xiàn)頁(yè)面編輯區(qū)域文字內(nèi)容的抓取。

      (二)關(guān)鍵技術(shù)二:自定義詞庫(kù)、NLP自然語(yǔ)言處理以及深度學(xué)習(xí)相結(jié)合實(shí)現(xiàn)文字檢測(cè)

      關(guān)鍵詞檢測(cè)系統(tǒng)不單純對(duì)錯(cuò)誤字詞、錯(cuò)誤名稱等進(jìn)行判斷檢測(cè),還可以結(jié)合詞庫(kù)進(jìn)行句子的語(yǔ)義語(yǔ)法分析,對(duì)新聞宣傳中不適合的敏感詞、慎用詞進(jìn)行辨別,同時(shí)具有深度學(xué)習(xí)的功能,不斷提高關(guān)鍵詞的檢測(cè)率。

      (三)關(guān)鍵技術(shù)三:多家產(chǎn)品互相融合,共同提高系統(tǒng)檢測(cè)率

      由于各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同,關(guān)鍵詞檢測(cè)系統(tǒng)為了提供系統(tǒng)檢測(cè)率,設(shè)計(jì)將兩套檢測(cè)系統(tǒng)相結(jié)合的方式來(lái)完成關(guān)鍵詞的檢測(cè),即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給A和B檢測(cè)系統(tǒng),將兩套檢測(cè)系統(tǒng)檢出的結(jié)果合并呈現(xiàn)出來(lái)。并根據(jù)系統(tǒng)的成長(zhǎng)性,制定了合理的沖突解決規(guī)則,應(yīng)對(duì)不同檢測(cè)系統(tǒng)輸出結(jié)果沖突的情況,不斷復(fù)盤(pán)系統(tǒng)檢測(cè)準(zhǔn)確率,提升系統(tǒng)能力。

      (四)關(guān)鍵技術(shù)四:雙活互備的架構(gòu)

      關(guān)鍵詞檢測(cè)系統(tǒng)包括兩臺(tái)服務(wù)器,采用基于“KVM+Docker”的系統(tǒng)架構(gòu),每臺(tái)服務(wù)器同時(shí)部署兩套的產(chǎn)品,兩臺(tái)服務(wù)器之間的數(shù)據(jù)實(shí)時(shí)或近實(shí)時(shí)同步。

      采用“雙活互備”的架構(gòu)模式,主要實(shí)現(xiàn)方式是:兩臺(tái)服務(wù)器分別位于上視大廈和廣電大廈業(yè)務(wù)網(wǎng)機(jī)房并接入各自業(yè)務(wù)網(wǎng)交換機(jī),第一財(cái)經(jīng)關(guān)鍵詞檢測(cè)業(yè)務(wù)優(yōu)先訪問(wèn)位于廣電大廈機(jī)房的關(guān)鍵詞檢測(cè)服務(wù)器1,一旦該服務(wù)器訪問(wèn)超時(shí)或故障則自動(dòng)訪問(wèn)位于上視大廈廣電的關(guān)鍵詞檢測(cè)服務(wù)器2。

      五、創(chuàng)新點(diǎn)和亮點(diǎn)

      (一)創(chuàng)新點(diǎn):首次實(shí)現(xiàn)廣播電視行業(yè)文字內(nèi)容的智能化檢測(cè)

      該項(xiàng)目首次將自動(dòng)化、智能化的校驗(yàn)環(huán)節(jié)植入新聞業(yè)務(wù)生產(chǎn)流程中,并在保證該系統(tǒng)對(duì)用戶業(yè)務(wù)保障性初衷的前提下,促進(jìn)其與現(xiàn)有成熟的業(yè)務(wù)流程的融合,并探索該系統(tǒng)提升用戶業(yè)務(wù)能力的有效機(jī)制,形成完整的產(chǎn)品形態(tài)。

      (二)亮點(diǎn)一:多產(chǎn)品融合,取長(zhǎng)補(bǔ)短,提升系統(tǒng)檢測(cè)率

      經(jīng)過(guò)調(diào)研和分析,大部分文字檢測(cè)系統(tǒng)都是使用單一廠商檢測(cè)系統(tǒng)進(jìn)行內(nèi)容的檢測(cè)。但各廠商對(duì)關(guān)鍵詞檢測(cè)擅長(zhǎng)的模塊不同,為提升系統(tǒng)檢測(cè)率,設(shè)計(jì)將兩套檢測(cè)系統(tǒng)結(jié)合的方式來(lái)完成內(nèi)容的檢測(cè),即客戶端同時(shí)將需要檢測(cè)的文字內(nèi)容發(fā)給兩套檢測(cè)系統(tǒng),檢出的結(jié)果合并呈現(xiàn),有效地提高了系統(tǒng)的整體檢測(cè)率。

      (三)亮點(diǎn)二:考慮系統(tǒng)可擴(kuò)展性,著眼未來(lái)產(chǎn)品化的愿景

      系統(tǒng)設(shè)計(jì)之初,無(wú)論從軟件功能上,還是架構(gòu)設(shè)計(jì)上,都沒(méi)有局限于電視新聞業(yè)務(wù)。而是站在公共服務(wù)能力平臺(tái)布局的層面,充分考慮整個(gè)保障系統(tǒng)功能的可移植性,為成長(zhǎng)為橫向服務(wù)各業(yè)務(wù)陣地的關(guān)鍵詞檢測(cè)系統(tǒng)做準(zhǔn)備,可打包成具有自主知識(shí)產(chǎn)權(quán)、具有行業(yè)垂直深度和行業(yè)專業(yè)化詞庫(kù)的關(guān)鍵詞檢測(cè)產(chǎn)品推向市場(chǎng)。

      六、結(jié)語(yǔ)

      關(guān)鍵詞檢測(cè)系統(tǒng)的松耦合實(shí)現(xiàn)方式,詞庫(kù)自定義、后臺(tái)審核、人工智能深度學(xué)習(xí)等核心功能已逐漸成為融媒體大環(huán)境下的稿件編輯和內(nèi)容審核的基本需求,這對(duì)于保證媒體宣傳準(zhǔn)確性和權(quán)威性有著重要的意義。相信隨著智媒體技術(shù)的井噴發(fā)展,在不久即將到來(lái)的“4K+5G”時(shí)代中也能發(fā)揮其重要性作用。

      晋中市| 神木县| 南乐县| 云安县| 大姚县| 黑水县| 东源县| 昌都县| 昭平县| 诸城市| 宜昌市| 海伦市| 杭锦旗| 河池市| 广昌县| 界首市| 凤台县| 通河县| 大厂| 白水县| 大同市| 来凤县| 营山县| 大庆市| 西贡区| 内黄县| 孙吴县| 新兴县| 余庆县| 光山县| 赫章县| 多伦县| 文昌市| 天津市| 阿克陶县| 丹寨县| 惠安县| 晋江市| 遂昌县| 神农架林区| 英吉沙县|