• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      時(shí)政名人姓名檢測(cè)系統(tǒng)的設(shè)計(jì)及其在字幕制作中的應(yīng)用

      2018-06-26 10:57:50李海彬
      視聽 2018年7期
      關(guān)鍵詞:字符串新聞標(biāo)題字幕

      □李海彬

      一、引 言

      電視時(shí)政新聞的采訪對(duì)象主要是國(guó)內(nèi)外的一些時(shí)政名人,為他們出字幕人名條是字幕員的日常工作之一。這個(gè)工作看似簡(jiǎn)單,然而卻是最容易犯錯(cuò)誤的地方,特別在大型會(huì)議的電視直播過(guò)程中,由于值班時(shí)間長(zhǎng)、制作任務(wù)重等客觀原因,加上心情緊張等主觀因素,會(huì)增加人名字幕出錯(cuò)的概率,從而造成播出安全事故。

      如何將此類錯(cuò)誤發(fā)生的概率降低呢?我們認(rèn)為應(yīng)該通過(guò)技術(shù)的手段去解決,而不僅僅只通過(guò)人工校對(duì)審核的方式,在本文中將介紹自主研發(fā)的一個(gè)時(shí)政名人姓名檢測(cè)系統(tǒng)。

      二、立項(xiàng)背景

      我臺(tái)新聞?lì)l道在某次電視直播中,將某位領(lǐng)導(dǎo)的字幕人名條錯(cuò)打?yàn)槟趁餍堑拿?,結(jié)果造成了播出事故。事后經(jīng)分析發(fā)現(xiàn),前線記者在文稿系統(tǒng)中錄入稿件時(shí)使用的是拼音輸入法,由于兩個(gè)名字的拼音相近而造成原稿存在錯(cuò)誤,而字幕員將文稿串編單里的新聞標(biāo)題復(fù)制到字幕機(jī)軟件制作人名條時(shí),因?yàn)闄z查上的疏忽而造成了本次事故。

      這個(gè)教訓(xùn)是深刻的,為了在今后的工作中減少此類事件的發(fā)生,頻道領(lǐng)導(dǎo)認(rèn)為需要建立時(shí)政名人姓名檢測(cè)系統(tǒng),并根據(jù)字幕員的工作習(xí)慣,要求將此功能集成到新聞文稿系統(tǒng)中。

      三、檢錯(cuò)算法的難點(diǎn)

      初步的思路是建立一個(gè)時(shí)政人名庫(kù),將國(guó)家和省內(nèi)主要領(lǐng)導(dǎo)的名字,以及一些外國(guó)國(guó)家首腦的中文譯名錄入庫(kù)中,檢錯(cuò)系統(tǒng)以此為標(biāo)準(zhǔn)進(jìn)行字符串匹配,將打錯(cuò)的名字標(biāo)注出來(lái)。

      假設(shè)某位時(shí)政名人的名字為“張小軍”,當(dāng)天有一條關(guān)于他的新聞如“張小軍到北海調(diào)研”,結(jié)果名字中“軍”錯(cuò)打成“君”,此時(shí)系統(tǒng)可以用彩色字體明顯地標(biāo)注出錯(cuò)之處,如“張小君(紅字顯示)到北海調(diào)研”。

      檢錯(cuò)算法的原理是將人名庫(kù)里的名字與新聞標(biāo)題里的內(nèi)容進(jìn)行逐字匹配,從而找出可能錯(cuò)誤的名字,如果要完成如上的檢測(cè),算法的一般流程如下:

      1.將姓名逐字分拆為“張”“小”“軍”三個(gè)字;

      2.先查找“張”字的位置,在找到后檢測(cè)其后的字符是否為“小”及“軍”,從而找到錯(cuò)誤的位置;

      3.如果“張”字沒有找到,就從“小”字開始查找,找到后檢測(cè)其后字符是否為“軍”字,如果姓氏出錯(cuò)了,則報(bào)錯(cuò)。

      在姓名由3個(gè)文字組成的情況下,這種算法可以檢測(cè)出1個(gè)文字的錯(cuò)誤,如“章小軍”“張曉軍”等,而如果出現(xiàn)2個(gè)以上的文字錯(cuò)誤就無(wú)法判斷對(duì)錯(cuò)了。對(duì)于因拼音輸入法的問題造成兩個(gè)名字的中文漢字完全不同時(shí),根本就沒有辦法檢錯(cuò)。

      另外,這種算法存在一個(gè)重要的漏洞,即當(dāng)新聞標(biāo)題中未包含人名時(shí),則檢測(cè)的結(jié)果也可能會(huì)出錯(cuò)。例如新聞標(biāo)題“我區(qū)邊防某部隊(duì)參加國(guó)慶60周年大閱兵”,標(biāo)題中并未包含人名,但假如人名庫(kù)中存在“李國(guó)慶”這樣的名字,此時(shí)就會(huì)產(chǎn)生錯(cuò)誤的檢測(cè)了。人名庫(kù)記錄的人名數(shù)量越多,檢測(cè)錯(cuò)誤的概率就會(huì)越高。

      因此,在現(xiàn)有的技術(shù)條件下,要完成上面所說(shuō)的姓名檢錯(cuò)基本不可能。

      四、設(shè)計(jì)思路

      既然無(wú)法完成“姓名檢錯(cuò)”,那就做一個(gè)“姓名檢對(duì)”功能,即通過(guò)人名庫(kù)里的名字,與新聞標(biāo)題進(jìn)行字符串匹配,如果匹配成功則表示名字錄入正確,將正確的名字采用不同的顏色標(biāo)注出來(lái),使字幕員可以一眼分辨出錯(cuò)對(duì)。

      假設(shè)人名庫(kù)中記錄了這些名字:張福明、劉正軍、馬峰、何洪海。將這些名字與某天的新聞串編單標(biāo)題進(jìn)行逐一匹配,其結(jié)果應(yīng)該如表1所示。

      表1 新聞串編單

      其中第1~3條匹配成功了;第4條將“何洪?!贝蝈e(cuò)成了“何紅?!保ヅ涫。坏?~6條新聞標(biāo)題中沒有人名庫(kù)中的名字,匹配失敗。

      實(shí)現(xiàn)這種檢測(cè)的軟件算法就簡(jiǎn)單多了:將人名庫(kù)中的名字分別與新聞串編單的新聞標(biāo)題逐一進(jìn)行匹配,假設(shè)人名庫(kù)中的人名數(shù)量為N,新聞條目為M,需要進(jìn)行N×M次檢測(cè)即可得到全部檢測(cè)結(jié)果。

      圖1 人名檢測(cè)算法

      那這種算法的實(shí)際檢測(cè)速度如何呢?該系統(tǒng)預(yù)計(jì)人名庫(kù)的人名數(shù)量小于200,新聞串編單條目小于100,新聞標(biāo)題的平均字符數(shù)小于100字節(jié)。則最多需要檢測(cè)200×100=20000次,遍歷字符串總長(zhǎng)度為2MB字節(jié),經(jīng)測(cè)試其運(yùn)算所需時(shí)間非常少,可以忽略不計(jì)。

      五、實(shí)現(xiàn)方法及效果

      (一)建立人名庫(kù)

      在文稿數(shù)據(jù)庫(kù)中增加一個(gè)數(shù)據(jù)表,表名為leader,字段如下:Names nchar(20):存儲(chǔ)姓名

      BkText ntext:存儲(chǔ)備注信息

      增加人名庫(kù)編輯模塊,用于動(dòng)態(tài)更新信息,如圖2。

      圖2 人名庫(kù)編輯管理模塊

      (二)檢測(cè)及標(biāo)注方法

      在完成檢測(cè)后,如何將錄入正確的人名區(qū)分出來(lái)呢?這里采用HTML網(wǎng)頁(yè)封裝方式。即將檢測(cè)結(jié)果輸出為HTML文件,對(duì)于匹配成功的名字使用紅色字顯示,而其他內(nèi)容使用黑色字顯示。

      HTML又稱為超文本標(biāo)記語(yǔ)言,其結(jié)構(gòu)包括“頭”部分和“主體”部分,通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分,其源程序?yàn)槲谋疚募恍枰幾g執(zhí)行,瀏覽器按順序閱讀HTML文件內(nèi)容,然后根據(jù)標(biāo)記符解釋和顯示其標(biāo)記的內(nèi)容。

      圖3 《廣西新聞》串編單模塊

      由于涉及HTML結(jié)構(gòu)的輸出,因此在算法步驟上做了一些改動(dòng),首先是將串編單里的全部新聞標(biāo)題進(jìn)行HTML結(jié)構(gòu)封裝,合成為一個(gè)長(zhǎng)的字符串,之后再進(jìn)行人名匹配和標(biāo)注。在文稿串編單模塊增加一個(gè)功能按鈕,如圖3。

      點(diǎn)擊“人名檢測(cè)”功能按鈕,檢測(cè)功能將按以下步驟工作:

      1.在內(nèi)存中創(chuàng)建一個(gè)最基本的HTML文件頭部結(jié)構(gòu)和表格結(jié)構(gòu):

      ;

      2.將每條稿件的序號(hào)、新聞標(biāo)題用

      3.加入表格及HTML文件的尾部結(jié)構(gòu):

      標(biāo)簽封裝為1行2列的表格:
      ;

      4.循環(huán)調(diào)取人名庫(kù)的每個(gè)名字,分別與內(nèi)存中的HTML格式字符串進(jìn)行匹配;

      5.將匹配成功的名字進(jìn)行字符串替換,加上字體顏色標(biāo)簽:如“張福明”替換為“”;

      6.將內(nèi)存中的HTML格式字符串輸出到文件,通過(guò)瀏覽器控件顯示。

      執(zhí)行檢測(cè)的結(jié)果如圖4。從圖中可以看到,第3、4、9、10、11條新聞標(biāo)題中,成功檢測(cè)出人名庫(kù)里記錄的名字,并使用紅色字做了標(biāo)注;而第16條新聞標(biāo)題中雖然也出現(xiàn)了一個(gè)人名“唐宇濤”,但由于這個(gè)名字沒有錄入到人名庫(kù)中,因此沒有標(biāo)注出來(lái)。

      圖4 人名檢測(cè)結(jié)果

      通過(guò)圖4的檢測(cè)結(jié)果,字幕員很容易區(qū)分哪些新聞標(biāo)題中時(shí)政名人的姓名是正確的,對(duì)于沒有提示的新聞標(biāo)題,重點(diǎn)進(jìn)行檢查即可。在確認(rèn)無(wú)誤后,即可直接將網(wǎng)頁(yè)里的新聞標(biāo)題復(fù)制到字幕軟件中進(jìn)行制作。

      六、結(jié)語(yǔ)

      檢測(cè)系統(tǒng)雖然無(wú)法從根本上解決字幕人名條中錯(cuò)打時(shí)政名人名字的問題,但通過(guò)對(duì)匹配成功的人名進(jìn)行標(biāo)注提示,提高了字幕員人工校對(duì)的效率,也大大降低了字幕出錯(cuò)的概率。檢測(cè)系統(tǒng)在2017年10月初建成并投入使用,為2017年十九大、2018年廣西“兩會(huì)”和全國(guó)“兩會(huì)”等重要保障期的新聞安全播出做出了貢獻(xiàn)。

      猜你喜歡
      字符串新聞標(biāo)題字幕
      Word和Excel聯(lián)手字幕添加更高效
      談新聞標(biāo)題的現(xiàn)實(shí)性
      活力(2019年22期)2019-03-16 12:49:06
      網(wǎng)絡(luò)新聞標(biāo)題與報(bào)紙新聞標(biāo)題的對(duì)比
      活力(2019年22期)2019-03-16 12:48:00
      無(wú)意間擊中幽默的新聞標(biāo)題
      喜劇世界(2016年9期)2016-08-24 06:17:26
      整合適應(yīng)選擇度下的動(dòng)畫電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
      論紀(jì)錄片的字幕翻譯策略
      人間(2015年22期)2016-01-04 12:47:26
      淺談新聞標(biāo)題的裝扮技巧
      新聞傳播(2015年22期)2015-07-18 11:04:06
      一種新的基于對(duì)稱性的字符串相似性處理算法
      依據(jù)字符串匹配的中文分詞模型研究
      一種針對(duì)Java中字符串的內(nèi)存管理方案
      高邑县| 常宁市| 宁波市| 商都县| 五台县| 那曲县| 大英县| 柘荣县| 刚察县| 正定县| 东平县| 太白县| 启东市| 万源市| 酉阳| 汝州市| 洛南县| 卓资县| 广宗县| 苍南县| 潜江市| 申扎县| 资兴市| 商洛市| 巴塘县| 卓尼县| 新乐市| 府谷县| 永寿县| 宁强县| 兰州市| 商水县| 泸溪县| 罗田县| 修武县| 华安县| 南丰县| 丽水市| 喀喇| 娄烦县| 高阳县|