• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學習的電視劇劇名識別在廣電中的應用

      2022-12-27 08:50:26江西廣播電視臺播出部羅曉松南昌市330006
      江西通信科技 2022年4期
      關鍵詞:池化字符過濾器

      江西廣播電視臺播出部 羅曉松 南昌市 330006

      中國移動通信集團江西有限公司網(wǎng)絡管理中心 張 翼 南昌市330031

      0 前言

      電視劇豐富多彩,在日常的電視播出節(jié)目中,根據(jù)劇情、播出時長等將電視劇分為集數(shù)播出,然而海量的電視劇名也給電視劇的審核帶來一定困擾。電視劇播出中出現(xiàn)播出本集電視劇,下一劇應該播出本劇的下一集,而出現(xiàn)播出本集、上一集或者跳躍播出的情況,以往的電視劇審核只能通過人工進行審核,需要花費大量的時間精力。

      早期對視頻中文字的提取檢測,可利用OCR技術展開工作[1]。隨著人工智能技術的發(fā)展,運用人工智能神經(jīng)網(wǎng)絡結構,設計以深度學習技術為基礎,對視頻智能審核的系統(tǒng),越來越多地被應用于廣電行業(yè)[2-4]。如佟明[5]將深度學習的智能審核系統(tǒng)應用在IPTV播控平臺中,高志恒[6]結合各個頻道的臺標特點,利用人工智能技術,能夠精準地識別電視臺臺標,并對臺標進行24小時實時檢測。本文提出了深度學習的電視劇劇名識別,能夠精準地識別出電視劇名,并通過節(jié)目單劇名與電視劇視頻中的播出電視劇名進行劇名匹配,以確保播出的電視劇符合劇情安排,提高電視劇審核的準確性。

      1 劇名識別原理

      1.1 OCR識別技術

      OCR(Optical Character Recognition)光學字符識別技術,主要應用是將電視節(jié)目中的字幕信息轉換為文本信息,其具體流程如下圖1所示,首先對圖像進行預處理,再將版面劃分包含直線檢測以及傾斜檢測,經(jīng)過字符定位切分、字符識別、版面恢復、后處理、校對等輸出識別結果。

      圖1 OCR識別技術框圖

      OCR識別技術的圖像預處理是將原始圖像去噪,將彩色圖像灰度化、二值化處理、圖像變化角度檢測、矯正處理等。電視劇中的劇名文字字體為楷書,不需要圖像變化角度檢測、矯正處理,經(jīng)過二值化的字體筆畫步出現(xiàn)空白,其基本的筆畫維持原有的特征。其內(nèi)容為第一集,第二集等短短的一行且僅有幾個文字字符,文字出現(xiàn)在某一特定的行。在子切分階段不存在英文文字、間隔符、符號、字間污點的干擾,直接把文本中的單字行切分為單字。字切分大致分為兩個過程,首先是求出文字左右界,其次是合并部件為完整的文本漢字。字切分算法采用最大寬度回溯切分。首先,根據(jù)漢字是方塊字的特點,以平均行寬作為字寬w的參考值:w=其中N為整個文本塊的行數(shù)ia,ib分別為第i行的上、下界。設文字的最大寬度為wm回溯范圍為d,第j個字的起始位置為ja,結束位置為jb。

      經(jīng)重復以下算法步驟,完成對電視劇名中字符的切割:

      (1)在ja≤j≤ja+wm范圍內(nèi)計算第一個0(L為每行的高度)的點,定義為jb,從而切出ja至jb之間的單個文字圖像。假如沒有這樣的點,轉至第(5)步。

      (2)若ja-jb<δ(δ為不足一個最小的字符寬),則為噪聲干擾,不計,轉至第(3)步;否則轉至第(4)步。

      (3)jb≤j≤ja+wm范圍內(nèi)計算第一個的點,設為jb,從而切出至ja至jb之間的單個文字圖像;若不存在這樣的點,則轉到第(5)步。

      (4)用字典對上述切割出的圖像進行匹配,若匹配成功,記下jb,轉第(6)步;否則轉第(3)步。

      (5)在ja+wm-d≤j≤ja+wm范圍內(nèi)求出使得取值最小的點,記為jb。

      (6)從jb作垂線即為文字的分界線,即右邊界,第j字的寬度為ja至jb。

      (7)從jb開始,計算設為j,a,且j,a>j,b,則j,a為第j+1個文字的左邊界。

      在完成字符切割后,使用基于網(wǎng)格化的方式提取電視劇名特征。首先使用歸—化處理將字符的外部邊框轉換為32×16個像素,把圖像分成3×3=9個小格子,在每個格子中統(tǒng)計其黑像素的個數(shù),從而形成—個9維矢量;再將標準字符的13維特征量提取出來,保存在系統(tǒng)中。進行字符識別時,當遇到—個新的字符的時候,提取它的13維特征向量,求出待識別字符的特征向量與系統(tǒng)中保存的標準字符的特征向量的差別,最小—值為識別結果。

      1.2 卷積神經(jīng)網(wǎng)絡

      卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks)是一類包含卷積運算的深度前饋神經(jīng)網(wǎng)絡,簡稱CNN。卷積神經(jīng)網(wǎng)絡通常由輸入層、卷積層、池化層、全連接層和輸出層組成。在卷積神經(jīng)網(wǎng)絡中,每個神經(jīng)元均包含寬度、深度和高度三維結構,一個卷積層可以包含多個不同的卷積核。使用數(shù)字對圖像的灰度特征進行賦值,每個卷積核在輸入圖像上按照一定方式滑動,且每次只處理部分圖像信息,直到處理完全部的圖像,這樣卷積層就提取到了整個圖像的灰度特征信息,這些特征信息經(jīng)過處理后將代表輸入的圖像。

      如圖3(a)是一個6×6的圖像灰度矩陣,構造一個3×3的矩陣,該3×3的矩陣在卷積神經(jīng)網(wǎng)絡中通常稱之為卷積核。如對6×6矩陣做卷積運算,以最右下角的-11計算為例,其計算過程如下式1所示:

      圖3(a)最左側圖中的其他數(shù)字讓過濾器在圖像中按照同樣的計算方法逐步運行至最右端,又移動至最左端下一行重復上面的步驟,這樣對整個6×6的矩陣進行卷積得到4×4的圖像。特別地,當卷積核中的數(shù)字如圖2(a)一樣排列時,則稱之為垂直過濾器,水平過濾器則如圖2(b)所示。在卷積神經(jīng)網(wǎng)絡中,把這些過濾器當成我們要學習的參數(shù),卷積神經(jīng)網(wǎng)絡訓練的任務就是去理解這些過濾器的參數(shù)。我們再反過來就可以得到圖3(a)與(b)中的垂直與水平的值,如圖3所示,我們以圖3(b)第一行第二個數(shù)值-4為例,其計算方法如式2所示:

      圖2(a)垂直過濾器 (b)水平過濾器

      圖3 卷積示意圖

      在上述部分中,我們使用一個3×3大小的過濾器對6×6的圖像進行卷積,得到了4×4的圖像。假定輸出圖像大小為n×n,過濾器大小為f×f,輸出圖像大小則為(n-f+1)×(n-f+1)。卷積步長是指過濾器在圖像上進行滑動的距離,在前部分進行卷積時的步長值均默認為數(shù)值1,如果卷積步長的數(shù)值為2,那么在卷積運算過程就會出現(xiàn)變動,如下圖4所示。輸入的圖像大小為7×7,過濾器大小為3×3,步長的大小為2,則計算出的輸出圖像大小如下式2-7所示。其結果可用3×3的矩陣表示。相比于圖4的最左邊的7×7的矩陣,它長與寬的值大小均減少了4個單位。我們將左圖的7×7圖像與過濾器依次進行卷積,左圖第一個框與過濾器的值對應為-3,后續(xù)框卷積的值依次為4、5;同理,第二排值依次為-1、-6、-2,第二排值依次為0、8、6。這樣就得到了圖4的右圖。

      圖4 卷積步長示意圖

      加入步長后的卷積圖像大小的通用計算公式可以通過用輸入圖像的邊長大小用n表示,過濾器邊長大小用f進行表示,卷積步長用s進行表示,而p表示填充的大小,那么輸出的圖像大小為:

      卷積神經(jīng)網(wǎng)絡的池化層,最大池化的思想可以用下圖5進行表示。最大池化計算的是最大值,它首先把6×6的圖像分割成4個不同的區(qū)域,每一種顏色均代表一個區(qū)域,再直接輸出每個區(qū)域內(nèi)最大的數(shù)字值,得到的結果如圖中的右上角所示。平均池化是將圖像中的每個區(qū)域進行相加,再除以該區(qū)域內(nèi)的方格個數(shù),如下圖5的平均池化所示。平均池化與最大池化唯一的不同是它計算的是圖像區(qū)域內(nèi)的平均值。

      圖5 池化示意圖

      最后是卷積神經(jīng)網(wǎng)絡的全連接層與輸出層。卷積神經(jīng)網(wǎng)絡的全連接層與傳統(tǒng)神經(jīng)網(wǎng)絡中隱藏層的作用一樣,用于連接上一層的全部神經(jīng)元,并將上一層的三維矩陣變成為向量的形式;輸出層則是將神經(jīng)元的輸出方式轉換成預測分類的概率,這個概率值通常用 最大化回歸模型計算。

      2 劇名識別系統(tǒng)

      本實驗數(shù)據(jù)集來自電視臺日常播出的電視劇,包含大量的高清、標清電視劇視頻。經(jīng)過大量的數(shù)據(jù)訓練,得到基于深度學習的卷積網(wǎng)絡模型。該系統(tǒng)主要包括圖像采集、圖像處理、圖像顯示功能模塊,功能結構圖如下圖6所示。圖6(a)為圖像采集模塊,包含兩臺上載錄像機,上載操作界面。在平時的節(jié)目上載中,將需要上載的節(jié)目(P2卡、磁帶)插入上載錄像機中,在上載界面打開上載模塊提取與之對應的節(jié)目,點擊上載即可完成視頻的采集,同時與之對應的上載通道可顯示出節(jié)目視頻。圖6(b)為圖像處理模塊,由兩臺包含卷積深度學習的卷積神經(jīng)網(wǎng)絡系統(tǒng)的計算機組成。上載的視頻一路傳至視頻服務器,另一路通過近線傳至圖像處理板塊。圖6(c)為圖像顯示模塊,該模塊將電視劇名檢測結果顯示在系統(tǒng)的可視化界面上,可直觀看到系統(tǒng)檢測分類的結果,與節(jié)目單中的文件名進行比較,可直觀看到電視劇名匹配的結果。如匹配結果不一致,系統(tǒng)則會報警并顯示出電視劇劇名不一致的具體信息。

      圖6 劇名識別系統(tǒng)

      3 結束語

      本文提出基于深度學習的電視劇劇名識別,能夠通過卷積神經(jīng)網(wǎng)絡快速地完成電視劇名的檢測,并將節(jié)目單劇名與電視劇視頻中的電視劇名進行劇名匹配,可準確快捷智能完成電視劇名審核,有效提高電視劇審核效率,同時確保播出的電視劇符合劇情安排,提高電視劇審核的準確性。

      猜你喜歡
      池化字符過濾器
      面向神經(jīng)網(wǎng)絡池化層的靈活高效硬件設計
      基于Sobel算子的池化算法設計
      尋找更強的字符映射管理器
      卷積神經(jīng)網(wǎng)絡中的自適應加權池化
      軟件導刊(2022年3期)2022-03-25 04:45:04
      字符代表幾
      一種USB接口字符液晶控制器設計
      電子制作(2019年19期)2019-11-23 08:41:50
      基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
      消失的殖民村莊和神秘字符
      支持過濾器的REST模型研究與實現(xiàn)
      電子測試(2018年9期)2018-06-26 06:45:56
      聲音過濾器
      趣味(語文)(2018年2期)2018-05-26 09:17:55
      莱州市| 石城县| 波密县| 枣庄市| 威海市| 静安区| 沾益县| 柳州市| 从江县| 海淀区| 和平区| 张家港市| 江达县| 海阳市| 盘锦市| 亚东县| 临西县| 岳西县| 香河县| 宜君县| 浦北县| 临沂市| 隆德县| 同仁县| 鹤山市| 萍乡市| 土默特右旗| 兴安县| 日照市| 调兵山市| 宝鸡市| 遂平县| 长武县| 金华市| 温州市| 商河县| 绥化市| 孟州市| 旬邑县| 库车县| 大新县|