韋斌
歐洲發(fā)達國家和地區(qū)(包括我國香港特區(qū)),其數字電視廣播的字幕普遍采用歐洲DVB Subtitling標準,在衛(wèi)星電視、有線電視及地面數字電視廣播上大量采用。目前國內的觀眾可以從香港地面數字電視廣播或亞洲3S衛(wèi)星4000MHz頻點鳳凰衛(wèi)視那組碼流里接觸到該字幕系統。DVB Subtitling系統具有可顯示、可關閉字幕的功能,還可以選擇多種文字字幕服務(前提是運營商提供多語種字幕廣播),這是一種比較人性化的字幕系統,也稱Close Caption。而我們國內電視上常見的內嵌字幕(也稱Open Caption開放型字幕),字幕與圖像是一體的,無法分離,更無法關閉或選多語種,兩者的優(yōu)劣對比,高下立判。圖(1-3)
使用碼流分析軟件,可以看到采用DVB Subtitling標準制作字幕的節(jié)目,有DVB Subtitles字樣的TS私有流,即為DVB字幕。
用 VLC media player 等軟件播放能顯示 DVB Subtitles字幕。DVB Subtitles為圖形字幕,內含時間軸,不能直接提取為文本格式。
提取這種字幕,可以用OCR光學字符識別軟件,把字幕提取出來成為 SUP 或 IDX/SUB 字幕文件。目前能提取DVB字幕的文件為ProjectX及DVBSub2Text,前者可將DVB中的中文及其他文字字幕提取轉換為SUB文件,而DVBSub2Tex暫不支持中文識別,但識別及提取英文或拉丁文字幕卻非常準確便捷,準確率接近100%,可一次性直接轉換為Srt字幕文件?,F我們分別介紹兩種軟件的使用方法。
使用DVBSub2Text
提取英文或拉丁文字幕
1、啟動DVBSub2Text程序。由于目前DVBSub2Text對中文及日文等的支持不理想,識別出來的都是亂碼,我們只用它來OCR識別英文字幕。
2、點擊左上角File Open MPEG -TS,打開電腦中的DVB TS流文件
3、我們要選的是英文字幕轉換,故將前面兩條軌道的勾選框去掉(見圖8)
用記事本直接打開,可以看到我們已經得到一個完整的Srt文件,英文字母的識別率幾乎為100%(當然也偶有錯誤,故最好檢查一遍),但有一些特殊符號,如分隔行的“-”,識別出來的卻變成,我們需要用替換的辦法把它替換為“-”。在記事本中點擊編輯-替換-將替換為-,最后點擊“全部替換”,即可得到一個合格的Srt字幕文件。如果替換效果不佳,還需要人工檢查一下,將亂碼的符號刪除或替換掉。
用這種方法提取DVB Subtitles英文字幕是目前最為便捷高效的辦法。如果我們收錄到國外無中文字幕的DVB節(jié)目,可先用此法分離提取Srt格式字幕,并可在此字幕基礎上,根據英文內容及時間軸制作中文字幕,就要比根據圖像聲音聽譯記錄字幕的方法快捷準確得多了。我不知道網絡上那些美劇字幕組是否是用此法來制作中文字幕,我用此法測試制作的中文版Srt字幕,一部電影只需一個上午就完成字幕翻譯制作工作,連視頻及聲音都不需要打開。
有時會出現字幕時間軸整體提前或滯后幾百毫秒的問題,只需用其他Srt字幕編輯軟件調整一下即可(如SrtEdit2012等),在此不再贅述。
使用ProjectX提取中文字幕
對于非英文或拉丁文的漢語阿拉伯語日語等圖形字幕,目前用DVBSub2Text做OCR識別,還是很不成熟的,出來的都是亂碼,這主要是軟件暫時缺乏字庫支持,如果以后能支持漢字等字庫, DVBSub2Text將是很好用的一款DVB字幕提取軟件,故目前我們只能選用另一種方法。我們這里借助的是ProjectX_0.91.0軟件版本,它是運行在JAVA環(huán)境下的,故需要先下載JAVA軟件,可到其官方網站免費下載。推薦下載脫機版,方便以后在無網絡的地方使用。
ProjectX_0.91.0.zip下載地址為
http://sourceforge.net/projects/project-x/
直接下載地址:
http://sourceforge.net/projects/ ... download?_test=goal
JAVA脫機安裝WIN版的直接下載地址
http://sdlc-esd.sun.com/ESD6/JSC ... Host=javadl.sun.com
這兩款軟件下載安裝完畢后,即可運行ProjectX_0.91.0
現在,需要用另外一個軟件,把提取出來的時間軸及圖形字幕,通過OCR光學字符識別軟件識別出來,這里我們選用國內網友馬健編寫的免費軟件IdxSubOcr,這是目前對漢字OCR識別率最高的軟件。該軟件需要跟微軟Office2003或2007版本的MODI一起使用才有效。我們可以在安裝Offices時選擇安裝MODI(在Office工具選項中選,見圖25),這樣才能有效利用Office自帶的OCR光學識別程序,幫助我們對圖形字幕進行識別。
用IdxSubOcr打開其中一個sub.idx文件。見下圖。這樣可以OCR出繁體字幕。
提取出來的字幕,最好再進行校對,即可完成DVB字幕的抽取。Srt字幕可轉換成多種字幕格式,適合各種用途。
另外,我們在錄制DVB數字電視廣播節(jié)目時,為保證節(jié)目的完整性,往往連片頭、片尾及片中插播的廣告等節(jié)目也錄了進去。在對節(jié)目進行編輯時,需要用其他TS流處理軟件進行分割,舍棄無用的內容后再合并。這其中最重要的是要保留TS流中的原始數據,而有些TS流復用軟件會把DVB Subtitle字幕數據丟失掉(如tsMuXerGui等)。
由于DVB Subtitle字幕制作技術目前僅為個別英國專業(yè)公司所掌握,我們對其代碼還未完全了解,暫時無法提供與DVB Subtitle字幕完全兼容的字幕制作技術。電視機構對外節(jié)目交流如果使用DVB Subtitle字幕,還是需要購買英國某公司的專業(yè)字幕設備。筆者現在找到另外一種非常簡單的DVB字幕制作及播出、解碼的解決方案,可以將Srt字幕直接編碼為TS私有流,與視頻音頻(可以是多音軌)封裝為一套節(jié)目的TS流,在數字電視廣播通道中傳輸與解碼,用戶終端電視機上展現的效果與DVB Subtitling幾乎完全一致,可自由選擇顯示或關閉臺詞字幕,可選多種語種字幕(如果TS流中有多語種字幕),可以認為是目前所知的最簡單實用的DVB字幕系統,而且完全是免費的。此字幕系統已經進行內部多次內部測試,效果相當好。我將于近期公開其制作方法,供有興趣的讀者參考,也歡迎廣電同行進行相關測試。