郭冰奇 李志揚(yáng) 鄧?yán)? 楊澤信 鄒穎
摘要:目前教學(xué)網(wǎng)站提供的教師講課視頻一般以課時(shí)為單位,時(shí)長(zhǎng)很長(zhǎng),而且知識(shí)點(diǎn)繁多。本文提出了一種可以快速將視頻根據(jù)知識(shí)點(diǎn)進(jìn)行剪輯整理的方法。該方法首先采用語(yǔ)音識(shí)別技術(shù)將視頻中的語(yǔ)音轉(zhuǎn)化成文字,生成字幕文件,然后借助字幕文件中關(guān)鍵詞出現(xiàn)的時(shí)間段對(duì)整個(gè)教學(xué)視頻進(jìn)行分節(jié)或提取知識(shí)點(diǎn),制作成帶有字幕的教學(xué)短視頻。采用這種根據(jù)知識(shí)點(diǎn)分節(jié)的短視頻,學(xué)生可以依據(jù)自己的興趣重點(diǎn)搜索、學(xué)習(xí)相關(guān)知識(shí)點(diǎn)視頻,而不是整個(gè)視頻,從而大量減輕學(xué)生負(fù)擔(dān),提高學(xué)習(xí)效率。
關(guān)鍵詞:語(yǔ)音識(shí)別;視頻剪輯;知識(shí)點(diǎn);字幕
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)26-0006-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
A Teaching Video Clip Method Based on Speech Recognition
GUO Bing-qi,LI Zhi-yang, DENG Lei, YANG Ze-xin, ZOU Ying
(College of Physical Science and Technology, Central China Normal University, Wuhan 430079, China)
Abstract: Presently the videos on most teaching websites are provided in time unit of the class hour, which are relatively long and consist of lots of knowledge points. The paper proposed a method to clip the video quickly according to knowledge points. The method first uses the speech recognition technology to convert the speech in a teaching video into text, producing a subtitle file. Then, it divides the whole video into sections or extracts the knowledge points based on the time stamp of the keywords in the subtitle file, yielding short teaching videos with subtitles. With such short videos? students may search and focus on their interested knowledge points without referring the whole video.
Key words:? speech recognition; video editing; knowledge; subtitles
1 引言
近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上教學(xué)模式逐漸興起,直播授課[1]和視頻教學(xué)等軟件層出不窮,如在疫情影響下被廣泛使用的釘釘直播授課軟件以及功能豐富的中國(guó)大學(xué)MOOC教學(xué)網(wǎng)站,不但可以線上授課,還具備上課簽到、提交作業(yè)和學(xué)生管理等豐富的功能,而且教師完成授課后視頻被永久的保存在了網(wǎng)站中,供學(xué)生課后重復(fù)觀看復(fù)習(xí)知識(shí)點(diǎn)。但是這樣保存的原始教學(xué)視頻一般時(shí)長(zhǎng)較長(zhǎng),而且知識(shí)點(diǎn)繁多,當(dāng)學(xué)生只想針對(duì)性地學(xué)習(xí)某一個(gè)知識(shí)點(diǎn)時(shí)也必須瀏覽整個(gè)視頻,浪費(fèi)大量的學(xué)習(xí)時(shí)間。
針對(duì)時(shí)長(zhǎng)長(zhǎng)且知識(shí)點(diǎn)繁多的教學(xué)視頻,本文提出了一種快捷剪輯整理方法,它借助語(yǔ)音識(shí)別技術(shù)[2-4]識(shí)別視頻中的知識(shí)點(diǎn),然后根據(jù)知識(shí)點(diǎn)進(jìn)行視頻切分。該方法可用于教學(xué)網(wǎng)站的視頻數(shù)據(jù)整理,有助于提升學(xué)生學(xué)習(xí)效率。
2 基于語(yǔ)音識(shí)別的視頻處理算法框架與原理
本文提出的基于語(yǔ)音識(shí)別的視頻剪輯整理方法,其處理流程如圖1所示。首先選擇一個(gè)教學(xué)視頻,然后對(duì)其進(jìn)行語(yǔ)音識(shí)別,獲得字幕文件。由于字幕文件中每一句文字都記錄了相對(duì)應(yīng)的視頻時(shí)間段,借助關(guān)鍵詞出現(xiàn)的時(shí)間段可以對(duì)整個(gè)教學(xué)視頻進(jìn)行分節(jié)或提取知識(shí)點(diǎn)。最后根據(jù)字幕文件將文字內(nèi)容插入原始視頻,得到帶字幕的以小節(jié)或知識(shí)點(diǎn)為單位的教學(xué)短視頻。
圖1中語(yǔ)音識(shí)別所采用的算法框架與流程如圖 2 所示,主要包括預(yù)處理與數(shù)字化、特征提取、聲學(xué)模型、語(yǔ)言學(xué)模型和解碼搜索等5個(gè)方面:
①預(yù)處理與數(shù)字化。把語(yǔ)音信號(hào)進(jìn)行采樣和量化,使之變成頻域離散信號(hào),采樣頻率應(yīng)取信號(hào)最高頻率的兩倍以上,然后對(duì)得到的頻域信號(hào)進(jìn)行加窗,窗函數(shù)在信號(hào)上移動(dòng),把信號(hào)分成幀,幀與幀之間的偏移取1/2。
②特征提取。本文采用的聲學(xué)特征提取方法是“梅爾頻率倒譜系數(shù)(MFCC)[5-6]”,對(duì)①中的信號(hào)幀進(jìn)行FFT變換求頻譜,然后求得幅度譜[|Xn(k)|](其中,k=0,1,2...)。幅度譜存在大量冗余信息,可以通過(guò)Mel濾波器組對(duì)其進(jìn)行簡(jiǎn)化提煉,步驟如下:
根據(jù)[fmel(f)=2595.log(1+f700HZ)](其中[fmel(f)]是Mel頻率,[f]是語(yǔ)音信號(hào)的實(shí)際頻率)求出最大的Mel頻率[fmax[mel]]。然后在Mel頻率軸上配置K個(gè)通道的三角形濾波器組(K由信號(hào)截至頻率決定)。在Mel刻度范圍內(nèi),任一三角濾波器的中心頻率都是等間隔的線性分布,因此,可以通過(guò)公式[Δmel=fmaxk+1]計(jì)算相鄰三角濾波器中心頻率的間距。
設(shè)第x個(gè)濾波器的下限、中心和上限頻率分別是d(x),b(x),u(x),則相鄰三角形濾波器的下限,中心,上限頻率的關(guān)系如下:b(x)=u(x-1)=d(x+1)。根據(jù)語(yǔ)音信號(hào)幅度譜[|Xn(k)|]求每個(gè)濾波器的輸出。公式如下: