基于YOLOv3與碼率重分配的視頻直播系統(tǒng)

2021-07-31 10:52:08林鵬程

物聯(lián)網(wǎng)技術 2021年7期

林鵬程

（廈門大學嘉庚學院信息科學與技術學院，福建漳州 363105）

0 引言

視頻流是直播行業(yè)的主要載體，其傳輸質量影響著最終的呈現(xiàn)效果以及用戶體驗。然而受限于帶寬和資源，視頻在傳輸過程中常采用低碼率壓縮[1]。這意味著壓縮后的視頻會丟失重要的細節(jié)，比如人物主播臉部的細節(jié)、美食外觀紋理等，諸如此類都是用戶的感興趣區(qū)域[2]（Regions of Interest,ROI）。提高ROI的碼率可提高區(qū)域的視頻流質量與用戶的觀看體驗。最重要的是，在帶寬一定的情況下，提高ROI碼率的同時降低背景碼率能夠保證整體碼率處于穩(wěn)定狀態(tài)，解決直播服務中帶寬的限制問題。

目前，已有諸多文獻做過相關研究。文獻[3]利用圖像小波變化得到圖像的ROI，再進行區(qū)分編碼；文獻[4]利用支持向量機檢測出圖片的ROI區(qū)域并在JPEG2000的基礎上進行分區(qū)域壓縮，結果表明，ROI壓縮方式能得到區(qū)域清晰的圖片；文獻[5]基于壓縮感知提取ROI區(qū)域并編碼，提供了一種可行的ROI圖像編碼方法。之后，研究者把目光轉向視頻壓縮領域[6]。文獻[7]根據(jù)圖像復雜度和能量設定不同的權重因子，以此重新分配碼率；文獻[8]分別對時空域λ和QP值進行調(diào)整限制；文獻[9]在率失真理論基礎上，對ROI失真估計進行縮放，以提高ROI碼率及優(yōu)先權。但上述研究還存在一些問題：研究停留在仿真層面，未在實際系統(tǒng)中實現(xiàn)，尤其在對算法實時性要求高的場景。本文在直播系統(tǒng)的基礎上設計了一種基于YOLOv3與碼率分配的ROI編碼方法。在提取階段，使用YOLOv3對視頻進行ROI提取，同時采用TensorRT加速模型；在編碼階段通過復雜度評估重新分配碼率。實驗數(shù)據(jù)表明，本文方法在改善ROI視頻質量的同時，能滿足直播對壓縮速度的要求。

1 系統(tǒng)結構與處理流程

本文結構將作為在Nginx直播平臺的插件運行，系統(tǒng)框架如圖1所示。

圖1 系統(tǒng)框架

當用戶端把需要直播的音視頻流推送到服務端的Nginx時，Nginx將數(shù)據(jù)傳送到本文結構，經(jīng)過ROI檢測并進行碼率重分配、編碼后，重新生成壓縮的數(shù)據(jù)回傳至Nginx，由此，服務端便可為用戶提供高質量的音視頻流服務。

本文結構對ROI處理的主要流程如圖2所示。當接收到Nginx傳來的視頻幀數(shù)據(jù)時，先解壓視頻幀數(shù)據(jù)，得到原始YUV視頻數(shù)據(jù)，接著進行如下操作：

圖2 系統(tǒng)處理過程

（1）初步處理：將視頻YUV數(shù)據(jù)轉化為模型推流所需的RGB格式數(shù)據(jù)，并進行歸一化處理；

（2）模型推理：將視頻數(shù)據(jù)輸入YOLOv3模型，檢測ROI。推理時采用基于GPU加速的TensorRT框架加速模型推理，運用多線程進行多流水線同時推理，提高推理速度；

（3）后處理：模型推理得到的數(shù)據(jù)是關于ROI位置的概率矩陣—box信息，因此需要對概率排序、篩選，最終確定是否為ROI。若為ROI，則需激活box信息。系統(tǒng)選用ReLU函數(shù)作為激活函數(shù)，得到當前視頻幀ROI的位置坐標；

（4）box信息傳遞：ROI的位置坐標用于編碼，因此需要將該信息傳入libx264編碼庫。本系統(tǒng)采用FFmpeg中預留的libx264接口將信息傳入底層libx264；

（5）碼率重分配：在編碼之前，根據(jù)對幀內(nèi)各宏塊復雜度的估計，重新分配各宏塊的碼率，分配不同的QP值對幀內(nèi)宏塊進行調(diào)整編碼；

（6）封裝視頻流：重新壓縮后的視頻數(shù)據(jù)可使用FFMpeg封裝成易于網(wǎng)絡傳輸?shù)腗P4、FLV格式，供用戶觀看。

2 碼率分配原理

原始的分配方式可分為幀間分配和幀內(nèi)分配。前者根據(jù)設定的碼率分配緩沖區(qū)，編碼前根據(jù)每個幀的復雜度、剩余緩沖區(qū)給每個幀分配對應的碼率，并通過線性關系轉化為QP值[10]；后者根據(jù)幀內(nèi)每個宏塊的復雜度，將前者分配的碼率按權重分配給各宏塊，并轉化為各宏塊的QP值偏置量。最后，在編碼階段，編碼器將根據(jù)QP值與偏置量對每個宏塊進行量化。該碼率分配方式較均勻，本文在幀內(nèi)編碼階段將背景區(qū)域的碼率轉化為ROI的碼率，以此提高ROI的質量。若一幀的碼率為Rf，ROI的碼率為Rr，背景的碼率為Rb，三者關系如下：