宋文喆
(國(guó)家廣電總局291臺(tái),蘭州 730105)
隨著廣播電視節(jié)目?jī)?nèi)容的發(fā)展和創(chuàng)新,以及觀眾對(duì)高品質(zhì)節(jié)目?jī)?nèi)容需求的不斷增大,需要對(duì)海量的廣播電視節(jié)目進(jìn)行內(nèi)容方面的監(jiān)管和核查,杜絕虛假?gòu)V告、不良內(nèi)容出現(xiàn)在廣播電視媒體和節(jié)目當(dāng)中[1]。對(duì)于節(jié)目?jī)?nèi)容的監(jiān)管,需要進(jìn)行節(jié)目時(shí)長(zhǎng)、數(shù)量的統(tǒng)計(jì),違規(guī)內(nèi)容的研判,播出情況的分析,還需將海量的核查信息與對(duì)應(yīng)的視音頻文件建立關(guān)聯(lián),方便信息的檢索與分析,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一描述和管理[2]。
針對(duì)上述情況,本文研究從多維度的角度對(duì)視音頻文件進(jìn)行基于標(biāo)簽的描述與統(tǒng)一管理,包括空間信息、視音頻信息、時(shí)間信息、采集來(lái)源、監(jiān)測(cè)研判、監(jiān)測(cè)人員等六個(gè)維度,完成廣播電視違規(guī)節(jié)目的多維度描述、多維度存儲(chǔ)、多維度檢索。在此基礎(chǔ)上設(shè)計(jì)違規(guī)節(jié)目?jī)?nèi)容綜合管理平臺(tái),實(shí)現(xiàn)視音頻文件的內(nèi)容描述、存儲(chǔ)、檢索功能,提高廣播電視違規(guī)節(jié)目?jī)?nèi)容核查與監(jiān)管的能力。
違規(guī)節(jié)目?jī)?nèi)容多維度描述體系的主要任務(wù)是對(duì)視音頻文件及其相關(guān)聯(lián)的描述文件(節(jié)目播出情況表)進(jìn)行處理,讓兩者相互關(guān)聯(lián),并批量導(dǎo)入系統(tǒng)數(shù)據(jù)庫(kù),使紛繁雜亂的數(shù)據(jù)得到有序管理,為后續(xù)的違規(guī)節(jié)目信息檢索以及數(shù)據(jù)統(tǒng)計(jì)分析做好準(zhǔn)備。
具體流程主要包括以下兩部分:
(1)關(guān)于違規(guī)節(jié)目原始數(shù)據(jù)的預(yù)處理,將視頻文件與相關(guān)的描述文件(節(jié)目播出情況表)進(jìn)行關(guān)聯(lián)匯聚并導(dǎo)入數(shù)據(jù)庫(kù),以預(yù)先設(shè)定好的六大維度描述體系對(duì)違規(guī)節(jié)目視音頻文件進(jìn)行統(tǒng)一描述;
(2)關(guān)于違規(guī)節(jié)目統(tǒng)一描述數(shù)據(jù)的處理,使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)被管理數(shù)據(jù)的規(guī)律、共性特征,以此為基礎(chǔ)建立基于標(biāo)簽的內(nèi)容關(guān)鍵詞庫(kù),方便對(duì)違規(guī)節(jié)目信息、數(shù)據(jù)進(jìn)行檢索及統(tǒng)計(jì)分析。
具體處理流程如圖1所示:
圖1 數(shù)據(jù)處理流程圖
為了更好地描述與利用視音頻節(jié)目的信息,建立一定的描述體系對(duì)其進(jìn)行系統(tǒng)化地描述與分類(lèi),將從空間信息、視音頻信息、時(shí)間信息、采集來(lái)源、監(jiān)測(cè)研判、監(jiān)測(cè)人員等六個(gè)維度進(jìn)行描述和記錄,實(shí)現(xiàn)對(duì)違規(guī)節(jié)目?jī)?nèi)容的信息管理。六個(gè)維度各有子維度予以支撐,相互之間建立映射關(guān)系,可以完全描述違規(guī)視音頻節(jié)目的有用信息,對(duì)于描述信息不足的,可以人工補(bǔ)充。根據(jù)視音頻描述信息的所屬維度,細(xì)化到標(biāo)簽名稱(chēng),將具體節(jié)目播出情況表中信息填入到映射字段中,方便將節(jié)目播出情況表中內(nèi)容導(dǎo)入到系統(tǒng)中。
具體的設(shè)計(jì)方案如下:
(1)空間信息
空間信息國(guó)家/地區(qū)省份城市其他
空間信息子維度都以列表的形式展示,點(diǎn)擊進(jìn)入配置界面可進(jìn)行內(nèi)容上的管理與維護(hù),包括增、刪、改、查。對(duì)于前臺(tái),進(jìn)行標(biāo)簽標(biāo)注時(shí),采用級(jí)聯(lián)下拉框的形式進(jìn)行展示,選擇對(duì)應(yīng)的區(qū)域然后提交后,系統(tǒng)自動(dòng)保存數(shù)據(jù)。
(2)視音頻信息
視音頻信息名稱(chēng)所屬頻道節(jié)目類(lèi)別內(nèi)容簡(jiǎn)介違規(guī)類(lèi)型記錄原因
視音頻信息是違規(guī)節(jié)目?jī)?nèi)容研判的主要信息,要求詳細(xì)填寫(xiě),以文本輸入類(lèi)型為主,且字量要設(shè)置的盡量大,滿(mǎn)足文本輸入要求。其中,節(jié)目類(lèi)別為廣播電視具體播出的節(jié)目形態(tài),如養(yǎng)生類(lèi)節(jié)目、醫(yī)藥廣告、購(gòu)物短片廣告、招商加盟類(lèi)廣告,付費(fèi)頻道的專(zhuān)業(yè)節(jié)目,購(gòu)物頻道的購(gòu)物節(jié)目等,要包括目前所有的業(yè)務(wù)形態(tài);違規(guī)類(lèi)型是對(duì)視音頻文件研判后的定性結(jié)果,是詳細(xì)展示的描述信息;記錄原因是廣播電視節(jié)目違規(guī)情況的具體描述。上述子維度信息均可進(jìn)行內(nèi)容上的修改和維護(hù),并且可以根據(jù)實(shí)際業(yè)務(wù)需求增加和調(diào)整子維度。
(3)時(shí)間信息
時(shí)間信息開(kāi)始時(shí)間結(jié)束時(shí)間視頻時(shí)長(zhǎng)日期
廣播電視節(jié)目有大量的重播情況,故時(shí)間信息是關(guān)聯(lián)違規(guī)視音頻文件的重要信息。上述子維度均為可配置項(xiàng),即名稱(chēng)、數(shù)據(jù)類(lèi)型都可在后臺(tái)配置,兼容文本輸入、日期等類(lèi)型。
(4)采集來(lái)源
廣播電視節(jié)目監(jiān)管根據(jù)任務(wù)的不同而采用不同的業(yè)務(wù)系統(tǒng),采集來(lái)源信息主要針對(duì)此情況而設(shè)置,如衛(wèi)星系統(tǒng)、有線電視系統(tǒng)、廣播監(jiān)測(cè)系統(tǒng)等。
(5)監(jiān)測(cè)研判
監(jiān)測(cè)研判任務(wù)來(lái)源任務(wù)類(lèi)型
其中,任務(wù)來(lái)源主要是標(biāo)明該任務(wù)是從上級(jí)哪個(gè)廣播電視監(jiān)測(cè)監(jiān)管部門(mén)下發(fā)的,以便后續(xù)的歸類(lèi)和分析;任務(wù)類(lèi)型則包括衛(wèi)視廣告監(jiān)看、地面電視廣告監(jiān)看、廣播廣告監(jiān)聽(tīng)等內(nèi)容。每個(gè)任務(wù)都會(huì)對(duì)應(yīng)不同的任務(wù)來(lái)源和任務(wù)類(lèi)型。
(6)監(jiān)測(cè)人員
監(jiān)測(cè)人員部門(mén)職位姓名
監(jiān)測(cè)人員信息主要用于明確責(zé)任。上述子維度均可在后臺(tái)進(jìn)行靈活配置,以方便維護(hù)與擴(kuò)展,兼容文本輸入、日期等數(shù)據(jù)類(lèi)型。
在廣播電視節(jié)目?jī)?nèi)容監(jiān)管中,通過(guò)違規(guī)敏感詞庫(kù)進(jìn)行節(jié)目?jī)?nèi)容合規(guī)性篩查,并且需要較高的完整性和準(zhǔn)確性。面對(duì)海量的視音頻文件與相關(guān)描述信息,需要做大規(guī)模的收集和整理,使原本混亂的信息變的有序化,方便違規(guī)內(nèi)容的檢索和展示?;诖诵枰⑦`規(guī)內(nèi)容關(guān)鍵詞庫(kù),將敏感詞納入多維度描述體系中,依托標(biāo)簽語(yǔ)義體系模型,對(duì)違規(guī)標(biāo)簽進(jìn)行語(yǔ)義擴(kuò)展,實(shí)現(xiàn)標(biāo)簽語(yǔ)義化處理。該系統(tǒng)從違規(guī)節(jié)目?jī)?nèi)容六大維度中選取的一些標(biāo)簽項(xiàng)加入關(guān)鍵詞庫(kù),作為違規(guī)節(jié)目?jī)?nèi)容的標(biāo)準(zhǔn)標(biāo)簽,對(duì)廣播電視節(jié)目?jī)?nèi)容基于分詞技術(shù)進(jìn)行數(shù)字特征提取,利用標(biāo)準(zhǔn)特征庫(kù)的并行交叉匹配算法和智能比對(duì)技術(shù),提供標(biāo)準(zhǔn)的匹配、比對(duì)、檢索的并行接口,即相當(dāng)于形成一個(gè)詞表用以提高非法違規(guī)廣播電視節(jié)目的檢測(cè)的準(zhǔn)確度和速度。對(duì)于以后新增加的視頻節(jié)目信息,如果其導(dǎo)入的內(nèi)容與關(guān)鍵詞庫(kù)中相同或者相似,就判斷這個(gè)視頻節(jié)目也有可能是違規(guī)節(jié)目。例如將敏感人物的標(biāo)簽加入到關(guān)鍵詞庫(kù)當(dāng)中,與其相應(yīng)的信息便可方便查詢(xún)和檢索,有助于監(jiān)控特定、潛在的節(jié)目違規(guī)情況。以六個(gè)描述維度以及現(xiàn)有的視音頻節(jié)目和描述文件為基礎(chǔ),以信息抽取、關(guān)鍵詞庫(kù)構(gòu)建為技術(shù)手段,獲取廣播電視頻率頻道播出的違規(guī)節(jié)目綜合信息,及時(shí)歸納違規(guī)節(jié)目的總量與分布規(guī)律,豐富監(jiān)管人員在知識(shí)儲(chǔ)備、關(guān)注領(lǐng)域、研判規(guī)律等方面的知識(shí)貯備和交流,最大限度地發(fā)揮內(nèi)容資源的優(yōu)化與共享。當(dāng)新任務(wù)下達(dá)時(shí),可以通過(guò)查詢(xún)關(guān)鍵詞庫(kù)得到對(duì)于特定時(shí)間段、特定頻道、特定內(nèi)容或者是特定廣告類(lèi)型的統(tǒng)計(jì)數(shù)據(jù),掌握違規(guī)節(jié)目的歷史播出情況,對(duì)新的監(jiān)管任務(wù)有很大的數(shù)據(jù)支撐作用。
基于以上體系設(shè)計(jì)以及廣播電視節(jié)目?jī)?nèi)容監(jiān)管工作的實(shí)際需求,設(shè)計(jì)完成違規(guī)節(jié)目?jī)?nèi)容多維度綜合管理平臺(tái)。該系統(tǒng)提出靈活、可擴(kuò)展、統(tǒng)一的視音頻多維度描述體系,從空間信息、視音頻信息、時(shí)間信息、采集來(lái)源、監(jiān)測(cè)研判、監(jiān)測(cè)人員等多個(gè)維度對(duì)視音頻違規(guī)內(nèi)容進(jìn)行標(biāo)注,后臺(tái)提供以Tab頁(yè)的形式切換展現(xiàn)不同維度的標(biāo)注信息項(xiàng),用戶(hù)可以隨時(shí)保存輸入的內(nèi)容,能夠有效的解決數(shù)據(jù)孤島問(wèn)題,增強(qiáng)監(jiān)測(cè)數(shù)據(jù)的統(tǒng)計(jì)分析能力,也是后續(xù)建立違規(guī)節(jié)目?jī)?nèi)容關(guān)鍵詞庫(kù)的基礎(chǔ)。通過(guò)自然語(yǔ)言處理技術(shù)與人工相結(jié)合的方式,能夠自動(dòng)識(shí)別并獲取與視音頻節(jié)目?jī)?nèi)容違規(guī)相關(guān)的違規(guī)標(biāo)簽,進(jìn)而能夠建立違規(guī)標(biāo)準(zhǔn)標(biāo)簽庫(kù),讓違規(guī)節(jié)目監(jiān)管工作更加有的放矢,有效提高對(duì)廣播電視違規(guī)節(jié)目?jī)?nèi)容的監(jiān)管能力。
違規(guī)節(jié)目?jī)?nèi)容綜合管理平臺(tái)如圖2所示。
圖2 違規(guī)節(jié)目?jī)?nèi)容綜合管理平臺(tái)
其中,視音頻界面展示違規(guī)節(jié)目視音頻文件,規(guī)范文件命名規(guī)則為“頻道名稱(chēng)+日期+開(kāi)始時(shí)間+節(jié)目名稱(chēng)”。廣播電視會(huì)有大量重播,而且相同節(jié)目會(huì)在不同頻道播出,通過(guò)文件命名的四個(gè)信息的交叉驗(yàn)證,可以將視音頻文件和相關(guān)的違規(guī)節(jié)目描述信息建立對(duì)應(yīng)的映射關(guān)系,確保數(shù)據(jù)關(guān)聯(lián)正確。監(jiān)管人員可在搜索框檢索需要的視音頻文件,并且能夠播放相應(yīng)視音頻,點(diǎn)擊相應(yīng)條目數(shù)據(jù)上的“維度描述”可查看該違規(guī)節(jié)目六個(gè)維度的詳細(xì)描述信息,如圖3所示。
圖3 多維度描述信息
此外,內(nèi)容項(xiàng)管理界面可顯示所有數(shù)據(jù)庫(kù)當(dāng)中的違規(guī)視音頻文件以及相應(yīng)的描述信息,每一行代表不同的違規(guī)視音頻文件以及相應(yīng)描述信息。點(diǎn)擊“維度描述”同樣可查看上圖所示的該違規(guī)節(jié)目詳細(xì)維度描述信息。同時(shí),還可將鼠標(biāo)滑動(dòng)到某行數(shù)據(jù)條目上,系統(tǒng)自動(dòng)彈窗顯示違規(guī)節(jié)目詳細(xì)維度描述信息,如圖4所示。
圖4 內(nèi)容項(xiàng)管理界面
通過(guò)對(duì)廣播電視不同渠道、不同內(nèi)容進(jìn)行監(jiān)管,監(jiān)測(cè)人員的工作時(shí)間越長(zhǎng),處理的違規(guī)內(nèi)容節(jié)目越多,就越能累積相應(yīng)的違規(guī)判斷經(jīng)驗(yàn),這些經(jīng)驗(yàn)?zāi)軌驅(qū)窈蟮墓ぷ饔行е笇?dǎo),提高監(jiān)測(cè)效率。對(duì)違規(guī)視音頻節(jié)目?jī)?nèi)容多維度描述體系的研究,有助于高效管理現(xiàn)有的違規(guī)節(jié)目,對(duì)于違規(guī)視音頻從空間信息、視音頻信息、時(shí)間信息、采集來(lái)源、監(jiān)測(cè)研判、監(jiān)測(cè)人員這六個(gè)維度來(lái)展示其詳細(xì)信息,實(shí)現(xiàn)對(duì)違規(guī)節(jié)目?jī)?nèi)容的監(jiān)控管理功能。將以往以文件形式分散存儲(chǔ)的獨(dú)立數(shù)據(jù),通過(guò)數(shù)據(jù)匯聚將上述數(shù)據(jù)按照多維度描述進(jìn)行匯聚、統(tǒng)一描述并存儲(chǔ),能夠?qū)ι鲜鰯?shù)據(jù)進(jìn)行深度挖掘分析,從而進(jìn)行違規(guī)監(jiān)測(cè)知識(shí)的抽取與沉淀。