陳 摯,余 疆
(1.四川外國(guó)語大學(xué) 黨委宣傳部,重慶 沙坪壩 400031;2.亞信科技(中國(guó))有限公司,北京 100086)
交互性、平臺(tái)化已成為媒體融合時(shí)代的重要特點(diǎn)之一。在傳統(tǒng)電視媒體向融媒體轉(zhuǎn)型的過程中,IPTV業(yè)務(wù)迅速增長(zhǎng),已成為體量最大的新媒體電視平臺(tái)以及廣播電視運(yùn)營(yíng)的主要形態(tài)。IPTV即交互式網(wǎng)絡(luò)電視。工業(yè)和信息化部發(fā)布的截至2020年10月《通信業(yè)經(jīng)濟(jì)運(yùn)行情況》數(shù)據(jù)顯示,IPTV(網(wǎng)絡(luò)電視)用戶較快增長(zhǎng),IPTV總用戶數(shù)達(dá)3.12億戶,同比增長(zhǎng)6.2%,比2019年末凈增1 813萬戶。
IPTV每天為用戶提供幾百個(gè)頻率廣播和電視頻道節(jié)目,然而,這些海量的內(nèi)容在滿足了電視用戶需求的同時(shí),也使得用戶尋找所需內(nèi)容變得困難[1]。除了專業(yè)內(nèi)容的豐富,用戶生成內(nèi)容(User Generated Content,UGC)更是爆發(fā)式發(fā)展,每個(gè)用戶既是內(nèi)容的消費(fèi)者,也成為內(nèi)容的創(chuàng)造者。大數(shù)據(jù)技術(shù)的迅猛發(fā)展為IPTV的運(yùn)維提供了新的技術(shù)和方法,在用戶數(shù)據(jù)管理、用戶行為分析及內(nèi)容精準(zhǔn)推薦方面,可更好地匹配海量?jī)?nèi)容和用戶需求。然而,IPTV運(yùn)營(yíng)平臺(tái)在業(yè)務(wù)量迅猛增長(zhǎng)的同時(shí),也凸顯出對(duì)大數(shù)據(jù)統(tǒng)一管理和運(yùn)營(yíng)能力的不足,主要體現(xiàn)在數(shù)據(jù)缺維和運(yùn)營(yíng)缺器兩方面。廣電平臺(tái)IPTV運(yùn)營(yíng)現(xiàn)狀如圖1所示。
圖1 廣電平臺(tái)IPTV運(yùn)營(yíng)現(xiàn)狀
現(xiàn)有IPTV運(yùn)營(yíng)的數(shù)據(jù)源主要來源于媒資數(shù)據(jù)和IPTV數(shù)據(jù)兩個(gè)方面。媒資數(shù)據(jù)主要為影片數(shù)據(jù);IPTV數(shù)據(jù)包括用戶基礎(chǔ)數(shù)據(jù)、用戶業(yè)務(wù)使用數(shù)據(jù)以及用戶訂購(gòu)數(shù)據(jù)等。然而,這些數(shù)據(jù)源相對(duì)較為原始,數(shù)據(jù)具有局限性,缺乏用戶身份信息數(shù)據(jù)、用戶家庭信息數(shù)據(jù)、用戶收入信息數(shù)據(jù)以及用戶行業(yè)信息數(shù)據(jù),維度不全、粒度不足,對(duì)于IPTV的后臺(tái)運(yùn)營(yíng)而言遠(yuǎn)遠(yuǎn)不夠,造成了數(shù)據(jù)缺“維”的現(xiàn)象。
由于數(shù)據(jù)缺維,廣電平臺(tái)只能按照用戶喜好大類進(jìn)行推薦和運(yùn)營(yíng),因此實(shí)際效果欠佳。此外,目前大多數(shù)廣電運(yùn)營(yíng)平臺(tái)現(xiàn)有的內(nèi)容推薦主要依賴編輯人工選擇,推薦結(jié)果受人為因素影響較大,成效甚微,浪費(fèi)大量人力資源。
知識(shí)圖譜的概念最早由谷歌公司于2012年提出。知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組、實(shí)體及其相關(guān)屬性值。實(shí)體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[2]。目前,基于知識(shí)圖譜的推薦算法廣泛應(yīng)用于互聯(lián)網(wǎng)的各個(gè)領(lǐng)域。除了傳統(tǒng)的電商和搜索領(lǐng)域外,新型的短視頻、資訊及社交等場(chǎng)景都越來越重視推薦算法。結(jié)合特定行業(yè)數(shù)據(jù)和領(lǐng)域知識(shí),可以得到該領(lǐng)域的知識(shí)圖譜。知識(shí)圖譜在擴(kuò)展實(shí)體信息和強(qiáng)化實(shí)體之間的聯(lián)系方面具有天然的優(yōu)勢(shì),如領(lǐng)域知識(shí)本體查詢,服務(wù)面向用戶的業(yè)務(wù)交叉營(yíng)銷與熱點(diǎn)內(nèi)容營(yíng)銷,可為推薦系統(tǒng)提供強(qiáng)大而豐富的參考作用[3]。在知識(shí)圖譜中,實(shí)體包含著豐富的描述性知識(shí),而這些知識(shí)可以為推薦結(jié)果提供精確性、多樣性及可解釋性,從而實(shí)現(xiàn)個(gè)性推薦、智能搜索、關(guān)聯(lián)分析以及智能問答。
知識(shí)圖譜工具提供知識(shí)抽取的能力,根據(jù)知識(shí)建模實(shí)體、關(guān)系及屬性定義,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換及加載,轉(zhuǎn)換成三元組加載到圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。知識(shí)圖譜的構(gòu)建流程如圖2所示。
在知識(shí)圖譜構(gòu)建過程中,數(shù)據(jù)是知識(shí)圖譜的基礎(chǔ)。創(chuàng)建知識(shí)圖譜之前,必須通過各個(gè)方式收集基礎(chǔ)數(shù)據(jù)用來構(gòu)建知識(shí)圖譜。信息抽取過程是從不同來源、不同結(jié)構(gòu)的基礎(chǔ)數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù))中提取出結(jié)構(gòu)化數(shù)據(jù)。知識(shí)映射過程主要建立從基礎(chǔ)數(shù)據(jù)中抽取的結(jié)構(gòu)化信息與所創(chuàng)建的知識(shí)圖譜中的實(shí)體、屬性以及實(shí)體間相互關(guān)系的映射關(guān)系。
知識(shí)圖譜的構(gòu)建流程支持編輯知識(shí)圖譜數(shù)據(jù)生成任務(wù)信息,包括源數(shù)據(jù)選擇、信息抽取配置以及知識(shí)映射信息配置;支持復(fù)制知識(shí)圖譜流水線配置;支持建立結(jié)構(gòu)化數(shù)據(jù)到知識(shí)圖譜中的實(shí)體、屬性以及實(shí)體的映射關(guān)系;支持全量和增量數(shù)據(jù)更新圖譜;支持AI2識(shí)別實(shí)體模型導(dǎo)入和自動(dòng)映射。
圖2 知識(shí)圖譜構(gòu)建流程
多元知識(shí)圖譜知識(shí)融合如圖3所示。知識(shí)融合是對(duì)眾多分散、異構(gòu)資源上知識(shí)進(jìn)行獲取、匹配、集成及挖掘等處理,是提升數(shù)據(jù)質(zhì)量和獲取隱含的或有價(jià)值的新知識(shí)的過程[4]。融合技術(shù)可以基于規(guī)則庫(kù)、技術(shù)(如指代消解)、實(shí)體對(duì)齊及實(shí)體鏈接等。知識(shí)融合工具提供實(shí)體規(guī)則庫(kù)、數(shù)據(jù)沖突、屬性合并、實(shí)體鏈接以及語義歧義等融合方法,以向?qū)Х绞脚渲茫{(diào)用圖數(shù)據(jù)庫(kù)、涉及同義詞比較、中心性算法、相似度計(jì)算以及模糊主題聚類等算法,支持參數(shù)調(diào)整優(yōu)化。另外,對(duì)于不支持的融合算法可以進(jìn)行在線編輯和上傳。
圖3 多元知識(shí)圖譜知識(shí)融合
基于用戶及影視知識(shí)圖譜的推薦流程如圖4所示。首先構(gòu)建基于知識(shí)圖譜的推薦系統(tǒng)模型,通過推薦引擎向用戶實(shí)時(shí)推送其感興趣的節(jié)目資源,基于用戶反饋,對(duì)推薦性能進(jìn)行評(píng)估,進(jìn)一步調(diào)整推薦產(chǎn)生器,以適應(yīng)用戶偏好[5]。
在用戶端,收集用戶的點(diǎn)擊數(shù)據(jù)(包括時(shí)間、瀏覽數(shù)據(jù)、上下文數(shù)據(jù)以及用戶狀態(tài)等)上傳至服務(wù)器端進(jìn)行處理。
在服務(wù)端,從互聯(lián)網(wǎng)及IPTV搜集相關(guān)數(shù)據(jù),構(gòu)建影視知識(shí)圖譜;同時(shí),實(shí)時(shí)獲取用戶偏好,建立用戶知識(shí)圖譜。
結(jié)合河北IPTV影視節(jié)目資源庫(kù),爬取百科網(wǎng)站、CCTV以及行業(yè)影視網(wǎng)站等互聯(lián)網(wǎng)公開信息,包括導(dǎo)演、演員、類型、評(píng)分、熱度以及分類欄目等,建立影視知識(shí)圖譜,挖掘節(jié)目關(guān)鍵實(shí)體標(biāo)簽,并利用圖譜確定實(shí)體間關(guān)系。知識(shí)圖譜可以從多角度全面地分析IPTV節(jié)目資源,圖譜數(shù)據(jù)應(yīng)用于精準(zhǔn)營(yíng)銷、內(nèi)容推薦以及智能問答等場(chǎng)景數(shù)據(jù)支撐。
知識(shí)圖譜在擴(kuò)展實(shí)體信息和強(qiáng)化實(shí)體之間的聯(lián)系方面具有天然的優(yōu)勢(shì),如領(lǐng)域知識(shí)本體查詢,服務(wù)面向用戶的業(yè)務(wù)交叉營(yíng)銷與熱點(diǎn)內(nèi)容營(yíng)銷,可為推薦系統(tǒng)提供強(qiáng)大而豐富的參考作用[6]。在知識(shí)圖譜中,實(shí)體包含著豐富的描述性知識(shí),而這些知識(shí)可以為推薦結(jié)果提供精確性、多樣性以及可解釋性?;谥R(shí)本體推薦的推薦引擎算法案例如圖5所示。
構(gòu)建了以影視知識(shí)圖譜+用戶偏好知識(shí)圖譜的融合知識(shí)圖譜之后,可以發(fā)現(xiàn)更多隱含的知識(shí),實(shí)現(xiàn)更加多樣化的營(yíng)銷。
河北廣電IPTV知識(shí)圖譜推薦算法實(shí)施分為3個(gè)階段。
考慮到媒資數(shù)據(jù)主要以內(nèi)容描述為主,缺乏必要的觀眾主觀評(píng)價(jià)內(nèi)容,因此在實(shí)施過程中使用了第三方百科網(wǎng)站、CCTV以及行業(yè)影視網(wǎng)站等互聯(lián)網(wǎng)公開信息,用以挖掘節(jié)目關(guān)鍵實(shí)體標(biāo)簽,并利用圖譜確定實(shí)體間關(guān)系。最終形成了包括導(dǎo)演、演員、類型、評(píng)分、熱度以及分類欄目等的實(shí)體數(shù)據(jù)節(jié)點(diǎn)及實(shí)體關(guān)系(如表1所示),建立了媒資諸元之間的網(wǎng)絡(luò)圖譜,從多角度、多方面完善了IPTV節(jié)目資源,形成了較為完備的圖譜數(shù)據(jù),如圖6所示。
圖4 基于用戶及影視知識(shí)圖譜的推薦流程
圖5 基于知識(shí)本體推薦的推薦引擎算法案例
表1 知識(shí)圖譜實(shí)體節(jié)點(diǎn)及實(shí)體關(guān)系表
圖6 基于媒體數(shù)據(jù)庫(kù)結(jié)構(gòu)化抽取建立知識(shí)實(shí)體模型
通過將用戶行為圖譜、直播節(jié)目圖譜以及電影電視圖譜進(jìn)行知識(shí)融合,對(duì)實(shí)體進(jìn)行對(duì)齊和鏈接等,建立用戶與節(jié)目之間的知識(shí)關(guān)系,幫助推薦引擎獲取隱含的或有價(jià)值的新標(biāo)簽知識(shí),如圖7所示。融合方式包括偏好節(jié)目類型鏈接、偏好明星鏈接、偏好頻道鏈接以及偏好電影類型鏈接等。通過實(shí)體融合,支持外部系統(tǒng)基于用戶和節(jié)目的圖遍歷查詢。
圖7 通過知識(shí)圖譜進(jìn)行知識(shí)融合獲取新標(biāo)簽知識(shí)
通過抓取工具實(shí)時(shí)自動(dòng)爬取百度熱搜榜、微博熱搜榜、百度收視排行榜、藝恩收視排行榜、金骨朵收視排行榜、視頻網(wǎng)站(如優(yōu)酷、騰訊及愛奇藝等)收視排行及重點(diǎn)推薦節(jié)目等。考慮到多種互聯(lián)網(wǎng)視頻網(wǎng)站的流量分布,對(duì)內(nèi)容熱度推薦評(píng)分TOP50數(shù)據(jù),按照藝恩40%、金骨朵40%、百度熱搜20%的權(quán)重進(jìn)行綜合測(cè)算,滿分100分。在內(nèi)容鮮度評(píng)級(jí)方面,按上線時(shí)間評(píng)分,三天以內(nèi)10分,一周以內(nèi)7分,一個(gè)月以內(nèi)5分,三個(gè)月以內(nèi)3分,半年以內(nèi)2分,一年以內(nèi)1分,超過1年不得分。IPTV數(shù)據(jù)分析系統(tǒng)示例如圖8所示。
結(jié)合IPTV收視及訂購(gòu)排名數(shù)據(jù),根據(jù)內(nèi)容運(yùn)營(yíng)規(guī)范和原則,綜合推算出內(nèi)容鮮度榜單和熱度榜單,按權(quán)重給出推薦內(nèi)容排名。通過設(shè)定算法對(duì)平臺(tái)內(nèi)容進(jìn)行評(píng)分,根據(jù)內(nèi)容得分及推薦效果給出相應(yīng)頁(yè)面位置的推薦內(nèi)容最優(yōu)建議。編輯推薦選取,最大限度減少人工工作量,最大限度降低人工選擇的主觀性,實(shí)現(xiàn)智能精準(zhǔn)推薦。推薦序列流程如圖9所示。
以對(duì)家庭IPTV EPG菜單推薦為例,基于統(tǒng)計(jì)分析構(gòu)建不同時(shí)段的家庭偏好標(biāo)簽,從導(dǎo)演、明星及主題3個(gè)維度構(gòu)建。家庭偏好標(biāo)簽構(gòu)建采取統(tǒng)計(jì)分析的方式,排序輸出顯著的因素作為標(biāo)簽,考慮時(shí)間衰減因素,以明星為例:
式中:α為衰減因子,取0~1間的數(shù);m為統(tǒng)計(jì)周/月的個(gè)數(shù);n是涉及明星A的總節(jié)目數(shù)。
家庭偏好標(biāo)簽會(huì)分時(shí)段統(tǒng)計(jì)(早晨、中午、晚上),對(duì)于白天不看電視沒有標(biāo)簽的家庭,會(huì)復(fù)用晚上的標(biāo)簽。
基于節(jié)目數(shù)據(jù)構(gòu)建知識(shí)圖譜,節(jié)點(diǎn)為導(dǎo)演、明星、節(jié)目和主題,邊為關(guān)系,有執(zhí)導(dǎo)(導(dǎo)演-節(jié)目)、參演(明星-節(jié)目)、內(nèi)容(節(jié)目-主題)。
通過不同的家庭標(biāo)簽屬性查詢節(jié)目知識(shí)圖譜,給予對(duì)應(yīng)推薦。推薦的排序考慮節(jié)目評(píng)分和時(shí)效兩個(gè)因素。內(nèi)容形成結(jié)果后,通過可視化界面,媒體運(yùn)營(yíng)人員可直接在EPG菜單排布上選擇圖譜分析結(jié)果,如圖10所示。
圖8 河北廣電IPTV數(shù)據(jù)分析系統(tǒng)示例
圖10 推薦位智能排序結(jié)果示例圖
目前,系統(tǒng)已上線140多天。自推薦算法和平臺(tái)實(shí)施以來,系統(tǒng)共發(fā)自動(dòng)發(fā)現(xiàn)并分析了14 600個(gè)網(wǎng)絡(luò)熱點(diǎn),與媒資節(jié)目間共計(jì)分析和推薦了27 594個(gè)節(jié)目。自動(dòng)化的推薦算法,節(jié)省傳統(tǒng)人工編排投入達(dá)10 220 min。通過對(duì)比,統(tǒng)計(jì)結(jié)果顯示,推薦算法帶來新增訂購(gòu)用戶208 907人,新增點(diǎn)播收入687 364元。
通過基于用戶及影視知識(shí)圖譜的推薦算法,平臺(tái)實(shí)現(xiàn)了大數(shù)據(jù)模型算法賦能編排運(yùn)營(yíng)。引入大數(shù)據(jù)平臺(tái)的現(xiàn)有數(shù)據(jù)和標(biāo)簽數(shù)據(jù),接入媒資庫(kù)數(shù)據(jù),使用網(wǎng)絡(luò)爬蟲補(bǔ)充媒資庫(kù)缺失屬性和數(shù)據(jù)。使用知識(shí)圖譜工具篩選高質(zhì)量標(biāo)簽,建立圖譜實(shí)體節(jié)點(diǎn),再通過實(shí)體節(jié)點(diǎn)構(gòu)建圖譜關(guān)系,最終形成知識(shí)體系(直播、電影、行為、偏好及訂購(gòu)等)。在實(shí)際運(yùn)營(yíng)過程中,該模型算法能夠大大提升IPTV推薦效能,實(shí)現(xiàn)用戶增長(zhǎng)和運(yùn)營(yíng)增收,值得推廣。