劉輝
摘 要數(shù)據(jù)聚合是指通過同時聚集和多個數(shù)據(jù)源分析數(shù)據(jù)來獲取信息全貌的數(shù)據(jù)。在數(shù)據(jù)信息的多樣化發(fā)展下,為了實現(xiàn)對各類數(shù)據(jù)的多元化分析和應(yīng)用,相關(guān)人員需要結(jié)合實際采取多樣化的策略來處理多源數(shù)據(jù)下載,從而提升數(shù)據(jù)信息應(yīng)用效率。
【關(guān)鍵詞】多源數(shù)據(jù)聚合系統(tǒng) 視頻網(wǎng)站 聚合 傳輸加速
網(wǎng)絡(luò)技術(shù)的快速發(fā)展使得視頻分享技術(shù)也得到了進步,由此在社會上出現(xiàn)了一批視頻分享網(wǎng)站。成功的視頻網(wǎng)站往往需要具備節(jié)目內(nèi)容豐富和節(jié)目播放流暢的特點。但是現(xiàn)階段一些視頻網(wǎng)站應(yīng)用的都是B/S結(jié)構(gòu),服務(wù)器自身承載能力和視頻播出流暢性是有限的。為了提升視頻播放質(zhì)量,在聚集互聯(lián)網(wǎng)各類視頻的基礎(chǔ)上提出了一種新型多源數(shù)據(jù)聚合系統(tǒng)。在這個系統(tǒng)上能夠讓用戶瀏覽更多網(wǎng)站的內(nèi)容,幫助用戶聚合資源,提升視頻播放流暢性。
1 多源數(shù)據(jù)聚合系統(tǒng)概述
1.1 概要設(shè)計
多源數(shù)據(jù)聚合系統(tǒng)建設(shè)的目的是為用戶提供高質(zhì)量、能夠交互的的媒體播放服務(wù),并在此基礎(chǔ)航完成定向廣告、個性化搜索。多源數(shù)據(jù)聚合p2p流媒體點播系統(tǒng)——CloudMedia,是一個視頻分享網(wǎng)站系統(tǒng),在視頻點播中添加了p2p技術(shù)。CloudMedia由爬蟲、視頻網(wǎng)站、客戶端、索引服務(wù)器、視頻網(wǎng)站等共同組成,以網(wǎng)絡(luò)視頻的形式向用戶展現(xiàn)信息。其中,爬蟲服務(wù)器主要是針對不同網(wǎng)站采用不同的方式來播放視頻。索引服務(wù)器主要是用來索引在線peer,實現(xiàn)對peer地點信息的有效管理。用戶(peer)主要負責(zé)的是從其他節(jié)點和網(wǎng)站服務(wù)器中獲取媒體數(shù)據(jù),完成任務(wù)的調(diào)度操作、拓撲的維護以及緩沖地帶的管理。
1.2 工作流程
(1)爬蟲在視頻網(wǎng)站上獲取加載頁面以及一些相關(guān)節(jié)目的信息,具體包括縮略圖、評論、簡介等。
(2)將獲取的數(shù)據(jù)信息在CloudMedia 網(wǎng)站上進行展現(xiàn)。
(3)打開用戶客戶端口實現(xiàn)對網(wǎng)站的訪問。
(4)用戶結(jié)合自己的需要來選擇播放視頻節(jié)目,F(xiàn)LASH 播放器將視頻地址發(fā)送給客戶端。
(5)在播放的時候,用戶點擊視頻節(jié)目,F(xiàn)lash播放器就會自動播放視頻。
(6)客戶端向索引服務(wù)器匯報自己的信息。
(7)索引服務(wù)器根據(jù)客戶端所在的位置來選擇信息,提升視頻節(jié)目播放速度。
2 多源數(shù)據(jù)聚合系統(tǒng)的詳細設(shè)計
2.1 系統(tǒng)模塊劃分
多源數(shù)據(jù)的聚合系統(tǒng)模塊劃分如圖1所示。根據(jù)圖發(fā)現(xiàn),爬蟲和網(wǎng)站模塊公共完成了聚合功能,客戶端和索引服務(wù)器完成相應(yīng)的加速功能。其中,爬蟲的工作流程是首先輸入一些網(wǎng)頁地址作為起始數(shù)據(jù)信息,對頁面中的內(nèi)容進行分析,結(jié)合需要提取重要的網(wǎng)頁地址,及時剔除掉和網(wǎng)頁分析算法不相關(guān)的鏈接,保留有意義的鏈接。在爬蟲系統(tǒng)中,經(jīng)過改進之后的系統(tǒng)針對不同的視頻網(wǎng)站設(shè)置了不同過濾策略,最終獲取視頻播放網(wǎng)頁。門戶網(wǎng)站的工作主要是將數(shù)據(jù)庫中的節(jié)目展現(xiàn)出來,并加以索引進行管理和引導(dǎo)。
2.2 視頻網(wǎng)站爬蟲模塊
CloudMedia 網(wǎng)站會通過爬蟲來獲取網(wǎng)絡(luò)視頻節(jié)目,并實現(xiàn)對這些節(jié)目的分類管理。爬蟲級別低的劃分有以下幾種:
2.2.1 輕量級爬蟲Spider
輕量級爬蟲Spider將輸入的鏈接作為起點,并通過多線程分析鏈接,最終將鏈接結(jié)果存入到數(shù)據(jù)庫中。Spider是一種多線程的爬蟲,每個線程操作都需要從等待的隊列中選擇一個分析隊列,在下載文本信息鏈接之后從中獲取有價值的信息。這種爬蟲設(shè)計操作比較簡單,分析線程數(shù)量無法自動調(diào)整。
2.2.2 Heritage
Heritage是一個開源的網(wǎng)絡(luò)爬蟲,具有很強的可拓展性,由此在操作的過程中也顯示出其結(jié)構(gòu)的復(fù)雜。 Heritage主要包括數(shù)據(jù)采集器、資源抽取器、邊界控制器、處理器鏈。其中,數(shù)據(jù)采集器主要是用來解釋網(wǎng)絡(luò)傳輸協(xié)議。資源抽取器則是對采集器信息內(nèi)容的一種解析。
2.3 Cloud Media網(wǎng)站模塊
Cloud Media 網(wǎng)站是一個動態(tài)化的網(wǎng)站,在應(yīng)用過程中主要是將數(shù)據(jù)庫中的視頻展現(xiàn)給用戶,并同時具備視頻的分類、搜索、登錄、評論等功能。
2.3.1 Cloud Media 網(wǎng)站設(shè)計
網(wǎng)站的設(shè)計需要應(yīng)用PHP語言,對系統(tǒng)分類欄目、視頻播放、用戶信息等都有著明確的顯示。
2.3.2 數(shù)據(jù)庫的設(shè)計
Cloud Media 網(wǎng)站模塊常見的數(shù)據(jù)表有Crawler 和 Video Info 表。前者主要是存放爬蟲獲得的鏈接,在表中有代表視頻序號、播放頁面地址、圖片地址爬蟲下載的標(biāo)識。后者則主要是存放播放頁面的信息。
2.4 Cloud Media的客戶端模塊
2.4.1 設(shè)計
Cloud Media客戶端模塊向HTTP服務(wù)器請求數(shù)據(jù)信息,服務(wù)器在收到之后會將某一時間點上的數(shù)據(jù)全部發(fā)送過來,并借助P2P的形式實現(xiàn)數(shù)據(jù)信息的傳輸。Cloud Media客戶端模塊包括網(wǎng)絡(luò)視頻地址、網(wǎng)絡(luò)視頻數(shù)據(jù)下載、網(wǎng)絡(luò)視頻壓縮包等??蛻舳嗽谙螺d視頻數(shù)據(jù)之后,對數(shù)據(jù)視頻進行打包操作處理,在打包操作之后將信息發(fā)送給各個播放器進行播放。經(jīng)過HTTP下載的數(shù)據(jù)信息,需要確定估算時間點,進而開展P2P數(shù)據(jù)調(diào)度。
2.4.2 實現(xiàn)
用戶啟動客戶端的時候會向系統(tǒng)索引服務(wù)器發(fā)出請求,在連接上索引服務(wù)器之后,向上級匯報自己的節(jié)目信息。如果客戶端有能夠p2p加速節(jié)點,則是可以向這個節(jié)點請求操作。在數(shù)據(jù)下載的過程中需要檢查播放器操作,借助播放器來播放緩沖區(qū)數(shù)據(jù)內(nèi)容。
2.5 索引服務(wù)器模塊
Cloud Media媒體播放系統(tǒng)需要設(shè)定一個專門的索引服務(wù)器,將所有的節(jié)點接入到p2p網(wǎng)絡(luò)初始點上。在節(jié)點登錄的時候相索引服務(wù)器匯報節(jié)點本地緩沖區(qū)的視頻文件信息。在節(jié)點加入頻道觀看節(jié)目的時候,系統(tǒng)會將所要觀看的節(jié)目信息和具體播放位置發(fā)送到索引服務(wù)器上,進而完成p2p的網(wǎng)絡(luò)過程。
3 結(jié)束語
綜上所述,Cloud Media多源流媒體數(shù)據(jù)系統(tǒng)由爬蟲、網(wǎng)站、客戶端和索引服務(wù)器共同組成,文章就這些系統(tǒng)的組成和設(shè)計實現(xiàn)問題進行了分析,并對系統(tǒng)的功能做出了說明,經(jīng)過運行測試證明了Cloud Media系統(tǒng)的各項功能都達到了預(yù)期目標(biāo)。
參考文獻
[1]劉經(jīng)緯.多源媒體數(shù)據(jù)聚合與傳輸加速系統(tǒng)[D].華中科技大學(xué),2011.
[2]孟宇龍.基于本體的多源異構(gòu)安全數(shù)據(jù)聚合[D].哈爾濱工程大學(xué),2010.
作者單位
貴州省郵電規(guī)劃設(shè)計院有限公司 貴州省貴陽市 550003