• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)新媒體視聽監(jiān)測(cè)數(shù)據(jù)庫(kù)構(gòu)架模式及巡檢監(jiān)測(cè)的探析

      2022-04-22 10:56:48
      西部廣播電視 2022年3期
      關(guān)鍵詞:網(wǎng)頁(yè)數(shù)據(jù)庫(kù)監(jiān)測(cè)

      李 敏

      (作者單位:四川廣播電視監(jiān)測(cè)中心)

      1 互聯(lián)網(wǎng)視聽網(wǎng)站監(jiān)測(cè)系統(tǒng)采集識(shí)別技術(shù)存在的問題

      隨著廣播電視融媒體的迅速發(fā)展,對(duì)網(wǎng)絡(luò)視聽持證機(jī)構(gòu)和視聽類網(wǎng)站的監(jiān)測(cè)也越來越受到相關(guān)部門尤其是宣傳管理部門的重視,視聽類網(wǎng)站承擔(dān)了越來越多重要時(shí)段的宣傳任務(wù)[1]。但現(xiàn)有監(jiān)測(cè)系統(tǒng)的網(wǎng)站采集技術(shù),仍是基于通用網(wǎng)絡(luò)信息采集技術(shù)(Web crawler),通過解析網(wǎng)頁(yè)源代碼或網(wǎng)頁(yè)關(guān)鍵詞來判斷網(wǎng)站是否為視聽類網(wǎng)站,并采集相關(guān)數(shù)據(jù)保存到本地集群存儲(chǔ)中。在經(jīng)過大量監(jiān)測(cè)任務(wù)的實(shí)踐后,筆者發(fā)現(xiàn)相對(duì)老化的采集識(shí)別技術(shù)明顯存在著很多問題,導(dǎo)致視聽網(wǎng)站的識(shí)別率較低,采集的可用數(shù)據(jù)率較差,主要問題如下:

      1.1 視聽類網(wǎng)站識(shí)別率較低

      由于現(xiàn)在網(wǎng)站技術(shù)的多元化,特別是非持證網(wǎng)站,網(wǎng)頁(yè)上存在大量欺騙性代碼,不僅能欺騙搜索引擎,使搜索引擎產(chǎn)生誤判,也會(huì)欺騙Web crawler,導(dǎo)致網(wǎng)站的誤識(shí)別,ICP備案號(hào)的獲取錯(cuò)誤或無法獲取。對(duì)監(jiān)測(cè)工作的影響主要體現(xiàn)在如果不定時(shí)對(duì)數(shù)據(jù)庫(kù)進(jìn)行清理,那么數(shù)據(jù)庫(kù)的容量將會(huì)被無效數(shù)據(jù)無限占用,數(shù)據(jù)庫(kù)一直處于高利用率的運(yùn)行狀態(tài)。系統(tǒng)占用的計(jì)算資源被無限增加,不僅加大了對(duì)系統(tǒng)運(yùn)維的難度,也使得系統(tǒng)的監(jiān)測(cè)效率低下。

      1.2 消耗資源巨大

      因采集的可用數(shù)據(jù)率較差,在數(shù)據(jù)采集和分析過程中,消耗了大量的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)資源,導(dǎo)致系統(tǒng)在運(yùn)行時(shí)反應(yīng)較慢、監(jiān)測(cè)任務(wù)效率低下等,在日常的監(jiān)測(cè)工作中,這給監(jiān)測(cè)業(yè)務(wù)部門和運(yùn)行維護(hù)部門帶來了較大的工作壓力。

      基于以上問題,筆者迫切地需要探索出一套優(yōu)化的監(jiān)測(cè)系統(tǒng)網(wǎng)站數(shù)據(jù)庫(kù)構(gòu)建模式,并尋求如何更加有效、準(zhǔn)確地獲取視聽網(wǎng)站信息,以及如何設(shè)計(jì)和完善一套行之有效的自動(dòng)巡檢監(jiān)測(cè)機(jī)制。Web crawler的工作原理圖如圖1所示。

      圖1 Web crawler工作原理圖

      2 總體思路

      本技術(shù)方案旨在實(shí)現(xiàn)準(zhǔn)確、有效地獲取視聽網(wǎng)站信息,優(yōu)化本地視聽網(wǎng)站數(shù)據(jù)庫(kù)的構(gòu)建模式和完善視聽網(wǎng)站巡檢機(jī)制。根據(jù)新的視聽網(wǎng)站數(shù)據(jù)庫(kù)構(gòu)建模式,對(duì)巡檢監(jiān)測(cè)機(jī)制進(jìn)行重新設(shè)計(jì)和完善,并依據(jù)日常監(jiān)測(cè)任務(wù),嘗試創(chuàng)建重點(diǎn)視聽網(wǎng)站巡檢列表,對(duì)數(shù)據(jù)庫(kù)中的重點(diǎn)網(wǎng)站信息進(jìn)行定期的智能巡檢,實(shí)現(xiàn)對(duì)網(wǎng)站類型的判定監(jiān)測(cè),網(wǎng)站視聽頁(yè)面的標(biāo)題、視聽節(jié)目?jī)?nèi)容、文字簡(jiǎn)介信息采集監(jiān)測(cè),網(wǎng)站失效性判定監(jiān)測(cè)和網(wǎng)絡(luò)視聽節(jié)目?jī)?nèi)容監(jiān)測(cè)等。

      根據(jù)日常監(jiān)測(cè)任務(wù)和監(jiān)測(cè)數(shù)據(jù),整理出一份重點(diǎn)監(jiān)測(cè)對(duì)象和數(shù)據(jù)清單,以此創(chuàng)建一套固有模式的巡檢信息庫(kù),對(duì)重點(diǎn)網(wǎng)站和重要數(shù)據(jù)進(jìn)行定向、定期的巡檢監(jiān)測(cè)。當(dāng)每輪巡檢結(jié)束后,對(duì)巡檢信息庫(kù)和系統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行同步數(shù)據(jù)更新。利用有限的資源,完成采集日常絕大部分監(jiān)測(cè)任務(wù)的數(shù)據(jù),重點(diǎn)監(jiān)測(cè)任務(wù)和臨時(shí)監(jiān)測(cè)任務(wù)則通過其他系統(tǒng)模塊進(jìn)行臨時(shí)性的調(diào)整應(yīng)對(duì),在日常工作時(shí),不再過多占用系統(tǒng)資源[2]。在理論上,通過以上方式,可有效地減少系統(tǒng)占用的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)資源,并在當(dāng)前系統(tǒng)的暫無大規(guī)模升級(jí)更新的計(jì)劃下,臨時(shí)解決監(jiān)測(cè)數(shù)據(jù)采集數(shù)據(jù)不完整、網(wǎng)站識(shí)別率低、采集效率低、漏監(jiān)等問題。

      3 方案設(shè)計(jì)

      本方案主要采用的技術(shù)有端口掃描(Port scanning)技術(shù)、網(wǎng)絡(luò)信息采集技術(shù)、視聽數(shù)據(jù)判定技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等。

      3.1 重點(diǎn)監(jiān)測(cè)網(wǎng)站

      根據(jù)統(tǒng)計(jì)日常監(jiān)測(cè)任務(wù)的類型和監(jiān)測(cè)對(duì)象,重點(diǎn)監(jiān)測(cè)網(wǎng)站主要分為兩類:一類是持有互聯(lián)網(wǎng)視聽節(jié)目服務(wù)許可證(AVSP)的網(wǎng)站(官方媒體網(wǎng)站),一類是國(guó)內(nèi)互聯(lián)網(wǎng)頭部企業(yè)在四川省分支機(jī)構(gòu)的網(wǎng)站(社會(huì)媒體網(wǎng)站)。官方媒體網(wǎng)站一般為電視臺(tái)、出版社、廣播電視網(wǎng)絡(luò)公司或政府機(jī)構(gòu)的官網(wǎng),該類型網(wǎng)站的主要職能是權(quán)威發(fā)布有關(guān)黨政機(jī)構(gòu)的官方信息、熱門話題、熱點(diǎn)新聞的視頻節(jié)目等。社會(huì)媒體網(wǎng)站一般為互聯(lián)網(wǎng)企業(yè)開辦的視聽類服務(wù)網(wǎng)站,該類型網(wǎng)站的主要職能是轉(zhuǎn)載或發(fā)布熱點(diǎn)新聞、娛樂類的視頻節(jié)目。

      通過整理和歸納,將網(wǎng)站信息同時(shí)寫入Web crawler程序和數(shù)據(jù)庫(kù)。將原有Web crawler程序的70%修改為定向Web crawler和深層Web crawler,定制化地采集指定網(wǎng)站、指定網(wǎng)頁(yè)和多層級(jí)網(wǎng)頁(yè)的數(shù)據(jù);空余30%的通用Web crawler用于采集通用網(wǎng)頁(yè)的數(shù)據(jù)。利用1個(gè)月的時(shí)間,對(duì)反復(fù)采集的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行無效性篩查、核驗(yàn),比對(duì)采集信息的一致性,并進(jìn)行必要的修正,逐步完成網(wǎng)站數(shù)據(jù)庫(kù)的構(gòu)建和完善巡檢監(jiān)測(cè)清單(見圖2)。

      圖2 重點(diǎn)監(jiān)測(cè)網(wǎng)站發(fā)現(xiàn)流程圖

      3.2 視聽網(wǎng)站數(shù)據(jù)庫(kù)的構(gòu)建

      根據(jù)日常監(jiān)測(cè)任務(wù),對(duì)現(xiàn)有系統(tǒng)中的事件、人物、單位等關(guān)鍵詞庫(kù)進(jìn)行重新歸納和整理,利用自動(dòng)化渲染、特征提取等現(xiàn)有技術(shù),將各類關(guān)鍵詞與事件、人物等進(jìn)行關(guān)聯(lián)性連接。其中自動(dòng)化渲染技術(shù)是采用服務(wù)器渲染完成對(duì)視聽網(wǎng)站的訪問動(dòng)作,通過標(biāo)簽化數(shù)據(jù),達(dá)到快速訪問海量本地?cái)?shù)據(jù)庫(kù)數(shù)據(jù)的目的;特征提取技術(shù)是將網(wǎng)站中包含視頻鏈接特征、視頻播放器特征、視頻圖像特征、視頻文本特征中的一種或多種特征加以標(biāo)記,以實(shí)現(xiàn)視聽網(wǎng)站的判別和分類,最終形成本地視聽網(wǎng)站數(shù)據(jù)庫(kù)(見圖3)。

      圖3 視聽網(wǎng)站數(shù)據(jù)庫(kù)構(gòu)建圖

      3.3 智能巡檢監(jiān)測(cè)

      智能巡檢監(jiān)測(cè)主要由判斷網(wǎng)站是否失效、網(wǎng)頁(yè)是否更新、視聽節(jié)目鏈接是否自動(dòng)下載、視聽節(jié)目鏈接中的文本內(nèi)容是否自動(dòng)保存等系統(tǒng)行為組成。

      利用視聽網(wǎng)站數(shù)據(jù)庫(kù),定期對(duì)數(shù)據(jù)庫(kù)中的網(wǎng)站進(jìn)行數(shù)據(jù)采集,若返回值為空值(null),則可判斷網(wǎng)站已失效或已過期;對(duì)網(wǎng)站進(jìn)行采集時(shí),發(fā)現(xiàn)網(wǎng)頁(yè)特性值發(fā)生變化時(shí),即可認(rèn)為是網(wǎng)站對(duì)網(wǎng)頁(yè)進(jìn)行了更新,并將更新的鏈接自動(dòng)寫入數(shù)據(jù)庫(kù),記錄更新網(wǎng)頁(yè)數(shù)量;對(duì)涉嫌違反《互聯(lián)網(wǎng)視聽節(jié)目服務(wù)管理規(guī)定》相關(guān)要求的視聽節(jié)目,提取并下載該網(wǎng)頁(yè)的文本描述和視頻文件,通過特征提取技術(shù),寫入數(shù)據(jù)庫(kù)。通過時(shí)間積累的數(shù)據(jù)和定期對(duì)Web crawler系統(tǒng)的更新維護(hù),系統(tǒng)在反復(fù)循環(huán)此流程后,即可形成對(duì)視聽網(wǎng)站的精確智能巡檢監(jiān)測(cè)。

      4 運(yùn)行測(cè)試

      因新媒體監(jiān)測(cè)業(yè)務(wù)不能中斷,目前對(duì)系統(tǒng)只能進(jìn)行補(bǔ)丁式的修改和技術(shù)探索分析。Web crawler是較為通用的一種網(wǎng)絡(luò)技術(shù),利用空閑的服務(wù)器資源,即可搭建完成,并對(duì)原有Web crawler服務(wù)器的替換,在替換過程中,對(duì)業(yè)務(wù)不會(huì)產(chǎn)生影響[3]。

      利用云平臺(tái)系統(tǒng)臨時(shí)劃分出兩臺(tái)虛擬機(jī),針對(duì)四川省某新聞網(wǎng)站開展定向Web crawler和深層Web crawler系統(tǒng)的測(cè)試。通過對(duì)近一周的采集數(shù)據(jù)進(jìn)行跟蹤和對(duì)比,筆者發(fā)現(xiàn)對(duì)特定網(wǎng)站的名稱、域名、鏈接、ICP備案號(hào)、AVSP證書號(hào)、文本等關(guān)鍵信息采集數(shù)據(jù)的準(zhǔn)確性和采集率明顯提高。測(cè)試前,通用Web crawler在3月22日至24日對(duì)持證網(wǎng)站的有效信息采集率為89.7%、91.5%和91.3%(見表1)。測(cè)試時(shí),定向Web crawler、深層Web crawler在4月8日至10日對(duì)指定網(wǎng)站的有效信息采集率達(dá)到了97.2%、95.8%和96.3%(見表2),對(duì)網(wǎng)站有效信息的采集率上平均提升了5.6%。通用Web crawler采用通用模板,一般網(wǎng)頁(yè)最多只能采集3層的網(wǎng)頁(yè)鏈接,而定向Web crawler、深層Web crawler采用定制化的網(wǎng)站模板后,能采集最高達(dá)7層的網(wǎng)頁(yè)鏈接(見表3)。

      表1 通用Web crawler有效信息采集情況表

      表2 定向Web crawler、深層Web crawler有效信息采集情況表

      表3 定向Web crawler、深層Web crawler采用定制化網(wǎng)站模板后有效信息采集情況表

      若以測(cè)試數(shù)據(jù)為基礎(chǔ),優(yōu)化視聽網(wǎng)站數(shù)據(jù)庫(kù)的構(gòu)建和智能巡檢監(jiān)測(cè)技術(shù),系統(tǒng)不僅會(huì)更加智能化,更能提高網(wǎng)絡(luò)視聽節(jié)目的監(jiān)測(cè)監(jiān)管效率。

      5 結(jié)語

      近年來,隨著互聯(lián)網(wǎng)各種視聽類業(yè)態(tài)的爆發(fā)式增長(zhǎng),視聽節(jié)目也呈現(xiàn)出多元化的業(yè)務(wù)形態(tài),主管部門對(duì)網(wǎng)絡(luò)視聽行業(yè)傳播內(nèi)容的監(jiān)管要求也越來越明確,各系統(tǒng)的建設(shè)廠家對(duì)技術(shù)的敏感度很高,但對(duì)業(yè)務(wù)的敏感度相對(duì)會(huì)滯后。隨著各項(xiàng)網(wǎng)絡(luò)新媒體類的規(guī)章制度的發(fā)展和完善,監(jiān)測(cè)部門在不斷探索監(jiān)測(cè)業(yè)務(wù)的同時(shí),更需了解和掌握互聯(lián)網(wǎng)前沿技術(shù),在業(yè)務(wù)和技術(shù)上深入思考,將互聯(lián)網(wǎng)技術(shù)逐步轉(zhuǎn)變?yōu)閷?shí)用性監(jiān)測(cè)技術(shù)和監(jiān)測(cè)手段,提升監(jiān)測(cè)人員的監(jiān)測(cè)能力,提高業(yè)務(wù)的智能化水平,為主管部門做好數(shù)據(jù)服務(wù)工作提供保障。

      猜你喜歡
      網(wǎng)頁(yè)數(shù)據(jù)庫(kù)監(jiān)測(cè)
      特色“三四五六”返貧監(jiān)測(cè)幫扶做實(shí)做細(xì)
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      數(shù)據(jù)庫(kù)
      數(shù)據(jù)庫(kù)
      網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析——2015年12月
      網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析——2015年11月
      數(shù)據(jù)庫(kù)
      數(shù)據(jù)庫(kù)
      網(wǎng)頁(yè)制作在英語教學(xué)中的應(yīng)用
      昆明市| 余姚市| 衢州市| 乐东| 扎赉特旗| 赤峰市| 南昌县| 崇信县| 广汉市| 工布江达县| 西乌| 资源县| 集贤县| 陇川县| 司法| 平遥县| 肇源县| 鄢陵县| 聂拉木县| 武平县| 囊谦县| 将乐县| 陆良县| 澎湖县| 定远县| 南澳县| 松江区| 灯塔市| 寿宁县| 吉水县| 久治县| 石阡县| 金堂县| 剑川县| 石屏县| 台江县| 望谟县| 大同市| 天祝| 宜宾县| 嫩江县|