□ 文/本刊記者 羅 超
智能視頻分析搭上AI 世界會(huì)怎樣
□ 文/本刊記者 羅 超
對(duì)于這個(gè)沒有邊界的監(jiān)控智能化概念,當(dāng)智能視頻分析遇上AI之后,我們?cè)谛聲r(shí)期對(duì)監(jiān)控智能化有了新的指標(biāo),那就是會(huì)深度學(xué)習(xí)。
早在8年前,行業(yè)就在談?wù)摫O(jiān)控智能化,但智能化的概念較為模糊,不像網(wǎng)絡(luò)和高清監(jiān)控,有明顯的技術(shù)指標(biāo)。對(duì)于這個(gè)沒有邊界的監(jiān)控智能化概念,當(dāng)智能視頻分析遇上AI之后,我們?cè)谛聲r(shí)期對(duì)監(jiān)控智能化有了新的指標(biāo),那就是會(huì)深度學(xué)習(xí)。
從廣義上來說,智能視頻分析技術(shù)主要包括以下三類:
頻分析類
該類主要是在監(jiān)控圖像中找出目標(biāo),并檢測(cè)目標(biāo)的運(yùn)動(dòng)特征屬性(如目標(biāo)相對(duì)的像素點(diǎn)位置 ,目 標(biāo) 的 移 動(dòng) 方 向 及 相 對(duì) 像 素 點(diǎn) 移 動(dòng) 速 度 ,目標(biāo)本身在畫面中的形狀及其改變),根據(jù)以上的基本功能,視頻分析可分為以下幾個(gè)功能模塊:周界入侵檢測(cè)、目標(biāo)移動(dòng)方向檢測(cè)、目標(biāo)運(yùn)動(dòng)、停止?fàn)顟B(tài)改變檢測(cè)、目標(biāo)出現(xiàn)與消失檢測(cè)、人流量、車流量統(tǒng)計(jì)、PTZ自動(dòng)追蹤系統(tǒng)、系統(tǒng)智能自檢功能等。
視頻識(shí)別類
該類包括人臉識(shí)別、步態(tài)識(shí)別與車牌識(shí)別,其主要技術(shù)是在視頻圖像中找出局部中一些畫面 的 共 性 ,如 人 臉 必 然 有 兩 個(gè) 眼 睛 ,如 果 可 以 找到雙目的位置,那么就可以定性人臉的位置及尺寸。
視頻改善類
該類主要是針對(duì)一些不可視、模糊不清,或者 是 對(duì) 振 動(dòng) 的 圖 像 進(jìn) 行 部 分 優(yōu) 化 處 理 ,以 增 加 視頻的可監(jiān)控性能。具體包括:紅外夜視圖像增強(qiáng)處理、車牌識(shí)別影像消模糊處理、光變與陰影抑制處理、潮汐與物體尺寸過濾處理、視頻圖像穩(wěn)定系統(tǒng)等。
從實(shí)現(xiàn)方式來看,智能視頻分析技術(shù)目前有兩種常用方式:第一種是基于智能視頻處理器的前端解決方案;第二種是基于監(jiān)控的后端智能視頻分析解決方案?;谝曨l處理器的前端解決方案:所有的目標(biāo)跟蹤、行為判斷、報(bào)警觸發(fā)都是 由 前 端 智 能 分 析 設(shè) 備 完 成 ,只 將 報(bào) 警 信 息 通 過網(wǎng) 絡(luò) 傳 輸 至 監(jiān) 控 中 心 。優(yōu) 點(diǎn) 是 :視 頻 分 析 設(shè) 備 被放 置 在 I P 攝 像 機(jī) 之 后 ,這 樣 可 以 有 效 地 節(jié) 約 視 頻流 占 用 的 帶 寬 ;缺 點(diǎn) 是 :價(jià) 格 昂 貴 ,安 裝 復(fù) 雜 ;前端設(shè)備分散、易損率高;報(bào)警記錄與視頻監(jiān)控分開。
傳統(tǒng)的視頻監(jiān)控系統(tǒng)通常是通過人員監(jiān)控和錄像來實(shí)現(xiàn)安全防護(hù),實(shí)際上并不能主動(dòng)有效地 保 障 安 全 ,尤 其 是 監(jiān) 控 點(diǎn) 過 多 的 時(shí) 候 ,人 員 監(jiān)控根本無法顧及所有監(jiān)控場(chǎng)景;同時(shí),監(jiān)控人員的注意力很難保證二十四小時(shí)都能準(zhǔn)確高效地監(jiān)控所有監(jiān)控場(chǎng)景;此外,被動(dòng)錄像通常只能在事 件 發(fā) 生 之 后 通 過 調(diào) 用 錄 像 進(jìn) 行 回 放 取 證 ,一 方面損失已經(jīng) 產(chǎn)生不 可能 挽回,另一方面,通 過 人工 回 放 錄 像 取 證 的 方 式 效 率 十 分 低 下 。智 能 分 析視頻監(jiān)控則可以有效地解決以上問題。智能監(jiān)控的主要特征是采用計(jì)算機(jī)視覺方式,在幾乎不需要人為干預(yù)的情況下,通過對(duì)攝像機(jī)拍錄的圖像序列進(jìn)行定位、識(shí)別和跟蹤,并在此基礎(chǔ)上分析和判斷目標(biāo)的行為,從而做到既能完成日常管理又能在異常情況發(fā)生的時(shí)候及時(shí)作出反應(yīng),智能監(jiān)控的主要優(yōu)勢(shì)有:群體行為分析、入侵檢測(cè)和運(yùn)動(dòng)目標(biāo)跟蹤、有效擴(kuò)展視頻資源的用途、滯留物和搬移物報(bào)警、對(duì)攝像機(jī)保護(hù)、降低人力成本。
智能視頻分析成為了安防行業(yè)必要的技術(shù)之一,然而,安防行業(yè)解決方案提供商不僅要解決用戶安全的問題,還要進(jìn)一步為行業(yè)用戶的業(yè)務(wù)系 統(tǒng) 提 供 支 撐 。而 要 實(shí) 現(xiàn) 用 戶 的 這 些 訴 求 ,就 離不開智能視頻分析技術(shù)的支持。不過受限于智能分析算法本身的完善性,以及對(duì)應(yīng)用場(chǎng)景的高要求等因素,智能分析的準(zhǔn)確率受限。而隨著大數(shù)據(jù)、云計(jì)算技術(shù)在安防領(lǐng)域的應(yīng)用,深度學(xué)習(xí)技術(shù)具備了應(yīng)用的條件,大數(shù)據(jù)可以為深度學(xué)習(xí)提供足夠多的訓(xùn)練樣本,而云計(jì)算則為深度學(xué)習(xí)的復(fù)雜算法模型提供了足夠的計(jì)算能力支撐。
人 工 智 能 ,為 安 防 行 業(yè) 裝 上 了 會(huì) 思 考 的 大 腦 。其應(yīng) 用一方面提高了一些算法的準(zhǔn)確率;另一方面,監(jiān)控智能分析無法實(shí)現(xiàn)的功能,人工智能也可以實(shí)現(xiàn)。比如,人臉識(shí)別包括了人臉檢測(cè)、特征點(diǎn)定位、特征比對(duì)等多個(gè)環(huán)節(jié),如果采用深度學(xué)習(xí) 方 ,各 個(gè) 環(huán) 節(jié) 的 識(shí) 別 性 能 都 有 大 幅 提 升 。此 外 ,通過人工智能還可以將表情、年齡、飾品以及偏娛樂的顏值、開心程度等做得更好。再如人群分析方面,傳統(tǒng)的監(jiān)控智能分析是無法處理300人以上的大范圍場(chǎng)景的,更不用提運(yùn)動(dòng)場(chǎng)景的人群分析 。現(xiàn) 在 基 于 人 工 智 能 ,不 僅 能 夠 處 理 大 范 圍 場(chǎng)景及運(yùn)動(dòng)場(chǎng)景的人數(shù)統(tǒng)計(jì),還可以估計(jì)人群密度、滯留分析等,為一些用戶提供增加商情效益分析的數(shù)據(jù)。
在公安行業(yè),圍繞公安業(yè)務(wù)需求的公安實(shí)戰(zhàn)平 臺(tái) ,結(jié) 合 視 頻 圖 像 偵 查 業(yè) 務(wù) ,對(duì) 監(jiān) 控 畫 面 中 感興趣的目標(biāo)視頻進(jìn)行智能分析,提取可疑的人、車、物等目標(biāo)信息,生成結(jié)構(gòu)化的語義描述,從而實(shí)現(xiàn)特定目標(biāo)的快速定位、查找和檢索。人工智能在視頻內(nèi)容的特征提取、內(nèi)容理解方面有著天然 的 優(yōu) 勢(shì) 。前 端 攝 像 機(jī) 內(nèi) 置 人 工 智 能 芯 片 ,可 實(shí) 時(shí)分析視頻內(nèi)容,檢測(cè)運(yùn)動(dòng)對(duì)象,識(shí)別人、車屬性信息,并通過網(wǎng)絡(luò)傳遞到后端人工智能的中心數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。匯總的海量城市級(jí)信息,再利用強(qiáng)大的計(jì)算能力及智能分析能力,人工智能可對(duì)嫌疑人的信息進(jìn)行實(shí)時(shí)分析,給出最可能的線索建議,將犯罪嫌疑人的軌跡鎖定由原來的幾天,縮短到幾分鐘,為案件的偵破節(jié)約寶貴的時(shí)間。其強(qiáng)大的交互能力,還能與辦案民警進(jìn)行自然語言方式的溝通,真正成為辦案人員的專家助手。
基于人工智能的視頻智能分析是利用計(jì)算機(jī)圖像視覺處理、模式識(shí)別和機(jī)器學(xué)習(xí)等算法,分析和識(shí)別運(yùn)動(dòng)目標(biāo)信息。作為公安實(shí)戰(zhàn)平臺(tái)中最為 重 要 的 環(huán) 節(jié) ,基 于 人 工 智 能 的 人 臉 識(shí) 別 技 術(shù) 需求應(yīng)用更為迫切。公安部門借助人臉卡口IPC攝像 機(jī) 的 智 能 人 臉 檢 測(cè) 技 術(shù) ,在 城 市 道 路 、廣 場(chǎng) 、娛樂場(chǎng)所及各類重點(diǎn)場(chǎng)所的人員目標(biāo)的人臉識(shí)別,提取包括人的性別、戴眼鏡、年齡段等特征信息。從而實(shí)現(xiàn)人臉的實(shí)時(shí)布控、高危人員比對(duì)、以圖 搜 圖 、語 義 搜 索 等 方 面 的 業(yè) 務(wù) 應(yīng) 用 。比 如 ,人 臉布控業(yè)務(wù)是通過對(duì)場(chǎng)景中視頻的進(jìn)行實(shí)時(shí)人臉采集和視頻分析,并與各種人臉庫(kù)提供的圖片(警綜、信綜、出入境、人口庫(kù)、追逃庫(kù)、犯罪人員庫(kù)等)進(jìn)行實(shí)時(shí)比對(duì)。如果發(fā)現(xiàn)重點(diǎn)關(guān)注人員,將推送到公安實(shí)戰(zhàn)平臺(tái)客戶端或手機(jī)終端。另外公安實(shí)戰(zhàn)平臺(tái)與全國(guó)人口庫(kù)、常住人口庫(kù)、居住證人口庫(kù)等數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)城市地鐵、機(jī)場(chǎng)、酒店的人臉識(shí)別系統(tǒng)的聯(lián)動(dòng)。結(jié)合地圖業(yè)務(wù)應(yīng)用,可實(shí)現(xiàn)軌跡 回 放 、告 警 、查 詢 的 可 視 化 。
智能視頻分析目前主要還是集中在人和車的識(shí)別應(yīng)用。
車輛識(shí)別
隨著車輛的不斷增長(zhǎng),智能視頻分析結(jié)合人工智能成為人們關(guān)注的重點(diǎn),可以有以下改善。其一,車牌的識(shí)別率有了顯著的提高;其二,可以識(shí)別車子的其他特征,例如品牌、型號(hào)(市面上99%+的車型)、顏色等,結(jié)構(gòu)化更多元、更系統(tǒng);組 合 多 種 元 素去 搜 索,提 高 車 輛 搜 索 的 命 中 率 。
那為什么智能視頻分析結(jié)合人工智能可以賦予車輛識(shí)別更多功能、更好效果呢?不斷訓(xùn)練——用模型去識(shí)別擁有不同種類特征的sample群,就會(huì)獲得不同的識(shí)別功能。比如:預(yù)算有限、識(shí)別準(zhǔn)確率要求沒有那么高,可以通過降低幀率或分辨率,或者犧牲一定的算法計(jì)算資源,換取更 多 的 路 數(shù) ,降 低 單 路 的 成 本 。例 如 ,把 1 0 8 0 P 的分辨率降低至720P,那么路數(shù)預(yù)計(jì)可增加至256路,單路成本直降25%。
如 果 只 是 傳 統(tǒng) 的 智 能 視 頻 分 析 技 術(shù) ,對(duì) 于 人的體型、人種、年齡、長(zhǎng)短發(fā)等的識(shí)別,是無法實(shí)現(xiàn)的。人的識(shí)別困難在于人的動(dòng)作和狀態(tài)都特別不同,但是智能視頻分析結(jié)合人工智能可以處理一個(gè)畫面中的多達(dá)80個(gè)人物,在40毫秒以內(nèi)。類似扶手電梯、十字路口、商業(yè)中心廣場(chǎng)、展會(huì)門口等有持續(xù)不斷流動(dòng)的人群的場(chǎng)所,也可以用人的識(shí)別功能檢測(cè),并且檢測(cè)準(zhǔn)確率可高達(dá)95%??梢?,智能視頻分析結(jié)合人工智能的層數(shù)與它需要辨識(shí)的特征復(fù)雜度有關(guān)系。
不可否認(rèn)的是,現(xiàn)在全球智能視頻分析結(jié)合人工智能的技術(shù),還處于弱AI階段,會(huì)有一些不足。比如,如果視頻撲捉到了人的視頻,就能檢測(cè)到并進(jìn)行分析,但畫面上看不到的則沒辦法識(shí)別到、也不能做分析;如果畫面上人物被遮擋一部分,則會(huì)影響檢測(cè)和分析的效果。尤其是高峰期升降電梯、廣場(chǎng)密集人群等。
此外,全球各地區(qū)的人種不同,AI識(shí)別率下降。大華認(rèn)為,可以在定期輸送各膚色人種樣本,提高 AI 對(duì)更多皮膚色調(diào)的識(shí)別率。
綜 上 所 述 ,一 言 以 蔽 之 ,當(dāng) 智 能 視 頻 分 析 搭上人工智能,世界將會(huì)怎樣?