崔濤 于忠 楊志清 劉昱曉 山東省青島市公安局
從公安信息化的發(fā)展歷史看,圍繞治安防控、打擊破案、勤務(wù)指揮及行政執(zhí)法過程中對(duì)信息的搜索、查詢是公安應(yīng)用信息化手段的主要方式[1],同時(shí)隨著4G、5G移動(dòng)網(wǎng)絡(luò)及智能手機(jī)技術(shù)的發(fā)展,攜帶便捷的移動(dòng)警務(wù)終端搭載的信息搜索查詢功能,更是成為了民警喜歡使用的警務(wù)信息化工具。
從實(shí)際的信息化發(fā)展情況看,搜索系統(tǒng)是信息檢索的核心工具[2],因此警務(wù)搜索系統(tǒng)的建設(shè)一直是全國(guó)各省市公安機(jī)關(guān)信息化建設(shè)的重點(diǎn)。但受限于技術(shù)的發(fā)展和數(shù)據(jù)處理能力,常規(guī)的搜索系統(tǒng)存在搜索結(jié)果不準(zhǔn)確、搜索效率低、只能搜結(jié)構(gòu)化數(shù)據(jù)等缺點(diǎn),尚不足以有效支撐民警充分使用大數(shù)據(jù),造成了很多民警不想用或者用不了的局面。同時(shí),近年來數(shù)據(jù)量和業(yè)務(wù)量的高速發(fā)展,使得滿足大規(guī)模高并發(fā)場(chǎng)景的搜索需求日益旺盛,為此本文重點(diǎn)研究基于知識(shí)圖譜和語義識(shí)別技術(shù)的新一代警務(wù)搜索系統(tǒng),力圖可以保障海量數(shù)據(jù)下的高并發(fā)快速檢索,使得大數(shù)據(jù)成果可以充分賦能全體民警。
從使用模式上來說,警務(wù)搜索系統(tǒng)主要可以分為獨(dú)立信息檢索系統(tǒng)、信息綜合查詢系統(tǒng)、網(wǎng)站信息搜索系統(tǒng)和多媒體信息搜索系統(tǒng)。從技術(shù)角度看,警務(wù)搜索系統(tǒng)的發(fā)展歷程已經(jīng)歷了兩代。
第一代搜索系統(tǒng)主要以單詞、分詞的形式進(jìn)行檢索,如圖1所示,需手動(dòng)進(jìn)行數(shù)據(jù)關(guān)聯(lián),無任何聯(lián)想功能。
第二代搜索系統(tǒng)立足于技術(shù)的發(fā)展,能夠基于字符串匹配搜索,如圖2所示,查詢內(nèi)容主要集中在證件和車牌等號(hào)碼、姓名、出生年份等少數(shù)字段,在實(shí)現(xiàn)邏輯上屬于單表類搜索,底層數(shù)據(jù)和查詢語句中的字符串要精確才能查出結(jié)果,無法進(jìn)行跨表搜索。
隨著云計(jì)算、大數(shù)據(jù)、語義分析、知識(shí)圖譜等創(chuàng)新技術(shù)的成熟應(yīng)用,以知識(shí)圖譜和語義搜索為核心特點(diǎn)的新一代智能搜索系統(tǒng)正逐步走入實(shí)戰(zhàn)。
從公安實(shí)戰(zhàn)業(yè)務(wù)場(chǎng)景看,搜索系統(tǒng)需要對(duì)匯聚的所有數(shù)據(jù)資源進(jìn)行檢索和查詢,同時(shí)在結(jié)果呈現(xiàn)上需要展示的是經(jīng)過收集、解析及處理過的數(shù)據(jù)資源。這就意味著滿足警務(wù)大數(shù)據(jù)場(chǎng)景的搜索系統(tǒng)將面臨如下挑戰(zhàn):
(1)PB級(jí)別數(shù)據(jù)資源搜索能力
近年來各地大數(shù)據(jù)建設(shè)成果顯著,筆者所在地市局經(jīng)過多年的信息化發(fā)展,已經(jīng)匯聚了以萬億為計(jì)算單位的大體量數(shù)據(jù)資源,且每天以千億條規(guī)模體量進(jìn)行增加。如何實(shí)現(xiàn)對(duì)如此規(guī)模體量的數(shù)據(jù)資源進(jìn)行快速搜索,是當(dāng)前面臨的首要挑戰(zhàn)。
(2)高并發(fā)穩(wěn)定使用能力
筆者所在地市有超過一萬名的民警數(shù)量,作為高頻使用對(duì)象的搜索系統(tǒng)必須要有能夠支撐全市所有民警的高并發(fā)搜索能力,尤其在安保、疫情防控等關(guān)鍵任務(wù)保障期間,全市所有民警都會(huì)使用搜索系統(tǒng)進(jìn)行業(yè)務(wù)的開展,這就對(duì)整個(gè)系統(tǒng)及相應(yīng)支撐平臺(tái)的高并發(fā)能力提出了更高的要求。
(3)具備語義理解搜索能力
受限于業(yè)務(wù)的復(fù)雜性和多樣性,基層民警在案件偵破、治安防控及疫情流調(diào)等一系列警務(wù)實(shí)戰(zhàn)工作中,往往無法能夠精確搜索出目標(biāo),需要綜合各式信息進(jìn)行綜合性、模糊式的搜索。
(4)具備跨模態(tài)式搜索能力
經(jīng)過近幾年感知設(shè)備的大跨步建設(shè),各地基本建成了海量的視頻監(jiān)控體系,積累了大量的視頻、圖片及結(jié)構(gòu)化數(shù)據(jù)[3],這類數(shù)據(jù)資源對(duì)于公安業(yè)務(wù)有著非常重要的意義,但是無統(tǒng)一的平臺(tái)能夠?qū)崿F(xiàn)對(duì)跨模態(tài)資源的統(tǒng)一查詢和搜索,迫切需要通過建設(shè)新型搜索系統(tǒng)實(shí)現(xiàn)多維度數(shù)據(jù)的價(jià)值發(fā)揮。
基于上文的需求分析,筆者結(jié)合當(dāng)前相關(guān)技術(shù)發(fā)展趨勢(shì)和所在地市局的實(shí)際情況,對(duì)該搜索系統(tǒng)的架構(gòu)進(jìn)行設(shè)計(jì),系統(tǒng)主要包含數(shù)據(jù)接口服務(wù)、智搜應(yīng)用服務(wù)、智搜引擎服務(wù)、全息檔案服務(wù)、語義搜索引擎、多模態(tài)搜索、全文搜索引擎等內(nèi)容。其中,智搜應(yīng)用服務(wù)是用戶進(jìn)行查詢搜索的直接交互界面,通過調(diào)用智搜引擎服務(wù)實(shí)現(xiàn)對(duì)語義搜索和全文搜索;語義搜索引擎實(shí)現(xiàn)用戶通過自然語言方式進(jìn)行搜索;全文搜索引擎實(shí)現(xiàn)對(duì)全局所有數(shù)據(jù)資源的每個(gè)字段都被索引并可被搜索;MaxCompute實(shí)現(xiàn)對(duì)搜索系統(tǒng)的底層大數(shù)據(jù)組件支撐。
區(qū)別于前兩代搜索系統(tǒng)的實(shí)現(xiàn)方式,新一代警務(wù)搜索系統(tǒng)的核心關(guān)鍵技術(shù)點(diǎn)包括交互式分析能力大數(shù)據(jù)組件、全文搜索引擎、語義搜索引擎、知識(shí)圖譜和多模態(tài)搜索五個(gè)方面內(nèi)容,如圖3標(biāo)色內(nèi)容所示。
新一代搜索系統(tǒng)的大規(guī)模高并發(fā)要求需要依賴底層云計(jì)算大數(shù)據(jù)組件的強(qiáng)有力支撐。在設(shè)計(jì)中,筆者選擇MaxCompute作為系統(tǒng)底層核心的大數(shù)據(jù)支撐組件。全局多種數(shù)據(jù)源同步到大數(shù)據(jù)計(jì)算服務(wù),在此基礎(chǔ)上進(jìn)行全局所有數(shù)據(jù)資源的大規(guī)模和高并發(fā)計(jì)算分析,為搜索系統(tǒng)能夠從全局億萬級(jí)數(shù)據(jù)資源中進(jìn)行查詢、分析,提供離線、實(shí)時(shí)的查詢計(jì)算支撐。從實(shí)際的運(yùn)行結(jié)果分析,選擇的大數(shù)據(jù)組件能夠快速上手、服務(wù)穩(wěn)定、安全可靠,且能夠同時(shí)處理搜索系統(tǒng)涉及到的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)計(jì)算要求。
針對(duì)搜索系統(tǒng)低延時(shí)、高并發(fā)要求的場(chǎng)景,通過使用MaxCompute高效低延遲的資源調(diào)度策略,如圖5所示,并且使用獨(dú)立執(zhí)行資源池,實(shí)現(xiàn)了秒級(jí)查詢響應(yīng)計(jì)算能力。
針對(duì)搜索場(chǎng)景涉及到的對(duì)語義處理需求,使用MaxCompute對(duì)非結(jié)構(gòu)化語音、自然語言文本進(jìn)行語音識(shí)別、語義分析和數(shù)據(jù)處理,如圖6所示。
在全文搜索引擎方面,采用能夠處理PB級(jí)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的Elastic Search引擎,構(gòu)建了分布式、多用戶的全文搜索引擎能力,借助引擎強(qiáng)大的分布式實(shí)時(shí)分析檢索性能、實(shí)現(xiàn)ms級(jí)數(shù)據(jù)全文查詢時(shí)效性。在具體研究和實(shí)現(xiàn)的核心內(nèi)容上,一是通過引擎構(gòu)建索引庫,承接全局所有民警警務(wù)實(shí)戰(zhàn)過程中查詢流量;二是針對(duì)全局新增的數(shù)據(jù)資源,進(jìn)行實(shí)時(shí)全增量同步,全量通過標(biāo)準(zhǔn)JDBC協(xié)議獲取數(shù)據(jù),通過Binlog訂閱同步增量,如圖7所示;三是用戶在查詢過程中通過調(diào)用全文搜索引擎服務(wù)進(jìn)行結(jié)果的生成。
在實(shí)際搜索系統(tǒng)使用過程中,全文搜索引擎能夠?qū)崿F(xiàn)分布式的實(shí)時(shí)文件存儲(chǔ)和搜索,每個(gè)字段都被索引并可被搜索,整體上保障搜索穩(wěn)定、可靠、快速[4],滿足全局警務(wù)實(shí)戰(zhàn)需求。
為充分提升搜索引擎的交互智能化,特設(shè)計(jì)語義搜索引擎(NLS)作為智能搜索的重要組成部分。該引擎可以提供對(duì)以自然語言形式表述的查詢語句進(jìn)行語義分析、查詢語句轉(zhuǎn)化,最終提供查詢結(jié)果的能力。通過深度學(xué)習(xí)語義解析模型得到自然語言查詢中獨(dú)立、明確的語義信息,結(jié)合元數(shù)據(jù)知識(shí)圖譜在語義信息和目標(biāo)數(shù)據(jù)之間建立關(guān)聯(lián)[5],完成查詢語句的生成,然后由查詢執(zhí)行模塊完成數(shù)據(jù)庫查詢,實(shí)現(xiàn)搜索結(jié)果的輸出。語義搜索引擎(NLS)功能包括語義解析模塊(QP)、元數(shù)據(jù)知識(shí)圖譜管理模塊(MKG)、查詢語句生成模塊(Analyzer)、查詢執(zhí)行模塊(Executor),如圖8所示。
語義解析模塊通過調(diào)用深度學(xué)習(xí)模型的在線服務(wù),解析流程如圖9所示,提供對(duì)用戶輸入的自然語言查詢進(jìn)行分詞、分段、命名實(shí)體識(shí)別、語義標(biāo)注、意圖識(shí)別等功能。其輸出內(nèi)容作為下一階段“查詢語句生成模塊(Analyzer)”的輸入。
知識(shí)圖譜在語義搜索引擎中不可或缺,它將查詢數(shù)據(jù)的元數(shù)據(jù)信息以及用戶查詢內(nèi)容進(jìn)行分類、抽象、依賴關(guān)系梳理,以不同類型節(jié)點(diǎn)的形式進(jìn)行保存,在語義搜索中起到輔助解析、查詢生成重要作用,是連接用戶查詢Query和查詢數(shù)據(jù)之間的的橋梁。在研究和實(shí)現(xiàn)過程中,結(jié)合當(dāng)前主流的技術(shù)體系,把知識(shí)圖譜按照搜索的業(yè)務(wù)邏輯分為三個(gè)流程內(nèi)容,分別是圖譜應(yīng)用、圖譜存儲(chǔ)&編輯以及圖譜生成。圖譜應(yīng)用立足語義解析結(jié)果,通過查詢字段、取值及操作,實(shí)現(xiàn)對(duì)表的中間結(jié)果查詢,通過查詢適配器形成最終的查詢語言生成邏輯內(nèi)容;圖譜存儲(chǔ)&編輯對(duì)圖譜應(yīng)用的語義解析結(jié)果和知識(shí)圖譜內(nèi)容進(jìn)行存儲(chǔ),同時(shí)按照?qǐng)D譜生成器進(jìn)行標(biāo)準(zhǔn)格式的存儲(chǔ)和展示,并進(jìn)行實(shí)時(shí)的修改和反饋。圖譜生成立足圖譜生成器的存儲(chǔ)和展示內(nèi)容進(jìn)行元數(shù)據(jù)信息選擇、修改操作,詳細(xì)管理流程如圖10所示。
基于自然語言理解和圖像識(shí)別,對(duì)人的屬性(含標(biāo)簽)、行為、關(guān)系和體貌特征進(jìn)行組合搜索。適用于沒有ID類信息,也沒有人員信息,僅有視頻監(jiān)控類信息,通過其體貌特征對(duì)人員身份進(jìn)行快速落地。
在實(shí)際研究和建設(shè)過程中,通過使用文本Query對(duì)圖像內(nèi)容屬性抽取檢索,包括語義解析模型升級(jí)和知識(shí)圖譜更新配置;對(duì)于識(shí)別不出人員ID的圖片,根據(jù)Reid對(duì)結(jié)果進(jìn)行Grouping。語義解析模塊會(huì)判別搜索Query的搜索意圖,判斷需要對(duì)單主題域進(jìn)行搜索,還是對(duì)多主題進(jìn)行跨模態(tài)搜索,進(jìn)而根據(jù)知識(shí)圖譜中虛擬實(shí)體->實(shí)體表的映射關(guān)系,生成針對(duì)不同主題域的SQL,召回搜索結(jié)果。詳細(xì)技術(shù)流程如圖11所示。
結(jié)合筆者所在地市局當(dāng)前的信息化建設(shè)水平以及視頻監(jiān)控建設(shè)規(guī)模體量,目前已圍繞一線警務(wù)實(shí)戰(zhàn)過程中需求比較迫切的功能內(nèi)容,初步實(shí)現(xiàn)了圍繞性別、著裝、體態(tài)等共計(jì)40多類的多模態(tài)搜索能力。
警務(wù)搜索系統(tǒng)屬于智慧警務(wù)中必建且高頻的基礎(chǔ)應(yīng)用軟件,支撐著各類數(shù)據(jù)資源系統(tǒng)對(duì)外的呈現(xiàn)。本文在搜索技術(shù)上開展了大膽的創(chuàng)新嘗試,以滿足大規(guī)模和高并發(fā)為核心需求,在交互式分析能力大數(shù)據(jù)組件、全文搜索引擎、語義搜索引擎、知識(shí)圖譜和多模態(tài)搜索這五個(gè)方面進(jìn)行創(chuàng)新探索,架構(gòu)了新一代警務(wù)搜索系統(tǒng),為某市公安局乃至全國(guó)公安機(jī)關(guān)進(jìn)行大數(shù)據(jù)下的全警賦能提供了豐富的寶貴經(jīng)驗(yàn)。實(shí)戰(zhàn)驗(yàn)證數(shù)據(jù)基本上反映了民警的搜索目標(biāo),滿足低門檻普適性需求。本文所研究之內(nèi)容可以作為搜索技術(shù)在公安警務(wù)大數(shù)據(jù)建設(shè)中相關(guān)研究的理論基礎(chǔ),也可以為大數(shù)據(jù)智能應(yīng)用規(guī)劃設(shè)計(jì)提供一定的參考價(jià)值和工程意義。