劉彥飛,毛博文,袁浩然,劉德智
(1.天津大學 智能與計算學部,天津 300072;2.重慶警察學院 信息安全系,重慶 401331;3.重慶城市科技學院 人工智能與大數(shù)據(jù)學院,重慶 402167;4.重慶理工大學 兩江人工智能學院,重慶 401135)
人工智能的發(fā)展階段逐漸由計算智能經(jīng)感知智能向認知智能發(fā)展?!吨袊鴮W生發(fā)展核心素養(yǎng)》[1]中“讓核心素養(yǎng)落地”是課程標準修訂中的重要工作,新課標強調對課程內容的結構化方式組織,注重學科之間知識的結構,同時注意學生活動和方式的結構。
目前,關于知識圖譜在教學應用中的研究,將傳統(tǒng)的教學知識組織成三元組,可視化的知識圖譜在教學過程中可以靈活展示整個領域知識體系結構,教師也可以根據(jù)學生數(shù)據(jù)的分析跟蹤優(yōu)化教學進程。戈其平等[2]提出基于數(shù)學教學的知識圖譜構建,通過圖譜可視化使得離散碎片化的數(shù)學知識相對完整和有聯(lián)系;茶思月等[3]提出基于學科核心素養(yǎng)的多模態(tài)教學圖譜,提高教學知識圖譜的趣味性和實用性。
為此,從用戶需求、教學資源和教學任務3個維度出發(fā),研究構建基于公安教育的知識圖譜本體庫,并將其運用到實際課程教學中,其具備較好的便攜性、高效性和高參與性,讓學生能夠隨時隨地構建當前應用場景的熱點圖譜,充分理解眾包構建過程,教師能即時反饋圖譜運用可行性,使得在公安專業(yè)性方面的教學方式更加直觀化,教學目的性更加突出。
隨著社會數(shù)據(jù)的不斷增加和人工智能技術的迭代更新,數(shù)據(jù)的巨量化運用在社會關系應用領域非常廣泛。在社會關系網(wǎng)絡分析中可以研究社群結構動態(tài),在公共安全應用之中,對于特定人群的社群網(wǎng)絡挖掘也同樣具備實踐依據(jù)。
在公共安全體系,研究公安教育培訓主題的文獻較少,基于知識圖譜的移動端公安院校教育軟件并研究其實踐意義能夠在多實際場景中讓公安教育培訓直觀化,為培養(yǎng)下一代警務系統(tǒng)思想提供思路。
知識圖譜是顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系。
公共安全應用的前景包括社會關系網(wǎng)絡分析,研究關系結構動態(tài)[4];社群發(fā)現(xiàn)研究社區(qū)特征屬性和演化方向,社會網(wǎng)絡分析挖掘研究演化關系結構[5];社會人群研究保障社會安全穩(wěn)定性,以上只是在社會研究方向中利用知識圖譜的應用。
用于教培的知識圖譜可以基于多種實體關系類型構建不同結構的優(yōu)化圖譜解決方案。根據(jù)數(shù)據(jù)來源的不同,應用多個教學場景構建跨圖譜多學科交叉融合的領域知識圖譜[6],利用眾包思想[7]高參與度宏觀展示知識結構,快速設計優(yōu)化實體關系組來表達復雜關系。
分析公安教培知識的廣度化和可挖掘深度化因素,提出對公安教培過程的跨領域、跨學科需求,改善因教培知識的專業(yè)性而造成的知識低密度性。
公安教育的數(shù)據(jù)來源復雜度高,異構化數(shù)據(jù)較常規(guī)可用數(shù)據(jù)擁有不可被機器識別的特點,無法與相關課程現(xiàn)有離散數(shù)據(jù)契合?,F(xiàn)有的公安教育數(shù)據(jù)庫在大數(shù)據(jù)建設下,人機交互方面仍有所欠缺。
依據(jù)公安院校的教育知識情況,對常規(guī)教育過程的數(shù)據(jù)來源分析,提取其因廣度、深度問題導致的用戶需求、教育資源和教學任務問題[8],引入知識圖譜工程對復雜學科系統(tǒng)的來源擬真魯棒性分析。
2.1.1公安教育數(shù)據(jù)來源
公安院校中,課程教育資源在教學環(huán)境下主要表現(xiàn)在3個來源:公安機關內部資源、教育部門、其他通過審核的機構和組織。
公安內部資源是公安機關利用自身資源,如公安部門內部培訓機構、警校、警察學院等進行教育培訓,提供公安教育的課程資源。
教育部門資源針對公安院校的特殊性,專門制定審核發(fā)放專門院校靶向性知識。
公安相關教育部門還可以和其他受信任機構組織合作,例如法律部門、社會基層團體和企事業(yè)單位面向專門領域的知識教材。
2.1.2公安教培知識圖譜數(shù)據(jù)來源
根據(jù)公安教育數(shù)據(jù)的來源分析,初步離散教學數(shù)據(jù)處于較高熵態(tài),利用DIKWP模型[9]對其整個知識體系的建模進行分析,Data都是整個系統(tǒng)中的熵增個體,Information屬于熵增單元的狀態(tài)疊加表示,Knowledge代表了熵增單元組的信息提供系統(tǒng)輸出,Wisdom是針對以上數(shù)據(jù)的組合分析狀態(tài)態(tài)勢,Purpose滿足知識體系的跨領域關聯(lián)。主要操作就是利用模型構建知識圖譜,達到整個系統(tǒng)熵降。所以結構化知識圖譜數(shù)據(jù)來源于對于公安教育數(shù)據(jù)的實體關系重構。
公安教培進程中,圖譜化知識體系結構通過層次遞進的方式滿足用戶需求、教育資源和教育任務,并推動數(shù)據(jù)重建。在跨領域關聯(lián)的場景下,該結構能夠避免較大混沌系統(tǒng)的產(chǎn)生[10]。
2.2.1公安教培知識圖譜本體庫設計目的
重點分析現(xiàn)階段公安教培知識庫中存在的問題,集中表現(xiàn)在教培過程中對于教育知識體系的專業(yè)性和課程跨學科領域數(shù)據(jù)質量低。從廣度來看是公安知識的廣度缺失,從深度角度分析,因為離散實體點缺乏廣度關聯(lián),導致圖譜區(qū)塊的分離[11]。
為應對公安教育數(shù)據(jù)來源復雜,且更好耦合人力情報,服務教育本體[12],運用知識圖譜,解構、重構知識主體,構建基于公安角度的知識圖譜本體庫是對日益復雜的公安知識體系的研究實踐設計。
2.2.2公安教培知識圖譜本體庫設計要求
本體工程的建立依據(jù)Cruber的實踐分析,本體庫的清晰性、一致性、最大單詞可擴展性、本體約定最小性對公安知識體系的廣度、精度等方面要求較高[13]。
公安教培過程中,數(shù)據(jù)來源呈現(xiàn)較高復雜性,在知識體系網(wǎng)絡分析中,異構特性突出且可利用耦合度低,從實際出發(fā),除了滿足以上本體庫建立的幾大特性以外,還對目的功能提出具體化需求。一是具有基本管理本體的功能,滿足本體庫中各個因子的清晰一致性。二是提煉出的課程所關聯(lián)的知識庫無法很好地與人力知識庫耦合,依據(jù)本體構建基礎和結合教育認知心理學,從課程知識導向出發(fā),強調了人機交互功能的重要要求。三是以公安知識廣度、深度方面著重課程知識對教培過程的需求,提出標準化本體庫設計功能需求。四是根據(jù)本體工程建設要求,擴展最大單詞可擴展性到公安教培領域,本體構建庫中應當具有經(jīng)審核后的擴展性和維護性。
2.2.3公安教培知識圖譜本體庫設計方法
1) 德爾菲法運用
稱為人腦云計算的德爾菲法(delphi methods,DM)根據(jù)匿名原則、循環(huán)往復原則、控制反饋原則、團體回答原則和專家共識原則設計選擇因子問卷發(fā)送給領域專家,列出所需功能因子清單,不斷地匿名隔離反饋和重復評審因子權重來對因子選擇排序。DM流程如圖1 所示。
圖1 DM流程框圖
根據(jù)當下文件資料和存在問題,知識圖譜專家參與因子排序后進行排序考核,經(jīng)過整理歸納等數(shù)據(jù)初步處理之后,再反饋給專家進行權重劃分,重復集中反饋后獲得穩(wěn)定因子。
2) 層次分析法運用(AHP)
對于權重通級因子的劃分,使用基于判斷矩陣的AHP進行指標權重一致性檢驗,判斷矩陣計算出相對權重,使用遞歸計算對級影響因子權重劃分序列。
根據(jù)專家提交的文本中功能因子關鍵詞,結合TF-IDF方法進行抽取,依據(jù)詞頻和逆向文件頻率來計算。
3) DF-IDF法
詞頻(term frequency,TF)是指某單詞在文件中出現(xiàn)的次數(shù),如下式所示。
(1)
式中:ni,j代表單詞i在文件j中出現(xiàn)的次數(shù)。
逆向文件頻率(inverse document frequency,IDF)衡量詞匯的一般意義,如式(2)中|D|是文件總數(shù),|j:ti∈dj|代表包含詞語的因子數(shù)。
(2)
最終得到功能因子i在專家提供的樣例j中的權重,如下式所示。
TF-IDFi,j=TFi,j×IDFi
(3)
通過專家提供因子劃分權重計算,得到本體特征因子。
2.2.4公安教培知識圖譜本體庫設計過程
1) 本體庫構建數(shù)據(jù)來源
本體庫構建數(shù)據(jù)來源于幾個方面,分別是基于現(xiàn)階段法律法規(guī)的提取、大數(shù)據(jù)構建所總結的決策知識庫、公安內部相關背景決策和專業(yè)行動知識。
2) 本體庫構建數(shù)據(jù)提取
關于本體庫構建的方式以復用歸納為主要操作手段,迭代過程如圖2所示,復用是針對數(shù)據(jù)來源中的類進行層次劃分;歸納是使用DF-IDF算法進行類的相似度計算,最終得到種子因素,研究參考文獻對種子因素的迭代發(fā)散和DM發(fā)散,完成本體因子庫的擴充,形成最初版本本體庫“匯合因子”。
圖2 本體迭代過程
二次DM法對匯合因子進行篩選,其基礎工作是排除語義易混淆的因子,之后制定相關規(guī)則來限制因子層級關系和數(shù)量[14],最終運用DM-AHP算法,根據(jù)屬性三元組關聯(lián)形成基于公安教培的本體庫。
2.2.5公安教培知識圖譜本體庫設計
結合德爾菲法、層次分析法和認知能力學構建知識圖譜教培體系,該體系基于相關政策文件和現(xiàn)階段公安教培數(shù)據(jù)資料構建,選擇因子權重計算獲得體系結構,教學過程中結合認知心理學針對廣度知識化的公安教培環(huán)境指定宏觀策略。設計策略是:2個二級因子,前端功能選擇和后端功能選擇;12個三級因子,中前端10個功能設計和后臺主要2個因子功能設計,后臺分別是用戶權限管理和知識圖譜管理,10個功能按照認知心理學在實際課程不同層級的知識教培階段情景劃分權重排序;7個四級因子主要是對于后端功能應用的細分。德爾菲法功能設計指標因子如表1所示,層次分析法功能因子權重如表2所示。
表1 德爾菲法功能設計指標因子
表2 層次分析法功能因子權重(取整)
功能設計因子的設計和權重劃分結合關聯(lián)主義認知心理學學習策略,對領域知識圖譜不斷迭代優(yōu)化,探索多學科融合優(yōu)勢[15],具象化知識圖譜教培應用。
公安教培知識圖譜軟件構建方案的提出是嘗試為公安院校培養(yǎng)復合型、創(chuàng)新型人才探尋路徑,使此類專業(yè)人才具備創(chuàng)新的思維潛能,在走上工作崗位遇到具體案件時,能積極、主動地從新的角度發(fā)現(xiàn)問題,用新的方法分析問題,用綜合的手段來解決問題。讓學員明白在專業(yè)知識、職業(yè)素質和技能等方面達到預期目標的培養(yǎng)過程不可能一蹴而就,需要按照一定的次序,層次遞進性地由淺入深、由低級到高級逐步完成。
公安院校教學內容的泛化性需要大規(guī)模關聯(lián)集成,但現(xiàn)階段的教學實踐環(huán)境中,常規(guī)教學數(shù)據(jù)處理相對離散,因此開發(fā)基于知識圖譜的移動端教培軟件成為了必要的需求。該軟件可以在常規(guī)課程時間內由學員在教師指導下進行學習,同時也支持課后知識眾包活動,讓學員參與數(shù)據(jù)整合和挑戰(zhàn)賽等活動,以便更好地提升自身知識水平。
在常規(guī)教學活動中,學員可以根據(jù)教師上傳的資料進行當前課程的學習,還可以通過愛學習功能強化自己的興趣領域,并通過挑戰(zhàn)賽等活動在劃定領域中進行知識的碰撞和擴充,從而不斷擴展自己的領域和知識。
當學員掌握了宏觀基礎理論和進行初步設計實踐之后,在教師的授權下,學員可以擁有更多的權限實現(xiàn)知識眾包技能。他們可以提出自己的算法和預處理方式,以控制龐大離散數(shù)據(jù)采集,降低時間和空間復雜度,確保數(shù)據(jù)的兼容性和結構化[16],并導入平臺進行標注審核,最終實現(xiàn)數(shù)據(jù)向領域知識圖譜的轉變。
在該平臺中,其他學員和普通用戶可以依據(jù)圖譜相關操作,如語義檢索、語義瀏覽等,進行知識的全覆蓋遍歷,查詢知識實體和實體之間的關系圖譜,實時了解課程熱點和實際運用領域的熱點TOP10,回顧查看內容,實時跟蹤學習進度和歷史,滿足后期對于功能兼容和擴充的全部頻道。
在課程實踐過程中,學員在教師指導下對離散數(shù)據(jù)進行處理,最終審核納入采集數(shù)據(jù)庫,通過對實體的增刪改查和對關系的優(yōu)化設置,把所得到的結構數(shù)據(jù)由相關責任分組的學員錄入后臺系統(tǒng)進行實體關系關聯(lián),擁有普通用戶權限的用戶和學員組可在前端界面使用語義瀏覽。使用遍歷卷功能從宏觀層面查詢某一個關鍵信息的覆蓋關系領域圖譜,結果如圖3所示,生成由不同色塊對不同實體進行分類的領域關聯(lián)圖譜,可以幫助學員在宏觀思想下彌補由傳統(tǒng)教學所帶來的數(shù)據(jù)廣度密度缺失,為培養(yǎng)下一代警務系統(tǒng)思想提供思路。
圖3 公安本體實體映射實踐
如圖4所示,為了使用戶在教培過程中直接了解軟件功能實際運作和可視化交互,前端功能界面由Delphi法結合AHP分析法構建設計后由關系圖譜、AB路徑、遍歷卷、TOP10、來勞動、晉級路、挑戰(zhàn)賽、愛學習、我歷史、全部頻道等主要模塊組成。
圖4 前端因子實踐邏輯視圖
對于課程知識的定義在現(xiàn)有研究中并沒有一個完整的定義。在《簡明國際教育百科全書》中,“課程知識”的含義包括課程內容和課程編制知識,是對基本概念、相關原理、基本法則和知識之間的內在聯(lián)系的總概述。
在公安教育體系中,課程知識不僅僅局限于當前課本的內容編制,因其知識廣度多元化特點使得公安領域教育專業(yè)性過強,對于跨學科知識的組織較弱。依據(jù)教學實踐過程中的認知心理學學習理論和參考課程不同定義,教培應用在關聯(lián)主義中具有階段層級結構。學員發(fā)揮主觀能動性,在教師的指引下,建立自己的知識網(wǎng)絡,通過與其他知識實體連接獲取對應知識點。知識圖譜教學邏輯中默認學員自我創(chuàng)建,從而用于研究開發(fā)知識圖譜軟件功能模塊。
依據(jù)用戶教學資源需求來進行軟件前端功能劃分。如果需要進行重點知識點的語義檢索瀏覽,在“關系圖譜”功能中實現(xiàn)以搜索知識點為中心的相關聯(lián)圖譜;2個對象的關系分析,運用“AB路徑”功能查找檢索實體間的關聯(lián);主題中從宏觀角度了解領域關系圖譜,能夠以最大的視角來進行整個事件統(tǒng)籌化分析,“遍歷卷”功能為其提供領域圖譜支持;宏觀到中觀再到微觀的操作邏輯給予遍歷卷功能的放大縮小操作邏輯,讓用戶可以全方位、細致化地對領域知識結構瀏覽。
教培過程中,學習、復習、自我強化、實戰(zhàn)環(huán)節(jié)作為課程知識體系中牢基應用需求,即時性的可交互“TOP10”功能讓學生和老師能隨時查看熱點節(jié)點和按照所需定義熱點;“來勞動”增加學生自我深化能力;“晉級路”囊括整個教學內容;實戰(zhàn)題目可運用“挑戰(zhàn)賽”,以及強化運用能力,課外拓展自身結構化知識能力的“愛學習”?;谥R圖譜的移動端教培APP將合理教學可追蹤的服務運用到實際課程中,眾包邏輯讓教培參與性提升,層次化遞進學習法為培養(yǎng)人才提供實踐途徑。
移動端公安院校教培知識圖譜軟件的后臺功能設計分析基于認知科學,并結合教學環(huán)境中的兩大角色——學生和教師,建立知識圖譜模式。
在常規(guī)教培環(huán)境中,教師和學生通過用戶角色管理互動。教師可以將學生分組[17],如圖5所示,滿足不同分組的不同責任劃分,或作為發(fā)布眾包任務的標注任務發(fā)布者來審核本體資源和數(shù)據(jù)資源[18]。對于當前教培任務的資源管理,可以通過精細化、標準化課程所需功能模塊來管理。學生可以利用實體管理扮演多個角色,在常規(guī)教學任務中靈活應用圖譜管理功能,作為數(shù)據(jù)采集活動的角色分組,對離散數(shù)據(jù)采集、清洗和審核后錄入平臺統(tǒng)一管理。學生分組將其分類并設置知識節(jié)點之間的關系,通過知識眾包等方式,構建場景領域知識圖譜,從而為普通用戶在前端界面提供語義檢索、瀏覽和宏觀查看領域知識圖譜。
圖5 本體實體映射實踐邏輯視圖
從課程需求角度出發(fā),構建公安院校教育本體庫可以滿足學生學習和研究的需要。其中,“知識廣度耦合較低”和“知識深度耦合較低”表明學生需要掌握的知識點較為分散,且知識之間的關聯(lián)性不是很強,因此需要一個本體庫來系統(tǒng)地整合和組織這些知識點。此外,本體庫也可以用于教師開設課程,幫助教師更好地掌握課程的知識點和相關概念,提升教學效果。
從課程內容角度出發(fā),公安院校教育本體庫的構建包含各種數(shù)據(jù)和知識點,以滿足用戶需求。其中,“數(shù)據(jù)知識量龐大”是一個重要的關鍵詞,表明本體庫需要包含大量的數(shù)據(jù)和知識點。為了確保本體庫的質量和有效性,需要對數(shù)據(jù)和知識點進行分類、篩選和組織。此外,對于不同學科領域的知識點,需要進行分類和整合,確保用戶可以輕松找到所需的知識點。
從用戶需求角度出發(fā),公安院校教育本體庫的構建可以滿足不同用戶的需求。例如,學生可以通過本體庫找到自己需要的知識點和相關概念,提升自己的學習效果;教師可以利用本體庫更好地組織課程內容,提高教學質量和效果;同時,其他研究者也可以利用本體庫進行相關研究和分析。因此,從用戶需求角度出發(fā),本體庫的構建需要考慮不同用戶的需求和使用場景,提供多種查詢和搜索方式,以方便用戶獲取所需信息。
從本體庫構建因子個體因素分析本體的準確完整性、可讀可維護性和交互操作。本體所包含的實體關系是否準確無誤,以及是否覆蓋了相關的概念和實體;本體的格式規(guī)范、命名規(guī)則、注釋等是否符合標準,以及是否容易理解和修改。
本體的質量直接對知識表征與推理結果產(chǎn)生影響,決定了本體在實際應用場景中的有效性。
使用本體質量評估框架(the ontology quality evaluation framework,OQuaRE)方法[19],結合公安教培知識圖譜的本體實踐情況做出評估。
定義:Ci代表本體中的第i個類,RCi代表類Ci具有的關系,PCi代表類Ci的屬性,SupCi代表類Ci的直接父類,Thing是所有類的根源。
指標1:Weighted Method Count (WMCOnto)表示每個類的屬性與關系的平均數(shù)量,其計算方法如下:
指標2:Number of Children (NOCOnto)表示直接子類的平均數(shù)量,其計算方法如下:
指標3:Response for a class (RFCOnto)表示可以直接從類中訪問的屬性數(shù),其計算方法如下:
指標4:Lack of Cohesion in Methods (LCOMOnto)表示類的語義與概念相關性,可以用于度量本體元素的代表性與本體元素的獨立性,其計算方法如下:
式中:∑path(|C(leafi)|)是葉類i到Thing的路徑長度;m是本體中的路徑的總數(shù)。
指標5:Coupling between Objects (CBOOnto)表示相關類的數(shù)量,其計算方法如下:
指標6:Modification stability(Mods)表示本體在穩(wěn)定性方面的評估結果,其計算方法如下:
ModS=φ(WMCOnto,NOCOnto,
RFCOnto,LCOMOnto,CBOOnto)
式中:φ(x1,x2,…,xn)用于計算各項指標的算數(shù)平均值,并將得分轉換到1~5。
從實踐過程出發(fā),由OQuaRE計算,如圖6所示,所得公安院校教培知識圖譜本體平均分高于3分,表明其符合本體工程構建基本要求。其中,圖譜管理的本體質量優(yōu)勢較高,主要體現(xiàn)在處理知識元過程中該項占有主導地位,而前端功能因子優(yōu)先級較低,從用戶需求出發(fā),主要是滿足用戶的語義瀏覽等過程。
圖6 公安教培知識圖譜本體評估得分直方圖
為解決公安教培過程中知識廣度缺失而無法充分覆蓋領域學科的問題,構建多模態(tài)跨界圖譜應用。應用德爾菲法和層次分析法對用戶需求、教育資源、教學任務進行梳理,結合教育心理學研究構建公安教培本體庫。運用本體實體構建實現(xiàn)多場景融合,實現(xiàn)了“開發(fā)功能”以學員課程與知識圖譜結合為指導;“晉級路功能”在本體迭代性學習中具有較好的靶向性;“愛學習功能”在深化本體構建方法上融合教學,實現(xiàn)學員自我突破;“眾包功能”實現(xiàn)人人參與共建的領域知識圖譜庫。
對于公安教培知識圖譜本體的豐富是一項持續(xù)性工作,在下一步的研究中,可以充分利用以ChatGPT為代表的大模型工具助力本體設計,大模型在知識圖譜本體構建中能夠發(fā)揮重要作用,可以幫助學習本體結構,推斷屬性和關系,處理實體鏈接和消岐,并支持本體的擴展和修訂。這些功能使得大模型成為構建高質量知識圖譜本體的有力工具。