多模態(tài)南海疆維權證據本體模型構建*

2024-04-25 01:45:20司徒凌云沈固朝

情報雜志 2024年4期

司徒凌云孫鶴石進沈固朝

(1.南京大學信息管理學院南京 210023;2.中國南海研究協(xié)同創(chuàng)新中心南京 210023 )

南海疆維權關乎國家安全、區(qū)域和平與亞太經濟發(fā)展。中國一直堅持“擱置爭議,共同開發(fā)”的原則開展南?；顒?然而隨著域外勢力的持續(xù)介入和東南亞各聲索國的單邊行動,南海局勢持續(xù)緊張,中國南海疆域的維權和維穩(wěn)面臨挑戰(zhàn)。因此,加快收集南海疆維權證據資料、構建本體模型、提取證據要素、挖掘證據關系、建立維權證據鏈成為維護我國南海權益,服務中國海洋強國戰(zhàn)略的重大需求和緊迫任務。

以中國南海研究協(xié)同創(chuàng)新中心和中國南海研究院為代表,耗費十余年,構建了中國南海疆全文數字資料庫,其中包括文獻庫、地圖庫、影像庫、視頻庫以及檔案庫等多個數據庫,為南海疆維權證據鏈的構建提供了強大的數據基礎。然而,面對海量、異構、內容豐富的資料庫群,如何有效地定義多模態(tài)南海疆維權證據的本體模型成為關鍵。本體模型的構建旨在從不同類型的南海疆資料中提取有效證據、識別證據關系,進而構建維權證據鏈條。

南海疆維權證據本體模型的構建面臨挑戰(zhàn)。首先,南海疆資料具有多源異構的特點,這些資料來源于不同的渠道,使用不同的數據標準。因此,本體模型的構建需要綜合考慮資源差異性,以實現對南海疆資料的標準化處理。其次,南海疆資料具有多時態(tài)、多樣態(tài)、多語言、多載體、多學科等多模態(tài)特征。過去的本體模型或知識表示工作主要針對"單一模態(tài)"的文本型數據,對于圖像型數據的處理尚不充分。

因此,本研究面向南海疆維權服務,構建了統(tǒng)一的多模態(tài)南海疆維權證據本體模型,涵蓋文本型和圖片型資料,實現對海量異構南海疆資料的標準化處理。以《開羅宣言》為例,利用本體模型對其中南海維權語義進行結構化表達,驗證了本體模型的有效性。多模態(tài)南海疆維權證據本體模型的構建對于南海疆維權證據實體的抽取以及證據關系的挖掘具有基礎性支撐作用。

1 文獻綜述

1.1 本體模型構建研究

傳統(tǒng)的知識表示方法,如謂詞邏輯表示法、產生式表示法、框架表示法、語義網絡表示法和面向對象表示法等[1],在知識表示研究的發(fā)展過程中發(fā)揮了重要作用,同時也存在一定的限制[2]。為了克服這些限制,本體模型應運而生。本體模型能夠對領域實體進行本質抽象,通過多種知識元素反映實體之間的關聯[3]。作為一種主流的知識表示方法[4],本體模型已經受到學界與業(yè)務的廣泛研究與應用。

在文本型知識的本體構建研究方面,發(fā)展較快,取得了豐富的成果。例如,毛軍[5]在RDF敘詞表研究方面做出了貢獻,薛建武[6]則致力于槍械領域本體的構建。然而,傳統(tǒng)的通過手動構建本體模型的方法效率不高[7]。為此,學界提出了通過制定敘詞表轉換規(guī)則并設計算法來實現本體半自動或自動化的構建。但某些構建完成的本體存在與應用脫節(jié)、難以復用或集成、概念體系不夠規(guī)范等問題。因此,專家學者開始關注基于頂層本體模型進行下層本體構建的研究。其中,SPAR[8]是面向語義出版應用最具代表性的本體集合。該本體集合包含了8個核心本體,分別描述了文獻題錄、參考文獻的不同屬性。上述研究為解決本體構建過程中的問題提供了新的思路。

基于圖像型知識的本體構建研究通常采用基于頂層本體的方法。例如,朱學芳等[9]的研究復用了CIDOC-CRM[10]和FOAF[11]和兩個本體標準,以“非遺—圖像”的二元概念為核心,展現了非遺項目與圖像資源之間的一對多關系。趙雪芹等人的研究[12]選擇參考CIDOC-CRM概念參考模型、FOAF本體、TIME本體、EVENT本體以及都柏林核心集(DC)元數據標準等,致力于解決傳統(tǒng)圖像資源組織方式中細粒度不夠、語義程度不高、關聯性不強的問題。利用圖像知識元素構建了數字人文圖像本體模型,從而描述了圖像中復雜的語義概念和屬性關系。Srinivasa等人的研究[13]提出了一種從英文在線報紙的文本和圖像數據中提取和集成犯罪實體與關系知識庫的方法,并開發(fā)了Crime Base系統(tǒng)。該系統(tǒng)采用基于規(guī)則的方法從文本和圖像標題中提取實體,并使用上下文語義相似性度量來關聯從文本數據中提取的實體,使用圖像特征來關聯圖像實體。

面向南海疆維權與維穩(wěn)場景的應用,目前專家學者們更多地集中于基礎資料整理和關鍵技術研究上,如司徒凌云等[14]首次提出了基于多模態(tài)知識圖譜構建南海疆維權證據鏈系統(tǒng);齊小英等[15]以南海歷史事件、新聞數據及文獻資料為語料庫,構建了南海領域主題詞表。該詞表梳理了南海領域核心實體概念間的內在邏輯與知識脈絡,為南海文獻資源的語義分析提供組織工具與關聯基礎。程為等[16]探索了面向南海敘事的事件要素自動抽取方法,可以實從海量南海歷史文本中快速、有效地抽取出各類型事件要素。沈固朝等[17]提出了一種基于描述規(guī)則的知識元抽取方法,實現從以篇幅為單位的主題詞抽取到以句為單位的知識元抽取,實驗表明該方法能夠較好地完成民國南海文獻的知識元抽取。彭玉芳等[18]基于BERT預訓練模型和分面分類法,構建南海文獻分類法,實現了對南海證據性資料的細粒度分類。王燕紅等[19]構建了南海疆維權證據證明力綜合指標體系,探索了基于證明力的維權證據關聯,為南海司法維權場景下證據效力的量化研究提供了啟發(fā)。丁晟春等[20]構建了南海問題本體及知識庫,為南海問題智庫的研究提供了有益參考。

目前本體模型相關研究很多,整體來看,本體模型的構建方法正逐步從基于敘詞表的手動構建過渡至基于頂層本體復用的自動化構建。單獨基于文本和圖像模態(tài)資料進行本體模型構建的研究很多,但面向多模態(tài)資料的本體模型構建研究較少。面向海疆領域本體模型構建的研究日益豐富,但大多集中于該領域本體構建的基礎資料整理、關鍵技術研究上,鮮有學者提出一個完整的適用于海疆維權的本體模型。

1.2 本體屬性標記研究

本體屬性標記技術,在本體模型構建過程中扮演著至關重要的角色,主要用于將語料庫中的實體概念與本體中的屬性進行識別關聯。因此,學術界對本體屬性標記進行了深入的研究,包括屬性抽取、屬性歸一化以及屬性關聯等。

針對文本型資料的標記,研究者們進行了多方面的探索。李斌等[21]以自動分析技術為基礎,結合人工標記和校對,采用實體標記方法來解決同名異指和異名同指等問題。盡管取得了良好的結果,但人工標記仍然限制了效率的提高。宋寧遠等[22]基于敘事性文本語義標記流程,選擇GATE8.5.1作為標記工具,并利用插件來實現中文文本的標記,一定程度上實現了敘事性文本的半自動標記,但對于事件、情節(jié)等富語義文本內容的準確表征仍存在不足。Xu等[23]提出了一種用于物聯網生態(tài)系統(tǒng)中移動和邊緣服務自動標注的語義標注框架,通過爬取大型真實數據進行實驗,對注釋標注的分布進行深入分析,從而驗證了方法的有效性。Shi等[24]通過微調BERT預訓練模型,應用于ADME(吸收、分布、代謝和排泄)的自動語義標記,相較于傳統(tǒng)的機器學習技術,實現了高達12.5%的絕對F1改進。Fernández-González[25]基于深度學習提出了一種基于指針網絡的過渡語義角色標記方法,并在CoNLL-2009共享任務的大多數語言上取得了較好的性能。上述研究展示了在文本型資源標記領域的不斷探索和創(chuàng)新,取得了一定的成果。然而,對于構建大規(guī)模、高質量語料庫,標記技術仍需要進一步提高準確性和效率。

針對圖片型資源的標記,L. Stork等人[26]提出了一種半自動化的標記模型和工具,用于對1820-1850年間荷蘭印度群島自然史委員會收集的8000頁圖書的圖像進行掃描和注釋。然而,圖像語義的半自動化標記在標注精度、準確率和效率上仍然存在著局限性。Hofmann[27]提出了一種基于統(tǒng)計方法的圖像自動化標記模型 PLSA,但為了避免過擬合問題,通常需要結合EM算法進行最大似然估計。隨著機器學習和深度學習的迅速發(fā)展,專家學者們開始將機器學習和深度學習方法應用于圖像的自動化標記。例如,Wang等[28]提出了一種基于數據驅動的方法,通過挖掘搜索結果來標記圖像。該方法具有對離群數據魯棒性的優(yōu)勢,但可能導致檢索到大量相似但冗余或含有噪聲的數據。Jin等[29]提出了一種半監(jiān)督對抗網絡來解決圖像語義標記時標記數據不足的問題。通過在PASCAL VOC 2012和cityscape數據集上進行大量實驗,他們證明了該方法只需少量標記圖像即可達到優(yōu)秀性能,驗證了模型的有效性。這些研究展示了在圖片型資源標記領域的持續(xù)創(chuàng)新。然而,仍需要在提高標記精度、準確率和效率的同時,解決冗余數據和標記語義的挑戰(zhàn)。

2 多模態(tài)南海疆維權證據本體模型構建

2.1 多模態(tài)南海疆證據要素界定

本文借鑒了通用的本體模型CIDOC-CRM和FOAF來構建南海疆維權所需的證據本體模型。值得說明的是,本文將所有可能證明待證事實的證明材料統(tǒng)稱為證據,并通過證據本身的客觀屬性、場景屬性以及類型屬性來確定維權證據的要素。周洪波[30]指出,證據應具備客觀性、相關性和合法性。客觀性指的是證據所反映的內容是客觀存在的事實,這是證據的根本屬性。相關性指的是證據與案件的待證事實之間存在客觀聯系[31]。合法性指的是證據必須按照法律要求和法定程序獲得的事實材料。

基于南海資料的多模態(tài)特征,本文將南海維權證據分為文本型和圖片型兩類,其中圖片型證據又細分為圖像和地圖證據。這樣的劃分是因為其他類型的南海疆資料,如視頻和音頻,可以轉化為文本型和圖片型兩類。圖1所示的是南海維權證據的本體層次結構,第一層和第二層是上層的多模態(tài)證據分類,第三層及以下是具體南海維權證據類的層次關系。第一層根據證據的模態(tài)將其分為文本型證據類和圖片型證據類。第二層根據文本的發(fā)布來源將文本型證據類劃分為官方文本類和私人文本類。官方文本類指的是由國家、政府部門、國際組織、國際機構等具有一定公信力的對象發(fā)布的文本型證據。私人文本類則是由個人發(fā)布的文本,例如國際條約和個人傳記之間的區(qū)別。圖片型證據類可以分為一般圖片證據類和地圖證據類。一般圖片證據類包括會議照片、報紙圖片、碑刻圖片、畫冊等。而地圖證據類則是專指對南海維權起到支撐作用的地圖證據材料,例如中華民國地圖等。第三層及更細分層次主要依據證據類之間的組成關系來確定層次關系。例如,“中華民國地圖”類根據時期的不同,包括“1936年中國全圖”“1946年新民中國地圖”“1948年民國地圖”等地圖證據類。而“1948年民國地圖”則包括“南沙群島分布”“西沙群島分布”等細分區(qū)域,“南沙群島分布”又包括“中業(yè)島”“西月島”等島礁類。通過這樣的本體結構,我們能夠清晰地描述南海維權證據的不同類型及其層次關系,有助于對證據進行有效的分類和組織。

圖1 南海維權證據的本體層次結構

2.1.1文本型證據分類

國際法院對于領土主權歸屬問題受理的證據主要包括書面證據、口頭證詞和專家證據三種類型,其中以書面證據為主。在南海維權工作中,文本型證據是書面證據的重要組成部分。文本資料在證據層面的知識粒度較粗,長篇的文獻資料中可能只有部分內容可作為具有專指性的有效證據。但面向南海維權的司法場景,需要對文獻資料中的證據要素進行實現細粒度抽取。因此,本研究調研了國內學者對于海疆維權證據鏈構建的思考[32],復用了通用本體模型CIDOC-CRM、W3C[33]對于實體的界定,針對南海維權文本型證據的特點,構建了文本證據、時間、空間、標識、引源、證明效力、證據來源類型、證據主體、主權行為類型和證據傾向這10個核心實體概念。如圖2所示,核心實體概念融合了證明價值(如證明效力、證據傾向等實體)和證據屬性(如時間、空間等實體)兩方面的特征,是本體模型構建的基準點。下文將詳細介紹證據本體模型中各個核心實體概念。

圖2 文本型證據本體模型圖

文本型證據(Textual evidence)是本文所構建的本體模型的基礎之一。我們構建了標識、時間、空間、引源、文本內容、創(chuàng)作背景等屬性,以此構建了整個知識網絡。

標識(Identifier)是表示證據事件在計算機存儲中的唯一編號,在進行實體標注時,需要依靠證據的標識進行標引。本文對從南海資料中抽取的證據進行編號,例如某條證據是抽取的第888條證據,則其編號為888。

時間(Time)用于描述證據事件的發(fā)生時間。文本型證據所描述的事件通常處于發(fā)生、發(fā)展和消亡的過程中。隨著時間的變化,事件也會動態(tài)發(fā)展。時間信息對于判斷事件發(fā)生的先后順序、梳理事件的演變過程,具有重要價值。

空間(Space)用于描述證據事件的發(fā)生地點。空間下分為兩個子類,分別是南海島礁和南海海域?？臻g信息是定位具體問題的核心依據,根據空間信息,可以梳理出爭議頻發(fā)、有爭議的主要區(qū)域。

引源(Citation)是文本型證據內容中引用的參考文獻。引源能夠提供該條證據的依據或出處。通過引源,可以找到更多相關的證據文本,增強某一證據主題的證明力。

證明效力(Probative Force)是文本證據的重要屬性。根據前期工作文[34]對書面證據證明力大小認定規(guī)則的研究,本文將證據來源類型、證據主體、主權行為類型和證據傾向作為考量證明效力的標準。

證據來源類型(Source Type)用于描述獲取南海文本證據實體的來源資料的所屬類型。證據來源的所屬類型也可以為判斷證據的證明力提供幫助。例如,對于“南沙群島屬于中國”這一證據文本,如果來源是《開羅宣言》《波茨坦條約》等國際公約,可以根據證明力層級來判斷該證據文本的證明力大小。

證據主體(Subject)指證據文本中出現的主語和賓語。證據主體能夠直觀地表示文本型證據所描述的行為對象,通常是國家、政府部門、行政司法執(zhí)法機構、國際組織、國際機構或個人。

主權行為類型(Action)用于對證據中涉及的主體主權行為類型進行分類,或者針對不同主體的證據主題分類。本文將主權行為類型總體上分為領海內主權行使、第三方對領海管轄權的限制以及領土(島嶼)取得原則三大類及其他類。不同類別的主權行為證據具有不同的證明力級別,可以根據這些級別判斷證據文本的證明力大小。

證據傾向(Tendency)主要包括四類情感,即Positive、Negative、Neutral和Unsure,用于表示該條證據在南海維權情境下的情感傾向。例如,Positive表示該事實描述/證據對“南海屬于中國”這一主張有正向解釋作用,而Unsure表示很難確定該證據的情感傾向。通過設立證據傾向核心類,可以更系統(tǒng)地判斷和分類證據文本的證明力方向。

2.1.2圖像型證據分類

在南海維權工作中,圖像型證據同樣具有重要價值。圖像型證據主要包括會議照片、報紙圖片、碑刻圖片、畫冊和地圖等。其中,地圖作為一類重要的間接證據,在南海維權中具有特殊的地位。專家學者們已經對地圖進行了廣泛的研究,包括地圖在解決領土爭端中的證明價值以及構建南沙群島主權地圖子證據鏈等[34]?？紤]到地圖在支撐南海維權工作中的重要作用,本文將地圖證據獨立于圖像型證據,并在后文對其詳細說明。盡管圖像型證據與文本型證據在模態(tài)上存在差異,但在維權邏輯上存在相通性。因此,本文基于已有的文本型證據實體分類框架,對圖像型證據的要素進行界定。

如圖3所示,本文構建了圖像證據實體的要素,包括標識、時間、空間、圖像內容、創(chuàng)作背景和技術參數等屬性。在證明效力方面,與文本型證據有所不同,考慮了引源和圖像的技術參數對證明效力的影響。如果圖像型證據官方文件、維權文件或領域權威文獻中被引用,那么該證據材料的證明力就會得到提升。因此,本文引入了引源類,并進一步分為被引文獻、官方文件和維權文件三個子類,以具體反映引源因素對圖像型證據證明效力的影響。圖像證據的技術參數包括分辨率、清晰度等。一般來說,技術參數符合國際法庭對圖像型證據的可采用標準,就會在司法維權場景中具有優(yōu)勢。因此,本文在圖像型證據要素的界定中,借鑒了都柏林核心[35]關于圖像的元數據標準,結合圖像模態(tài)的特點,將圖像的各個重要參數視為影響證據證明效力的重要因素。

圖3 圖像型證據本體模型圖

2.1.3地圖型證據分類

地圖證據在國際法院解決領土爭端中具有關鍵作用,通常能夠為領土主權的歸屬提供有力說明。例如,中國國民政府出版的《中國南海各島嶼圖》《南海諸島位置略圖》《南海諸島位置圖》等地圖具有較高的專業(yè)性和權威性,既體現了中國官方的立場,也成為中國擁有南海主權與治權的關鍵歷史證據,同時也為當前中國維護南海諸島主權提供了重要的法理依據。一般來說,國際法院將地圖作為可采信證據的標準主要依賴于地圖的來源、清晰度、比例、地圖的官方地位、公開出版以及當事方隨后的使用情況等因素[36]。

地圖的證明效力通常會受到地圖是否能夠清晰反映國家意圖的影響。具體來說,地圖是否由國家官方繪制并發(fā)行,以及地圖是否被官方文件引用或作為附件放入官方文件中,都會對地圖證據的證明效力產生較大程度的影響。為了反映這一影響因素對地圖證明效力的作用,本文設立了"來源主體"類和"引源"類。

地圖的來源類型也會對其證明力大小產生一定程度的影響。一般認為,來自正式法律文件(如條約)中的地圖比非政府組織報告中出現的地圖更具證明力。因此,本文設立了“來源類型”類來刻畫這一因素。

地圖是否得到國際社會特別是周邊有利害關系國家的承認或默認,也是判斷地圖證明效力的重要因素。如果一國在較長時期內對其他國家公開出版發(fā)行的、與自身主張不符的地圖沒有提出外交抗議或反對,并未在合理期限內將該事項提交適當的國際組織或國際法庭,可能會被國際司法機關認定為對該政治地理邊界存在默認。因此,本文設立了“地圖被承認度”類來反映這一因素。

地圖的證明力在一定程度上也取決于其制作者是否中立和權威。一般來說,如果地圖是由客觀中立的專家繪制的,其證明力會增加;相反,如果地圖是在爭議的一方授意下制作的,其呈現的內容可能不夠客觀。因此,本文設立了“地圖立場與傾向”類來考量中立性因素對地圖證據證明力的影響。

地圖的證明力與其技術上的精確度也有一定的相關性。因此,本文在“地圖證據”類下設立了“技術參數”這一子類,以反映清晰度、比例尺等因素對地圖證明力的影響。除以上與證明效力直接相關的實體概念以外,本文對地圖證據還構建了4個核心實體概念,分別是地圖證據實體、標識實體、時間實體、空間實體,從而形成一個較為完善的以地圖證據證明效力為核心的南海維權地圖證據本體模型,如圖4所示。

圖4 地圖型圖片證據本體模型圖

2.2 多層次南海疆證據關系識別

證據關系識別是南海疆維權證據鏈構建的核心。南海疆維權證據間的語義關系層次多樣、錯綜復雜。本文根據已界定的證據要素,集合場景要求與本體關系結構來定義證據要素之間的關聯關系,主要包括屬性層關系、邏輯層關系,以及證明層關系。

2.2.1屬性層關系

實體類之間的屬性層關系,主要分為對象屬性關系和數據屬性關系。對象屬性關系通常表示證據要素之間或內部的語義關系;數據屬性關系一般用來表示實體類固有的數據特征關系。對象屬性關系包括類與子類之間的從屬關系(subClassOf)、證據內容描述的時間(hasTime)等。數據屬性關系包括證據技術參數包含的分辨率大小(hasResolution)、標識和證據編號之間的指向關系(hasNumber)等。本文復用了CIDOC CRM和FOAF本體模型標準,結合已經界定的證據要素,構建了17個對象屬性關系和7個數據屬性關系,如表1所示。

表1 多模態(tài)南海證據本體的屬性層關系

2.2.2邏輯層關系

本研究參考了修辭結構理論,PDTB2.0[37]和ISO 24617-8[38]核心語義關系標準,基于多模態(tài)南海證據鏈構建需求,設計了12種邏輯層語義關系,具體列舉如表2所示。其中,時間關系用于描述事件發(fā)生的先后順序,以展現重要證據事件的動態(tài)發(fā)展過程;因果關系表示事件之間存在著因果關聯,即有因必有果;印證關系是證據本體特有的一種語義邏輯關系,用于表示證據之間的相互印證關系;互斥關系則表明兩個證據在某一證據主題的證明方向上是相反的;包含關系則表示某一證明主題下的證據之間存在層次關系。

表2 多模態(tài)南海證據本體的邏輯層關系

為了支持多模態(tài)南海疆證據本體的語義推理和擴展,本文對邏輯層關系定義了語義屬性,包括互逆屬性和對稱屬性?；ツ鎸傩杂糜诿枋鱿嗷パa充的關系,例如Before和After表示事件發(fā)生的先后順序,BeginMeetsEnd和EndMeetsBegin表示事件的開始和結束相遇,BeComposed Of和Composed表示組成關系。對稱屬性則表示兩個關系之間的對等性,例如Concurrency和Finished表示事件的同時發(fā)生,Result和Reason表示事件之間的因果關系。例如,如果已知事件B是事件A的結果,那么事件A是事件B的原因。

2.2.3證明層關系

針對文本型證據和圖像型證據,基于已定義的證明力核心實體概念,結合文獻[34]中關于南海維權證據證明力的分析,設計了多模態(tài)南海證據本體的證明層級關系,具體如表3所示。

表3 多模態(tài)南海證據本體的證明層關系

本文主要從證據主體、證據來源類型和主權行為類型三個方面進行分析。對于圖像型證據,還考慮了圖像引源和重要的圖像參數。在證據主體方面,通常認為官方行為的證明效力大于私人行為;在證據來源類型方面,按照國際法院解決領土爭端的標準,通常認為證明力從高到低的順序是:條約及國際協(xié)議>保持占有法律>有效控制證據>其他證據。對于地圖證據,綜合考慮地圖來源類型、來源主體、引源、地圖被承認度和地圖技術參數等方面來分析證明力大小。證明力方向表示的是證據在特定證明主題下所支持的方向,在證據本體中體現為證據傾向。證明主題能夠反映證據之間的相關程度,多個證據指向同一證明主題的關聯程度越高,證據之間的聯系也越緊密,對該主題的支持效力也越大。

2.3 多模態(tài)證據本體屬性標記

2.3.1標記流程

本文旨在構建多模態(tài)南海維權證據本體模型,以實現對南海維權證據的細粒度語義的結構化表示。首先,需要對文本和圖片模態(tài)的資料進行本體屬性標記,即提煉多模態(tài)證據的特征詞。然后,建立特征詞之間的映射關系。最后,將多模態(tài)證據關聯起來,形成證據鏈條[39]。

多模態(tài)證據本體屬性的標記流程如圖5所示。首先,根據多模態(tài)證據的事件觸發(fā)詞,對地圖證據和其他證據進行標記。然后,對文本型證據和圖像型證據進行證據內容分析,識別出證據本體所需的證據要素。對于地圖證據,需要進行元數據錄入,從南海地圖庫等知識庫中導入地圖證據的各個參數。接下來,基于已有的本體和受控詞表,對文本和圖像證據進行事件要素抽取,將抽取出來的證據要素賦值,并建立多層次關系。對于地圖證據,需要進行實體識別,保留證據本體所需的特定實體,并通過關系識別建立實體之間的關聯關系。最后,對結果進行規(guī)范化處理,輸出標記結果。通過這一流程,多模態(tài)南海維權證據本體模型能夠實現對南海維權證據的語義結構化表示,從而提供了更細粒度的證據分析和推理基礎。這一過程當中設計多項關鍵技術,包括實體識別、事件抽取與關系識別等。

圖5 多模態(tài)證據本體屬性標記流程

2.3.2關鍵技術

a.實體識別。實體識別是從證據中識別出特定類型的實體,并將其正確分類[40]。盡管在多模態(tài)實體識別方面,專家學者已經取得了一些成果,但跨模態(tài)抽取與融合仍然是亟待解決的問題之一。目前的研究主要采用交叉Transformer來進行特征融合,但其融合方式相對單一,注意力機制在融合過程中的潛力尚未充分發(fā)揮。此外,將BERT應用于多模態(tài)學習的網絡結構主要分為兩類:一類是直接對視覺流和文本流進行跨模態(tài)預訓練;另一類是先對兩種模態(tài)進行編碼,然后使用編碼后的表示進行跨模態(tài)融合。其中,先編碼再融合的網絡結構效果更好。在當前的研究中,需要進一步探索更有效的跨模態(tài)抽取與融合方法,以提高實體識別的性能。同時,對注意力機制在融合過程中的應用進行優(yōu)化,以充分利用不同模態(tài)之間的關聯信息,提高跨模態(tài)信息抽取的準確性和效率。

b.事件抽取。事件抽取技術是對南海問題相關事件中具有標志性意義的事件進行整理和提取的過程,是構建南海維權證據本體并支持維權工作的基礎工作。目前,主流的事件抽取技術可以分為兩大類。第一類是基于自然語言處理工具的抽取方法,它通過利用自然語言處理工具來提取事件文本中的"主語+謂語+賓語"等結構。這種方法在通用文本中效果較好,對于中文文本常用的處理工具有LTP,對于英文文本常用的處理工具有StanfordNLP[41]。第二類是構建自動抽取模型來實現事件抽取,主要包括基于規(guī)則、基于機器學習和基于深度學習的方法。基于規(guī)則的方法通常是將人工設計的規(guī)則轉化為程序規(guī)則,從而實現自動化處理。常用的機器學習基準模型包括HMM、SVM、CRF等;而常用的深度學習模型包括CNN、BiLSTM、Bi-GRU等。隨著深度學習技術的發(fā)展,基于深度學習的方法在事件抽取任務中取得了顯著的進展,但對于特定領域或任務,仍需要結合具體情況選擇適合的方法并進行優(yōu)化。

c.關系識別。關系識別目的在于挖掘給定事件之間的關系,從而快速地構建領域知識庫?；趥鹘y(tǒng)機器學習的事件抽取方法主要包括基于特征向量的方法[42]、基于核函數的方法[43],應用于事件關系識別的深度學習模型主要有CNN、RNN、GCN等。屬性關系識別是領域本體及知識圖譜構建的重要基礎,目前國內外的研究主要集中在實例及屬性的提取,或屬性和屬性值對的提取[44]。為了提高屬性關系抽取的性能,目前較為主流的關系識別技術是通過機器學習和深度學習模型進行算法設計,來提高精度和適應各種復雜環(huán)境。

2.3.3實例分析

《開羅宣言》是世界反法西斯戰(zhàn)爭時期,中美英三國首腦在埃及開羅舉行會議后簽署的重要文件,宣言中提到多項涉及我國在戰(zhàn)爭中被侵略領土的解決辦法,對于支持南海維權工作具有重要意義。因此,本文選取《開羅宣言》相關的多模態(tài)南海維權證據和中華民國地圖證據作為實驗樣本,基于本文提出的本體模型進行語義標注,最后以知識圖譜的形式進行表示,從而驗證多模態(tài)南海疆維權證據本體模型的實用性。

如圖6所示,《開羅宣言》的證明主題是基于《開羅宣言》的南海維權,分別具有文本證據《開羅宣言》中英文抄本和圖像證據《開羅宣言》簽署照片,兩者對于支持該證明主題均有一定證明效力?！堕_羅宣言》中英文抄本的證據編號為NO.003,于1943年12月1日在重慶、華盛頓、倫敦三地同時發(fā)表,其創(chuàng)作背景是“二戰(zhàn)勝利,中美英三國首腦召開開羅會議”,文本創(chuàng)作時間是“1943年11月22日至26日”,文本內容包括“...使日本所竊取于中國之領土...歸還中華民國...”,該文本被文獻《論<開羅宣言>在當代國際法律秩序中的地位》引用?！啊堕_羅宣言》簽署照片”的證據編號為“NO.001”,圖像內容為“中美英三國首腦召開開羅會議時的合照”,照片拍攝時間為“1943年11月25日”。針對《開羅宣言》中英文抄本,本文所考慮的南海維權證據證明力影響因素包括:證據傾向為“Positive”、證據來源類型為“條約”、證據主體為“中美英三方首腦”、主權行為類型為“收復失地”。針對《開羅宣言》簽署照片,除文本證據具有的四個影響因素以外,該圖像證據收錄于《美國條約和其他國際協(xié)定匯編(1776-1949)》,其照片格式為“jpg”、分辨率為“300ppi”、圖像大小為“6.1MB”同樣作為證明力影響因素來考慮。

圖6 基于《開羅宣言》進行南海維權的語義結構化表示

1948年中華民國地圖同樣能夠為證明主題“基于《開羅宣言》的南海維權”提供支持,其證據編號為“NO.888”,其繪制時間和地圖所指時間為“1948年”,地圖繪制的主要區(qū)域為“二戰(zhàn)后中華民國全境”。地圖所包含的內容包括“南海九段線符號和國界線”,以及地圖的創(chuàng)作背景為“二戰(zhàn)勝利,中華民國收回戰(zhàn)爭失去的領土”,基于此,可知“1948年中華民國地圖”呈現的是戰(zhàn)后的中華民國全境,對于支持南海維權工作的有用性。針對“1948年中華民國地圖”,本文所考慮的“南海地圖證據證明力影響因素”包括:地圖制作者的立場為“正向”;證據本身對于證明主題的傾向為“Positive”;地圖來源類型為“單圖”,來源主體為“亞光輿地學社”;地圖的被承認度為“國際社會持中立態(tài)度”;地圖被文獻“《從地圖看中國南海海域疆界線的形成與演進》”和文件“《中華民國年鑒》”引用;地圖的技術參數(比例尺為“1:100,000,000”、圖例“有”、分辨率為“96ppi”)。

通過分析基于《開羅宣言》的內容可知,一方面需要對證據模態(tài)進行識別,另一方面需要對證據的證明力進行判斷,主要流程流程為四個步驟:首先,查詢證據編號,找到該證據在知識庫中所對應的標識;其次,分析證據所要證明的主題;然后,通過證據傾向和制作者立場等因素判斷證據在證明力上的方向來確定支撐價值;接著,根據影響因素分析證據的證明力大小;最后,綜合不同模態(tài)證據的證明效力,對“基于《開羅宣言》的南海維權”所涉及的多模態(tài)證據的證明效力進行綜合判斷。

根據以上分析可知,本文提出的多模態(tài)南海疆維權證據本體模型可以有效的規(guī)范的描述基于《開羅宣言》的南海維權內容,清晰地呈現證據要素和維權過程,說明了本體模型的表示能力與實際作用。

3 多模態(tài)南海疆維權證據本體模型的應用價值

多模態(tài)南海疆維權證據本體模型的構建具有重要的意義,既是南海疆知識圖譜構建的基礎,也是南海疆維權實踐的重要支撐,更是南海疆人文敘事的重要依托。

第一,南海疆知識圖譜構建的基礎。多模態(tài)南海疆維權證據本體模型是多模態(tài)知識圖譜構建后續(xù)研究的基礎?；趯Χ嗄B(tài)證據進行了證據要素界定,可以實現南海疆維權證據的結構化語義表示。通過屬性層、邏輯層、證明層的語義關系可以實現多層次證據關系的智能識別鏈接;通過多模態(tài)證據的標記方法,可以實現知識圖譜的自動化構建。為后續(xù)針對維權證據鏈知識圖譜的可視化、證據知識發(fā)現與推薦研究奠定基礎。

第二,南海疆維權實踐的重要支撐。面向南海疆維權的實際工作,本文所提出的多模態(tài)南海疆維權證據本體模型是重要的支撐?；诙嗄B(tài)南海疆證據本體模型,可以實現細粒度的證據實體抽取、多層次語義關系識別,對南海疆證據資料進行語義結構化表示,呈現清晰的證據知識組織體系,為南海疆維權證據鏈的智能化構建提供了重要的工具支撐,能夠在國際外交輿論和司法維權場景下,通過提供多脈絡、多形式的證據鏈有理有據地維護我國南海疆權益。

第三,南海疆人文敘事的重要依托。面向南海疆的人文敘事工作,多模態(tài)南海疆維權證據本體模型是其重要依托。南海疆人文敘事的宣教工作對歷史資料的真實性和完整性,故事脈絡的邏輯條理性有著嚴格的要求。多模態(tài)南海疆維權證據本體的應用,一方面有助于利用多模態(tài)南海資料,更生動形象,直觀易懂地講好中國南海故事;另一方面,有助于證據關系的挖掘和組織,實現從碎片史料到關聯史料以及全景史料的探究,實現從單一脈絡到多重脈絡的史實還原與印證。

4 結語

本文融合了文本型、圖像型和地圖型三種類型的證據,構建了多模態(tài)南海維權證據本體模型,為多模態(tài)證據實體的智能抽取表示和多層次證據關系的智能識別鏈接提供了模型基礎。以開羅宣言為實例說明了多模態(tài)南海維權證據本體模型表示能力的有效性與實用性。融合本體模型、本體屬性標記與關系關聯,可以更好地挖掘和推理多模態(tài)南海證據之間的關系,增強證據的證明效力,講好南海維權故事,服務南海維權實際工作。未來的研究中,我們將基于多模態(tài)南海維權證據本體,推進多模態(tài)南海維權證據鏈的構建,實現面向不同維權場景下的證據鏈條組織。