王楠 丁原 李軍
摘 要:貫徹新《檔案法》,加大檔案開(kāi)放力度,是《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》的主要任務(wù)之一。文章采用語(yǔ)義工程技術(shù),在構(gòu)建語(yǔ)義層次網(wǎng)絡(luò)的基礎(chǔ)上,開(kāi)發(fā)了檔案智能開(kāi)放審核系統(tǒng)。選取江蘇省檔案館4個(gè)全宗的11萬(wàn)余件檔案,分別利用關(guān)鍵詞過(guò)濾法和基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法進(jìn)行檢測(cè)。檢測(cè)結(jié)果顯示,基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法較之關(guān)鍵詞法,在精確率方面有顯著提升,說(shuō)明語(yǔ)義層次網(wǎng)絡(luò)可以突破傳統(tǒng)關(guān)鍵詞技術(shù)只能匹配文書(shū)檔案字面詞義的局限,有效降低關(guān)鍵詞技術(shù)帶來(lái)的語(yǔ)義失真,從而減少開(kāi)放審核中的誤判、漏判和對(duì)不準(zhǔn)的問(wèn)題。
關(guān)鍵詞:語(yǔ)義層次網(wǎng)絡(luò);檔案開(kāi)放審核;文書(shū)檔案
《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》明確將“加快推進(jìn)檔案開(kāi)放”納入“十四五”期間檔案事業(yè)發(fā)展的主要任務(wù),并進(jìn)一步提出“新一代信息技術(shù)在檔案工作中的應(yīng)用更為廣泛,信息化與檔案事業(yè)各項(xiàng)工作深度融合,檔案管理數(shù)字化、智能化水平得到提升,檔案工作基本實(shí)現(xiàn)數(shù)字轉(zhuǎn)型”的發(fā)展方向。[1]2021年1月起正式施行的新《檔案法》針對(duì)加大檔案開(kāi)放力度做了重要修訂。[2]采用智能化輔助手段提升檔案開(kāi)放審核工作效率,已是大勢(shì)所趨。
一、 研究背景
1. 業(yè)內(nèi)對(duì)檔案開(kāi)放審核的相關(guān)實(shí)踐
近年來(lái),各地紛紛嘗試?yán)眯畔⒒侄翁嵘龣n案開(kāi)放審核工作效率,如:青島市檔案館編制敏感詞庫(kù),通過(guò)軟件對(duì)檔案目錄中的敏感詞進(jìn)行掃描;福建省檔案館利用類(lèi)別特征詞進(jìn)行開(kāi)放審核;上海市浦東新區(qū)檔案館借助人工智能技術(shù)對(duì)關(guān)鍵詞進(jìn)行審核;寧波市檔案館開(kāi)發(fā)的館藏資源管理系統(tǒng)可進(jìn)行敏感詞輔助鑒定提示。[3]利用關(guān)鍵詞方式輔助檔案開(kāi)放審核具有投入成本低、門(mén)檻低的優(yōu)勢(shì),已成為當(dāng)前業(yè)內(nèi)主流。
2. 關(guān)鍵詞技術(shù)存在的問(wèn)題及解決之道
利用關(guān)鍵詞方式輔助檔案開(kāi)放審核,其有效程度嚴(yán)重依賴(lài)檔案題名或全文中是否存在可供判斷的關(guān)鍵詞。此方法的局限性在于關(guān)鍵詞的詞義必須和鑒定條件的語(yǔ)義完全對(duì)應(yīng)。而在以下情境中,很難僅憑關(guān)鍵詞判斷該檔案是否應(yīng)予繼續(xù)控制。
情境一:關(guān)鍵詞與主語(yǔ)義不匹配。如因涉及商業(yè)或技術(shù)秘密,“工藝”作為關(guān)鍵詞有可能成為控制條件。若某檔案題名是“關(guān)于印發(fā)《加強(qiáng)某中藥制劑工藝流程管理》的通知”,雖然題名含有“工藝”,主語(yǔ)義卻是“通知”,與關(guān)鍵詞不匹配。
情境二:檔案不含命中控制條件的關(guān)鍵詞,只有對(duì)應(yīng)的語(yǔ)義。例如,行政案件的原告或被告是行政機(jī)關(guān),假設(shè)某控制條件為“行政案件相關(guān)檔案應(yīng)予以繼續(xù)控制”,但在相關(guān)檔案的題名和全文里,作為關(guān)鍵詞的“原告”“被告”“行政機(jī)關(guān)”字樣可能都沒(méi)有出現(xiàn),行文中只有對(duì)具體機(jī)構(gòu)名稱(chēng)和案件的描述。
情境三:語(yǔ)義的層次性造成關(guān)鍵詞范圍難以界定。如涉及我國(guó)“重要資源”的材料需要控制,該控制條件的內(nèi)涵層次則極豐富,本地土地、氣候、水、生物、礦產(chǎn)等方面的重要資源都在范圍中,單靠整理收錄關(guān)鍵詞難以窮舉。
上述情境都可以看作語(yǔ)義層次的問(wèn)題。情境一是文書(shū)檔案中的詞義與檔案分析人員期望的語(yǔ)義脫節(jié)。情境二是文書(shū)檔案中只有一些語(yǔ)義,而沒(méi)有對(duì)應(yīng)的詞及其詞義。情境三是詞義和語(yǔ)義的層次太深,在不知曉語(yǔ)義層次關(guān)系的情況下,很難確認(rèn)文書(shū)檔案中的詞義與哪些深層語(yǔ)義存在對(duì)應(yīng)關(guān)系,或文書(shū)檔案中的一些基層詞義與哪個(gè)抽象的高層語(yǔ)義對(duì)應(yīng)。因此,構(gòu)建語(yǔ)義層次網(wǎng)絡(luò)并用以支撐檔案開(kāi)放審核中的條件匹配,是解決上述關(guān)鍵詞技術(shù)缺陷的可行之道。
3. 業(yè)內(nèi)對(duì)語(yǔ)義層次網(wǎng)絡(luò)的相關(guān)研究
近幾十年,闡述概念及概念之間關(guān)系的理論——本體論(Ontology)被應(yīng)用到計(jì)算機(jī)界。[4]1968年,奎林提出語(yǔ)義網(wǎng)絡(luò)(Semantic Network)概念。1998年,蒂姆·伯納斯提出語(yǔ)義網(wǎng)(Semantic Web)概念。兩者共同的基礎(chǔ)是本體論。國(guó)內(nèi),夏天、錢(qián)毅把本體論、語(yǔ)義網(wǎng)絡(luò)以及元數(shù)據(jù)的思想運(yùn)用到了檔案數(shù)據(jù)建設(shè)中。[5]相關(guān)研究雖然都提出了語(yǔ)義網(wǎng)絡(luò)的概念,但都未將語(yǔ)義層次作為研究重點(diǎn),語(yǔ)義層次僅包含在網(wǎng)絡(luò)概念中。根據(jù)奎林的語(yǔ)義網(wǎng)絡(luò)[6]、菲爾墨的格語(yǔ)法[7]、山克的概念從屬邏輯理論[8]及漢語(yǔ)“字義基元化,詞義組合化”現(xiàn)象,中科院聲學(xué)研究所黃增陽(yáng)教授創(chuàng)立了語(yǔ)義層次網(wǎng)絡(luò)(Hierarchical Network of Concepts,HNC)理論。[9]HNC理論認(rèn)為,所有的自然語(yǔ)言空間對(duì)應(yīng)著同一個(gè)語(yǔ)言概念空間。[10]HNC理論的創(chuàng)新點(diǎn)是專(zhuān)門(mén)針對(duì)層次的論述,缺陷在于把靜態(tài)的概念和動(dòng)態(tài)的事件混雜在一起,使得層次關(guān)系冗雜紊亂。
基于此,本研究采用人工智能領(lǐng)域前沿的語(yǔ)義工程技術(shù),打造突出層次關(guān)系的語(yǔ)義層次網(wǎng)絡(luò)。與此同時(shí),對(duì)本體論中的概念定義進(jìn)行了細(xì)化,重點(diǎn)區(qū)分了靜態(tài)實(shí)體概念和動(dòng)態(tài)事物或事件(即在特定環(huán)境中發(fā)生的事物)概念。在此基礎(chǔ)上,開(kāi)發(fā)了檔案智能開(kāi)放審核系統(tǒng),以期改善以往主要借助關(guān)鍵詞技術(shù)的檔案開(kāi)放審核系統(tǒng)的不足。
二、 技術(shù)方案
1. 開(kāi)放審核的機(jī)理
利用計(jì)算機(jī)輔助檔案館進(jìn)行開(kāi)放審核可以有兩個(gè)設(shè)計(jì)方向:一是讓計(jì)算機(jī)自動(dòng)找出應(yīng)予以控制的檔案;二是讓計(jì)算機(jī)自動(dòng)找出應(yīng)予以開(kāi)放的檔案。即使前者將一部分應(yīng)予以開(kāi)放檔案誤識(shí)別為應(yīng)予以控制檔案,只要誤判率足夠小就可以接受,因?yàn)楸徽`判的檔案尚處于檔案館管控中,未來(lái)還有開(kāi)放機(jī)會(huì),而并未造成泄密。但對(duì)于后者,哪怕只有一份應(yīng)予以控制檔案被誤開(kāi)放,也是嚴(yán)重的泄密事故。
保證計(jì)算機(jī)識(shí)別的有效性主要靠條件匹配法。一方面,把國(guó)家規(guī)定的抽象劃控鑒定條件與檔案館自身的具體情況相結(jié)合,細(xì)化出適合本檔案館的鑒定條件集;另一方面,讓計(jì)算機(jī)從檔案中自動(dòng)提取適合鑒定條件的線索,與細(xì)化后的鑒定條件匹配,匹配成功就會(huì)觸發(fā)對(duì)檔案的劃控識(shí)別。
2. 基于語(yǔ)義分析的解決方案
準(zhǔn)確匹配文字內(nèi)容的技術(shù)是語(yǔ)義匹配,只要檔案中所表達(dá)的意思與鑒定條件的意思相同,則觸發(fā)劃控識(shí)別的準(zhǔn)確率是100%。故此,開(kāi)放審核的問(wèn)題轉(zhuǎn)化為如何解析鑒定條件到一系列具體語(yǔ)義,如何在檔案中準(zhǔn)確識(shí)別語(yǔ)義,以及如何匹配二者的問(wèn)題。
實(shí)際上,關(guān)鍵詞匹配也是一種語(yǔ)義匹配。如果一個(gè)關(guān)鍵詞不足以表達(dá)目標(biāo)語(yǔ)義,可以用一組關(guān)鍵詞來(lái)映射檔案原文中蘊(yùn)含的語(yǔ)義。如果一組關(guān)鍵詞不夠,可以把詞出現(xiàn)的順序(即詞序)和出現(xiàn)的次數(shù)(即詞頻)也用上。如果加入詞序和詞頻還不夠,可以把詞性、語(yǔ)法和句法等關(guān)系都用上。以上所有方法有一個(gè)共同的特點(diǎn),即完全依賴(lài)檔案原文中的詞及詞與詞之間的關(guān)系。因此,這類(lèi)語(yǔ)義分析方法稱(chēng)為字面語(yǔ)義分析或淺層語(yǔ)義分析。
檔案中還有很多語(yǔ)義不是直接通過(guò)字面語(yǔ)義表達(dá)出來(lái)的,需要結(jié)合語(yǔ)境、語(yǔ)義模型等進(jìn)行推斷才能獲得。以“聚眾賭博”為例,不是含有這個(gè)詞的檔案都需要控制使用,如《某單位職工行為規(guī)范》;但如果“聚眾賭博”一詞出現(xiàn)在與評(píng)鑒某人相關(guān)的文件里,則該檔案應(yīng)予以控制使用。這類(lèi)語(yǔ)義分析稱(chēng)為隱含語(yǔ)義分析或深層語(yǔ)義分析。本研究開(kāi)發(fā)的利用語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析技術(shù)就是一種深層語(yǔ)義分析技術(shù)。
3. 語(yǔ)義層次網(wǎng)絡(luò)的構(gòu)建
語(yǔ)義層次網(wǎng)絡(luò)是一種專(zhuān)門(mén)為解決對(duì)不準(zhǔn)問(wèn)題而設(shè)計(jì)的語(yǔ)義模型。一般的語(yǔ)義網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的關(guān)系可以是任意關(guān)系,包括同級(jí)節(jié)點(diǎn)之間的關(guān)系、相鄰節(jié)點(diǎn)之間的關(guān)系、跨節(jié)點(diǎn)的關(guān)系、相鄰層級(jí)之間的關(guān)系以及跨層級(jí)的關(guān)系等。語(yǔ)義層次網(wǎng)絡(luò)只包括相鄰層級(jí)之間的關(guān)系,不包括同層級(jí)的任何關(guān)系,即:同層級(jí)節(jié)點(diǎn)之間相互獨(dú)立,也不包括任何跨節(jié)點(diǎn)關(guān)系和跨層級(jí)關(guān)系(二者的區(qū)別見(jiàn)圖1)。
語(yǔ)義層次網(wǎng)絡(luò)是解析抽象檔案鑒定條件的基礎(chǔ)。語(yǔ)義層次網(wǎng)絡(luò)建設(shè)越完備,抽象鑒定條件就可以被解析得越具體,越容易被計(jì)算機(jī)匹配成功。同樣,語(yǔ)義層次網(wǎng)絡(luò)也是在檔案中從抽象字面語(yǔ)義挖掘具體語(yǔ)義的基礎(chǔ)。語(yǔ)義層次網(wǎng)絡(luò)可以使檔案原文和鑒定條件中邏輯距離看似很遠(yuǎn)的詞組之間在任意語(yǔ)義層次中實(shí)現(xiàn)對(duì)齊,完成匹配,以此有效解決檔案開(kāi)放審核工作中對(duì)不準(zhǔn)的問(wèn)題,同時(shí)減少誤判和漏判。
(1)概念的表示
語(yǔ)義層次網(wǎng)絡(luò)與泛化的語(yǔ)義網(wǎng)絡(luò)都是以概念為節(jié)點(diǎn),語(yǔ)義層次網(wǎng)絡(luò)的節(jié)點(diǎn)不僅包括靜態(tài)的實(shí)體概念,還包括動(dòng)態(tài)的事物,采用定義更寬泛的參數(shù)作為特征描述量。本研究定義的概念將實(shí)體和事物作了明確區(qū)分,有利于規(guī)范它們各自的關(guān)系和相互之間的關(guān)系。
針對(duì)文書(shū)檔案,概念節(jié)點(diǎn)指一類(lèi)文字語(yǔ)義,由概念名(n)、概念語(yǔ)義定義(d)和概念值(v)組成的三元組[n、d、{v}]表示。{v}代表所有符合d的v值的集合。例如,“人名”是一個(gè)概念,其名稱(chēng)就是“人名”,其語(yǔ)義定義為“人的稱(chēng)呼”,其值為原文中所有符合該語(yǔ)義定義的具體人名。
(2)概念的層次
概念層次(Hierarchy,簡(jiǎn)稱(chēng):h)的分層方法由各種層次分明的關(guān)系決定,包括但不限于如下類(lèi)型。
① 組成關(guān)系,即:字段之間具有“局部”功能組成“整體”功能的關(guān)系(見(jiàn)圖2)。
② 包含關(guān)系,即:客觀存在的空間形式邏輯關(guān)系定義下的局部與整體關(guān)系,“局部”包含在“整體”之內(nèi)(見(jiàn)圖3)。
③ 種屬關(guān)系,即:相同分類(lèi)特征定義下的一事物類(lèi)與其子類(lèi)的關(guān)系(見(jiàn)圖4)。
④ 嵌套關(guān)系,即:事物過(guò)程與步驟的關(guān)系(見(jiàn)圖5)。
鑒于語(yǔ)義層次網(wǎng)絡(luò)的完整性,設(shè)計(jì)該網(wǎng)絡(luò)的節(jié)點(diǎn)時(shí)可設(shè)計(jì)一定數(shù)量在檔案原文中無(wú)對(duì)應(yīng)內(nèi)容的節(jié)點(diǎn),稱(chēng)為“虛節(jié)點(diǎn)”,而在原文中有對(duì)應(yīng)內(nèi)容的節(jié)點(diǎn)稱(chēng)為“實(shí)節(jié)點(diǎn)”。如果將語(yǔ)義層次網(wǎng)絡(luò)視為“樹(shù)”,在設(shè)計(jì)和表示語(yǔ)義層次網(wǎng)絡(luò)時(shí),末端節(jié)點(diǎn)都是實(shí)節(jié)點(diǎn),但可以“剪枝”?!凹糁Α焙蟮哪┒斯?jié)點(diǎn),無(wú)論是實(shí)節(jié)點(diǎn)還是虛節(jié)點(diǎn),應(yīng)繼承其下所有未展開(kāi)節(jié)點(diǎn)的特性。
事物或事件為節(jié)點(diǎn)時(shí),以它們之間的組成關(guān)系、包含關(guān)系、屬種關(guān)系或嵌套關(guān)系為分層依據(jù),可以組成更高層次的抽象概念,包括但不限于:一系列簡(jiǎn)單事物類(lèi)概念組成的多層次復(fù)雜事物概念是“復(fù)雜事物”類(lèi)概念,如出訪、交易等;由一系列相關(guān)的典型性事物概念組成的高級(jí)抽象概念是社會(huì)事務(wù)類(lèi)概念,如外交、經(jīng)濟(jì)等;由一系列相關(guān)的、集中發(fā)生的事件概念組成的高級(jí)抽象概念是社會(huì)運(yùn)動(dòng)類(lèi)概念,如戰(zhàn)爭(zhēng)、改革等;由一系列相關(guān)的、經(jīng)常發(fā)生的事件概念形成的高級(jí)抽象概念是社會(huì)現(xiàn)象類(lèi)概念,如科技創(chuàng)新、精神文明建設(shè)等。業(yè)內(nèi)所指的“關(guān)鍵詞”,在本研究中也是一種特殊的概念,概念名就是對(duì)象關(guān)鍵詞本身,其語(yǔ)義定義可能是其自身的詞義,也可能是語(yǔ)義層次網(wǎng)絡(luò)定義人員認(rèn)為重要的任意語(yǔ)義,關(guān)鍵詞概念的值是原文中對(duì)象關(guān)鍵詞的所有同義詞。
(3)概念的參數(shù)
定義概念和概念的層次在很大程度上有助于進(jìn)行語(yǔ)義識(shí)別,但對(duì)于利用概念做語(yǔ)義分析、為文書(shū)檔案開(kāi)放審核設(shè)計(jì)鑒定規(guī)則還遠(yuǎn)遠(yuǎn)不夠。為增強(qiáng)語(yǔ)義分析能力,不僅須定義出概念名表達(dá)的語(yǔ)義和層次關(guān)系,還須定義或識(shí)別出圍繞概念的參數(shù)(Parameter,簡(jiǎn)稱(chēng)p),并掛接在其修飾的概念下。概念擁有屬性、性質(zhì)、方面、數(shù)量、能力等基本參數(shù),事物或事件節(jié)點(diǎn)還擁有方式、目的、指向、能愿等參數(shù)。
屬性(Attribute),所有可測(cè)量或可感知的量,其特性是可排序、可比較。它的名稱(chēng)是該屬性維度的名稱(chēng),值是該屬性維度中的一個(gè)特定項(xiàng)。
性質(zhì)(Nature),只可做定性比較的量,一般只有三個(gè)值:左極端值、右極端值、中間值。性質(zhì)的名稱(chēng)一般是性質(zhì)兩個(gè)極端值的組合,例如好壞、強(qiáng)弱、優(yōu)劣等;其值是該性質(zhì)的三個(gè)值之一,例如名稱(chēng)是“優(yōu)劣”,值是“中”。性質(zhì)的名稱(chēng)也可以由形容詞加“性”字后綴表示,如“重要性”,其正值就是形容詞本身,如“重要”;負(fù)值就是形容詞前加“不”字,如“不重要”;中間值就是“既+形容詞+又不+形容詞”,如“既重要又不重要”。
方面(Aspect),修飾宿主概念的其他概念,例如形式、趨勢(shì)等。除專(zhuān)門(mén)解釋這類(lèi)概念的句型,這類(lèi)概念在句中一般不單獨(dú)使用,須與宿主概念搭配表達(dá)才有意義,例如合作形式、發(fā)展趨勢(shì)等。方面類(lèi)參數(shù)的名稱(chēng)是文書(shū)檔案中表示方面的概念詞,其值類(lèi)似性質(zhì)值的表述,即:用幾個(gè)簡(jiǎn)單的等級(jí)做定性描述,例如名稱(chēng)是“形勢(shì)”,值是“好”。
數(shù)量(Quantity),即宿主概念的可數(shù)特征,如概念的“數(shù)量”,行為的“頻次”,對(duì)于事物或事件而言,則既可是數(shù)量,也可是頻次。數(shù)量類(lèi)參數(shù)的名稱(chēng)是文書(shū)檔案中該數(shù)量的宿主實(shí)體或事物的數(shù)量表示,例如總?cè)藬?shù)、銷(xiāo)售額、比賽成績(jī)等,其值就是它們的具體數(shù)值(+度量單位),如80人、1000萬(wàn)元、129分等。
能力(Ability),表示其修飾的實(shí)體概念能夠干什么。能力類(lèi)型的參數(shù)名多以表示能力的事物或事件的“行為+客體”形式命名,如踢球、學(xué)習(xí)英語(yǔ)等,或用“主體+行為”的形式命名,如自我安慰、火山爆發(fā)等。能力的值常用“會(huì)+事物”“能+事物”“干過(guò)+事物”等類(lèi)似短語(yǔ)表示,例如會(huì)武功、能爬山、當(dāng)過(guò)兵等。
事物或事件概念還存在以下參數(shù):方式(Method),即如何實(shí)施,包括參考依據(jù)、所使用的工具等;目的(Purpose),即實(shí)體概念實(shí)施行為的目的;指向(Point),指實(shí)體概念行為作用的對(duì)象;能愿(Desire),代表實(shí)體概念實(shí)施某類(lèi)行為的可能性、傾向性。
值得注意的是,本研究定義的“參數(shù)”與一些學(xué)者在自然語(yǔ)義處理技術(shù)中定義的“元數(shù)據(jù)”類(lèi)似,都是描述或限定概念的量。不同之處是,參數(shù)更強(qiáng)調(diào)原文中宿主概念自身?yè)碛械?、代表語(yǔ)義的特征量,可以用于語(yǔ)義分析,而元數(shù)據(jù)更強(qiáng)調(diào)文字工作者為使用文本內(nèi)容定義給宿主概念的名稱(chēng),適用于內(nèi)容管理。
(4)概念的狀態(tài)
“狀態(tài)”是概念的一個(gè)動(dòng)態(tài)參數(shù),指概念任意變化在某個(gè)時(shí)點(diǎn)或時(shí)段的值。狀態(tài)類(lèi)參數(shù)的名稱(chēng)與其宿主概念有關(guān)。如果宿主概念與狀態(tài)參數(shù)的關(guān)系明確,狀態(tài)名可直接使用變化量的名稱(chēng),否則按“宿主名+‘.’+變化量名”命名。例如,“案卷.質(zhì)量”“館藏檔案.保存情況”等。狀態(tài)值可能有三種形式:一是變化量,如“全宗增加了三個(gè)”;二是在某個(gè)時(shí)段的值,如“立檔單位合并撤銷(xiāo)”;三是發(fā)展趨勢(shì),如“脫貧攻堅(jiān)檔案整理扎實(shí)推進(jìn)”。
在語(yǔ)義層次網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)的基本概念可由[n,d,{v}]表示,該節(jié)點(diǎn)可能擁有的參數(shù)可由{p}表示,該節(jié)點(diǎn)對(duì)相鄰節(jié)點(diǎn)的所有層次關(guān)系可由{h}表示(注意同層級(jí)節(jié)點(diǎn)之間是相互獨(dú)立的),則語(yǔ)義層次網(wǎng)絡(luò)節(jié)點(diǎn)的完整表述可以是一個(gè)五元組[n,d,{v},{p},{h}]。參數(shù)集合{p}中包括動(dòng)態(tài)參數(shù)“狀態(tài)”,因此這個(gè)五元組既表示語(yǔ)義層次網(wǎng)絡(luò)節(jié)點(diǎn)的靜態(tài)關(guān)系,也表示其動(dòng)態(tài)關(guān)系。
4. 基于語(yǔ)義層次網(wǎng)絡(luò)的文書(shū)檔案開(kāi)放審核系統(tǒng)
在上述概念的基礎(chǔ)上,本研究繪出了基于語(yǔ)義層次網(wǎng)絡(luò)的文書(shū)檔案開(kāi)放審核系統(tǒng)總體框架圖(見(jiàn)圖6)。其中,解決方案包括五個(gè)組成部分:①檔案預(yù)處理;②檔案文本解析;③檔案語(yǔ)義分析;④檔案開(kāi)放審核;⑤檔案人工審核。
檔案預(yù)處理模塊把非文本檔案轉(zhuǎn)化為純文本檔案。這是后續(xù)所有語(yǔ)義分析模塊的基礎(chǔ)。
檔案文本解析模塊把純文本檔案轉(zhuǎn)化為一個(gè)可以進(jìn)行語(yǔ)義分析的文件。有兩個(gè)子任務(wù):一是恢復(fù)純文本檔案的版面格式,例如正確劃分段落、句子,正確區(qū)分標(biāo)題、正文等;二是對(duì)文本的每個(gè)自然句進(jìn)行自然語(yǔ)言解析,包括切詞、詞性標(biāo)注、詞語(yǔ)聚合、短語(yǔ)識(shí)別等。
檔案語(yǔ)義分析是核心模塊,分為格式語(yǔ)義分析、淺層語(yǔ)義分析和深層語(yǔ)義分析。
格式語(yǔ)義分析模塊能夠?qū)n案版面位置所隱含的語(yǔ)義“翻譯”出來(lái),如識(shí)別密件的密章或“內(nèi)部材料”“機(jī)密”等標(biāo)密格式,使之成為開(kāi)放審核線索之一。它可以在檔案預(yù)處理的結(jié)果上運(yùn)行。在格式語(yǔ)義庫(kù)的支持下,其分析結(jié)果直接輸出至基于語(yǔ)義分析的開(kāi)放審核模塊。
淺層語(yǔ)義分析主要依靠字符串匹配技術(shù)實(shí)現(xiàn)。淺層語(yǔ)義分析又分為全文檢索和字面語(yǔ)義分析。語(yǔ)義主要由詞義體現(xiàn),沒(méi)有層次。如果一次只匹配一個(gè)詞,則為全文檢索。全文檢索采用業(yè)內(nèi)成熟模塊,在純文本檔案的基礎(chǔ)上,由一個(gè)關(guān)鍵詞庫(kù)支持。如果一次匹配多個(gè)字符串,并集齊字符串的上下文信息用以分析句子乃至整個(gè)檔案的語(yǔ)義,則為字面語(yǔ)義分析。字面語(yǔ)義分析較之全文檢索,語(yǔ)義失真程度明顯更低。
深層語(yǔ)義分析是本研究的重點(diǎn)創(chuàng)新。文書(shū)檔案中的字符串只是語(yǔ)義層次網(wǎng)絡(luò)節(jié)點(diǎn)概念的名稱(chēng),其語(yǔ)義由語(yǔ)義層次網(wǎng)絡(luò)各層相應(yīng)節(jié)點(diǎn)的語(yǔ)義決定。因此,深層語(yǔ)義分析不再是簡(jiǎn)單的字符串匹配技術(shù),而是在語(yǔ)義層次網(wǎng)絡(luò)的不同語(yǔ)義層中的語(yǔ)義匹配,由此可以挖掘字符串名下隱含的深層語(yǔ)義。
深層語(yǔ)義分析和鑒定條件解析都由基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義知識(shí)庫(kù)支撐。進(jìn)行開(kāi)放審核時(shí),輸入的鑒定條件往往非常抽象,不能為計(jì)算機(jī)直接使用。條件解析模塊將簡(jiǎn)單抽象的鑒定條件在語(yǔ)義層次網(wǎng)絡(luò)中解析,不斷細(xì)化、具體化,直到計(jì)算機(jī)從檔案原文中提取的語(yǔ)義線索為容易匹配的層次,由此形成鑒定條件庫(kù)。
格式語(yǔ)義分析、淺層語(yǔ)義分析和深層語(yǔ)義分析的結(jié)果都會(huì)輸入“基于語(yǔ)義分析的檔案開(kāi)放審核”模塊,在鑒定條件庫(kù)的支撐下,實(shí)現(xiàn)文書(shū)檔案語(yǔ)義與鑒定條件語(yǔ)義的相互匹配,完成對(duì)檔案的開(kāi)放審核,輸出不可開(kāi)放的檔案(集)。在輸出不可開(kāi)放檔案的同時(shí),系統(tǒng)會(huì)將候選開(kāi)放的檔案移交人工審核。經(jīng)人工確認(rèn)無(wú)誤,系統(tǒng)輸出可以開(kāi)放的檔案(集)。
三、 實(shí)驗(yàn)驗(yàn)證
為驗(yàn)證語(yǔ)義層次網(wǎng)絡(luò)在文書(shū)檔案開(kāi)放審核中的作用,本研究做了一個(gè)對(duì)比實(shí)驗(yàn),從江蘇省檔案館選取了4個(gè)全宗的11萬(wàn)余件檔案,分別利用傳統(tǒng)的關(guān)鍵詞過(guò)濾法和基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法各檢測(cè)一遍,并將兩次結(jié)果進(jìn)行比較。
需要說(shuō)明的是,基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法也包括關(guān)鍵詞技術(shù)。當(dāng)語(yǔ)義層次只有一層時(shí),字符串匹配就很重要,如果每次只匹配一個(gè)字符串,就是關(guān)鍵詞匹配。理論上講,基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法在關(guān)鍵詞技術(shù)的基礎(chǔ)上增加了更多、更強(qiáng)大的功能,較之單獨(dú)使用關(guān)鍵詞匹配技術(shù)的方法應(yīng)用效果應(yīng)該更好。
1. 評(píng)價(jià)方法
本次實(shí)驗(yàn)采用的評(píng)價(jià)方法為業(yè)內(nèi)標(biāo)準(zhǔn)的評(píng)價(jià)方法,為便于理解實(shí)驗(yàn)結(jié)果,僅對(duì)相關(guān)術(shù)語(yǔ)做了調(diào)整。本實(shí)驗(yàn)主要采納三個(gè)評(píng)價(jià)指標(biāo):
① 檢出率(Acc),在整個(gè)件數(shù)樣本N中,被檢出的需要?jiǎng)澘氐臋n案件數(shù)M,即:Acc=M/N;
② 精確率(Pre),在被檢出的需要?jiǎng)澘氐臋n案件數(shù)M中,確實(shí)需要?jiǎng)澘氐募?shù)m,即:Pre=m/M;
③ 召回率(Rec),假設(shè)真實(shí)需要?jiǎng)澘氐臋n案件數(shù)為Z,上述機(jī)器識(shí)別出的正確的劃控件數(shù)m與Z的比為召回率,即:Rec=m/Z。
由于在具體的實(shí)驗(yàn)中,真正需要?jiǎng)澘氐臋n案件數(shù)Z是一個(gè)未知數(shù),我們用人工鑒定的結(jié)果來(lái)代替,即:把與人工鑒定結(jié)果完全一致的檔案件數(shù)稱(chēng)為“確實(shí)需要?jiǎng)澘氐臋n案件數(shù)m”,把人工鑒定需要?jiǎng)澘氐臋n案總件數(shù)稱(chēng)為“真實(shí)需要?jiǎng)澘氐臋n案件數(shù)Z”。因此,本實(shí)驗(yàn)的精確率和召回率實(shí)際上只是個(gè)近似值,取決于人工鑒定結(jié)果的質(zhì)量。
為保證實(shí)驗(yàn)結(jié)果的可比性,本研究嚴(yán)格遵守“其他條件完全相同”的原則,即人工鑒定結(jié)果造成的系統(tǒng)誤差對(duì)關(guān)鍵詞法和語(yǔ)義分析法的影響相同,以此保證兩種方法實(shí)驗(yàn)結(jié)果的相對(duì)可比性。
2. 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表1所示。對(duì)比各組檢測(cè)結(jié)果和平均值,基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析法較之關(guān)鍵詞法,在精確率方面有較大提升。由此可知,語(yǔ)義分析法更接近人工開(kāi)放審核的真人判斷。該結(jié)果為本研究的理論假設(shè)提供了證據(jù),即:語(yǔ)義層次網(wǎng)絡(luò)的設(shè)計(jì)可以有效減少關(guān)鍵詞技術(shù)缺陷導(dǎo)致的語(yǔ)義失真,減少誤判、漏判和對(duì)不準(zhǔn)的問(wèn)題。
實(shí)驗(yàn)結(jié)果顯示,在檢出率方面,基于語(yǔ)義層次網(wǎng)絡(luò)的語(yǔ)義分析技術(shù)較之關(guān)鍵詞技術(shù),改進(jìn)并不明顯。其原因主要在于:一個(gè)全宗內(nèi)能檢出的應(yīng)劃控檔案的數(shù)量,取決于實(shí)際應(yīng)劃控檔案在該全宗內(nèi)的數(shù)量。有的全宗內(nèi)大部分都是需要開(kāi)放的檔案,因此就算把應(yīng)劃控檔案全部識(shí)別出來(lái),也不會(huì)產(chǎn)生高檢出率;而對(duì)于一個(gè)大部分檔案都需要?jiǎng)澘氐娜诙?,檢出率相應(yīng)就會(huì)很高。因此,對(duì)于計(jì)算機(jī)自動(dòng)開(kāi)放審核而言,主要目標(biāo)是把應(yīng)劃控檔案盡量都檢測(cè)出來(lái),檢出率只是節(jié)約人力程度的參考指標(biāo)。
與檢出率相比,召回率更能體現(xiàn)機(jī)器算法與人類(lèi)意見(jiàn)的一致性。如果召回率高一些,說(shuō)明計(jì)算機(jī)判定劃控的標(biāo)準(zhǔn)制定得寬松了一些;反之,召回率低一些,說(shuō)明相應(yīng)標(biāo)準(zhǔn)嚴(yán)苛了一些。這正是本實(shí)驗(yàn)語(yǔ)義分析的精確率徘徊在90%左右的原因。理論上,只要鑒定條件設(shè)計(jì)合理,計(jì)算機(jī)檢出的應(yīng)劃控檔案一定押中了某條鑒定規(guī)則,精確率應(yīng)接近100%,但是,本實(shí)驗(yàn)對(duì)比的標(biāo)桿是人工檢測(cè)結(jié)果,人機(jī)認(rèn)識(shí)上的偏差必然導(dǎo)致精確率的下降。換言之,改進(jìn)、完善語(yǔ)義層次網(wǎng)絡(luò),使計(jì)算機(jī)的鑒定規(guī)則更加貼近人的認(rèn)識(shí),是提高檔案開(kāi)放審核精確率和召回率的關(guān)鍵。
四、 結(jié)論
本研究提出的語(yǔ)義層次網(wǎng)絡(luò)能夠在文書(shū)檔案字面語(yǔ)義與開(kāi)放審核條件所蘊(yùn)含的深層語(yǔ)義之間搭起一座橋梁,打破了傳統(tǒng)關(guān)鍵詞技術(shù)只能匹配文書(shū)檔案字面詞義的局限性,有效降低關(guān)鍵詞技術(shù)帶來(lái)的語(yǔ)義失真,從而減少開(kāi)放審核中的誤判、漏判和對(duì)不準(zhǔn)問(wèn)題。
提高文書(shū)檔案開(kāi)放審核質(zhì)量的關(guān)鍵在于完善用于支撐開(kāi)放審核的語(yǔ)義層次網(wǎng)絡(luò)以及基于該網(wǎng)絡(luò)的語(yǔ)義知識(shí)庫(kù),繼而完善基于該語(yǔ)義知識(shí)庫(kù)的文書(shū)檔案語(yǔ)義識(shí)別、分析、判斷和審核系統(tǒng)。此外,考慮到基于語(yǔ)義層次網(wǎng)絡(luò)的文書(shū)檔案開(kāi)放審核系統(tǒng)需要對(duì)待鑒定檔案進(jìn)行全文解析,因此系統(tǒng)在設(shè)計(jì)功能時(shí)應(yīng)具備全文OCR提取能力。與此同時(shí),鑒于當(dāng)下國(guó)內(nèi)檔案館多采用國(guó)產(chǎn)信創(chuàng)環(huán)境,系統(tǒng)設(shè)置也應(yīng)做到充分兼容,可無(wú)障礙對(duì)接檔案館現(xiàn)有管理系統(tǒng),從而實(shí)現(xiàn)審核結(jié)果高效率回填。
*本文系國(guó)家檔案局科技項(xiàng)目“基于語(yǔ)義分析的檔案館劃控開(kāi)放智能鑒定的研究”(項(xiàng)目編號(hào):2021-X-71)階段性研究成果。
注釋與參考文獻(xiàn)
[1]中華人民共和國(guó)國(guó)家檔案局.中辦國(guó)辦印發(fā)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》[EB/OL] .[2021-06-09].https:// www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb5 5c890762868683.shtml.
[2]中華人民共和國(guó)國(guó)家檔案局.中華人民共和國(guó)檔案法[EB/OL] .[2020-06-20].https://www.saac.gov.cn/daj/falv/202006/ 79ca4f151fde470c996bec0d50601505.shtml.
[3]參考自江蘇省檔案館館長(zhǎng)陳向陽(yáng)在2021年12月15日召開(kāi)的“江蘇省館藏檔案開(kāi)放工作視頻會(huì)”上作的報(bào)告:《聚焦主責(zé)主業(yè)、勇于擔(dān)當(dāng)作為,全力提升館藏檔案開(kāi)放工作水平》。
[4]Stanford Encyclopedia of Philosophy.Logic and Ontology[EB/OL].[2022-06-28].https://plato.stanford.edu/entries/ logic-ontology/.
[5]夏天,錢(qián)毅.面向知識(shí)服務(wù)的檔案數(shù)據(jù)語(yǔ)義化重組[J].檔案學(xué)研究,2021(2):36-44.
[6]語(yǔ)義網(wǎng)絡(luò)[EB/OL].[2022-06-28].https://baike.baidu. com/item/%E8%AF%AD%E4%B9%89%E7%BD%91%E7%BB%9C/ 2841346 fr=Aladdin.
[7]Fillmore C J. The case for case[J].Universals in Linguistic Theory,1967(4):16-24.
[8]Schank R C. Conceptual Dependency: A Theory of Natural Language Understanding[J].Cognitive Psychology, 1972,3:552-631.
[9]溫有奎.文本知識(shí)分析中的語(yǔ)義層次網(wǎng)絡(luò)方法[J].情報(bào)科學(xué),2002(3):260-261.
[10]中國(guó)科學(xué)院聲學(xué)研究所.HNC(語(yǔ)義層次網(wǎng)絡(luò))理論[C]//中國(guó)中文信息學(xué)會(huì)第六次全國(guó)會(huì)員代表大會(huì)暨成立二十五周年學(xué)術(shù)會(huì)議中文信息處理重大成果匯報(bào)展資料匯編,2006:139-143.