檔案開放智能審核中的敏感詞識(shí)別與控制技術(shù)研究

2024-12-16 00:00:00卞咸杰

檔案管理 2024年5期

摘要：隨著檔案法律法規(guī)的日趨完善和信息技術(shù)的迭代進(jìn)步，檔案開放智能審核工作面臨越來越多的挑戰(zhàn)。敏感詞的識(shí)別與控制在防止敏感信息泄露中起著關(guān)鍵作用。通過分析敏感詞識(shí)別技術(shù)與方法，構(gòu)建基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù)，包括敏感詞庫(kù)的構(gòu)建、敏感詞庫(kù)的動(dòng)態(tài)更新機(jī)制，選擇合適的開發(fā)工具和技術(shù)平臺(tái)，進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、界面設(shè)計(jì)等，實(shí)現(xiàn)檔案開放智能審核中敏感詞的自動(dòng)化、智能化處理，以增強(qiáng)檔案信息的安全性和可靠性。

關(guān)鍵詞：檔案開放；開放審核；敏感詞識(shí)別；控制技術(shù)；大模型；多模態(tài)；監(jiān)督學(xué)習(xí)；智能審核

2020年，新修訂的《中華人民共和國(guó)檔案法》將縣級(jí)以上各級(jí)檔案館的檔案的封閉年限從30年縮短為25年，[1]加快了檔案開放的進(jìn)程，同時(shí)也將各級(jí)檔案館的開放審核工作提上了重要的議事日程。[2]在檔案開放過程中，敏感詞的識(shí)別與控制是確保檔案信息安全的重要措施。傳統(tǒng)的敏感詞識(shí)別方法往往依賴于人工定義和手動(dòng)更新，這種方式不僅效率低下，而且難以滿足檔案開放審核的復(fù)雜需求?，F(xiàn)有的人工智能輔助檔案開放審核系統(tǒng)中，2016年，福建省檔案館引入敏感詞輔助開展檔案開放審核工作，在開放審核的質(zhì)量和效率方面取得一定突破。并于2022年研發(fā)基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng)，將目錄及全文運(yùn)用“敏感詞”過濾進(jìn)行智能分級(jí)分庫(kù)，并按初審、復(fù)審、終審流程進(jìn)行逐級(jí)審核。[3]2019年，濰坊市檔案館主導(dǎo)開發(fā)了綜合檔案管理系統(tǒng)中的檔案審核程序，將敏感詞全文比對(duì)技術(shù)應(yīng)用到審核工作中，實(shí)現(xiàn)了檔案開放審核工作在技術(shù)上質(zhì)的提升。[4]2021年，四川省檔案館圍繞檔案開放審核中的各個(gè)維度和要素，利用關(guān)鍵詞提取、敏感詞標(biāo)注等輔助技術(shù)，對(duì)其原理、設(shè)計(jì)及應(yīng)用實(shí)踐進(jìn)行研究，以達(dá)到提高檔案開放審核速度和精準(zhǔn)度、賦能檔案開放審核工作的目的。[5]構(gòu)建一個(gè)高效、準(zhǔn)確的敏感詞庫(kù)，是檔案開放審核工作亟待解決的問題。

1 敏感詞識(shí)別技術(shù)與方法

1.1 敏感詞識(shí)別技術(shù)。敏感詞是一類被定義為敏感信息的關(guān)鍵詞，如IP地址、身份證號(hào)、手機(jī)號(hào)、密鑰、數(shù)據(jù)庫(kù)連接密碼等。[6-11]敏感詞識(shí)別技術(shù)是一種用于檢測(cè)文本、語音、圖片等媒體中是否包含敏感詞匯或內(nèi)容的技術(shù)手段，主要依賴于自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)，通過訓(xùn)練大量的文本數(shù)據(jù)，實(shí)現(xiàn)敏感詞的機(jī)器學(xué)習(xí)和識(shí)別。技術(shù)上通常需要維護(hù)一個(gè)包含敏感詞的字典，[12]用于快速匹配用戶輸入的文本內(nèi)容。匹配算法在主串中一次性查找多個(gè)模式串（即敏感詞）是否存在，結(jié)合自然語言處理技術(shù)和機(jī)器學(xué)習(xí)算法，對(duì)文本進(jìn)行深度分析，以提高敏感詞識(shí)別的準(zhǔn)確率。利用深度學(xué)習(xí)模型，如循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）或Transformer等，[13]對(duì)文本進(jìn)行建模和預(yù)測(cè)，可進(jìn)一步提高敏感詞識(shí)別效果。

相比人工審核，敏感詞識(shí)別技術(shù)減少了主觀判斷帶來的誤差，提高了審核的準(zhǔn)確性。[14]敏感詞識(shí)別技術(shù)允許用戶根據(jù)實(shí)際需求定制敏感詞庫(kù)，實(shí)現(xiàn)對(duì)不同類型敏感信息的有效監(jiān)控。

1.2 基于規(guī)則的敏感詞識(shí)別方法。利用預(yù)設(shè)規(guī)則進(jìn)行敏感詞識(shí)別的方法是信息安全領(lǐng)域中常見的技術(shù)手段。從相關(guān)法律法規(guī)、行業(yè)標(biāo)準(zhǔn)、歷史案例及用戶反饋等多個(gè)渠道收集敏感詞匯，并進(jìn)行整理分類，定義完全匹配、部分匹配、模糊匹配等多種匹配方式，以適應(yīng)不同檔案內(nèi)容的審核需求。敏感詞的提取過程，首先是檔案文本中的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等無關(guān)字符；[15]其次是分詞處理，將文本切分成單詞或短語。敏感詞的自動(dòng)提取可以通過編程或使用專門的文本處理工具實(shí)現(xiàn)。[16]

1.3 基于統(tǒng)計(jì)的敏感詞識(shí)別方法?；诮y(tǒng)計(jì)的敏感詞識(shí)別方法是一種利用統(tǒng)計(jì)學(xué)原理進(jìn)行敏感詞檢測(cè)的技術(shù)。[17]與基于規(guī)則的敏感詞識(shí)別方法不同，它更多地依賴于大量文本數(shù)據(jù)的統(tǒng)計(jì)特性和機(jī)器學(xué)習(xí)算法來識(shí)別敏感詞。對(duì)檔案數(shù)據(jù)源中的文本數(shù)據(jù)進(jìn)行清洗，包括去除無關(guān)字符、特殊符號(hào)、HTML標(biāo)簽等，并進(jìn)行分詞處理。[18]將預(yù)處理后的文本轉(zhuǎn)換為數(shù)值向量，基于行業(yè)標(biāo)準(zhǔn)和歷史經(jīng)驗(yàn)，構(gòu)建一個(gè)初始的敏感詞庫(kù)，根據(jù)數(shù)據(jù)特點(diǎn)和業(yè)務(wù)需求，選擇合適的機(jī)器學(xué)習(xí)算法，如樸素貝葉斯、支持向量機(jī)（SVM）或深度學(xué)習(xí)模型，將訓(xùn)練好的模型應(yīng)用于實(shí)際檔案開放審核中，對(duì)檔案文本進(jìn)行敏感詞識(shí)別。

2 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù)構(gòu)建

2.1 大模型訓(xùn)練。在“大模型+大數(shù)據(jù)+大算力”的加持下，ChatGPT能夠通過自然語言交互完成多種任務(wù)，具備了多場(chǎng)景、多用途、跨學(xué)科的任務(wù)處理能力。[19]在構(gòu)建敏感詞庫(kù)的過程中，大模型訓(xùn)練發(fā)揮著至關(guān)重要的作用，通過訓(xùn)練大規(guī)模語料庫(kù)，得到一個(gè)具有強(qiáng)大語義理解能力的模型，該模型不僅能夠準(zhǔn)確地識(shí)別出文本中的敏感詞，還能夠深入理解文本內(nèi)容、上下文深層含義和不斷優(yōu)化自身性能，提高識(shí)別的準(zhǔn)確性和效率。[20-23]

構(gòu)建敏感詞庫(kù)的前提是準(zhǔn)備一個(gè)包含大量文本數(shù)據(jù)的語料庫(kù)。語料庫(kù)應(yīng)該具有廣泛的領(lǐng)域和類型，以便訓(xùn)練得到的模型能夠適應(yīng)不同的應(yīng)用場(chǎng)景。在語料庫(kù)中，對(duì)包含敏感詞的文本進(jìn)行標(biāo)注，通過人工標(biāo)注或自動(dòng)標(biāo)注的方式實(shí)現(xiàn)。[24]利用深度學(xué)習(xí)技術(shù)，訓(xùn)練一個(gè)大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。該模型將學(xué)習(xí)語料庫(kù)中的文本數(shù)據(jù)和標(biāo)注信息，逐漸提高識(shí)別敏感詞的能力。在模型訓(xùn)練過程中，需要不斷評(píng)估模型的性能，并根據(jù)評(píng)估結(jié)果進(jìn)行優(yōu)化，包括調(diào)整模型的參數(shù)、結(jié)構(gòu)或算法等。

2.2 多模態(tài)訓(xùn)練。2023年3月發(fā)布的超大規(guī)模多模態(tài)預(yù)訓(xùn)練大模型（GPT-4），具備了多模態(tài)理解與多類型內(nèi)容生成能力。[25]在發(fā)展進(jìn)程中，大數(shù)據(jù)、大算力和大算法完美結(jié)合，大幅提升了大模型的預(yù)訓(xùn)練和生成能力以及多模態(tài)多場(chǎng)景應(yīng)用能力。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫(kù)利用了傳統(tǒng)的文本數(shù)據(jù)，引入了圖像、音頻等多媒體數(shù)據(jù)，提高了模型對(duì)敏感詞的識(shí)別能力。[26]

多模態(tài)訓(xùn)練涉及將不同類型的數(shù)據(jù)（如文本、圖像、音頻）整合到統(tǒng)一的模型中進(jìn)行訓(xùn)練，這種融合可以提供更豐富的上下文信息，有助于更準(zhǔn)確地理解和識(shí)別敏感內(nèi)容。[27]通過設(shè)計(jì)一個(gè)能夠處理多種數(shù)據(jù)類型的深度學(xué)習(xí)模型，結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的混合模型，在訓(xùn)練過程中使其學(xué)習(xí)如何從不同模態(tài)的數(shù)據(jù)中提取和整合特征，以進(jìn)行有效的敏感詞識(shí)別。

多模態(tài)訓(xùn)練有助于增強(qiáng)模型對(duì)于細(xì)微差異的敏感性，通過分析圖像內(nèi)容與相關(guān)文本描述之間的關(guān)聯(lián)來識(shí)別敏感信息。[28-30]在檔案審核中，多模態(tài)模型可以同時(shí)分析檔案的文本內(nèi)容、相關(guān)圖片和音頻記錄，以全面檢測(cè)敏感信息。隨著多模態(tài)學(xué)習(xí)技術(shù)的不斷發(fā)展，未來的敏感詞識(shí)別模型將更加智能和準(zhǔn)確。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫(kù)，是適應(yīng)檔案信息多樣性和復(fù)雜性的有效途徑。[31]這種方法通過融合不同模態(tài)的數(shù)據(jù)，提高了模型對(duì)敏感詞的識(shí)別能力，為檔案開放審核提供了更加全面和準(zhǔn)確的技術(shù)支持，如圖1所示。

在大模型和多模態(tài)訓(xùn)練的基礎(chǔ)上，構(gòu)建檔案開放審核敏感詞庫(kù)。詞庫(kù)包含各種敏感詞匯和短語，并且可以根據(jù)實(shí)際需要進(jìn)行動(dòng)態(tài)更新和擴(kuò)展。同時(shí)，敏感詞庫(kù)設(shè)計(jì)了查詢和檢索機(jī)制，方便審核人員快速定位和查找敏感詞。

2.3 敏感詞的定義與分類。在檔案開放審核中，根據(jù)詞匯的敏感性程度，可以將其分為不同的級(jí)別，如低敏感、中敏感和高敏感，以便于采取不同程度的處理措施。敏感詞的分類應(yīng)基于國(guó)家法律法規(guī)的相關(guān)規(guī)定，確保識(shí)別工作符合法律要求，考慮社會(huì)文化的多樣性和變遷，敏感詞的分類應(yīng)具有一定的適應(yīng)性和靈活性。檔案開放審核涉及的領(lǐng)域廣泛，不同行業(yè)和領(lǐng)域?qū)γ舾性~的定義和分類可能有所不同，需要結(jié)合具體情境進(jìn)行細(xì)化。通過文本分析、專家評(píng)審和用戶反饋等多種方式收集潛在的敏感詞匯，包括歷史檔案、政府文件、公開出版物等來源，對(duì)收集到的敏感詞匯進(jìn)行分類標(biāo)注，明確其所屬的類別和敏感性級(jí)別。[32]

識(shí)別策略的實(shí)施是根據(jù)敏感詞的分類和級(jí)別，制定相應(yīng)的識(shí)別和處理規(guī)則，如屏蔽、替換或標(biāo)記等。采用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)手段，實(shí)現(xiàn)自動(dòng)化的敏感詞識(shí)別和處理，包括關(guān)鍵詞匹配、語義分析等方法。[33，34]對(duì)識(shí)別結(jié)果進(jìn)行人工審核，確保處理的準(zhǔn)確性和合理性。

檔案開放審核中敏感詞的概念和分類標(biāo)準(zhǔn)的確立是構(gòu)建有效識(shí)別系統(tǒng)的關(guān)鍵基礎(chǔ)。通過明確敏感詞的定義、制定分類準(zhǔn)則和實(shí)施識(shí)別策略，可以有效地識(shí)別和處理敏感詞匯，為檔案開放審核和其他內(nèi)容管理系統(tǒng)提供支持。[35]同時(shí)，這一過程也需要應(yīng)對(duì)語境變化、多義詞處理等挑戰(zhàn)，并嚴(yán)格遵守合規(guī)性和倫理原則。

2.4 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù)構(gòu)建。結(jié)合大模型和多模態(tài)訓(xùn)練技術(shù)，以提高敏感詞庫(kù)的全面性和準(zhǔn)確性。

首先，利用大數(shù)據(jù)預(yù)訓(xùn)練模型，如BERT及其變體，來捕捉詞匯的豐富語義表示。通過這種方式，模型能夠理解和預(yù)測(cè)詞匯在不同上下文中的語義。

其次，引入多模態(tài)訓(xùn)練，將文本內(nèi)容與圖片、音視頻等非文本數(shù)據(jù)相結(jié)合。例如，檔案資料中常見的手寫注釋、歷史照片和相關(guān)文檔的圖像，都可以作為額外的訓(xùn)練數(shù)據(jù)。這種方法可以增強(qiáng)模型對(duì)于檔案特定內(nèi)容的理解和敏感詞的辨識(shí)能力。

為適應(yīng)檔案數(shù)據(jù)的多樣性和歷史性，引入領(lǐng)域適應(yīng)性訓(xùn)練，使模型更好地適應(yīng)檔案語境中的特定表達(dá)方式。此外，考慮到檔案的敏感性和歷史性，采用了半監(jiān)督學(xué)習(xí)或弱監(jiān)督學(xué)習(xí)方法，以利用有限的標(biāo)注數(shù)據(jù)進(jìn)行有效訓(xùn)練。

2.5 敏感詞庫(kù)的動(dòng)態(tài)更新機(jī)制。在檔案開放審核中，動(dòng)態(tài)更新機(jī)制是確保敏感詞庫(kù)能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵，這一機(jī)制涉及對(duì)敏感詞庫(kù)的持續(xù)監(jiān)控、定期更新和適時(shí)調(diào)整，以保持其時(shí)效性和準(zhǔn)確性。

通過設(shè)定監(jiān)控系統(tǒng)，實(shí)時(shí)跟蹤網(wǎng)絡(luò)環(huán)境和社會(huì)動(dòng)態(tài)，及時(shí)發(fā)現(xiàn)新出現(xiàn)的敏感詞匯和表達(dá)方式，制定明確的更新計(jì)劃，如每季度或每半年對(duì)敏感詞庫(kù)進(jìn)行全面的審查和更新。針對(duì)特定事件（如政治事件、社會(huì)事件等），靈活調(diào)整更新頻率，確保敏感詞庫(kù)能夠及時(shí)反映當(dāng)前的敏感話題。利用自然語言處理和機(jī)器學(xué)習(xí)技術(shù)，自動(dòng)識(shí)別和提取潛在的敏感詞匯，提高更新效率。[36，37]通過對(duì)大量文本數(shù)據(jù)的統(tǒng)計(jì)分析，發(fā)現(xiàn)敏感性詞匯的出現(xiàn)頻率和分布規(guī)律，為更新提供數(shù)據(jù)支持。邀請(qǐng)法律、社會(huì)學(xué)、信息安全等領(lǐng)域的專家參與敏感詞庫(kù)的更新過程，提供專業(yè)意見，通過跨學(xué)科的合作，綜合考慮不同領(lǐng)域的知識(shí)和需求，確保敏感詞庫(kù)的全面性和準(zhǔn)確性。[38，39]

某些詞匯的敏感性可能會(huì)隨時(shí)間而變化，需要及時(shí)調(diào)整其分類和處理規(guī)則。對(duì)于具有多重含義的詞匯，需要結(jié)合上下文進(jìn)行細(xì)致判斷，避免誤判，通過持續(xù)的監(jiān)控、專家參與和技術(shù)創(chuàng)新，確保敏感詞庫(kù)的準(zhǔn)確性和適應(yīng)性，[40，41]在全球化的背景下，敏感詞庫(kù)的更新可能需要考慮到跨國(guó)文化和法律的差異，國(guó)際合作將成為重要的趨勢(shì)。

檔案開放審核中的動(dòng)態(tài)更新機(jī)制是確保敏感詞庫(kù)能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵。通過實(shí)時(shí)監(jiān)控、定期更新、技術(shù)手段的應(yīng)用、專家參與等措施，可以有效地保持敏感詞庫(kù)的時(shí)效性和準(zhǔn)確性。同時(shí)，這一機(jī)制也需要應(yīng)對(duì)語境變化、多義詞處理等挑戰(zhàn)，并嚴(yán)格遵守透明性與可追溯性的原則。

3 系統(tǒng)實(shí)現(xiàn)

基于檔案開放智能審核對(duì)敏感詞的識(shí)別與控制技術(shù)需求，通過選擇合適的開發(fā)工具和技術(shù)平臺(tái)，進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、界面設(shè)計(jì)等，實(shí)現(xiàn)檔案開放智能審核中敏感詞的自動(dòng)化、智能化處理。

3.1 開發(fā)工具和技術(shù)平臺(tái)選擇。前端選擇Vue3框架，該JavaScript框架提供了響應(yīng)式用戶界面；后端使用.NETCore，該技術(shù)支持快速開發(fā)與高效的系統(tǒng)性能，根據(jù)數(shù)據(jù)類型和查詢需求，選用MsSQL結(jié)合緩存數(shù)據(jù)庫(kù)Redis，可以提升數(shù)據(jù)訪問效率，采用云計(jì)算技術(shù)，如騰訊云或阿里云等，提供彈性的計(jì)算資源，可以滿足系統(tǒng)在不同負(fù)載下的性能需求。[42]同時(shí)，利用微服務(wù)架構(gòu)，將系統(tǒng)拆分為多個(gè)獨(dú)立的服務(wù)，以提高系統(tǒng)的可維護(hù)性和可擴(kuò)展性。

3.2 系統(tǒng)的架構(gòu)設(shè)計(jì)。前端架構(gòu)采用響應(yīng)式設(shè)計(jì)，確保系統(tǒng)在不同設(shè)備上的良好顯示和用戶體驗(yàn)。同時(shí)，利用Vue.js、React等前端框架，實(shí)現(xiàn)快速、高效的界面渲染和交互。后端架構(gòu)采用微服務(wù)架構(gòu)，將系統(tǒng)拆分為檔案信息管理、審核流程管理、權(quán)限控制等獨(dú)立的服務(wù)。[43]每個(gè)服務(wù)負(fù)責(zé)處理特定的業(yè)務(wù)邏輯，并通過API網(wǎng)關(guān)進(jìn)行通信。此外，利用消息隊(duì)列（如RabbitMQ、Kafka）實(shí)現(xiàn)服務(wù)的異步通信和解耦。數(shù)據(jù)庫(kù)選擇關(guān)系型數(shù)據(jù)庫(kù)MsSQL存儲(chǔ)檔案信息、審核記錄等結(jié)構(gòu)化數(shù)據(jù)。[44]同時(shí)，結(jié)合Redis作為緩存數(shù)據(jù)庫(kù)提升數(shù)據(jù)的查詢和存儲(chǔ)效率。

3.3 數(shù)據(jù)庫(kù)設(shè)計(jì)。數(shù)據(jù)模型設(shè)計(jì)，定義清晰的數(shù)據(jù)模型，符合檔案數(shù)據(jù)的特點(diǎn)和審核需求。例如，檔案數(shù)據(jù)模型應(yīng)包括索引信息、內(nèi)容摘要、敏感標(biāo)識(shí)等字段?？紤]數(shù)據(jù)的一致性和完整性，設(shè)計(jì)合理的數(shù)據(jù)約束和索引策略，提高查詢效率和數(shù)據(jù)準(zhǔn)確性，實(shí)施嚴(yán)格的數(shù)據(jù)訪問控制，確保只有授權(quán)用戶可以訪問敏感數(shù)據(jù)，[45，46]定期進(jìn)行數(shù)據(jù)備份，制定災(zāi)難恢復(fù)計(jì)劃，保障數(shù)據(jù)的安全性和可靠性。

3.4 原型設(shè)計(jì)。策略配置提供一站式管控策略配置，將詞庫(kù)與業(yè)務(wù)巧妙融合，靈活控制影響方式、持續(xù)時(shí)間及狀態(tài)，精準(zhǔn)掌握策略召回?cái)?shù)量，并可對(duì)策略召回內(nèi)容進(jìn)行深度處理。詞庫(kù)管理實(shí)現(xiàn)便捷添加敏感詞，明確所屬詞庫(kù)，添加時(shí)即可預(yù)覽召回量，抽樣評(píng)估后準(zhǔn)確掌握攔截準(zhǔn)確率。初步劃分所屬詞庫(kù)，隨后評(píng)估召回量與隨機(jī)樣本，決定是否生效及確認(rèn)詞庫(kù)歸屬。隨機(jī)樣本抽取數(shù)量與方式可在“樣本設(shè)置”中調(diào)整，命中準(zhǔn)確率評(píng)估則在“敏感詞評(píng)估”中進(jìn)行。[47]用戶配置將用戶與敏感詞、業(yè)務(wù)、地域三維緊密關(guān)聯(lián)，命中策略對(duì)應(yīng)“策略配置”頁(yè)相關(guān)策略，清晰展示受該策略影響的用戶數(shù)，點(diǎn)擊“處理”即可跳轉(zhuǎn)至“內(nèi)容處理”頁(yè)面進(jìn)行相應(yīng)操作。內(nèi)容處理方面，針對(duì)命中策略的業(yè)務(wù)或用戶，實(shí)施精準(zhǔn)處理。數(shù)據(jù)統(tǒng)計(jì)實(shí)現(xiàn)從策略、詞庫(kù)、用戶及處理等多維度進(jìn)行詳盡數(shù)據(jù)統(tǒng)計(jì)，并以報(bào)表形式直觀呈現(xiàn)各類數(shù)據(jù)，方便分析與決策。

本文系2024年國(guó)家社會(huì)科學(xué)基金年度一般項(xiàng)目《檔案開放智能審核的創(chuàng)新研究》（項(xiàng)目批準(zhǔn)號(hào)：24BTQ022）；2022年國(guó)家檔案局科技項(xiàng)目“檔案開放審核流程優(yōu)化和應(yīng)用系統(tǒng)開發(fā)研究”（項(xiàng)目批準(zhǔn)號(hào)：2022-X-012）；中國(guó)高等教育學(xué)會(huì)“2024年度高等教育科學(xué)研究規(guī)劃課題”《人工智能賦能檔案管理轉(zhuǎn)型發(fā)展的研究》（課題編號(hào)：24DA0303）；2023年江蘇省檔案科技項(xiàng)目《人工智能在檔案管理中應(yīng)用的現(xiàn)狀與前景研究》（2023-17）；江蘇省高校檔案研究會(huì)2023年檔案科研項(xiàng)目《基于AI技術(shù)的檔案開放審核研究》（JSGDZ2023-02）階段性研究成果。

參考文獻(xiàn)：

[1]全國(guó)人民代表大會(huì)常務(wù)委員會(huì).中華人民共和國(guó)檔案法[N].人民日?qǐng)?bào)，2020-07-16（016）.

[2]卞咸杰、黃楊.“檔案開放審核”與“檔案開放鑒定”概念辨析[J].檔案管理，2023（05）：36-39.

[3]福建省檔案局、檔案館項(xiàng)目組.基于數(shù)字檔案的人工智能輔助檔案開放審核系統(tǒng)實(shí)現(xiàn)研究[J].浙江檔案，2022（10）：40-43.

[4]楊揚(yáng)、孫廣輝、韓先吉.敏感詞全文比對(duì)在檔案開放審核中的應(yīng)用實(shí)踐[J].中國(guó)檔案，2020（11）：58-59.

[5]“檔案開放審核標(biāo)準(zhǔn)化體系研究”課題組.檔案開放審核工作中的輔助技術(shù)應(yīng)用研究[J].四川檔案，2022（05）：44-45.

[6]鄧權(quán)亮.基于全文檢索的敏感信息檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2021.

[7]謝永憲，王巧玲，劉湘娟，等.我國(guó)檔案開放審核工作調(diào)研與分析[J].山西檔案，2023（05）：156-164.

[8]岳幸暉，楊智勇.人工智能在檔案管理中的應(yīng)用圖景與風(fēng)險(xiǎn)防范[J].檔案與建設(shè)，2023（10）：36-40.

[9]馬怡琳，李宗富.賦能·助力·提升：人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案，2022（04）：112-118.

[10]聶云霞，陳煙然.新《檔案法》背景下檔案開放的優(yōu)化路徑[J].檔案與建設(shè)，2022（05）：16-19.

[11]冉朝霞.基于輿情數(shù)據(jù)的檔案信息跨維度收集與分類研究[J].檔案管理，2019（06）：53-55.

[12]李雅靜、丁海洋.基于MSER視頻字幕敏感詞過濾算法[J].現(xiàn)代信息科技，2023，7（21）：80-84+89.

[13]藍(lán)天虹、陳丹霏、鄭源、徐正一.基于BERT預(yù)訓(xùn)練與混合神經(jīng)網(wǎng)絡(luò)的中文語義識(shí)別算法設(shè)計(jì)[J].電子設(shè)計(jì)工程，2024，32（12）：91-95.

[14]姜鈺棋、強(qiáng)子珊、卜凡亮.面向社交平臺(tái)應(yīng)急關(guān)聯(lián)信息的文本分類綜述[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2024，43（05）：1-10+34.

[15]楊濱瑕、羅旭東、孫凱麗.基于預(yù)訓(xùn)練語言模型的機(jī)器翻譯最新進(jìn)展[J].計(jì)算機(jī)科學(xué)，2024，51（S1）：50-57.

[16]高子涵.基于語義分析的郵件分類研究[D].太原：中北大學(xué)，2023.

[17]杜勐.支持自定義的語音關(guān)鍵詞檢測(cè)技術(shù)研究[D].成都：電子科技大學(xué)，2023.

[18]李亞琪.基于威脅情報(bào)分析的APT組織攻擊技術(shù)提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2023.

[19]范煒、曾蕾.AI新時(shí)代面向文化遺產(chǎn)活化利用的智慧數(shù)據(jù)生成路徑探析[J].中國(guó)圖書館學(xué)報(bào)，2024，50（02）：4-29.

[20]胡昊天、鄧三鴻、孔玲等.生成式情報(bào)學(xué)術(shù)語自動(dòng)抽取與多維關(guān)聯(lián)知識(shí)挖掘研究[J].情報(bào)學(xué)報(bào)，2024，43（05）：588-600.

[21]陳浩瀧、陳罕之、韓凱峰等.垂直領(lǐng)域大模型的定制化：理論基礎(chǔ)與關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理，2024，39（03）：524-546.

[22]王永威、沈弢、張圣宇等.大小模型端云協(xié)同進(jìn)化技術(shù)進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào)，2024，29（06）：1510-1534.

[23]張丹.大語言模型與檔案資源開發(fā)：前景、挑戰(zhàn)與應(yīng)對(duì)[J].山西檔案，2023（05）：108-111.

[24]趙萍、竇全勝、唐煥玲.融合詞信息嵌入的注意力自適應(yīng)命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用，2023，59（08）：167-174.

[25]劉聰、李鑫、殷兵等.大模型技術(shù)與產(chǎn)業(yè)：現(xiàn)狀、實(shí)踐及思考[J].人工智能.2023（04）：32-42.

[26]朱學(xué)芳.圖博檔數(shù)字化服務(wù)融合理論、方法、技術(shù)與實(shí)證[M].南京：南京大學(xué)，2023.11.

[27]劉樹鋒.大數(shù)據(jù)時(shí)代AIGC與多模態(tài)知識(shí)圖譜的思考與展望[J].互聯(lián)網(wǎng)周刊，2023（15）：49-51.

[28]張慧玲、許海云、王超.弱信號(hào)環(huán)境下情報(bào)感知方法框架研究[J].情報(bào)理論與實(shí)踐，2023，46（11）：9-19.

[29]許劍穎，馮桂珍.ChatGPT賦能檔案服務(wù)：技術(shù)特征、應(yīng)用場(chǎng)景與實(shí)現(xiàn)路徑[J].山西檔案，2023（06）：111-120.

[30]佟淑玲，王越文，李澤坤.基于本體的聲像檔案知識(shí)圖譜構(gòu)建研究[J].檔案管理，2022（06）：52-56.

[31]劉哲雨.深度學(xué)習(xí)的探索之路[M].天津：南開大學(xué)出版社，2018.05.

[32]潘新美.政府規(guī)制網(wǎng)絡(luò)言論研究[D].廈門：廈門大學(xué)，2015.

[33]胡百精.公共傳播與社會(huì)治理[M].北京：中國(guó)人民大學(xué)出版社，2020.01.

[34]王楠，丁原，李軍.語義層次網(wǎng)絡(luò)在文書檔案開放審核中的應(yīng)用[J].檔案與建設(shè)，2022（06）：55-60.

[35]周耀林、張曉娟、肖秋會(huì).檔案學(xué)研究進(jìn)展[M].武漢：武漢大學(xué)出版社，2018.06.

[36]劉奕.5G網(wǎng)絡(luò)技術(shù)對(duì)提升4G網(wǎng)絡(luò)性能的研究[J].數(shù)碼世界，2020（04）：24.

[37]聶云霞，范志偉.AI技術(shù)在檔案開放審核中的SWOT分析[J].山西檔案，2023（04）：35-45+88.

[38]張良.面向輿情要素的在線社交網(wǎng)絡(luò)輿情分析關(guān)鍵技術(shù)研究[D].長(zhǎng)沙：國(guó)防科技大學(xué)，2021.

[39]馬怡琳，李宗富.賦能·助力·提升：人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案，2022（04）：112-118.

[40]張燕飛.數(shù)字化轉(zhuǎn)型重塑業(yè)務(wù)流程管理[M].北京：中國(guó)鐵道出版社，2022.11.

[41]岳靚，王芹，相明潔，等.數(shù)據(jù)治理下的檔案開放鑒定現(xiàn)狀及優(yōu)化策略研究—以蘇州市為例[J].檔案與建設(shè)，2023（05）：57-60.

[42]李易壯.基于圖神經(jīng)網(wǎng)絡(luò)的文檔情感分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2021.

[43]陳露露、李志龍、張民等.行政數(shù)據(jù)管理分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用，2023，41（12）：155-157.

[44]黃靜、朱旭.基于Spring Cloud的人才智庫(kù)遴選系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].軟件工程，2023，26（02）：54-58.

[45]胡晨、蔡博陽(yáng)、項(xiàng)文新.開發(fā)區(qū)檔案數(shù)據(jù)歸集平臺(tái)技術(shù)架構(gòu)設(shè)計(jì)[J].蘭臺(tái)世界，2024（02）：62-68.

[46]任志勇，梅啟梁，徐柯.基于量子密碼技術(shù)的電子檔案離線狀態(tài)下安全防護(hù)實(shí)現(xiàn)[J].山西檔案，2022（04）：141-146.

[47]劉紹濤.新聞長(zhǎng)文本檢索方法的設(shè)計(jì)與實(shí)現(xiàn)[D].成都：電子科技大學(xué)，2022.

[48]張康康.基于機(jī)器學(xué)習(xí)的Android惡意代碼靜態(tài)檢測(cè)方法研究與應(yīng)用[D].南昌：南昌大學(xué)，2023.

[49]卞咸杰.基于智能工作流技術(shù)的檔案開放審核系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].檔案管理，2023（06）：84-87.

（作者單位：鹽城師范學(xué)院歷史與公共管理學(xué)院卞咸杰，教授，碩士生導(dǎo)師來稿日期：2024-06-20）

檔案管理2024年5期

檔案管理的其它文章: 德國(guó)聯(lián)邦檔案館專題門戶網(wǎng)站在線互動(dòng)分析及啟示; 信息資源管理學(xué)科碩士研究生知識(shí)共享的現(xiàn)狀、問題與方向; 基于扎根理論的用戶使用意向及其影響因素分析; 面向檔案事業(yè)現(xiàn)代化的我國(guó)綜合型檔案服務(wù)企業(yè)管理模式分析; 檔案數(shù)據(jù)挖掘?qū)r(nóng)業(yè)新質(zhì)生產(chǎn)力人才識(shí)別與培養(yǎng)的作用機(jī)制研究; 信息資源管理一級(jí)學(xué)科新發(fā)展理念下圖情檔資源的融合建設(shè)