• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案開放智能審核中的敏感詞識(shí)別與控制技術(shù)研究

      2024-12-16 00:00:00卞咸杰
      檔案管理 2024年5期

      摘 要:隨著檔案法律法規(guī)的日趨完善和信息技術(shù)的迭代進(jìn)步,檔案開放智能審核工作面臨越來越多的挑戰(zhàn)。敏感詞的識(shí)別與控制在防止敏感信息泄露中起著關(guān)鍵作用。通過分析敏感詞識(shí)別技術(shù)與方法,構(gòu)建基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù),包括敏感詞庫(kù)的構(gòu)建、敏感詞庫(kù)的動(dòng)態(tài)更新機(jī)制,選擇合適的開發(fā)工具和技術(shù)平臺(tái),進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、界面設(shè)計(jì)等,實(shí)現(xiàn)檔案開放智能審核中敏感詞的自動(dòng)化、智能化處理,以增強(qiáng)檔案信息的安全性和可靠性。

      關(guān)鍵詞:檔案開放;開放審核;敏感詞識(shí)別;控制技術(shù);大模型;多模態(tài);監(jiān)督學(xué)習(xí);智能審核

      2020年,新修訂的《中華人民共和國(guó)檔案法》將縣級(jí)以上各級(jí)檔案館的檔案的封閉年限從30年縮短為25年,[1]加快了檔案開放的進(jìn)程,同時(shí)也將各級(jí)檔案館的開放審核工作提上了重要的議事日程。[2]在檔案開放過程中,敏感詞的識(shí)別與控制是確保檔案信息安全的重要措施。傳統(tǒng)的敏感詞識(shí)別方法往往依賴于人工定義和手動(dòng)更新,這種方式不僅效率低下,而且難以滿足檔案開放審核的復(fù)雜需求?,F(xiàn)有的人工智能輔助檔案開放審核系統(tǒng)中,2016年,福建省檔案館引入敏感詞輔助開展檔案開放審核工作,在開放審核的質(zhì)量和效率方面取得一定突破。并于2022年研發(fā)基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng),將目錄及全文運(yùn)用“敏感詞”過濾進(jìn)行智能分級(jí)分庫(kù),并按初審、復(fù)審、終審流程進(jìn)行逐級(jí)審核。[3]2019年,濰坊市檔案館主導(dǎo)開發(fā)了綜合檔案管理系統(tǒng)中的檔案審核程序,將敏感詞全文比對(duì)技術(shù)應(yīng)用到審核工作中,實(shí)現(xiàn)了檔案開放審核工作在技術(shù)上質(zhì)的提升。[4]2021年,四川省檔案館圍繞檔案開放審核中的各個(gè)維度和要素,利用關(guān)鍵詞提取、敏感詞標(biāo)注等輔助技術(shù),對(duì)其原理、設(shè)計(jì)及應(yīng)用實(shí)踐進(jìn)行研究,以達(dá)到提高檔案開放審核速度和精準(zhǔn)度、賦能檔案開放審核工作的目的。[5]構(gòu)建一個(gè)高效、準(zhǔn)確的敏感詞庫(kù),是檔案開放審核工作亟待解決的問題。

      1 敏感詞識(shí)別技術(shù)與方法

      1.1 敏感詞識(shí)別技術(shù)。敏感詞是一類被定義為敏感信息的關(guān)鍵詞,如IP地址、身份證號(hào)、手機(jī)號(hào)、密鑰、數(shù)據(jù)庫(kù)連接密碼等。[6-11]敏感詞識(shí)別技術(shù)是一種用于檢測(cè)文本、語音、圖片等媒體中是否包含敏感詞匯或內(nèi)容的技術(shù)手段,主要依賴于自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),通過訓(xùn)練大量的文本數(shù)據(jù),實(shí)現(xiàn)敏感詞的機(jī)器學(xué)習(xí)和識(shí)別。技術(shù)上通常需要維護(hù)一個(gè)包含敏感詞的字典,[12]用于快速匹配用戶輸入的文本內(nèi)容。匹配算法在主串中一次性查找多個(gè)模式串(即敏感詞)是否存在,結(jié)合自然語言處理技術(shù)和機(jī)器學(xué)習(xí)算法,對(duì)文本進(jìn)行深度分析,以提高敏感詞識(shí)別的準(zhǔn)確率。利用深度學(xué)習(xí)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)或Transformer等,[13]對(duì)文本進(jìn)行建模和預(yù)測(cè),可進(jìn)一步提高敏感詞識(shí)別效果。

      相比人工審核,敏感詞識(shí)別技術(shù)減少了主觀判斷帶來的誤差,提高了審核的準(zhǔn)確性。[14]敏感詞識(shí)別技術(shù)允許用戶根據(jù)實(shí)際需求定制敏感詞庫(kù),實(shí)現(xiàn)對(duì)不同類型敏感信息的有效監(jiān)控。

      1.2 基于規(guī)則的敏感詞識(shí)別方法。利用預(yù)設(shè)規(guī)則進(jìn)行敏感詞識(shí)別的方法是信息安全領(lǐng)域中常見的技術(shù)手段。從相關(guān)法律法規(guī)、行業(yè)標(biāo)準(zhǔn)、歷史案例及用戶反饋等多個(gè)渠道收集敏感詞匯,并進(jìn)行整理分類,定義完全匹配、部分匹配、模糊匹配等多種匹配方式,以適應(yīng)不同檔案內(nèi)容的審核需求。敏感詞的提取過程,首先是檔案文本中的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等無關(guān)字符;[15]其次是分詞處理,將文本切分成單詞或短語。敏感詞的自動(dòng)提取可以通過編程或使用專門的文本處理工具實(shí)現(xiàn)。[16]

      1.3 基于統(tǒng)計(jì)的敏感詞識(shí)別方法?;诮y(tǒng)計(jì)的敏感詞識(shí)別方法是一種利用統(tǒng)計(jì)學(xué)原理進(jìn)行敏感詞檢測(cè)的技術(shù)。[17]與基于規(guī)則的敏感詞識(shí)別方法不同,它更多地依賴于大量文本數(shù)據(jù)的統(tǒng)計(jì)特性和機(jī)器學(xué)習(xí)算法來識(shí)別敏感詞。對(duì)檔案數(shù)據(jù)源中的文本數(shù)據(jù)進(jìn)行清洗,包括去除無關(guān)字符、特殊符號(hào)、HTML標(biāo)簽等,并進(jìn)行分詞處理。[18]將預(yù)處理后的文本轉(zhuǎn)換為數(shù)值向量,基于行業(yè)標(biāo)準(zhǔn)和歷史經(jīng)驗(yàn),構(gòu)建一個(gè)初始的敏感詞庫(kù),根據(jù)數(shù)據(jù)特點(diǎn)和業(yè)務(wù)需求,選擇合適的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯、支持向量機(jī)(SVM)或深度學(xué)習(xí)模型,將訓(xùn)練好的模型應(yīng)用于實(shí)際檔案開放審核中,對(duì)檔案文本進(jìn)行敏感詞識(shí)別。

      2 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù)構(gòu)建

      2.1 大模型訓(xùn)練。在“大模型+大數(shù)據(jù)+大算力”的加持下,ChatGPT能夠通過自然語言交互完成多種任務(wù),具備了多場(chǎng)景、多用途、跨學(xué)科的任務(wù)處理能力。[19]在構(gòu)建敏感詞庫(kù)的過程中,大模型訓(xùn)練發(fā)揮著至關(guān)重要的作用,通過訓(xùn)練大規(guī)模語料庫(kù),得到一個(gè)具有強(qiáng)大語義理解能力的模型,該模型不僅能夠準(zhǔn)確地識(shí)別出文本中的敏感詞,還能夠深入理解文本內(nèi)容、上下文深層含義和不斷優(yōu)化自身性能,提高識(shí)別的準(zhǔn)確性和效率。[20-23]

      構(gòu)建敏感詞庫(kù)的前提是準(zhǔn)備一個(gè)包含大量文本數(shù)據(jù)的語料庫(kù)。語料庫(kù)應(yīng)該具有廣泛的領(lǐng)域和類型,以便訓(xùn)練得到的模型能夠適應(yīng)不同的應(yīng)用場(chǎng)景。在語料庫(kù)中,對(duì)包含敏感詞的文本進(jìn)行標(biāo)注,通過人工標(biāo)注或自動(dòng)標(biāo)注的方式實(shí)現(xiàn)。[24]利用深度學(xué)習(xí)技術(shù),訓(xùn)練一個(gè)大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。該模型將學(xué)習(xí)語料庫(kù)中的文本數(shù)據(jù)和標(biāo)注信息,逐漸提高識(shí)別敏感詞的能力。在模型訓(xùn)練過程中,需要不斷評(píng)估模型的性能,并根據(jù)評(píng)估結(jié)果進(jìn)行優(yōu)化,包括調(diào)整模型的參數(shù)、結(jié)構(gòu)或算法等。

      2.2 多模態(tài)訓(xùn)練。2023年3月發(fā)布的超大規(guī)模多模態(tài)預(yù)訓(xùn)練大模型(GPT-4),具備了多模態(tài)理解與多類型內(nèi)容生成能力。[25]在發(fā)展進(jìn)程中,大數(shù)據(jù)、大算力和大算法完美結(jié)合,大幅提升了大模型的預(yù)訓(xùn)練和生成能力以及多模態(tài)多場(chǎng)景應(yīng)用能力。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫(kù)利用了傳統(tǒng)的文本數(shù)據(jù),引入了圖像、音頻等多媒體數(shù)據(jù),提高了模型對(duì)敏感詞的識(shí)別能力。[26]

      多模態(tài)訓(xùn)練涉及將不同類型的數(shù)據(jù)(如文本、圖像、音頻)整合到統(tǒng)一的模型中進(jìn)行訓(xùn)練,這種融合可以提供更豐富的上下文信息,有助于更準(zhǔn)確地理解和識(shí)別敏感內(nèi)容。[27]通過設(shè)計(jì)一個(gè)能夠處理多種數(shù)據(jù)類型的深度學(xué)習(xí)模型,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的混合模型,在訓(xùn)練過程中使其學(xué)習(xí)如何從不同模態(tài)的數(shù)據(jù)中提取和整合特征,以進(jìn)行有效的敏感詞識(shí)別。

      多模態(tài)訓(xùn)練有助于增強(qiáng)模型對(duì)于細(xì)微差異的敏感性,通過分析圖像內(nèi)容與相關(guān)文本描述之間的關(guān)聯(lián)來識(shí)別敏感信息。[28-30]在檔案審核中,多模態(tài)模型可以同時(shí)分析檔案的文本內(nèi)容、相關(guān)圖片和音頻記錄,以全面檢測(cè)敏感信息。隨著多模態(tài)學(xué)習(xí)技術(shù)的不斷發(fā)展,未來的敏感詞識(shí)別模型將更加智能和準(zhǔn)確。采用多模態(tài)訓(xùn)練的方式來構(gòu)建敏感詞庫(kù),是適應(yīng)檔案信息多樣性和復(fù)雜性的有效途徑。[31]這種方法通過融合不同模態(tài)的數(shù)據(jù),提高了模型對(duì)敏感詞的識(shí)別能力,為檔案開放審核提供了更加全面和準(zhǔn)確的技術(shù)支持,如圖1所示。

      在大模型和多模態(tài)訓(xùn)練的基礎(chǔ)上,構(gòu)建檔案開放審核敏感詞庫(kù)。詞庫(kù)包含各種敏感詞匯和短語,并且可以根據(jù)實(shí)際需要進(jìn)行動(dòng)態(tài)更新和擴(kuò)展。同時(shí),敏感詞庫(kù)設(shè)計(jì)了查詢和檢索機(jī)制,方便審核人員快速定位和查找敏感詞。

      2.3 敏感詞的定義與分類。在檔案開放審核中,根據(jù)詞匯的敏感性程度,可以將其分為不同的級(jí)別,如低敏感、中敏感和高敏感,以便于采取不同程度的處理措施。敏感詞的分類應(yīng)基于國(guó)家法律法規(guī)的相關(guān)規(guī)定,確保識(shí)別工作符合法律要求,考慮社會(huì)文化的多樣性和變遷,敏感詞的分類應(yīng)具有一定的適應(yīng)性和靈活性。檔案開放審核涉及的領(lǐng)域廣泛,不同行業(yè)和領(lǐng)域?qū)γ舾性~的定義和分類可能有所不同,需要結(jié)合具體情境進(jìn)行細(xì)化。通過文本分析、專家評(píng)審和用戶反饋等多種方式收集潛在的敏感詞匯,包括歷史檔案、政府文件、公開出版物等來源,對(duì)收集到的敏感詞匯進(jìn)行分類標(biāo)注,明確其所屬的類別和敏感性級(jí)別。[32]

      識(shí)別策略的實(shí)施是根據(jù)敏感詞的分類和級(jí)別,制定相應(yīng)的識(shí)別和處理規(guī)則,如屏蔽、替換或標(biāo)記等。采用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)手段,實(shí)現(xiàn)自動(dòng)化的敏感詞識(shí)別和處理,包括關(guān)鍵詞匹配、語義分析等方法。[33,34]對(duì)識(shí)別結(jié)果進(jìn)行人工審核,確保處理的準(zhǔn)確性和合理性。

      檔案開放審核中敏感詞的概念和分類標(biāo)準(zhǔn)的確立是構(gòu)建有效識(shí)別系統(tǒng)的關(guān)鍵基礎(chǔ)。通過明確敏感詞的定義、制定分類準(zhǔn)則和實(shí)施識(shí)別策略,可以有效地識(shí)別和處理敏感詞匯,為檔案開放審核和其他內(nèi)容管理系統(tǒng)提供支持。[35]同時(shí),這一過程也需要應(yīng)對(duì)語境變化、多義詞處理等挑戰(zhàn),并嚴(yán)格遵守合規(guī)性和倫理原則。

      2.4 基于大模型與多模態(tài)訓(xùn)練的敏感詞庫(kù)構(gòu)建。結(jié)合大模型和多模態(tài)訓(xùn)練技術(shù),以提高敏感詞庫(kù)的全面性和準(zhǔn)確性。

      首先,利用大數(shù)據(jù)預(yù)訓(xùn)練模型,如BERT及其變體,來捕捉詞匯的豐富語義表示。通過這種方式,模型能夠理解和預(yù)測(cè)詞匯在不同上下文中的語義。

      其次,引入多模態(tài)訓(xùn)練,將文本內(nèi)容與圖片、音視頻等非文本數(shù)據(jù)相結(jié)合。例如,檔案資料中常見的手寫注釋、歷史照片和相關(guān)文檔的圖像,都可以作為額外的訓(xùn)練數(shù)據(jù)。這種方法可以增強(qiáng)模型對(duì)于檔案特定內(nèi)容的理解和敏感詞的辨識(shí)能力。

      為適應(yīng)檔案數(shù)據(jù)的多樣性和歷史性,引入領(lǐng)域適應(yīng)性訓(xùn)練,使模型更好地適應(yīng)檔案語境中的特定表達(dá)方式。此外,考慮到檔案的敏感性和歷史性,采用了半監(jiān)督學(xué)習(xí)或弱監(jiān)督學(xué)習(xí)方法,以利用有限的標(biāo)注數(shù)據(jù)進(jìn)行有效訓(xùn)練。

      2.5 敏感詞庫(kù)的動(dòng)態(tài)更新機(jī)制。在檔案開放審核中,動(dòng)態(tài)更新機(jī)制是確保敏感詞庫(kù)能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵,這一機(jī)制涉及對(duì)敏感詞庫(kù)的持續(xù)監(jiān)控、定期更新和適時(shí)調(diào)整,以保持其時(shí)效性和準(zhǔn)確性。

      通過設(shè)定監(jiān)控系統(tǒng),實(shí)時(shí)跟蹤網(wǎng)絡(luò)環(huán)境和社會(huì)動(dòng)態(tài),及時(shí)發(fā)現(xiàn)新出現(xiàn)的敏感詞匯和表達(dá)方式,制定明確的更新計(jì)劃,如每季度或每半年對(duì)敏感詞庫(kù)進(jìn)行全面的審查和更新。針對(duì)特定事件(如政治事件、社會(huì)事件等),靈活調(diào)整更新頻率,確保敏感詞庫(kù)能夠及時(shí)反映當(dāng)前的敏感話題。利用自然語言處理和機(jī)器學(xué)習(xí)技術(shù),自動(dòng)識(shí)別和提取潛在的敏感詞匯,提高更新效率。[36,37]通過對(duì)大量文本數(shù)據(jù)的統(tǒng)計(jì)分析,發(fā)現(xiàn)敏感性詞匯的出現(xiàn)頻率和分布規(guī)律,為更新提供數(shù)據(jù)支持。邀請(qǐng)法律、社會(huì)學(xué)、信息安全等領(lǐng)域的專家參與敏感詞庫(kù)的更新過程,提供專業(yè)意見,通過跨學(xué)科的合作,綜合考慮不同領(lǐng)域的知識(shí)和需求,確保敏感詞庫(kù)的全面性和準(zhǔn)確性。[38,39]

      某些詞匯的敏感性可能會(huì)隨時(shí)間而變化,需要及時(shí)調(diào)整其分類和處理規(guī)則。對(duì)于具有多重含義的詞匯,需要結(jié)合上下文進(jìn)行細(xì)致判斷,避免誤判,通過持續(xù)的監(jiān)控、專家參與和技術(shù)創(chuàng)新,確保敏感詞庫(kù)的準(zhǔn)確性和適應(yīng)性,[40,41]在全球化的背景下,敏感詞庫(kù)的更新可能需要考慮到跨國(guó)文化和法律的差異,國(guó)際合作將成為重要的趨勢(shì)。

      檔案開放審核中的動(dòng)態(tài)更新機(jī)制是確保敏感詞庫(kù)能夠適應(yīng)不斷變化的信息環(huán)境的關(guān)鍵。通過實(shí)時(shí)監(jiān)控、定期更新、技術(shù)手段的應(yīng)用、專家參與等措施,可以有效地保持敏感詞庫(kù)的時(shí)效性和準(zhǔn)確性。同時(shí),這一機(jī)制也需要應(yīng)對(duì)語境變化、多義詞處理等挑戰(zhàn),并嚴(yán)格遵守透明性與可追溯性的原則。

      3 系統(tǒng)實(shí)現(xiàn)

      基于檔案開放智能審核對(duì)敏感詞的識(shí)別與控制技術(shù)需求,通過選擇合適的開發(fā)工具和技術(shù)平臺(tái),進(jìn)行系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、界面設(shè)計(jì)等,實(shí)現(xiàn)檔案開放智能審核中敏感詞的自動(dòng)化、智能化處理。

      3.1 開發(fā)工具和技術(shù)平臺(tái)選擇。前端選擇Vue3框架,該JavaScript框架提供了響應(yīng)式用戶界面;后端使用.NETCore,該技術(shù)支持快速開發(fā)與高效的系統(tǒng)性能,根據(jù)數(shù)據(jù)類型和查詢需求,選用MsSQL結(jié)合緩存數(shù)據(jù)庫(kù)Redis,可以提升數(shù)據(jù)訪問效率,采用云計(jì)算技術(shù),如騰訊云或阿里云等,提供彈性的計(jì)算資源,可以滿足系統(tǒng)在不同負(fù)載下的性能需求。[42]同時(shí),利用微服務(wù)架構(gòu),將系統(tǒng)拆分為多個(gè)獨(dú)立的服務(wù),以提高系統(tǒng)的可維護(hù)性和可擴(kuò)展性。

      3.2 系統(tǒng)的架構(gòu)設(shè)計(jì)。前端架構(gòu)采用響應(yīng)式設(shè)計(jì),確保系統(tǒng)在不同設(shè)備上的良好顯示和用戶體驗(yàn)。同時(shí),利用Vue.js、React等前端框架,實(shí)現(xiàn)快速、高效的界面渲染和交互。后端架構(gòu)采用微服務(wù)架構(gòu),將系統(tǒng)拆分為檔案信息管理、審核流程管理、權(quán)限控制等獨(dú)立的服務(wù)。[43]每個(gè)服務(wù)負(fù)責(zé)處理特定的業(yè)務(wù)邏輯,并通過API網(wǎng)關(guān)進(jìn)行通信。此外,利用消息隊(duì)列(如RabbitMQ、Kafka)實(shí)現(xiàn)服務(wù)的異步通信和解耦。數(shù)據(jù)庫(kù)選擇關(guān)系型數(shù)據(jù)庫(kù)MsSQL存儲(chǔ)檔案信息、審核記錄等結(jié)構(gòu)化數(shù)據(jù)。[44]同時(shí),結(jié)合Redis作為緩存數(shù)據(jù)庫(kù)提升數(shù)據(jù)的查詢和存儲(chǔ)效率。

      3.3 數(shù)據(jù)庫(kù)設(shè)計(jì)。數(shù)據(jù)模型設(shè)計(jì),定義清晰的數(shù)據(jù)模型,符合檔案數(shù)據(jù)的特點(diǎn)和審核需求。例如,檔案數(shù)據(jù)模型應(yīng)包括索引信息、內(nèi)容摘要、敏感標(biāo)識(shí)等字段??紤]數(shù)據(jù)的一致性和完整性,設(shè)計(jì)合理的數(shù)據(jù)約束和索引策略,提高查詢效率和數(shù)據(jù)準(zhǔn)確性,實(shí)施嚴(yán)格的數(shù)據(jù)訪問控制,確保只有授權(quán)用戶可以訪問敏感數(shù)據(jù),[45,46]定期進(jìn)行數(shù)據(jù)備份,制定災(zāi)難恢復(fù)計(jì)劃,保障數(shù)據(jù)的安全性和可靠性。

      3.4 原型設(shè)計(jì)。策略配置提供一站式管控策略配置,將詞庫(kù)與業(yè)務(wù)巧妙融合,靈活控制影響方式、持續(xù)時(shí)間及狀態(tài),精準(zhǔn)掌握策略召回?cái)?shù)量,并可對(duì)策略召回內(nèi)容進(jìn)行深度處理。詞庫(kù)管理實(shí)現(xiàn)便捷添加敏感詞,明確所屬詞庫(kù),添加時(shí)即可預(yù)覽召回量,抽樣評(píng)估后準(zhǔn)確掌握攔截準(zhǔn)確率。初步劃分所屬詞庫(kù),隨后評(píng)估召回量與隨機(jī)樣本,決定是否生效及確認(rèn)詞庫(kù)歸屬。隨機(jī)樣本抽取數(shù)量與方式可在“樣本設(shè)置”中調(diào)整,命中準(zhǔn)確率評(píng)估則在“敏感詞評(píng)估”中進(jìn)行。[47]用戶配置將用戶與敏感詞、業(yè)務(wù)、地域三維緊密關(guān)聯(lián),命中策略對(duì)應(yīng)“策略配置”頁(yè)相關(guān)策略,清晰展示受該策略影響的用戶數(shù),點(diǎn)擊“處理”即可跳轉(zhuǎn)至“內(nèi)容處理”頁(yè)面進(jìn)行相應(yīng)操作。內(nèi)容處理方面,針對(duì)命中策略的業(yè)務(wù)或用戶,實(shí)施精準(zhǔn)處理。數(shù)據(jù)統(tǒng)計(jì)實(shí)現(xiàn)從策略、詞庫(kù)、用戶及處理等多維度進(jìn)行詳盡數(shù)據(jù)統(tǒng)計(jì),并以報(bào)表形式直觀呈現(xiàn)各類數(shù)據(jù),方便分析與決策。

      本文系2024年國(guó)家社會(huì)科學(xué)基金年度一般項(xiàng)目《檔案開放智能審核的創(chuàng)新研究》(項(xiàng)目批準(zhǔn)號(hào):24BTQ022);2022年國(guó)家檔案局科技項(xiàng)目“檔案開放審核流程優(yōu)化和應(yīng)用系統(tǒng)開發(fā)研究”(項(xiàng)目批準(zhǔn)號(hào):2022-X-012);中國(guó)高等教育學(xué)會(huì)“2024年度高等教育科學(xué)研究規(guī)劃課題”《人工智能賦能檔案管理轉(zhuǎn)型發(fā)展的研究》(課題編號(hào):24DA0303);2023年江蘇省檔案科技項(xiàng)目《人工智能在檔案管理中應(yīng)用的現(xiàn)狀與前景研究》(2023-17);江蘇省高校檔案研究會(huì)2023年檔案科研項(xiàng)目《基于AI技術(shù)的檔案開放審核研究》(JSGDZ2023-02)階段性研究成果。

      參考文獻(xiàn):

      [1]全國(guó)人民代表大會(huì)常務(wù)委員會(huì).中華人民共和國(guó)檔案法[N].人民日?qǐng)?bào),2020-07-16(016).

      [2]卞咸杰、黃楊.“檔案開放審核”與“檔案開放鑒定”概念辨析[J].檔案管理,2023(05):36-39.

      [3]福建省檔案局、檔案館項(xiàng)目組.基于數(shù)字檔案的人工智能輔助 檔案開放審核系統(tǒng)實(shí)現(xiàn)研究[J].浙江檔案,2022(10):40-43.

      [4]楊揚(yáng)、孫廣輝、韓先吉.敏感詞全文比對(duì)在檔案開放審核中的應(yīng)用實(shí)踐[J].中國(guó)檔案,2020(11):58-59.

      [5]“檔案開放審核標(biāo)準(zhǔn)化體系研究”課題組.檔案開放審核工作中的輔助技術(shù)應(yīng)用研究[J].四川檔案,2022(05):44-45.

      [6]鄧權(quán)亮.基于全文檢索的敏感信息檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2021.

      [7]謝永憲,王巧玲,劉湘娟,等.我國(guó)檔案開放審核工作調(diào)研與分析[J].山西檔案,2023(05):156-164.

      [8]岳幸暉,楊智勇.人工智能在檔案管理中的應(yīng)用圖景與風(fēng)險(xiǎn)防范[J].檔案與建設(shè),2023(10):36-40.

      [9]馬怡琳,李宗富.賦能·助力·提升:人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案,2022(04):112-118.

      [10]聶云霞,陳煙然.新《檔案法》背景下檔案開放的優(yōu)化路徑[J].檔案與建設(shè),2022(05):16-19.

      [11]冉朝霞.基于輿情數(shù)據(jù)的檔案信息跨維度收集與分類研究[J].檔案管理,2019(06):53-55.

      [12]李雅靜、丁海洋.基于MSER視頻字幕敏感詞過濾算法[J].現(xiàn)代信息科技,2023,7(21):80-84+89.

      [13]藍(lán)天虹、陳丹霏、鄭源、徐正一.基于BERT預(yù)訓(xùn)練與混合神經(jīng)網(wǎng)絡(luò)的中文語義識(shí)別算法設(shè)計(jì)[J].電子設(shè)計(jì)工程,2024,32(12):91-95.

      [14]姜鈺棋、強(qiáng)子珊、卜凡亮.面向社交平臺(tái)應(yīng)急關(guān)聯(lián)信息的文本分類綜述[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(05):1-10+34.

      [15]楊濱瑕、羅旭東、孫凱麗.基于預(yù)訓(xùn)練語言模型的機(jī)器翻譯最新進(jìn)展[J].計(jì)算機(jī)科學(xué),2024,51(S1):50-57.

      [16]高子涵.基于語義分析的郵件分類研究[D].太原:中北大學(xué),2023.

      [17]杜勐.支持自定義的語音關(guān)鍵詞檢測(cè)技術(shù)研究[D].成都:電子科技大學(xué),2023.

      [18]李亞琪.基于威脅情報(bào)分析的APT組織攻擊技術(shù)提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2023.

      [19]范煒、曾蕾.AI新時(shí)代面向文化遺產(chǎn)活化利用的智慧數(shù)據(jù)生成路徑探析[J].中國(guó)圖書館學(xué)報(bào),2024,50(02):4-29.

      [20]胡昊天、鄧三鴻、孔玲等.生成式情報(bào)學(xué)術(shù)語自動(dòng)抽取與多維關(guān)聯(lián)知識(shí)挖掘研究[J].情報(bào)學(xué)報(bào),2024,43(05):588-600.

      [21]陳浩瀧、陳罕之、韓凱峰等.垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2024,39(03):524-546.

      [22]王永威、沈弢、張圣宇等.大小模型端云協(xié)同進(jìn)化技術(shù)進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2024,29(06):1510-1534.

      [23]張丹.大語言模型與檔案資源開發(fā):前景、挑戰(zhàn)與應(yīng)對(duì)[J].山西檔案,2023(05):108-111.

      [24]趙萍、竇全勝、唐煥玲.融合詞信息嵌入的注意力自適應(yīng)命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(08):167-174.

      [25]劉聰、李鑫、殷兵等.大模型技術(shù)與產(chǎn)業(yè):現(xiàn)狀、實(shí)踐及思考[J].人工智能.2023(04):32-42.

      [26]朱學(xué)芳.圖博檔數(shù)字化服務(wù)融合理論、方法、技術(shù)與實(shí)證[M].南京:南京大學(xué),2023.11.

      [27]劉樹鋒.大數(shù)據(jù)時(shí)代AIGC與多模態(tài)知識(shí)圖譜的思考與展望[J].互聯(lián)網(wǎng)周刊,2023(15):49-51.

      [28]張慧玲、許海云、王超.弱信號(hào)環(huán)境下情報(bào)感知方法框架研究[J].情報(bào)理論與實(shí)踐,2023,46(11):9-19.

      [29]許劍穎,馮桂珍.ChatGPT賦能檔案服務(wù):技術(shù)特征、應(yīng)用場(chǎng)景與實(shí)現(xiàn)路徑[J].山西檔案,2023(06):111-120.

      [30]佟淑玲,王越文,李澤坤.基于本體的聲像檔案知識(shí)圖譜構(gòu)建研究[J].檔案管理,2022(06):52-56.

      [31]劉哲雨.深度學(xué)習(xí)的探索之路[M].天津:南開大學(xué)出版社,2018.05.

      [32]潘新美.政府規(guī)制網(wǎng)絡(luò)言論研究[D].廈門:廈門大學(xué),2015.

      [33]胡百精.公共傳播與社會(huì)治理[M].北京:中國(guó)人民大學(xué)出版社,2020.01.

      [34]王楠,丁原,李軍.語義層次網(wǎng)絡(luò)在文書檔案開放審核中的應(yīng)用[J].檔案與建設(shè),2022(06):55-60.

      [35]周耀林、張曉娟、肖秋會(huì).檔案學(xué)研究進(jìn)展[M].武漢:武漢大學(xué)出版社,2018.06.

      [36]劉奕.5G網(wǎng)絡(luò)技術(shù)對(duì)提升4G網(wǎng)絡(luò)性能的研究[J].數(shù)碼世界,2020(04):24.

      [37]聶云霞,范志偉.AI技術(shù)在檔案開放審核中的SWOT分析[J].山西檔案,2023(04):35-45+88.

      [38]張良.面向輿情要素的在線社交網(wǎng)絡(luò)輿情分析關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:國(guó)防科技大學(xué),2021.

      [39]馬怡琳,李宗富.賦能·助力·提升:人工智能技術(shù)在檔案解密與開放審核工作中的應(yīng)用探索[J].山西檔案,2022(04):112-118.

      [40]張燕飛.數(shù)字化轉(zhuǎn)型重塑業(yè)務(wù)流程管理[M].北京:中國(guó)鐵道出版社,2022.11.

      [41]岳靚,王芹,相明潔,等.數(shù)據(jù)治理下的檔案開放鑒定現(xiàn)狀及優(yōu)化策略研究—以蘇州市為例[J].檔案與建設(shè),2023(05):57-60.

      [42]李易壯.基于圖神經(jīng)網(wǎng)絡(luò)的文檔情感分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2021.

      [43]陳露露、李志龍、張民等.行政數(shù)據(jù)管理分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2023,41(12):155-157.

      [44]黃靜、朱旭.基于Spring Cloud的人才智庫(kù)遴選系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].軟件工程,2023,26(02):54-58.

      [45]胡晨、蔡博陽(yáng)、項(xiàng)文新.開發(fā)區(qū)檔案數(shù)據(jù)歸集平臺(tái)技術(shù)架構(gòu)設(shè)計(jì)[J].蘭臺(tái)世界,2024(02):62-68.

      [46]任志勇,梅啟梁,徐柯.基于量子密碼技術(shù)的電子檔案離線狀態(tài)下安全防護(hù)實(shí)現(xiàn)[J].山西檔案,2022(04):141-146.

      [47]劉紹濤.新聞長(zhǎng)文本檢索方法的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2022.

      [48]張康康.基于機(jī)器學(xué)習(xí)的Android惡意代碼靜態(tài)檢測(cè)方法研究與應(yīng)用[D].南昌:南昌大學(xué),2023.

      [49]卞咸杰.基于智能工作流技術(shù)的檔案開放審核系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].檔案管理,2023(06):84-87.

      (作者單位:鹽城師范學(xué)院歷史與公共管理學(xué)院 卞咸杰,教授,碩士生導(dǎo)師 來稿日期:2024-06-20)

      神农架林区| 福建省| 贵德县| 界首市| 张家界市| 南涧| 津市市| 巴彦淖尔市| 霍山县| 苗栗县| 定州市| 云南省| 隆安县| 河东区| 铜梁县| 沛县| 宜昌市| 沙雅县| 扎鲁特旗| 阳城县| 铁岭市| 来凤县| 黔江区| 治多县| 昌吉市| 离岛区| 柘荣县| 巴南区| 昭苏县| 军事| 安泽县| 黑河市| 嘉荫县| 乌拉特后旗| 余江县| 万年县| 黑山县| 万山特区| 长汀县| 东宁县| 永德县|