• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      2022-05-26 08:56:30葛從兵嚴(yán)吉皞
      軟件導(dǎo)刊 2022年5期
      關(guān)鍵詞:詞頻分詞文檔

      葛從兵,嚴(yán)吉皞,陳 劍

      (南京水利科學(xué)研究院,江蘇南京 210029)

      0 引言

      我國(guó)現(xiàn)有水庫(kù)9 萬(wàn)多座,數(shù)量居世界之首。修建水庫(kù)是調(diào)控水資源時(shí)空分布、優(yōu)化水資源配置及防洪減災(zāi)的重要工程措施,是貫徹落實(shí)新時(shí)期治水方針的重要手段,對(duì)保障國(guó)家用水安全發(fā)揮著不可替代的基礎(chǔ)性作用。但水庫(kù)在發(fā)揮其效益同時(shí),也存在一定風(fēng)險(xiǎn),一旦失事,可能會(huì)給下游帶來(lái)滅頂之災(zāi),不僅影響下游公共財(cái)產(chǎn)安全與生態(tài)環(huán)境安全,而且直接影響社會(huì)穩(wěn)定。

      水庫(kù)安全管理工作是保障水庫(kù)安全運(yùn)行的重要的非工程措施。水庫(kù)安全管理文檔質(zhì)量不僅可反映水庫(kù)管理單位的安全管理工作情況,而且會(huì)影響水庫(kù)安全管理工作開(kāi)展。大壩安全鑒定[1]、水庫(kù)調(diào)度規(guī)程[2]和水庫(kù)大壩安全管理應(yīng)急預(yù)案(以下簡(jiǎn)稱(chēng)水庫(kù)應(yīng)急預(yù)案)[3]是水庫(kù)安全管理工作中的3 個(gè)重要文檔。大壩安全鑒定通過(guò)現(xiàn)場(chǎng)檢查與大壩安全評(píng)價(jià)鑒定大壩安全狀況:將大壩分為一類(lèi)壩、二類(lèi)壩與三類(lèi)壩,其中三類(lèi)壩存在較嚴(yán)重的安全隱患,不能按設(shè)計(jì)正常運(yùn)行,需進(jìn)行除險(xiǎn)加固;水庫(kù)調(diào)度規(guī)程明確水庫(kù)各項(xiàng)調(diào)度依據(jù)、調(diào)度任務(wù)與調(diào)度原則、調(diào)度要求與調(diào)度條件、調(diào)度方式等,是水庫(kù)調(diào)度運(yùn)用的依據(jù)性文件;水庫(kù)大壩安全管理應(yīng)急預(yù)案是在水庫(kù)大壩發(fā)生突發(fā)安全事件時(shí)用于避免或減少損失的預(yù)先制定的方案,是提高水庫(kù)管理單位及其主管部門(mén)應(yīng)對(duì)突發(fā)事件能力及降低水庫(kù)風(fēng)險(xiǎn)的重要非工程措施。由于我國(guó)水庫(kù)數(shù)量眾多,參與編制以上文檔的單位較多,難免會(huì)存在質(zhì)量差的文檔。若大壩安全鑒定文檔質(zhì)量差,可能會(huì)對(duì)大壩安全狀況進(jìn)行誤判,使大壩帶病運(yùn)行,或浪費(fèi)除險(xiǎn)加固資金;若水庫(kù)調(diào)度規(guī)程文檔質(zhì)量差,可能會(huì)提供錯(cuò)誤的調(diào)度方案,給水庫(kù)工程帶來(lái)險(xiǎn)情,或使水資源無(wú)法得到有效利用;若水庫(kù)應(yīng)急預(yù)案文檔質(zhì)量差,可能造成應(yīng)對(duì)突發(fā)事件不當(dāng)?shù)那闆r,不僅不能降低突發(fā)事件損失,甚至可能增加損失。如果采用人工查閱方式發(fā)現(xiàn)質(zhì)量差的文檔,需要大量專(zhuān)家,且工作量大、時(shí)間長(zhǎng)。

      針對(duì)文檔質(zhì)量評(píng)估,研究人員已開(kāi)展了相關(guān)研究。如陳琪等[4]在軟件文檔質(zhì)量評(píng)價(jià)方法研究中提出文檔質(zhì)量度量模型,審查人員可根據(jù)模型對(duì)文檔質(zhì)量進(jìn)行評(píng)價(jià);寧凌[5]提出PDM 文檔自動(dòng)審核算法,該算法在模型訓(xùn)練之前,需要專(zhuān)業(yè)審核人員對(duì)文檔的標(biāo)題、字詞級(jí)錯(cuò)誤及語(yǔ)法錯(cuò)誤進(jìn)行標(biāo)注;湯莉等[6]提出Web 文檔數(shù)據(jù)質(zhì)量評(píng)估方法,該方法采用正例樣本和負(fù)例樣本對(duì)模型進(jìn)行訓(xùn)練。本文通過(guò)對(duì)中文分詞與文檔質(zhì)量評(píng)估方法的研究,提出一種基于詞頻的水庫(kù)安全管理文檔質(zhì)量評(píng)估方法。該方法屬于無(wú)監(jiān)督學(xué)習(xí),訓(xùn)練樣本無(wú)需專(zhuān)家進(jìn)行處理,可實(shí)現(xiàn)水庫(kù)安全管理文檔質(zhì)量的自動(dòng)評(píng)估,從而有效提高文檔質(zhì)量評(píng)估能力及速度。

      1 總體設(shè)計(jì)

      水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)對(duì)全部文檔進(jìn)行中文分詞(Chinese Word Segmentation,CWS),獲取詞及詞頻[7];對(duì)詞進(jìn)行關(guān)鍵詞學(xué)習(xí),獲得文檔質(zhì)量評(píng)估標(biāo)準(zhǔn);根據(jù)文檔質(zhì)量評(píng)估標(biāo)準(zhǔn)與單個(gè)文檔中的關(guān)鍵詞及詞頻,評(píng)估文檔質(zhì)量。

      1.1 系統(tǒng)框架

      水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)框架見(jiàn)圖1。文檔格式可以是TXT、Word、PDF 等,數(shù)據(jù)庫(kù)采用MySQL[8],編程語(yǔ)言采用Python[9]。水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)采用B/S 架構(gòu),選用Python 語(yǔ)言的Web 框架Django[10],內(nèi)建中文分詞、關(guān)鍵詞學(xué)習(xí)、文檔質(zhì)量指數(shù)計(jì)算等功能模塊。

      1.2 系統(tǒng)功能

      水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)功能見(jiàn)圖2。

      全文檔中文分詞對(duì)全部文檔進(jìn)行中文分詞,獲得詞及詞頻;關(guān)鍵詞選取按照一定選取率從詞中選擇關(guān)鍵詞;關(guān)鍵詞學(xué)習(xí)通過(guò)不斷剔除關(guān)鍵詞和文檔,直至文檔質(zhì)量平均指數(shù)滿(mǎn)足要求;評(píng)估標(biāo)準(zhǔn)生成在關(guān)鍵詞學(xué)習(xí)結(jié)束時(shí),將最終的關(guān)鍵詞及詞頻作為最終評(píng)估標(biāo)準(zhǔn)存入數(shù)據(jù)庫(kù);單文檔中文分詞通過(guò)對(duì)文檔進(jìn)行中文分詞,獲得詞及詞頻;質(zhì)量指數(shù)計(jì)算根據(jù)評(píng)估標(biāo)準(zhǔn)和文檔的關(guān)鍵詞及詞頻,計(jì)算文檔質(zhì)量指數(shù),給出文檔質(zhì)量水平;用戶(hù)管理可添加、修改、刪除用戶(hù),對(duì)用戶(hù)進(jìn)行認(rèn)證;參數(shù)設(shè)置可設(shè)置系統(tǒng)所需參數(shù)。

      Fig.1 System framework圖1 系統(tǒng)框架

      Fig.2 System function圖2 系統(tǒng)功能

      2 中文分詞

      分詞是指將連續(xù)的字序列按照一定規(guī)范重新組合成詞序列的過(guò)程,中文分詞是指將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。

      2.1 分詞方法

      現(xiàn)有分詞方法較多,可分為3 大類(lèi):基于規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法[11]與基于理解的分詞方法[12]。

      (1)基于規(guī)則的分詞方法又稱(chēng)機(jī)械分詞方法,其按照一定策略將待分析的漢字串與一個(gè)“充分大”的機(jī)器詞典中的詞條進(jìn)行匹配,若找到某個(gè)字符串,則匹配成功。常用字符串匹配方法有最大匹配法[13]、逆向最大匹配法、最小切分法、雙向最大匹配法[14]等。此類(lèi)方法簡(jiǎn)單高效、易于實(shí)現(xiàn),但對(duì)歧義和未登錄詞的處理效果不佳。

      (2)基于統(tǒng)計(jì)的分詞方法采用統(tǒng)計(jì)模型,對(duì)給定的大量已分詞文本進(jìn)行學(xué)習(xí),獲得詞語(yǔ)切分規(guī)律,再應(yīng)用此規(guī)律對(duì)未知文本進(jìn)行切分。主要統(tǒng)計(jì)模型有N 元文法模型(N-gram)、隱馬爾可夫模型(Hidden Markov Model,HMM)[15]、最大熵模型(ME)、條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)[16]等。此類(lèi)方法能夠結(jié)合上下文識(shí)別未登錄詞,自動(dòng)消除歧義。

      (3)基于理解的分詞方法在分詞的同時(shí)還進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息處理歧義現(xiàn)象。通常包括3 部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分?;诶斫獾姆衷~方法主要有專(zhuān)家系統(tǒng)分詞法與神經(jīng)網(wǎng)絡(luò)分詞法。此類(lèi)方法準(zhǔn)確度高,但速度慢。

      2.2 分詞工具

      中文分詞工具有BosonNLP、IKAnalyzer、NLPIR、SCWS、結(jié)巴分詞(jieba)[17]、盤(pán)古分詞、庖丁解牛、搜狗分詞、新浪云、語(yǔ)言云等,調(diào)用形式有REST API、JAR 包、多語(yǔ)言接口、PHP 庫(kù)、Python 庫(kù)等。從功能、準(zhǔn)確度、易用性等方面綜合考慮,文檔質(zhì)量評(píng)估系統(tǒng)采用較常用的結(jié)巴分詞。

      結(jié)巴分詞基于字典樹(shù)(Trie)結(jié)構(gòu)實(shí)現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG);采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;對(duì)于未登錄詞,采用基于漢字成詞能力的HMM 模型,并使用Viterbi算法。

      結(jié)巴中文分詞支持4 種分詞模式:精確模式、全模式、搜索引擎模式與Paddle 模式。精確模式可將句子精確地切分開(kāi),適合文本分析;全模式把句子中所有可以成詞的詞語(yǔ)都掃描出來(lái),速度快,但不能解決歧義問(wèn)題;搜索引擎模式在精確模式基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分,提高召回率,適用于搜索引擎分詞;Paddle 模式利用PaddlePaddle 深度學(xué)習(xí)框架,訓(xùn)練序列標(biāo)注(雙向GRU)網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)分詞[18]。

      結(jié)巴中文分詞能夠識(shí)別新詞、去除停用詞、提取關(guān)鍵詞及標(biāo)注詞性,并支持自定義字典和并行分詞。

      2.3 詞頻統(tǒng)計(jì)

      詞頻(Term Frequency,TF)是一個(gè)詞在文件中出現(xiàn)的次數(shù)。為了標(biāo)準(zhǔn)化,詞頻通常用概率表示,見(jiàn)公式(1)。由于水庫(kù)安全管理文檔質(zhì)量評(píng)估會(huì)關(guān)注文檔中的關(guān)鍵詞出現(xiàn)次數(shù),故這里詞頻采用次數(shù)表示,而不采用概率表示。

      式中,fij為詞t i在同類(lèi)文檔dj中出現(xiàn)的次數(shù)。

      詞頻統(tǒng)計(jì)采用結(jié)巴分詞對(duì)每個(gè)文檔進(jìn)行分詞,然后統(tǒng)計(jì)各詞的詞頻。

      3 質(zhì)量評(píng)估

      3.1 評(píng)估方法

      文檔質(zhì)量評(píng)估依據(jù)是文檔中關(guān)鍵詞詞頻是否達(dá)到標(biāo)準(zhǔn)要求。評(píng)估方法是計(jì)算文檔中關(guān)鍵詞詞頻與標(biāo)準(zhǔn)中關(guān)鍵詞詞頻的比值,見(jiàn)公式(2)。

      式中,e為文檔質(zhì)量指數(shù),fi為文檔中關(guān)鍵詞ki的詞頻,sfi為標(biāo)準(zhǔn)中關(guān)鍵詞ki的詞頻,n為標(biāo)準(zhǔn)中的關(guān)鍵詞數(shù)量。計(jì)算e時(shí),如果fi>sfi,則取fi=sfi。當(dāng)e≥0.9 時(shí),文檔質(zhì)量?jī)?yōu);e≥0.8 時(shí),文檔質(zhì)量良;e≥0.6 時(shí),文檔質(zhì)量中;e<0.6 時(shí),文檔質(zhì)量差。

      3.2 關(guān)鍵詞學(xué)習(xí)

      評(píng)估標(biāo)準(zhǔn)是文檔中應(yīng)有的關(guān)鍵詞及詞頻。目前相關(guān)專(zhuān)家還無(wú)法準(zhǔn)確給出評(píng)估標(biāo)準(zhǔn),因此需要對(duì)全部文檔中的關(guān)鍵詞進(jìn)行學(xué)習(xí)以獲得評(píng)估標(biāo)準(zhǔn)。

      關(guān)鍵詞學(xué)習(xí)是一個(gè)不斷剔除關(guān)鍵詞和文檔的遞歸過(guò)程。學(xué)習(xí)參數(shù)包括關(guān)鍵詞選取率s、文檔質(zhì)量指數(shù)標(biāo)準(zhǔn)es、關(guān)鍵詞初始剔除率kr0與文檔初始剔除率dr0。

      關(guān)鍵詞來(lái)自經(jīng)過(guò)結(jié)巴分詞后全部文檔中的詞,考慮到大部分詞不能成為關(guān)鍵詞,為提高學(xué)習(xí)效率,設(shè)關(guān)鍵詞選取率s為0.5,即選取詞頻排序前50%的詞。

      文檔質(zhì)量平均指數(shù)是所有選用文檔(即非剔除文檔)質(zhì)量指數(shù)的平均值,當(dāng)文檔質(zhì)量平均指數(shù)大于等于文檔質(zhì)量指數(shù)標(biāo)準(zhǔn)es時(shí),遞歸過(guò)程結(jié)束,設(shè)文檔質(zhì)量指數(shù)標(biāo)準(zhǔn)es為0.95。

      每輪關(guān)鍵詞學(xué)習(xí)都會(huì)剔除詞頻較低的關(guān)鍵詞和文檔質(zhì)量指數(shù)較低的文檔,隨著學(xué)習(xí)的深入,選用的關(guān)鍵詞和文檔越來(lái)越少,剔除率也應(yīng)越來(lái)越低。剔除率遞減速度與文檔質(zhì)量平均指數(shù)變化量成反比,即指數(shù)變化量越大,剔除率遞減量越小,以保持較高剔除率;指數(shù)變化量越小,剔除率遞減量越大,將大幅減少剔除率。由于文檔全部參與學(xué)習(xí),故文檔剔除率遞減量小于關(guān)鍵詞剔除率遞減量,使文檔剔除率高于關(guān)鍵詞剔除率,從而提高學(xué)習(xí)效率。剔除率計(jì)算見(jiàn)公式(3),初始剔除率kr0與dr0均設(shè)為0.1。

      4 系統(tǒng)實(shí)現(xiàn)

      4.1 主要功能實(shí)現(xiàn)

      (1)詞頻統(tǒng)計(jì)。詞頻統(tǒng)計(jì)要先進(jìn)行中文分詞。結(jié)巴分詞提供Python 庫(kù),系統(tǒng)通過(guò)調(diào)用Python 庫(kù)完成中文分詞。在中文分詞時(shí),通過(guò)添加水利專(zhuān)業(yè)名詞,以提高分詞正確率;通過(guò)去除停用詞,特別是地名,以提高搜索效率。詞頻統(tǒng)計(jì)主要代碼如下:

      (2)文檔質(zhì)量標(biāo)準(zhǔn)計(jì)算。文檔質(zhì)量評(píng)估依據(jù)文檔質(zhì)量標(biāo)準(zhǔn),文檔質(zhì)量標(biāo)準(zhǔn)計(jì)算主要代碼如下:

      (3)關(guān)鍵詞學(xué)習(xí)。關(guān)鍵詞學(xué)習(xí)較為復(fù)雜,主要過(guò)程如下:①對(duì)全部文檔進(jìn)行結(jié)巴分詞,存儲(chǔ)水庫(kù)名稱(chēng)、文檔類(lèi)型、詞、詞頻等信息;②按詞頻由大到小對(duì)詞進(jìn)行排序,按關(guān)鍵詞初始選取率s 選擇詞作為關(guān)鍵詞;③計(jì)算文檔質(zhì)量平均指數(shù)及其變化量,如果文檔質(zhì)量平均指數(shù)大于等于文檔質(zhì)量指數(shù)標(biāo)準(zhǔn)es,則學(xué)習(xí)結(jié)束;④按關(guān)鍵詞剔除率kri和文檔剔除率dri,分別剔除詞頻較低的關(guān)鍵詞和文檔質(zhì)量指數(shù)較低的文檔;⑤計(jì)算kri+1和dri+1,轉(zhuǎn)至步驟③。

      4.2 實(shí)驗(yàn)測(cè)試

      選用部分省市水庫(kù)的應(yīng)急預(yù)案文檔,對(duì)水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)進(jìn)行實(shí)驗(yàn)。首先進(jìn)行關(guān)鍵詞學(xué)習(xí),得到應(yīng)急預(yù)案文檔質(zhì)量標(biāo)準(zhǔn)見(jiàn)表1(僅列出詞頻前20 的關(guān)鍵詞,下同),然后對(duì)每個(gè)文檔進(jìn)行評(píng)估。例如,經(jīng)過(guò)評(píng)估,某大型水庫(kù)的應(yīng)急預(yù)案文檔關(guān)鍵詞及詞頻見(jiàn)表2,文檔質(zhì)量指數(shù)為0.91;某中型水庫(kù)的應(yīng)急預(yù)案文檔關(guān)鍵詞及詞頻見(jiàn)表3,文檔質(zhì)量指數(shù)為0.72。

      Table 1 Document quality standard表1 文檔質(zhì)量標(biāo)準(zhǔn)

      續(xù)表

      Table 2 Key words and term frequency in some large reservoir document表2 某大型水庫(kù)文檔關(guān)鍵詞及詞頻

      Table 3 Key words and term frequency in some medium reservoir document表3 某中型水庫(kù)文檔關(guān)鍵詞及詞頻

      實(shí)驗(yàn)結(jié)果表明,大部分大型水庫(kù)的應(yīng)急預(yù)案文檔質(zhì)量指數(shù)大于0.85,質(zhì)量較好;中型水庫(kù)質(zhì)量指數(shù)通常在0.65~0.85 之間,質(zhì)量一般;小型水庫(kù)質(zhì)量指數(shù)通常在0.45~0.65 之間,質(zhì)量較差。這與現(xiàn)實(shí)情況基本一致,主要因?yàn)榇笮退畮?kù)管理人員多,相關(guān)資料多,管理規(guī)范;中小型水庫(kù)管理人員少,相關(guān)資料少,管理水平一般。

      5 結(jié)語(yǔ)

      本文研發(fā)基于詞頻的水庫(kù)安全管理文檔質(zhì)量評(píng)估系統(tǒng)對(duì)水庫(kù)安全管理文檔的質(zhì)量評(píng)估基本準(zhǔn)確,表明詞頻可作為同類(lèi)文檔的質(zhì)量評(píng)估因子。由于不同水庫(kù)在工程規(guī)模、控制流域面積、庫(kù)容、壩型、最大壩高、壩頂長(zhǎng)度、水工建筑物數(shù)量等方面存在差異,客觀(guān)上造成各水庫(kù)的大壩安全鑒定、水庫(kù)調(diào)度規(guī)程及應(yīng)急預(yù)案等文檔在詞頻上存在一定差異,而本文的質(zhì)量評(píng)估方法與關(guān)鍵詞學(xué)習(xí)算法沒(méi)有考慮這些因素。因此,為使文檔質(zhì)量評(píng)估更加準(zhǔn)確,后續(xù)將進(jìn)一步研究上述因素對(duì)詞頻的影響,并在質(zhì)量評(píng)估方法和關(guān)鍵詞學(xué)習(xí)算法中增加相應(yīng)的權(quán)重因子。

      猜你喜歡
      詞頻分詞文檔
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      有人一聲不吭向你扔了個(gè)文檔
      結(jié)巴分詞在詞云中的應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      值得重視的分詞的特殊用法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶(hù)喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書(shū)館學(xué)報(bào)》學(xué)術(shù)研究特色
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      溧水县| 喀喇| 铜梁县| 合作市| 清新县| 远安县| 汉寿县| 青铜峡市| 塔河县| 华宁县| 铜陵市| 台南县| 屏南县| 中阳县| 龙南县| 扶余县| 离岛区| 沙洋县| 忻州市| 林周县| 河南省| 孟连| 涿州市| 道孚县| 肥乡县| 房产| 巩留县| 电白县| 武隆县| 揭阳市| 华容县| 廊坊市| 清水河县| 绥芬河市| 鹤岗市| 健康| 开化县| 延寿县| 专栏| 玉林市| 阳高县|