一種基于自然語言處理的環(huán)境科學(xué)命名實(shí)體識(shí)別方法

2017-11-07 17:51:30張永富李志宏李軍軍程樹東

科技創(chuàng)新導(dǎo)報(bào) 2017年21期

關(guān)鍵詞：信息提取自然語言處理環(huán)境影響評(píng)價(jià)

張永富+李志宏+李軍軍+程樹東

摘要：提出一種基于自然語言處理模型的環(huán)境科學(xué)命名實(shí)體識(shí)別方法，該方法以自然語言處理模型為核心，在通用分詞庫的基礎(chǔ)上加入環(huán)保專業(yè)分詞庫和外部特征識(shí)別技術(shù)，實(shí)現(xiàn)了從環(huán)評(píng)文件中自動(dòng)提取準(zhǔn)確的環(huán)境科學(xué)命名實(shí)體信息；同時(shí)采用MCTS蒙特卡洛樹構(gòu)建搜索引擎，提高了命名實(shí)體識(shí)別過程的搜索效率。

關(guān)鍵詞：自然語言處理命名實(shí)體識(shí)別信息提取環(huán)境影響評(píng)價(jià)

中圖分類號(hào)：TP312 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-098X（2017）07（c）-0120-02

目前，在環(huán)保行業(yè)中，環(huán)境影響評(píng)價(jià)文件的數(shù)量日趨龐大，資料集成度越來越高，隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展，信息化管理技術(shù)已在各層次各系統(tǒng)廣泛應(yīng)用[1]。

然而，環(huán)評(píng)項(xiàng)目的資料中包含多項(xiàng)指標(biāo)（如總投資、建設(shè)性質(zhì)、行業(yè)等），也無法實(shí)現(xiàn)自動(dòng)提取和統(tǒng)計(jì)匯總，環(huán)評(píng)項(xiàng)目的各種數(shù)據(jù)信息無法實(shí)現(xiàn)電子化，不能得到及時(shí)有效的利用。環(huán)境統(tǒng)計(jì)工作量大、耗時(shí)長，單純地依靠人工完成，準(zhǔn)確性難以保證。為減輕環(huán)評(píng)工作人員的勞動(dòng)強(qiáng)度，提高工作效率，實(shí)施電子文件歸檔和管理制度，設(shè)計(jì)了一種基于自然語言處理的環(huán)境科學(xué)命名實(shí)體識(shí)別方法，實(shí)現(xiàn)環(huán)評(píng)信息的智能抽取。

1 理論基礎(chǔ)

1.1 環(huán)境影響評(píng)價(jià)

環(huán)境影響評(píng)價(jià)是指對(duì)規(guī)劃和建設(shè)項(xiàng)目實(shí)施后可能造成的環(huán)境影響進(jìn)行分析、預(yù)測和評(píng)估，提出預(yù)防或者減輕不良環(huán)境影響的對(duì)策與措施，進(jìn)行跟蹤監(jiān)測的方法與制度[2]。環(huán)境影響評(píng)價(jià)可以為開發(fā)建設(shè)活動(dòng)的決策提供科學(xué)依據(jù)，為經(jīng)濟(jì)建設(shè)的合理布局提供科學(xué)依據(jù)，為確定某一地區(qū)的經(jīng)濟(jì)發(fā)展方向和規(guī)模、制定區(qū)域經(jīng)濟(jì)發(fā)展規(guī)劃及相應(yīng)環(huán)保規(guī)劃提供科學(xué)依據(jù)，為制定環(huán)境保護(hù)對(duì)策和進(jìn)行科學(xué)的環(huán)境管理提供依據(jù)，促進(jìn)相關(guān)環(huán)境科學(xué)技術(shù)的發(fā)展。

1.2 自然語言處理

自然語言處理（Natural Language Processing，NLP）就是利用計(jì)算機(jī)為工具對(duì)人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)[3]。自然語言處理又稱自然語言理解（Natural Language Understanding，NLU），是人工智能研究的重要內(nèi)容之一，可以定義為研究在人與人交際中以及人與計(jì)算機(jī)交際中的語言問題的一門學(xué)科。

1.3 命名實(shí)體識(shí)別

命名實(shí)體（NE）是指人們感興趣的特定的專有名詞（如組織機(jī)構(gòu)名）和特定的數(shù)量詞（時(shí)間和數(shù)字）。命名實(shí)體識(shí)別的任務(wù)被定義為識(shí)別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語并加以歸類。中文NE的識(shí)別研究開始較晚，同英文實(shí)體識(shí)別相比，漢語NE的識(shí)別更難。漢語文本沒有類似英文文本中空格之類的顯示標(biāo)示詞邊界的標(biāo)識(shí)符，分詞和命名實(shí)體相互影響，缺乏明顯的特征標(biāo)志；組織復(fù)雜，長短不一，沒有規(guī)律；縮略短語很多；實(shí)體名相互嵌套；缺少大規(guī)模語料庫。

1.4 條件隨機(jī)場模型

條件隨機(jī)場模型CRF由Lafferty等人于2001年提出，又稱為馬爾可夫隨機(jī)域，是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。從形式上來說CRF可以看作是一種無向圖模型[4]，考察給定輸入序列的標(biāo)注序列的條件概率。

2 基于NLP的環(huán)評(píng)信息提取方法

2.1 基本原理

如圖1所示，以自然語言處理引擎為核心，采用文檔處理器對(duì)環(huán)評(píng)文件進(jìn)行預(yù)處理，運(yùn)用蒙特卡洛樹搜索算法，結(jié)合外部特征識(shí)別器和環(huán)評(píng)專業(yè)分詞庫，從環(huán)評(píng)文件中提取目標(biāo)信息。

2.2 關(guān)鍵算法

2.2.1 MCTS蒙特卡洛樹

通過各個(gè)代表行業(yè)的環(huán)評(píng)報(bào)告書樣本，建立MCTS蒙特卡洛樹，通過對(duì)這些數(shù)據(jù)的挖掘，建立智能處理模型。當(dāng)某個(gè)節(jié)點(diǎn)的被訪問次數(shù)超過了一定的門限值，則在蒙特卡羅樹上進(jìn)一步展開下一級(jí)別的搜索。

最佳權(quán)重選擇算法：

其中，R為正則表達(dá)式匹配，t為要匹配的文本R（t）表示，正則表達(dá)式匹配后的值，s為要匹配的值，函數(shù)d為編輯距離。這樣通過度量性能，枚舉所有的可能性并選取最大/小值，獲取最佳權(quán)重。

2.2.2 環(huán)評(píng)專業(yè)分詞庫

創(chuàng)建外部特征識(shí)別器，引入外部特征，包括：組織機(jī)構(gòu)字典、污染物單位名稱字典、污染物數(shù)值范圍（濃度、排放量等）字典、環(huán)評(píng)專業(yè)名詞字典（分詞中應(yīng)用）和全國行政編制（省市區(qū)縣村）字典等。

3 應(yīng)用結(jié)果分析

3.1 采用MCTS蒙特卡洛樹

采用采用MCTS蒙特卡洛樹算法之后，通過蒙卡章節(jié)訓(xùn)練，搜索時(shí)間明顯加快，如表1所示。

3.2 加入環(huán)評(píng)專業(yè)分詞庫

加入環(huán)評(píng)專業(yè)分詞庫后，搜索的準(zhǔn)確率得到提升，搜索時(shí)間縮短，如表2所示。

4 結(jié)語

本文提出了一種基于自然語言處理模型的環(huán)境科學(xué)命名實(shí)體識(shí)別方法，該方法以自然語言處理模型為核心，在通用分詞庫的基礎(chǔ)上加入環(huán)保專業(yè)分詞庫和外部征識(shí)別技術(shù)，實(shí)現(xiàn)了從環(huán)評(píng)文件中自動(dòng)提取準(zhǔn)確的環(huán)境科學(xué)命名實(shí)體信息；同時(shí)采用MCTS蒙特卡洛樹構(gòu)建搜索引擎，提高了命名實(shí)體識(shí)別過程的搜索效率。

參考文獻(xiàn)

[1] J.Grudin.Computer-supported cooperative work：History and focus[J].Computer，1994（27）：19-26.

[2] 環(huán)境保護(hù)部環(huán)境工程評(píng)估中心.建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)[M].中國環(huán)境科學(xué)出版社，2011.

[3] 馮志偉.自然語言的計(jì)算機(jī)處理[M].上海外語教育出版社，1996.

[4] Lafferty J， McCallum A， Pereira F.Conditional Random Fields：Probabilistic models for segmenting and labeling sequence data[D].In： Proc.ICML 2001.endprint