面向高等教育領(lǐng)域的命名實體標注語料庫構(gòu)建方法

2022-07-10 13:45:45黃柯源張浩軍李世龍李大嶺王家慧

現(xiàn)代信息科技 2022年5期

關(guān)鍵詞：高等教育

黃柯源張浩軍李世龍李大嶺王家慧

摘 ?要：文章以高等教育政策文件為語料，在領(lǐng)域?qū)＜抑笇?dǎo)下結(jié)合高等教育政策文件文本特點，制定了一套標注體系和標注規(guī)范，開展了大規(guī)模的語料標注工作，構(gòu)建了一個面向高等教育領(lǐng)域的標注語料庫。該語料庫共標注了137篇政策文件，包含5 102個句子和3 639個實體。同時，通過使用模型對語料庫進行實驗，探討了語料庫的可信度及預(yù)標注策略的可行性。結(jié)果表明，該語料庫的F1值達到75.31%，為進一步的高等教育領(lǐng)域?qū)嶓w識別研究提供了基礎(chǔ)。

關(guān)鍵詞：高等教育;命名實體;標注規(guī)范;語料庫構(gòu)建

中圖分類號：TP18 ? ? 文獻標識碼：A文章編號：2096-4706（2022）05-0095-04

Construction Method of Named Entity Annotation Corpus for Higher Education Field

HUANG Keyuan， ZHANG Haojun， LI Shilong， LI Daling， WANG Jiahui

（College of Information Science and Engineering， Henan University of Technology， Zhengzhou ?450001， China）

Abstract： This paper takes higher education policy documents as the corpus， and under the guidance of experts in the field， combined with the text characteristics of higher education policy documents， formulates a set of labeling system and labeling specifications， and carries out large-scale corpus labeling work， constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents， and contains 5 102 sentences and 3 639 entities. At the same time， by using the model to conduct experiments on the corpus， the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%， which provides a basis for further research on entity recognition in the field of higher education.

Keywords： higher education; named entity; labeling specification corpus construction

0 ?引 ?言

近年來，黨和國家高度重視我國高等教育發(fā)展情況，高等教育領(lǐng)域產(chǎn)出成果頗豐。隨著互聯(lián)網(wǎng)中高等教育領(lǐng)域相關(guān)信息不斷增多，亟須建立高等教育領(lǐng)域知識圖譜，以便更準確地探析我國高等教育的發(fā)展態(tài)勢，為高等教育研究者提供理論支撐。

政策文件是由國家相關(guān)部門研究制定并下發(fā)的指導(dǎo)性文件，其權(quán)威性與專業(yè)性被大眾普遍認可。因此，本研究以高等教育政策文件為數(shù)據(jù)源，探究領(lǐng)域語料標注規(guī)范，構(gòu)建高教領(lǐng)域?qū)嶓w識別標注語料庫，為高等教育領(lǐng)域命名實體識別、關(guān)系抽取和知識圖譜構(gòu)建提供可靠的數(shù)據(jù)支撐。

1 ?相關(guān)工作

語料庫作為信息抽取的基礎(chǔ)，其質(zhì)量直接影響實體識別和關(guān)系抽取的結(jié)果。現(xiàn)有的語料庫構(gòu)建方法分為手動構(gòu)建和自動構(gòu)建兩種，在醫(yī)學(xué)[1，2]、國防[3]、公安[4]、建筑[5]等領(lǐng)域均已出現(xiàn)公開構(gòu)建且廣泛應(yīng)用的語料庫。李雁群等[6]以《人民日報》和ACE005中文語料為基礎(chǔ)，構(gòu)建了中文嵌套命名實體識別語料庫。Lowe[7]等通過收集Ubuntu社區(qū)一百萬組對話內(nèi)容，構(gòu)建了具有人類自然對話特點與機器多次序?qū)υ捥攸c的Ubuntu對話語料庫。Hu[8]等通過收集新浪微博的中文短文本摘要，構(gòu)建了包含200余萬個真實短文本及作者所寫摘要的微博語料庫。目前，尚未發(fā)現(xiàn)公開發(fā)布的面向高等教育領(lǐng)域的命名實體標注語料庫。因此，亟須構(gòu)建高等教育語料庫，以推動我國高等教育領(lǐng)域命名實體識別研究的發(fā)展。

2 ?面向高等教育政策文件的實體標注規(guī)范制定

2.1 ?標注體系

本文將語料庫中實體定義為以下6類：指導(dǎo)思想實體、出臺背景實體、目標實體、原則實體、任務(wù)實體和措施實體。本語料庫在標注過程中采用基于BIO策略的字標注方法，該語料庫中共包含13種標簽類型，標簽設(shè)置情況如表1所示。

2.2 ?標注準則

本文參照實體標注領(lǐng)域的“不重疊、不嵌套、不包含標點符號及連接詞”的三個基本原則的基礎(chǔ)上，結(jié)合高等教育政策文件的相關(guān)特點，提出了一套適用于該領(lǐng)域的標注準則：

（1）最大范圍標注：

例1：為深入貫徹落實“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表重要回信精神”，以新農(nóng)科建設(shè)為統(tǒng)領(lǐng)，推進高等農(nóng)林教育創(chuàng)新發(fā)展。

例1中，引號部分為指導(dǎo)思想實體。其中“習(xí)近平總書記給全國涉農(nóng)高校書記校長和專家代表”為“重要回信精神”的定語修飾部分，遵循最大范圍標注，凡遇到指導(dǎo)思想實體中含有定語修飾的，將其一并作為指導(dǎo)思想實體進行標注。

（2）除指導(dǎo)思想實體外，其余實體可包含標點符號：

例2：深入貫徹“黨的十九大和十九屆二中、三中、四中全會精神，”全面落實習(xí)近平總書記關(guān)于教育的重要論述和全國教育大會精神。

由于政策文件中需要完成的具體任務(wù)以及完成任務(wù)所需的具體措施描述的十分清晰，因此任務(wù)和措施實體往往需要包含標點符號。例2中，引號部分包含有“、”，因此不將其標注為實體。

（3）外層標注：若一句話中包含多個實體，則只標注最外層實體，其內(nèi)部的實體不進行標注。

3 ?語料庫構(gòu)建過程

語料庫構(gòu)建的核心任務(wù)是選取一種合適的標注模式，并對語料進行標注。本文采用“領(lǐng)域?qū)＜?團體標注”的模式，依據(jù)第2節(jié)中所提出的標注體系及準則，對137篇高等教育政策文件進行標注，標注過程歷時3個月，共有2名高等教育專家、6名碩士生和3名本科生參與標注工作。

3.1 ?語料選取與預(yù)處理

該語料庫以教育部發(fā)布的政策文件為數(shù)據(jù)源。為保證語料質(zhì)量，在人工采集時剔除回復(fù)性文件，保留正式政策文件。標注格式如圖1所示，標注文本中的{...[type]}表示該段內(nèi)容為一種實體，[]之間表示該實體所屬的類別。

圖1 ?語料標注規(guī)則示例

3.2 ?標注過程

為提高語料庫質(zhì)量，本文制定了多輪分組迭代標注策略。具體流程為：

（1）將9名標注人員隨機分配到三個小組中，每組的3名隊員獨立標注同一篇文章。標注完成后，由其他小組統(tǒng)計該組三名隊員的標注一致率，若一致率低于80%，則重復(fù)上述過程。對于不一致性標注，在征求專家的意見后對其進行修改。對于標注一致率連續(xù)3次達到80%以上的小組，停止迭代標注。

（2）在所有小組均停止迭代后，從三個小組中選取出標注質(zhì)量較高的6名標注者，并隨機分配到3個小組中進行二標注。即每組的兩名成員獨立標注同一篇文章，標注結(jié)果由標注規(guī)范制定者進行審核，統(tǒng)一不一致性標注，并從每組中選取標注質(zhì)量好的標注者組建最終標注小組。

（3）選取30篇預(yù)處理過的政策文件作為初始數(shù)據(jù)源，交由最終標注小組進行標注。對于不一致性標注，由專家和標注人員共同討論后進行統(tǒng)一。構(gòu)建實體標注模型，并以上述30篇標注語料作為訓(xùn)練數(shù)據(jù)，開發(fā)標注工具。

（4）使用標注工具對剩余語料進行預(yù)標注，再由標注者對標注結(jié)果進行修改，得到完整的高等教育政策文件實體標注語料庫。

3.3 ?語料庫統(tǒng)計

3.3.1 ?標注數(shù)量統(tǒng)計

該語料庫共標注了137篇政策文件，共計256 940個字符、5 102句話和3 639個命名實體。語料庫的標注詳情如表2所示。

3.3.2 ?標注一致性分析

在實體識別語料標注領(lǐng)域，通常選擇F1值來計算標注一致性。具體計算流程（1）～（3）式所示。

（1）

（2）

（3）

表3記錄了迭代標注過程中各命名實體的標注一致性，其中迭代次數(shù)為5次。

迭代標注過程中，各實體的標注一致性均逐步上升，說明標注前培訓(xùn)及標注規(guī)范迭代更新策略是積極有效的。其中TAS實體和MEA實體的初始標注一致率低于其他實體，其主要原因是政策文件中的方法和措施通常擁有較長的文本長度，導(dǎo)致標注人員無法清晰的辨識實體邊界。隨著迭代標注的進行，最終六種實體的標注一致性均超過了80%可信賴標注驗證標準，表明該標注語料庫具有較高的標注質(zhì)量且是可信的。

4 ?實驗評估

為評估本文所構(gòu)建語料庫的性能，本文采取句子級的劃分方法語料按照8：1：1的比例隨機劃分為訓(xùn)練集、測試集和驗證集，并搭建了三種主流的實體識別模型對標注語料進行初步的實驗驗證。采用準確率（Precision， P）、召回率（Recall， R）和F1值作為該語料庫的測評指標。其測評結(jié)果如表4所示。

由表4可知，當(dāng)測評語料為前三十篇時，BERT-CRF模型的實驗結(jié)果優(yōu)于BERT-BILSTM-CRF模型;當(dāng)測評語料為最終語料時，BERT-BILSTM-CRF模型的實驗結(jié)果反超BERT-CRF模型的實驗結(jié)果。主要是因為：BERT是經(jīng)過大量無標注語料訓(xùn)練的預(yù)訓(xùn)練模型，其本身具有很好的深度語言特征表達能力。當(dāng)訓(xùn)練語料較少時，由BERT所生成的詞向量已經(jīng)具有較強的語義信息，可以直接通過CRF模型進行判別，若此時經(jīng)過更為復(fù)雜的模型結(jié)構(gòu)，會導(dǎo)致向量的部分語義信息丟失，導(dǎo)致實驗結(jié)果的下降。而當(dāng)訓(xùn)練語料增加時，復(fù)雜的模型結(jié)構(gòu)更容易學(xué)習(xí)各類實體的特征，因此BERT-BILSTM-CRF的實驗結(jié)果更優(yōu)。

5 ?結(jié) ?論

本文介紹了面向高等教育領(lǐng)域政策文件的語料庫標注體系和標注過程。首先，依據(jù)高等教育領(lǐng)域?qū)I(yè)知識選定了高教政策文件語料中的各類實體，并制定了標注規(guī)范。其次基于此規(guī)范展開大規(guī)模領(lǐng)域語料標注工作并開發(fā)了標注工具。目前，該語料庫已完成26萬余字的標注工作，共包含5 102句語料及3 639個命名實體。此外，本文通過對小組標注結(jié)果的一致性分析以及使用不同模型對語料庫進行實驗，探討了所構(gòu)建語料庫的可信度及標注工具預(yù)標注策略的可行性。實驗結(jié)果表明，該語料庫的命名實體識別性能F1值達到75.31%。

參考文獻：

[1] 楊錦鋒，關(guān)毅，何彬，等.中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建 [J].軟件學(xué)報，2016，27（11）：2725-2746.

[2] 曲春燕，關(guān)毅，楊錦鋒，等.中文電子病歷命名實體標注語料庫構(gòu)建 [J].高技術(shù)通訊，2015，25（2）：143-150.

[3] 馮鸞鸞，李軍輝，李培峰，等.面向國防科技領(lǐng)域的技術(shù)和術(shù)語語料庫構(gòu)建方法 [J].中文信息學(xué)報，2020，34（8）：41-50.

[4] 曹若麟，杜渂.面向?qū)嶓w標注的公安警情領(lǐng)域語料庫的構(gòu)建 [J].電信快報，2021（3）：20-24.

[5] 莫天金，李韌，楊建喜，等.公路橋梁定期檢測領(lǐng)域命名實體識別語料庫構(gòu)建 [J].計算機應(yīng)用，2020，40（S1）：103-108.

[6] 李雁群，何云琪，錢龍華，等.中文嵌套命名實體識別語料庫的構(gòu)建 [J].中文信息學(xué)報，2018，32（8）：19-26.

[7] LOWE R，POW N，SERBAN I V，et al. The Ubuntu dialogue corpus：A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv：1506.08909 ?[cs.CL] （2016-02-04）.https： //arxiv.org/pdf/1506.08909v3.pdf.

[8] HU B T，CHEN Q C，ZHU F Z. LCSTS：A large scale Chinese short text summariazation dataset [J/OL].arXiv：1506.05865 ?[cs.CL].（2016-02-19）. https： //arxiv.org/pdf/1506.05865.pdf.

作者簡介：黃柯源（1997.05—），男，漢族，河南平頂山人，碩士研究生在讀，研究方向：自然語言處理、知識圖譜

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

面向高等教育領(lǐng)域的命名實體標注語料庫構(gòu)建方法