邢玉艷 劉 耀
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
精準(zhǔn)醫(yī)療作為全新的醫(yī)學(xué)模式,可能會(huì)帶來(lái)疾病診斷、診療和健康保健方面的革命而造福人類。精準(zhǔn)醫(yī)療的發(fā)展給人類帶來(lái)福利的同時(shí),也會(huì)帶來(lái)突出的醫(yī)學(xué)倫理問題。而出現(xiàn)任何倫理的問題,都會(huì)對(duì)個(gè)人和社會(huì)帶來(lái)巨大損失,同時(shí)也會(huì)阻礙精準(zhǔn)醫(yī)學(xué)的發(fā)展,因此要清醒地認(rèn)識(shí)并積極應(yīng)對(duì)[1],為其制定相應(yīng)的規(guī)范和標(biāo)準(zhǔn)體系。
標(biāo)準(zhǔn)體系是在一定范圍內(nèi)的標(biāo)準(zhǔn)按其內(nèi)在聯(lián)系形成的科學(xué)有機(jī)整體,是編制標(biāo)準(zhǔn)、修訂計(jì)劃的依據(jù)。標(biāo)準(zhǔn)體系包含了宏觀標(biāo)準(zhǔn)體系和微觀標(biāo)準(zhǔn)體系兩種,其中宏觀標(biāo)準(zhǔn)體系是指某領(lǐng)域所有標(biāo)準(zhǔn)構(gòu)建的體系結(jié)構(gòu),微觀標(biāo)準(zhǔn)體系是指某個(gè)標(biāo)準(zhǔn)的體系結(jié)構(gòu)[2]。根據(jù)《標(biāo)準(zhǔn)體系構(gòu)建原則和要求》[3],目前通用的標(biāo)準(zhǔn)體系構(gòu)建方法是確定目標(biāo)、調(diào)查研究、分析整理、編制體系表、動(dòng)態(tài)維護(hù)更新等部分。無(wú)論是宏觀標(biāo)準(zhǔn)體系還是微觀標(biāo)準(zhǔn)體系,若要進(jìn)行標(biāo)準(zhǔn)體系構(gòu)建,標(biāo)準(zhǔn)工作者就需要依據(jù)規(guī)范的方法進(jìn)行大量的資料整理與搜集,從海量資源中提煉出大量的概念、關(guān)系、結(jié)構(gòu),耗費(fèi)了大量的人力、物力,但是也難以找全標(biāo)準(zhǔn)體系中包含的各方面內(nèi)容,其廣度和深度都難以達(dá)到理想狀態(tài)。為解決這一問題,本研究提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的標(biāo)準(zhǔn)體系構(gòu)建方法,利用概念自動(dòng)獲取、關(guān)系自動(dòng)抽取、結(jié)構(gòu)表示等技術(shù),實(shí)現(xiàn)標(biāo)準(zhǔn)體系的自動(dòng)構(gòu)建。
標(biāo)準(zhǔn)體系模型是標(biāo)準(zhǔn)體系構(gòu)建的基礎(chǔ),同時(shí)也需要一定的理論支撐。在標(biāo)準(zhǔn)化領(lǐng)域,經(jīng)常運(yùn)用的是霍爾三維模型。該模型是美國(guó)系統(tǒng)工程專家A.D.HALL[4]于1969年提出的一種系統(tǒng)工程方法論?;魻柸S模型是將系統(tǒng)工程整個(gè)活動(dòng)過程分為前后緊密銜接的7 個(gè)階段和7 個(gè)步驟,同時(shí)還考慮了為完成這些階段和步驟所需要的各種專業(yè)知識(shí)和技能,形成由時(shí)間維、邏輯維和知識(shí)維所組成的三維空間結(jié)構(gòu)。
本研究將精準(zhǔn)醫(yī)療倫理的標(biāo)準(zhǔn)體系模型的構(gòu)建分成5 個(gè)階段,包括精準(zhǔn)醫(yī)療領(lǐng)域概念獲取、醫(yī)學(xué)倫理領(lǐng)域概念獲取、信息安全領(lǐng)域概念獲取、三個(gè)領(lǐng)域概念關(guān)系獲取、領(lǐng)域知識(shí)獲取。將這5個(gè)階段分成了3 個(gè)維度,分別是概念維、關(guān)系維和知識(shí)維。標(biāo)準(zhǔn)體系模型如圖1 所示。其中,精準(zhǔn)醫(yī)療領(lǐng)域概念獲取采用《2018-2023年中國(guó)精準(zhǔn)醫(yī)療行業(yè)深度分析及發(fā)展前景預(yù)測(cè)報(bào)告》作為模型構(gòu)建的依據(jù);醫(yī)學(xué)倫理領(lǐng)域概念獲取是借鑒大學(xué)醫(yī)學(xué)專業(yè)教材《醫(yī)學(xué)倫理學(xué)》第五版;信息安全領(lǐng)域概念獲取是借鑒全國(guó)信息安全標(biāo)準(zhǔn)委員會(huì)發(fā)布的290 個(gè)標(biāo)準(zhǔn);領(lǐng)域知識(shí)獲取是根據(jù)所構(gòu)建的檢索式,抽取同時(shí)出現(xiàn)上述概念和關(guān)系的句子與段落。模型部分展示如圖2 所示。
圖1 標(biāo)準(zhǔn)體系模型圖
概念詞自動(dòng)獲取的方法有多種,其中包括基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法需要大量的人工,目前已經(jīng)很少使用?;跈C(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法是目前比較受歡迎的。其中,Zheng在命名體識(shí)別任務(wù)中使用CRF模型,選取的特征有詞性、詞語(yǔ)的TFIDF值,準(zhǔn)確率達(dá)79.63%,召回率達(dá)73.54%,但是需要選擇出對(duì)任務(wù)有幫助的特征,并將其轉(zhuǎn)化成被機(jī)器學(xué)習(xí)的特征向量[4]。Collobert[5]提出了采用神經(jīng)網(wǎng)絡(luò)搭建概念獲取模型,將詞向量輸入到CNN+CRF模型中,在CONLL2003 數(shù)據(jù)集上取得了89.59 的F值。在相同的數(shù)據(jù)集上,Huang[6]等提出LSTM+CRF模型,得出85.19 的F值??傮w來(lái)說,基于深度學(xué)習(xí)的方法,輸入詞向量就可以達(dá)到很好的效果,本文也將采用該方法進(jìn)行后續(xù)實(shí)驗(yàn)。
標(biāo)準(zhǔn)體系概念自動(dòng)獲取是信息安全標(biāo)準(zhǔn)體系構(gòu)建的關(guān)鍵,因此首先要對(duì)標(biāo)準(zhǔn)體系中所需要的關(guān)鍵詞進(jìn)行分析并進(jìn)行人工分類。
2.1.1 標(biāo)準(zhǔn)體系概念詞分析
標(biāo)準(zhǔn)體系一般包括標(biāo)準(zhǔn)體系框架和標(biāo)準(zhǔn)明細(xì)表,在這里所提到的標(biāo)準(zhǔn)體系是指標(biāo)準(zhǔn)體系框架結(jié)構(gòu)。標(biāo)準(zhǔn)體系框架結(jié)構(gòu)是某個(gè)領(lǐng)域內(nèi)的所有標(biāo)準(zhǔn)按照一定的層級(jí)結(jié)構(gòu)劃分的有機(jī)整體,在這個(gè)整體結(jié)構(gòu)中,涉及內(nèi)容范圍廣泛,每個(gè)分支都代表一個(gè)方面,每個(gè)方面又會(huì)細(xì)分很多小的不同的方面,這些小的不同的方面是由領(lǐng)域的概念詞所組成,一般情況下為名詞或者是名詞性詞組。
標(biāo)準(zhǔn)體系框架中概念詞可能會(huì)來(lái)源于該領(lǐng)域已有的標(biāo)準(zhǔn)文本,也可能來(lái)源于研究性論文、政策文本等,這取決于要制定的標(biāo)準(zhǔn)體系的類型,如果是修改和完善之前的標(biāo)準(zhǔn)體系,那么體系中的結(jié)構(gòu)點(diǎn)就會(huì)來(lái)源于已有標(biāo)準(zhǔn),如果是新增性的標(biāo)準(zhǔn)體系,那么其來(lái)源相對(duì)來(lái)說就會(huì)比較廣泛,可能是相關(guān)領(lǐng)域的標(biāo)準(zhǔn)、國(guó)家政策文本、研究性論文等。本文所研究的精準(zhǔn)醫(yī)療倫理的信息安全標(biāo)準(zhǔn)體系,就屬于新增性,在構(gòu)建體系的過程中,就會(huì)搜集大量的相關(guān)領(lǐng)域的文本。本文所涉及的領(lǐng)域是精準(zhǔn)醫(yī)療領(lǐng)域、信息安全領(lǐng)域以及醫(yī)學(xué)倫理領(lǐng)域。
2.1.2 標(biāo)準(zhǔn)體系概念詞獲取
BiLSTM-CRF的命名實(shí)體識(shí)別模型作為一個(gè)序列標(biāo)注模型,主要由Embedding層(主要有詞向量、字向量)、雙向LSTM層以及CRF層構(gòu)成[7]。輸入序列輸入X后,通過向量表將每個(gè)字符映射成相應(yīng)的向量,將其作為初始向量輸入到神經(jīng)網(wǎng)絡(luò)模型中;雙向LSTM層采用softmax函數(shù)得到概率分布矩陣;最后通過CRF層模型確定一個(gè)概率最高的序列路徑,對(duì)應(yīng)到每個(gè)字符作為最后標(biāo)簽。其整體結(jié)構(gòu)圖如圖3 所示。
獲取到標(biāo)準(zhǔn)體系概念后,下一步就要識(shí)別概念之間的關(guān)系,也就是實(shí)體關(guān)系抽取。實(shí)體關(guān)系抽取的主要任務(wù)是從句子中自動(dòng)抽取概念之間的關(guān)系,這也是知識(shí)結(jié)構(gòu)化的重要任務(wù)之一。概念關(guān)系的抽取主要包括基于規(guī)則的、有監(jiān)督、弱監(jiān)督、無(wú)監(jiān)督的方法。Leek等[8]首次在關(guān)系抽取中使用HMM,完成了從生物學(xué)的文獻(xiàn)中抽取出基因名字和其對(duì)應(yīng)位置信息的任務(wù);Ray等[9]結(jié)合句子的短語(yǔ)結(jié)構(gòu)分析信息利用HMM做信息抽取,取得了較好的效果。實(shí)驗(yàn)證明,HMM在關(guān)系抽取任務(wù)上有一定的有效性,與其他方法相比也有一定的優(yōu)越性。但是,也存在HMM結(jié)構(gòu)確定困難等問題。董靜等[10]結(jié)合中文語(yǔ)料庫(kù)的特點(diǎn),將中文實(shí)體關(guān)系劃分為包含實(shí)體關(guān)系和非包含實(shí)體關(guān)系,分別利用不同的句法特征,而其他詞匯等特征完全相同,在CRF模型框架下,以ACE 2007語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù),取得較好的抽取結(jié)果。
支持向量機(jī)是Cortes和Vapnik于1995年首先提出的,它是建立在統(tǒng)計(jì)學(xué)習(xí)理論(SLT)基礎(chǔ)之上的一種新型的機(jī)器學(xué)習(xí)算法,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。目前,使用最多的是基于有監(jiān)督的方法,將實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)化成分類問題,因此,一般的分類方法都可以用到實(shí)體抽取任務(wù)上。常見的分類算法有:SVM、KNN、樸素貝葉斯、決策樹等。SVM分類器理論框架完善、通用性和魯棒性強(qiáng)、計(jì)算簡(jiǎn)單,而且還具有較強(qiáng)的抗噪聲能力和較高的分類正確率[11]。SVM分類算法不需要無(wú)窮大樣本數(shù)量,也不局限于解決線性問題,也可以通過核函數(shù)處理非線性問題,因此本研究將采用SVM算法進(jìn)行實(shí)體關(guān)系的抽取。
圖2 模型部分展示圖
圖3 Bi-LSTM-CRF模型
本文將信息安全標(biāo)準(zhǔn)體系構(gòu)建中的關(guān)系分為5 類,即推進(jìn)關(guān)系、融合關(guān)系、阻礙關(guān)系、包含關(guān)系、因果關(guān)系,并根據(jù)設(shè)定的概念關(guān)系進(jìn)行關(guān)系特征的選取,經(jīng)過分析本文用到的概念特征有概念類別、概念相鄰詞、概念詞間的詞性標(biāo)注、概念詞的上下文詞、句法依存分析。
標(biāo)準(zhǔn)體系結(jié)構(gòu)的生成主要包括標(biāo)準(zhǔn)體系節(jié)點(diǎn)的表示和標(biāo)準(zhǔn)體系的結(jié)構(gòu)表示。標(biāo)準(zhǔn)體系節(jié)點(diǎn)表示是對(duì)所選目標(biāo)文本中的標(biāo)題進(jìn)行向量化,標(biāo)準(zhǔn)體系的結(jié)構(gòu)表示是對(duì)所選文本中挑選出的標(biāo)題下的文本進(jìn)行向量表示。
2.3.1 標(biāo)準(zhǔn)體系節(jié)點(diǎn)表示
目前已有的網(wǎng)絡(luò)表示學(xué)習(xí)算法[12]各有優(yōu)劣。本文將采用2018年在第二十五屆國(guó)際人工智能聯(lián)合會(huì)議上,Pan[13]等提出的TriDNR模型。該模型提出一種新的用于深度網(wǎng)絡(luò)表示學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,加強(qiáng)了網(wǎng)絡(luò)結(jié)構(gòu)層次、節(jié)點(diǎn)內(nèi)容層次、節(jié)點(diǎn)標(biāo)簽層次。TriDNR模型如圖4 所示。從圖4可以看出,該模型分為兩層,節(jié)點(diǎn)關(guān)系建模和節(jié)點(diǎn)標(biāo)簽與上下文建模,其中上層的節(jié)點(diǎn)關(guān)系建模中采用的Deepwalk算法[14]。該算法隨機(jī)游走均勻地選取網(wǎng)絡(luò)節(jié)點(diǎn)(詞語(yǔ)),同時(shí)生成固定長(zhǎng)度的隨機(jī)游走序列,該序列可以看成是句子,最后應(yīng)用Skip-Gram模型預(yù)測(cè)上下文節(jié)點(diǎn),并將該層的隨機(jī)排序傳入到下一層中。
2.3.2 標(biāo)準(zhǔn)體系結(jié)構(gòu)表示
本文的層級(jí)分為兩種,一種是與概念直接相連的層級(jí),另一種是上層的標(biāo)題層級(jí),對(duì)于前者將概念作為詞,概念連接隨機(jī)游走路徑作為句子,利用Doc2vec算法計(jì)算該層級(jí)向量,后者則采用同一層級(jí)取平均的方法。Doc2vec是Le[15]在Word2vec的基礎(chǔ)上提出的一種將文本表示成向量的方法,通過分布式學(xué)習(xí)的方法,對(duì)不同長(zhǎng)度的文本片段進(jìn)行采樣,獲取固定長(zhǎng)度的特征表示。Doc2vec屬于無(wú)監(jiān)督算法,其優(yōu)點(diǎn)就是可以較好地處理沒有太多標(biāo)記數(shù)據(jù)的任務(wù)。Doc2vec算法的模型如圖5 所示,將文本中的段落映射到向量空間中,用D的一列進(jìn)行表示,與此同時(shí),將每個(gè)詞要映射到向量空間中,用矩陣W來(lái)表示,然后將前面得到的段落向量和詞向量相加,作為下一個(gè)詞的輸入。
本實(shí)驗(yàn)以精準(zhǔn)醫(yī)療倫理中的“個(gè)人隱私安全”領(lǐng)域進(jìn)行標(biāo)準(zhǔn)體系的生成,用于結(jié)構(gòu)生成的語(yǔ)料分為兩大部分:一是某一個(gè)具體標(biāo)準(zhǔn)下的規(guī)范性引用文件和參考文獻(xiàn);二是檢索到與個(gè)人隱私安全相關(guān)的標(biāo)準(zhǔn)、政策、法規(guī)。對(duì)這兩部分的語(yǔ)料經(jīng)過人工去重后進(jìn)行本研究后續(xù)的實(shí)驗(yàn)。
圖4 TriDNR模型
信息安全標(biāo)準(zhǔn)體系中包含多個(gè)領(lǐng)域、多個(gè)方面,每個(gè)方面又由多個(gè)標(biāo)準(zhǔn)所組成的。為了驗(yàn)證本文方法的有效性,在體系中挑選目前熱門且急需解決的個(gè)人隱私安全領(lǐng)域生成單個(gè)標(biāo)準(zhǔn)結(jié)構(gòu)。通常標(biāo)準(zhǔn)有四級(jí)標(biāo)題、五級(jí)標(biāo)題甚至六級(jí)標(biāo)題,本文旨在以說明方法為目的,所生成的標(biāo)準(zhǔn)結(jié)構(gòu)到三級(jí)標(biāo)題。以下是具體的生成步驟。
(1)選取參照標(biāo)準(zhǔn)。為了驗(yàn)證本文的方法,在個(gè)人隱私安全領(lǐng)域中選取目前已經(jīng)發(fā)布的標(biāo)準(zhǔn)作為參照標(biāo)準(zhǔn),用新生成的標(biāo)準(zhǔn)結(jié)構(gòu)和參照標(biāo)準(zhǔn)結(jié)構(gòu)進(jìn)行對(duì)比。
(2)收集資源。根據(jù)選取的參照標(biāo)準(zhǔn),找到對(duì)應(yīng)的規(guī)范性引用文件和參考文獻(xiàn)列表,對(duì)列表中的資源進(jìn)行檢索,獲取能夠下載的資源,同時(shí)在限定領(lǐng)域中檢索其他類似標(biāo)準(zhǔn)并進(jìn)行下載。
(3)資源預(yù)處理。將收集到的資源進(jìn)行預(yù)處理,處理成需要用到的格式和需要保留的文本,將不同類型的資源進(jìn)行統(tǒng)一,最終得到j(luò)son格式的文本。
(4)句子向量表示。利用Doc2vec算法計(jì)算所選文本的句子向量,其中用概念節(jié)點(diǎn)表示向量作為該算法的預(yù)訓(xùn)練向量。
(5)標(biāo)題向量表示。其中三級(jí)標(biāo)題的向量是三級(jí)標(biāo)題下所對(duì)應(yīng)的句子向量,二級(jí)標(biāo)題、一級(jí)標(biāo)題、題目節(jié)點(diǎn)向量分別是下一級(jí)標(biāo)題的平均值。
(6)排序篩選。分層次利用Textrank算法進(jìn)行排序,選擇新結(jié)構(gòu)中需要加入的節(jié)點(diǎn)。
(7)生成新標(biāo)準(zhǔn)結(jié)構(gòu)。將篩選出的章節(jié)節(jié)點(diǎn)按照層次等級(jí)進(jìn)行整合,最終得到新標(biāo)準(zhǔn)結(jié)構(gòu)。
3.3.1 單個(gè)標(biāo)準(zhǔn)生成結(jié)果
圖5 Doc2vec模型圖
本次實(shí)驗(yàn)生成了3 個(gè)標(biāo)準(zhǔn)的結(jié)構(gòu),其中包括“個(gè)人信息安全規(guī)范”“健康醫(yī)療信息安全指南”“個(gè)人信息去標(biāo)識(shí)化指南”。由于篇幅原因,在這里給出其中一個(gè)標(biāo)準(zhǔn)的具體結(jié)構(gòu)?!敖】滇t(yī)療信息安全指南”生成的新結(jié)構(gòu)及對(duì)比如表1 所示。從新生成的結(jié)構(gòu)中可以看出,生成的一級(jí)標(biāo)題:健康醫(yī)療大數(shù)據(jù)、個(gè)人信息的使用、個(gè)人信息安全事件處置、去標(biāo)識(shí)化概述、法律責(zé)任,基本都是與健康醫(yī)療信息安全相關(guān)的內(nèi)容,可以為相關(guān)研究者提供一定的支持。而一些二級(jí)標(biāo)題的名稱與原結(jié)構(gòu)中標(biāo)題并不完全匹配,但是所要展現(xiàn)的內(nèi)容則是更加細(xì)節(jié)的,比如,安全框架中的實(shí)施方法中就包含了新結(jié)構(gòu)中的去標(biāo)識(shí)化,數(shù)據(jù)使用環(huán)境中就包含新結(jié)構(gòu)中的個(gè)人信息查詢、更正、刪除等操作,這就需要研究者根據(jù)實(shí)際需求進(jìn)行篩選。
在對(duì)結(jié)構(gòu)中的一級(jí)標(biāo)題和二級(jí)標(biāo)題進(jìn)行比對(duì)的同時(shí),計(jì)算結(jié)構(gòu)的正確率(Precision)與召回率(Recall)。正確率是正確標(biāo)題數(shù)目與生成的標(biāo)題總數(shù)目比值,召回率是生成的標(biāo)題中含有原結(jié)構(gòu)標(biāo)題的數(shù)目與原結(jié)構(gòu)中所有標(biāo)題總數(shù)的比值。正確率與召回率的算法是將一級(jí)標(biāo)題和二級(jí)標(biāo)題同時(shí)進(jìn)行統(tǒng)計(jì)的,具體結(jié)果如表2 所示。
通過實(shí)驗(yàn)可以看出,生成的這3 個(gè)標(biāo)準(zhǔn)的平均正確率達(dá)到86.99%,召回率達(dá)到65.53%。這就可以證明本文方法是具有有效性的,可以為標(biāo)準(zhǔn)體系構(gòu)建者提供相應(yīng)的幫助。在生成標(biāo)準(zhǔn)體系或單個(gè)標(biāo)準(zhǔn)的過程中,可以首先使用該方法進(jìn)行自動(dòng)構(gòu)建,大致得出一個(gè)標(biāo)準(zhǔn)體系或者一個(gè)標(biāo)準(zhǔn)應(yīng)當(dāng)包含的子體系或者章節(jié),然后依據(jù)系統(tǒng)提供的體系或者章節(jié)點(diǎn)進(jìn)行修改,這樣避免了標(biāo)準(zhǔn)工作者在前期工作中進(jìn)行大量的重復(fù)工作,大大提高了標(biāo)準(zhǔn)工作者的工作效率。
3.3.2 單類標(biāo)準(zhǔn)生成結(jié)果
單個(gè)標(biāo)準(zhǔn)的生成證明了本文方法的有效性,但是要證明本文方法的有用性,需要生成固定的某一類標(biāo)準(zhǔn)。其中,某一類標(biāo)準(zhǔn)的生成是指類似內(nèi)容的標(biāo)準(zhǔn)生成。本節(jié)以生成個(gè)人隱私安全領(lǐng)域中“個(gè)人信息安全規(guī)范”結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)結(jié)果的展示。
在原標(biāo)準(zhǔn)中,主要將個(gè)人信息安全分為七部分,也就是一級(jí)標(biāo)題,個(gè)人信息安全基本原則,個(gè)人信息的收集,個(gè)人信息的保存,個(gè)人信息的使用,個(gè)人信息的委托處理、共享、轉(zhuǎn)讓、公開披露,個(gè)人信息安全事件處置,組織的管理要求。按照本文的方法,利用個(gè)人信息安全相關(guān)的資源,得到新的一級(jí)標(biāo)題如表3 所示。
從表3 新生成的一級(jí)標(biāo)題中可以看出,新生成的一級(jí)標(biāo)題中包含了原標(biāo)準(zhǔn)結(jié)構(gòu)中該有的個(gè)人信息處理流程。將新生成的一級(jí)標(biāo)題進(jìn)行排序,選擇與原一級(jí)標(biāo)題重合的標(biāo)題,生成二級(jí)標(biāo)題,也就是某主題下又包含哪些子主題。從排序結(jié)果來(lái)看,個(gè)人信息采集、個(gè)人信息存儲(chǔ)排序靠前,并且原結(jié)構(gòu)有類似表達(dá),可以為研究者提供一定的幫助。下面繼續(xù)用本文方法生成這兩個(gè)標(biāo)題下的二級(jí)標(biāo)題。二級(jí)標(biāo)題結(jié)果如表4 所示。
表1 “健康醫(yī)療信息安全指南”結(jié)構(gòu)對(duì)比
表2 標(biāo)準(zhǔn)結(jié)構(gòu)統(tǒng)計(jì)表
從表4 中可以看出,新生成的二級(jí)標(biāo)題可以覆蓋原二級(jí)標(biāo)題的一部分,同時(shí)又豐富了主題下的子主題,使結(jié)構(gòu)更加全面。通過上面單類標(biāo)準(zhǔn)的實(shí)驗(yàn),證明了本研究方法的有用性,也就是說在以后要生成某個(gè)相關(guān)標(biāo)準(zhǔn)或者相關(guān)標(biāo)準(zhǔn)體系,系統(tǒng)可以自動(dòng)為研究者提供應(yīng)當(dāng)包含的部分。比如要生成某一領(lǐng)域下的術(shù)語(yǔ)標(biāo)準(zhǔn),研究者只需設(shè)定資源的條件和范圍,利用本文提出的方法即可得出該標(biāo)準(zhǔn)應(yīng)當(dāng)包含的章節(jié),為標(biāo)準(zhǔn)制定者提供參考,然后再根據(jù)需求進(jìn)行修改。
本文對(duì)標(biāo)準(zhǔn)體系自動(dòng)構(gòu)建的方法進(jìn)行了詳細(xì)介紹,其中包括標(biāo)準(zhǔn)體系模型的構(gòu)建,該模型是整個(gè)模型構(gòu)建中的指導(dǎo);概念、關(guān)系抽取過程中,分別采用BI-LSTM-CRF模型和支持向量機(jī),選取句法語(yǔ)義特征進(jìn)行實(shí)驗(yàn),取得了良好的效果;標(biāo)準(zhǔn)體系結(jié)構(gòu)生成過程中,采用TriDNR模型和Doc2vec模型進(jìn)行實(shí)驗(yàn),取得了良好的效果。最后選取個(gè)人隱私領(lǐng)域生成標(biāo)準(zhǔn)體系,分別形成單個(gè)標(biāo)準(zhǔn)和單類標(biāo)準(zhǔn),最終得到結(jié)果的正確率達(dá)到86.99%,召回率達(dá)到65.53%。并且單個(gè)標(biāo)準(zhǔn)的實(shí)驗(yàn)采用回溯方法,與已發(fā)布的標(biāo)準(zhǔn)進(jìn)行比對(duì),驗(yàn)證了本文方法的有效性,單類標(biāo)準(zhǔn)的實(shí)驗(yàn)通過生成某一類的標(biāo)準(zhǔn),驗(yàn)證了本文方法的有用性。利用本文方法生成的標(biāo)準(zhǔn)體系可以為相關(guān)研究人員在制定標(biāo)準(zhǔn)體系之前提供一個(gè)可以參考的框架與結(jié)構(gòu),縮短了研究人員大量收集相關(guān)材料的時(shí)間,大大地提高了工作效率。
表3 一級(jí)標(biāo)題對(duì)比表
表4 二級(jí)標(biāo)題對(duì)比表
在未來(lái)工作中,標(biāo)準(zhǔn)體系制定者若想制定新領(lǐng)域的標(biāo)準(zhǔn)體系或者標(biāo)準(zhǔn),或者對(duì)已知標(biāo)準(zhǔn)體系進(jìn)行更新,可以運(yùn)用本文提出的方法限定資源后,進(jìn)行生成或者篩查,這樣大大提高了標(biāo)準(zhǔn)制定者的工作效率,進(jìn)一步推動(dòng)了標(biāo)準(zhǔn)化工作的智能化。當(dāng)然,本文還有不足之處,下一步將會(huì)進(jìn)一步擴(kuò)大語(yǔ)料范圍進(jìn)行機(jī)器學(xué)習(xí),并利用已有的知識(shí)庫(kù)輔助概念與關(guān)系的標(biāo)引,同時(shí)將生成的標(biāo)準(zhǔn)體系進(jìn)行可視化展示。