李林澳
摘要:年鑒中有很多關(guān)于數(shù)值知識元的描述,如何把這些知識元抽取出來是細粒度知識組織的重要研究內(nèi)容之一。本文通過對中國信息年鑒進行內(nèi)容分析,把數(shù)值知識元分為引用型、比率型、總結(jié)型、時間型、排名型、對比型和消息型七種類型。對年鑒中包含數(shù)值的句子進行抽取,過濾句子中的其他不相關(guān)詞后形成句子的線性描述結(jié)構(gòu),在此基礎(chǔ)上經(jīng)過人工審核與合并歸類,形成數(shù)值知識元的描述規(guī)則,為后續(xù)知識元抽取提供支撐。
關(guān)鍵詞:數(shù)值知識元;年鑒;知識元抽取
一、前言
進入21世紀以來,知識日益成為占支配地位的競爭因素之一,信息量也呈爆炸式增長,全球即將進入信息和數(shù)據(jù)存儲的“澤他時代”。雖然信息觸手可及,但隨之而來的是更深層次的問題:一方面,獲取有效信息的難度大大提升,而另一方面,繁冗復雜的知識與信息也降低了人類利用的效率。我們正處于“被信息所淹沒,卻又饑餓于知識的客觀現(xiàn)狀”中[1]。為了從海量信息資源中揭示與描述知識,滿足精細化的知識獲取需求,需要將知識載體的粒度碎化為知識元。
年鑒作為一種信息密集型工具書,將一年內(nèi)所發(fā)生的重大事件、新聞以及各類數(shù)據(jù)和統(tǒng)計資料進行編排匯總,對科研進展有著極大的推動作用。年鑒中蘊含有各類型的知識元,其中數(shù)值知識元占據(jù)了非常重要的比例。隨著時間的推移,年鑒數(shù)量飛速增長,僅靠人工識別其中所包含的數(shù)值知識元已難以勝任。只有依靠知識抽取與挖掘技術(shù)來獲取有價值的知識才能滿足需求,為民所用。而要想實現(xiàn)自動或半自動的數(shù)值知識元抽取與挖掘,就需要對數(shù)值知識元的描述規(guī)則與識別方法進行進一步的分析與研究。因此,關(guān)于數(shù)值知識元的抽取與挖掘是具有一定的研究價值與實踐意義的。
文本挖掘是指抽取散布在文本當中的知識以更好地組織信息的過程,但這些應用更多地是關(guān)注文檔文獻本身的組織效果,沒有從文獻單元深入到知識單元。在進行分詞識別時,主要有基于統(tǒng)計的方法和基于規(guī)則的方法?;诮y(tǒng)計的方法多適用于以單個詞匯為處理單元的文本,而年鑒中多是長難句分析,基于規(guī)則的方法更加適用。知識元的類型、描述規(guī)則以及常用模式就成為了抽取數(shù)值知識元的重難點。
二、基本定義
定義1:知識元。不可再分割的具有完備知識表達的知識單位??煞譃槊枋鲂椭R元和過程型知識元[2]。
定義2:數(shù)值知識元。以數(shù)值形式存在,且數(shù)值有意義、有價值、可供分析的知識單元。
數(shù)值知識元有不同的類型。在經(jīng)濟建設領(lǐng)域,依據(jù)知識元描述對象的層次可分為宏觀數(shù)值知識元(如某地區(qū)或行業(yè)發(fā)展的數(shù)值知識)和微觀數(shù)值知識元(如某經(jīng)濟組織市場經(jīng)營的數(shù)值知識)[3]。
三、研究綜述
關(guān)于知識元已有一部分學者進行了研究,主要是從知識元的理論、技術(shù)以及應用方面展開探討。
(一)知識元的概念及類型研究
弗拉基米爾·斯拉麥卡指出,知識的控制單位將從文獻深入到其中的數(shù)據(jù)、公式、結(jié)論等最小的獨立的“數(shù)據(jù)元”,這是有記載的關(guān)于知識元概念最早的定義[4]。趙紅州學者最先從科學計量領(lǐng)域提出知識元這一概念,即“能夠用數(shù)學公式表示的科學概念”,并以“知識單元”計量為基礎(chǔ),導出科學指數(shù)增長定律[5]。溫有奎在《知識元鏈接理論》中提出,知識元是構(gòu)造知識機構(gòu)的基元,是可獨立使用的最小單位[6]。柳長華叫冬知識元定義為知識系統(tǒng)中可以表達一個完整概念的不可再分解的最小知識單位;文庭孝等認為知識元應該是在知識管理中可以自由切分、表達、存取、組織、檢索和利用知識的基本知識單位[8];劉新提出一個能相對獨立并且準確表述知識的內(nèi)涵以及外延的知識單元就是知識元[9];畢經(jīng)元認為知識元是對知識進行存儲、共享與引用的最小單位[10]。
至于知識元的分類,溫有奎將其分為描述型知識元和過程型知識元[2]。原小玲認為,知識元可以分為理論與方法型知識元、事實型知識元和數(shù)值型知識元n;。王延章則分成了對象知識元(客觀事物實體)、屬性知識元(客觀事物實體的特征描述)和屬性映射關(guān)系知識元(對對象知識元內(nèi)部屬性狀態(tài)相互作用關(guān)系的描述)三個類別[12]。
雖然上述文字表示各有不同,但大體大同小異。由于語義的復雜性,不同維度有不同的分類,目前尚無唯一標準。
(二)知識元的抽取技術(shù)研究
比較常用的知識元抽取方法主要是基于文本結(jié)構(gòu)的方法和基于規(guī)則的方法兩種類型。
1.基于文本結(jié)構(gòu)的方法
柳長華分析了中醫(yī)古籍文獻的知識結(jié)構(gòu)、內(nèi)容特點,在以知識元為核心的中醫(yī)古籍計算機知識表示方法上進一步制定了標引規(guī)范,用古籍整理的方式進行知識元的抽取與標引,取得了良好的效果[5]。姜永常等提出了基于文本物理結(jié)構(gòu)和邏輯結(jié)構(gòu)的抽取方法,先分析文本的物理結(jié)構(gòu),以此來建立文本的邏輯結(jié)構(gòu),抽取標題、小標題、段首、段尾、引文等作為向?qū)畔ⅲ瑥亩鵀橹R元的抽取指明方向[13]。鄭彥寧、化柏林從自然語言處理的角度介紹知識元抽取的流程[14]。
2.基于規(guī)則的方法
典型代表是蔣玲提出的。她先對文本進行分句,提取向?qū)畔⒁詷?gòu)成主題句集合,然后建立各屬性知識元的句法模型(即提取規(guī)則),將主題詞和提取規(guī)則相結(jié)合進行句法匹配,得到具有該句法的知識元描述候補句后再根據(jù)句法模型來確定各知識元屬性[15]。
此外,溫有奎認為實現(xiàn)數(shù)值知識元的抽取是建立知識元庫的先導和基石。他開發(fā)出了一套數(shù)值知識元抽取軟件,能從年鑒、網(wǎng)頁文本中自動抽取數(shù)值知識元并將抽取結(jié)果自動存人庫中[2,16-17]。肖洪和薛德軍則詳細描述類從海量年鑒文本中抽取宏觀數(shù)值知識元的具體流程以及主要算法,得出了在特定領(lǐng)域內(nèi)將數(shù)值知識元抽取提高到可用水平是可行的這一結(jié)論[3]。
(三)知識元的應用研究
1.在檢索方面的應用
為了解決檢索查全率、查準率不高的問題,可以將對文獻知識單元的控制深入到知識元層次上來。CNKI就是一個比較成熟的例子。清華大學于1995年創(chuàng)辦了《中國學術(shù)期刊》,發(fā)展成為現(xiàn)在的中國知識基礎(chǔ)設施工程,即CNKI工程。目前,CNKI已擁有多個知識元庫,可以實現(xiàn)基于知識元的學術(shù)定義搜索、數(shù)值知識元搜索、圖形表格搜索等等[18]。
2.在應急事件處理中的應用
陳雪龍構(gòu)建了知識元模型,給出了知識元屬性間關(guān)系的隱性描述方法,為突發(fā)事件的應急管理提供了知識支持[19]。仲秋雁等通過抽取情景共性要素及要素關(guān)系來形成情景原模型,認為這有利于幫助計算機進行情景模擬,輔助決策行為并提供應對基礎(chǔ)[20]。
3.在古籍處理方面的應用
肖懷志提出可以利用基于歷史本體而建立的語義關(guān)聯(lián)來聚集相關(guān)年份歷史知識元[21],游章才在知識元語義分析的基礎(chǔ)上,探討了中藥“性一效一證一癥一病”知識元間的內(nèi)在聯(lián)系[22]。除此之外,還有學者通過抽取、構(gòu)建知識元來嘗試分析古籍中概念不明知識元的含義。
上述研究表明,隨著認知理論的不斷發(fā)展以及自然語言處理能力的提高,對文獻正文內(nèi)容進行抽取與挖掘正得到逐步重視[23]。本文試圖對年鑒中數(shù)值知識元的類型進行歸納總結(jié),初步構(gòu)建描述規(guī)則,以期為后續(xù)自動和半自動知識抽取提供參考借鑒。
四、研究方法
(一)研究的數(shù)據(jù)與素材
為了對年鑒中數(shù)值知識元的類型進行歸納總結(jié),本文試圖從圖書情報領(lǐng)域關(guān)鍵詞表中識別數(shù)值術(shù)語表并以此為依據(jù)對文本進行識別。但由于數(shù)值的特殊性,幾乎沒有文章將數(shù)字總結(jié)為關(guān)鍵詞,因此從關(guān)鍵詞表中識別數(shù)值術(shù)語表是不可行的。本文轉(zhuǎn)而將重點放在了對數(shù)字以及量詞的識別上,總結(jié)了量詞表達的125種模式,并輔以《中華人民共和國行政區(qū)劃簡冊》對年鑒文本進行抽取識別。以《2015年中國信息年鑒》為例,從全文當中共識別出3413條包含有數(shù)值的句子,將這些句子融合清洗以及匯總后,嘗試進行規(guī)則的識別與構(gòu)建。
(二)流程與方法
首先讀取年鑒全文,將所有包含有數(shù)值的句子抽取出來,然后剔除一些雖含有數(shù)值,但數(shù)值無意義且不可被分析的句子,隨后利用中文分詞軟件和圖書情報領(lǐng)域關(guān)鍵詞表進行分詞,借助量詞表以及行政區(qū)劃簡冊對句子中的命名實體進行過濾清洗,形成句子的線性結(jié)構(gòu),例如,“據(jù)統(tǒng)計/…數(shù)據(jù)顯示:…”、“預計…比例達到…比例升至…”得到句式結(jié)構(gòu)之后,人工進行校對查重,判定不同數(shù)值知識元的類型并歸納總結(jié),以形成數(shù)值知識元描述規(guī)則。
在上述篩選過濾過程中,有以下兩點需要注意。
1.無意義數(shù)值的過濾
雖然都是含有數(shù)值的句子,但是其中有很多并不具有知識意義,因此需要從數(shù)值知識元當中剔除,包括以下幾種情況:(l)數(shù)字編號。例如“1.電子元件百強企業(yè)”、“2.平板顯示龍頭企業(yè)”等,雖然含有數(shù)值,但缺少主謂賓結(jié)構(gòu),不能獨立的表達知識的概念;(2)特定名稱。例如“2014海峽兩岸光通信論壇”、“315晚會”、“《關(guān)于加快發(fā)展生產(chǎn)性服務業(yè)促進產(chǎn)業(yè)結(jié)構(gòu)調(diào)整升級的指導意見》(國發(fā)[20]4]26號)”等,數(shù)值只是作為數(shù)字進行標記,不具有實際意義;(3)機構(gòu)名稱。例如“人社部門12333民生服務平臺”、“12306中國鐵路客戶服務中心”等等,數(shù)值只是用來命名,無法進行進一步的分析;(4)其他類型。例如“3D技術(shù)”、“《物流業(yè)發(fā)展中長期規(guī)劃(2014-2020)》”、“包頭熱線電話96200”、“國內(nèi)首款智能電視SoC芯片Hi3751”、“360°景區(qū)全景觀賞”等。
2.命名實體的過濾
命名實體一般是指一些具體或抽象的客觀實體,例如人、組織、地點等,可以是人名、組織名、機構(gòu)名、地名等,也可以是時間、數(shù)量的表達式等形式,常是數(shù)值知識元的描述對象。命名實體識別的實際上就是從文本中發(fā)現(xiàn)出命名實體,并確定其類別的過程。命名實體的識別一般要經(jīng)歷下面兩個階段:在進行分詞的同時,標注出詞表中已經(jīng)收集的命名實體;在此基礎(chǔ)上,調(diào)用構(gòu)建好的命名實體識別模型,對文中的尚未標記出的命實體進行識別。在進行命名實體的識別時,要結(jié)合實體自身的構(gòu)成信息,合理地使用先驗知識,根據(jù)實體所在的上下文對其的約束作用來進行識別過濾。在年鑒中,基于年鑒的特點,要在機構(gòu)特征詞中增加一些地域名特征詞(如“居委會”、“村公所”)并去掉一些行政機關(guān)名稱(如“委員會”、“統(tǒng)計局”),因為此類機構(gòu)常常是發(fā)布單位,不適合作為數(shù)值知識元的主體。
五、研究結(jié)果
(一)引用型數(shù)值知識元
引用型數(shù)值知識元是指在擺出數(shù)據(jù)時,通過事實說話,所有數(shù)值都有可靠來源。可以通過“據(jù)…統(tǒng)計…”等描述規(guī)則來抽取,也可以通過“…指數(shù)為…”來抽取。
(二)比率型數(shù)值知識元
比率型數(shù)值知識元是指所有的數(shù)值都是以比率的形式呈現(xiàn)的,在描述過程中必定會出現(xiàn)百分比。除此之外,還包含各類型的比率,比如覆蓋率、普及率、增長率等等。
(三)總結(jié)型數(shù)值知識元
總結(jié)型數(shù)值知識元就是指將數(shù)據(jù)進行匯總后統(tǒng)一發(fā)布的知識元,描述規(guī)則比較簡單,如下所示。
(四)時間型數(shù)值知識元
時間型數(shù)值知識元是指側(cè)重點在于時間的知識元,通常是在某一特定時間范圍內(nèi)所發(fā)生的事情。
(五)排名型數(shù)值知識元
排名型數(shù)值知識元是指對數(shù)值主體進行排名的知識元。在進行排名型數(shù)值知識元的識別時,量詞形式大多限定在“位”與“名”這兩個詞之間,因此只要將這兩個量詞識別出來,就可以把大部分的排名型數(shù)值知識元識別出來。
(六)對比型數(shù)值知識元
對比型數(shù)值知識元是指將同類型或不同類型的數(shù)值進行比較,從而得到有效信息。在句式上可以分為一對一和一對多。
(七)消息型數(shù)值知識元
消息型數(shù)值知識元是最常見的數(shù)值知識元,通常為六元組形式,是指將事實用敘述的方式呈現(xiàn)出來的知識元,如“2014年全國制作完成的國產(chǎn)電視動畫片為278部、1.17萬集、13.86萬分鐘。”但由于消息數(shù)量龐大、內(nèi)容繁復且具有隨意性,很難將其描述規(guī)則具體化,所以只能從表達模式上對其進行識別。
依據(jù)中文數(shù)值的表達習慣,本文將消息型數(shù)值知識元的文字表達總結(jié)為如下3種模式,重難點在于如何識別指標、謂詞和其他文本的區(qū)別。而實現(xiàn)這一重難點的關(guān)鍵技術(shù)則在于中文自動分詞和詞性標引。
(1)模式1:指標十謂詞十數(shù)值+單位
例:“全國高新技術(shù)產(chǎn)業(yè)增加值比上年增長23.5%”
(2)模式2:謂詞+指標+數(shù)值+單位
例:”醫(yī)院共有醫(yī)生526人”
備注:模式2同時也處理無謂詞的“指標+數(shù)值”模式。
(3)模式3:謂詞+數(shù)值+指標+單位
例:“全年全社會建筑業(yè)上繳2002億元稅金”
六、討論與展望
本文通過人工與機器相結(jié)合的方法,將數(shù)值知識元的表達形式分為引用型、比率型、總結(jié)型、時間型、排名型、對比型和消息型七種類型,并給出了詳細實例。這些分類以及描述規(guī)則希望能對后續(xù)數(shù)值知識元的抽取技術(shù)有所幫助。
研究中發(fā)現(xiàn),雖然都是運用數(shù)值來表達知識,但不同句式以及數(shù)值的排列組合能表達出的意思千差萬別,句子的復雜程度以及描述規(guī)則也不盡相同。需要特別注意的是,雖然數(shù)值知識元有不同的類別,但一個句子中往往可以同時包含多個類型的數(shù)值知識元,比如"2014年,全國兩化融合發(fā)展總指數(shù)達為66.14,比2013年增長4.19,但仍只處于世界中等水平”就同時包含了引用型和對比型數(shù)值知識元。
本文研究還存在較多不足之處。一方面,本文選取的文本局限性較強,僅分析了年鑒當中的數(shù)值知識元表達形式。年鑒由于自身文本特征的局限性,大多采用了規(guī)范化的語言進行描述,而中文博大精深,由于語言的復雜以及各學科論文文體的差異性,總結(jié)出的規(guī)則覆蓋度不高,不適用于所有類型文檔。另一方面,沒有針對數(shù)值知識元抽取的測試集,抽取出來的結(jié)果難以評測且無具體評估標準。后續(xù)研究可以增加原始語料的規(guī)模并構(gòu)建測試集,發(fā)現(xiàn)更具有普適性的數(shù)值知識元描述規(guī)則。
參考文獻:
[1]溫有奎,計算機檢索中的情報取樣與濾波分析[J].情報學報,1993,(1):87.
[2]溫有奎,徐國華,賴伯年,等知識元挖掘[M].西安:西安電子科技大學出版社,2005:171,177-183.
[3]肖洪,薛德軍.基于大規(guī)模真實文本的數(shù)值知識元挖掘研究[J].計算機工程與應用,2008,44(30):150-152,222.
[4]高國偉,王亞杰,李永先,我國知識元研究綜述[J].情報科學,2016,34(2):161-165.
[5]趙紅州,唐敬年,蔣國華,鄭文藝.知識單元的靜智荷及其在荷空間的表示問題[J].科學學與科學技術(shù)管理,1990,11(1):37-41.
[6]溫有奎,徐國華.知識元鏈接理論[J].情報學報,2003,22(6):665-670.
[7]柳長華.基于知識元的中醫(yī)古籍計算機知識表示方法[C].第三屆國際傳統(tǒng)醫(yī)藥大會文集,2004:240-241.
[8]文庭孝.知識單元的演變及其評價研究[J].圖書情報工作,2007,51(10):72-76.
[9]劉新,王泰森,學習型知識元數(shù)據(jù)庫鏈接理論研究[J].圖書館學研究,2009,(11):25-28.
[10]畢經(jīng)元,基于web2.0的知識元鏈接網(wǎng)絡系統(tǒng)ID],杭州:浙江大學,2010:24-25.
[11]原小玲.基于知識元的知識標引[J].圖書館學研究,2007,(6):47-49.
[12]王延章.模型管理的知識及其表示方法[J].系統(tǒng)工程學報,2011,26(6):850-856.
[13]姜永常,基于知識元的知識組織及其系統(tǒng)服務功能研究[J].情報理論與實踐,2007,(1):37-40.
[14]鄭彥寧,化柏林.句子級知識抽取在情報學中的應用分析[J].情報理論與實踐,2011,(12):5-8.
[15]蔣玲.面向?qū)W科的知識元標引關(guān)鍵技術(shù)研究[D],武漢:華中師范大學,2011:36-37.
[16]溫有奎,溫浩,徐端頤,等,基于知識元的文本知識標引[J].情報學報,2006,25(3):282-288.
[17]溫有奎,文本知識元標引[C]第十九屆全國計算機信息管理學術(shù)研討會,宜昌,2005:59-66.
[18]盧城曉,基于知識元檢索的知識相關(guān)度研究[D]南京:南京大學,2012:16.
[19]陳雪龍,董恩超,王延章非常規(guī)突發(fā)事件應急管理的知識元模型[J].情報雜志,2011,(12):21-30.
[20]仲秋雁,等,基于知識元的非常規(guī)突發(fā)事件情景模型研究[J].情報科學,2012,30(1):115-120.
[21]肖懷志,李明.基于本體的歷史年代知識元在古籍數(shù)字化中國的應用[J].圖書情報知識,2005,(3):28-33.
[22]游章才,等.基于中藥“性—效—證—癥—病”知識元關(guān)聯(lián)探討“澀味”的內(nèi)涵[J].四川中醫(yī),2010,28(8):54-57.
[23]化柏林.學術(shù)論文中方法知識元的類型與描述規(guī)則研究[J].中國圖書館學報,2016,42(221):30-40.