陳博 陳建龍
關鍵詞:可視化標引;自動標引;可視化自動標引;格薩爾
文獻標引是針對文獻的情報內容和特征,從目標文獻中抽取檢索標識的過程。當前的標引研究主要聚焦于關鍵詞標引、分類標引等方面,在標引方法上以基于關鍵詞等文本信息的統(tǒng)計分析和語言分析為主。主題法是從內容角度進行文獻標引和檢索的主要方法,主題標引是文獻標引工作的核心之一,其“通過主題詞及主題詞組配所構成的主題標識,來揭示文獻的學科內容”,在實踐中常與分類標引互相補充。隨著全文檢索需求和相關技術的提升,文獻標引相關研究與實踐也逐漸由文獻層深入到文獻內容層。
可視化的認知增強功能,能夠在人們找尋信息和理解信息時提高人們的認知效率與認知能力,減輕人們的信息壓力與信息負荷;可視化的語言文化功能,可基于視覺語言的特性,傳達信息中“不可言說的部分”,為觀察者提供更方便快捷的信息獲取方式,以及更全面直觀的信息內容。
本文研究通過將文本挖掘與可視化技術結合,對文本中的主題相關信息與文獻章節(jié)、段落的關系進行可視化呈現(xiàn),嘗試將標引單元細化到文獻具體內容,探索了一種新的可視化主題自動標引方法,并設計了可視化主題自動標引系統(tǒng)。該系統(tǒng)主要包括文本挖掘模塊、統(tǒng)計模塊、可視化展現(xiàn)模塊三大核心模塊和主題詞全文標引數(shù)據(jù)庫,為用戶提供可視化、交互式的主題標引和主題檢索途徑,幫助用戶直觀高效獲取信息。
1可視化主題自動標引方法
當前的自動標引研究主要基于關鍵詞自動標引技術,依靠關鍵詞來刻畫和描述文獻。隨著相關技術不斷發(fā)展,標引效果也得到了提升,但關鍵詞文本所提供的信息量有限.而且無法體現(xiàn)其背后所指代的核心概念之間的關系;同時,文獻的關鍵詞數(shù)量也十分有限,無法收入讀者需要的所有詞語。另外,傳統(tǒng)的自動標引均以文獻整體為標引對象,以統(tǒng)計分析與語言分析為主要方法,近年來的文獻標引工作逐漸深入到文獻內容中,文獻標引詞的發(fā)現(xiàn)、全文標引方法的探究受到了許多學者的關注。
本文提出的可視化主題自動標引方法,可基于文本挖掘技術,針對特定主題進行文本內容挖掘,發(fā)現(xiàn)更具文獻特征的主題詞.并將其在文獻中的分布情況進行可視化呈現(xiàn)。在可視化圖像中以文本的章節(jié)或段落為橫坐標,以特定主題的主題詞為縱坐標,以圖形將主題詞在各章節(jié)、段落中的出現(xiàn)次數(shù)進行可視化表示,來揭示特定主題下的主題詞在文本中的分布情況,可精確定位到主題詞所在的章節(jié)、段落,甚至句子,方便讀者和研究人員進行主題詞的高效檢索,并輔助其發(fā)現(xiàn)主題間的潛在關系。讀者可通過上述視覺表現(xiàn)自主獲取文中的多元主題信息,并在直觀的視覺觀察和交互式探索中確定關鍵詞,直接定位到其所出現(xiàn)的具體位置,實現(xiàn)一種全新的基于可視化交互的文獻主題自動標引方法。
2可視化主題自動標引系統(tǒng)
本文嘗試將可視化技術引入文獻標引工作,構建可視化主題自動標引系統(tǒng),以實現(xiàn)精確到內容的可視化文獻標引。如圖1所示,該系統(tǒng)核心由三大模塊和章節(jié)信息數(shù)據(jù)庫構成,三大模塊分別是用以實現(xiàn)數(shù)據(jù)文獻全文處理及主題詞自動提取的文本挖掘模塊、基于用戶輸入和主題詞全文標引數(shù)據(jù)庫的統(tǒng)計模塊,以及支撐用戶完成交互化操作的可視化展現(xiàn)模塊。
2.1實現(xiàn)數(shù)據(jù)文獻全文處理及主題詞自動提取的文本挖掘模塊
要實現(xiàn)具體文獻的全文標引.首先需要獲取相應的全文數(shù)字文獻。對于可直接提取全文文本的數(shù)字文獻,如TXT、Word、文本PDF等格式的數(shù)字文獻,直接通過自然語言處理(Natural LanguageProcessing)來完成文本挖掘。對于紙質文獻,需要在文本挖掘之前進行掃描前處理,獲取圖片形式的PDF全文.通過OCR(Optical Character Recog.nition)技術將PDF轉換為JSON文本。該文本包含語句所在PDF的文本內容及位置信息.將其文本內容轉換為TXT文本的數(shù)字文獻,位置信息轉換為對應的卷、章、頁、段、句等信息。
在完成全文文本信息提取后.進入文獻標引主題詞自動提取和計算流程,主要包括4個技術環(huán)節(jié):1)利用分詞器進行文本自動分詞,分詞過程中引入通用的《現(xiàn)代漢語詞典》、文獻相關的領域詞典等外部詞典,幫助提升分詞器性能;2)通過支持向量機模型對分詞結果進行詞性標注,得到詞語的訶l生分類結果;3)基于最大熵模型完成命名實體識別,獲取在文獻中具有特定意義的實體,如人名、地名等;4)基于命名實體識別結果進行特征詞計算.在當前文獻中算出目標詞的詞頻,再使用《人民日報》數(shù)據(jù)集計算詞語的逆文本頻率指數(shù),進而算出相應的TF-IDF值,數(shù)值越大說明該主題詞對于本篇文獻的重要程度越高。
選取數(shù)值較高文獻主題詞的重要依據(jù)。經(jīng)由如上步驟,就可以根據(jù)標引需求從數(shù)字文獻中挖掘并篩選出文獻主題詞。
基于上述的全文數(shù)字文獻和主題詞構建起該文獻的主題詞全文標引數(shù)據(jù)庫,為后續(xù)研究提供數(shù)據(jù)支持。
2.2搭建基于主題詞全文標引數(shù)據(jù)庫的統(tǒng)計模塊
在主題詞全文標引數(shù)據(jù)庫中.正文文本以句為基本單位儲存,由其構建出包含卷、章、頁、段、句等的文獻層級結構。以倒排庫形式構建數(shù)據(jù)庫,可以從關鍵詞出發(fā)去定位數(shù)據(jù)庫中的文檔.快速獲取包含該詞的文檔列表,精確統(tǒng)計出其相應的位置信息,及其在某一章節(jié)、段落中出現(xiàn)的頻率。
基于主題詞全文標引數(shù)據(jù)庫的統(tǒng)計模塊.通過關鍵詞匹配的方法,匹配到用戶輸入的關鍵詞所在的句子,獲取其在文本的卷、章、頁、段、句的位置以及頻率信息,進而完成數(shù)據(jù)統(tǒng)計。匹配過程中.系統(tǒng)將基于輸入的關鍵詞自動輸出由數(shù)組矩陣的形式表示的關鍵詞分布情況,其中關鍵詞出現(xiàn)的詞頻可以章節(jié)或段落為單位進行統(tǒng)計和呈現(xiàn),以實現(xiàn)關鍵詞在文本的卷、章、頁、段、句等各層級中的精準定位。
2.3實現(xiàn)用戶交互式可視化展現(xiàn)模塊
確定待標引的主題.以其包含的主題詞作為關鍵詞,通過統(tǒng)計模塊獲取相應數(shù)據(jù)后,即可利用可視化工具ECharts中的散點圖模塊,生成相應的可視化表示。在可視化圖像中以文本章節(jié)、段落,甚至句子為橫坐標,以主題詞為縱坐標,將主題詞在各章節(jié)和段落中的出現(xiàn)次數(shù)用大小不同的點進行表示。具體主題詞在橫向和縱向空間的分布情況,能直觀地展示出其在文本中的分布規(guī)律及重要程度,也可揭示各主題詞之間的相關性與權重。
用戶可基于可視化呈現(xiàn)效果.根據(jù)其中圖形大小、共現(xiàn)位置等的視覺相關關系發(fā)現(xiàn)信息,利用可視化展現(xiàn)模塊支持的放大、點擊等交互式操作進一步探索相關信息。交互過程中本模塊將根據(jù)用戶輸入反饋相應的可視化分析結果,比如在點擊、放大主題詞所在章節(jié)、段落位置的節(jié)點后,系統(tǒng)將進一步展現(xiàn)相關信息.讓用戶清晰獲取相關主題詞在各章節(jié)、段落中的出現(xiàn)情況,或通過系統(tǒng)直接定位到關鍵詞在章節(jié)段落數(shù)據(jù)庫中所在的具體位置,詳細呈現(xiàn)相應的正文文本內容信息。
3以《英雄格薩爾》為例的可視化主題自動標引
《格薩爾》是廣泛流傳于我國藏區(qū)的英雄史詩,素有“東方荷馬史詩”之美譽,其篇幅宏大、情節(jié)復雜、版本多樣、說唱體特點鮮明、語言詞匯極具領域性,藝術文化價值巨大,文本處理難度也極高。自11世紀以來,越來越多的研究者和相關人員對其展開整理工作.隨著學科研究的深入,高效便捷地進行全面的文獻研究成為了學科研究面臨的一大挑戰(zhàn)??梢暬黝}自動標引的方法,有助于優(yōu)化文獻的全文標引結果,提升學科文獻檢索等相關研究與應用的效果。從文獻內容來看,史詩圍繞格薩爾展開,主要描述眾多人物在各個部落發(fā)生的事件,人物、地域宗族是文獻中的重要數(shù)據(jù),本文研究即以這兩大主題進行自動標引探索。
3.1《英雄格薩爾》主題自動標引的數(shù)據(jù)準備與預處理
本文選取降邊嘉措主編的《英雄格薩爾》作為史詩文本,先通過OCR技術對文獻圖片進行文字識別,完成圖片到文本的自動轉換,再經(jīng)人工校對得到3.95MB的全文文本數(shù)據(jù),其中正文部分包含5卷書、220個章節(jié)、1833頁、28444個段落和47571個句子,構成了待標引的數(shù)字文獻。
鑒于格薩爾領域存在大量領域性顯著的詞匯,文獻主題詞的選取過程較為復雜。首先利用Jieba分詞器以句為基本單位對文本進行分詞.并在過程中添加《現(xiàn)代漢語詞典第5版》和《常見藏語人名地名詞典》以提升分詞效果,之后由手工驗證分詞結果。接著使用哈工大LTP詞性標注模型,通過支持向量機模型和863詞性標注集對分詞結果進行訶l生標注,再手工篩選出人物和地域宗族主題詞匯。接下來對哈工大的LTP命名實體識別模型進行訓練,將《英雄格薩爾》(卷一)標注為人名、地域與宗族名等8類,并將該文本按照9:1的權重分為訓練集與測試集。根據(jù)50輪的最大熵模型訓練結果來看,第29輪測試集調和平均值最高,用此輪模型對《英雄格薩爾》第二至五卷的分詞與詞性標注結果進行命名實體識別.將人名標記為Nh,地名標記為Ns。接下來計算人名、地域與宗族名相對于2000年1月至12月的《人民日報》TF-IDF值,按照數(shù)值從高到低進行詞語排序,再通過人工篩選就可得到文獻在人物、地域與宗族主題中的主題詞。
基于文本挖掘技術完成《英雄格薩爾》的數(shù)字文獻獲取和主題詞選取后.即可利用相關數(shù)據(jù)構建主題詞全文標引數(shù)據(jù)庫,配合文獻統(tǒng)計模塊和ECharts中的可視化模塊.以可視化的主題自動標引方法,從人物和地域宗族主題角度進行主題自動標引的實踐探索。
3.2單一主題單個主題詞的可視化主題自動標引
分別從人物主題和地域與宗族主題中選取一個主題詞,以其為例對主題詞在全文章節(jié)中的出現(xiàn)情況.及其在某一章節(jié)段落中的出現(xiàn)情況進行可視化主題自動標引研究。
根據(jù)統(tǒng)計模塊顯示.格薩爾王的王妃之一阿達娜姆在全文中共在64個章節(jié)里出場311次,是史詩中的一個重要人物.我們將其作為人物主題的示例進行可視化主題自動標引研究。以章為單位,根據(jù)其在全文中的出現(xiàn)次數(shù)繪制出圖3,其中橫向坐標對應人物出現(xiàn)的章節(jié)位置,散點大小表示出現(xiàn)次數(shù)的多少。
觀察圖3可知.阿達娜姆自出場后就開始就持續(xù)、有規(guī)律地出現(xiàn)在文本中,其中最后幾章的詞頻顯著高于其他章節(jié)。統(tǒng)計模塊反饋的數(shù)據(jù)顯示,阿達娜姆在史詩尾聲的214~218章中詞頻突增,點擊該區(qū)域獲取主題詞出現(xiàn)段落的可視化表示,可對人物進行深入了解。以第215章的出現(xiàn)段落分布為例,通過可視化主題自動標引結果,可觀察到人物在該章具體段落中的出現(xiàn)情況如圖4所示。
點擊人物在215章中首次出現(xiàn)的節(jié)點,即可于標引系統(tǒng)中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置檢索到句子:“過了七七四十九天,阿達娜姆的靈魂到了生死沙山山口,此時閻羅王已經(jīng)感應到了有個非同尋常的人到了地獄中來”.說明與阿達娜姆相關的情節(jié)發(fā)生的地點轉到了地獄。由“阿達娜姆”在本章的密集分布,推測后續(xù)有大量情節(jié)與其相關,點擊查看本章其他節(jié)點,可知故事圍繞阿達娜姆在地獄接受審判展開,驗證了推測。若想完整了解史詩塑造的人物,則可定位到其在全文中其他章節(jié)的節(jié)點,獲取人物身份、關涉情節(jié)、人物結局等相關信息,通過直觀觀察和便捷的檢索交互即可較清晰地梳理出人物發(fā)展脈絡。
在地域與宗族主題中,我們選擇“財寶城”為例進行分析.根據(jù)圖5所示的可視化分布結果來看.主題詞集中出現(xiàn)的位置大致在第100~110章,并且其詞頻在最后出現(xiàn)的章節(jié)激增。
選中財寶城的出現(xiàn)區(qū)域并放大,可清晰查看到其出現(xiàn)位置和次數(shù),如圖6所示,可知第108章是主題詞出現(xiàn)的核心章節(jié)。
點擊查看主題詞在第108章的段落分布情況如圖7所示,主題詞在該章節(jié)中的分布具有顯著的規(guī)律性,出現(xiàn)段落中的詞頻數(shù)量均衡,而且前半部分的出現(xiàn)間隔差異較小。
通過點擊段落分布圖節(jié)點,定位到該章節(jié)中的具體句子.發(fā)現(xiàn)財寶城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7個位置的句子內容均為“請攻下大食財寶城”,一方面揭示了本章情節(jié)以攻打城堡為主線:另一方面也由主題詞所在的唱詞部分體現(xiàn)出史詩文本說唱體的特點。
根據(jù)以上可視化主題自動標引結果可知,單一主題單個主題詞的可視化在揭示主題詞分布規(guī)律和主題詞在章節(jié)中的重要性方面效果顯著,與其對應的主題自動標引在深入揭示主題詞相關的文本內容、故事情節(jié)、人物發(fā)展,甚至文本語言特點等方面都有良好表現(xiàn)。
3.3單一主題多個主題詞的可視化主題自動標引
為從整體視角了解人物主題的情況,我們基于人物主題詞的章節(jié)出現(xiàn)數(shù)據(jù),以章為單位,對詞頻50以上的人物進行研究。可視化主題自動標引顯示,人物在文本中的出場情況大致可分3種:全文貫穿型人物,如格薩爾、丹瑪、絨察查根,出現(xiàn)于史詩全篇,但各人物的出場頻率存在差異;區(qū)間出現(xiàn)型人物,如玉拉、白帳王,出現(xiàn)于特定章節(jié),主要與所處章節(jié)中的其他人物產生直接關聯(lián):孤立存在型人物,以隆納巴姜為代表,僅出現(xiàn)于單一章節(jié),體現(xiàn)出人物在史詩的整體故事和人物網(wǎng)絡中處于相對獨立的狀態(tài)。其中幾個代表人物的出場情況如圖8所示。
分布圖的橫向數(shù)據(jù)體現(xiàn)出領域人物在全文的出場情況,揭示了各人物在史詩全篇及各章節(jié)中的地位,以及人物與故事情節(jié)的相關性;縱向數(shù)據(jù)則可說明各人物間的共現(xiàn)情況,可基于此挖掘人物間的相關性,了解不同人物在同一章節(jié)中的重要程度。以圖7中的格薩爾和玉拉為例,雖然主人公格薩爾在史詩中占絕對核心地位,但從第63章到第70章的多個章節(jié)中,玉拉的出現(xiàn)詞頻顯著高于格薩爾,一定程度上揭示出玉拉在該部分的權重要高于格薩爾。
從地域和宗族主題的整體情況來看,我們以相同的方法對詞頻10以上的地域與宗族主題詞進行出現(xiàn)章節(jié)的可視化主題自動標引.并選擇其中有代表性的主題詞展示如圖9所示。
圖9系統(tǒng)地呈現(xiàn)了各主題詞的分布情況.可幫助受眾快速建立對該主題的整體認知,還可從多個主題詞的縱向分布情況進行相關信息的挖掘。主題詞的共現(xiàn)位置一致性越高,其存在相關關系的可能性越大。我們重點對圖9共現(xiàn)位置高度一致的兩組主題詞進行研究,挖掘財寶城與大食國、雪山國與達瑪拉雅國的相關信息。根據(jù)標引定位的Book:2Chapter:103 Page:323 Paragraph:3977 Sentence:3內容:“但按照預言中‘時值木虎年,去攻大食財寶城.為嶺地藏地辟財源的說法,該是征服大食國的時候了”,確認財寶城與大食國存在歸屬關系。基于雪山國和達瑪拉雅國的共現(xiàn)情況定位到的Book:4 Chapter:166 Page:16 Paragraph:123 Sen-tence:1和Sentence:2 Content:見收回赤谷部落如此輕松……想不動刀槍使他們繼續(xù)向雪山國納貢。誰知第一個送信的使臣就碰了釘子.達瑪拉雅國拒絕投降。驗證了雪山國與達瑪拉雅國的敵對關系。
如上所述,對單一主題多個主題詞的可視化主題自動標引,可以從整體視角掌握該主題中的主題詞分布情況,還可以對不同主題詞間的權重和相關關系進行分析,并利用系統(tǒng)直觀便捷地獲取相關信息。
3.4多元主題多個主題詞的可視化主題自動標引
從多元視角對史詩進行分析時.可通過多元主題的可視化自動標引發(fā)現(xiàn)多維度視角下的新信息。我們匯總人物主題和地域與宗族主題數(shù)據(jù).對其進行可視化自動標引,得到多元主題詞的呈現(xiàn),本文從中選擇主題詞“霍爾、雅澤城、白帳王”進行分析。
如圖10所示,“霍爾、雅澤城、白帳王”的出現(xiàn)位置一致性高,基于三者的共現(xiàn),可由自動標引系統(tǒng)精確定位到Book:2 Chapter:62 Page:42 Par.agraph:305 Sentence:2位置的“唐澤趕到那兒后,向梅乳澤說明了:‘嶺國大軍到霍爾以后.早就占領了雅澤城,格薩爾王已把白帳王消滅多時了.我已誠心誠意地向格薩爾投誠”等,描述三者關系的句子,明確其間的層級和歸屬關系??梢?,這一方法除了能提升文本內容的標引效果和讀者獲取信息的體驗之外,還能發(fā)現(xiàn)多維度主題下主題詞間的隱含關系,對領域內多層級的地理區(qū)域和部落宗族系統(tǒng)的構建,以及人物與地域宗族關系網(wǎng)絡的梳理等起到輔助作用。
顯然,以可視化方式呈現(xiàn)主題詞的出現(xiàn)情況,能夠在簡化信息獲取流程的同時提供比文字描述更多的信息,特別是隱含信息,進而提升信息獲取的效率。將多元主題結合,多維度綜合主題詞信息進行可視化,可直接觀察多主題內容間的相關性。通過本文提出的可視化主題自動標引系統(tǒng),用戶可以從不同視角觀察文獻、獲取信息,并基于主題詞在全文的章節(jié)、段落、句子中的精確定位,快速進行內容檢索。
4結束語
本文研究將文本挖掘與可視化技術結合應用于文獻標引,提出了一種主題自動標引的方法?;谖谋就诰蚣夹g從文獻中自動發(fā)現(xiàn)更具代表性的主題詞.構建主題詞全文標引數(shù)據(jù)庫.再引入可視化技術,搭建可視化的主題自動標引系統(tǒng)。將此系統(tǒng)在格薩爾學科領域的人物主題和地域與宗族主題進行標引驗證,其可視化呈現(xiàn)結果揭示了史詩中的主題相關內容.實現(xiàn)了深入到文獻內容層的自動標引,并以可視化的方式取得了比傳統(tǒng)標引更直觀便捷的標引效果.證實了可視化主題自動標引系統(tǒng)的可行性和有效性。
從信息服務角度看.這一主題自動標引方法以可視化呈現(xiàn)、交互式操作、內容級定位的特點對傳統(tǒng)標引方法進行了革新,深入到文獻內容對主題內容進行可視化標引和展現(xiàn),實現(xiàn)到篇章、段落,甚至句子級的標引定位。同時,本文的主題自動標引驗證系統(tǒng)在格薩爾領域的可視化驗證表明,該系統(tǒng)可以幫助史詩讀者和研究人員以更高效精準的方式進行領域文獻內容級的檢索與利用,還可以在豐富領域知識檢索、問答對話等相關應用的同時,提高格薩爾史詩的學習和學科研究效率,推動學科發(fā)展。
本文研究囿于文章靜態(tài)呈現(xiàn)形式和篇幅限制,在研究結果的展現(xiàn)上僅截取了部分靜態(tài)的可視化圖像,在后續(xù)研究中需推進搭建動態(tài)交互系統(tǒng);在主題自動標引的可視化呈現(xiàn)上,除采用以章節(jié)為橫軸的散點圖外,還需擴展到更豐富的視覺表達形式;在主題詞類型選取上,文章基于史詩文獻的題材特點,針對人物、地域與宗族的主題詞展開了自動提取和標引工作,后續(xù)應在更廣泛的主題領域中展開相關研究;在標引方法上,研究僅基于關鍵詞標引展開,未來應引入最新的自然語言處理技術,深入挖掘關鍵詞背后的概念及相關概念知識.以實現(xiàn)基于語義的知識標引。