唐兆琦
國(guó)內(nèi)的廣電文化傳媒行業(yè),從20世紀(jì)90年代開(kāi)始逐步實(shí)施媒體內(nèi)容資產(chǎn)的數(shù)據(jù)庫(kù)管理,經(jīng)過(guò)20多年的發(fā)展和積累,產(chǎn)生了海量的編目和使用信息。如何有效地分析這些“媒資大數(shù)據(jù)”的內(nèi)部關(guān)系,幫助用戶快速準(zhǔn)確全面地檢索到自己所需要的信息,甚至從知識(shí)層面提供關(guān)聯(lián)信息的發(fā)掘和推薦等,有著重要的意義和應(yīng)用前景。
基于知識(shí)地圖的媒資檢索研究能對(duì)海量媒資庫(kù)進(jìn)行更為智能化的知識(shí)管理,從而實(shí)現(xiàn)多維度的、自動(dòng)化的知識(shí)整合。該研究在互聯(lián)網(wǎng)視音頻和圖文內(nèi)容呈現(xiàn)爆炸式增長(zhǎng)的當(dāng)下,具有很好的理論研究意義和廣泛的應(yīng)用推廣價(jià)值。
知識(shí)圖譜(Knowledge Graph)最早是由Google推出的產(chǎn)品名稱,利用知識(shí)圖譜可以為查詢?cè)~賦予豐富的語(yǔ)義信息,建立與現(xiàn)實(shí)世界實(shí)體的關(guān)系,從而幫助用戶更快找到所需的信息。在Google之后,Bing、百度、搜狗等搜索引擎公司也都紛紛推出了自己的知識(shí)圖譜產(chǎn)品?,F(xiàn)在,知識(shí)圖譜已經(jīng)被用來(lái)泛指各種大規(guī)模的知識(shí)庫(kù)。
知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念,以及它們彼此之間的關(guān)系或關(guān)聯(lián)。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),稱為它們的標(biāo)識(shí)符(identifier);若干屬性-值對(duì)(attribute-value pair,又稱AVP)用來(lái)刻畫(huà)實(shí)體的內(nèi)在特性;而關(guān)系(relation)用來(lái)連接兩個(gè)實(shí)體,刻畫(huà)它們之間的關(guān)聯(lián)。
知識(shí)圖譜的構(gòu)建對(duì)文本信息處理和信息檢索具有重要的價(jià)值,而構(gòu)建知識(shí)圖譜,就是獲取大規(guī)模結(jié)構(gòu)化數(shù)據(jù)并在其中進(jìn)行實(shí)體發(fā)現(xiàn)和關(guān)系映射的過(guò)程。
構(gòu)建知識(shí)圖譜有以下七個(gè)步驟:
(1)確定本體的專業(yè)領(lǐng)域和范疇;
(2)考查復(fù)用現(xiàn)有本體的可能性;
(3)列出本體中的重要術(shù)語(yǔ);
(4)定義類和類的等級(jí)體系(完善等級(jí)體系可行的方法有:自頂向下法、自低向上法和綜合法);
(5)定義類的屬性;
(6)定義屬性的分面;
(7)創(chuàng)建實(shí)例。
本文對(duì)媒資知識(shí)圖譜的建立方法是采用“自頂向下”和“自底向上”相結(jié)合的方式。其中,自頂向下的方式是通過(guò)本體編輯器預(yù)先構(gòu)建本體,它依賴于從媒資百科和結(jié)構(gòu)化數(shù)據(jù)得到的高質(zhì)量知識(shí)中所提取的模式信息;而自底向上的方式則通過(guò)前面介紹的各種實(shí)體和關(guān)系的抽取技術(shù),將這些置信度高的模式合并到知識(shí)圖譜中。
本文基于上海廣播電視臺(tái)從二十世紀(jì)八十年代至今的媒資內(nèi)容,尤其是其中的編目信息(側(cè)重在“娛樂(lè)”和“體育”這兩個(gè)領(lǐng)域),建立本體和媒資知識(shí)地圖。
這些編目信息中的純文本的標(biāo)引數(shù)據(jù)是獲取知識(shí)圖譜的主要數(shù)據(jù)源。這些文本描述數(shù)據(jù)需要通過(guò)分詞、實(shí)體抽取技術(shù)來(lái)分離出其中的實(shí)體,借助媒資標(biāo)引(XML文件)提供的輔助信息和SMG的媒體百科鏈接信息,從標(biāo)引的文本描述中抽取實(shí)體類型和關(guān)系,判別其所對(duì)應(yīng)的本體概念,建立圖譜知識(shí)庫(kù)。
本文以媒資庫(kù)中的編目文件作為實(shí)驗(yàn)數(shù)據(jù)源,它們都是以XML格式保存的。這些以XML格式標(biāo)注的媒資素材,提供了半結(jié)構(gòu)化的數(shù)據(jù),但其中關(guān)鍵的分鏡頭內(nèi)容描述基本上為純文本的數(shù)據(jù),因此需要對(duì)這些數(shù)據(jù)通過(guò)自然語(yǔ)言處理和文本挖掘的技術(shù)進(jìn)行自動(dòng)實(shí)體抽取、實(shí)體對(duì)齊,屬性值決策,才能獲取知識(shí)地圖所需的實(shí)體關(guān)系。
對(duì)標(biāo)注數(shù)據(jù)的信息抽取是本項(xiàng)目的關(guān)鍵問(wèn)題之一。本文先對(duì)XML格式文檔進(jìn)行預(yù)處理,包括:去除冗余、重復(fù)、不規(guī)范的信息;依據(jù)現(xiàn)有文檔結(jié)構(gòu)獲取初始的分類信息;獲取待處理的正文主體。
對(duì)媒資數(shù)據(jù)的進(jìn)一步加工處理方式與基于互聯(lián)網(wǎng)的搜索引擎對(duì)可用數(shù)據(jù)的處理原則略有不同?;ヂ?lián)網(wǎng)上來(lái)自于網(wǎng)頁(yè)的原始數(shù)據(jù)不僅有標(biāo)題等,許多還包括各種詳盡的內(nèi)容,而媒資資源的數(shù)據(jù)內(nèi)容通常只有標(biāo)題句或大段的描述文字組成。所以,若直接借鑒互聯(lián)網(wǎng)公司建立知識(shí)圖譜模型的方法,會(huì)導(dǎo)致出現(xiàn)大量的空關(guān)聯(lián)。因此本文必須在現(xiàn)有媒資編目數(shù)據(jù)的基礎(chǔ)上,統(tǒng)計(jì)出常見(jiàn)的、有價(jià)值的關(guān)聯(lián)關(guān)系,從而建立“可用”的知識(shí)圖譜。
本文把實(shí)體對(duì)的上下文中可以用來(lái)描述實(shí)體之間關(guān)系的一般動(dòng)詞和名詞稱作“特征詞”。另外,把特定實(shí)體類型在文本庫(kù)中的高頻實(shí)體稱作種子實(shí)體,如經(jīng)常出現(xiàn)在娛樂(lè)資訊中的“章子怡”“成龍”“劉德華”等,即屬于人名實(shí)體類型的種子實(shí)體。種子實(shí)體可以用于后續(xù)特征詞的抽取。
本文首先以實(shí)體對(duì)類型(如“人名-人名”和“人名-機(jī)構(gòu)名”代表兩個(gè)不同的實(shí)體對(duì)類型)為單位,采用基于大規(guī)模語(yǔ)料庫(kù)統(tǒng)計(jì)的方法抽取與特定實(shí)體對(duì)類型相關(guān)度較大的候選特征詞集;然后,采用啟發(fā)式通用過(guò)濾規(guī)則對(duì)候選特征詞集進(jìn)行過(guò)濾;最后,借助語(yǔ)義詞典計(jì)算候選特征詞之間的相似度,對(duì)候選特征詞聚類,完成關(guān)系類型的自動(dòng)發(fā)現(xiàn),此時(shí)每類即為自動(dòng)發(fā)現(xiàn)的一個(gè)關(guān)系類型。
具體處理過(guò)程如下:
(1)正文抽?。簩?duì)正文文本素材,取出其中的編目信息中的大段描述文字部分;
(2)文本處理:對(duì)原始文本進(jìn)行斷句、中文分詞、詞性標(biāo)注、依存句法分析、命名實(shí)體識(shí)別等底層自然語(yǔ)言處理操作;
(3)特征詞抽?。鹤x取句子的處理結(jié)果,計(jì)算實(shí)體出現(xiàn)頻率,選取種子實(shí)體,進(jìn)而,從與種子實(shí)體形成實(shí)體對(duì)的句子集中統(tǒng)計(jì)抽取特征詞集,它們將用于描述實(shí)體關(guān)系;
(4)特征詞聚類:由于不同的特征詞可以表達(dá)相同的實(shí)體關(guān)系,所以,進(jìn)一步利用語(yǔ)義詞典計(jì)算特征詞之間的相似度,通過(guò)聚類,得到自動(dòng)發(fā)現(xiàn)的實(shí)體關(guān)系類型。
通過(guò)之前的方法,已從媒資編目的正文文本中抽取構(gòu)建了知識(shí)圖譜所需的各種候選實(shí)體(概念)及其屬性關(guān)聯(lián),但這些信息是彼此孤立的,為了形成一個(gè)真正的知識(shí)圖譜,需要將這些信息孤島集成在一起。
其中實(shí)體融合的目的在于發(fā)現(xiàn)具有不同標(biāo)識(shí)卻代表真實(shí)世界中同一對(duì)象的那些實(shí)體,并將這些實(shí)體歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體對(duì)象,然后添加到知識(shí)圖譜中。
當(dāng)融合來(lái)自不同數(shù)據(jù)源構(gòu)成知識(shí)圖譜時(shí),有一些實(shí)體會(huì)同時(shí)屬于兩個(gè)互斥的類別(如男女)或某個(gè)實(shí)體所對(duì)應(yīng)的一個(gè)屬性(如性別)對(duì)應(yīng)多個(gè)值,這就是不一致性。由于不一致性的檢測(cè)要面對(duì)大規(guī)模的實(shí)體及相關(guān)事實(shí),純手工的方法不完全可行。一個(gè)簡(jiǎn)單有效的方法是充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個(gè)數(shù)據(jù)源中出現(xiàn)的頻度等因素來(lái)決定,再輔以人工的校對(duì),以決定最終選用哪個(gè)類別或哪個(gè)屬性值。
這里采用的是利用該實(shí)體詞所出現(xiàn)的上下文的概率,通過(guò)大規(guī)模語(yǔ)料篩選以及人工校對(duì),對(duì)特定的實(shí)體詞分別定義一些正向詞和反向詞。例如當(dāng)成龍作為明星實(shí)體詞出現(xiàn)時(shí),給它定義的正向詞包括成龍?jiān)?jīng)出演過(guò)的電影名、房祖名(成龍的兒子)、功夫、受傷、公益等與他的工作、生活、社會(huì)活動(dòng)密切相關(guān)的詞匯,而給它定義的反向詞包括望子(望子成龍這個(gè)成語(yǔ)的前半部分)、學(xué)校、教育等相關(guān)的詞匯,這樣根據(jù)與該實(shí)體詞協(xié)同出現(xiàn)的正向詞或反向詞的概率,就可確定將它映射到哪個(gè)實(shí)體ID上了。
之后的實(shí)體關(guān)系抽取則采用前面提到的特征詞聚類,以及基于預(yù)定義的規(guī)則模板匹配的方法來(lái)實(shí)現(xiàn)。
在上述研究和實(shí)驗(yàn)的基礎(chǔ)上,本文開(kāi)發(fā)了基于媒資知識(shí)地圖的查詢應(yīng)用原型系統(tǒng)(如圖1所示),用于展示知識(shí)搜索在媒資領(lǐng)域的應(yīng)用場(chǎng)景。
圖1:查詢應(yīng)用系統(tǒng)原型的組成結(jié)構(gòu)
大體上,該系統(tǒng)分為“離線”和“在線”兩個(gè)部分,離線部分主要用于構(gòu)建領(lǐng)域相關(guān)的本體和知識(shí)圖譜(媒資知識(shí)地圖),形成媒資知識(shí)庫(kù),供在線搜索系統(tǒng)使用。
其基礎(chǔ)數(shù)據(jù)來(lái)源包括SMG的媒資百科(如人工整理的結(jié)構(gòu)化的詞條)、SMG的媒體資源庫(kù)(如人工編目的媒資內(nèi)容對(duì)應(yīng)的元數(shù)據(jù)XML),以及第三方資源(如中文詞匯表和文法分析規(guī)則庫(kù)),采用手工或半自動(dòng)的方法,利用文本分析、語(yǔ)義分析等NLP工具對(duì)上述資源進(jìn)行清洗、預(yù)處理和整理,然后通過(guò)實(shí)體發(fā)現(xiàn)、消歧、實(shí)體關(guān)系抽取等步驟,構(gòu)建了娛樂(lè)領(lǐng)域和體育領(lǐng)域的本體,并進(jìn)一步生成媒資知識(shí)圖譜。
在線部分主要實(shí)現(xiàn)了基于知識(shí)的查詢應(yīng)用原型系統(tǒng),它采用離線部分生成的媒資知識(shí)庫(kù),以B/S(Browser/Server)模式運(yùn)行。其前端采用瀏覽器界面(HTML5),后端采用J2EE架構(gòu)實(shí)現(xiàn)。
它從PC前端的瀏覽器接收用戶輸入的查詢請(qǐng)求(可以是短語(yǔ),也可以是關(guān)鍵詞列表),送到后端的知識(shí)查詢引擎中后,進(jìn)行必要的預(yù)處理(包括NLP文本分析和語(yǔ)法分析),然后在媒資知識(shí)圖譜(或領(lǐng)域相關(guān)本體)中對(duì)實(shí)體、關(guān)系、屬性等進(jìn)行匹配或推理,最后對(duì)得到的候選資源(即指向相應(yīng)詞條或媒資編目文件的鏈接)按相關(guān)性進(jìn)行排序,并輸出到結(jié)果呈現(xiàn)界面(網(wǎng)頁(yè))上。
經(jīng)過(guò)實(shí)測(cè)統(tǒng)計(jì),該原型系統(tǒng)對(duì)于一般的查詢請(qǐng)求,均可以在2秒以內(nèi)返回結(jié)果,這其中包括了分析、查詢、讀取數(shù)據(jù)庫(kù),以及格式化頁(yè)面等動(dòng)作。
本文在基于本體的媒資地圖的研究與實(shí)現(xiàn)方面進(jìn)行了非常有成效的探索,但仍有很多細(xì)節(jié)有可改進(jìn)或完善的空間。例如,在構(gòu)造本體和知識(shí)圖譜過(guò)程中,如何盡可能地提高自動(dòng)化程度、減少人工干預(yù)或校對(duì)的工作量,將是非常有意義的工作。
此外,目前個(gè)別領(lǐng)域進(jìn)行了探索,將來(lái)可嘗試將該方法應(yīng)用到其它更多的領(lǐng)域,基于更大規(guī)模的數(shù)據(jù)進(jìn)行建模、應(yīng)用,并在此過(guò)程中發(fā)現(xiàn)和改善原方法的不足之處,從規(guī)模上、應(yīng)用效果等方面向?qū)嵱没M(jìn)一步。