王忠義,鄭鑫,王珂瑩
(華中師范大學信息管理學院,武漢 430079)
在大數(shù)據(jù)時代,網(wǎng)絡(luò)信息資源已經(jīng)成為了大數(shù)據(jù)的重要來源之一。作為網(wǎng)絡(luò)信息資源中的重要組成部分,用戶生成內(nèi)容(user generated content,UGC)也相應(yīng)地成為一種重要的大數(shù)據(jù)資源。UGC是指網(wǎng)絡(luò)用戶通過各種社交媒體平臺所發(fā)布的信息,包含了大量人們在工作、生活中總結(jié)出的經(jīng)驗、訣竅等知識內(nèi)容,成為人們獲取知識的重要來源之一。與傳統(tǒng)信息資源不同,UGC以碎片化的形式廣泛地存在于各個社交媒體平臺。盡管這種碎片化的知識可以幫助人們精準且快捷地獲取知識,但就人類的認知規(guī)律而言,不利于人們對知識的理解和有效使用以及構(gòu)建相應(yīng)的知識體系。從總體上看,人們的知識獲取行為符合從局部到整體、從低層概念到高層概念逐步構(gòu)建知識體系的認知規(guī)律。處在不同認知階段的用戶具有不同粒度的知識需求,處在高級認知階段的領(lǐng)域?qū)<矣脩敉枰毩6鹊闹R來優(yōu)化已有的知識結(jié)構(gòu),而處在低級認知階段的普通用戶則更需要構(gòu)建較粗粒度的知識體系。因此,對碎片化的UGC知識進行從點到面、從局部到整體的多粒度組織十分必要。
UGC這一概念在2005年由O'Reilly學者首次提出[1],隨后在國內(nèi)外受到了學者們的廣泛關(guān)注??傮w來說,可以將有關(guān)UGC的研究劃分為基礎(chǔ)理論研究、應(yīng)用研究以及“碎片化”研究等幾個方面。UGC基礎(chǔ)理論研究包括內(nèi)涵研究、生成動機研究、傳播機制研究、質(zhì)量研究、內(nèi)容分析研究以及法律問題研究等;UGC應(yīng)用研究主要涵蓋了教育、地理、電商、民主政治、公共媒體、圖書館、博物館等領(lǐng)域;UGC“碎片化”研究可以分為對UGC碎片化現(xiàn)象和內(nèi)容的研究兩個部分,新聞傳播領(lǐng)域的學者主要針對“碎片化”現(xiàn)象進行研究[2],計算機科學、圖書檔案和信息科學等領(lǐng)域的學者主要針對“碎片化”內(nèi)容進行相關(guān)研究,以知識圖譜和知識地圖的形式結(jié)構(gòu)發(fā)現(xiàn)和揭示碎片化知識間的關(guān)聯(lián)[3-5]??傮w來說,針對UGC碎片化的研究還相對較少,研究的方向較為單一。
知識組織(knowledge organization)的概念最早由美國分類法專家布利斯在1929年提出[6]。在知識組織的過程中,組織單元的選擇至關(guān)重要。知識元是不可分割的最小知識單元。溫有奎[7]和姜永常等[8]通過系統(tǒng)論證,認為知識元應(yīng)該是進行知識組織的基本單位,姜永常等[8]還具體給出了基于知識元的知識組織流程,包括知識元抽取、知識分類與標引、知識元庫和知識倉庫構(gòu)建四個部分[7];陳果等[9-10]提出知識元可以是細粒度的具備語義完整性的知識組織單位[9],并且界定了具有一定領(lǐng)域性特征資源中知識元的概念[10];李銳等[11]以學科已有的層次結(jié)構(gòu)為基礎(chǔ)建立知識模塊,并將知識模塊進一步劃分為多個子模塊,將子模塊看作一個知識元來建立知識組織體系,該方法有一定的參考價值,但對知識元的描述不夠準確且適用范圍有限。還有部分學者提出了要對不同粒度的知識進行多粒度組織。徐緒堪等[12]將客體知識通過分類和聚類的方式分為不同粒度的知識,結(jié)合用戶需求對多粒度的知識進行組織;馮儒佳等[13]對科技文獻進行了多粒度知識組織建模,對科技文獻資源和知識元分別進行了粗、中、細粒度的劃分,并建立了不同粒度資源和知識元之間的映射,實現(xiàn)了基于科技文獻的多粒度知識組織和集成。
當前面向UGC的知識組織研究相對較少,根據(jù)組織對象的不同,主要可以劃分為兩個部分:面向UGC文獻的知識組織和面向UGC內(nèi)容的知識組織。
面向UGC文獻的知識組織主要是借助相關(guān)的詞表或構(gòu)建相應(yīng)的領(lǐng)域本體知識庫對UGC文獻進行知識組織。丁文姚等[14]結(jié)合FOAF(friend-of-afriend)詞表對UGC用戶信息進行組織。么媛媛等[15]基于本體理論構(gòu)建UGC、用戶和發(fā)布平臺三個元概念及元關(guān)系構(gòu)建了一套UGC元數(shù)據(jù)標準模板。胡華[16]提出了結(jié)合UGC信息源中半結(jié)構(gòu)化的維基百科信息和UGC信息源中非結(jié)構(gòu)化的文本資源信息的本體構(gòu)建方法體系。陳果[9]在構(gòu)建領(lǐng)域知識庫的基礎(chǔ)上,結(jié)合知識庫中的語義關(guān)聯(lián)以及UGC資源中的共現(xiàn)相似度生成知識元鏈接,對UGC文檔中的知識元進行了標識并建立了和文檔資源的鏈接。唐曉波等[17]基于詞性規(guī)則和中心詞進行概念和概念短語的抽取,應(yīng)用互信息和左右信息熵的統(tǒng)計方法進行概念過濾,建立了基于UGC信息源的本體概念抽取模式。鄭姝雅等[18]提出了一套自動構(gòu)建UGC本體的方法,完成了領(lǐng)域UGC本體的自動構(gòu)建。
面向UGC內(nèi)容的知識組織主要從主題角度出發(fā)進行知識組織,需要借助各種主題模型來確定文檔-主題以及主題-詞之間的概率關(guān)系。趙華[19]基于主題模型構(gòu)建了UGC主題層次體系,結(jié)合用戶建模和社區(qū)發(fā)現(xiàn)建立三維度關(guān)聯(lián)并對UGC進行信息組織。金碧漪[20]對來自大眾普遍使用的社交媒體上的多種疾病數(shù)據(jù)進行采集分析,提煉健康主題,提取特征詞匯及特征詞間關(guān)系,最終構(gòu)建了消費者健康知識圖譜。陳曉威[21]以話題為基本知識單元,借助LDA(latent Dirichlet allocation)主題模型生成社會化問答平臺“文檔-主題”概率矩陣,并通過二元圖投影構(gòu)建知識網(wǎng)絡(luò)模型。
綜上,通過對相關(guān)研究進行梳理和分析后發(fā)現(xiàn),目前圖書情報學領(lǐng)域關(guān)于UGC的相關(guān)研究較少,特別是在UGC內(nèi)容組織方面,還缺乏較為系統(tǒng)和成熟的研究。已有的UGC知識組織研究多側(cè)重于從概念層次或利用主題模型來對UGC中的知識進行組織,前者對知識的描述形式過于單一,粒度過粗,后者在海量的碎片化UGC內(nèi)容中存在很大的主題漂移風險;且已有的面向UGC的知識組織研究中較少考慮人的認知規(guī)律,難以提供個性化服務(wù)。為此,如何在已有組織方法的基礎(chǔ)上探尋新的符合UGC特點和用戶認知規(guī)律的知識組織方法成為UGC知識組織研究的一種發(fā)展趨勢。
在上述分析的基礎(chǔ)上,本課題組提出了基于碎片化UGC的多粒度知識組織模型[22]。如圖1所示,該模型自下而上分為三個模塊:碎片化UGC知識元抽取、碎片化UGC多粒度關(guān)聯(lián)、碎片化UGC多粒度索引。①碎片化UGC知識元抽取。先借助知識要素抽取算法,從碎片化UGC中抽取組成知識元的知識要素,接著借助改進的K-means方法對知識要素進行聚類,得到知識元的屬性特征,最后根據(jù)知識元描述模型生成面向碎片化UGC的知識元。②碎片化UGC多粒度關(guān)聯(lián)。先借助概念匹配方法發(fā)現(xiàn)知識元之間的等同關(guān)聯(lián),然后利用多階關(guān)聯(lián)分析方法發(fā)現(xiàn)知識元之間的非等同關(guān)聯(lián)。③碎片化UGC多粒度索引。先基于RDF(resource description framework)描述框架建立面向UGC的細粒度的知識元索引,然后在此基礎(chǔ)上生成粗粒度的“概念→知識元”索引和概念索引,通過多粒度索引可以為UGC用戶提供多粒度的知識檢索服務(wù)。接下來,本文將詳細論述各部分的具體實現(xiàn)過程。
圖1 碎片化UGC多粒度知識組織模型[22]
知識元的抽取是知識組織的基礎(chǔ),為從碎片化的UGC中抽取出能夠完整表達知識內(nèi)容的最小單元,本課題組結(jié)合UGC文本的特性,基于知識元抽取的相關(guān)理論提出了一種面向碎片化UGC的知識元抽取方法[23],具體的抽取流程如圖2所示。
圖2 碎片化UGC知識元抽取流程[23]
(1)語料預(yù)處理。此階段主要任務(wù)是對語料庫中的UGC文本進行分詞和停用詞處理。UGC文本用詞隨意,因此包含很多無意義的特殊字符,如表情的轉(zhuǎn)換字符、錯詞等,需要去除。
(2)基 于BTM(balise transmission module)的文本分割。先根據(jù)Gibbs采樣算法構(gòu)建BTM模型;接著由BTM模型推導出UGC文本的主題分布[24],即文本的主題向量;最后由主題向量的余弦相似度計算文本之間的相似度。對于相似度達到閾值m且與線索詞所在語句相鄰的文本,將其合并為一個文本片段,即知識要素的具體內(nèi)容;若未達到閾值m,則中止相關(guān)文本片段搜索,文本分割完成。
(3)基于改進K-means方法的文本聚類。為了克服傳統(tǒng)TextRank方法存在的不足,本文選取中文維基百科數(shù)據(jù)作為GloVe(global vectors)詞向量訓練的語料生成GloVe詞向量,基于GloVe詞向量[25]對文本片段進行向量化表示。將文本片段的GloVe向量作為K-means輸入值,通過計算余弦相似度完成聚類中心初始化,然后進行知識要素聚類并測試不同的K值以獲取最佳聚類個數(shù)。
(4)知識元生成。知識元生成包括兩個步驟:知識元模型構(gòu)建和知識元要素標注。在知識元模型構(gòu)建中,本文定義了一個四元組來對知識元進行描述,即<id,標識詞,屬性,知識要素>。知識元要素標注主要是基于知識元模型,對從碎片化UGC中識別的知識要素進行標注,進而完成知識元的構(gòu)建。
為實現(xiàn)碎片化UGC的多粒度關(guān)聯(lián)構(gòu)建,本文先借助概念匹配方法構(gòu)建知識元間等同關(guān)系關(guān)聯(lián),然后借助多階關(guān)聯(lián)分析方法構(gòu)建知識元間非等同關(guān)系關(guān)聯(lián),最終形成碎片化UGC的多粒度關(guān)聯(lián)體系。
3.2.1 知識元等同關(guān)系關(guān)聯(lián)
當兩個知識元之間具有相同或相近的含義時,判定這兩個知識元之間具有等同關(guān)系的關(guān)聯(lián)。本文借助概念匹配的方式識別知識元之間的等同關(guān)系,通過對兩個知識元中所包含概念進行相似度計算來判斷。具體來說,本文借助已有的知識組織體系,將其中的等同和相近概念作為語料庫,對知識元標識詞進行概念匹配,若兩個知識元標識詞均匹配到同一概念,則判定這兩個知識元之間存在等同關(guān)系。在完成等同關(guān)系關(guān)聯(lián)后,對抽取后的UGC知識元描述模型加以擴展,即為KS=(id,標識詞,屬性,知識要素,概念關(guān)聯(lián)集),概念關(guān)聯(lián)集為上述操作后所形成的概念網(wǎng)絡(luò),具體可描述為概念關(guān)聯(lián)集=[(c1,c2,s1),(c1,c3,s2),…],其中c1、c2、c3為概念,s1、s2為關(guān)聯(lián),(c1,c2,s1)意為c1和c2以s1關(guān)系相關(guān)聯(lián)。然后進行知識元間等同關(guān)聯(lián)的構(gòu)建。具體來說,是對UGC中存在等同關(guān)系的知識元建立等同關(guān)聯(lián)。相應(yīng)地,知識元模型中的知識要素和屬性共享,概念集中的標識詞可互相替換。例如,設(shè)知識元A=(id1,標識詞c,屬性a,知識要素kn1,概念關(guān)聯(lián)集=[(c,c1,s1),(c,c2,s2)]),知識元B=(id2,標識詞c′,屬 性b,知 識 要 素kn2,概 念 關(guān) 聯(lián) 集=[(c′,c3,s3)]),如果標識詞c和標識詞c′概念匹配為等同關(guān)系,那么知識元A將具有知識要素kn2和屬性b,并在其概念關(guān)聯(lián)集中添加(c,c3,s3)。同理,對于知識元B而言,其也將具有知識要素kn1和屬性a,并在其概念關(guān)聯(lián)集中添加(c′,c1,s1)和(c′,c2,s2)。知識元A和知識元B的關(guān)聯(lián)如圖3所示。
圖3 UGC知識元等同關(guān)聯(lián)示例
3.2.2 知識元非等同關(guān)系關(guān)聯(lián)
當兩個UGC知識元之間存在關(guān)聯(lián)但不滿足概念匹配的條件時,即判斷這兩個知識元之間存在非等同關(guān)系。本文中對非等同關(guān)系的判斷借助于多階關(guān)聯(lián)分析的方式,該方法主要包括知識元標識詞對提取、二階知識發(fā)現(xiàn)、三階知識發(fā)現(xiàn)和關(guān)聯(lián)強度計算等。知識元標識詞對提取的主要任務(wù)是依據(jù)非相關(guān)知識元的知識表示模型,從非相關(guān)知識元中抽取出標識詞,構(gòu)建主題詞對。二階和三階知識發(fā)現(xiàn)的主要功能是挖掘出非相關(guān)知識元之間可能存在的各種潛在關(guān)聯(lián)關(guān)系(圖4)。二階(實線部分)和三階(虛線部分)知識發(fā)現(xiàn)流程為:①以非相關(guān)知識元a為起始知識單元,發(fā)現(xiàn)所有與知識元a相關(guān)聯(lián)的中間知識元b;②將中間知識元b和目標非相關(guān)知識元c的標識詞組成主題詞對進行共現(xiàn)匹配,若匹配結(jié)果不為空,則記錄知識元b和c之間的共現(xiàn)頻次;若匹配結(jié)果為空,則說明知識元b和c之間不存在關(guān)聯(lián),返回,繼續(xù)以中間知識元b為起始點,發(fā)現(xiàn)所有與知識元b存在共現(xiàn)關(guān)系的中間知識元d;③將中間知識元d和目標知識元c的標識詞組成主題詞對進行共現(xiàn)匹配,若匹配結(jié)果不為空,則記錄知識元d和c之間的共現(xiàn)頻次;若為空,則說明知識元d和c之間不存在關(guān)聯(lián),終止整個循環(huán);④依據(jù)二階和三階關(guān)聯(lián)發(fā)現(xiàn)的結(jié)果,構(gòu)建起始知識元a和目標知識元c之間的鏈接,借助相關(guān)推理規(guī)則或公式分析出非相關(guān)知識元a和c之間的關(guān)聯(lián)類型。
圖4 多階關(guān)聯(lián)分析流程
關(guān)聯(lián)強度計算的主要功能是基于非相關(guān)知識元之間的共現(xiàn)關(guān)系,計算兩個非相關(guān)知識元之間的相關(guān)強度,即,
當兩個非相關(guān)知識元的相關(guān)性程度低于閾值時,舍棄;當兩個非相關(guān)知識元的相關(guān)性程度超過一定的閾值時,在它們之間建立關(guān)聯(lián)關(guān)系,從而實現(xiàn)非等同關(guān)系的發(fā)現(xiàn)。其中,n為中間知識元的個數(shù),n=1,表示二階知識發(fā)現(xiàn),n=2,表示三階知識發(fā)現(xiàn);li為中間知識元;f(x,y)表示知識元x和y的直接關(guān)聯(lián)度,其計算方法為
其中,pxy為標識詞x和y在各種粒度大小的知識元中共現(xiàn)的概率;px、py分別表示標識詞x和y出現(xiàn)的概率。pxy的計算方法為
其中,m為知識元粒度劃分的類別個數(shù);qxy為標識詞x和y在相同粒度大小的知識元中共現(xiàn)的概率。
為實現(xiàn)對碎片化UGC建立語義層面的多粒度索引,本文依據(jù)語義索引模式提出了面向碎片化UGC的多粒度索引方式,如圖5所示。首先,以UGC知識元描述模型為基礎(chǔ)構(gòu)建細粒度的知識元索引,以多粒度關(guān)聯(lián)為基礎(chǔ)構(gòu)建粗粒度的概念-知識元索引和概念索引,三者結(jié)合構(gòu)成面向碎片化UGC的多粒度語義索引模式;其次,用戶在輸入檢索詞表達檢索需求后,先對檢索詞進行基本處理,然后在知識元索引中搜尋相關(guān)知識元內(nèi)容,再根據(jù)概念-知識元索引獲取命中知識元的對應(yīng)概念,接著根據(jù)概念索引完成知識元概念層的定位;最后,返回命中知識元和其知識元概念層級結(jié)構(gòu),呈現(xiàn)詳細知識元語義信息,且在此基礎(chǔ)上用戶可點擊知識元結(jié)構(gòu)中的概念描述集和知識元關(guān)系關(guān)聯(lián)圖,將以在三種語義索引中搜尋的方式返回檢索結(jié)果,實現(xiàn)不同粒度知識元間的相互跳轉(zhuǎn),從而在語義層面上深入擴展用戶檢索需求。
圖5 碎片化UGC多粒度索引
3.3.1 細粒度的知識元索引
知識元是UGC的基本知識單元,是細粒度的知識構(gòu)件,建立知識元索引將滿足對細粒度UGC知識的檢索需求。UGC知識元描述模型及其擴展概念關(guān)聯(lián)集是構(gòu)建知識元索引的基礎(chǔ),RDF描述框架則為具體的索引實現(xiàn)提供描述方式。本文選擇以RDF為描述框架,依據(jù)UGC知識元描述模型對知識元建立索引,如圖6所示。
圖6 知識元索引
具體來說,UGC知識元模型表示為五元組,即(id,標識詞,屬性,知識要素,概念關(guān)聯(lián)集),id、標識詞、知識要素和屬性都可以直接表示為(主體,謂詞,客體)的三元組形式,其中屬性描述的是知識要素的特征,因此,其三元組形式為(知識元,屬性,知識要素)。概念關(guān)聯(lián)集是知識要素中的概念及其關(guān)聯(lián)的集合,因此,其三元組中的謂詞為概念關(guān)聯(lián)集類型,客體為概念關(guān)聯(lián)集,概念關(guān)聯(lián)集中又包含概念關(guān)聯(lián)所轉(zhuǎn)換的三元組,比如,若知識元G的概念關(guān)聯(lián)集為[(c,c1,s1),(c,c2,s2)],則概念關(guān)聯(lián)集所轉(zhuǎn)換的三元組為(知識元,概念關(guān)聯(lián)集,[(c,c1,s1),(c,c2,s2)])。綜上,基于RDF描述框架對UGC知識元完成三元組描述。
UGC知識元轉(zhuǎn)換為基于RDF的三元組描述方式后,就能夠根據(jù)主體、謂詞和客體建立知識元索引。一個UGC知識元可轉(zhuǎn)換為多個三元組,三元組屬性中含有知識元中的某個特征項,將所有主體作為一個虛擬文檔索引單位建立倒排文檔,將主體里的內(nèi)容作為索引對象,謂詞和客體以同樣的方式建立索引。知識元索引除了對知識元模型參數(shù)建立索引之外,還需要對知識元的直接關(guān)聯(lián)知識元建立索引,例如,若知識元K1與知識元K2之間存在關(guān)聯(lián)s,則有三元組(K1,s,K2),建立索引時K1與K2為知識元唯一標識符。
3.3.2 粗粒度的概念索引
知識元索引能夠?qū)GC知識元進行三元組檢索,檢索知識元的各項屬性和特征,并且能夠索引與知識元直接關(guān)聯(lián)的其他知識元。但其從單個知識元出發(fā),對知識元關(guān)聯(lián)的特征標引只考慮了直接關(guān)聯(lián),對整體知識元關(guān)聯(lián)結(jié)構(gòu)的標引不充分。為了提升UGC多粒度關(guān)聯(lián)標引的效率,本文提出了構(gòu)建粗粒度的概念索引來解決這一問題。概念索引是UGC知識元在概念層的關(guān)聯(lián)索引。概念索引具體分為概念-知識元索引和概念索引兩部分,如圖7所示。
圖7 概念索引
概念-知識元索引所標引的是一個概念與多個知識元之間的關(guān)系,即多個具有相同概念含義的知識元與概念之間的關(guān)系。概念-知識元索引提供兩個方面的檢索服務(wù),一是搜尋某一概念下的所有知識元,二是由某個知識元查詢其所屬概念,從而可以獲取與知識元相關(guān)的其他知識元,既可能包含直接關(guān)聯(lián)知識元,也可能包含間接關(guān)聯(lián)知識元,也可以根據(jù)知識元所屬概念層定位。概念-知識元索引同樣采用三元組形式,主體為概念,謂詞為包含,客體為概念所屬知識元。概念索引建立是在概念-知識元索引的基礎(chǔ)上所建立的概念層概念之間關(guān)聯(lián)的索引,概念索引反映的是概念之間的層級關(guān)聯(lián),而層級關(guān)聯(lián)來源于不同概念所包含的知識元間的關(guān)聯(lián)。概念層可視為粗粒度的知識關(guān)聯(lián)層,概念索引的三元組描述為(概念,層級關(guān)系,概念),層級關(guān)系為上下級關(guān)系。概念索引展現(xiàn)概念間粒度關(guān)系,可將概念分解為多個細粒度的概念,又可獲取更粗粒度的概念。
綜上,概念索引作為概念層結(jié)構(gòu)索引,提供總架構(gòu);概念-知識元索引將多個知識元與概念建立索引;知識元索引提供與知識元相關(guān)的各項屬性特征檢索,為最細粒度的知識單元索引。這三者結(jié)合起來既可以提供細粒度的知識元檢索,又可以根據(jù)粗粒度的概念檢索,不同粒度概念之間也可相互跳轉(zhuǎn),而概念又可由細粒度知識元集來揭示,從而滿足UGC的多粒度索引與檢索的需求。
本文的實驗數(shù)據(jù)分別來自CSDN(Chinese soft‐ware developer network)和博客園兩種專業(yè)博客。之所以選取這兩種博客作為實驗數(shù)據(jù)的來源,其原因主要在于它們具有較高的知識密度[26],這有利于克服碎片化UGC多源分布性導致的知識內(nèi)容離散分布的問題,進而提高知識要素抽取和知識元生成的效率。具體而言,首先,借助網(wǎng)絡(luò)爬蟲從CSDN和博客園中爬取與“檢索”這一主題相關(guān)的UGC文本片段;然后,借助NLPIR(natural language pro‐cessing and information retrieval)分 詞 工 具,融 合“檢索”相關(guān)的詞條,對爬取的UGC文本片段進行分詞,并去除分詞結(jié)果中的停用詞。
UGC多粒度關(guān)聯(lián)實證包括三個部分:生成知識元概念關(guān)聯(lián)集,獲取知識元等同關(guān)系,獲取知識元非等同關(guān)系。
4.2.1 概念關(guān)聯(lián)集創(chuàng)建
本文選擇分類-主題詞表和維基百科數(shù)據(jù)作為已有知識組織體系數(shù)據(jù),采用命名實體識別的技術(shù)方法,對UGC知識元知識要素進行概念識別,在識別出的概念之間進行關(guān)聯(lián)查找。關(guān)聯(lián)查找先是從已有知識組織體系中提取,若出現(xiàn)沖突則以分類-主題詞表為準,在此基礎(chǔ)上對于沒有識別出關(guān)聯(lián)的概念,再使用基于規(guī)則和句法結(jié)構(gòu)的方法提取部分關(guān)系。表1為“搜索引擎”下的部分知識元概念關(guān)聯(lián)集。
表1 “搜索引擎”標識詞下的部分知識元概念關(guān)聯(lián)集
4.2.2 知識元等同關(guān)聯(lián)構(gòu)建
等同關(guān)聯(lián)實證分為兩步。首先,在已有知識組織體系中查詢兩個知識元標識詞之間是否為等同概念,若滿足條件,則將兩個知識元視為等同關(guān)聯(lián)知識元;否則,計算兩個知識元的知識要素的相似度,再根據(jù)相似度進行判斷。具體而言,先以知識元抽取中所構(gòu)建的BTM+GloVe的語義向量作為知識要素向量,計算向量余弦值,若其大于閾值,則視為知識要素相關(guān)性強;然后進入知識元概念關(guān)聯(lián)集相似度的判斷,比較概念關(guān)聯(lián)集中關(guān)聯(lián)邊,每條邊以完全匹配的方式判斷,即節(jié)點及節(jié)點間的關(guān)系都需要完全相匹配才能判定兩條邊一致;具有等同概念關(guān)系的節(jié)點視為相同節(jié)點,若關(guān)聯(lián)集相似度高于閾值,則判定知識元具備等同關(guān)系。本文共構(gòu)建了56對等同關(guān)聯(lián),其中與“倒排索引”等同關(guān)聯(lián)的知識元及關(guān)聯(lián)判定依據(jù)如表2所示。
表2 與“倒排索引”等同關(guān)聯(lián)的知識元及關(guān)聯(lián)判定依據(jù)
若知識組織體系匹配為1,則表示在已有知識組織中有匹配到等同關(guān)系;若為0,則表示沒有,需要進行下一步;Null表示不需要進行下一步便可判定有等同關(guān)聯(lián)。為了便于直觀查看,這里的知識元直接用概念標識詞表示,實際是指概念標識詞中的某個知識元,省略了知識元id。需要注意的是,若知識元具有等同關(guān)系,則其各自所屬的概念標識詞之間也具備等同關(guān)系;但若概念標識詞具有等同關(guān)系,則其下屬知識元之間不能認為有等同關(guān)系。
4.2.3 知識元非等同關(guān)聯(lián)構(gòu)建
關(guān)于非等同關(guān)聯(lián)的判定,首先在已有知識組織體系中查詢兩個知識元標識詞之間是否存在除等同關(guān)系以外的其他關(guān)聯(lián)關(guān)系,如層級和相關(guān)關(guān)系。若有,則作為兩個知識元間的關(guān)聯(lián)關(guān)系;若無,則基于概念關(guān)聯(lián)集,借助于多階關(guān)聯(lián)分析的方式來識別知識元之間的非等同關(guān)聯(lián)關(guān)系。本實驗共構(gòu)建了274對非等同關(guān)聯(lián),其中部分非等同關(guān)聯(lián)的知識元及關(guān)聯(lián)如表3所示。
從表3可以看出,“檢索”和“圖像檢索”之間存在層級關(guān)系,“音樂檢索”和“哼唱檢索”存在包含關(guān)系,“模糊檢索”和“精確匹配”、“查準率”和“召回率”、“創(chuàng)建索引”和“分詞器”、“布爾檢索”和“布爾邏輯”之間存在相關(guān)關(guān)系。
表3 非等同關(guān)聯(lián)的知識元及關(guān)聯(lián)關(guān)系(部分)
4.3.1 UGC多粒度索引創(chuàng)建
對于上文所得到的UGC知識元和知識元關(guān)聯(lián),將其以知識元語義描述模型的方法存儲到數(shù)據(jù)庫中,本節(jié)選擇關(guān)系型數(shù)據(jù)庫MySQL存儲數(shù)據(jù),調(diào)用lucene架包實現(xiàn)索引創(chuàng)建。從數(shù)據(jù)庫中讀取出數(shù)據(jù),根據(jù)上述內(nèi)容創(chuàng)建知識元索引、概念-知識元索引和概念索引,生成倒排文檔。其中,對知識元索引的主體和客體采用Field.Store.YES,Field.Index.TOKENIZED索引,既存儲也分詞;謂詞采用Field.Store.YES,Field.Index.UN_TOKENIZED索引但不分詞;對于概念-知識元索引和概念索引,三元組均采用索引但不分詞方式創(chuàng)建索引。每個索引生成相應(yīng)索引文件。
4.3.2 UGC多粒度知識組織檢索服務(wù)
本文實證的最終模塊是為用戶提供檢索服務(wù)。用戶輸入檢索詞,如圖8所示,在生成的索引文件中進行檢索,并返回結(jié)果。為直觀展示檢索結(jié)果,本文選擇以可視化的方式顯示檢索結(jié)果界面,如圖9所示,其主要包含四個部分內(nèi)容,左上為與檢索式相匹配的知識元整體模型顯示,點擊其中的概念標識詞會返回同一標識詞下的所有知識元,左下為知識元對應(yīng)知識要素,右上為該知識元所在的概念上下層級結(jié)構(gòu),點擊可進行不同粒度概念跳轉(zhuǎn),右下為與該知識元直接相關(guān)聯(lián)的其他知識元,點擊將跳轉(zhuǎn)為該知識元可視化界面。
圖8 輸入“搜索引擎”關(guān)鍵詞查詢
圖9 查詢返回可視化界面
本文以知識元作為知識組織的基本單位,首先,借助知識要素的抽取和聚類生成面向UGC內(nèi)容的知識元;其次,通過概念匹配和多階關(guān)聯(lián)分析的方法構(gòu)建UGC知識元間的多粒度關(guān)聯(lián)關(guān)系;最后,以RDF三元組描述框架構(gòu)建UGC知識元索引、概念-知識元索引和概念索引,實現(xiàn)對碎片化UGC的多粒度知識組織。在此基礎(chǔ)上,以CSDN和博客園為UGC數(shù)據(jù)來源進行實證研究,研究結(jié)果證明了本文所提出的對碎片化UGC進行知識組織流程的有效性。雖然本文提出了一種面向UGC的多粒度知識組織的方法,但本文對面向UGC的多粒度知識服務(wù)的討論不夠深入,如何根據(jù)用戶需求構(gòu)建個性化知識服務(wù)尚需深入討論。為此,未來將基于用戶認知和行為特征進一步探究面向UGC的多粒度融合知識服務(wù)問題。