• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型*

      2021-11-22 13:04:08秦春秀鄭夢悅馬續(xù)補(bǔ)趙捧未
      情報(bào)雜志 2021年11期
      關(guān)鍵詞:細(xì)粒度關(guān)聯(lián)檢索

      秦春秀 鄭夢悅 馬續(xù)補(bǔ) 趙捧未

      (西安電子科技大學(xué)經(jīng)濟(jì)管理學(xué)院 西安 710071)

      0 引 言

      作為知識的重要載體,科技文獻(xiàn)是科研成果和科技創(chuàng)新的重要體現(xiàn)?,F(xiàn)有的科技文獻(xiàn)檢索系統(tǒng)大多是以篇為單位組織資源,檢索系統(tǒng)只能反饋整篇科技文獻(xiàn),科研人員需要花費(fèi)大量時(shí)間和精力在每篇文獻(xiàn)中尋找需要的知識單元。在科技文獻(xiàn)海量的今天,這一檢索方式不能滿足科研人員們精準(zhǔn)化的檢索需求。為此,研究科技文獻(xiàn)的細(xì)粒度知識組織方法,為用戶提供精準(zhǔn)化的細(xì)粒度知識單元服務(wù)顯得尤為迫切。

      針對上述問題,學(xué)者們已經(jīng)開展了科技文獻(xiàn)細(xì)粒度知識組織方法的研究??萍嘉墨I(xiàn)細(xì)粒度知識組織方法是以知識單元為基礎(chǔ),揭示文獻(xiàn)內(nèi)部知識內(nèi)容的知識組織方法[1]。目前基于知識單元的細(xì)粒度知識組織有很多研究與應(yīng)用,如劉東亮針對情報(bào)信息挖掘過程中數(shù)據(jù)存儲負(fù)載過高的問題,設(shè)計(jì)了一種基于知識單元挖掘的網(wǎng)絡(luò)文庫信息存儲模型,能有效降低文庫信息負(fù)載[2];李衛(wèi)民等基于實(shí)時(shí)動(dòng)態(tài)捕獲和挖掘前沿性文獻(xiàn)信息資源,提出了基于知識單元挖掘行業(yè)前沿文獻(xiàn)信息資源的模型,精準(zhǔn)化深度服務(wù)特色學(xué)科專業(yè)建設(shè),成為行業(yè)內(nèi)關(guān)注焦點(diǎn)[3];秦春秀等從細(xì)粒度的角度深入到科技文獻(xiàn)內(nèi)容中,構(gòu)建了一種面向科技文獻(xiàn)知識表示的知識元本體模型[5-6];李禎靜等基于語義鏈接網(wǎng)提出一種基于知識單元的細(xì)粒度知識組織方法,通過實(shí)驗(yàn)證明該方法具有良好的查全率和查準(zhǔn)率[7];劉杰等以知識元理論為基礎(chǔ),通過對知識元進(jìn)行抽取、標(biāo)引、連接、集成,構(gòu)成四層次六梯度的知識元映射,并對其進(jìn)行了示例和討論[8]; 謝慶球等提出一種知識元鏈接的文本資源空間模型及其構(gòu)建方法,并進(jìn)行了實(shí)驗(yàn)?zāi)M,結(jié)果表明該方法在一定程度上是可行的[9]??梢?,知識單元在實(shí)際應(yīng)用中取得了較好的成效。但現(xiàn)有的細(xì)粒度知識組織方法存在以下不足:細(xì)粒度知識組織過程中的語義鏈接大多是在語法層次上進(jìn)行操作,沒有全面考慮知識單元的語義相似性和語用關(guān)聯(lián);大部分細(xì)粒度知識組織方法只是對索引簡單模型化,沒有實(shí)現(xiàn)對知識單元導(dǎo)航;沒有充分考慮知識單元主題間的句法匹配、語義匹配以及語用關(guān)聯(lián)關(guān)系;在對知識單元處理的過程中,抽取知識單元的關(guān)鍵詞的方法有一定的局限性。

      作為主題圖的一種,智能主題圖[10-11](Intelligent Topic Map,ITM)不再局限于只是把索引模型化,而是擴(kuò)展到對文本內(nèi)容中的知識單元進(jìn)行導(dǎo)航,實(shí)現(xiàn)對文本內(nèi)容的檢索。智能主題圖具有知識結(jié)構(gòu)化的特點(diǎn),通過建立主題之間的關(guān)聯(lián)、知識單元之間的關(guān)聯(lián)、主題與知識單元之間的關(guān)聯(lián)等,側(cè)重知識間的關(guān)聯(lián)性,能較好地表達(dá)知識間的相互關(guān)系,實(shí)現(xiàn)對資源的準(zhǔn)確定位,有助于用戶快速定位相關(guān)的資源,節(jié)省檢索時(shí)間。為此,本文以智能主題圖為理論基礎(chǔ),探索對科技文獻(xiàn)內(nèi)部知識的有序化,從細(xì)粒度角度出發(fā)抽取文獻(xiàn)中的知識單元,建立主題間、知識單元間以及主題與知識單元間的關(guān)聯(lián),最終嘗試構(gòu)建一個(gè)基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型。

      1 基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型

      本文提出的基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型是從細(xì)粒度知識單元角度出發(fā),由科技文獻(xiàn)的主題、知識單元及它們之間的語義關(guān)系組成,能表達(dá)知識資源多層次、細(xì)粒度的知識資源特征,建立“主題-知識單元-文獻(xiàn)”三者之間的關(guān)系。這個(gè)模型包括七個(gè)要素:主題、主題關(guān)聯(lián)關(guān)系、知識單元、知識單元關(guān)聯(lián)關(guān)系、主題與知識單元關(guān)聯(lián)關(guān)系、科技文獻(xiàn)、科技文獻(xiàn)與知識單元之間的關(guān)系,如圖1所示。

      圖1 基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型

      本文提出的基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型簡稱為TSLM(A fine-grained knowledge organization model for scientific and technical literature based on topic map),它可形式化描述為一個(gè)七元組如下:

      TSLM=(SL,KU,T,Akk,Akt,Att,ET)

      SL(Scientific Literature)= {sl1,sl2,sl3,…… ,sln}為該模型所組織的科技文獻(xiàn)集合,對應(yīng)圖中的“資源層”。

      KU(Knowledge Unit)= {ku1,ku2,ku3,…… ,kun}為從科技文獻(xiàn)中抽取出來的知識單元集合,對應(yīng)圖中的“知識單元層”?!爸R單元層”是由從科技文獻(xiàn)中抽取出來的知識單元以及它們之間的關(guān)聯(lián)組成。集合中的每個(gè)知識單元按照如下的六元組形式化描述:

      ku=(id,st,kw(kw1,kw2,kw3,…… ,kwn),text,type,title)

      其中,id(identification)為抽取知識單元時(shí)所賦予的編號,可以唯一識別該知識單元;st(subject term)為描述該知識單元核心內(nèi)容的主題詞,表現(xiàn)為一個(gè)短語或一個(gè)短句;kw(keywords)為提取知識單元核心內(nèi)容的關(guān)鍵詞集合,每個(gè)kwn表示一個(gè)關(guān)鍵詞;text為知識單元的內(nèi)容文本;type為知識單元的類型,比如數(shù)值型知識單元、事實(shí)型知識單元、概念型知識單元等;title為知識單元來源文獻(xiàn)的標(biāo)題。

      T(Theme)={t1,t2,t3,…… ,tn} 為主題集合,從第一層到第N層代表主題層和聚類層,層級越大說明該主題概念越抽象,涵蓋范圍越廣,越往下其涵蓋范圍越小。其中,除頂層無父主題,第一層無子主題,其它每一層都是上一層主題的子主題,同時(shí)也是下一層的父主題。圖中同層之間的連線表示主題與主題之間的關(guān)系,上下兩層主題之間的連線表示上層主題與下層主題之間的隸屬關(guān)系。

      Akk(Association between Knowledge Unit and Knowledge Unit)={Akk1,Akk2,Akk3,…… ,Akkn}表示知識單元之間的關(guān)系,如相似關(guān)系、創(chuàng)新關(guān)系、相關(guān)關(guān)系、繼承關(guān)系、屬性關(guān)系等[3]。其中,知識單元的相似度關(guān)系最為常見,實(shí)際應(yīng)用中也更為廣泛[4],為此,本文在細(xì)粒度知識組織過程中只考慮知識單元的相似關(guān)系。

      Akt(Association between Knowledge Unit and Theme)={Akt1,Akt2,Akt3,…… ,Aktn}表示知識單元與主題之間的聯(lián)系。

      Att(Association between Theme and Theme)={Att1,Att2,Att3,…… ,Attn}表示主題與主題之間的關(guān)聯(lián)[5]。

      ET(Extract)表示知識單元抽取方法,其含義為從科技文獻(xiàn)中抽取表示科技文獻(xiàn)內(nèi)容的知識單元。

      2 基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織過程

      基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織過程包括以下四個(gè)步驟:主題抽取,該步驟對科技文獻(xiàn)中的主題進(jìn)行抽取,抽取結(jié)果作為后期構(gòu)建聚類層的基礎(chǔ);知識單元抽取,該步驟對科技文獻(xiàn)中的知識單元進(jìn)行抽取,抽取結(jié)果為生成智能主題圖作鋪墊;主題聚類與關(guān)聯(lián),將相似度大于給定閾值的主題聚到一起;生成智能主題圖,該步驟計(jì)算知識單元間以及主題與知識單元間的相似度,并結(jié)合步驟三的結(jié)果生成智能主題圖?;谥悄苤黝}圖的科技文獻(xiàn)細(xì)粒度知識組織過程如圖2所示。

      圖2 基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織過程

      2.1主題抽取從科技文獻(xiàn)中挖掘科學(xué)研究主題已成為對科技文獻(xiàn)分析的研究熱點(diǎn)和核心內(nèi)容,大量的主題挖掘模型被提出,而潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是主題模型中最核心的模型之一,它是使用最廣泛、最具一般性的主題模型。另外,研究表明,用摘要作為語料,能廣泛全面的抽取一篇科技文獻(xiàn)的主題,是構(gòu)建LDA文本語料庫比較理想的選擇[12]。因此本文采用LDA方法以科技文獻(xiàn)的摘要作為語料庫進(jìn)行主題抽取。

      由于我們抽取的主題對應(yīng)的是所提出模型中的第一層主題,第一層主題希望得到更多的主題信息,因此應(yīng)該選擇較多的詞語。根據(jù)LDA算法思想,本研究主題抽取的具體步驟如下:

      步驟1:將所有文獻(xiàn)的pdf格式轉(zhuǎn)換為txt格式,將每篇文獻(xiàn)中的摘要抽取出來保存到新的txt文檔中,文檔命名為“摘要-”+標(biāo)題。

      步驟2:對N篇文檔集合中的每篇文檔d做分詞,并過濾掉無意義詞,得到語料集合W={w1,w2,w3,……,wN}。

      步驟3:為語料集合W中的每個(gè)詞wi隨機(jī)賦予一個(gè)主題編號t,作為初始主題。

      步驟4:通過吉布斯采樣公式,重新采樣每個(gè)wi的所屬主題t,并在語料中更新,直到吉布斯采樣收斂。

      步驟5:統(tǒng)計(jì)語料庫中的主題-詞共現(xiàn)頻率矩陣,該矩陣就是LDA的模型,最后生成文檔-主題概率分布。

      經(jīng)過以上的步驟,就得到一個(gè)訓(xùn)練好的LDA模型,接下來就可以根據(jù)模型對新文檔的主題進(jìn)行預(yù)估,具體操作如下:

      對當(dāng)前文檔做分詞,并過濾掉無意義詞,對剩下的每個(gè)詞隨機(jī)賦予一個(gè)主題編號t;

      通過吉布斯采樣公式,重新采樣每個(gè)詞的所屬主題t,并在語料中更新,

      重復(fù)以上步驟直到吉布斯采樣收斂;

      統(tǒng)計(jì)文檔中的主題分布即為預(yù)估結(jié)果。

      2.2知識單元抽取本文將根據(jù)科技文獻(xiàn)的文本結(jié)構(gòu)對其內(nèi)部的知識單元進(jìn)行抽取,文本結(jié)構(gòu)是由物理結(jié)構(gòu)和邏輯結(jié)構(gòu)兩部分組成[13]。文獻(xiàn)的物理結(jié)構(gòu)表示了文獻(xiàn)的組成,包含標(biāo)題、章、節(jié)、段等。文獻(xiàn)的邏輯結(jié)構(gòu)著重表示文本的思想內(nèi)容,包含主題、層次、段落、主題詞等。首先通過對文獻(xiàn)的章、節(jié)、段等物理結(jié)構(gòu)的分析,采用向量空間模型表示文本的各個(gè)部分;接著對其進(jìn)行文本的邏輯結(jié)構(gòu)分析,重點(diǎn)是劃分文本層次,文本的層次劃分是根據(jù)同一層次的若干連續(xù)自然段共同支持該層次表達(dá)的主要思想,因此,可采用有序聚類的方式劃分文本層次[10,14],并找出該層次的主題。

      本文主要抽取概念類知識單元和方法類知識單元。文獻(xiàn)[14]中描述了概念類知識單元通常含有以下規(guī)則:“是(指)/指(的是)/定義為/被定義為/…”,設(shè)這些規(guī)則集合為ru1;方法類知識單元通常具有以下規(guī)則:“是一種…方法/定義…方法/基于…方法,提出…/展示…方法/采用…(方法)/提出…方法/…”,設(shè)這些規(guī)則集合為ru2。

      設(shè)科技文獻(xiàn)SL具有n個(gè)自然段p,k個(gè)知識單元ku,知識單元是由若干個(gè)自然段構(gòu)成的,則有組成關(guān)系

      SL={ku1,ku2,ku3,…,kuk}={pi1,…,pi2-1}{pi2,…,pi3-1}…{pik,…,pik+1-1}

      其中,i1=1≤ik≤ik-1=n。

      則知識單元抽取過程如下:

      步驟1:將科技文獻(xiàn)按段落進(jìn)行劃分并進(jìn)行相應(yīng)的編號,SL={p1,p2,p3,…,pn};

      步驟2:對段落pi(1

      步驟3:設(shè)段落pi的特征項(xiàng)集為{t1,t2,t3,…,tm},pi={wi1,wi2,wi3,…,wim}為第i個(gè)段落的特征向量,其中wij為特征項(xiàng)tj在第i段中的權(quán)重,則科技文獻(xiàn)的特征矩陣為:

      步驟4:計(jì)算k個(gè)知識單元內(nèi)部差異量:

      步驟5:計(jì)算知識單元總體誤差:Sij(Cij用來存儲每次的分割點(diǎn))

      Sij=Dij,j=1,2,…,n

      Cij=ik,i=2,3,…,k,j=i+1,…,n

      步驟6:得出最佳k分法:

      {i1=pi1,…,pi2-1},{pi2,…,pi3-1},…,{pik,…,pn}

      步驟7:判斷知識單元中是否包含ru1或ru2中的規(guī)則,進(jìn)一步判斷知識單元類型。

      2.3主題聚類與關(guān)聯(lián)基于智能主題圖中聚類層層次化的特點(diǎn),本文選用層次聚類的方法對主題進(jìn)行聚類。層次聚類中采用的全信息匹配算法實(shí)現(xiàn)了語法、語義和語用匹配,該方法在查全率、查準(zhǔn)率等方面均優(yōu)于單純采用語義或語用的相似性算法[15]。全信息匹配算法的具體過程將在3.4小節(jié)中介紹。主題聚類過程如下所示:

      第一輪聚類:假設(shè)每個(gè)主題為一類,采用全信息相似性算法計(jì)算任意兩個(gè)主題間的相似性,并選擇相似性最大的兩個(gè)主題聚為一類,這樣類別數(shù)就少了一個(gè),重新計(jì)算新類和舊類(去掉已經(jīng)合并的兩個(gè)類)之間的相似度,重復(fù)此聚類過程,直到類之間的相似性比設(shè)定的閾值小。設(shè)L表示主題層,則L1Fi(1≤i≤m)表示第一個(gè)主題層的第i個(gè)主題,m表示第一個(gè)主題層的主題個(gè)數(shù)。L2Sf(1≤f

      第二輪聚類:第二輪聚類與第一輪聚類相似。L3Ts(1≤s

      重復(fù)此聚類過程,直到得到滿足條件的聚類主題,則停止聚類,整個(gè)聚類過程結(jié)束,主題間的關(guān)聯(lián)在聚類過程中由全信息相似性算法得出。

      2.4生成智能主題圖本小節(jié)計(jì)算知識單元間、主題間以及主題與知識單元間的相似度,這是生成智能主題圖的關(guān)鍵。

      2.4.1 知識單元間以及主題間的相似度計(jì)算

      知識單元間以及主題間的相似度計(jì)算采用Lu等[15]提出的基于綜合信息論的相似性度量方法,該方法不僅考慮了語法層次上的相似度計(jì)算,也考慮了語義和語用層面的匹配,它的相似性計(jì)算過程包含句法匹配、語義匹配和語用匹配三方面。具體過程如下:

      句法匹配:通過分析主題或知識單元的組成特征來計(jì)算句法相似度。

      當(dāng)鏈接一對主題(或知識單元)時(shí),語法相似度SIMsyntatic(w1,w2)定義如下:

      c表示兩個(gè)單詞中包含的最大公共子字符串的字符數(shù),|w1|和|w2|表示一對主題(或知識單元)的字符數(shù)。

      語義匹配:語義匹配分析關(guān)于同義詞的語義相似性。給出一對主題(或知識單元),假設(shè)主題(或知識單元)為詞集合,ES為詞與詞相似度值集合= {sv1,sv2,…,svm*n}。將ES分為四個(gè)區(qū)間:A: [0.0, 0.1),B: [0.1, 0.2),C: [0.2, 0.8),D:[0.8, 1.0)。我們分析了這四種相似度值區(qū)間對詞語相似度、認(rèn)知歧義度的貢獻(xiàn)。語義相似度定義如下:

      SIMsemantic(w1,w2)=

      詞義相似度定義如下:

      SIMsense=β1SIMMP+β2SIMOP+β3SIMRP+β4SIMSP

      β1+β2+β3+β4=1

      其中,β1、β2、β3、β4表示權(quán)重,SIMMP是主要義原相似度,SIMOP為基本義原相似度,SIMRP為關(guān)系義原相似度,SIMRP為符號義原相似度。義原相似度計(jì)算方法參考文獻(xiàn)[16]。

      語用匹配:語用匹配計(jì)算動(dòng)態(tài)語義相似度,解決了一詞多義問題。它考慮了語言語境中的語用關(guān)聯(lián)。當(dāng)鏈接一對主題時(shí),語用相似度用(Ta, Tb)定義如下:

      SIMpramatic(Ta,Tb)=wSIMpt(CTa,CTb)+(1-w)SIMpk(CKa,CKb)

      式中,SIMpt(CTa,CTb)為集合CTa與CTb之間的相似性,CTa是與主題Ta直接相關(guān)的所有主題的集合,CTb是與主題Tb直接相關(guān)的所有主題的集合,φ1表示CTa中的主題,φ2表示CTb中的主題。SIMpt(CTa,CTb)的定義如下:

      其中,SIMpk(CKa,CKb)為集合CKa與CKb之間的相似性,CKa是與主題Ta直接相關(guān)的所有知識單元的集合,CKb是與主題Tb直接相關(guān)的所有知識單元的集合,SIMpk(CKa,CKb)的計(jì)算方法與公式5相同。

      2.4.2 提取主題與知識單元間的相似度并生成智能主題圖 對于每個(gè)知識單元、主題以及聚類層生成的主題通過下述步驟建立主題與知識單元之間的關(guān)聯(lián),由此可生成智能主題圖。設(shè)主題節(jié)點(diǎn)集T={ti|1≤i≤m},知識單元節(jié)點(diǎn)集KU={kuj|1≤i≤n},知識單元所屬主題集A={ai|1≤i≤m},m表示主題節(jié)點(diǎn)數(shù)最大值,n表示知識單元節(jié)點(diǎn)數(shù)最大值。具體過程如下:

      第一步,建立主題ti與知識單元kuj關(guān)聯(lián),計(jì)算其相關(guān)度,如果相關(guān)度高于最低閾值,則ti∈A,A是知識單元所屬的主題集合,即一個(gè)知識單元可能與很多主題相關(guān)聯(lián);

      第三步,重復(fù)第二步,直到Ai+1中每個(gè)主題都處理完成。

      3 實(shí)驗(yàn)與評價(jià)

      本文構(gòu)建科技文獻(xiàn)細(xì)粒度知識組織模型的目的是滿足用戶對科技文獻(xiàn)內(nèi)部知識單元資源快速定位、精準(zhǔn)檢索的需求。為了評價(jià)提出的科技文獻(xiàn)細(xì)粒度知識組織模型的特征,本文采用Python語言基于提出的科技文獻(xiàn)細(xì)粒度知識組織模型對實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行細(xì)粒度知識組織;使用基于Python語言編寫的Networkx包完成基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織的可視化。并在構(gòu)建的科技文獻(xiàn)細(xì)粒度知識組織原型系統(tǒng)上進(jìn)行知識搜尋,將搜尋結(jié)果與從萬方數(shù)據(jù)庫中的相應(yīng)情況進(jìn)行對比,分析本文給出的基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織模型在定位知識點(diǎn)、呈現(xiàn)知識單元方面的特征和優(yōu)處。

      3.1數(shù)據(jù)集本文選取《中國圖書館學(xué)報(bào)》中以“圖書館”為主題的科技文獻(xiàn)作為本文的實(shí)驗(yàn)數(shù)據(jù)集,在CNKI數(shù)據(jù)庫專業(yè)檢索搜索框中以“SU =圖書館 AND JN=中國圖書館學(xué)報(bào)”為檢索式,隨機(jī)下載其中的1 000篇文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù)集。

      3.2采用提出的模型對實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行細(xì)粒度知識組織

      a.主題抽取與聚類。通過對科技文獻(xiàn)中摘要部分識別,利用LDA算法識別每篇文獻(xiàn)摘要中的主題,該程序共抽取出1 531個(gè)主題。根據(jù)2.3節(jié)中的層次聚類算法對抽取出的主題進(jìn)行聚類,從而構(gòu)建出主題層和聚類層。

      b.知識元抽取與表示。通過識別文獻(xiàn)中的段落以及它們之間的關(guān)系,將每篇文獻(xiàn)分為多個(gè)知識單元,同時(shí)根據(jù)算法抽取出知識單元的主題以及關(guān)鍵詞,按照編號、主題、關(guān)鍵詞、標(biāo)題、知識單元內(nèi)容六元組的形式對知識單元進(jìn)行存儲,本實(shí)驗(yàn)從1 000篇文獻(xiàn)共抽取出4413個(gè)知識單元。

      c.相似度計(jì)算。主題之間、知識單元之間以及主題與知識單元間的相似度計(jì)算采用基于綜合信息論的相似性度量方法[15]。主題之間的鏈接選擇相似度θ≥0.2的主題,低相關(guān)度的主題之間不進(jìn)行鏈接,同時(shí)將相似度值保留兩位小數(shù)。

      經(jīng)過以上操作,完成了主題抽取、主題聚類以及主題之間的相似度計(jì)算,主題與主題之間的相似性度計(jì)算結(jié)果以TXT文檔輸出(相似度值保留兩位小數(shù)),部分主題相似度計(jì)算結(jié)果如圖3所示。

      圖3 主題與主題相似度計(jì)算的部分結(jié)果

      輸出文件中一共包含三列,左邊兩列為主題,最后一列為相似度值,圖3中第一行內(nèi)容“兒童圖書館 書信 0.29”,其含義為主題“兒童圖書館”與主題“書信”的相似度值為0.29;第六行內(nèi)容“兒童圖書館 家庭圖書館 0.60”,其含義為主題“兒童圖書館”與主題“家庭圖書館”的相似度值為0.60。

      3.3可視化結(jié)果展示本實(shí)驗(yàn)采用基于Python語言里的工具包Networkx對科技文獻(xiàn)細(xì)粒度知識組織結(jié)果進(jìn)行可視化呈現(xiàn)。以主題、知識單元以及它們之間的關(guān)聯(lián)作為輸入來構(gòu)建科技文獻(xiàn)細(xì)粒度知識組織模型,同層主題之間采用短實(shí)線連接,非同層主題之間采用虛線連接,主題與知識資源之間采用長實(shí)線連接,知識資源表示知識單元集合,部分構(gòu)建結(jié)果如圖4所示。

      3.4與傳統(tǒng)知識搜尋方式和現(xiàn)有相似研究的對比分析

      3.4.1 與傳統(tǒng)知識搜尋方式的對比分析 科研人員在進(jìn)行科技文獻(xiàn)搜尋時(shí),通常有兩種方式:瀏覽與檢索[17]。瀏覽是指從頁面上獲取可見的信息,檢索是指從用戶特定的需求出發(fā),采用一定的方法對特定信息集合,按照一定的規(guī)則并找出相關(guān)的信息[18]。

      圖4 科技文獻(xiàn)細(xì)粒度知識組織模型部分可視化結(jié)果展示

      a.采用瀏覽方式的對比分析?;诳萍嘉墨I(xiàn)細(xì)粒度知識實(shí)驗(yàn)原型部分展示如圖4,萬方數(shù)據(jù)知識服務(wù)平臺的首頁如圖5。從用戶瀏覽方式的角度來看,從萬方數(shù)據(jù)知識服務(wù)檢索系統(tǒng)界面最上面,用戶可以選擇不同的文獻(xiàn)類型,比如期刊、學(xué)位、專利等,并不能直接瀏覽具體的內(nèi)容,在界面的右下邊則對應(yīng)頁面最上面的文獻(xiàn)類別,頁面的左下邊則是對應(yīng)具體文獻(xiàn)類別的介紹,并沒有直接向用戶提供具體的文獻(xiàn)內(nèi)容;而采用本研究提出的科技文獻(xiàn)細(xì)粒度知識實(shí)驗(yàn)原型能實(shí)現(xiàn)文獻(xiàn)內(nèi)主題導(dǎo)航, 可以準(zhǔn)確定位到某一主題所在的資源位置,同時(shí)表示了主題之間的關(guān)聯(lián),直接向用戶展示可選擇的文獻(xiàn)主題。

      圖5 萬方知識服務(wù)平臺

      b.采用檢索方式的對比分析。本實(shí)驗(yàn)采用關(guān)鍵字匹配的檢索方式,分別在科技文獻(xiàn)細(xì)粒度知識實(shí)驗(yàn)原型以及萬方數(shù)據(jù)知識服務(wù)平臺上進(jìn)行檢索。根據(jù)實(shí)驗(yàn)數(shù)據(jù)集采集的情況,本文選擇“智慧圖書館”為關(guān)鍵詞進(jìn)行檢索。基于科技文獻(xiàn)細(xì)粒度知識實(shí)驗(yàn)原型與萬方數(shù)據(jù)知識服務(wù)平臺的檢索結(jié)果如圖6、圖7所示。

      圖6 基于科技文獻(xiàn)細(xì)粒度知識組織模型檢索結(jié)果

      圖7 基于萬方數(shù)據(jù)知識服務(wù)平臺檢索結(jié)果

      從用戶檢索方式的角度來看,使用萬方數(shù)據(jù)知識服務(wù)檢索系統(tǒng)得到的檢索結(jié)果是文獻(xiàn)名稱列表,具體每一個(gè)條目中包含文獻(xiàn)名稱、摘要等,想獲得更多信息必須點(diǎn)擊下一頁按鈕獲得更多相關(guān)內(nèi)容。從檢索系統(tǒng)呈現(xiàn)出的內(nèi)容中,我們不能直接獲得有效可用的具體知識點(diǎn),只能獲取和檢索詞相關(guān)文獻(xiàn)的外部特征。如果想獲取與檢索詞相關(guān)的信息,我們必須點(diǎn)擊下載或者在線閱讀按鈕獲取文獻(xiàn)整篇內(nèi)容,仔細(xì)閱讀文獻(xiàn)內(nèi)容,再做進(jìn)一步的判斷。我們不能直接從檢索系統(tǒng)呈現(xiàn)的檢索結(jié)果中獲得有效的信息,如果想獲得具體的某個(gè)知識點(diǎn),我們需要點(diǎn)擊在線閱讀或者下載文獻(xiàn)作進(jìn)一步的判斷。而采用本研究提出的科技文獻(xiàn)細(xì)粒度知識組織方法得到的檢索結(jié)果是與關(guān)鍵詞相關(guān)的知識單元,用戶無需閱讀具體的文獻(xiàn)就能獲取與關(guān)鍵詞相關(guān)的具體內(nèi)容,如圖6中左側(cè)所示的概念類知識單元、方法類知識單元等,如果想獲取與關(guān)鍵詞相關(guān)的方法類知識單元,則點(diǎn)擊左側(cè)的方法類按鈕就可獲得。在圖6的右側(cè)則是與用戶輸入信息相似的主題和用戶最近瀏覽的信息,如果想作進(jìn)一步的了解,就可點(diǎn)擊相關(guān)按鈕獲取,在圖6的最下邊,則是相關(guān)知識單元的文獻(xiàn)標(biāo)題,可供用戶作進(jìn)一步的查看分析。

      3.4.2 與現(xiàn)有相似研究的對比分析 與本文研究最相似的是李禎靜等在文獻(xiàn)[7]中提出的細(xì)粒度組織方法—資源語義空間,這篇文章與本文的核心差異有三點(diǎn):文獻(xiàn)[7]只是對索引簡單模型化,沒有實(shí)現(xiàn)對知識單元導(dǎo)航,而本文構(gòu)建的基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織方法構(gòu)建了知識單元間主題之間的關(guān)聯(lián),并對其做了進(jìn)一步的聚類,使相關(guān)主題也能實(shí)現(xiàn)對知識單元的定位,實(shí)現(xiàn)基于主題對知識單元進(jìn)行導(dǎo)航;文獻(xiàn)[7]根據(jù)句子間的相似度對知識單元中的主題詞進(jìn)行句法匹配和語義匹配,沒有進(jìn)一步研究這些主題詞之間的語用關(guān)聯(lián),而本文綜合計(jì)算了主題之間的句法匹配、語義匹配以及語用關(guān)聯(lián);在對知識單元處理的過程中,基于詞頻的方式確定了知識單元的主題詞,這種采用詞頻確定知識單元主題詞的方法依賴語料庫,對語料庫的質(zhì)量要求較高,而本文采用LDA的方法抽取主題能彌補(bǔ)這個(gè)缺陷。

      4 結(jié)論與展望

      為了實(shí)現(xiàn)對科技文獻(xiàn)內(nèi)部內(nèi)容的知識導(dǎo)航,向用戶提供精準(zhǔn)化的檢索內(nèi)容,本文提出了一種基于智能主題圖的科技文獻(xiàn)細(xì)粒度知識組織方法。該方法抽取了科技文獻(xiàn)內(nèi)部的主題、知識單元,并建立主題之間的關(guān)聯(lián)、知識單元之間的關(guān)聯(lián)、主題與知識單元之間的關(guān)聯(lián),能較好地表達(dá)知識間的相互關(guān)系,實(shí)現(xiàn)對資源的準(zhǔn)確定位,將用戶引導(dǎo)到相關(guān)的資源,節(jié)省用戶檢索時(shí)間,提高用戶學(xué)習(xí)效率。然而,受限于知識抽取技術(shù)的支持,采用智能化的知識單元抽取后還需人工對知識單元抽取結(jié)果進(jìn)行核對、篩選。因此,后期將加強(qiáng)專業(yè)化對科技文獻(xiàn)內(nèi)部知識單元抽取,實(shí)現(xiàn)全自動(dòng)化的信息處理。

      猜你喜歡
      細(xì)粒度關(guān)聯(lián)檢索
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      2019年第4-6期便捷檢索目錄
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      霍山县| 日喀则市| 尚志市| 上林县| 布拖县| 延庆县| 思茅市| 姚安县| 千阳县| SHOW| 大埔区| 年辖:市辖区| 双江| 三原县| 景东| 榆中县| 石屏县| 江川县| 双桥区| 铁岭县| 威宁| 桐梓县| 寿光市| 襄汾县| 扎囊县| 大冶市| 阳朔县| 新和县| 自治县| 巨鹿县| 色达县| 长乐市| 南投县| 德州市| 长泰县| 中西区| 泰和县| 汉源县| 昌黎县| 新余市| 梅州市|