• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      考慮語義距離的領(lǐng)域科學(xué)知識主題關(guān)聯(lián)與演化研究*

      2022-10-19 12:48:26何祿鑫楊艷妮
      情報雜志 2022年10期
      關(guān)鍵詞:主題詞文檔關(guān)聯(lián)

      張 瑞 何祿鑫 楊艷妮

      (1.湖北工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院 武漢 430064;2.三峽大學(xué) 文學(xué)與傳媒學(xué)院 宜昌 443002)

      科學(xué)創(chuàng)新是引起世界發(fā)展變遷和人類生活進(jìn)步的根本動力??茖W(xué)每一次創(chuàng)新既是對原有科學(xué)理論和知識的繼承,也意味著科學(xué)史上的進(jìn)步與突破。人們基于已有的知識去創(chuàng)造新的知識,新舊知識的關(guān)聯(lián)往往很密切。綜合分析知識結(jié)構(gòu)及不同知識間存在的關(guān)聯(lián),對揭示科學(xué)系統(tǒng)中的研究熱點(diǎn)和學(xué)科領(lǐng)域發(fā)展趨勢具有重要意義。在過去十年里,主題檢測與挖掘的研究一直是一個活躍的研究領(lǐng)域,成為科學(xué)文獻(xiàn)文本分析中的一項關(guān)鍵技術(shù)。不少學(xué)者運(yùn)用各種主題建模處理不同領(lǐng)域的科學(xué)文獻(xiàn)數(shù)據(jù),將研究主題作為科學(xué)文獻(xiàn)基本知識單元,如焦紅等利用主題模型提取圖書情報領(lǐng)域粗糙集主題,并繪制知識演化路徑[1];李海峰利用結(jié)構(gòu)話題模型獲得中美兩國數(shù)字孿生研究主題[2];GoEunHeo通過ACT(Auther-Conference-Topic)模型研究生物信息學(xué)的跨學(xué)科性質(zhì)[3];等等。對科學(xué)知識進(jìn)行主題層次的分析,往往與科學(xué)研究動態(tài)、影響評估以及知識擴(kuò)散等研究密切相關(guān)[4]。

      隨著主題模型的廣泛運(yùn)用,另外一些研究對主題模型進(jìn)行改進(jìn),以經(jīng)典的LDA主題模型為例,Hassan拓展了LDA主題模型,提出帶有距離矩陣主題模型來識別研究主題[5];伊惠芳等提出語境增強(qiáng)Context-LDA模型以增強(qiáng)模型的泛化能力[6]。無疑,主題模型在理解文本內(nèi)容具有突出優(yōu)勢,是在文本挖掘和知識發(fā)現(xiàn)中起核心作用的學(xué)習(xí)任務(wù)之一。雖然過去的主題模型能反映主題、文檔與單詞之間的層級關(guān)系,不同的主題改進(jìn)模型提高了聚類效率,但單詞表達(dá)形式多樣,建模過程中容易忽略了單詞之間同屬領(lǐng)域的語義信息,導(dǎo)致出現(xiàn)主題內(nèi)容重復(fù)、邊界模糊、不易解釋的情況。為了克服主題建模過程中的局限性,提高主題表示能力,本文提出基于語義距離的主題相似度計算方式和規(guī)則,從知識體系上承載概念與概念間的關(guān)系,在此基礎(chǔ)上結(jié)合實際科學(xué)文獻(xiàn)數(shù)據(jù)操作,探究主題關(guān)聯(lián)及演進(jìn)路徑。

      1 相關(guān)研究工作

      1.1 主題建模相關(guān)研究

      主題建模在過去得到長足發(fā)展,主要包括基于規(guī)則和基于統(tǒng)計兩種方式?;谝?guī)則的主題建模,是指根據(jù)人工制定相應(yīng)的文本映射規(guī)則,這種方式雖然準(zhǔn)確性高,但是對不同文本內(nèi)容,存在規(guī)則可移植性差、魯棒性不好等缺點(diǎn)[7]。比如,石倩雯等指出為更好檢索文物信息,博物館研究人員在文獻(xiàn)標(biāo)引工作中需十分重視主題標(biāo)引語言和規(guī)則[8]。而基于統(tǒng)計的主題建模成為一種主流方法,研究人員所青睞的是該方式主要依賴于詞頻等統(tǒng)計信息建立主題模型,適用于大規(guī)模文檔,簡單實用且精度很高,但缺點(diǎn)是計算中假定每個單詞只有一種含義,容易忽視文本內(nèi)在邏輯結(jié)構(gòu)[9]。黃曉斌等指出在主題模型中確認(rèn)核心詞是較大的難點(diǎn),意義不強(qiáng)的詞會影響分類效果[10]。Daud等也指出主題模型中文檔之間呈現(xiàn)的單詞忽略了語義內(nèi)在結(jié)構(gòu),并將會議挖掘和專家發(fā)現(xiàn)作為優(yōu)化機(jī)制,提出群組主題建模[11]。

      如果一個主題的詞匯間沒有任何聯(lián)系,則表現(xiàn)出隨機(jī)性太強(qiáng),凸顯不出每個主題的區(qū)別和意義,在單一領(lǐng)域分析中的應(yīng)用容易受到限制。因此,本文考慮既遵循一定的文本映射規(guī)則,又服從統(tǒng)計計算規(guī)律:在構(gòu)建主題模型時,由具有知識規(guī)則的領(lǐng)域本體指導(dǎo),以提高主題連貫性和一致性,使主題在語義上緊密地結(jié)合在一起。

      1.2 主題關(guān)聯(lián)與演化研究

      科學(xué)知識主題關(guān)聯(lián)是實現(xiàn)科學(xué)知識局部動態(tài)分析和演化發(fā)展的前提。王曰芬等利用主題在學(xué)科領(lǐng)域中的貢獻(xiàn)關(guān)系構(gòu)建主題-主題關(guān)聯(lián)網(wǎng)絡(luò),并分析學(xué)科知識結(jié)構(gòu)演化[12];趙蓉英等從共詞網(wǎng)絡(luò)的視角探究數(shù)據(jù)科學(xué)研究的主題關(guān)聯(lián)結(jié)構(gòu)與發(fā)展演化態(tài)勢[13]。在不同的應(yīng)用場景中,學(xué)者們提出一系列改進(jìn)措施,Yang等認(rèn)為很難捕捉到連貫性和具體性的主題表達(dá),提出了基于關(guān)聯(lián)的主題選擇(ATS)模型[14]。張金柱等提出采用節(jié)點(diǎn)中心度和重要程度來改進(jìn)主題關(guān)聯(lián)算法[15]。常見的主題關(guān)聯(lián)方法可歸納為四種[16]:直接關(guān)聯(lián)法、相似度閾值法、距離閾值法以及最大相似度法。主題相似度較大表明主題研究有延續(xù)的可能,Gaul 等基于文本材料內(nèi)容相似性處理主題之間關(guān)系網(wǎng)絡(luò),進(jìn)而探究主題隨時間的演變[17];Sun等通過LDA生成主題模型結(jié)果,使用余弦相似度計算主題間相似程度,超過預(yù)定義閾值視為相似并連接[18]。

      關(guān)于主題相似度度量方式有許多,如交叉熵、余弦相似度、JS(Jensen-Shanon)散度、KL(Kullback-Leibler)散度等,這類方法的共性在于基于句法層面的詞匯分布比較主題間的差異程度,因此較大程度取決于詞匯頻率。單從詞匯頻率來判別主題相關(guān)性,那很多含義類似詞匯出現(xiàn)頻率較低或者沒有共現(xiàn)關(guān)系,容易忽略它們之間潛在關(guān)聯(lián)性。本文將本體中概念節(jié)點(diǎn)之間的關(guān)系延伸到主題之間的關(guān)系,提出新的相似度規(guī)則以探尋主題間關(guān)聯(lián)關(guān)系強(qiáng)弱,認(rèn)為若一個主題與另一個主題相似度較大,則這兩個主題是相關(guān)的,并對時間相鄰窗口主題進(jìn)行關(guān)聯(lián),進(jìn)而探究主題的演化情況。

      2 研究設(shè)計

      2.1 科學(xué)知識主題獲取與分析框架

      科學(xué)知識主題獲取和分析目的是通過從源文檔集合中學(xué)習(xí)語義主題并揭示主題的關(guān)系。重點(diǎn)包括兩項工作:通過主題強(qiáng)度來描述科學(xué)知識內(nèi)容形態(tài),其時間分布反映了不同類型的領(lǐng)域科學(xué)知識在不同時間下的活躍程度和受關(guān)注程度,體現(xiàn)領(lǐng)域知識結(jié)構(gòu)體系的縱向變化;基于主題之間相似度建立時序上主題內(nèi)容的關(guān)聯(lián),刻畫主題自身屬性隨時間的演化過程,揭示科學(xué)知識發(fā)展情況。分析框架如圖1所示。

      圖1 分析框架

      主題分布與主題演化體現(xiàn)了科學(xué)知識的穩(wěn)定性和發(fā)展性,具體步驟如下:

      (1)首先為明確領(lǐng)域知識結(jié)構(gòu),選取一個時間段的學(xué)科領(lǐng)域文檔,并按不同時期劃分文檔,根據(jù)LDA主題模型橫向劃分每個時期下的主題,按照聚類結(jié)果標(biāo)注主題標(biāo)簽。

      (2)分析不同時期的主題強(qiáng)度分布。不同于文檔數(shù)目可以直接統(tǒng)計,主題強(qiáng)度是一種抽象的變量,主題強(qiáng)度分布取決于文檔屬于該主題的概率、以及文檔的數(shù)量,相同主題標(biāo)簽的主題強(qiáng)度有可能持平、上升或下降。

      (3)分析不同時段下主題之間的對應(yīng)關(guān)系。主題關(guān)聯(lián)對象為時間呈前后關(guān)系的主題,考慮詞匯之間的語義距離構(gòu)建主題關(guān)聯(lián)規(guī)則,分析不同時段下主題之間是否存在知識屬性相同或類似,以確定主題延續(xù)情況。

      (4)推演出領(lǐng)域主題的演化路徑,根據(jù)路徑結(jié)果判斷領(lǐng)域主題發(fā)展?fàn)顩r。

      2.2 考慮語義距離的主題關(guān)聯(lián)規(guī)則

      2.2.1規(guī)則構(gòu)建方法

      建立不同時間下的主題關(guān)聯(lián)對明確領(lǐng)域知識變化意義重大。根據(jù)主題模型運(yùn)算原理,在主題內(nèi)部所呈現(xiàn)的主題詞具有較強(qiáng)的語義關(guān)聯(lián),本文重點(diǎn)是解決不同主題之間的語義關(guān)聯(lián)。主題模型計算結(jié)果是處理文檔中文本噪音,將文檔表示為主題的集合,每個主題由許多主題詞組成,主題詞之間并沒有邏輯結(jié)構(gòu)關(guān)系。主題間關(guān)聯(lián)受到“詞匯”與“詞匯”之間關(guān)系影響,這種關(guān)系可以歸納為等同、屬分、相關(guān)關(guān)系[19]。

      詞匯具有語義、語法、語用等基本屬性[20],而詞匯之間的關(guān)系主要取決于其語義屬性。語義是一種主觀性較強(qiáng)的概念,通常需要建立在人們對詞匯理解的基礎(chǔ)上。語義相似度(semantic similarity)的計算就是以詞匯的這種主觀概念屬性為基礎(chǔ),將詞匯之間的關(guān)系量化,并表現(xiàn)為具體數(shù)值。考慮語義距離的主題關(guān)聯(lián)的基本思想是將主題層的相似度計算映射到詞匯層中,將不同詞匯在本體結(jié)構(gòu)中路徑距離解釋和表示為語義距離(semantic distance),進(jìn)行詞匯與詞匯之間的相似度計算,進(jìn)而推導(dǎo)主題層的相似度關(guān)系。

      現(xiàn)有兩個主題,TopicA包含詞匯知識為(Word1,Word2,Word3),TopicB包含詞匯知識為(Word1',Word2',Word3'),如果領(lǐng)域本體中存在Word1隸屬于Word1',則在主題層中TopicA和TopicB的關(guān)聯(lián)關(guān)系需考慮詞匯層中Word1和Word1'在知識本質(zhì)屬性中的承接關(guān)系(見圖2)。

      圖2 主題層到詞匯層映射關(guān)系

      在語義距離的基礎(chǔ)上計算相似度,對于兩個主題詞Word1,Word2,它們的相似度計算公式為[21]:

      (1)

      其中,Dis(Word1,Word2)表示詞匯Word1,Word2在層級結(jié)構(gòu)中的語義距離,語義距離越大,則詞匯的相似度越小。

      為了準(zhǔn)確表達(dá)概念之間的語義相似度,需要領(lǐng)域本體中的“結(jié)構(gòu)特征”描述詞匯的語義。結(jié)合詞匯的語義關(guān)系路徑計算主題的相似度,構(gòu)建計算規(guī)則。規(guī)則中,在詞匯與詞匯匹配、詞匯與主題詞匹配均使用了“最小原則”,目的是使不同詞匯與同一目標(biāo)匹配的異質(zhì)化程度最大,進(jìn)而提高計算結(jié)果顯著性。

      規(guī)則一:主題與主題之間的相似度由詞匯與詞匯之間的相似度決定。由于一個主題詞有多個概念,每一個概念在本體的結(jié)構(gòu)位置不一樣,在這里取“最小原則”,兩個主題詞之間的距離取它們中概念距離最短的進(jìn)行計算。

      規(guī)則二:假設(shè)TopicA主題-詞匯矩陣中,權(quán)重排名前n的詞匯為(Word1,Word2,…,Wordn),TopicB主題-詞匯矩陣中,權(quán)重排名前n的詞匯為(Word1',Word2',…,Wordn'),則TopicA-TopicB之間的相似度表示為:

      (2)

      其中,Wordj'表示TopicA中的詞Wordi。遍歷TopicB中的詞,遵循“最小原則”,尋找在TopicB中與Wordi距離最小的詞為Wordi與TopicB的相似度,如此循環(huán)。所有TopicA中的詞與TopicB相似度之和的平均數(shù),得到TopicA-TopicB的相似度。

      規(guī)則三:假設(shè)TopicA中的詞Wordi在TopicB中的距離最短詞匯為Wordj',但是Wordj'在TopicA中的距離最短詞匯不一定是Wordi,則由此計算出的TopicB-TopicA相似度與TopicA-TopicB相似度值不一樣,取平均處理,即TopicA與TopicB之間的相似度為:

      SIM=

      (3)

      2.2.2簡單示例

      MeSH作為生命科學(xué)領(lǐng)域最常用的知識庫,也是一個規(guī)模大、概念完備的領(lǐng)域本體庫,建立了詳細(xì)的概念屬性及概念與概念之間的關(guān)系。以MeSH詞表中的樹狀圖來表征領(lǐng)域概念結(jié)構(gòu)位置為例,基于MeSH詞表計算語義距離:主題詞之間連通路徑的邊權(quán)重相加。將邊的權(quán)值簡化處理,取值為1;主題詞之間的路徑長度越大,語義距離就越大。

      圖3 MeSH樹形圖部分示例

      圖3為截取MeSH詞表中以解剖學(xué)Anatomy[A]為首的部分樹形圖。每一個節(jié)點(diǎn)表示為一個主題詞[Treenum],其中,Ear[A01.456.313]和Face[A01.456.505]之間的最短路徑:Ear—Head—Face;語義路徑距離取值為2。而Ear和Amputation Stumps之間的最短路徑:Ear—Head—Body Regions—Extremitie—Amputation Stumps;語義路徑距離取值為4。因此,F(xiàn)ace比Amputation Stumps在語義上更接近于Ear。根據(jù)MeSH樹形圖定義的層級關(guān)系結(jié)構(gòu),可以得到不同詞匯之間的語義距離。

      根據(jù)規(guī)則一,不同的概念有多個Treenum,取“最小原則”,例如,Ear詞匯既包括隸屬于Head[A01,456]下面的Ear[A01.456.313],還包括隸屬于Sense Organs[A09]下面的Ear[A09.246],F(xiàn)ace[A01.456.505]的Treenum唯一,則計算Ea[A01.456.313]與Face[A01.456.505]最短路徑為2,計算Ear[A09.246]與Face[A01.456.505]最短路徑為5;根據(jù)最小原則,取主題詞Ear與Face之間的最短路徑為2。

      3 實證研究與結(jié)果分析

      本文選取Scopus數(shù)據(jù)庫作為科學(xué)知識數(shù)據(jù)來源。Scopus數(shù)據(jù)庫目前是全世界最大的引文數(shù)據(jù)庫,涵蓋了摘要、參考文獻(xiàn)及索引,其現(xiàn)有索引的題錄數(shù)據(jù)甚至超越了Web of Science的提供量[22]。Scopus中包含四大門類學(xué)科:生命科學(xué)、社會科學(xué)、理工和醫(yī)學(xué)。根據(jù)研究目標(biāo),以Scopus生命科學(xué)領(lǐng)域2013-2018年3 575 103篇文獻(xiàn)文獻(xiàn)題錄數(shù)據(jù)作為研究樣本。用Scopus檢索工具,以生命科學(xué)為學(xué)科領(lǐng)域范圍,文獻(xiàn)類型限定為“Article”“Review”“Note”“Editorial”“Letter”,共有3 639 038篇文獻(xiàn)。獲取的文獻(xiàn)數(shù)據(jù)占搜集文獻(xiàn)的比例為98.24%。

      3.1 主題強(qiáng)度分布

      在主題量化過程中,一般基于這樣的前提事實:主題存在于文檔中,不同文檔由不同主題形成的混合體。因此,LDA主題模型的計算結(jié)果為主題強(qiáng)度的表達(dá)及不同主題特性的對比提供了強(qiáng)有力的依據(jù)。采用先離散方式,在時間維度上對文檔集合進(jìn)行切分,從數(shù)據(jù)分布情況來看,領(lǐng)域內(nèi)文獻(xiàn)按年份劃分?jǐn)?shù)量變化不大,選取時間間隔長度為1年較為合適。結(jié)合MeSH知識庫和AC自動機(jī)將生命科學(xué)領(lǐng)域文本數(shù)據(jù)轉(zhuǎn)化為主題詞詞袋,然后將文獻(xiàn)按年份劃分進(jìn)行LDA主題建模,2013-2018年每年文獻(xiàn)劃分為50個主題。

      主題強(qiáng)度可以通過LDA結(jié)果中文檔-主題概率θ得出。統(tǒng)計不同時間區(qū)間內(nèi)某一主題占據(jù)的比例,計算公式(4)表示:時間窗口t上主題z的強(qiáng)度為文檔中所有主題z所占比例之和除以文檔數(shù)量。

      (4)

      結(jié)合各時間窗下不同主題強(qiáng)度分布散點(diǎn)圖,獲得不同主題發(fā)展變化及趨勢信息(見圖4)。統(tǒng)計2013-2018年主題強(qiáng)度的標(biāo)準(zhǔn)偏差,結(jié)果分別為0.00076、0.00098、0.00084、0.00078、0.0010、0.0010。不同年份的主題強(qiáng)度離散程度雖有差異,但無明顯上升或下降趨勢,呈周期波動性,表明整體主題分布的變化情況較穩(wěn)定。

      圖4 各時間窗主題強(qiáng)度分布

      為了分析2013-2018年生命科學(xué)領(lǐng)域中的熱點(diǎn)研究主題,對每年排名前三的主題添加主題標(biāo)簽,見表1。整體來說,“基因”“細(xì)胞”和“病理與生理”是生命科學(xué)領(lǐng)域三個熱門研究領(lǐng)域。

      表1 2013-2018年生命科學(xué)領(lǐng)域熱點(diǎn)主題(Top3)

      3.2 主題關(guān)聯(lián)

      根據(jù)2013-2018年生命科學(xué)領(lǐng)域文獻(xiàn)劃分的主題,按照相鄰時間窗口,在計算中取每個主題權(quán)重排名前10的詞匯,對相鄰時間段的主題,根據(jù)2.2.1中的規(guī)則,結(jié)合MeSH領(lǐng)域本體庫,進(jìn)行主題對相似度計算,每兩個時間段的相似度計算次數(shù)為50*50次。

      根據(jù)主題間相似度計算結(jié)果,按照文獻(xiàn)[23]設(shè)定的關(guān)聯(lián)和過濾條件,若相鄰時間窗下的兩個主題滿足前向關(guān)聯(lián)、后向關(guān)聯(lián)的條件之一,則二者之間建立主題關(guān)聯(lián),否則,主題關(guān)聯(lián)不成立;同時為了提高主題之間演化關(guān)系的準(zhǔn)確度,依據(jù)主題相似度閾值和主題間的相似度排序,過濾掉無效的主題關(guān)聯(lián)。

      其中,2013年Topic3與2014年的各項主題進(jìn)行相似度配對計算,其排序結(jié)果見表2。計算結(jié)果表明不同主題對的相似度值之間具有明顯的差異性。

      2013年Topic3的概率權(quán)重排名前三的主題詞集

      表2 2013年Topic3與2014年各主題相似度排序

      合為(Genes,Genome,Gene Expression);在2014年中,比2013年Topic3相似度高0.3,且排名前二的兩個主題分別為:Topic39(Genes,Mutation,Gene Expression)、Topic17(DNA,Genome,Polymerase Chain Reaction);Topic3相似度分別為0.389和0.339,遠(yuǎn)高于2014年的其他主題。然后通過人工檢驗、對比和觀察,發(fā)現(xiàn)由此相似度規(guī)則計算得出的高相似度主題對與人工判斷具有明顯的一致性,結(jié)果顯示計算性能良好、準(zhǔn)確度較高。

      根據(jù)主題之間的關(guān)聯(lián)和過濾,不同年份主題與主題間具有明確關(guān)系,利用?;鶊D進(jìn)行可視化,圖中同一縱列代表同一時間段主題,每一條連線代表相鄰年份主題間關(guān)聯(lián)關(guān)系,連線粗細(xì)代表主題對之間相似度大小,得到生命科學(xué)領(lǐng)域2013-2018年主題關(guān)聯(lián)時序圖,見圖5。

      圖5 生命科學(xué)領(lǐng)域主題關(guān)聯(lián)時序

      3.3 主題演化路徑

      主題演化過程是指主題在時序上的發(fā)展變化過程。根據(jù)知識生命周期理論,知識個體發(fā)展過程都將經(jīng)歷初生、成長、成熟和衰退四個時期。因此,不少研究者將主題演化過程分為五種形式:新增、合并、繼承、分化、和消亡[24-25]。從整體上看,在2013-2018年期間,主題間的交叉融合不斷涌現(xiàn),關(guān)聯(lián)的主題數(shù)表現(xiàn)出先增加后減少的態(tài)勢,2013-2016年主要的演化狀態(tài)為主題分化,2017年主要的演化狀態(tài)為主題合并,說明生命科學(xué)領(lǐng)域主題知識發(fā)展呈先擴(kuò)張后收縮的整體趨勢。

      圖6說明了兩條完整的演化路徑,第一條演化路徑為2013年Topic17分化為2018年的Topic7和Topic18,2015年的Topic36繼承了2014的Topic18,2015年的Topic36和新增Topic8合并為2016年的Topic2,最后消亡;第二條演化路徑為2013年的Topic2和Topic42合并為2014年的Topic16,2015年的Topic30進(jìn)行一次繼承,2016年發(fā)生一次合并,2017年進(jìn)行一次繼承,2018年再次進(jìn)行合并,該主題路線是一條合并和繼承交互進(jìn)行的發(fā)展路線。

      圖6 主題演化路徑

      由演化路徑圖可知,大多數(shù)的主題合并往往伴隨主題的新增,而主題的繼承和分化極大可能隨后產(chǎn)生主題的消亡。因此本文基于主題的“合并”和“分化”演化關(guān)系,總結(jié)出2013-2018年生命科學(xué)領(lǐng)域呈現(xiàn)的主題發(fā)展趨勢特征如下:

      (1)主題知識發(fā)展的開始與擴(kuò)張趨勢。主題不斷合并展現(xiàn)了主題知識體系逐步成長的局面。主題合并的過程也是科學(xué)研究聚焦的過程,體現(xiàn)出知識融合的特征,往往在主題知識結(jié)構(gòu)尚未牢固,正在快速建立的階段,由其他主題的知識組合、演變而來,主題的影響力不大。將路徑圖中主題合并演化關(guān)系進(jìn)行歸納,見表3。重點(diǎn)歸納出前一時期的后向主題,并總結(jié)其主題標(biāo)簽。

      表3 2013-2018年生命科學(xué)領(lǐng)域合并演化關(guān)系

      從生命科學(xué)領(lǐng)域的主題關(guān)聯(lián)與演化中,總結(jié)如下規(guī)律:

      a.骨髓與造血干細(xì)胞研究知識的凝聚和成長。從2014年的Topic16、2015年的Topic14到2018年的Topic41是一條完整的演化路徑中的三次主題合并,體現(xiàn)出清晰的知識發(fā)展脈絡(luò):從第一次合并主題“骨髓干細(xì)胞”,再到第二次合并主題“干細(xì)胞”,再到第三次次合并主題“骨髓干細(xì)胞”,說明圍繞“骨髓干細(xì)胞”和“干細(xì)胞”不斷在交叉融合。

      b.物理治療學(xué)、病理生理學(xué)等研究知識的不斷積累。2016年的Topic22和2017年的Topic41是連續(xù)年份發(fā)生合并的兩個主題,且2016年的Topic22“物理治療”和Topic41主題“運(yùn)動”合并主題來源重合,說明這兩類主題知識密切相關(guān)。觀察三個主題知識的特點(diǎn),發(fā)現(xiàn)其共性是兼具重要性和綜合性,與其他研究主題的交叉性特別強(qiáng),在發(fā)展進(jìn)程中在不斷地吸收和融合其他主題。

      c.細(xì)胞學(xué)相關(guān)分支主題研究知識的分散和獨(dú)立。2014年的Topic34、2015年的Topic25和Topic20,以及2016年的Topic2,這些主題是不同年份比較分散的合并后的主題,主題標(biāo)簽共三類:“轉(zhuǎn)移酶”“生物膜”和“培養(yǎng)技術(shù)”。這些主題的共性是將細(xì)胞作為一個獨(dú)立的分析單元。這類主題研究特點(diǎn)是需要其他方法和技術(shù)的配合,因此能廣泛利用其它主題研究,逐漸成長為獨(dú)立于細(xì)胞學(xué)的分支主題。

      (2)主題知識發(fā)展的穩(wěn)定與成熟趨勢。演化路徑中具有分化狀態(tài)的主題,通常是現(xiàn)階段受人們重視的主題,屬于大多數(shù)發(fā)文量多、熱度較大的主題研究,隨著時間推移分化出不同的子分支,表現(xiàn)得相對成熟,在學(xué)科領(lǐng)域中具有主導(dǎo)地位。相比于其他年份間知識關(guān)聯(lián),2017年和2018年間沒有主題分化,多為主題繼承,表明主題發(fā)展趨向穩(wěn)定。將路徑圖中主題合并演化關(guān)系進(jìn)行歸納,見表4。重點(diǎn)歸納出后一時期的前向主題,并總結(jié)其主題標(biāo)簽。

      a.基因?qū)W、細(xì)胞學(xué)等研究知識的分離和細(xì)化。在6年內(nèi),11個分化的主題中,有5個屬于每年主題熱度最靠前的主題,分別為:“基因”“細(xì)胞”“環(huán)境”和“植物”。2014年的Topic27、2015年的Topic31是在連續(xù)的年份中發(fā)生分化的同一類主題“細(xì)胞”?!凹?xì)胞”作為一個研究大類,綜合性較強(qiáng),能夠分化出不同的主題研究。觀察這類主題的知識特點(diǎn),可以看出這些主題具有長期的知識積累、以及完備的知識體系。

      b.生物化學(xué)等相關(guān)研究知識對其他研究的輻射作用。2015年的Topic40、2016年的Topic49是發(fā)生在連續(xù)年份中分化的兩類主題,定義這兩個主題的標(biāo)簽分別是“催化/氧化”和“新陳代謝”。這兩個主題主要探究物質(zhì)的組合、轉(zhuǎn)化和交換程序,也是生物化學(xué)中的重要原理,因此是適用性、應(yīng)用性較強(qiáng)的主題內(nèi)容。

      表4 2013-2018年生命科學(xué)領(lǐng)域分化演化關(guān)系

      c.組織器官等相關(guān)研究知識的衍生發(fā)展。2013年的Topic17、2017年的Topic22,以及2016年的Topic32,主題標(biāo)簽為“肝臟”、“肺臟”和“創(chuàng)傷”,是與組織器官相關(guān)的重要研究內(nèi)容。組織器官與生命體的正常形態(tài)有關(guān),科學(xué)體系中將不同的組織器官分為不同的學(xué)科,因此每一個分支研究具有獨(dú)立性和關(guān)聯(lián)性。

      4 方法對比與結(jié)果分析

      4.1 主題關(guān)聯(lián)方法對比分析

      基于主題-詞概率分布的主題關(guān)聯(lián)方法是較為常見的計算方式,該算法考慮了詞匯對于主題的重要程度。根據(jù)該方法,本文運(yùn)用余弦相似度計算2013年與2014年主題之間的相似度,并與本文提出的考慮語義距離的主題相似度計算方法進(jìn)行對比(見表5)。

      計算結(jié)果表明,2014年Topic39與Topic17排名前二,相似度分別為0.978338和0.585775,與上文方法計算結(jié)果基本一致。其后,兩種方法在相似度計算結(jié)果排序上有較大差異。分析2014年的Topic7(role,toy,social control)和Topic27(cells,apoptosis,cell line),從反映出來的主題意義來看,Topic27主題可明確為細(xì)胞,更接近2013年的Topic3主題基因。此外,Topic7相似度為0.500747,其后主題均稍高于0.5,界線不明顯。

      表5 主題關(guān)聯(lián)方法對比

      兩種方式基本能夠識別強(qiáng)關(guān)聯(lián)的主題,但是主題-詞概率分布的主題關(guān)聯(lián)方法容易受到重合度較高、一般化詞匯的影響,對于弱關(guān)聯(lián)的主題識別差異不明晰??紤]語義距離的主題關(guān)聯(lián)方法的計算,引入了詞匯的位置和距離,利用詞匯之間的客觀關(guān)系判斷主題之間的相關(guān)程度,重視詞匯間的隱形關(guān)系,能夠克服文本中常用詞匯的干擾。相比較而言,該方法在揭示主題之間的關(guān)系上更加準(zhǔn)確,與人工判斷符合度更高,在進(jìn)行計算時可以不受語料庫大小的限制,豐富了現(xiàn)有的主題相似度計算方法。

      4.2 結(jié)果分析與發(fā)現(xiàn)

      本文首先分析生命科學(xué)領(lǐng)域2013-2018年在主題強(qiáng)度分布,了解領(lǐng)域中表現(xiàn)突出的研究主題,分析領(lǐng)域研究熱點(diǎn),并解釋其深層次原因。在主題相似度計算中,結(jié)合領(lǐng)域本體計算主題與主題之間相似度的規(guī)則和算法,最后實證結(jié)果表明該算法能夠有效衡量主題之間的語義關(guān)聯(lián),完成主題的時序演化路徑的構(gòu)建。

      在對生命科學(xué)領(lǐng)域的演化結(jié)果的分析中,本研究得到:主題合并大多伴隨主題的新增,意味著主題發(fā)展的開始與擴(kuò)展趨勢,從主題合并中往往會發(fā)現(xiàn)興起與正在積累知識的主題,其中包括骨髓與造血干細(xì)胞等主題,物理治療學(xué)、病理生理學(xué)等主題,以及細(xì)胞學(xué)相關(guān)分支主題;主題的繼承和分化說明主題發(fā)展趨于穩(wěn)定,在演化中發(fā)現(xiàn)大多數(shù)熱門主題都屬于分化中的主題,如基因?qū)W、細(xì)胞學(xué)等熱門主題,這類主題往往具有長期的知識積累,能夠作為其他相關(guān)研究的基礎(chǔ)。另外,適用性較強(qiáng)或知識特征豐富的主題,如生物化學(xué)、組織器官等主題,從局部演化形成其他研究主題的趨勢更明顯。

      5 結(jié) 語

      本研究提出了考慮語義距離的主題關(guān)聯(lián)規(guī)則和方法,在文檔層級上利用領(lǐng)域語料庫從文本中識別主題,根據(jù)主題詞的相關(guān)程度進(jìn)行主題關(guān)聯(lián),以解決主題內(nèi)容重復(fù)、邊界模糊的問題。并通過生命科學(xué)領(lǐng)域?qū)嶋H數(shù)據(jù)操作驗證,借助MeSH本體計算主題層的相似度關(guān)系,構(gòu)建主題關(guān)聯(lián)與演化路徑,以追溯生命科學(xué)領(lǐng)域知識結(jié)構(gòu)的發(fā)展態(tài)勢與變化情況。結(jié)果表明,不僅能夠驗證所采用方法的有效性,還能夠檢測和跟蹤主題,清晰地反映主題演化的趨勢。但本文仍有一些局限,所提方法借助領(lǐng)域本體庫在主題之間建立聯(lián)系,提升了主題之間的語義聯(lián)系,但在本體不規(guī)范、不完善的領(lǐng)域,其應(yīng)用效果可能不明顯,方法的適用范圍和泛化性能有進(jìn)一步提升的空間。

      猜你喜歡
      主題詞文檔關(guān)聯(lián)
      有人一聲不吭向你扔了個文檔
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀(jì)的Ei主題詞
      我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀(jì)的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      《疑難病雜志》2014年第13卷主題詞索引
      齐齐哈尔市| 罗山县| 诸城市| 宣恩县| 岐山县| 柳江县| 肥城市| 监利县| 全州县| 盈江县| 镇平县| 万载县| 刚察县| 蓬莱市| 东乡| 惠安县| 上蔡县| 长治县| 集安市| 连江县| 灵台县| 八宿县| 乌苏市| 大悟县| 东山县| 仲巴县| 昌平区| 阳西县| 沁阳市| 治县。| 仙游县| 葫芦岛市| 新丰县| 浦东新区| 南宁市| 滕州市| 五指山市| 桐乡市| 茂名市| 房产| 迁西县|