• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于擴(kuò)展Bcp指數(shù)的領(lǐng)域主題發(fā)展態(tài)勢(shì)可視分析①

      2020-07-25 11:36:40余敏櫧單桂華陸忠華
      關(guān)鍵詞:可視化次數(shù)論文

      王 楊,余敏櫧,單桂華,田 東,陸忠華

      1(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

      2(中國(guó)科學(xué)院大學(xué),北京 100049)

      通常,某個(gè)學(xué)科領(lǐng)域的頂級(jí)會(huì)議和期刊上所發(fā)表的論文代表著世界在該領(lǐng)域內(nèi)的最新研究成果.該領(lǐng)域的研究人員都會(huì)對(duì)其中的前沿技術(shù)和高水平論文非常感興趣.因?yàn)檫@些會(huì)議和期刊所發(fā)表的論文代表著世界在該領(lǐng)域的最新研究成果.他們時(shí)刻關(guān)注著該領(lǐng)域的研究主題及其研究趨勢(shì),渴望了解其中高被引論文、熱點(diǎn)主題和高度活躍的作者.分析并掌握領(lǐng)域研究熱點(diǎn)及前沿技術(shù)的發(fā)展態(tài)勢(shì),對(duì)于科學(xué)家的研究工作、管理者的科技政策制定、甚至是研究生選題都具有重大的指導(dǎo)意義.

      要研究領(lǐng)域主題的發(fā)展態(tài)勢(shì),首要的問(wèn)題就是如何從論文中提取領(lǐng)域中的主題.主題可以用一組關(guān)鍵詞來(lái)解釋.要提取領(lǐng)域中的主題,本文需要首先獲取關(guān)鍵詞.顯然,論文作者在其文章中提供的關(guān)鍵字是一個(gè)方便直接的來(lái)源.然而,有的論文并沒(méi)有作者提供的關(guān)鍵字,特別是在早期發(fā)表的論文中[1].還有相當(dāng)一部分作者都認(rèn)為有時(shí)作者提供的關(guān)鍵字并不能很好地表示論文的主題.為了解決這些問(wèn)題,一種有效的方法是從論文的標(biāo)題、摘要甚至全文中提取關(guān)鍵詞.然而,單個(gè)單詞的字關(guān)鍵詞往往存在歧義.例如,“network”一詞既可能指社交網(wǎng)絡(luò)也可能指神經(jīng)網(wǎng)絡(luò).因此,也有必要提取包含詞組形式的關(guān)鍵詞而不是單個(gè)單詞.在獲取領(lǐng)域關(guān)鍵詞以后,主題就可以通過(guò)用一組語(yǔ)義相關(guān)性高的關(guān)鍵詞來(lái)定義,即對(duì)關(guān)鍵詞進(jìn)行分類.目前關(guān)鍵詞提取及分類方法主要有兩種,一種是通過(guò)人工來(lái)篩選關(guān)鍵詞并定義分類,比如邀請(qǐng)領(lǐng)域?qū)<襾?lái)打分.這種方式的優(yōu)點(diǎn)在于精確度高、類別含義明確易懂,缺點(diǎn)是普適性比較差,每個(gè)會(huì)議、期刊或論文數(shù)據(jù)庫(kù)都有自己的分類標(biāo)準(zhǔn),大多時(shí)候很難將一種來(lái)源的文獻(xiàn)按另一種來(lái)源的分類方法一一對(duì)應(yīng).當(dāng)關(guān)鍵詞數(shù)量龐大的時(shí)候,人工方法的時(shí)間成本會(huì)變得巨大.另一種方法是通過(guò)自然語(yǔ)言處理及聚類算法對(duì)關(guān)鍵詞自動(dòng)提取并聚類,這種方法的優(yōu)點(diǎn)在于普適性很強(qiáng),不論什么來(lái)源的論文,都能通過(guò)一套算法自動(dòng)實(shí)現(xiàn)提取及分類.而且,計(jì)算機(jī)算法在處理大量關(guān)鍵詞的時(shí)候的具有人工無(wú)可比擬的優(yōu)勢(shì).其缺點(diǎn)在于提取到的關(guān)鍵詞的質(zhì)量跟算法的優(yōu)劣有直接關(guān)系.并且聚類結(jié)果是否有明確含義,還需要人工進(jìn)行驗(yàn)證.

      對(duì)于領(lǐng)域主題,現(xiàn)有的科學(xué)文獻(xiàn)分析大都集中于使用傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)方法,如統(tǒng)計(jì)論文數(shù)量和被引情況,建立被引用次數(shù)網(wǎng)絡(luò)和合著網(wǎng)絡(luò)等等.本文需要通過(guò)更高階的指數(shù)來(lái)揭示更深層次的現(xiàn)象和規(guī)律.而高階指數(shù)文獻(xiàn)計(jì)量結(jié)合可視分析技術(shù)正是當(dāng)前文獻(xiàn)研究領(lǐng)域的熱點(diǎn)研究方向之一.

      本文的工作正是基于關(guān)鍵詞提取、主題聚類、高階指數(shù)計(jì)量和可視分析技術(shù)研究領(lǐng)域主題發(fā)展態(tài)勢(shì).本文的主要貢獻(xiàn)包括:

      (1)本文使用提取的詞組而不是單詞作為關(guān)鍵詞.這些詞組是用自然語(yǔ)言處理的方法從標(biāo)題和摘要中提取出來(lái)的.基于這些關(guān)鍵詞,本文使用LDA和共現(xiàn)關(guān)系來(lái)研究領(lǐng)域論文中的主題分布.

      (2)將可視分析與文獻(xiàn)計(jì)量學(xué)相結(jié)合,分析領(lǐng)域主題的發(fā)展歷史、現(xiàn)狀和趨勢(shì).本文提出一種擴(kuò)展的Bcp指數(shù)用以描述發(fā)展?fàn)顟B(tài),并據(jù)此來(lái)判斷一個(gè)主題或關(guān)鍵詞發(fā)展?fàn)顟B(tài).同時(shí),本文將Bcp指數(shù)應(yīng)用于判斷一篇論文的被引用狀態(tài),并將論文按引用狀態(tài)分為“延遲承認(rèn)”型、“長(zhǎng)盛不衰”型以及“其他類型”.在此基礎(chǔ)上,本文優(yōu)化了經(jīng)典的論文推薦方法.本文還建立了一個(gè)作者的合作網(wǎng)絡(luò),以便挖掘一個(gè)主題的研究社團(tuán).

      (3)本文開(kāi)發(fā)了一個(gè)交互式可視化分析系統(tǒng)VISExplorer,支持科學(xué)文獻(xiàn)的主題發(fā)展態(tài)勢(shì)展示、趨勢(shì)分析、社團(tuán)發(fā)現(xiàn)和論文推薦.

      1 相關(guān)工作

      1.1 科學(xué)文獻(xiàn)中的主題提取

      主題提取技術(shù)已經(jīng)被廣泛地應(yīng)用于文獻(xiàn)分析.典型的主題抽取技術(shù)包括共詞分析和LDA[2]的概率方法.

      共詞分析是根據(jù)關(guān)鍵字、標(biāo)題、摘要乃至全文中的詞的共現(xiàn)關(guān)系來(lái)提取主題的[3-7].與本文的工作最相關(guān)的研究有:Coulter 等[8]在軟件工程領(lǐng)域的工作、Hoonlor 等[9]對(duì)計(jì)算機(jī)科學(xué)文獻(xiàn)的普查工作、Liu 等[10]的基于人機(jī)交互的文獻(xiàn)分析以及Isenberg 等[1]對(duì)IEEEVIS論文數(shù)據(jù)的分析.

      LDA是Blei 于2003年提出的,是一種廣泛應(yīng)用于主題抽取和文本分類的概率模型.許多工作[11-15]都致力于解釋LDA提取的主題.Sievert 等[15]還開(kāi)發(fā)了一個(gè)LDA模型的交互式可視化軟件LDAvis.

      共詞分析可以清楚地揭示關(guān)鍵詞與主題之間的關(guān)系,但這種方法主要依賴于人工對(duì)主題進(jìn)行提取.而使用LDA 則更為方便,也不需要太多的人工操作.但是,LDA提取的主題可解釋性不高.本文中,本文將這兩種技術(shù)結(jié)合在一起.本文用LDA 從關(guān)鍵詞中提取主題,并用共詞分析來(lái)顯示主題和關(guān)鍵詞之間的關(guān)系.

      1.2 文獻(xiàn)計(jì)量學(xué)文獻(xiàn)分析方法

      文獻(xiàn)計(jì)量學(xué)中有關(guān)文獻(xiàn)分析的經(jīng)典方法包括被引用次數(shù)分析、共引分析、合著分析、影響力分析和評(píng)估等等.本文將分析重點(diǎn)放在被引用次數(shù)分析和評(píng)估的基礎(chǔ)上,找出領(lǐng)域發(fā)展模式和重要的論文.

      近年來(lái),在通過(guò)被引用次數(shù)尋找領(lǐng)域發(fā)展模式方面做了大量工作.為了找到“延遲承認(rèn)”模式的論文,Ke 等[16]系統(tǒng)地分析了自20世紀(jì)以來(lái)在自然科學(xué)和社會(huì)科學(xué)領(lǐng)域發(fā)表的2200多萬(wàn)篇論文的被引用次數(shù).Van Raan 等[17,18]利用被引用次數(shù)分析研究了1980-1994年《Science》的被引用次數(shù),尋找物理、化學(xué)、工程和計(jì)算機(jī)科學(xué)領(lǐng)域的論文模式.Ke 等[16]提出了B指數(shù)來(lái)識(shí)別符合“睡美人”模式的論文.Du 等[19]擴(kuò)展了B指數(shù),提出了一種Bcp指數(shù),Bcp指數(shù)能比B指數(shù)更準(zhǔn)確地識(shí)別“延遲承認(rèn)”類型的論文.本文參考Du的思想,提出一種擴(kuò)展的Bcp指數(shù)來(lái)識(shí)別更多類型的論文.

      1.3 科學(xué)文獻(xiàn)的可視分析

      Chuang 等[4]使用Jigsaw[20]工具和CiteVis 工具[21],并基于IEEE VIS可視化論文的數(shù)據(jù)集vispubdata[22],構(gòu)建了用于主題模型診斷的機(jī)器學(xué)習(xí)模型.Latif 等[23]開(kāi)發(fā)了一個(gè)結(jié)合文本分析和可視化的交互式論文可視化系統(tǒng),以生成IEEE VIS論文的作者文字簡(jiǎn)介.Guo等[24]使用迭代設(shè)計(jì)的可視化分析工具分析基于主題的意義構(gòu)建框架和實(shí)驗(yàn),以確定主題設(shè)計(jì)的意義,從而促進(jìn)使用可視化生成研究想法.Federico 等[25]回顧了專利和論文的交互分析和可視化方法,并根據(jù)數(shù)據(jù)和任務(wù)兩個(gè)方面對(duì)文獻(xiàn)可視分析方法進(jìn)行分類。

      近年來(lái),與本文的工作類似的是Isenberg 等[22]的工作.基于作者提供的關(guān)鍵字,他們展示了1990~2015年間發(fā)表在IEEE可視化會(huì)議系列(現(xiàn)在稱為IEEE VIS)上的論文的綜合的多通道的分析結(jié)果.他們對(duì)這些關(guān)鍵字進(jìn)行了多次人工編碼,進(jìn)而找到更高級(jí)別的關(guān)鍵字主題集合,然后使用共詞分析和策略圖來(lái)研究主題的發(fā)展態(tài)勢(shì).然而,有將近30%論文沒(méi)有作者提供的關(guān)鍵字,他們只是簡(jiǎn)單地把這些論文從數(shù)據(jù)中剔除出去.而且,他們的工作依賴于大量人工編碼工作,這種分類只適合于研究IEEE VIS 會(huì)議的論文,對(duì)于其他刊源的數(shù)據(jù)集,這種人工分類并不合適,而且對(duì)于更大量的數(shù)據(jù)會(huì)耗費(fèi)巨大的時(shí)間成本.本文的方法是從標(biāo)題和摘要中提取關(guān)鍵字,將它們與作者提供的關(guān)鍵字相結(jié)合,使用LDA 代替人工工作提取主題,運(yùn)用文獻(xiàn)計(jì)量學(xué)的方法對(duì)主題和論文模式進(jìn)行識(shí)別.相較而言,本文的方法具有更高的效率和可擴(kuò)展性.

      2 需求分析

      本文的用戶群是處于研究生涯不同階段的研究人員,可以分為兩類:新手研究人員和經(jīng)驗(yàn)豐富的研究人員.

      新手研究人員是指那些剛開(kāi)始自己研究生涯的研究人員.他們正處于研究生涯的早期階段,對(duì)自己的研究領(lǐng)域了解不足.他們迫切需要知道本領(lǐng)域包括哪些研究主題? 每個(gè)主題研究什么技術(shù)? 每個(gè)主題發(fā)展的歷史和趨勢(shì)是什么? 哪些文章是必讀的關(guān)鍵文章? 等等.這些信息可以幫助他們快速定位關(guān)鍵文章,用最少的精力較深入地了解感興趣的研究方向,選擇最合適的研究方向.

      有經(jīng)驗(yàn)的研究人員是指已經(jīng)積累了某領(lǐng)域相當(dāng)研究經(jīng)驗(yàn)的研究人員.他們正處于研究生涯的中期,對(duì)自己領(lǐng)域內(nèi)的各種研究方向有較深的理解.這些研究人員基本都有一兩個(gè)主要的研究主題,他們經(jīng)常需要這些主題的最新動(dòng)態(tài),以尋找其中某些關(guān)鍵問(wèn)題的解決方案.他們需要知道這些主題是近幾年的發(fā)展態(tài)勢(shì)如何? 最活躍的作者有哪些? 有沒(méi)有與自己的研究類似的重要論文發(fā)表? 這些信息有助于激發(fā)新的研究思路.

      綜上所述,可以歸納出4個(gè)主要需求:

      需求1:在宏觀上展示主題分布.用戶可以在此基礎(chǔ)上選擇自己的感興趣的研究主題,進(jìn)行深入了解和分析.

      需求2:分析主題的發(fā)展趨勢(shì).對(duì)于一個(gè)主題,用戶渴望了解該主題的研究熱點(diǎn)以及相關(guān)重要論文.因此,需要一種有效合理的評(píng)價(jià)方法來(lái)評(píng)價(jià)該課題的發(fā)展態(tài)勢(shì).

      需求3:顯示每個(gè)主題中作者的合作關(guān)系.一個(gè)領(lǐng)域的研究人員通常希望與該領(lǐng)域的其他同行進(jìn)行交流,尤其是對(duì)高被引或高產(chǎn)出的作者尤為關(guān)注.此外,研究社團(tuán)可以幫助用戶挖掘更多更精準(zhǔn)的合作機(jī)會(huì).

      需求4:用戶需要高效便捷地探索領(lǐng)域信息.為了滿足上述要求,需要一個(gè)交互式的可視化系統(tǒng).系統(tǒng)包含領(lǐng)域主題分布、趨勢(shì)分析、作者合作關(guān)系和重要論文推薦等功能.系統(tǒng)必須根據(jù)每次交互更新可視化內(nèi)容,以便用戶能夠?qū)崟r(shí)獲得聚焦主題的各維度信息.

      3 數(shù)據(jù)處理

      主題是本文分析的基本信息,通常由作者提供的關(guān)鍵字表示.然而,并不是所有的論文都有這樣的關(guān)鍵詞,特別是那些在IEEE VIS 早期被接受的文獻(xiàn)[22].Isenberg 等發(fā)現(xiàn),2000年以前IEEE VIS論文的關(guān)鍵詞覆蓋率不到70%.為了充分利用這10年的論文數(shù)據(jù),本文從論文的標(biāo)題和摘要中提取關(guān)鍵詞,并在此基礎(chǔ)上提取主題.

      3.1 數(shù)據(jù)來(lái)源

      本文收集了1990~2018年IEEE-VIS 接收的3067篇完整論文.這些論文數(shù)據(jù)來(lái)源于vispubdata、IEEE VIS 官方網(wǎng)站、IEEE Xplore和Microsoft Academic.每篇論文包括標(biāo)題、作者、發(fā)表年份、會(huì)議、摘要、被引用次數(shù)等.其中大部分論文包含了作者提供的關(guān)鍵字、IEEE關(guān)鍵詞、INSPEC控制索引和ISNPEC 非控制索引.

      3.2 關(guān)鍵詞提取

      本文設(shè)計(jì)了一套關(guān)鍵詞提取流程,從標(biāo)題和摘要中自動(dòng)提取包含詞組的關(guān)鍵字.流程由4個(gè)主要模塊組成.

      M1:預(yù)處理模塊.這一模塊主要用于生成和清理用于提取關(guān)鍵詞和主題的語(yǔ)料庫(kù).將每一篇論文的標(biāo)題和摘要合并為一個(gè)文檔,這樣的3067個(gè)文檔就構(gòu)成了語(yǔ)料庫(kù),并通過(guò)將所有單詞統(tǒng)一為小寫以及刪除特殊字符等方法來(lái)清理語(yǔ)料庫(kù).

      M2:短語(yǔ)提取模塊.這一模塊使用NLTK 對(duì)語(yǔ)料庫(kù)中的詞性進(jìn)行標(biāo)記與分詞.NLTK是一個(gè)提供許多自然語(yǔ)言處理方法的Python庫(kù).接下來(lái),基于n-gram模型生成2-gram,3-gram,···,6-gram 并提取名詞詞組.這些名詞詞組,與作者提供的關(guān)鍵字、IEEE關(guān)鍵字、ISNPEC的控制索引和非控制索引,一起組成了關(guān)鍵詞候選集.鑒于在論文中的大多數(shù)核心關(guān)鍵詞的長(zhǎng)度都不超過(guò)6個(gè)單詞,本文將提取詞組的最大長(zhǎng)度設(shè)置為6.通過(guò)這種方法,本文從3067篇論文中共提取出6754個(gè)核心關(guān)鍵詞組.

      M3:共現(xiàn)矩陣生成模塊.這一模塊計(jì)算關(guān)鍵詞候選集中,任意兩個(gè)關(guān)鍵詞的共同出現(xiàn)在一篇論文中的次數(shù),并將其存放到6754×6754 大小的共現(xiàn)矩陣中.

      M4:關(guān)鍵詞過(guò)濾.這一模塊根據(jù)過(guò)濾條件,結(jié)合共現(xiàn)矩陣,從關(guān)鍵詞候選集中選擇較重要的關(guān)鍵詞,將一些不重要的關(guān)鍵詞過(guò)濾掉.本文設(shè)置了3個(gè)過(guò)濾條件:

      (1)每個(gè)關(guān)鍵詞都與一個(gè)以上的其他關(guān)鍵詞有共現(xiàn)關(guān)系(過(guò)濾掉孤點(diǎn));

      (2)對(duì)于每個(gè)關(guān)鍵詞,包含它的論文數(shù)不小于5篇;

      (3)任意2個(gè)有共現(xiàn)關(guān)系的關(guān)鍵詞的共現(xiàn)次數(shù)不小于2次.

      經(jīng)過(guò)過(guò)濾后的關(guān)鍵詞就是本文所研究的領(lǐng)域關(guān)鍵詞候選集.通過(guò)少量的人工干預(yù),即可產(chǎn)生較高質(zhì)量的關(guān)鍵詞集合,具體方案在第5.2節(jié)說(shuō)明.

      表1 β=0.27時(shí)的選詞結(jié)果,列出了每一個(gè)主題詞頻排名前3的代表詞

      3.3 主題提取

      本文使用LDA模型從領(lǐng)域關(guān)鍵詞集合中自動(dòng)提取主題.LDA是一種廣泛應(yīng)用于文本分類的基于概率的機(jī)器學(xué)習(xí)方法,是一種典型的詞袋模型.它把一篇論文看作一個(gè)詞袋,詞與詞之間沒(méi)有詞序信息.因此,可以把一篇論文看作是由若干在論文中出現(xiàn)過(guò)的領(lǐng)域關(guān)鍵詞所組成的詞袋.將這些論文詞袋輸入到genism庫(kù)的LDA模型中,并設(shè)置主題數(shù)量,即可得到相應(yīng)的主題.

      用于投稿和評(píng)審論文的Precision Conference System(PCS)系統(tǒng)將關(guān)鍵詞分成14大類,Isenberg 等人[1]在經(jīng)過(guò)多名專家多次研討后將關(guān)鍵詞分成16類,本文取平均值,將主題數(shù)量設(shè)為15個(gè).通過(guò)LDA模型得到了15個(gè)主題及其關(guān)鍵詞分布,并使用Sievert[15]定義的顯著性公式來(lái)選擇每個(gè)主題的關(guān)鍵詞:

      其中,r(w,k|β)是關(guān)鍵詞w和主題k的相關(guān)度.φkw是w屬于k的概率.pw是w在預(yù)料庫(kù)中的邊緣概率.β是平衡公式加號(hào)前后兩部分的系數(shù),它是作為調(diào)節(jié)選詞歸屬度優(yōu)先還是詞頻優(yōu)先的重要參數(shù).β=1時(shí),選詞標(biāo)準(zhǔn)就完全按照歸屬大小度選擇.β=0時(shí),選詞標(biāo)準(zhǔn)就變?yōu)橥耆凑赵~頻大小選擇.表1是β=0.27時(shí)的選詞結(jié)果,列出了每一個(gè)主題詞頻排名前三的代表詞.

      4 基于文獻(xiàn)計(jì)量學(xué)的主題發(fā)展態(tài)勢(shì)分析

      本節(jié)將闡述如何通過(guò)文獻(xiàn)計(jì)量學(xué)方法來(lái)分析主題.根據(jù)第3節(jié)的需求,本文重點(diǎn)研究領(lǐng)域主題的發(fā)展態(tài)勢(shì).主題發(fā)展態(tài)勢(shì)是一個(gè)主題的研究歷史和研究現(xiàn)狀的表現(xiàn),主要反映在該主題相關(guān)的論文數(shù)量、論文質(zhì)量、歷年趨勢(shì)、研究人員規(guī)模等指標(biāo)上.

      4.1 基于被引用趨勢(shì)的主題/論文分類

      本文把一篇論文的生命期定義為從論文發(fā)表時(shí)刻到當(dāng)前時(shí)刻的這段時(shí)期.一篇論文可以根據(jù)其生命期內(nèi)的被引用次數(shù)分布情況來(lái)揭示其受關(guān)注程度.同理,一個(gè)主題的歷年被引用次數(shù)可以通過(guò)將所有與該主題相關(guān)的論文的歷年被引用次數(shù)相加來(lái)計(jì)算.一個(gè)主題的歷年研究熱度變化反映在其生命期內(nèi)的被引用次數(shù)分布情況.論文/主題的歷年被引用次數(shù)分布情況可以將分為6個(gè)子類型.

      子類型1:引用集中在生命期的后期,早期引用較少.這說(shuō)明,論文發(fā)表/主題發(fā)展初期,很少有人關(guān)注.隨著時(shí)間推移,它的價(jià)值被慢慢發(fā)現(xiàn),并被大家廣泛認(rèn)可.這意味著這篇文章或這類主題的研究?jī)?nèi)容可能是具有顛覆性或超前性的,經(jīng)過(guò)長(zhǎng)期的沉寂,在當(dāng)前具有很強(qiáng)的研究?jī)r(jià)值.圖1(a)所示為子類型1的歷年被引用曲線的示例形狀.

      圖1 6類被引用曲線形狀和對(duì)應(yīng)的累積被應(yīng)用曲線形狀

      子類型2:引用集中在生命期的早期和晚期,中期引用較少.這意味著論文發(fā)表/主題發(fā)展之初就廣受關(guān)注,但隨后關(guān)注度慢慢下降,在沉默了一段時(shí)間后,它又開(kāi)始逐漸引起人們的注意.這說(shuō)明該論文/主題所涉及的研究?jī)?nèi)容在發(fā)表之初就顯示出很高的研究?jī)r(jià)值,但由于當(dāng)時(shí)技術(shù)或知識(shí)上的不足,相關(guān)研究遇到了瓶頸.然而,經(jīng)過(guò)一段時(shí)期后,由于知識(shí)的積累或技術(shù)的突破,滿足了繼續(xù)推進(jìn)研究的必要條件,這些研究?jī)?nèi)容再次成為研究熱點(diǎn).這種類型的論文/主題在當(dāng)前也具有很大的研究?jī)r(jià)值.圖1(b)所示為子類型2的歷年被引用曲線的示例形狀.

      子類型3:引用次數(shù)歷年分布相對(duì)平均,無(wú)大波動(dòng).這說(shuō)明論文/主題具有很強(qiáng)的生命力,在其生命期內(nèi)每年都能保持穩(wěn)定的被引用率.一般來(lái)說(shuō),這些論文或主題所涉及的內(nèi)容都是經(jīng)典或基礎(chǔ)的研究.圖1(c)所示為子類型3的歷年被引用曲線的示例形狀.

      子類型4:引用集中在生命周期的早期,后期的引用很少.這表明論文/主題自發(fā)表以來(lái)受到了廣泛的關(guān)注,但隨著時(shí)間的推移,逐漸失去了人們的關(guān)注.這意味著論文/主題中提到的研究?jī)?nèi)容現(xiàn)在已經(jīng)過(guò)時(shí)、逐漸被遺忘,或已達(dá)到成熟狀態(tài).圖1(d)所示為子類型4的歷年被引用曲線的示例形狀.

      子類型5:引用集中在生命周期的中期,早期和后期很少.這意味著論文/主題在發(fā)表之初沒(méi)有被注意到,隨著時(shí)間推移,它的價(jià)值逐漸被發(fā)現(xiàn)和認(rèn)識(shí),過(guò)了一段時(shí)間,又失去了研究?jī)r(jià)值.這意味著論文/課題中涉及的研究?jī)?nèi)容現(xiàn)在也已過(guò)時(shí)或研究已達(dá)到成熟.圖1(e)所示為子類型5的歷年被引用曲線的示例形狀.

      子類型6:引用次數(shù)多次漲落,波動(dòng)較大.在實(shí)際中,只有總被引次數(shù)很少的論文/主題會(huì)出現(xiàn)這種情況.那些重要的高被引文章或主題基本都不屬于這種類型.因此,本文不予討論.圖1(f)所示為子類型6的歷年被引用曲線的示例形狀.

      這6個(gè)子類型還可以進(jìn)一步合并為3大類:

      第I類:子類型1和子類型2的論文/主題總是包含最先進(jìn)的技術(shù)或研究熱點(diǎn),對(duì)研究人員最有價(jià)值.這兩種子類型的論文/主題的共同點(diǎn)是,它們的被引用次數(shù)在生命期后期明顯上升.本文把這兩個(gè)子類型合并成第I類.

      傳統(tǒng)花卉審美情致的差異,在文人的詩(shī)歌、繪畫、生活中都有較為豐富的資料記載。廳堂擺花如能充分挖掘園林主人及其友人這種審美沖突帶來(lái)的趣味性和差異性,或許能更好的展現(xiàn)單個(gè)園林自身的特定主題,也為賞花者增添一些樂(lè)趣。

      第II類:子類型3的論文/主題一般涉及基礎(chǔ)知識(shí)或技術(shù).這對(duì)研究人員,特別是新手研究人員也非常重要.這類論文/主題的歷年被引用情況相對(duì)穩(wěn)定,在生命期內(nèi)沒(méi)有顯著的上升或下降趨勢(shì).本文將子類型3歸為第II類.

      第III類:子類型4、子類型5和子類型6的論文/主題所包含的技術(shù)或知識(shí)通常是成熟的或過(guò)時(shí)的.這類論文/主題的引用在生命期后期明顯減少,甚至消失.本文將這3個(gè)子類型合并為第III類.

      4.2 論文/主題類型識(shí)別

      在第4.1節(jié)中,我們根據(jù)論文/主題生命期內(nèi)的被引用次數(shù)分布定義了3大類型和6個(gè)子類型.但是,如何通過(guò)數(shù)學(xué)方法自動(dòng)判斷一篇論文或一個(gè)主題屬于哪一類?在Du 等[19]的研究中,對(duì)子類型1的論文提出了一套基于累積被引用曲線的判別方法.本文擴(kuò)展了這一思想,使之能滿足判斷所有類型.

      對(duì)于任意時(shí)間段[t1,t2],t1

      在這個(gè)公式中,Ci表示論文/主題在第i年的被引次數(shù),由公式(3)可知,論文/主題的歷年累計(jì)被引次數(shù)單調(diào)遞增.當(dāng)t1是發(fā)表年份,t2是當(dāng)前年份時(shí),f(t1)是論文/主題發(fā)表年份的被引次數(shù),通常f(t1)=0.f(t2)是迄今為止該論文/主題的總被引用次數(shù).

      為了消除每篇論文總被引次數(shù)差距過(guò)大而產(chǎn)生的影響,我們將式(3)除以f(t2)進(jìn)行標(biāo)準(zhǔn)化:

      式(4)就是本文接下來(lái)要重點(diǎn)研究的累積被引用曲線.

      定義從 (t1,c(t1))到(t2,c(t2))的直線為參考線,用公式表述為:

      從定義可以看出,與參考線相對(duì)應(yīng)的論文/主題的歷年被引用次數(shù)是恒定的.也就是說(shuō),如果一篇論文/主題每年有相同的被引用次數(shù),其累積被引用曲線與其參考線重合.累積被引用曲線位于參考線上方的區(qū)域意味著該論文/主題的被引用次數(shù)總體趨勢(shì)在此期間持續(xù)上升.累積被引用曲線位于參考線以下的區(qū)域意味著該論文/主題的被引用次數(shù)總體趨勢(shì)在此期間持續(xù)下降.6個(gè)子類型的累積被引用曲線的示例形狀如圖1(g)至圖1(l)所示.

      除去起點(diǎn)和終點(diǎn),累積被引用曲線與參考線的交點(diǎn)是論文/主題被引用次數(shù)從上升到下降或從下降到上升的轉(zhuǎn)折點(diǎn).在本文中,當(dāng)提到“交點(diǎn)”時(shí),指的是除兩條曲線的起點(diǎn)和終點(diǎn)之外的交點(diǎn).這些交點(diǎn)可分為兩種類型:

      A型:對(duì)于累積被引用曲線與參考線的交點(diǎn)(t,c(t)),t可能不是整數(shù).設(shè)ti是整數(shù)年,t∈[ti,ti+1].如果c,則將交點(diǎn)(t,c(t))分類為A型.例如圖1(h)中的交點(diǎn)P.A型交點(diǎn)始終是論文/主題被引用次數(shù)的總體趨勢(shì)即將由降到升的關(guān)鍵點(diǎn),即這類交點(diǎn)所對(duì)應(yīng)的時(shí)間點(diǎn)往后一段時(shí)間內(nèi),論文/主題被引用次數(shù)的總體趨勢(shì)必然會(huì)上升.

      B型:對(duì)于累積被引用曲線與參考線的交點(diǎn)(t,c(t)),如果c(ti)

      基于上述這些定義,就可以分析I-III類論文/主題的累積被引用曲線和參考線的特征.為了便于表達(dá),將累積被引用曲線和參考線交點(diǎn)P(tp,c(tp))定義為靠近終點(diǎn)(t2,c(t2))的最后一個(gè)交點(diǎn),即最近一次發(fā)生趨勢(shì)大變化的關(guān)鍵點(diǎn).如果累積被引用曲線和參考線沒(méi)有交點(diǎn),則P就是起點(diǎn)(t1,c(t1)).

      對(duì)于第I類:其累積引用曲線(帶參考線)如圖1(g)(h)所示.這一類的主要特點(diǎn)是:累積被引用曲線在P與終點(diǎn)(t2,c(t2))之間的部分位于的參考線下方,且這部分累積被引用曲線和參考線圍成的區(qū)域面積較大.如果有交點(diǎn),則P是類型為A的交點(diǎn).

      對(duì)于II型:其累積被引用曲線(帶參考線)如圖1(i)所示.這一類的主要特點(diǎn)是累積被引用曲線緊貼參考線或基本重合.

      對(duì)于III型:其累積被引用曲線(帶參考線)如圖1(j)(k)(l)所示.不屬于前兩種類型的論文/主題都?xì)w為類型III.這一類的主要特點(diǎn)是:累積被引用曲線在P和終點(diǎn)(t2,c(t2))之間的部分位于參考線上方.如果有交點(diǎn),則P是類型為B的交點(diǎn).

      4.3 Bcp指數(shù)

      根據(jù)Du 等[19]的研究,為Bcp指數(shù)可定義為:對(duì)于任何非零引用論文,(c(t2)?c(t1))/(t2?t1)是參考線l(t)的斜率.對(duì)于任意t∈[t1,t2],計(jì)算l(t)?c(t)的值.然后,將這些值加在t=t1和t=t2之 間,得到Bcp指數(shù).

      指數(shù)可以用公式表示為:

      從式(6)可以看出,Bcp的值是累積被引用曲線位于參考線下的面積減去累積被引用曲線位于參考線上的面積.因此,若累積被引用曲線位于參考線下的面積大,則Bcp>0,反之,Bcp<0.

      從累積被引用曲線上的點(diǎn)(t,c(t))到參考線的距離.D(t)可以定義為從該點(diǎn)到參考線的垂線段的長(zhǎng)度.D(t)可通過(guò)以下公式計(jì)算:

      最大距離記為:

      注意到這時(shí)間不是被引用次數(shù)中變化最大的時(shí)間,而是被引用次數(shù)累積到由量變產(chǎn)生質(zhì)變的時(shí)間.

      根據(jù)上述定義和公式,我們可以通過(guò)Bcp指數(shù)來(lái)識(shí)別論文/主題的類型.累積被引用曲線上最有趣的區(qū)域是最后一個(gè)交點(diǎn)P和終點(diǎn)(t2,c(t2))之間位于參考線下方的區(qū)域.該區(qū)域表示近年來(lái)論文/主題的被引用次數(shù)呈上升趨勢(shì),其所涉及的研究?jī)?nèi)容是熱點(diǎn).

      對(duì)于I類論文/主題,計(jì)算tp和t2之間的Bcp指數(shù).顯然,Bcp>0,Bcp值越大,面積越大,說(shuō)明上升期的持續(xù)時(shí)間或范圍也越大.為了區(qū)別于II型,累積被引用曲線與參考線之間的最大距離D(tD)不應(yīng)太小.所以本文設(shè)置了一個(gè)閾值來(lái)篩選D(tD),此時(shí)D(tD)大于閾值.

      對(duì)于II類論文/主題,其特點(diǎn)是累積被引用曲線緊貼參考線或幾乎重合.所以D(tD)不應(yīng)該太大.此時(shí)D(tD)小于閾值.

      對(duì)于III論文/主題,不符合前兩種類型的論文/主題即為此類,此時(shí)tp和t2之間的Bcp指數(shù)為負(fù)值,D(tD)大于等于閾值.

      表2中列出了這3類論文/主題的Bcp和D(tD)的特征.

      表2 不同類型的Bcp特征

      4.4 論文推薦

      在眾多論文中,研究人員更關(guān)注那些高被引論文.在高被引論文中,研究人員更關(guān)注I類和II類論文.這兩類論文更具有重要的現(xiàn)實(shí)研究?jī)r(jià)值.因此,本文主要推薦第I類和第II類論文.

      本文推薦第I類和第II類論文,并按總被引用次數(shù)降序排列.但是,按照總被引次數(shù)降序排列存在不足:被引次數(shù)較低的老文章可能會(huì)排在被引次數(shù)較低的新文章前.如一篇發(fā)表了20年的文章被引5次,一篇發(fā)表了2年的文章被引5次,用戶會(huì)更傾向于閱讀后者.因此,設(shè)置了一個(gè)限制來(lái)優(yōu)化推薦列表,即每個(gè)推薦的論文必須滿足以下兩個(gè)條件之一:

      條件1.這篇論文的總被引用次數(shù)足夠高.被高度引用的論文一直是研究人員最關(guān)心的論文.高被引論文的定義根據(jù)實(shí)際需要而有所不同.本文設(shè)置推薦論文的總被引次數(shù)不小于所有I類和II類論文的平均被引用次數(shù).

      條件2.這篇論文年均被引用次數(shù)足夠多.本文用年均被引用次數(shù)作為指標(biāo),是因?yàn)閷?duì)于新發(fā)表的論文(生命期≤5年),生命期很短,總被引用次數(shù)不大,將其與生命期長(zhǎng)的論文相比沒(méi)有意義.因此,為了消除生命期長(zhǎng)短的影響,盡可能推薦有價(jià)值的新發(fā)表論文,本文設(shè)置推薦論文的年均被引用次數(shù)不小于所有I類和II類論文的平均年均被引用次數(shù).

      5 可視化設(shè)計(jì)

      根據(jù)上述分析方法和思想,本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)交互式可視化分析系統(tǒng)VISExplorer.如圖2所示,該系統(tǒng)由6個(gè)版塊組成:領(lǐng)域主題總覽(a)、關(guān)鍵詞分布與分類(b)、被引用趨勢(shì)曲線(c)、合著網(wǎng)絡(luò)(d)和論文推薦(e).

      5.1 研究主題總覽

      主題和關(guān)鍵詞是本文分析的基礎(chǔ).用LDA模型提取的主題可以看作是高層次的主題,而構(gòu)成主題的關(guān)鍵詞可以看作是低層次的主題.主題的分布和趨勢(shì)可以通過(guò)關(guān)鍵詞的分布和趨勢(shì)來(lái)反映.因此,本文使用主題和關(guān)鍵詞作為切入點(diǎn),幫助用戶找到他們想要的信息.

      如圖2(a)所示,主題總覽由4部分組成:a1 用于調(diào)整關(guān)聯(lián)度 β;a2為主題選擇區(qū)域;a3 顯示所選主題的關(guān)鍵詞分布,a4為搜索框.在a2中,本文可以通過(guò)主題編號(hào)來(lái)選擇某一主題,該主題前30個(gè)最顯著的關(guān)鍵詞將顯示在a3中,并按顯著性由大到小進(jìn)行排序.每次調(diào)整 β,a3 將重新排序.在a4中,用戶可以輸入自己感興趣的關(guān)鍵詞進(jìn)行模糊查詢,進(jìn)而選擇相關(guān)關(guān)鍵詞進(jìn)行下一步分析.

      圖2 VISExplorer系統(tǒng)界面

      5.2 關(guān)鍵詞分布和分類

      為了使用戶能夠?qū)φ麄€(gè)IEEE VIS論文中所有主題的總體分布及關(guān)系一目了然.我們需要清楚地展現(xiàn)兩點(diǎn):關(guān)鍵詞和主題之間的關(guān)系以及關(guān)鍵詞之間的關(guān)系.前者是展示LDA提取的主題結(jié)果.后者是展示關(guān)鍵詞內(nèi)部的共現(xiàn)關(guān)系,即共詞分析.

      基于上述考慮,我們使用共詞網(wǎng)絡(luò)來(lái)表示關(guān)鍵詞內(nèi)部的關(guān)系,如圖2(b)所示.每個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵詞,節(jié)點(diǎn)大小表示該關(guān)鍵詞相關(guān)的論文數(shù)量.兩個(gè)節(jié)點(diǎn)之間的邊表示這兩個(gè)關(guān)鍵詞有共現(xiàn)關(guān)系,邊的厚度與共現(xiàn)次數(shù)成正比.根據(jù)本文提出的分類方法,我們將所有關(guān)鍵詞分類為I、II、III類,并用不同的顏色來(lái)表示不同的類型.用戶可以使用鼠標(biāo)滾輪來(lái)放大和縮小圖形,也可以通過(guò)點(diǎn)擊或圈選節(jié)點(diǎn)來(lái)選擇他們感興趣的關(guān)鍵詞.

      根據(jù)共現(xiàn)關(guān)系而形成的共詞網(wǎng)絡(luò)具有明顯的聚類效果.一個(gè)主題中具有相似語(yǔ)義或相似意義的關(guān)鍵字聚集在一起成為主題關(guān)鍵詞群.節(jié)點(diǎn)尺寸大的關(guān)鍵詞表示了主題的主要研究?jī)?nèi)容,并始終處于主題關(guān)鍵詞群的中心附近.不經(jīng)常出現(xiàn)的關(guān)鍵詞通常位于主題關(guān)鍵詞群的邊緣.

      此外,該共詞網(wǎng)絡(luò)可用于檢驗(yàn)關(guān)鍵詞提取效果.本文基于n-gram模型提取關(guān)鍵詞容易產(chǎn)生多余的關(guān)鍵詞,如flow field visualization關(guān)鍵詞會(huì)產(chǎn)生flow field和field visualization關(guān)鍵詞.但在該共詞網(wǎng)絡(luò)中,flow field和field visualization 這類多余的關(guān)鍵詞會(huì)緊緊圍繞flow field visualization分布,通過(guò)肉眼很容易發(fā)現(xiàn).因此,通過(guò)該共詞網(wǎng)絡(luò)可以發(fā)現(xiàn)關(guān)鍵詞提取過(guò)程中存在的問(wèn)題,輔助參數(shù)的設(shè)置,以得到質(zhì)量較好的關(guān)鍵詞集合.

      5.3 歷年趨勢(shì)

      當(dāng)用戶選定關(guān)鍵字/主題以后,將顯示該關(guān)鍵字或主題的所有出版物每年的累積被引用曲線、參考線和歷年被引用次數(shù)曲線.這里我們使用雙軸折線圖來(lái)繪制趨勢(shì)曲線,如圖2(c)所示.在[0,1]范圍內(nèi)的左Y軸是累積被引用曲線和參考線的縱軸.在(0,+)范圍內(nèi)的右Y軸是歷年被引用次數(shù)曲線的縱軸.這3條曲線共用一條表示時(shí)間跨度的X軸.紅色實(shí)線為累積被引用曲線,灰色虛線為參考線,藍(lán)色實(shí)線為歷年被引用次數(shù)曲線.圖中還使用針型圖標(biāo)來(lái)標(biāo)記累積被引用曲線上到參考線距離最大的點(diǎn).

      5.4 作者合作網(wǎng)絡(luò)

      當(dāng)用戶選定關(guān)鍵詞/主題以后,本文采用力導(dǎo)向布局來(lái)展現(xiàn)其相關(guān)作者的合著網(wǎng)絡(luò),如圖2(d)所示.

      圖中每個(gè)節(jié)點(diǎn)表示選定主題/關(guān)鍵詞的一個(gè)作者.如果兩位作者共同撰寫了一篇該主題/關(guān)鍵詞相關(guān)的論文,則會(huì)在相應(yīng)的節(jié)點(diǎn)之間連條邊.邊寬與兩位作者合著的論文數(shù)成正比.本文采用兩種不同的規(guī)則來(lái)映射節(jié)點(diǎn)的大小:論文數(shù)量和被引用次數(shù),用戶可以根據(jù)實(shí)際需求選擇.

      作者合著網(wǎng)絡(luò)可以用來(lái)挖掘研究社區(qū)的分布.由于同一篇論文的作者之間有相互關(guān)系,這些作者的節(jié)點(diǎn)構(gòu)成一個(gè)完全子圖.子圖之間通過(guò)共同節(jié)點(diǎn)合并在一起,形成更大的社區(qū).社區(qū)中節(jié)點(diǎn)越大,代表的論文越多或被引用次數(shù)越多,這些通常是社區(qū)中的核心專家.如果某個(gè)節(jié)點(diǎn)作者的論文出現(xiàn)在論文推薦列表中,則將該節(jié)點(diǎn)用黑色描邊,描邊寬度與該作者被推薦的論文數(shù)量成正比.

      5.5 論文推薦

      當(dāng)用戶選定關(guān)鍵詞/主題以后,會(huì)在“論文推薦”版塊中列出包含該關(guān)鍵詞/主題的所有重要論文,如圖2(e)所示.這些重要論文是根據(jù)5.4節(jié)中的方法對(duì)所有論文進(jìn)行分類篩選后的結(jié)果.圖中同時(shí)也列出了論文的標(biāo)題、被引用的次數(shù)、作者等信息,并嵌入了每篇論文歷年被引用次數(shù)曲線.圖中還使用含有字母的小圖標(biāo)來(lái)標(biāo)記獲獎(jiǎng)?wù)撐幕蜃罱迥陜?nèi)發(fā)表的新論文.標(biāo)題前帶有字母T的小圖標(biāo)表示本文獲得了IEEE VIS 大會(huì)的“Test of time”獎(jiǎng).標(biāo)題前面帶有字母B的小圖標(biāo)表示該論文獲得了當(dāng)年的“Best paper”獎(jiǎng).標(biāo)題前帶有字母N的小圖標(biāo)表示這篇論文是一篇最近五年內(nèi)新發(fā)表的論文.

      論文推薦列表使得用戶可以輕松瀏覽相對(duì)重要和有價(jià)值的論文,并根據(jù)曲線圖觀察論文歷年被引用次數(shù)的變化.

      6 案例分析

      本文從IEEE VIS 大會(huì)1990~2018年間收錄的3067篇論文的標(biāo)題和摘要中提取了1799個(gè)關(guān)鍵詞和15個(gè)主題.基于這些關(guān)鍵詞和主題,本節(jié)以真實(shí)案例為背景,詳細(xì)闡述如何通過(guò)VISExplorer 來(lái)分析和展示可視化領(lǐng)域的主題分布、發(fā)展趨勢(shì)、作者關(guān)系和重要論文.

      6.1 關(guān)鍵詞分布和分類

      1799個(gè)關(guān)鍵詞及其共現(xiàn)關(guān)系如圖3所示.圖中綠色的節(jié)點(diǎn)很少,這說(shuō)明第II類的關(guān)鍵詞數(shù)量很少.絕大部分關(guān)鍵詞屬于第I類和第III類.從圖中可以明顯看出,關(guān)鍵詞分布有3個(gè)非常明顯的聚類(a),(b)和(c).

      圖3中(a)區(qū)域具有代表性的關(guān)鍵技術(shù)是尺寸較大的節(jié)點(diǎn),包括:visual analysis、case study、user study、information analysis 等,這些關(guān)鍵技術(shù)基本上都屬于信息可視化和可視分析范疇.

      圖3中(c)區(qū)域具有代表性的關(guān)鍵技術(shù)包括:volume rendering、computational geometry、flow visualization、vector field、medical image processing、computational dynamic 等,這些關(guān)鍵技術(shù)基本上都屬于科學(xué)可視化范疇.

      圖3中(b)區(qū)域具有代表性的關(guān)鍵技術(shù)包括:interactive system、computational modeling、feature extraction、computer display 等,這些關(guān)鍵技術(shù)基本上都屬于可視化共性技術(shù).

      從圖3中還可以看出,(c)區(qū)域中的節(jié)點(diǎn)幾乎都屬于第III類,這意味著近年來(lái)對(duì)傳統(tǒng)科學(xué)可視化技術(shù)(如體繪制、矢量場(chǎng)和特征提取)的引用在下降.這表明科學(xué)可視化的大部分技術(shù)的研究已經(jīng)逐漸成熟或者遇到瓶頸.同時(shí),醫(yī)學(xué)圖像處理(medical image processing)的節(jié)點(diǎn)為I型,這意味著醫(yī)學(xué)圖像處理在當(dāng)前仍然保持著良好的研究熱度.區(qū)域(a)中的節(jié)點(diǎn)大多為第I類,這說(shuō)明目前在信息可視化和可視分析領(lǐng)域的研究熱度普遍很高.區(qū)域(b)中的第I類和第III類節(jié)點(diǎn)數(shù)量差別不大,所以對(duì)于可視化共性技術(shù)而言,其研究熱度相對(duì)平穩(wěn).交互系統(tǒng)(interactive system)、特征提取(feature extraction)和計(jì)算建模(computational modeling)是當(dāng)前可視化共性技術(shù)的研究熱點(diǎn).

      6.2 關(guān)鍵技術(shù):Volume rendering (體繪制)

      本文首先選擇volume rendering (體繪制)作為第一個(gè)案例進(jìn)行深入分析.圖4顯示了體繪制技術(shù)的趨勢(shì)曲線.通過(guò)累積被引用曲線,可以看出累積被引用曲線與參考線之間的最大距離發(fā)生在2003年.這表明,2003年以后,體繪制論文的引用量發(fā)生了質(zhì)的飛躍.2012年前后,累積被引用曲線與參考線產(chǎn)生交點(diǎn),這表明自此以后,人們對(duì)體繪制技術(shù)的研究興趣逐漸減弱.歷年被引用次數(shù)曲線證實(shí)了這一趨勢(shì).

      圖4 volume rendering (體繪制)相關(guān)論文的累計(jì)被引用曲線、參考線和歷年被引用次數(shù)曲線

      從圖4中,可以看出體繪制技術(shù)的發(fā)展經(jīng)歷了3個(gè)階段.

      第1階段為1990~2003年.在這一階段,體繪制技術(shù)經(jīng)歷了技術(shù)積累期.在這一階段,其相關(guān)論文的被引用次數(shù)逐年增加.

      第2階段為2004~2012年.在這一階段,體繪制技術(shù)經(jīng)歷了一個(gè)繁榮時(shí)期.其相關(guān)論文的被引用次數(shù)量在這一階段初期迅速上升,并在之后繼續(xù)保持高被引用狀態(tài).

      第3階段從2013年開(kāi)始至今.在這一階段,大多數(shù)的體繪制技術(shù)研究日趨成熟或者遇到瓶頸,有些可能已經(jīng)過(guò)時(shí).其相關(guān)論文的被引用次數(shù)逐漸下降.圖5(a)和圖5(b)顯示了所有發(fā)表過(guò)體繪制相關(guān)論文的作者的合著網(wǎng)絡(luò).圖5(a)中的節(jié)點(diǎn)大小表示被引用次數(shù),圖5(b)中的節(jié)點(diǎn)大小表示論文數(shù).可以看出,圖5(a)和圖5(b)具有相同的網(wǎng)絡(luò)結(jié)構(gòu).Arie E.Kaufman、David S.Ebert、Charles D.Hansen、Tomas Ertl、Han Wei Shen和Kwan Liu Ma 等構(gòu)成了與體繪制相關(guān)的主要研究社區(qū),如圖5(a)和(b)中的區(qū)域1.他們之間的合作程度、相關(guān)的論文數(shù)和被引用次數(shù)都很高.其他較小的社區(qū),如圖5(a)和圖5(b)中的區(qū)域2所示,如Torsten Móller 社區(qū),也有大量的論文和被引用次數(shù).

      圖6顯示了根據(jù)第4.4節(jié)中闡述的規(guī)則推薦的體繪制相關(guān)的前20篇重要論文.其中,第一篇論文“Acceleration techniques for GPU-based volume rendering”于2018年獲得Scivis“Test of time”獎(jiǎng).從列出的20篇論文中,可以看到,這些論文都至少是10年前出版的.

      圖5 體繪制相關(guān)作者的合著網(wǎng)絡(luò)

      6.3 關(guān)鍵技術(shù):Visual analysis (可視分析)

      本文選擇visual analysis(可視分析)作為第二個(gè)案例進(jìn)行深入分析.圖7顯示了可視分析技術(shù)的趨勢(shì)曲線.通過(guò)圖7,可以看到從累積被引用曲線到參考線的最大距離發(fā)生在2007年.這表明,2008年以后,體繪制論文的引用量發(fā)生了質(zhì)的飛躍,比相同的體繪制質(zhì)變時(shí)間晚了5年.而在整個(gè)可視分析的生命期中,累積被引用曲線與參考線之間沒(méi)有交點(diǎn),說(shuō)明可視分析技術(shù)的被關(guān)注度一直在增長(zhǎng).歷年被引用次數(shù)曲線也證實(shí)了這一趨勢(shì).

      從圖7中可以看出,可視分析技術(shù)的發(fā)展經(jīng)歷了兩個(gè)階段.

      圖6 Volume rendering 相關(guān)的前20 推薦文章

      圖7 Visual analysis (可視分析)相關(guān)論文的累積被引用曲線、參考線和歷年被引用次數(shù)曲線

      第1階段為1990~2007年.在這一階段,可視分析經(jīng)歷了長(zhǎng)期的技術(shù)積累.將近15年,可視分析技術(shù)每年的被引用次數(shù)都不高.

      第2階段從2008年開(kāi)始至今.在這一階段,可視分析技術(shù)經(jīng)歷了它的繁榮時(shí)期.在這一時(shí)期內(nèi),相關(guān)論文的被引用次數(shù)逐年迅速上升.越來(lái)越多的研究人員發(fā)現(xiàn)并認(rèn)識(shí)到可視分析的重要性,相關(guān)技術(shù)發(fā)展迅速,受到越來(lái)越多的關(guān)注和應(yīng)用.

      圖8(a)和圖8(b)展示了發(fā)表可視分析相關(guān)論文的所有作者的合著網(wǎng)絡(luò).圖8(a)中的節(jié)點(diǎn)大小表示被引用數(shù)量,圖8(b)中的節(jié)點(diǎn)大小表示論文數(shù)量.

      從圖8(a)和圖8(b)中,可以看到可視分析中有兩個(gè)相對(duì)較大的社區(qū).Helwig Hauser、Kresimir Matkovic、Daniel A.Keim、Tobias Schreck 等構(gòu)成了最大的社區(qū),如圖8(a)(b)區(qū)域1所示.Huamin Qu、Xiaoru Yuan、Shixia Liu和Yingcai Wu構(gòu)成了第二大社區(qū),如圖8(a)(b)區(qū)域2所示.兩個(gè)社區(qū)內(nèi)的作者高度合作.這兩個(gè)社區(qū)都有大量的論文和被引用次數(shù).

      圖8 Visual analysis相關(guān)作者的合著網(wǎng)絡(luò)

      一些小社區(qū)也有大量的論文和引用,例如8(a)(b)區(qū)域4.有些社區(qū)發(fā)表了許多論文,但引用率不高,如8(a)(b)區(qū)域3和區(qū)域5.而8(a)(b)區(qū)域6和區(qū)域7則獲得了較高的被引用次數(shù),卻沒(méi)有發(fā)表很多的論文.圖9顯示了根據(jù)第4.4節(jié)中闡述的規(guī)則推薦的可視分析相關(guān)的前20篇重要論文.除第1篇論文外,第3篇論文“Visualizing the non visual spatial analysis and interaction with information from text documents”,曾在2016年獲得了Inforvis的“Test of time”獎(jiǎng).第8篇論文“Spatio-temporal Aggregation for Visual Analysis of Movements”,獲得了2018年“Test of time”獎(jiǎng).值得注意的是,在這20篇論文中有13篇是在最近10年內(nèi)(2008年之后)發(fā)表的,其中3篇是在最近5年內(nèi)發(fā)表的,這意味著可視分析技術(shù)的更新速度遠(yuǎn)遠(yuǎn)快于體繪制技術(shù).

      圖9 visual analysis相關(guān)的前20推薦文章

      6.4 用戶反饋

      為了評(píng)估VISExploer的實(shí)用性和有效性,本文邀請(qǐng)了可視化領(lǐng)域的研究人員對(duì)本文的系統(tǒng)進(jìn)行實(shí)用測(cè)試.這些人中包括學(xué)生、教師、教授.每個(gè)人都在使用后寫了對(duì)系統(tǒng)的反饋,并提出了大量很有價(jià)值的建議.本節(jié)將列出其中兩條反饋.

      反饋1:“通過(guò)選擇主題和關(guān)鍵詞,我可以了解關(guān)鍵詞之間的關(guān)系、發(fā)展?fàn)顩r和值得閱讀的論文列表.與現(xiàn)有的通用搜索引擎或文獻(xiàn)檢索庫(kù)相比,系統(tǒng)推薦的論文列表更具代表性.作為對(duì)可視化領(lǐng)域尚了解不深的新手,我可以通過(guò)閱讀經(jīng)典論文來(lái)了解可視化.推薦論文列表中的論文都是最具里程碑意義的論文,可以防止我盲目地在文檔庫(kù)中搜索,從而節(jié)省大量的時(shí)間和精力.此外,我建議增加對(duì)新發(fā)表的綜述型論文的推薦,這樣可以幫助新手快速了解可視化技術(shù).”

      反饋2:“主題趨勢(shì)分析和作者網(wǎng)絡(luò)與實(shí)際需求密切相關(guān).論文推薦也很有意義.這個(gè)系統(tǒng)不僅推薦了具有里程碑意義的老文章,而且推薦出了優(yōu)秀的新文章.很感激.作者網(wǎng)絡(luò)可以快速定位領(lǐng)域?qū)<也⒂^察他們之間的合作情況.我的建議是,這個(gè)系統(tǒng)可以增強(qiáng)關(guān)鍵字搜索的功能.允許用戶根據(jù)自己的興趣或?qū)嶋H需要自由搜索各種關(guān)鍵字組合.此外,如果系統(tǒng)能夠支持更多的論文數(shù)據(jù)源,那就更好了.”

      7 總結(jié)與展望

      本文提出了滿足領(lǐng)域主題發(fā)展態(tài)勢(shì)分析相關(guān)實(shí)際問(wèn)題的解決方案,并在此基礎(chǔ)上開(kāi)發(fā)了一個(gè)交互式可視化分析系統(tǒng)VISExplorer,并利用該系統(tǒng),對(duì)IEEE VIS大會(huì)1990~2018年收錄的3067篇論文的主題發(fā)展態(tài)勢(shì)進(jìn)行了研究.本文還邀請(qǐng)了不同類型的研究人員來(lái)評(píng)估VISExplorer系統(tǒng).分析結(jié)果和用戶反饋?zhàn)C明了該系統(tǒng)的有效性和實(shí)用性.

      本文的工作仍存在一些局限性.首先,由于一個(gè)領(lǐng)域、一個(gè)主題或一篇論文都可能涉及多種技術(shù).本文以關(guān)鍵詞提取算法來(lái)提取關(guān)鍵詞,在關(guān)鍵詞質(zhì)量上是不夠的.因此,在未來(lái)工作中,我們需要設(shè)計(jì)一個(gè)自動(dòng)關(guān)鍵詞檢測(cè)系統(tǒng),將關(guān)鍵詞提取算法輔以可視分析技術(shù)來(lái)提煉高質(zhì)量的關(guān)鍵詞.第二,本文只從標(biāo)題和摘要中提取關(guān)鍵詞,這可能不能完全反映論文所涉及的所有關(guān)鍵技術(shù),因?yàn)椴⒉皇钦撐牡乃嘘P(guān)鍵技術(shù)都會(huì)出現(xiàn)在標(biāo)題和摘要中.因此,今后我們將嘗試以論文全文作為語(yǔ)料庫(kù)進(jìn)行關(guān)鍵字提取.第三,我們需要研究更多論文類型識(shí)別方法,用以識(shí)別特別類型的論文,如評(píng)論、綜述等等,這將有助于用戶獲取更精準(zhǔn)的建議.

      猜你喜歡
      可視化次數(shù)論文
      基于CiteSpace的足三里穴研究可視化分析
      機(jī)場(chǎng)航站樓年雷擊次數(shù)計(jì)算
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      2020年,我國(guó)汽車召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
      商用汽車(2021年4期)2021-10-13 07:16:02
      一類無(wú)界算子的二次數(shù)值域和譜
      基于CGAL和OpenGL的海底地形三維可視化
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      依據(jù)“次數(shù)”求概率
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      灵川县| 商城县| 西乌| 芦溪县| 鸡东县| 台东县| 神木县| 新余市| 定结县| 扬中市| 会宁县| 光山县| 五峰| 漠河县| 七台河市| 珠海市| 庆城县| 靖州| 福海县| 侯马市| 谷城县| 丹棱县| 嘉黎县| 吴忠市| 古交市| 阿拉善左旗| 大足县| 金沙县| 会东县| 商南县| 萨迦县| 凤山县| 三都| 安阳县| 象山县| 沙洋县| 仙居县| 博兴县| 建湖县| 武清区| 白朗县|