• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多數(shù)據(jù)源的機(jī)構(gòu)知識(shí)可視化研究與應(yīng)用

      2019-03-18 02:14鄧志文都平平李新春
      現(xiàn)代情報(bào) 2019年2期
      關(guān)鍵詞:可視化

      鄧志文 都平平 李新春

      摘要:[目的/意義]單一數(shù)據(jù)源下機(jī)構(gòu)知識(shí)可視化存在信息的缺失,基于多數(shù)據(jù)源的可視化可以相輔相成,互為補(bǔ)充。[方法/過程]分析了多數(shù)據(jù)源下機(jī)構(gòu)知識(shí)動(dòng)態(tài)可視化的關(guān)鍵技術(shù),并針對(duì)知識(shí)節(jié)點(diǎn)的巨星問題給出一種多粒度數(shù)據(jù)采樣和屬性值加權(quán)的知識(shí)構(gòu)造方法,對(duì)平臺(tái)的系統(tǒng)架構(gòu)進(jìn)行了詳細(xì)討論和設(shè)計(jì),最后基于Echarts可視化套件對(duì)平臺(tái)中合作關(guān)系、研究熱點(diǎn)、機(jī)構(gòu)分布等進(jìn)行了實(shí)現(xiàn)。[結(jié)果/結(jié)論]多數(shù)據(jù)源知識(shí)可視化平臺(tái)能彌補(bǔ)單一數(shù)據(jù)源中可能丟失的各種關(guān)系,多粒度采樣讓可視化結(jié)果整體美觀協(xié)調(diào),為機(jī)構(gòu)的學(xué)術(shù)發(fā)展?fàn)顩r、研究方向的確立、研究團(tuán)隊(duì)的組建等決策提供了信息支持。

      關(guān)鍵詞:多數(shù)據(jù)源;數(shù)據(jù)抽取;可視化;知識(shí)融合;數(shù)據(jù)采樣

      DOI:10.3969/j.issn.1008-0821.2019.02.020

      〔中圖分類號(hào)〕G255.76〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)02-0169-09

      近些年來,國內(nèi)很多大學(xué)或?qū)W術(shù)機(jī)構(gòu)都在積極地建立自己的機(jī)構(gòu)知識(shí)庫,機(jī)構(gòu)庫存儲(chǔ)和管理著大量的研究文獻(xiàn)和機(jī)構(gòu)知識(shí),對(duì)這些大量文獻(xiàn)進(jìn)行整理和梳理,并采用各種分析方法從中獲取隱含的有價(jià)值的信息和知識(shí)是圖書館提升情報(bào)服務(wù)能力的有效途徑,而這個(gè)過程需要科技分析人員花費(fèi)大量時(shí)間和精力??梢暬治黾夹g(shù)以直觀的方式顯示知識(shí)之間的相互聯(lián)系,并采用數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量等手段把復(fù)雜的知識(shí)領(lǐng)域通過圖形顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律[1];國內(nèi)使用最多的機(jī)構(gòu)知識(shí)儲(chǔ)存平臺(tái)Dspace本身沒有這種可視化分析模塊,很多研究者都是基于第三方工具如CiteSpace、VOSviewer等對(duì)機(jī)構(gòu)知識(shí)進(jìn)行可視化圖譜分析[2],而這種分析結(jié)果都是靜態(tài)圖,并沒有將其嵌入到機(jī)構(gòu)知識(shí)平臺(tái)實(shí)現(xiàn)其動(dòng)態(tài)可視化;同時(shí)對(duì)這種單一源的數(shù)據(jù)進(jìn)行可視化,其數(shù)據(jù)來源單一、資源有限,對(duì)應(yīng)的可視化所展示的信息也有限?,F(xiàn)實(shí)中機(jī)構(gòu)同一主題的信息(如某一專家的信息)往往分布在不同的數(shù)據(jù)源中,如能從多個(gè)不同類型的數(shù)據(jù)源中進(jìn)行數(shù)據(jù)的獲取,這樣來自不同數(shù)據(jù)源中的知識(shí)能相輔相成,互為補(bǔ)充,所構(gòu)建的知識(shí)可視化平臺(tái)也能全面豐富地反映有關(guān)主題的知識(shí)圖譜網(wǎng)絡(luò),同時(shí)也能彌補(bǔ)單一數(shù)據(jù)源中可能丟失的各種關(guān)系[3]。

      基于此本文分析了多數(shù)據(jù)源下機(jī)構(gòu)知識(shí)動(dòng)態(tài)可視化圖譜平臺(tái)的關(guān)鍵技術(shù),并針對(duì)本文討論的可視化中出現(xiàn)的巨星問題給出了一種多粒度的數(shù)據(jù)采樣知識(shí)構(gòu)造方法,有效回避了因巨星節(jié)點(diǎn)產(chǎn)生的信息不可見問題;最后設(shè)計(jì)了多數(shù)據(jù)源下機(jī)構(gòu)知識(shí)動(dòng)態(tài)可視化圖譜平臺(tái),實(shí)現(xiàn)了其作者合作關(guān)系、研究熱點(diǎn)、機(jī)構(gòu)分布等動(dòng)態(tài)可視化展示,從其運(yùn)行結(jié)果中該平臺(tái)有效揭示了機(jī)構(gòu)的研究主題、研究前沿、潛在研究團(tuán)隊(duì)等信息,在一定程度上為機(jī)構(gòu)、用戶的決策需求提供了參考。

      1關(guān)鍵問題

      知識(shí)可視化是當(dāng)下研究的熱點(diǎn),谷歌公司早于2012年5月17日提出了知識(shí)圖譜的概念,并宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎[4]。知識(shí)可視化圖譜的構(gòu)建對(duì)中文信息處理和檢索具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值,吸引了大量的國內(nèi)外研究者,其中也出現(xiàn)了很多可視化輔助工具,尤其在采集、預(yù)處理、分析和可視化學(xué)術(shù)數(shù)據(jù)等方面存在多種工具,許多工具不僅專業(yè)性強(qiáng)且功能豐富。在高?;蛘呖蒲袡C(jī)構(gòu)中構(gòu)建的知識(shí)圖譜大部分是通過各種專業(yè)性工具進(jìn)行的手工構(gòu)建,有時(shí)缺乏統(tǒng)一的方法,并且都是面向某一特定信息源(如Dspace數(shù)據(jù)、SCI數(shù)據(jù)、CNKI數(shù)據(jù)等),其知識(shí)源有限,所展示的信息也有限,而本文討論的基于多數(shù)據(jù)源的知識(shí)可視化平臺(tái)需要解決的問題包括以下幾方面。

      1.1多數(shù)據(jù)源數(shù)據(jù)融合

      由于多數(shù)據(jù)源的知識(shí)來源于不同平臺(tái)中,其知識(shí)的表示、知識(shí)的結(jié)構(gòu)存在不同,同時(shí)知識(shí)之間也存在重復(fù)冗余等問題,所以必須要進(jìn)行知識(shí)的融合。關(guān)于多數(shù)據(jù)源的融合已有很多理論研究成果,如文獻(xiàn)[5]針對(duì)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及現(xiàn)有的一些通用知識(shí)圖譜庫等多數(shù)據(jù)源給出了其知識(shí)圖譜構(gòu)建方法。本文從現(xiàn)實(shí)和可操作性考慮主要研究從高校和科研機(jī)構(gòu)中各種結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的融合,如:機(jī)構(gòu)知識(shí)庫、學(xué)位論文庫、專家數(shù)據(jù)庫、教參庫等。

      1.2可視化節(jié)點(diǎn)的巨星問題

      在知識(shí)圖譜的節(jié)點(diǎn)關(guān)系圖中,往往節(jié)點(diǎn)的大小用來反映其在機(jī)構(gòu)知識(shí)中的重要程度,比如作者合作關(guān)系圖中,作者節(jié)點(diǎn)越大則說明他的合作數(shù)就越多,而節(jié)點(diǎn)的大小一般都是通過挖掘機(jī)構(gòu)知識(shí)中所有他的合作關(guān)系進(jìn)行累加的值,由于各單位以及個(gè)人發(fā)文量以及合作人數(shù)都不一樣,其作者節(jié)點(diǎn)大小會(huì)存在很大差別,有時(shí)會(huì)出現(xiàn)巨型節(jié)點(diǎn),此時(shí)很多可視化平臺(tái)會(huì)自動(dòng)的過濾掉小節(jié)點(diǎn),就好比站在宇宙邊緣看整個(gè)宇宙,只需要看到大恒星,不需要看到地球等小行星,這種巨星問題會(huì)造成局部信息的丟失,即使可視化平臺(tái)不過濾掉小節(jié)點(diǎn),也會(huì)使整個(gè)顯示效果很不美觀和協(xié)調(diào)。另一方面,對(duì)于多個(gè)機(jī)構(gòu)而言,用戶一般只關(guān)心可視化結(jié)果中各機(jī)構(gòu)間的整體網(wǎng)絡(luò)關(guān)系情況,而對(duì)其某一單個(gè)機(jī)構(gòu)的局部相關(guān)網(wǎng)絡(luò)此時(shí)不會(huì)有太多關(guān)注。但任何一個(gè)可視化開發(fā)套件都是依據(jù)所給的數(shù)據(jù)源如實(shí)的展現(xiàn)知識(shí),它無法去智能的適應(yīng)這種知識(shí)機(jī)構(gòu)數(shù)的變化,因此在不同的機(jī)構(gòu)數(shù)下需要有不一樣的數(shù)據(jù)采樣粒度。

      1.3元數(shù)據(jù)的清洗

      機(jī)構(gòu)知識(shí)中由于人工操作不規(guī)范,在格式和內(nèi)容上存在不一致,如關(guān)鍵詞間用逗號(hào)、漢字的分號(hào)、內(nèi)容中有不該存在的字符等,這就造成元數(shù)據(jù)中存在異常的數(shù)據(jù),需要對(duì)這些引起異常的數(shù)據(jù)進(jìn)行清洗去除。因此需要分析所有異常數(shù)據(jù)可能性,并采用一定的方法最大限度地降低這些異常數(shù)據(jù)。

      2多數(shù)據(jù)源的知識(shí)可視化關(guān)鍵技術(shù)

      2.1基于ETL的數(shù)據(jù)抽取

      本文討論多數(shù)據(jù)源主要針對(duì)機(jī)構(gòu)中常見的各種關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),文獻(xiàn)[6]中給出了一種ETL數(shù)據(jù)抽取體系,基于此本文設(shè)計(jì)的多數(shù)據(jù)源數(shù)據(jù)抽取體系如圖1所示。該體系中ETL是中間層,其依據(jù)預(yù)先定義的規(guī)則負(fù)責(zé)從各種分布的數(shù)據(jù)源中如結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)等抽取需要的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、采樣、融合,最后存入到目標(biāo)數(shù)據(jù)平臺(tái)中,成為分析處理、數(shù)據(jù)挖掘、知識(shí)表示的基礎(chǔ)。進(jìn)行數(shù)據(jù)抽取前需要確定各數(shù)據(jù)源運(yùn)行的是什么DBMS(數(shù)據(jù)庫管理系統(tǒng)),并分析其元數(shù)據(jù)中是否存在手工輸入數(shù)據(jù)(如有人工錄入就存在數(shù)據(jù)的質(zhì)量問題后續(xù)必須要進(jìn)行數(shù)據(jù)清洗)和半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù)等問題。其ETL體系中數(shù)據(jù)源訪問過程分為如下:

      應(yīng)用服務(wù)層:系統(tǒng)管理對(duì)元數(shù)據(jù)、機(jī)構(gòu)、地理坐標(biāo)等,可視化數(shù)據(jù)服務(wù)需要將獲取的元數(shù)據(jù)進(jìn)行預(yù)處理、數(shù)據(jù)清洗、規(guī)范化、分析、采樣和結(jié)構(gòu)映射6個(gè)步驟,其中數(shù)據(jù)清洗把臟數(shù)據(jù)、敏感數(shù)據(jù)過濾掉,采樣需要剔除和可視化結(jié)果無關(guān)的冗余數(shù)據(jù),映射是調(diào)整數(shù)據(jù)結(jié)構(gòu)到表示層能接受的格式。

      數(shù)據(jù)表示層:可視化結(jié)果中無法把所有的數(shù)據(jù)都一次展示,該層需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化的過程有賴于所依賴的可視化套件,也就是要將最終的數(shù)據(jù)轉(zhuǎn)換成用戶端可視化套件要求的數(shù)據(jù)格式。

      4平臺(tái)實(shí)現(xiàn)

      本研究以中國礦業(yè)大學(xué)的Dspace機(jī)構(gòu)庫、Scholor專家?guī)旌蛯W(xué)位論文庫為數(shù)據(jù)源,并以Echarts[10]可視化套件作為動(dòng)態(tài)可視化效果,實(shí)現(xiàn)了有關(guān)可視化設(shè)計(jì),圖5是顯示的所有的作者合作關(guān)系圖,不同院系顏色不一樣,院系間存在有節(jié)點(diǎn)的鏈接,也就是說各院系間存在潛在的合作作者。

      圖6是顯示的單個(gè)院系(安全學(xué)院)的作者合作關(guān)系圖。從圖5和圖6中可以看出各節(jié)點(diǎn)的大小不一樣,它與S類結(jié)構(gòu)中的Value值相關(guān),但整個(gè)可視化界面沒有出現(xiàn)巨星節(jié)點(diǎn),節(jié)點(diǎn)間的大小比例都控制在比較合適的顯示范圍。同時(shí)從圖5和圖6不難看出在院系機(jī)構(gòu)數(shù)不同的情況下,其機(jī)構(gòu)顯示的節(jié)點(diǎn)數(shù)不一樣,實(shí)現(xiàn)了不同粒度的顯示。另外從圖6不難看出作者節(jié)點(diǎn)聚類為9個(gè),也就是說該機(jī)構(gòu)可能存在9個(gè)研究團(tuán)體。

      5總結(jié)

      本文研究了多數(shù)據(jù)源下機(jī)構(gòu)知識(shí)可視化的關(guān)鍵技術(shù),并對(duì)可視化過程中的數(shù)據(jù)融合、數(shù)據(jù)清洗、數(shù)據(jù)采樣等關(guān)鍵問題進(jìn)行了詳細(xì)描述,以Echarts為可視化工具對(duì)平臺(tái)進(jìn)行了實(shí)現(xiàn),從運(yùn)行結(jié)果來看,平臺(tái)實(shí)現(xiàn)了多數(shù)據(jù)源的信息處理、知識(shí)計(jì)量和知識(shí)展示,數(shù)據(jù)查詢效率高,響應(yīng)快,并很好地揭示了機(jī)構(gòu)知識(shí)領(lǐng)域的動(dòng)態(tài)規(guī)律和隱含知識(shí)。本研究獲取的知識(shí)數(shù)據(jù)源僅限定在關(guān)系化的結(jié)構(gòu)數(shù)據(jù),而機(jī)構(gòu)中還存在很多的半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù),因此本研究所形成的可視化圖對(duì)機(jī)構(gòu)來說還不全面,這也是本研究的不足,下一步工作需研究從更多和更廣的異構(gòu)數(shù)據(jù)源中獲取知識(shí)進(jìn)行可視化。

      參考文獻(xiàn)

      [1]秦長(zhǎng)江,侯漢清.知識(shí)圖譜——信息管理與知識(shí)管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報(bào),2009,(1):30-37.

      [2]汪傳雷,張巖,陳欣.基于CiteSpaceⅢ知識(shí)圖譜的科技創(chuàng)新服務(wù)能力研究[J].現(xiàn)代情報(bào),2016,36(4):156-164.

      [3]胡芳槐.基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究[D].上海:華東理工大學(xué),2014.

      [4]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,(3):582-598.

      [5]吳運(yùn)兵,陰愛英,林開標(biāo),等.基于多數(shù)據(jù)源的知識(shí)圖譜構(gòu)建方法研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2017,45(3):329-335.

      [6]徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計(jì)算機(jī)科學(xué),2011,38(4):15-20.

      [7]邱均平,董克.作者共現(xiàn)網(wǎng)絡(luò)的科學(xué)研究結(jié)構(gòu)揭示能力比較研究[J].中國圖書館學(xué)報(bào),2014,40(1):15-24.

      [8]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.

      [9]高勁松,梁艷琪.關(guān)聯(lián)數(shù)據(jù)環(huán)境下知識(shí)融合模型研究[J].情報(bào)科學(xué),2016,34(2):50-54.

      [10]Echarts[EB/OL].http://echarts.baidu.com/,2018-09-05.

      (責(zé)任編輯:郭沫含)

      猜你喜歡
      可視化
      無錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
      基于CiteSpace的足三里穴研究可視化分析
      自然資源可視化決策系統(tǒng)
      三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      自然資源可視化決策系統(tǒng)
      基于CGAL和OpenGL的海底地形三維可視化
      可視化閱讀:新媒體語境下信息可視化新趨勢(shì)
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      重大主題報(bào)道的可視化探索——以浙江日?qǐng)?bào)的實(shí)踐為例
      辽阳县| 浏阳市| 台湾省| 台山市| 栾川县| 安徽省| 宜兰市| 福安市| 崇左市| 新郑市| 察哈| 曲阳县| 高安市| 蒲江县| 嘉兴市| 资溪县| 瑞安市| 安仁县| 靖州| 印江| 延边| 山丹县| 皮山县| 宁河县| 曲周县| 汉阴县| 彰化县| 乌鲁木齐县| 北川| 富民县| 贵南县| 定西市| 德阳市| 贵定县| 苍山县| 内乡县| 新乡市| 华阴市| 和田县| 睢宁县| 米脂县|