• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于移動圖書館平臺的知識挖掘研究

      2019-08-29 03:45:46孔慶祝
      關(guān)鍵詞:超星分類器可視化

      孔慶祝

      (泰州職業(yè)技術(shù)學(xué)院 圖書館,江蘇 泰州 225300)

      1 知識挖掘組成要素

      1.1 數(shù)據(jù)集成

      在邏輯或物理上將不同來源、格式、特點性質(zhì)的數(shù)據(jù)的關(guān)系與實體提煉出來集中后,在邏輯上或物理上有機地集中,經(jīng)關(guān)聯(lián)和聚合處理后成為統(tǒng)一定義的標準的數(shù)據(jù)并加以存貯,這也是應(yīng)對紛繁冗余大數(shù)據(jù)的有效方式。數(shù)據(jù)倉庫、聯(lián)邦數(shù)據(jù)庫和基于中間件模型等方法都是目前較好的數(shù)據(jù)集成手段。面對清洗數(shù)據(jù)保證質(zhì)量與粒度過細難免過濾有效信息矛盾,需要仔細考量,在質(zhì)與量之間尋找一個最佳結(jié)合點,權(quán)衡利弊[1]。

      1.2 數(shù)據(jù)存儲

      大數(shù)據(jù)時代的數(shù)據(jù)量是單機存貯難以承受的,再想依靠傳統(tǒng)結(jié)構(gòu)化存儲模式顯然不合適了,并且實際數(shù)據(jù)處理過程往往都由幾種數(shù)據(jù)存儲方式混合使用,采用分布式存儲方式就是自然而然的事。分布式存儲的典型代表有NoSQL(Not Only SQL)和Hadoop。NoSQL 泛指非關(guān)系型數(shù)據(jù)庫,這類數(shù)據(jù)庫存儲數(shù)據(jù)的是鍵值對,因此不存在固定的結(jié)構(gòu),元組中的字段可以不同,根據(jù)需要可以調(diào)整元組鍵值對。Hadoop 由數(shù)據(jù)庫(Cassandra)、數(shù)據(jù)處理(MapReduce)及文件系統(tǒng)(HDFS)等模塊組成,它是從模仿GFS(Google File System)、MapReduce 開始不斷發(fā)展成為現(xiàn)在的大數(shù)據(jù)處理平臺的,甚至在業(yè)內(nèi)Hadoop已經(jīng)成為大數(shù)據(jù)處理的首選工具。

      1.3 數(shù)據(jù)分析

      大數(shù)據(jù)處理中最關(guān)鍵的業(yè)務(wù)就是數(shù)據(jù)分析,它包含分類和聚類量方面的功能。但是現(xiàn)有的聚分類技術(shù),在應(yīng)對大數(shù)據(jù)的超高維度問題時,常常顯得力不從心。EM、SVM、k-means、決策樹等經(jīng)典算法都很難滿足應(yīng)用大數(shù)據(jù)分析的需要。就連Google 最早采用的應(yīng)用于批處理大數(shù)據(jù)處理的計算模型MapReduce,處理超高維度分聚類計算時由于自身局限也不得不加以改進算法,調(diào)整自己的計算模型。知識挖掘的組合方法由訓(xùn)練數(shù)據(jù)確定一組基分類器,通過對多個分類器的結(jié)果聚集使得性能上遠超單個分類器。大數(shù)據(jù)中數(shù)據(jù)特點就是種類多、體量大、干擾強,最終可能導(dǎo)致分析結(jié)果的波動性大,組合方法較好地解決了分類器不夠穩(wěn)定的問題,通過訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,在聚集多個分類器獲得更好的性能,更重要的是,組合方法在并行處理比較方便,這就為提高大數(shù)據(jù)分類時訓(xùn)練和測試速度奠定了基礎(chǔ)。組合多個分類器的方法有裝袋和提升,裝袋又稱自助聚集,受訓(xùn)練數(shù)據(jù)過分擬合的影響較小,它首先隨機抽樣組成若干訓(xùn)練集,各訓(xùn)練集數(shù)據(jù)構(gòu)建各自基分類器,通過這些分類器對測試樣本的類別進行投票,根據(jù)最終得票最高的類別判定該樣本的類別;提升與裝袋思路有所不同,它通過對所有訓(xùn)練數(shù)據(jù)賦予權(quán)重值來實現(xiàn)樣本分布的自適應(yīng)處理,典型的提升方法Adaboost 操作是這樣的,首先賦予各訓(xùn)練數(shù)據(jù)相同的選取概率權(quán)重,在抽取訓(xùn)練數(shù)據(jù)構(gòu)建首個分類器后,對誤分類數(shù)據(jù)的選取概率權(quán)重適當(dāng)增加,接下來按新的概率重新抽取訓(xùn)練數(shù)據(jù),組建分類器,依據(jù)最終的需要確定迭代次數(shù),不斷重復(fù)這一過程迭代得到若干分類器,最終的輸出結(jié)果通過分類器的加權(quán)投票得出。當(dāng)然,提升也有其局限,由于對誤分類數(shù)據(jù)關(guān)注過大,分類模型中存在數(shù)據(jù)過分擬合的風(fēng)險??傮w而言,無論是裝袋還是提升比單個模型都大大提高了準確率,只不過提升在準確率提高方面功能更加強大而己。

      1.4 語義處理

      語義處理技術(shù)主要功能就是輔助機器,增強機器對數(shù)據(jù)的理解,從而提高各種知識挖掘算法的語義化能力的一種方法。它在對現(xiàn)有人工智能、自然語言處理、Web 技術(shù)等技術(shù)方法整合的基礎(chǔ)上,匯總生成語義知識庫,在進行深層的數(shù)據(jù)分析時,通過增強語義理解減少知識挖掘的耗損,從而提高運算的效率和性能。語義處理的基礎(chǔ)是語義知識,很多機構(gòu)為此構(gòu)建了很多語義知識庫,像中英文的知網(wǎng)HowNet,英文語義知識庫詞網(wǎng)WordNet、FrameNet等等都是業(yè)內(nèi)知名的語義知識庫。這些語義知識庫規(guī)范化和標準化都比較高,但由于成本高昂,更新就不夠及時,很多現(xiàn)代新的詞匯都未收錄。有鑒于此,有學(xué)者從大數(shù)據(jù)理念自動構(gòu)建語義知識獲得靈感,通過收錄不同來源的詞語對象,結(jié)合各種詞語關(guān)系形成具有語義關(guān)聯(lián)的語義知識庫,這種新語義知識庫較以往的語義知識庫效率更高、成本更低、更新速度更快,又足以支持語義處理。比如,從谷歌、百度、維基或其他網(wǎng)絡(luò)中的海量數(shù)據(jù)中抽取語義知識,結(jié)合基于統(tǒng)計合計規(guī)則的方法進行重組,由于網(wǎng)絡(luò)數(shù)據(jù)通常含有人工標注、結(jié)構(gòu)化程度較高的語義信息,這樣我們在抽取語義知識時效率將大大提升,語義表達也會更加清晰明確,這樣因語義稀疏帶來的分析性能損失問題就會得到有效控制。這對我們處理短文本尤其是微博、論壇等的知識挖掘有重要意義。

      1.5 可視化知識挖掘

      所謂可視化知識挖掘就是將知識挖掘的結(jié)果以圖形或表格的形式直觀顯示出來。在海量數(shù)據(jù)的環(huán)境中,挖掘結(jié)果之間往往具有極其復(fù)雜關(guān)聯(lián)關(guān)系,這就大大影響了數(shù)據(jù)可視化的效果。社會網(wǎng)絡(luò)總是復(fù)雜和多向鏈接的,盡管有可視化的網(wǎng)絡(luò)結(jié)構(gòu)圖的輔助,多數(shù)用戶仍不容易挖掘出自己感興趣特征。知識數(shù)據(jù)可視化、挖掘結(jié)果與過程可視化和人機交互是可視化知識挖掘的三個組成部分??梢暬R挖掘是通過用戶可視、交互地方式進行知識挖掘的一種方法,在圖形圖表的輔助,用戶實際上對具體的數(shù)據(jù)分析有所了解甚至是參與,只不過這種參與離不開交互式的數(shù)據(jù)分析過程引導(dǎo),并且程度上也不可能太深入,畢竟太過深入的知識挖掘用戶缺乏理解。但在分析過程中通過數(shù)據(jù)立方體、趨勢圖、標簽云等圖形圖標等可視化方式,確實增加了讓用戶對分析過程和結(jié)果理解,再加上人機交互,這對用戶定制處理任務(wù),理解挖掘結(jié)果也是很幫助的,限制社會圖中節(jié)點的數(shù)量,顯示用戶指定的高權(quán)重節(jié)點就是知識挖掘中用戶參與互動的具體實例。

      2 具體實踐

      我館移動平臺是在超星數(shù)字圖書館基礎(chǔ)上開發(fā)的,依靠數(shù)據(jù)分析、數(shù)據(jù)倉儲、知識挖掘、文獻計量學(xué)模型等相關(guān)技術(shù),完成了本地館藏和超星網(wǎng)絡(luò)資源數(shù)據(jù)庫群的資源整合,初步建立起本地資源數(shù)據(jù)庫、匯文圖書館系統(tǒng)、超星遠程資源庫等復(fù)雜異構(gòu)數(shù)據(jù)庫的關(guān)聯(lián),進而通過聚類分類、引文分析、知識關(guān)聯(lián)分析等實現(xiàn)高價值學(xué)術(shù)文獻發(fā)現(xiàn)、縱橫結(jié)合的深度知識挖掘、可視化的全方位知識關(guān)聯(lián),為廣大師生教學(xué)科研提供信息資源支撐。超星系統(tǒng)除了具有一般搜索引擎的信息檢索功能外,其最大的功能是提供了深達知識內(nèi)在關(guān)系的強大知識挖掘和情報分析功能。為此,發(fā)現(xiàn)的檢索字段大大增加,更具備大到默認支持全庫數(shù)據(jù)范圍的空檢索,細到可以通過勾選獲取非常專指主題的分面組合檢索,從而實現(xiàn)了對學(xué)術(shù)宏觀走向、跨學(xué)科知識交叉及影響和知識再生方向的判斷,具備了對任何特定年代,或特定領(lǐng)域,或特定人及機構(gòu)的學(xué)術(shù)成果態(tài)勢進行大尺度、多維度的對比性分析和研究。超星系統(tǒng)是學(xué)者準確而專業(yè)地進行學(xué)術(shù)探索和激發(fā)創(chuàng)新靈感的研究工具[2]。

      2.1 移動圖書館平臺中的知識挖掘?qū)W(xué)生的作用

      學(xué)生利用移動圖書館平臺進行知識挖掘?qū)懻撐暮涂荚嚕趯懻撐臅r,就拿選題來說,以前甚至沒用我們系統(tǒng)的學(xué)生現(xiàn)在選題大部分都是憑感覺。那么我們怎么樣才能選一個恰當(dāng)?shù)恼n題去做呢?首先就是要找適合自己的,其次就是要選擇導(dǎo)師擅長的。如果自己不適合如何發(fā)揮到極致?如果導(dǎo)師不擅長怎么給你做很好的指導(dǎo),所以選題是要有依據(jù)的。

      圖1 “波斯語”、“泰語”-學(xué)位論文學(xué)術(shù)發(fā)展趨勢曲線圖

      圖1 顯示的是波斯語和泰語兩種學(xué)術(shù)趨勢曲線,論文選題一目了然。再看圖2,在導(dǎo)師擅長的問題上,比如說如果是這位丁老師學(xué)生的話肯定選擇建筑史會是很好的選擇,因為他可以給你更多的指導(dǎo)。但如果你選擇其他的方向,可能指導(dǎo)意見相對要少些了。

      圖2 導(dǎo)師丁垚學(xué)術(shù)方向圖

      論文寫作查資料階段,看圖3 查找論文“知識產(chǎn)權(quán)融資法律問題研究”,以前就是搜索知識產(chǎn)權(quán),融資,產(chǎn)權(quán)融資等;那么現(xiàn)在發(fā)現(xiàn)系統(tǒng)可以從除了這幾個關(guān)鍵詞以外的相關(guān)主題突破,比如資產(chǎn)證券化、風(fēng)險投資等,這些詞都是和這個所搜索的關(guān)鍵詞關(guān)系很密切的一些領(lǐng)域。那么我們在查找資料以前基本是海底撈針,只能根據(jù)論文題目拆分查找,由圖4 所示,現(xiàn)在通過超星提供的分類聚類功能可以將相關(guān)的知識領(lǐng)域呈現(xiàn)出來,檢索的路徑更多,最終更容易找到所需的資料。通過多種篩選取其精華,依據(jù)超星形成的可視圖可以很輕松地將某一領(lǐng)域的名家查出來,再檢索他的作品。

      圖3 知識產(chǎn)權(quán)融資法律問題資料查找圖

      圖4 分類聚類示意圖

      2.2 移動圖書館平臺中的知識挖掘?qū)處煹淖饔?/h3>

      老師可以實時了解所研究的課題目前研究現(xiàn)狀,如研究學(xué)者、已有研究成果、研究成果趨勢、數(shù)量及發(fā)展方向。對進入一些新興學(xué)科或交叉學(xué)科,我們可以作一個發(fā)展趨勢研究,如3D打印技術(shù)現(xiàn)在很火,在我們的知識挖掘數(shù)據(jù)中也會顯示出來,我們來看下具體的數(shù)據(jù),會發(fā)現(xiàn)一個什么事情呢?如果說11年、12年就發(fā)現(xiàn)有會火的這個趨勢,當(dāng)時我們?nèi)パ芯窟@個,對您有什么價值。在做研究的過程中,都想知道在這個領(lǐng)域中,我們中國有誰最早進行研究的。在這里設(shè)置出版日期升序排序就可以看到這樣的一個搜索結(jié)果。比如埃博拉病毒在國內(nèi)研究最早的90年丁老師關(guān)于5000只大猩猩死于埃博拉病毒的報道。除了最早的,我們可能還想知道這個研究領(lǐng)域中最具影響力的人物是誰啊?所以說知識關(guān)聯(lián)圖譜就是為了發(fā)現(xiàn)人與人,知識與知識,人與知識等的相互關(guān)系[3]。

      2.3 移動圖書館平臺中的知識挖掘?qū)W(xué)校的作用

      超星可視化圖譜是一個強大的知識挖掘工具,集知識挖掘、知識關(guān)聯(lián)分析與可視化技術(shù)于一體,能夠?qū)l(fā)現(xiàn)數(shù)據(jù)及分析結(jié)果以表格、圖形等方式直觀展示出來。如果我們學(xué)校想和兄弟院校做一些學(xué)術(shù)研究對比,自己學(xué)??蒲谐晒l(fā)布等等,都可以直觀的表現(xiàn)在我們的學(xué)術(shù)發(fā)展趨勢圖里。比如說我不知道我們學(xué)校具體哪個專業(yè)強,但通過這個餅狀圖就可直觀的看到,最強專業(yè)肯定是偏文化、科學(xué)中的。再如我們學(xué)校中各個老師發(fā)表作品的數(shù)量都一目了然。

      圖5 泰州職業(yè)技術(shù)學(xué)院教師發(fā)表作品類目分類表

      3 風(fēng)險控制

      3.1 網(wǎng)站安全是移動圖書館平臺知識挖掘結(jié)果準確的前提

      移動圖書館平臺的知識挖掘是基于圖書館網(wǎng)站本身的數(shù)據(jù),若網(wǎng)站防衛(wèi)漏洞過多,經(jīng)常遭受入侵和篡改數(shù)據(jù),那么該網(wǎng)站數(shù)據(jù)顯然不能作為決策的依據(jù)的。圖書館網(wǎng)站經(jīng)常會遭受不知意圖的探訪,這些探訪可能是善意的人為測試,也可能是惡意攻擊、網(wǎng)上爬蟲等,這些事情都會影響網(wǎng)站數(shù)據(jù)的真實性。一方面,我們要加大防范力度,及時查漏補缺;另一方面,我們數(shù)據(jù)驅(qū)動決策不能簡單依靠網(wǎng)站流量數(shù)據(jù)來決策,對反映訪問用戶行為的指標也應(yīng)加大重視力度,如獨立訪問者統(tǒng)計、頁面停留時間、訪問時長、訪問頻率、訪問深度、用戶產(chǎn)生的閱讀行為和使用資源、用戶的忠誠度等都是重要的數(shù)據(jù)分析指標[4]。

      3.2 嚴格把控知識挖掘的各個環(huán)節(jié)是數(shù)據(jù)分析結(jié)果準確的保證

      在數(shù)據(jù)產(chǎn)生收集到最終分析挖掘得出結(jié)果決策,各個環(huán)節(jié)都要專人負責(zé),認真比對,對影響后續(xù)環(huán)節(jié)的數(shù)據(jù)要多次驗證,盡量將過程中出錯率降到最低,為保證最終結(jié)果真實有效,必須嚴格把控所有環(huán)節(jié),以科學(xué)嚴謹公正客觀的態(tài)度來做知識挖掘,才能最終對決策有利,從而實現(xiàn)數(shù)據(jù)驅(qū)動決策的目標。

      3.3 多渠道反復(fù)驗證結(jié)果數(shù)據(jù)減少單一數(shù)據(jù)知識挖掘結(jié)果的風(fēng)險

      對于訪問數(shù)據(jù)尤其是涉及驅(qū)動決策的關(guān)鍵數(shù)據(jù),必須多渠道反復(fù)驗證,從而保證數(shù)據(jù)的精準性,如問卷調(diào)查、在線反饋、實時互動等,這些第一手數(shù)據(jù)與通過數(shù)據(jù)挖掘分析處理的結(jié)果相互驗證,保證最終結(jié)果更準確,最終充分保障決策的科學(xué)性。

      3.4 知識挖掘由以網(wǎng)站為中心向以用戶為中心轉(zhuǎn)化

      一般的數(shù)據(jù)分析,只是對網(wǎng)站日常訪問數(shù)據(jù)進行分析處理,即憑借用戶訪問形成LOG 數(shù)據(jù)分析,而LOG 文件只能對一些網(wǎng)站運行和用戶訪問做一個簡單的統(tǒng)計,這種統(tǒng)計數(shù)據(jù)對用戶行為缺少深度洞察和了解,局限性很大,單純依靠這些數(shù)據(jù)顯然不足以反映用戶需求和移動圖書館運行的真實狀態(tài),因此要加強對用戶行為收集并最終形成以用戶為中心的數(shù)據(jù)流。當(dāng)然,對用戶訪問數(shù)據(jù)的挖掘,不能侵犯和擴散用戶個人隱私,這些方面都要加強立法和規(guī)章制度進行管理,保障用戶個人權(quán)利不受損害。

      猜你喜歡
      超星分類器可視化
      超星期刊
      超星期刊
      超星期刊
      超星數(shù)據(jù)庫錄入證
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      福州市| 灵寿县| 诸暨市| 凤城市| 塘沽区| 曲松县| 大足县| 富阳市| 读书| 长宁县| 临邑县| 双辽市| 剑川县| 张家界市| 商都县| 嵩明县| 包头市| 延长县| 尚志市| 梓潼县| 芮城县| 凤凰县| 嵊州市| 雷波县| 西乡县| 玉山县| 南皮县| 吉水县| 运城市| 南部县| 富锦市| 县级市| 乃东县| 双辽市| 昌乐县| 汶上县| 香河县| 张家川| 屏南县| 横山县| 武宁县|