• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于圖數(shù)據(jù)庫的閱讀行為知識圖譜構(gòu)建研究

      2022-10-24 09:32:14陳光儀陳義明吳小慧
      現(xiàn)代計算機 2022年16期
      關(guān)鍵詞:圖譜可視化語義

      陳光儀,陳義明,吳小慧

      (湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院,長沙 410128)

      0 引言

      語義網(wǎng)絡(luò)作為人工智能的重要應(yīng)用領(lǐng)域之一,可以給用戶提供一個更加準(zhǔn)確、更加智能的知識獲取環(huán)境。而知識圖譜是實現(xiàn)語義網(wǎng)絡(luò)的技術(shù)基礎(chǔ),是通向語義網(wǎng)絡(luò)環(huán)境的鮮明道路。在智慧學(xué)習(xí)的大環(huán)境下,疊加近年來新冠疫情的防控需求,在線閱讀已越來越多地成為廣大讀者的首選閱讀方式。如果能夠有效獲取讀者的閱讀行為并構(gòu)建對應(yīng)的知識圖譜,對于圖書館而言,可以及時了解其在閱讀過程中的實際需求,繼而進(jìn)行針對性的閱讀指導(dǎo)并為讀者推薦個性化的閱讀內(nèi)容;對于出版商而言,可以及時調(diào)整、改進(jìn)電子出版物的內(nèi)容編排及后續(xù)再版工作,以更好地適應(yīng)目標(biāo)讀者群體的實際需求。因而,此項研究工作對于進(jìn)一步提升讀者的閱讀學(xué)習(xí)效果,完善圖書館的智慧化閱讀服務(wù),推動促進(jìn)全社會形成良好的智慧學(xué)習(xí)環(huán)境大有裨益。

      1 知識圖譜構(gòu)建技術(shù)

      構(gòu)建知識圖譜有自頂向下和自底向上兩種方式。前者通常是指基于百科類網(wǎng)站等高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)源,從中提取本體和模式信息后再加入到知識庫中,因而適用于那些內(nèi)容明確、關(guān)系清晰的領(lǐng)域知識圖譜構(gòu)建;而后者是指通過借助特定的技術(shù)手段從公開采集的數(shù)據(jù)中提取模式信息,選擇其中置信度較高的新模式,經(jīng)人工審核后再加入到知識庫中。目前大部分知識圖譜的構(gòu)建都采用自底向上的方式,其層次架構(gòu)按照知識獲取的過程可分為信息抽取、知識融合和知識加工。

      信息抽取是指從多源異構(gòu)的數(shù)據(jù)源中提取出實體、屬性以及實體之間的關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá),它是知識圖譜構(gòu)建技術(shù)的關(guān)鍵。早期信息抽取主要是基于預(yù)定規(guī)則的抽取技術(shù),工作量龐大且僅適用于特定的專業(yè)領(lǐng)域,后來人們開始嘗試使用統(tǒng)計機器學(xué)習(xí)的方法,通過標(biāo)注部分?jǐn)?shù)據(jù)得到訓(xùn)練集,在此基礎(chǔ)上再使用均方根誤差算法(root mean squared error,RMSE)或多項式回歸算法(polynomial regression,PR)等有監(jiān)督學(xué)習(xí)算法識別命名實體。

      從開放領(lǐng)域中抽取信息所得到的結(jié)果,可能具有較高的數(shù)據(jù)冗余度且包含大量錯誤內(nèi)容,數(shù)據(jù)內(nèi)在的層次性和邏輯性也缺失嚴(yán)重,這就需要通過有效的知識融合技術(shù)來清洗并整合數(shù)據(jù),主要工作包括實體對齊和知識合并等。

      經(jīng)過融合處理后,所得到的數(shù)據(jù)、信息或事實表達(dá)還必須經(jīng)過進(jìn)一步的知識加工才能形成最終結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系。此過程中涉及的主要技術(shù)包括本體構(gòu)建、知識推理和質(zhì)量評估。

      上述層次架構(gòu)可用圖1所示的模型來表示。

      圖1 自底向上構(gòu)建知識圖譜的層次架構(gòu)

      2 閱讀行為知識圖譜構(gòu)建

      就本文所研究的讀者閱讀行為知識圖譜構(gòu)建而言,采用自底向上的方法更為合適。這種方法將知識圖譜的構(gòu)建過程分為四步:知識獲取、知識表示、知識存儲和知識可視化錯誤!未找到引用源。。

      結(jié)合項目的實際需求,本文設(shè)計出閱讀行為知識圖譜構(gòu)建系統(tǒng)的實現(xiàn)流程如下:首先從存檔的電子出版物中抽取出讀者的閱讀行為數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行清洗并進(jìn)行格式調(diào)整,再將數(shù)據(jù)加載到圖數(shù)據(jù)庫中,創(chuàng)建知識節(jié)點及節(jié)點之間的關(guān)系以得到完整的知識圖譜,最后使用圖數(shù)據(jù)庫操縱語言對知識進(jìn)行查詢推理,并將結(jié)果可視化地呈現(xiàn)在頁面上。完整流程如圖2所示。

      圖2 閱讀行為知識圖譜構(gòu)建流程

      2.1 知識獲取

      構(gòu)建知識圖譜的首要任務(wù)是獲取知識。從各種類型的數(shù)據(jù)源中提取出實體(概念)、屬性以及實體之間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá)。

      本文構(gòu)建閱讀行為知識圖譜所需的數(shù)據(jù)主要來源于讀者在閱讀過程中所生成的各種標(biāo)注和注釋信息,這是一種簡明且方便獲取的、用以了解讀者閱讀行為的數(shù)據(jù)。讀者在閱讀電子出版物的過程中,會隨手在文檔中添加一些附注、標(biāo)記和注釋信息,這些信息真實準(zhǔn)確地反映了讀者個人的閱讀習(xí)慣,及其對所閱讀內(nèi)容的認(rèn)識、理解和掌握程度。為保證數(shù)據(jù)來源的隨機性和真實性,本文收集整理了數(shù)十位學(xué)生讀者在閱讀不同類型電子出版物后所形成的文檔材料,編寫程序自動提取出其中所包含的讀者閱讀行為數(shù)據(jù)。部分原始數(shù)據(jù)如圖3所示。

      圖3 閱讀行為原始數(shù)據(jù)局部

      2.2 知識表示

      自動提取的原始數(shù)據(jù)中往往會包含一些信息噪音。因而本文設(shè)計了專門的數(shù)據(jù)清

      洗程序以去除其中的噪音,然后再將數(shù)據(jù)格式化為知識表示的形式。具體過程為:

      (1)首次清洗。構(gòu)造如下正則表達(dá)式,對抽取的數(shù)據(jù)進(jìn)行完整清洗,去除價值密度低的數(shù)據(jù),保留重要的標(biāo)記注釋文本、生成時間和創(chuàng)建位置等內(nèi)容。

      (2)再次清洗。將元組轉(zhuǎn)換為列表數(shù)據(jù),構(gòu)造正則表達(dá)式,采用循環(huán)掃描的方式對數(shù)據(jù)進(jìn)行再次清洗。其中的少部分?jǐn)?shù)據(jù)可能發(fā)生錯置現(xiàn)象,需要抽取相應(yīng)數(shù)據(jù)并重載至正確位置。

      (3)格式化數(shù)據(jù)。構(gòu)造正則表達(dá)式,整理清洗后的數(shù)據(jù),對它們進(jìn)行適當(dāng)?shù)那蟹趾秃喜ⅲ詈髮⑺袛?shù)據(jù)格式化為知識表示的形式。

      2.3 知識存儲

      關(guān)系型數(shù)據(jù)庫在結(jié)構(gòu)化數(shù)據(jù)的存儲和處理方面擁有絕對優(yōu)勢,但對知識存儲及語義檢索的支持卻不夠友好。而以圖論為基礎(chǔ)的圖數(shù)據(jù)庫在這些方面卻恰好擁有與生俱來的長處,尤其在保持?jǐn)?shù)據(jù)語義及處理復(fù)雜關(guān)系等方面,圖數(shù)據(jù)庫明顯優(yōu)于關(guān)系型數(shù)據(jù)庫。目前在學(xué)術(shù)研究和商業(yè)領(lǐng)域,主要的圖數(shù)據(jù)庫產(chǎn)品包括ArangoDB、FlockDB和Neo4j等。根 據(jù)DBEngine排名,其中最為活躍的當(dāng)屬開源產(chǎn)品Neo4j,它不僅支持嚴(yán)格的事務(wù)處理,還提供強大的圖搜索能力和極好的橫向擴展能力。

      本文通過編寫程序,實現(xiàn)了將格式化后的讀者閱讀行為數(shù)據(jù)自動加載到Neo4j圖數(shù)據(jù)庫中的功能。程序能根據(jù)格式化數(shù)據(jù)的結(jié)構(gòu)創(chuàng)建相應(yīng)節(jié)點,添加屬性并標(biāo)注關(guān)系,自動完成知識圖譜的存儲和構(gòu)建。

      2.4 知識可視化

      Neo4j數(shù)據(jù)庫支持強大的圖操縱語言Cypher,可以快捷高效地實現(xiàn)知識圖譜的查詢和推理。在配置好所需模塊后,調(diào)用瀏覽器打開圖數(shù)據(jù)庫,輸入相應(yīng)Cypher命令便能查詢所需內(nèi)容并將結(jié)果可視化呈現(xiàn)在頁面上。本文所創(chuàng)建的讀者閱讀行為知識圖譜的部分查詢結(jié)果如圖4所示。

      圖4 讀者閱讀行為知識圖譜局部

      3 結(jié)語

      本文介紹了讀者閱讀行為知識圖譜的完整構(gòu)建過程,設(shè)計并實現(xiàn)了一個自動化的開放知識圖譜構(gòu)建系統(tǒng)。測試結(jié)果表明:本文所得成果能正確高效地實現(xiàn)對讀者閱讀行為數(shù)據(jù)的自動提取、清洗、篩選和格式化,并能在此基礎(chǔ)上將融合后的數(shù)據(jù)表達(dá)為知識再存儲到圖數(shù)據(jù)庫中。后續(xù)研究工作重點在于:一方面對獲取的閱讀行為數(shù)據(jù)和讀者閱讀習(xí)慣、閱讀情感之間的關(guān)聯(lián)性進(jìn)行深入研究;另一方面對如何將所構(gòu)建的知識圖譜用于幫助圖書館提供更好的智慧閱讀服務(wù)進(jìn)行分析。作者將從這兩個方面著手,扎實開展后期的理論研究和實踐創(chuàng)新工作,以期取得更有價值的成果,為推動全社會形成良好的智慧學(xué)習(xí)環(huán)境添磚加瓦。

      猜你喜歡
      圖譜可視化語義
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      繪一張成長圖譜
      基于CGAL和OpenGL的海底地形三維可視化
      語言與語義
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      石楼县| 萍乡市| 敦化市| 贵阳市| 古蔺县| 宁蒗| 呼玛县| 淄博市| 钦州市| 盘锦市| 晋中市| 石家庄市| 买车| 临夏县| 会宁县| 澎湖县| 巴马| 惠水县| 通海县| 永福县| 大竹县| 年辖:市辖区| 田林县| 鄄城县| 塔河县| 宾阳县| 武夷山市| 晋城| 垫江县| 苍南县| 枣强县| 漠河县| 万源市| 格尔木市| 修武县| 时尚| 双江| 鄂州市| 阿勒泰市| 江门市| 乌鲁木齐县|