• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      學(xué)術(shù)圖書選題知識圖譜研究

      2020-01-14 01:03:26吳娜達(dá)李彩珊哈爽
      中國傳媒科技 2019年12期
      關(guān)鍵詞:選題圖譜學(xué)術(shù)

      文/吳娜達(dá) 李彩珊 哈爽

      引言

      在出版領(lǐng)域,選題是指經(jīng)過多方面分析、考量而選中主題后擬實施的出版項目。[1]傳統(tǒng)的選題策劃多憑借編輯的經(jīng)驗,數(shù)據(jù)的處理多采用孤立的方式,一般對每一項內(nèi)容進(jìn)行單獨分析,數(shù)據(jù)存儲方式簡單,保存時期短,無法實現(xiàn)信息的精細(xì)化管理和多元化、多角度的延伸,沒有充分挖掘采集數(shù)據(jù)的價值。在當(dāng)下移動互聯(lián)網(wǎng)快速發(fā)展和迅速普及的時代,必須通過一定的手段對數(shù)據(jù)進(jìn)行重構(gòu)和應(yīng)用,才能在數(shù)據(jù)內(nèi)容呈爆炸式增長的態(tài)勢下快速地獲得有價值的信息。

      本文對學(xué)術(shù)圖書選題知識圖譜的表示、構(gòu)建等進(jìn)行研究,以期通過構(gòu)建的學(xué)術(shù)圖書選題知識圖譜對編輯策劃學(xué)術(shù)圖書選題提供有效的輔助決策。

      1.學(xué)術(shù)圖書選題現(xiàn)狀分析

      一般來說,選題來源于編輯在信息采集過程中產(chǎn)生的某種意向或愿望,通過周密分析、研究主客觀條件、多方論證等逐步形成方案。選題信息的采集是選題策劃中重要的步驟,是選題發(fā)現(xiàn)、策劃、驗證、論證的基礎(chǔ)。

      1.1 學(xué)術(shù)圖書選題策劃采集的信息類型

      學(xué)術(shù)圖書選題策劃采集的信息一般包含:社會信息、學(xué)科信息、出版信息、市場(讀者)信息、讀者信息5部分。[2]

      (1)社會信息包含學(xué)科所涉及的中央和地方政府的法規(guī)、政策、白皮書、公開信息等。

      (2)學(xué)科信息包含學(xué)科的范圍和主要內(nèi)容、國內(nèi)外發(fā)展情況、前沿發(fā)展方向和重點方向、重點科研項目、研究課題、學(xué)科領(lǐng)軍人物、學(xué)術(shù)成果及褒獎。

      (3)出版信息包含兩個方面:一方面指本出版社同類選題圖書的品種、數(shù)量、作者、銷售狀況等信息;另一方面指同行,即其他出版社出版該類選題圖書的品種、數(shù)量、作者、銷售狀況等信息。

      (4)作者信息包含作者的學(xué)科背景、職務(wù)職稱、研究方向、主要工作、已申請課題、著作情況等。

      (5)讀者具有個性化特征,主要信息包含讀者基本信息(年齡、職業(yè)等)、購買力、讀者實際需求、潛在需求、圖書市場分布、圖書市場反饋等。

      1.2 采集信息存在的問題

      目前,學(xué)術(shù)圖書選題策劃過程中獲取的信息多以文檔、表格及少量數(shù)據(jù)庫的形式存儲,存在一些問題,主要如下。

      1.2.1 信息異構(gòu)

      在圖書選題信息采集過程中,獲取的信息的來源廣泛,數(shù)據(jù)結(jié)構(gòu)不全相同,這給數(shù)據(jù)的融合、存儲帶來了巨大的困難。

      1.2.2 信息冗余

      不同來源的信息組合難度高、優(yōu)勢互補性差,信息的完整性不高。

      信息存在大量的冗余與噪聲,信息的準(zhǔn)確度有待考究。

      1.2.3 信息孤立

      空間上不連續(xù):關(guān)注的信息內(nèi)容不能在數(shù)據(jù)上體現(xiàn)事件與事件之間的聯(lián)系。

      時間上不連續(xù):關(guān)注的信息內(nèi)容時間持續(xù)性短。

      1.2.4 信息靜止

      不能有效利用已有信息進(jìn)行發(fā)現(xiàn)與預(yù)測。

      1.2.5 信息可視化困難

      數(shù)據(jù)不能以多種形態(tài)表現(xiàn),使其更直觀、更易于理解。

      以上問題導(dǎo)致圖書選題信息存儲難、檢索難、重復(fù)利用與共享難。

      在傳統(tǒng)的圖書選題的信息采集過程中,多是通過編輯的搜集,進(jìn)行簡單存儲(多以文檔、表格及少量數(shù)據(jù)庫的形式存儲),依賴人力主觀對讀者、作者、內(nèi)容、營銷等方面的信息進(jìn)行思考和分析,形成選題策劃方案。傳統(tǒng)的學(xué)術(shù)圖書選題方式主觀性因素大,信息分析不夠精確,可靠性和科學(xué)性不高,且信息檢索、重復(fù)利用及共享困難。因此,本文對學(xué)術(shù)圖書選題知識圖譜知識表示和構(gòu)建方法進(jìn)行研究,通過對信息數(shù)據(jù)進(jìn)行重構(gòu),使對信息的認(rèn)識更加清晰、立體,并以期通過推理等算法實現(xiàn)模擬大腦綜合分析信息的能力,輔助圖書選題進(jìn)行有效決策。

      2.學(xué)術(shù)圖書選題知識圖譜的定義

      學(xué)術(shù)圖書選題知識圖譜旨在構(gòu)建一張巨大的語義網(wǎng)絡(luò)圖,用以描述學(xué)術(shù)圖書選題策劃過程中存在的各類實體及其關(guān)系。圖的節(jié)點表示實體,圖的邊表示關(guān)系。也可以認(rèn)為學(xué)術(shù)圖書選題知識圖譜是一個大規(guī)模的知識庫,為學(xué)術(shù)圖書選題中涉及的復(fù)雜數(shù)據(jù)提供有效的存儲、檢索及可視化,為學(xué)術(shù)圖書選題策劃提供可靠、清晰的信息及脈絡(luò)。

      目前,學(xué)術(shù)圖書選題知識圖譜的數(shù)據(jù)來源主要基于第2節(jié)所述的社會信息、學(xué)科信息、出版信息、市場(讀者)信息、讀者信息5個方面相關(guān)信息,并可根據(jù)實際需求進(jìn)行擴(kuò)展。5個方面信息涉及的數(shù)據(jù)類型主要有3類。

      2.1 結(jié)構(gòu)化數(shù)據(jù)

      主要指關(guān)系數(shù)據(jù)庫中表、excel表以及其他具有結(jié)構(gòu)的數(shù)據(jù)。在學(xué)術(shù)圖書選題知識圖譜的構(gòu)建中,其主要來源于出版社各級系統(tǒng)數(shù)據(jù)庫及合作商可提供的數(shù)據(jù)庫等。

      2.2 無結(jié)構(gòu)化數(shù)據(jù)

      在學(xué)術(shù)圖書選題知識圖譜構(gòu)建中,主要指純文本資料,例如碩博論文、報紙、會議的圖像和聲音等數(shù)據(jù)。

      2.3 半結(jié)構(gòu)化數(shù)據(jù)

      主要指介于結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)化數(shù)據(jù)之間,通常的XML、HTML等相關(guān)網(wǎng)頁均屬于半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)在學(xué)術(shù)圖書選題構(gòu)建中,主要來源于各類網(wǎng)站獲取的信息,例如從電商網(wǎng)站(圖書商城)的XML中獲取的圖書信息(圖書名稱、編輯推薦、作者簡介等)和圖書市場信息(評價星級、評價時間、評價人地理位置等)、從工業(yè)和信息化部網(wǎng)站的XML中獲取的公開信息等。

      學(xué)術(shù)圖書選題知識圖譜的表示與構(gòu)建參考一般知識圖譜的構(gòu)建過程,通過三元組對學(xué)術(shù)圖書選題知識圖譜進(jìn)行表示,通過圖形數(shù)據(jù)庫Neo4j的規(guī)范設(shè)計存儲模式及構(gòu)建學(xué)術(shù)選題知識圖譜。

      3.學(xué)術(shù)圖書選題知識圖譜的表示

      學(xué)術(shù)圖書選題知識圖譜的結(jié)構(gòu)由節(jié)點集合和邊集合構(gòu)成,形式化表示如式(1):

      其中,表示學(xué)術(shù)圖書選題的節(jié)點集合,節(jié)點是學(xué)術(shù)圖書選題信息中的各種實體,例如作者、書籍;表示學(xué)術(shù)圖書選題的邊集合,可表達(dá)為如式(2):

      其中,表示關(guān)系的類型集合,例如“作者—書籍關(guān)系”“書籍—出版社關(guān)系”;表示關(guān)系的方向集合,例如“作者—>書籍”“書籍<—出版社”;表示三元組集合,通過三元組表達(dá)語義關(guān)系,每一個三元組表示一個事實,可表示為如式(3):

      其中,式(3)的含義是,ATS_N1與ATS_N2分別表示不同的節(jié)點(實體),ATS_T1表示ATS_N1與ATS_N2之間的語義關(guān)系,方向是由ATS_N1指向ATS_N2。例如存在事實:作者李杰,著作《工業(yè)大數(shù)據(jù)》,可用三元組(李杰,作者—書籍關(guān)系,《工業(yè)大數(shù)據(jù)》)進(jìn)行表示。

      4.學(xué)術(shù)圖書選題知識圖譜的構(gòu)建

      學(xué)術(shù)圖書選題知識圖譜的構(gòu)建主要有2個步驟,包括學(xué)術(shù)圖書選題數(shù)據(jù)庫存儲模式設(shè)計、利用圖形數(shù)據(jù)庫構(gòu)建知識圖譜。如圖1所示。

      4.1 數(shù)據(jù)庫存儲模式設(shè)計

      梳理學(xué)術(shù)圖書選題相關(guān)信息,對實體及其之間的關(guān)系進(jìn)行規(guī)范的建模,并給出明確的定義。結(jié)合第3節(jié)中學(xué)術(shù)圖書選題信息涉及的3種數(shù)據(jù)類型和學(xué)術(shù)圖書選題知識圖譜的表示,對學(xué)術(shù)圖書選題知識圖譜數(shù)據(jù)庫存儲模式進(jìn)行設(shè)計。對3種數(shù)據(jù)類型分別進(jìn)行介紹。

      (1)結(jié)構(gòu)化的數(shù)據(jù)主要來自關(guān)系型數(shù)據(jù)庫(例如MySql、SQL Server)、Excel等,主要方法是通過分析表的信息和字段信息,抽取出關(guān)系模式,設(shè)計轉(zhuǎn)化規(guī)則,建立學(xué)術(shù)圖書選題知識圖譜圖數(shù)據(jù)庫的表結(jié)構(gòu)。

      圖1 學(xué)術(shù)圖書選題知識圖譜的構(gòu)建

      關(guān)系型數(shù)據(jù)庫MySql中存在表名為“作者信息”的表,見表1。

      表1 作者信息

      結(jié)合學(xué)術(shù)圖書選題知識圖譜的表示可抽象得到點集合和關(guān)系集合。

      點集合

      姓名={劉某,張某,郭某,…};

      年齡 ={34,56,48,…};

      單位={高校1,研究所1,高校2,…};

      職務(wù)={教授,研究院,…};

      研究方向={無人駕駛,強化學(xué)習(xí),機(jī)器視覺,圖像處理,無線通信,…};

      出版書籍={《A》,《B》,《C》,…}等。

      邊集合

      作者-單位關(guān)系={<作者-單位關(guān)系,作者—>單位,(劉某,作者-單位關(guān)系,高校1)>,<作者-單位關(guān)系,作者—>單位,(張某,作者-單位關(guān)系,研究所1)>,<作者-單位關(guān)系,作者—>單位,(郭某,作者-單位關(guān)系,高校2)>…};

      作者-研究方向關(guān)系={<作者-研究方向關(guān)系,作者—>研究方向,(劉某,作者-研究方向關(guān),無人駕駛)>,<作者-研究方向關(guān)系,作者—>研究方向,(劉某,作者-研究方向關(guān),強化學(xué)習(xí))>,<作者-研究方向關(guān)系,作者—>研究方向,(張某,作者-研究方向關(guān),機(jī)器視覺)>,<作者-研究方向關(guān)系,作者—>研究方向,(郭某,作者-研究方向關(guān),無線通信)>,…}等。

      由于篇幅限制,此處不一一列舉存在的點集合和邊集合。

      通過節(jié)點集合和關(guān)系集合進(jìn)行學(xué)術(shù)圖書選題知識圖譜存儲模式的設(shè)計。節(jié)點集合映射為學(xué)術(shù)圖書選題知識圖譜圖數(shù)據(jù)庫存儲模式中的點表組,邊集合映射為圖數(shù)據(jù)庫存儲模式中的關(guān)系表組。學(xué)術(shù)圖書選題知識圖譜的圖數(shù)據(jù)庫存儲模式表示為實際存儲的點表組和關(guān)系表組。點表組可以很好地保留層級結(jié)構(gòu),同時,可以有效擴(kuò)展實體數(shù)據(jù)。關(guān)系表組由三元組表示,存放事實,關(guān)系表組可以很好地保留語義關(guān)系的層級關(guān)系,同時,可以對實體之間的其他語義關(guān)系進(jìn)行有效存儲與拓展。

      以作者-研究方向關(guān)系涉及的節(jié)點集合和邊集合為例,映射為相應(yīng)的點表組和關(guān)系表組,作者點表見表2,研究方向點表見表3,作者-研究關(guān)系表見4。

      表2 作者點表

      表3 研究方向點表

      表4 作者-研究關(guān)系表

      (2)無結(jié)構(gòu)化數(shù)據(jù)根據(jù)語義關(guān)系的層級和結(jié)構(gòu)進(jìn)行自定義。

      獲取一段文本信息“2016的政策熱點關(guān)鍵詞有大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、人工智能、5G技術(shù)等,大數(shù)據(jù)的學(xué)科方向可分為大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)計算模式、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化、大數(shù)據(jù)安全、大數(shù)據(jù)系統(tǒng)與內(nèi)存、大數(shù)據(jù)處理平臺、大數(shù)據(jù)網(wǎng)絡(luò)等,其中,工業(yè)大數(shù)據(jù)方向的圖書市場上有《工業(yè)大數(shù)據(jù)》,作者是李杰,出版單位是機(jī)械工業(yè)出版社?!?/p>

      結(jié)合學(xué)術(shù)圖書選題知識圖譜的表示可抽象得到點集合和關(guān)系集合。

      點集合

      政策熱點點集合={大數(shù)據(jù),物聯(lián)網(wǎng),云計算,人工智能,5G技術(shù),…};

      大數(shù)據(jù)學(xué)科方向點集合={大數(shù)據(jù)采集與預(yù)處理,大數(shù)據(jù)存儲與管理,大數(shù)據(jù)計算模式,大數(shù)據(jù)分析與挖掘,大數(shù)據(jù)可視化,大數(shù)據(jù)安全,大數(shù)據(jù)系統(tǒng)與內(nèi)存,大數(shù)據(jù)處理平臺,大數(shù)據(jù)網(wǎng)絡(luò),數(shù)據(jù)算法基礎(chǔ),工業(yè)大數(shù)據(jù),…}等。

      邊集合

      熱點-學(xué)科邊集合={<熱點學(xué)科關(guān)系,熱點—>學(xué)科,(大數(shù)據(jù),熱點學(xué)科關(guān)系,工業(yè)大數(shù)據(jù))>,<熱點學(xué)科關(guān)系,熱點—>學(xué)科,(大數(shù)據(jù),熱點學(xué)科關(guān)系,大數(shù)據(jù)存儲與管理)>,…}。

      各類關(guān)系通過邏輯及實際應(yīng)用進(jìn)行解析定義,此處不一一列舉。

      通過節(jié)點集合和關(guān)系集合進(jìn)行學(xué)術(shù)圖書選題知識圖譜圖數(shù)據(jù)庫存儲模式的設(shè)計方法與結(jié)構(gòu)化數(shù)據(jù),此處不再列舉。

      (3)半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)之間,一般在XML文件中得到相關(guān)的數(shù)據(jù)層級關(guān)系,根據(jù)實際情況,結(jié)合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的處理方法即可設(shè)計得到學(xué)術(shù)圖書選題知識圖譜圖數(shù)據(jù)庫模式。

      4.2 利用圖數(shù)據(jù)庫構(gòu)建知識圖譜

      基于設(shè)計的圖數(shù)據(jù)庫存儲模式,利用圖形數(shù)據(jù)庫進(jìn)行學(xué)術(shù)圖書選題知識圖譜的構(gòu)建。從最近幾年的發(fā)展情況可以看到基于圖的存儲方式在整個數(shù)據(jù)庫存儲領(lǐng)域的飛速發(fā)展,其中,Neo4j在整個圖存儲領(lǐng)域中占據(jù)NO.1的地位。Neo4j是一個高性能的圖數(shù)據(jù)庫,可以在Java和Python等平臺上使用。本文通過Java API將圖數(shù)據(jù)存儲模式中的點表組與關(guān)系表組中的學(xué)術(shù)圖書選題數(shù)據(jù)寫入Neo4j圖數(shù)據(jù)庫中,構(gòu)建學(xué)術(shù)圖書選題知識圖譜。利用Neo4j圖數(shù)據(jù)庫構(gòu)建知識圖譜可參考The Neo4j Graph Platform,主要方法是將設(shè)計的點表組和關(guān)系表組,利用Cypher語句寫入Neo4j圖形數(shù)據(jù)庫,得到知識圖譜。

      以人民郵電出版社國之重器系列圖書為例給出部分知識圖譜展示示意圖,如圖2所示。圖2中對人民郵電出版社國之重器系列圖書的相關(guān)信息進(jìn)行了部分示意。

      圖2 學(xué)術(shù)圖書選題部分知識圖譜示意

      結(jié)語

      本文通過對學(xué)術(shù)圖書選題策劃中存在的問題進(jìn)行分析,對學(xué)術(shù)圖書選題知識圖譜的表示和構(gòu)建方法進(jìn)行研究,以期通過構(gòu)建知識圖譜解決目前學(xué)術(shù)圖書選題策劃中存在的問題,并為學(xué)術(shù)圖書選題策劃提供有效的輔助決策支撐。目前,因數(shù)據(jù)量的限制,本文的知識圖譜規(guī)模較小,后續(xù)將繼續(xù)豐富學(xué)術(shù)圖書選題知識圖譜,并以期通過知識推理等方法推薦輔助學(xué)術(shù)圖書選題策劃。

      猜你喜歡
      選題圖譜學(xué)術(shù)
      繪一張成長圖譜
      本刊誠征“獨唱團(tuán)”選題
      時代郵刊(2019年24期)2019-12-17 11:49:30
      如何理解“Curator”:一個由翻譯引發(fā)的學(xué)術(shù)思考
      中國博物館(2019年2期)2019-12-07 05:40:44
      談詩詞的選題
      中華詩詞(2019年1期)2019-08-23 08:24:24
      本刊誠征“獨唱團(tuán)”選題
      時代郵刊(2019年16期)2019-07-30 08:02:06
      本刊誠征“獨唱團(tuán)”選題
      時代郵刊(2019年18期)2019-07-29 08:49:12
      對學(xué)術(shù)造假重拳出擊
      商周刊(2019年2期)2019-02-20 01:14:22
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      學(xué)術(shù)
      南木林县| 比如县| 呼图壁县| 莱西市| 龙游县| 丰原市| 临颍县| 南木林县| 东台市| 房产| 宜君县| 赤水市| 北宁市| 蓬安县| 井陉县| 冷水江市| 略阳县| 化德县| 洞口县| 中山市| 扬州市| 樟树市| 南阳市| 江华| 綦江县| 巩义市| 大关县| 临桂县| 香港 | 宾阳县| 古蔺县| 长白| 新乡市| 金塔县| 内江市| 理塘县| 苏尼特左旗| 津市市| 威信县| 盐边县| 永平县|