賈君枝 寇蕾蕾
?
關(guān)聯(lián)數(shù)據(jù)云圖中出版類數(shù)據(jù)集特點分析
賈君枝 寇蕾蕾
摘 要出版類數(shù)據(jù)集作為關(guān)聯(lián)開放數(shù)據(jù)(LOD)云圖中的重要數(shù)據(jù)集合,成為繼社交網(wǎng)絡類、政府類數(shù)據(jù)集之后增速最快的一類,受到了廣泛關(guān)注。論文旨在通過對LOD云圖中出版類數(shù)據(jù)的深入分析,從已發(fā)布的數(shù)據(jù)集、關(guān)聯(lián)應用、詞表使用、元數(shù)據(jù)信息等最佳實踐角度入手,探索國外關(guān)聯(lián)開放數(shù)據(jù)的服務模式,進而為我國發(fā)展關(guān)聯(lián)開放數(shù)據(jù)提供參考。圖4。表7。參考文獻19。
關(guān)鍵詞出版類 數(shù)據(jù)集 關(guān)聯(lián)開放數(shù)據(jù)
萬維網(wǎng)之父Tim Berners-Lee在2006年第一次提出關(guān)聯(lián)數(shù)據(jù)(Linked Data)概念時,即采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標識符)命名數(shù)據(jù)實體,通過HTTP協(xié)議揭示并獲取數(shù)據(jù),同時強調(diào)數(shù)據(jù)的相互關(guān)聯(lián)。其目的是構(gòu)建一張計算機能理解的語義數(shù)據(jù)網(wǎng),以便在此基礎(chǔ)上構(gòu)建更智能的應用。基于更好地應用關(guān)聯(lián)數(shù)據(jù)的需求, Chris Bizer等在2007年5月向W3C SWEO(語義網(wǎng)教育和宣傳小組)提交了LOD(Linked Open Data)項目申請,該項目旨在號召人們將現(xiàn)有數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù),并將不同數(shù)據(jù)源互聯(lián)起來,以可視化圖形的方式將互聯(lián)的關(guān)聯(lián)數(shù)據(jù)集展現(xiàn)出來,通過鏈接現(xiàn)存、分散的數(shù)據(jù)來創(chuàng)造知識,開展數(shù)據(jù)整合服務,實現(xiàn)數(shù)據(jù)的增值。在過去的幾年中,越來越多的數(shù)據(jù)提供者和網(wǎng)絡應用開發(fā)者將各自的數(shù)據(jù)發(fā)布到網(wǎng)絡上,并與其它數(shù)據(jù)源關(guān)聯(lián)在一起,形成了一個巨大的數(shù)據(jù)網(wǎng)絡。截至2014年4月,世界各機構(gòu)已經(jīng)基于LOD標準發(fā)布了數(shù)千個數(shù)據(jù)集,包含數(shù)千億個RDF三元組。相比于2011年,數(shù)據(jù)集數(shù)量增長了將近一倍,其中描述不同實體的常用詞表顯著增加,但提供的起源和授權(quán)元數(shù)據(jù)較少。依據(jù)datahub.io類目標準,LOD數(shù)據(jù)分為八大類別,包括媒體類、政府類、出版類、生命科學類、地理類、社交網(wǎng)絡類、跨領(lǐng)域及用戶生成內(nèi)容。媒體類包含提供電影、音樂、電視和廣播節(jié)目及印刷媒體信息的數(shù)據(jù)集,如紐約時報、BBC廣播節(jié)目;政府類包含由聯(lián)邦或地方政府發(fā)布的關(guān)聯(lián)數(shù)據(jù),其中包括許多統(tǒng)計性數(shù)據(jù)集;出版類包含館藏資源、科學出版物及會議信息、大學讀物列表、知識組織工具等相關(guān)數(shù)據(jù)集;地理類包含涉及地理實體、地緣邊界、熱點地區(qū)信息的數(shù)據(jù)集;生命科學類包括生物和生物化學信息、藥物相關(guān)數(shù)據(jù)、以及有關(guān)物種及其棲息地信息的數(shù)據(jù)集;跨領(lǐng)域類包含基于語言資源、產(chǎn)品數(shù)據(jù)等基礎(chǔ)知識的數(shù)據(jù)集;用戶生成內(nèi)容包含從由較大用戶群體組成的門戶網(wǎng)站所收集數(shù)據(jù)的數(shù)據(jù)集。其中出版類數(shù)據(jù)集增長迅速,成為繼社交網(wǎng)絡類、政府類之后增速最快的一類,受到了廣泛關(guān)注。出版類數(shù)據(jù)的來源機構(gòu)包括出版單位、圖書館、博物館、檔案館以及高校等,這些機構(gòu)積極參與數(shù)據(jù)的開放互聯(lián)運動,推動了數(shù)據(jù)的發(fā)布、獲取、相互關(guān)聯(lián),提高了關(guān)聯(lián)數(shù)據(jù)的質(zhì)量。本文旨在通過對LOD中出版類數(shù)據(jù)的深入分析,探索國外關(guān)聯(lián)開放數(shù)據(jù)的服務模式,進而為我國發(fā)展關(guān)聯(lián)開放數(shù)據(jù)提供參考。
LOD云圖中共有1014個數(shù)據(jù)集[1],其中出版類共有96個,所占百分比為9.47%。在出版類中,按照數(shù)據(jù)內(nèi)容可將數(shù)據(jù)集劃分為四類:館藏資源、科學出版物和會議信息、大學信息及讀物列表、知識組織工具。對出版類數(shù)據(jù)集的詳細分類,有助于用戶清晰地了解資源分布情況,準確定位信息。
2. 1 館藏資源數(shù)據(jù)集
館藏資源數(shù)據(jù)集是對文化機構(gòu)中的館藏資源進行描述,主要包含圖書館、博物館、檔案館以及其它信息機構(gòu)的數(shù)據(jù)集。通過對館藏資源的語義描述和鏈接來實現(xiàn)資源內(nèi)容的充分揭示及關(guān)聯(lián)關(guān)系的規(guī)范表達,進而為文化機構(gòu)中數(shù)據(jù)的深度聚合與知識發(fā)現(xiàn)提供服務。如表1,館藏資源占出版類資源的24%,以德國國家圖書館關(guān)聯(lián)數(shù)據(jù)(DNB)為例,目前已包含192,556,756個RDF三元組[2],數(shù)據(jù)間可相互引用,且其在LOD中也被許多數(shù)據(jù)集鏈接。從形式來看,其應用格式包括rdf和xml。
表1 出版類中館藏資源數(shù)據(jù)集
2. 2 科學出版物和會議信息數(shù)據(jù)集
科學出版物和會議信息數(shù)據(jù)集主要提供了與科學出版物和會議信息相關(guān)的數(shù)據(jù)集(如表2)。該數(shù)據(jù)集占比18%,為科學研究的開展提供了豐富的來源信息。會議信息數(shù)據(jù)集中,以關(guān)聯(lián)數(shù)據(jù)會議(Colinda)為例,其提供了會議的地點、時間等基本信息,包含從2003年至2013年大約15, 000個會議的信息,并與地理、維基百科及計算機科學等會議建立關(guān)聯(lián)[3]。同時以可視化圖形的形式展現(xiàn)出來,便于用戶獲取各種類型會議的信息。
表2 出版類中科學出版物和會議資源數(shù)據(jù)集
2. 3 大學信息及讀物列表數(shù)據(jù)集
大學信息及讀物列表數(shù)據(jù)集包含了各大學發(fā)布的關(guān)于人、部門、設施、課程、贈款和出版物等以關(guān)聯(lián)數(shù)據(jù)形式出現(xiàn)的信息,能夠幫助學生全面了解學校概況,發(fā)現(xiàn)不同課程、不同知識之間的相互關(guān)系,便于學生學習(如表3)。該數(shù)據(jù)集占比30%,居于出版類數(shù)據(jù)集的首位。以曼徹斯特大學閱讀書目為例[4],其提供了曼徹斯特大學圖書館的檢索界面,用戶可以查看資源列表、學科模塊以及相關(guān)課程,并可通過定制方式快速查詢到自己感興趣的閱讀書目。
2. 4 知識組織工具數(shù)據(jù)集
這部分數(shù)據(jù)集包含了主題詞表、本體、分類表、元數(shù)據(jù)等知識組織工具,可以被其它數(shù)據(jù)集引用(如表4)。該數(shù)據(jù)集占比29%。其中數(shù)據(jù)量最大的當屬美國國會圖書館標題表(LCSH),它包含7,332,816個RDF三元組,自1898年以來一直被用于對國會圖書館的資源進行編目[5]。LCSH關(guān)聯(lián)數(shù)據(jù)服務內(nèi)容包含國會圖書館標題表、主題和形式的細分信息、體裁/形式標題詞表、兒童(AC)標題詞表及創(chuàng)建規(guī)范記錄所需的驗證字符串[6]。
表3 出版類中大學信息及讀物列表數(shù)據(jù)集
表4 出版類中知識組織工具數(shù)據(jù)集
關(guān)聯(lián)是關(guān)聯(lián)數(shù)據(jù)的核心[7]。關(guān)聯(lián)的最佳實踐是鼓勵數(shù)據(jù)發(fā)布機構(gòu)在數(shù)據(jù)集間設置RDF鏈接,借助RDF鏈接數(shù)據(jù)提供者可以將自己的數(shù)據(jù)集與整個數(shù)據(jù)網(wǎng)絡建立連接,通過遵循RDF鏈路能夠發(fā)現(xiàn)額外有用的數(shù)據(jù),從而起到導航的作用??傮w而言,LOD中56. 11%的數(shù)據(jù)集至少和一個數(shù)據(jù)集建立了RDF鏈接。為便于分析數(shù)據(jù)集間的關(guān)聯(lián)情況,如果不同數(shù)據(jù)集的資源之間至少存在一個RDF鏈接,我們就認為這兩個數(shù)據(jù)集間建立了連接[8]。
3. 1 出版類中數(shù)據(jù)集的出入度
“度數(shù)”一詞來源于數(shù)學用語,就一個節(jié)點而言,靠近相鄰節(jié)點的頭部端點的數(shù)量稱為該節(jié)點的入度,靠近相鄰節(jié)點的尾部端點的數(shù)量稱為該節(jié)點的出度。針對關(guān)聯(lián)數(shù)據(jù)環(huán)境中的某一個數(shù)據(jù)集,入度是指LOD中指向該數(shù)據(jù)集的RDF鏈接數(shù),出度是指指向LOD中其他數(shù)據(jù)集的RDF鏈接數(shù)。度數(shù)能夠很好地反映整體連接情況,入度值反映了該數(shù)據(jù)集被其他數(shù)據(jù)集利用的重要程度,出度值反映了該數(shù)據(jù)集對其他數(shù)據(jù)集的需求程度[9]。數(shù)據(jù)集的出入度值越高,表明鏈接越緊密;反之,數(shù)據(jù)集的出入度值越低,表明鏈接越稀疏。在LOD入度排名前十的數(shù)據(jù)集類別中,出版類位于社交網(wǎng)絡類及跨領(lǐng)域類之后,排名第三。如圖1所示,出版類96個數(shù)據(jù)集中,入度值大于10(包含10)的數(shù)據(jù)集只有6個,占比6. 25%;其余數(shù)據(jù)集的入度值分布在0—10之間,占比93. 75%。而在社交網(wǎng)絡類的520個數(shù)據(jù)集中,入度值大于10(包含10)的數(shù)據(jù)集有63個,占比12. 12%;入度值在0—10之間有457個,占比87. 88%。與社交網(wǎng)絡類相比,出版類入度值在10以上的數(shù)據(jù)集所占比例較低,入度值在0—10之間的數(shù)據(jù)集所占比例較高。
圖1 出版類、社交網(wǎng)絡類數(shù)據(jù)集的入度分布情況
在LOD出度排名前十的數(shù)據(jù)集類別中,出版類僅次于社交網(wǎng)絡類,排名第二。如圖2所示,在出版類的96個數(shù)據(jù)集中,出度值在20以上的數(shù)據(jù)集只有2個,占比2. 08%;其余數(shù)據(jù)集出度值處在0—20之間,占比97. 92%。而在社交網(wǎng)絡類的520個數(shù)據(jù)集中,出度值大于20(包含20)的數(shù)據(jù)集有26個,占比5%;出度值在0—20之間的數(shù)據(jù)集有494個,占比95%。與社交網(wǎng)絡類相比,出版類出度值大于20的數(shù)據(jù)集比例較低,出度值在0—20之間的數(shù)據(jù)集比例較高。總體而言,除了社交網(wǎng)絡類,與LOD中其他類別相比,出版類出入度值較高,這表明出版類在整個LOD中占有重要的地位。但出版類中只有少量的數(shù)據(jù)集被高度鏈接,而大部分數(shù)據(jù)集只是稀疏鏈接,這也與LOD的整體連接情況相符。
圖2 出版類、社交網(wǎng)絡類數(shù)據(jù)集的出度分布情況
出版類數(shù)據(jù)集中出入度值較高的數(shù)據(jù)集如表5所示,可以看出,出度值最高的數(shù)據(jù)集是社會書簽共享系統(tǒng)(BibSonomy)[10],允許用戶添加標簽來提高數(shù)據(jù)訪問能力;語義網(wǎng)會議(data.semanticweb. org)提供語義網(wǎng)相關(guān)會議的數(shù)據(jù)(如論文、報告、人),其出入度值都高,表明語義網(wǎng)已受到許多機構(gòu)的關(guān)注。
表5 出版類中出入度值排名前十的數(shù)據(jù)集
3. 2 出版類中使用的連接謂詞
連接謂詞能夠?qū)㈩惡皖悺傩院蛯傩躁P(guān)聯(lián)起來?;趯ο笾g的關(guān)聯(lián)關(guān)系,計算機可以進行有效地推理,進而實現(xiàn)不同數(shù)據(jù)集間的語義關(guān)聯(lián)[11]。圖3列出了出版類資源使用RDF鏈接時用到頻率最高的3個連接謂詞,這與LOD整體連接謂詞使用情況相符。owl:sameAs是最常用的連接謂詞,表明“兩個URI引用實際上指向同一事物”[12]。由于在出版類中存在許多等價的URIs,因此使用owl:sameAs屬性能有效地實現(xiàn)數(shù)據(jù)的集成,有效地聚合指向同一事物對象的所有數(shù)據(jù)。dct:language定義了語言屬性,通過該屬性將不同語言的數(shù)據(jù)集建立關(guān)聯(lián),實現(xiàn)了跨語言的數(shù)據(jù)操作。rdfs:seeAlso表示對主題資源提供額外的信息,將圍繞某一對象的所有相關(guān)屬性建立鏈接,實現(xiàn)數(shù)據(jù)的集中展示[13]。
圖3 出版類中使用頻率最高的三個連接謂詞
3. 3 出版類中使用的詞匯表
關(guān)聯(lián)數(shù)據(jù)利用詞匯表的詞匯,須通過定義屬性及屬性值來體現(xiàn)其語義特征。如果詞表中的詞匯出現(xiàn)在數(shù)據(jù)集中三元組的謂語位置,或者出現(xiàn)在rdf:type三元組的賓語位置,則認為該詞表被數(shù)據(jù)集所用[5]。
3. 3. 1 常用詞表
關(guān)聯(lián)數(shù)據(jù)中,一些被廣泛使用的詞表有助于建立不同數(shù)據(jù)集間的聯(lián)系,實現(xiàn)數(shù)據(jù)的互操作。在LOD的1014個數(shù)據(jù)集中,超過5%的數(shù)據(jù)集都會用到常用詞表。其中foaf、rdfs、dcterms、owl等是許多主題領(lǐng)域的數(shù)據(jù)集最常用到的詞表。此外,存在這樣一種趨勢:越來越多的數(shù)據(jù)集開始使用常用詞表[14]。從表6可以看出,出版類經(jīng)常用到的詞表既有rdfs、owl等描述語言,也有dcterms、foaf、bibo等元數(shù)據(jù)詞表。其中,83%的數(shù)據(jù)集使用了都柏林核心詞表dcterms;用于描述人物、活動及其關(guān)系的foaf詞表也被76%的數(shù)據(jù)集使用;41. 67%的數(shù)據(jù)集使用了bibo書目本體,它提供了描述引文和書目參考文獻的主要概念和屬性。skos詞表及資源清單(resourcelist)用于創(chuàng)建大學讀物列表。
3. 3. 2 專有詞表的使用
由于常用詞表并不能提供在網(wǎng)上發(fā)布數(shù)據(jù)集完整內(nèi)容所需要的所有術(shù)語,因此還需要使用一些專有詞表。專有詞表是指僅被一個數(shù)據(jù)集使用的詞表[14]。需要注意的是,如果數(shù)據(jù)發(fā)布機構(gòu)使用專有詞表,那么這種詞表應在RDF模式或OWL定義下是可參引的。專有詞表術(shù)語定義了除常用詞表中術(shù)語之外的其它術(shù)語,應包含指向常用詞表的RDF鏈接,以便更容易地對其進行解釋。參引度是指詞表中可參引術(shù)語的數(shù)量占詞表中所有術(shù)語的數(shù)量比例[15]。其值分布在0—1之間,參引值為0代表不參引,值在0—1之間代表部分參引,值為1代表完全參引。其中,部分參引的原因可能是意外使用詞表中未定義術(shù)語或?qū)υ~表中已經(jīng)棄用的術(shù)語沒有做出恰當?shù)臉擞?。從圖4中可以看出,出版類共使用了54個專有詞表,其中有12個專有詞表的術(shù)語為完全參引,5個是部分參引,其余的均沒有參引能力。由此可見,在出版類使用的專有詞表中,它們的參引能力并不是很強,而根據(jù)上述描述可知,專有詞表術(shù)語在RDF模式或OWL定義下的可參引,有助于更準確地解釋詞表中的術(shù)語,便于知識聚合和發(fā)現(xiàn)。
表6 出版類中常用詞表使用情況
圖4 出版類專有詞表術(shù)語的參引能力
元數(shù)據(jù)是描述信息資源的特征和屬性的結(jié)構(gòu)化數(shù)據(jù)[16],可以深入地揭示資源,便于資源發(fā)現(xiàn)。關(guān)聯(lián)數(shù)據(jù)通過提供授權(quán)信息等元數(shù)據(jù),能夠確保數(shù)據(jù)自由共享,規(guī)范關(guān)聯(lián)數(shù)據(jù)陳述?;ヂ?lián)數(shù)據(jù)集詞表(VoID),是一個表達RDF數(shù)據(jù)集元數(shù)據(jù)信息的詞表,它提供了對整個數(shù)據(jù)集的描述,可以作為溝通數(shù)據(jù)發(fā)布機構(gòu)和用戶之間的橋梁[17]。VoID涵蓋的元數(shù)據(jù)內(nèi)容包括通用元數(shù)據(jù)、元數(shù)據(jù)存取、結(jié)構(gòu)化元數(shù)據(jù)、數(shù)據(jù)集間的連接等信息。
4. 1 數(shù)據(jù)集的VoID詞表獲取
每產(chǎn)生一個數(shù)據(jù)集,相應地就會產(chǎn)生一個VoID詞表。用戶通過其提供的元數(shù)據(jù)信息,可以在短時間內(nèi)定位到自己所需信息,實現(xiàn)高效檢索。因此,數(shù)據(jù)集的VoID詞表獲取至關(guān)重要。由于數(shù)據(jù)集是一個包含多個RDF文檔的集合,因此可以通過給定文檔的URI來獲得數(shù)據(jù)集的VoID描述[18],具體方式包括:通過使用thevoid:inDataset屬性將RDF文檔反向鏈接(back-link)到VoID詞表;通過在數(shù)據(jù)集的URI后添加/. well-known/void屬性來獲取數(shù)據(jù)集的VoID描述。出版類中有17個數(shù)據(jù)集通過VoID文件來提供數(shù)據(jù)集的元數(shù)據(jù)信息,其中,6個通過back-link、3個通過添加well-known(知名信息)的方式來獲取VoID詞表,見表7。
4. 2 VoID文件的內(nèi)容
4. 2. 1 通用元數(shù)據(jù)
通用元數(shù)據(jù)是指從各個數(shù)據(jù)集中抽取的各類元數(shù)據(jù)的共性要素,具備通用可擴展的特征,如包括數(shù)據(jù)集的標題及描述、授權(quán)、主題等信息,可以幫助數(shù)據(jù)集的潛在用戶決定是否使用該數(shù)據(jù)集來滿足其檢索需求,其通常遵循都柏林核心元數(shù)據(jù)標準。通常情況下,數(shù)據(jù)集的標題、描述等信息較為完備,但授權(quán)信息提供較少。出版類中,通過搜索三元組謂詞部分包含“l(fā)icense”或“right”的字符串,發(fā)現(xiàn)僅有4個數(shù)據(jù)集提供授權(quán)信息,見表7。數(shù)據(jù)發(fā)布機構(gòu)提供明確的授權(quán)信息,可以使用戶明確使用條件,同時提供人類和機器可讀的許可協(xié)議,允許數(shù)據(jù)的復制、傳播、修改和再創(chuàng)作,減少版權(quán)問題,使數(shù)據(jù)可以更自由地共享[19]。總體來說,出版類中提供授權(quán)信息的數(shù)據(jù)集相對較少,應積極鼓勵數(shù)據(jù)發(fā)布機構(gòu)提供授權(quán)數(shù)據(jù),為語義網(wǎng)的發(fā)展提供一個良好的知識共享平臺。
4. 2. 2 元數(shù)據(jù)存取方式
VoID詞表定義了獲取數(shù)據(jù)集RDF三元組的訪問方式,包括SPARQL端點、RDF數(shù)據(jù)轉(zhuǎn)儲等。RDF數(shù)據(jù)轉(zhuǎn)儲是指當數(shù)據(jù)集的內(nèi)容過大或需要很長時間壓縮時,通過創(chuàng)建一個僅包含數(shù)據(jù)集元數(shù)據(jù)的轉(zhuǎn)儲文件對數(shù)據(jù)集進行備份[17]。SPARQL端點通過使用void:sparqlEndpoint屬性來訪問元數(shù)據(jù)。在轉(zhuǎn)儲方法中,通過使用void:dataDump屬性將RDF轉(zhuǎn)儲文件與數(shù)據(jù)集建立關(guān)聯(lián)。出版類有3個數(shù)據(jù)集通過SPARQL端點、1個數(shù)據(jù)集通過RDF數(shù)據(jù)轉(zhuǎn)儲的方式訪問元數(shù)據(jù),見表7。
表7 出版類中使用VoID詞表提供的元數(shù)據(jù)信息
LOD在全球范圍內(nèi)實現(xiàn)語義網(wǎng)方面發(fā)揮著重要的作用,它促使人們發(fā)布用于連接和發(fā)現(xiàn)重要信息的數(shù)據(jù)集,并且將網(wǎng)絡精簡為一個單一的互聯(lián)化的數(shù)據(jù)空間,最大程度地開放數(shù)據(jù)資產(chǎn),促進數(shù)據(jù)關(guān)聯(lián)應用,挖掘數(shù)據(jù)的價值。由于目前我國對關(guān)聯(lián)數(shù)據(jù)云圖LOD的研究相對較少,本文通過從數(shù)據(jù)集歸類、關(guān)聯(lián)、詞表使用、元數(shù)據(jù)信息等方面對LOD中出版類數(shù)據(jù)集的基本情況進行了細致的解釋說明,以期為我國出版類數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化提供參考。然而,我們發(fā)現(xiàn),LOD中出版類數(shù)據(jù)集還并不完善,如數(shù)據(jù)集間關(guān)聯(lián)度不高、許多數(shù)據(jù)集的內(nèi)容無法開放獲取等,這也是
LOD云圖中其他類數(shù)據(jù)集共同存在的問題。鑒于此,研究者還需要圍繞此方面的問題做進一步討論。
參考文獻
1Schmachtenberg M,et al. State of the LOD Cloud 2014[EB/OL].[2015-06-18].http://linkeddatacatalog.dws.informatik.uni-mannheim. de/state/#toc0/.
2German National Library. CATALOGUE OF THE GERMAN NATIONAL LIBRARY[EB/OL].[2015 - 05 - 19]. http://www. dnb. de/SharedDocs/Downloads/EN/DNB/service/linkedDataModellierungTiteldaten.pdf.
3Selver Softic. COLINDA-Conference Link Data [EB/OL].[2015-03-10].http://datahub.io/dataset/colinda.
4Manchester Metropolitan University.Course reading lists[EB/OL].[2015-04-16].http://lists.lib. mmu.ac.uk/index.html.
5Library of Congress. Library of Congress Subject Headings[EB/OL].[2015-05-11].http://datahub.io/dataset/lcsh.
6Library of Congress. Library of Congress Online Catalog[EB/OL].[2015 - 05 - 22]. http://catalog.loc.gov/.
7Mika P,et al. The Semantic Web-ISWC 2014 [J].Lecture Notes in Computer Science,2014,8796:66-81.
8Bizer C,et al. Linked Data—The Story So Far [J]. International Journal on Semantic Web&Information Systems,2009,5(3):1-22.
9Rodriguez M A. A Graph Analysis of the Linked Data Cloud[J].Corr,2009(4):2-5.
10 BibSonomy Developer Team.A blue social bookmark and publication sharing system[EB/OL].[2015-05-30].http://www.bibsonomy.org/.
11Gottron T,et al. Analysis of schema structures in the Linked Open Data graph based on unique subject URIs,pay-level domains,and vocabulary usage[J].Distributed&Parallel Databases,2015 (4):515-520.
12 Bizer C,et al.How to publish Linked Data on the Web[EB/OL].[2015 - 04 - 08]. http://www4.wiwiss. fu - berlin. de/bizer/pub/Linked-DataTutorial/.
13Ricci F,et al. Linking Search Results,Bibliographical Ontologies and Linked Open Data Resources[J].Communication in Computer and Information Science,2013,390:62-65.
14肖瓏,趙亮.中文元數(shù)據(jù)概論與實例[M].北京:北京圖書館出版社,2007:32.
15沈志宏,等.OpenCSDB:關(guān)聯(lián)數(shù)據(jù)在科學數(shù)據(jù)庫中的應用研究[J].中國圖書館學報,2012 (5).
16歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架設計與實現(xiàn)[J].中國圖書館學報,2012(6).
17 W3C.Describing Linked Datasets with the VoID Vocabulary W3C Interest Group Note 03 March 2011[EB/OL].[2015-05-27].http://www. w3.org/TR/void/.
18 W3C. Cool URIs for the Semantic Web[EB/OL].[2015-06-12].http://www.w3.org/TR/2008/NOTE-cooluris-20081203/.
19 W3C.Resource Description Framework(RDF):Concepts and Abstract Syntax[EB/OL].[2015 -05-29].http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/.
(賈君枝 教授 山西大學經(jīng)濟與管理學院,寇蕾蕾 山西大學經(jīng)濟與管理學院情報學專業(yè)2014級碩士研究生)
The Characteristic Analysis of Publication Datasets in Linked Open Data Cloud
Jia Junzhi Kou Leilei
Abstract:As an important dataset of Linked Open Data(LOD)cloud, publication datasets have become an fastest-growing category after social web and government, and received a widespread attention. This paper aims at exploring foreign linked open data service mode and providing reference for the development of China's linked open data through deeply analyzing the best practices of publishing resources, such as published datasets, interlinking, usage of vocabulary, and adoption of metadata. 4 figs. 7 tabs. 19 refs.
Keywords:Publication;Dataset;Linked Open Data
收稿日期:2015-07-28