金國(guó)棟 范煒
(四川大學(xué)信息管理技術(shù)系,成都 610664)
卓越科學(xué)家數(shù)據(jù)語(yǔ)義關(guān)聯(lián)與搜索發(fā)現(xiàn)研究*
金國(guó)棟 范煒
(四川大學(xué)信息管理技術(shù)系,成都 610664)
以人物數(shù)據(jù)為中心,探索卓越科學(xué)家語(yǔ)義描述和關(guān)聯(lián)發(fā)現(xiàn)的技術(shù)實(shí)現(xiàn)路徑。利用Sesame對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理,發(fā)布語(yǔ)義數(shù)據(jù),實(shí)現(xiàn)圍繞卓越科學(xué)家的搜索發(fā)現(xiàn)。從學(xué)科領(lǐng)域、獎(jiǎng)項(xiàng)、組織機(jī)構(gòu)、科研成果、地理位置等多個(gè)維度挖掘卓越科學(xué)家的關(guān)聯(lián)信息,實(shí)現(xiàn)了卓越科學(xué)家數(shù)據(jù)的關(guān)鍵詞檢索,對(duì)外提供Web Service,通過人物中心節(jié)點(diǎn)圖和人物地圖可視化地顯示卓越科學(xué)家數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)。
卓越科學(xué)家;語(yǔ)義關(guān)聯(lián);搜索發(fā)現(xiàn)
當(dāng)今時(shí)代,科學(xué)呈現(xiàn)快速發(fā)展與學(xué)科交叉融合態(tài)勢(shì)。緊跟科學(xué)發(fā)展前沿和實(shí)踐科學(xué)發(fā)展觀需要強(qiáng)有力的信息資源基礎(chǔ)與服務(wù)手段。以學(xué)術(shù)人物為中心的資源關(guān)聯(lián)角度,能夠有效定位專家和參考權(quán)威成果,是信息資源管理支撐科學(xué)研究與社會(huì)管理事務(wù)的重要研究課題。劉俊婉(2010)[1]通過ISI Highly Cited(高被引科學(xué)家)數(shù)據(jù)庫(kù)完成對(duì)“杰出科學(xué)家”的識(shí)別,將“杰出科學(xué)家”限定為“ISI高被引科學(xué)家”的代名詞。另外,學(xué)術(shù)榮譽(yù)稱號(hào)也是科學(xué)家科研活動(dòng)的重要評(píng)價(jià)指標(biāo)。汪士(2013)[2]將中國(guó)科學(xué)院院士作為我國(guó)杰出科學(xué)家的典型群體。
所謂“卓越科學(xué)家”,即專業(yè)領(lǐng)域頂尖專家和學(xué)術(shù)精英,他們通常由不同科研領(lǐng)域內(nèi)的頂尖專家和學(xué)術(shù)精英構(gòu)成,具有權(quán)威話語(yǔ)權(quán),是學(xué)術(shù)共同體的領(lǐng)袖。卓越科學(xué)家數(shù)據(jù)是以卓越科學(xué)家為中心的相關(guān)數(shù)據(jù)的聚合,現(xiàn)階段網(wǎng)絡(luò)中卓越科學(xué)家數(shù)據(jù)相對(duì)分散,缺乏專門針對(duì)人物數(shù)據(jù)的發(fā)布平臺(tái),阻礙了共享和交換。
語(yǔ)義網(wǎng)的目標(biāo)是建立機(jī)器可讀可理解的數(shù)據(jù)網(wǎng)絡(luò)(Web of Data),在此基礎(chǔ)上實(shí)現(xiàn)語(yǔ)義推理。開放數(shù)據(jù)在公共信息服務(wù)領(lǐng)域有大量的應(yīng)用,在遵循一定協(xié)議和規(guī)則的前提下,能夠有效實(shí)現(xiàn)數(shù)據(jù)的互通與共享。這為圍繞卓越科學(xué)家的關(guān)聯(lián)發(fā)現(xiàn)提供了技術(shù)手段和數(shù)據(jù)基礎(chǔ)。
本文從人物數(shù)據(jù)關(guān)聯(lián)角度,探索語(yǔ)義描述、存儲(chǔ)、發(fā)布與搜索的資源應(yīng)用,以期促進(jìn)卓越科學(xué)家的關(guān)聯(lián)發(fā)現(xiàn)。
(1)人物描述
通用人物描述主要有Brickley D等人提出的FOAF(The friend of a friend Project)[3]、Google和Yahoo!發(fā)布的Schema.org[4]、DBpedia[5]的人物描述方案以及W3C規(guī)范中的vCard[6]。四者的對(duì)比情況見表1。
表1四種描述方案中,F(xiàn)OAF通過描述文檔之間的關(guān)聯(lián)構(gòu)建社交網(wǎng)絡(luò);Schema.org可以幫助搜索引擎更好地理解網(wǎng)頁(yè)內(nèi)容;DBpedia實(shí)現(xiàn)了對(duì)人物的百科全書式地描述;vCard則主要用于進(jìn)行個(gè)人信息的交換。
在特定人物描述模型的構(gòu)建方面,其中比較典型的有諾貝爾獎(jiǎng)(Nobel Prize)獲獎(jiǎng)?wù)吣P?。諾貝爾獎(jiǎng)官方網(wǎng)站[7]定義了諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)吣P停枋隽双@獎(jiǎng)?wù)叩男彰?、性別、出生時(shí)間及地點(diǎn)、死亡時(shí)間及地點(diǎn)、獲獎(jiǎng)學(xué)科、獲獎(jiǎng)年份、獲獎(jiǎng)原因、頒獎(jiǎng)時(shí)所在機(jī)構(gòu)以及研究領(lǐng)域等信息,突出表現(xiàn)獲獎(jiǎng)?wù)咴谒鶎兕I(lǐng)域內(nèi)的主要學(xué)術(shù)成就。
表1 人物資源描述方案比較
以上人物描述形式中,通用描述方案強(qiáng)調(diào)描述的廣度,能夠適用于大范圍的人群,特定描述模型強(qiáng)調(diào)描述的深度,著重體現(xiàn)某一類人群的突出特點(diǎn)。因此,在考慮人物描述的通用基礎(chǔ)之上,突出表現(xiàn)卓越科學(xué)家的學(xué)術(shù)特點(diǎn),豐富化和精準(zhǔn)化卓越科學(xué)家的描述。
(2)卓越科學(xué)家數(shù)據(jù)分布情況
DBpedia從Wikipedia的頁(yè)面中抽取多語(yǔ)種的結(jié)構(gòu)化數(shù)據(jù),與Freebase、GeoNames等其他數(shù)據(jù)集相連接,共描述了超過198,000個(gè)人物[8],包括物理、化學(xué)、計(jì)算機(jī)等眾多學(xué)科領(lǐng)域的卓越科學(xué)家。諾貝爾官方網(wǎng)站存儲(chǔ)了所有諾貝爾獎(jiǎng)獲獎(jiǎng)?wù)叩男畔ⅲ刂?013年共有876位獲獎(jiǎng)?wù)?。另外,其他著名?jiǎng)項(xiàng),如數(shù)學(xué)學(xué)科的菲爾茲獎(jiǎng)(Fields Medal,國(guó)際杰出數(shù)學(xué)發(fā)現(xiàn)獎(jiǎng))、計(jì)算機(jī)學(xué)科的圖靈獎(jiǎng)(A.M. Turing Award)等也不同程度地存儲(chǔ)了獲獎(jiǎng)?wù)叩男彰⒊錾?、死亡、科研機(jī)構(gòu)、教育背景和學(xué)術(shù)成就等信息,截至2013年,菲爾茲獎(jiǎng)共有52位獲獎(jiǎng)?wù)撸瑘D靈獎(jiǎng)共有60位獲獎(jiǎng)?wù)摺?/p>
DBpedia和諾貝爾官方網(wǎng)站均在人物的描述中引入了語(yǔ)義信息,并提供開放的數(shù)據(jù)接口,便于共享和交換。其中DBpedia的數(shù)據(jù)能以N-Triples或Turtle格式整體下載,也能通過SPARQL語(yǔ)句進(jìn)行查詢,諾貝爾官方網(wǎng)站提供了REST API和SPARQL Endpoint兩種數(shù)據(jù)獲取方式。菲爾茲獎(jiǎng)和圖靈獎(jiǎng)等其他著名獎(jiǎng)項(xiàng)的人物數(shù)據(jù)無(wú)開放的數(shù)據(jù)接口,需要手工搜集。
(3)找尋與發(fā)現(xiàn)手段
找尋卓越科學(xué)家相關(guān)信息,一般通過人物搜索和學(xué)術(shù)搜索兩種途徑。在人物搜索方面,微軟的人立方[9]是一個(gè)典型例子。人立方通過對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行自然語(yǔ)言處理,抓取出網(wǎng)頁(yè)中的人名,構(gòu)建人物數(shù)據(jù)庫(kù),形成人與人之間的關(guān)聯(lián),供用戶檢索和瀏覽。但由于數(shù)據(jù)來(lái)源于普通網(wǎng)頁(yè)內(nèi)容的抓取,數(shù)據(jù)內(nèi)容的質(zhì)量較低,結(jié)構(gòu)化程度不高,且學(xué)術(shù)性相關(guān)信息少。在學(xué)術(shù)搜索方面,谷歌學(xué)術(shù)搜索[10]和微軟學(xué)術(shù)搜索[11]的應(yīng)用十分廣泛。谷歌學(xué)術(shù)搜索收錄了論文、圖書、科技報(bào)告、文摘等多種學(xué)術(shù)資源,內(nèi)容涵蓋了自然、人文、社會(huì)等多種學(xué)科,同時(shí)支持中英文等多種語(yǔ)言的檢索[12],能讓用戶像使用通用搜索引擎一樣地使用學(xué)術(shù)搜索引擎,降低了檢索難度,很重要的一點(diǎn)是研究者可以利用谷歌學(xué)術(shù)搜索的“被引用次數(shù)”來(lái)查看某一篇文章的被引文獻(xiàn),從而可以追蹤不同研究者基于同一研究主題的相互引用關(guān)系[13]。但是谷歌學(xué)術(shù)搜索并未直觀地展示研究者之間的關(guān)系,且沒有開放數(shù)據(jù)調(diào)用的API。微軟學(xué)術(shù)搜索能可視化地展示研究者之間的合著和引文關(guān)系,可以查看以某研究者為中心形成的合著和引文關(guān)系節(jié)點(diǎn)圖。
(1) 人物關(guān)聯(lián)頂層設(shè)計(jì)
從通用的人物模型出發(fā),提取出與卓越科學(xué)家相關(guān)的基本描述屬性,并融合科研描述屬性,將卓越科學(xué)家與地理位置、組織機(jī)構(gòu)、科研成果、學(xué)科、獎(jiǎng)項(xiàng)等類進(jìn)行關(guān)聯(lián),構(gòu)建卓越科學(xué)家的人物關(guān)聯(lián)模型。
人既具有生物性,又具有社會(huì)性和精神性。社會(huì)性主要包括人的社會(huì)活動(dòng)和社會(huì)關(guān)系等,精神性主要包括人的精神狀態(tài)、心理活動(dòng)和思維活動(dòng)等。社會(huì)性和精神性最大程度地體現(xiàn)了卓越科學(xué)家與其他人物群體的不同,因此,本文從卓越科學(xué)家的社會(huì)性和精神性兩個(gè)層面切入,將其描述屬性分為基本屬性和關(guān)聯(lián)屬性。描述模型見圖1。
圖1 卓越科學(xué)家描述的金字塔模型
圖1基本屬性主要描述卓越科學(xué)家的基本特征,包括姓名、性別、肖像、出生時(shí)間和死亡時(shí)間等,通過基本屬性的描述,可以在大體上形成一個(gè)人物的形象;關(guān)聯(lián)屬性從地理位置、社會(huì)關(guān)系和科學(xué)研究的角度,描述了卓越科學(xué)家之間豐富的關(guān)聯(lián)信息,其中地理位置信息描述了人物從出生到死亡經(jīng)歷的重要的地理位置變化,社會(huì)關(guān)系從家庭、教育和工作三個(gè)角度關(guān)聯(lián)了人物的家庭成員、教育背景和相關(guān)組織機(jī)構(gòu),科學(xué)研究主要描述人物的研究領(lǐng)域、重要研究成果和所獲著名獎(jiǎng)項(xiàng)。上述兩大類的四種屬性對(duì)卓越科學(xué)家的描述力度呈遞增關(guān)系,基本屬性的描述力度最小,科學(xué)研究關(guān)聯(lián)屬性對(duì)卓越科學(xué)家的描述力度最大,即最能體現(xiàn)卓越科學(xué)家群體的特點(diǎn)。
(2)人物關(guān)聯(lián)定義
基于人物的屬性,人物之間的關(guān)聯(lián)可以相應(yīng)地分為直接關(guān)聯(lián)和基于中間關(guān)聯(lián)層的推理關(guān)聯(lián)兩種。直接關(guān)聯(lián)即兩個(gè)人物之間通過屬性直接產(chǎn)生聯(lián)系,如配偶關(guān)系;基于中間關(guān)聯(lián)層的推理關(guān)聯(lián)指兩個(gè)人物之間需要借助中間層進(jìn)行兩次或以上的直接關(guān)聯(lián),才能產(chǎn)生聯(lián)系,以人物A與人物B的校友關(guān)系為例,School(X,S)表示人物X是學(xué)校S的學(xué)生,Alumna(A,B)表示人物A和人物B是校友,則(S)[School(A,S) School(B,S)]→Alumna(A,B),該關(guān)系需要通過學(xué)校作為中間層經(jīng)過兩次關(guān)聯(lián)推理得到。
本文基于人物之間的中間關(guān)聯(lián)層進(jìn)行推理關(guān)聯(lián),結(jié)合已建立的人物類,在人物關(guān)聯(lián)模型的中間關(guān)聯(lián)層中融入了地理位置、組織機(jī)構(gòu)、學(xué)科、獎(jiǎng)項(xiàng)、科研成果等五個(gè)中間類。其中,人物的地理位置信息包括出生地點(diǎn)、死亡地點(diǎn)、受教育地點(diǎn)、國(guó)籍等;組織機(jī)構(gòu)信息包括所在教育機(jī)構(gòu)和研究機(jī)構(gòu)的信息;獎(jiǎng)項(xiàng)信息主要描述人物在所處研究領(lǐng)域獲得的著名國(guó)際獎(jiǎng)項(xiàng);學(xué)科信息主要為人物研究領(lǐng)域的相關(guān)信息;科研成果信息主要描述人物的重要科研成就。對(duì)這些信息進(jìn)行描述,一方面有助于加強(qiáng)對(duì)人物進(jìn)行多維度的揭示,如地理位置信息有助于對(duì)人物群體按地點(diǎn)進(jìn)行關(guān)聯(lián)分析,學(xué)科、獎(jiǎng)項(xiàng)和科研成果有助于了解人物的研究領(lǐng)域,發(fā)掘人物之間在科學(xué)研究方面的合作關(guān)系。另一方面,可以挖掘出人物之間眾多的隱性關(guān)聯(lián)。人物中間關(guān)聯(lián)層模型如圖2所示。
圖2 人物中間關(guān)聯(lián)層模型
圖2共有12個(gè)類,其中科研成果類派生出論文、著作和專利三個(gè)子類,組織機(jī)構(gòu)類派生出教育機(jī)構(gòu)和科研機(jī)構(gòu)兩個(gè)子類。卓越科學(xué)家類通過人物的出生地點(diǎn)、教育背景和所獲獎(jiǎng)項(xiàng)分別與地理位置、教育機(jī)構(gòu)和獎(jiǎng)項(xiàng)類產(chǎn)生關(guān)聯(lián),圖中以虛線表示;組織機(jī)構(gòu)通過所在地與地理位置類關(guān)聯(lián),科研成果類根據(jù)論文、著作、專利等的所屬機(jī)構(gòu)與科研機(jī)構(gòu)關(guān)聯(lián),同時(shí)根據(jù)其所屬學(xué)科與學(xué)科類關(guān)聯(lián),獎(jiǎng)項(xiàng)類通過獲獎(jiǎng)原因與科研成果類關(guān)聯(lián),圖中以實(shí)線表示。
基于以上分析,人物之間的關(guān)系分為直接和間接兩類,共有七種。直接關(guān)系為家庭成員關(guān)系,卓越科學(xué)家之間的家庭成員一般有科研合作關(guān)系或處于相同科研領(lǐng)域;間接關(guān)系為相同的出生或死亡地點(diǎn)(相同地理位置)、校友(相同教育機(jī)構(gòu))、同事(相同科研機(jī)構(gòu))、共同研究領(lǐng)域(相同領(lǐng)域)、獎(jiǎng)項(xiàng)共享(相同獎(jiǎng)項(xiàng))以及科研合作(相同科研成果)等六種。
人物之間形成的關(guān)系網(wǎng)絡(luò)圖為有向圖G=(P,R),其中P表示圖中的節(jié)點(diǎn),即人物,R表示圖中的邊,即人物間的關(guān)系。則人物Pi與Pj之間的上述七種關(guān)系可以對(duì)應(yīng)分別表示為若Pi與Pj之間的第k種關(guān)系存在,則為1,否則為0。根據(jù)不同關(guān)系所基于的屬性的描述力度不同,為上述關(guān)系設(shè)置不同的權(quán)重值,分別為0.2,0.05,0.075,0.1,0.15,0.2,0.225。因此,人物Pi與Pj之間的屬性關(guān)聯(lián)值可定義為:
其中,ak為第k種關(guān)系所占權(quán)重。
本文設(shè)計(jì)的關(guān)聯(lián)發(fā)現(xiàn)系統(tǒng)主要由卓越科學(xué)家數(shù)據(jù)采集、語(yǔ)義存儲(chǔ)管理、語(yǔ)義發(fā)布與搜索等功能模塊組成,提供關(guān)鍵詞檢索、基于圖的人物關(guān)系可視化以及Web Service調(diào)用。系統(tǒng)技術(shù)架構(gòu)如圖3所示。
4.1 數(shù)據(jù)采集與預(yù)處理
(1)數(shù)據(jù)范圍
圖3 系統(tǒng)技術(shù)架構(gòu)圖
表2 人物數(shù)據(jù)范圍列表
為了更好地獲取數(shù)據(jù)和展示關(guān)聯(lián),以學(xué)科作為數(shù)據(jù)選擇的切入點(diǎn),選取物理、化學(xué)、生物醫(yī)學(xué)、數(shù)學(xué)、電氣電子工程學(xué)等自然科學(xué)領(lǐng)域的卓越科學(xué)家作為研究對(duì)象。獲得學(xué)科領(lǐng)域內(nèi)著名獎(jiǎng)項(xiàng)的科學(xué)家在一定程度上可以作為該學(xué)科領(lǐng)域內(nèi)卓越科學(xué)家的代表。因此,本文選取獲得諾貝爾科學(xué)獎(jiǎng)、菲爾茲獎(jiǎng)、沃爾夫數(shù)學(xué)獎(jiǎng)(Wolf Prize in Mathematics)、圖靈獎(jiǎng)和IEEE榮譽(yù)獎(jiǎng)?wù)碌茸匀豢茖W(xué)領(lǐng)域著名獎(jiǎng)項(xiàng)的797位卓越科學(xué)家構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,其中部分科學(xué)家獲得兩項(xiàng)及以上獎(jiǎng)項(xiàng)。
如表2所示,實(shí)驗(yàn)數(shù)據(jù)集中每個(gè)人物形成一條記錄,每條記錄設(shè)置firstName、lastName、birthDate、deathDate、birthCity、deathCity、gender、education、award、familyMember、img、nationality等12個(gè)描述字段,分別描述卓越科學(xué)家的名、姓、出生日期、死亡日期、出生地點(diǎn)、死亡地點(diǎn)、性別、教育背景、所獲獎(jiǎng)項(xiàng)、家庭成員、肖像、國(guó)籍等信息。
(2)數(shù)據(jù)采集說明
實(shí)驗(yàn)數(shù)據(jù)集通過以下方式得到:
· 諾貝爾獎(jiǎng)官方網(wǎng)站的開放數(shù)據(jù)描述了獲獎(jiǎng)?wù)叩男彰?、出生、死亡、獲獎(jiǎng)時(shí)所在機(jī)構(gòu)、獲獎(jiǎng)學(xué)科、獲獎(jiǎng)時(shí)間和獲獎(jiǎng)原因等信息,可以通過兩種方式訪問,一種是通過REST API,返回CSV或JSON文件,另一種是通過SPARQL Endpoint查詢返回RDF格式的結(jié)果。本文采用第二種方式獲得諾貝爾科學(xué)獎(jiǎng)的全部人物數(shù)據(jù),導(dǎo)出為RDF/XML格式存儲(chǔ)于本地。
· 通過DBpedia的SPARQL Endpoint構(gòu)造SPARQL語(yǔ)句,查詢所有獲獎(jiǎng)?wù)叩男彰?、出生時(shí)間及地點(diǎn)、死亡時(shí)間及地點(diǎn)、性別、機(jī)構(gòu)、肖像、國(guó)籍等信息,以JSON格式返回,獲獎(jiǎng)?wù)咝畔椽?jiǎng)項(xiàng)進(jìn)行分類,每個(gè)獎(jiǎng)項(xiàng)以一份JSON文件的形式單獨(dú)存儲(chǔ)于本地,共采集到七個(gè)獎(jiǎng)項(xiàng)共600余條人物信息。
· 調(diào)用GeoNames的Web Service API,獲得人物相關(guān)地區(qū)的經(jīng)緯度及行政區(qū)域劃分?jǐn)?shù)據(jù),返回JSON文件。
· 人工輔助采集。卓越科學(xué)家的部分信息,如科研成果和部分地理位置信息等需要通過搜索引擎在WWW中人工采集,采集結(jié)果以CSV格式存儲(chǔ)于本地,其中科研成果信息選取能代表科學(xué)家獲獎(jiǎng)原因的被引率最高的一篇論文、一本著作或一項(xiàng)專利,得到824條記錄。
(3)數(shù)據(jù)預(yù)處理
由于采集到的原始數(shù)據(jù)來(lái)源多樣,格式不統(tǒng)一,在進(jìn)行存儲(chǔ)之前,有必要對(duì)其進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理分以下三步進(jìn)行:
· 完整性檢查。對(duì)數(shù)據(jù)完整性的檢查分為兩個(gè)方面:第一是否采集了數(shù)據(jù)范圍內(nèi)的所有人物的信息;第二是每個(gè)人物的每個(gè)字段是否都有描述信息。本文的實(shí)際采集情況是第一種全部采集完整,而第二種存在部分不完整。
· 一致性檢查。對(duì)數(shù)據(jù)中的日期、組織機(jī)構(gòu)名稱、空值等進(jìn)行一致性的檢查。原始數(shù)據(jù)中日期格式有“MM-DD-YYYY”、“YYYYMMDD”等多種,均轉(zhuǎn)化為“YYYY-MM-DD”格式;原始數(shù)據(jù)中組織機(jī)構(gòu)名稱有簡(jiǎn)稱與全稱兩種形式,均轉(zhuǎn)化為簡(jiǎn)稱;原始數(shù)據(jù)字段中的空值有“NULL”、“None”以及空字符串等多種形式,為了方便處理,本文中將日期字段的空值設(shè)為“1111-11-11”,其余字段的空值設(shè)為“NULL”。
· 數(shù)據(jù)合成。不同采集來(lái)源的原始數(shù)據(jù)之間存在大量的重合,為了進(jìn)一步減少數(shù)據(jù)集的冗余,優(yōu)化系統(tǒng)的查詢結(jié)果,本文對(duì)不同來(lái)源同一對(duì)象的描述信息進(jìn)行合成,按照六個(gè)類分別存儲(chǔ)為6份本地JSON文件。
4.2 語(yǔ)義數(shù)據(jù)存儲(chǔ)與發(fā)布
(1)語(yǔ)義描述
按照關(guān)聯(lián)數(shù)據(jù)發(fā)布的流程[14],采集得到的JSON數(shù)據(jù)需要添加語(yǔ)義描述,轉(zhuǎn)化為語(yǔ)義數(shù)據(jù),再進(jìn)行存儲(chǔ)和發(fā)布。添加語(yǔ)義描述的步驟如下:
· 設(shè)定http://www.excellentscientists.org為語(yǔ)義數(shù)據(jù)的基礎(chǔ)URI;
· 選擇詞匯表。為增強(qiáng)數(shù)據(jù)的互操作性,在JSON數(shù)據(jù)的描述字段的基礎(chǔ)上融入了FOAF、RDF、RDFS、OWL等的部分描述詞匯;
· 添加內(nèi)部鏈接和外部鏈接。添加本地文件中類之間的關(guān)系鏈接,以及與GeoNames、DBpedia和Nobelprize官網(wǎng)等的鏈接。
通過上述步驟將JSON文件轉(zhuǎn)化為RDF文件,以Turtle格式存儲(chǔ)。以對(duì)居里夫人(Marie Curie)及其所獲獎(jiǎng)項(xiàng)和科研成果的描述為例,如圖4所示。圖中(1)描述了居里夫人的姓名、出生時(shí)間及地點(diǎn)、死亡時(shí)間及地點(diǎn)、獲得獎(jiǎng)項(xiàng)、家庭成員等人物信息,利用owl: sameAs與foaf:page鏈接至DBpedia,利用scientist: birthCity與scientist:deathCity鏈接至Geonames,并與獎(jiǎng)項(xiàng)(prize)、科研成果(achievement)、組織機(jī)構(gòu)(organization)等類形成關(guān)聯(lián)。(2)對(duì)1903年的諾貝爾物理學(xué)獎(jiǎng)進(jìn)行了描述,包括獲獎(jiǎng)時(shí)間、獲獎(jiǎng)?wù)?、獲獎(jiǎng)原因等,通過prize:title鏈接至諾貝爾官網(wǎng),同時(shí)與科研成果類形成關(guān)聯(lián)。(3)中描述了科研成果信息,包括類別、作者、領(lǐng)域以及相關(guān)組織機(jī)構(gòu)等,與學(xué)科類和組織機(jī)構(gòu)類關(guān)聯(lián)。
(2)語(yǔ)義數(shù)據(jù)存儲(chǔ)
常見R DF文件的存儲(chǔ)管理方案有Jena[15]、Sesame[16]和4Store[17]等,其中,Sesame最早作為On-To-Knowledge項(xiàng)目的一部分,由荷蘭公司Aduna開發(fā),后推出開源版本。本文在比較之后,選擇Sesame作為存儲(chǔ)方案,主要出于以下三個(gè)方面的考慮:Sesame由Java語(yǔ)言編寫實(shí)現(xiàn),具有良好的跨平臺(tái)性;在RDF數(shù)據(jù)的導(dǎo)入和查詢的速度方面,Sesame有不錯(cuò)的表現(xiàn)[18];Sesame除了可以作為Java類庫(kù)本地調(diào)用以外,還可以利用其內(nèi)嵌的HTTP Server封裝為一個(gè)獨(dú)立的系統(tǒng),通過客戶端程序遠(yuǎn)程調(diào)用,能夠滿足本地存儲(chǔ)管理與遠(yuǎn)程查詢的需求。
本文主要調(diào)用Sesame中的RDF Model API、Rio API和Repository API創(chuàng)建RDF存儲(chǔ)查詢系統(tǒng),并建立spoc、posc、cosp三種索引,以提高檢索效率。首先利用Model API和Repository API創(chuàng)建一個(gè)本地存儲(chǔ)庫(kù),添加索引,然后利用RepositoryConnection接口連接本地存儲(chǔ)庫(kù),導(dǎo)入上文中轉(zhuǎn)化的RDF文件,再利用Query Engines實(shí)現(xiàn)SPARQL語(yǔ)句查詢模塊,最后調(diào)用Rio API將查詢返回結(jié)果封裝為JSON、XML及RDF格式等,導(dǎo)出查詢結(jié)果。
(3)語(yǔ)義數(shù)據(jù)發(fā)布
系統(tǒng)在存儲(chǔ)的基礎(chǔ)上實(shí)現(xiàn)了SPARQL Endpoint。在Endpoint中,用戶可以輸入SPARQL語(yǔ)言進(jìn)行查詢,查詢語(yǔ)句通過HTTP協(xié)議傳送至語(yǔ)義存儲(chǔ)模塊,該模塊執(zhí)行查詢操作后將結(jié)果返回Endpoint,最后將結(jié)果以HTML形式顯示在瀏覽器頁(yè)面上。查詢結(jié)果可以導(dǎo)出為XML、JSON以及常見RDF格式文件。以對(duì)居里夫人的獲獎(jiǎng)情況和研究領(lǐng)域的檢索為例,設(shè)計(jì)檢索語(yǔ)句如下:
SELECT ?field ?prizeTitle ?prizeYear
WHERE { ?id data:firstname ‘Marie’; data: lastname ‘Cruie’;
scientist:prize ?prize; ?prize prize:title ?prizeTitle ;
?prize prize:year ?prizeYear; ?prize:achiv ?achievement ;
?achievement achievement:field ?field . }
系統(tǒng)還設(shè)計(jì)了REST API訪問方法,方便開發(fā)者獲取系統(tǒng)中的人物數(shù)據(jù),結(jié)果以XML格式返回。上述檢索語(yǔ)句可以轉(zhuǎn)化為以下的REST請(qǐng)求:
圖4 語(yǔ)義描述示例(Marie Curie)
htt p://localhost:8080/open rdf-sesame/ repositories/scientist?query=select+?field+?prizeT itle+?prizeYear+where+%7B?id+data:firstname+’Marie’…etc…
4.3 基于關(guān)系的搜索發(fā)現(xiàn)
(1)關(guān)系計(jì)算
人物之間的相關(guān)度是對(duì)相鄰人物之間親疏程度的直接描述,對(duì)其進(jìn)行定量計(jì)算有助于我們更好地分析人物之間的關(guān)系。
人物網(wǎng)絡(luò)圖中,相鄰人物Pi與Pj之間的相關(guān)度大小不僅同Pi與Pj間的屬性關(guān)聯(lián)有關(guān),還與Pi、Pj的共同相關(guān)人物,即朋友的朋友關(guān)聯(lián)有關(guān)。計(jì)算思路如下:
· 找出圖中Pi與Pj之間所有無(wú)重復(fù)節(jié)點(diǎn)的路徑lij,并計(jì)算每條路徑中除去Pi、Pj的節(jié)點(diǎn)個(gè)數(shù)m,記為該路徑的度(m≥0) ;
· 計(jì)算所有度為m的lij的長(zhǎng)度,即路徑所有相鄰人物Pi與Pj間關(guān)系大小rij的乘積,并求出每個(gè)m值下的最大值
主要計(jì)算公式如下:
基于Sesame存儲(chǔ)的人物語(yǔ)義數(shù)據(jù),構(gòu)建人物之間七種關(guān)系的查詢語(yǔ)句,找出每個(gè)人物的相鄰人物,即人物網(wǎng)絡(luò)中的相鄰節(jié)點(diǎn),將其轉(zhuǎn)化為鄰接表。計(jì)算每?jī)蓚€(gè)人物之間的屬性關(guān)聯(lián)值,將結(jié)果存儲(chǔ)于N×N的相關(guān)度矩陣中(N為人物數(shù)目,實(shí)驗(yàn)數(shù)據(jù)集為797)。以居里夫人(Marie Curie)為例,與其相關(guān)度值最高的8位科學(xué)家的計(jì)算結(jié)果如表3所示,其中Pierre Curie、Irène Joliot-Curie、Frédéric Joliot與居里夫人均有家庭成員關(guān)系,Antoine Becquerel、Pierre Curie與居里夫人之間存在科研合作關(guān)系。
(2)關(guān)鍵詞檢索
用戶可以輸入人名關(guān)鍵詞對(duì)人物進(jìn)行檢索。關(guān)鍵詞檢索模塊將用戶輸入的文本信息包裝成相應(yīng)的SPARQL查詢語(yǔ)句,通過HTTP協(xié)議對(duì)Sesame模塊進(jìn)行遠(yuǎn)程檢索,Sesame模塊將查詢結(jié)果以JSON格式返回,關(guān)鍵詞檢索模塊再對(duì)JSON結(jié)果數(shù)據(jù)進(jìn)行解析,并依據(jù)上文計(jì)算的相關(guān)度值,對(duì)結(jié)果進(jìn)行排名,相關(guān)度越高則排名越靠前,最后以文本形式返回給用戶。以對(duì)居里夫人(Marie Curie)的檢索為例,檢索結(jié)果如圖5所示,共檢索到43位相關(guān)人物,排名前兩位的為相關(guān)度值最高的Pierre Curie和次之的Irène Joliot-Curie。
(3)基于Graph的關(guān)聯(lián)發(fā)現(xiàn)
為更好地展示關(guān)聯(lián)發(fā)現(xiàn)的結(jié)果,在基于Graph的關(guān)聯(lián)發(fā)現(xiàn)模塊中將檢索出的底層關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)化為JSON格式,調(diào)用d3.js[19]類庫(kù),以動(dòng)態(tài)的中心節(jié)點(diǎn)圖的形式展示人物關(guān)聯(lián)。
動(dòng)態(tài)的中心節(jié)點(diǎn)圖展示了以某人物為中心關(guān)聯(lián)發(fā)現(xiàn)的結(jié)果,在關(guān)鍵詞檢索結(jié)果中點(diǎn)擊View Graph查看相應(yīng)人物的中心節(jié)點(diǎn)圖。圖中人物節(jié)點(diǎn)間連線的粗細(xì)對(duì)應(yīng)人物之間的相關(guān)度值。以居里夫人(Marie Curie)為例,JSON數(shù)據(jù)片段如圖6所示,圖中nodes中存儲(chǔ)了人物的姓名、肖像和學(xué)科信息,links中存儲(chǔ)了人物之間的關(guān)聯(lián)信息。檢索結(jié)果如圖7所示,圖中不同學(xué)科的人物名稱以不同的顏色標(biāo)注。從圖中可以看出,物理、化學(xué)、生物醫(yī)學(xué)和數(shù)學(xué)領(lǐng)域的43位科學(xué)家與居里夫人(Marie Curie)形成了關(guān)聯(lián)。
表3 關(guān)系計(jì)算結(jié)果示例
圖5 基礎(chǔ)檢索示例(Marie Curie)
圖6 中心節(jié)點(diǎn)圖JSON數(shù)據(jù)片段
(4)基于地圖的關(guān)聯(lián)發(fā)現(xiàn)
圖7 中心節(jié)點(diǎn)圖示例(Marie Curie)
圖8 人物地圖JSON數(shù)據(jù)片段
圖9 人物地圖示例(France)
地圖從地理位置信息的角度展示了人物之間的聚集關(guān)系,在基于地圖的關(guān)聯(lián)發(fā)現(xiàn)模塊中,以地理位置為查詢關(guān)鍵詞構(gòu)建SPARQL語(yǔ)句,利用已采集的人物數(shù)據(jù)和地理位置數(shù)據(jù),關(guān)聯(lián)查詢與某地理位置相關(guān)人物的姓名、出生地點(diǎn)、頭像和出生地點(diǎn)經(jīng)緯度信息,返回JSON數(shù)據(jù),再利用可視化工具Exhibit[20]繪制人物地圖,可在關(guān)鍵詞檢索結(jié)果中點(diǎn)擊View Map查看。以出生地為法國(guó)(France)的卓越科學(xué)家為例,JSON數(shù)據(jù)片段如圖8所示,items中l(wèi)abel字段存儲(chǔ)人物姓名,birthCity字段存儲(chǔ)出生地點(diǎn),imageURL字段存儲(chǔ)頭像的URL,almLoc字段存儲(chǔ)經(jīng)緯度信息。繪制出人物地圖如圖9所示,地圖中共聚集了37位卓越科學(xué)家。
本文從學(xué)科領(lǐng)域、獎(jiǎng)項(xiàng)、組織機(jī)構(gòu)、科研成果、地理位置等多個(gè)維度挖掘卓越科學(xué)家的關(guān)聯(lián)信息,構(gòu)建了人物關(guān)聯(lián)模型,利用Sesame存儲(chǔ)人物語(yǔ)義數(shù)據(jù),對(duì)外提供關(guān)鍵詞檢索和Web Service,并融入可視化技術(shù)展示關(guān)聯(lián)發(fā)現(xiàn)圖,促進(jìn)卓越科學(xué)家之間的關(guān)聯(lián)發(fā)現(xiàn)。由于實(shí)驗(yàn)中數(shù)據(jù)集較小,選取的人物關(guān)系數(shù)量較少,影響了人物之間關(guān)聯(lián)的發(fā)掘和關(guān)聯(lián)度的計(jì)算。因此,在后續(xù)研究中將增強(qiáng)系統(tǒng)數(shù)據(jù)的開放性,鼓勵(lì)用戶貢獻(xiàn)數(shù)據(jù),并進(jìn)一步增加關(guān)系維度,實(shí)現(xiàn)更加豐富且準(zhǔn)確的關(guān)聯(lián)發(fā)現(xiàn)。
[1]劉俊婉.杰出科學(xué)家論文影響力的社會(huì)年齡分析[J].情報(bào)學(xué)報(bào),2010,29(1):121-127.
[2]汪士.中外杰出科學(xué)家行政任職差異及其影響[J].科技進(jìn)步與對(duì)策,2013,30(6):134-138.
[3]FOAF [EB/OL]. [2013-12-08]. http://www.foaf-project.org.
[4]Schema.org [EB/OL]. [2013-12-08]. http://schema.org.
[5]DBpedia [EB/OL]. [2013-12-08]. http://dbpedia.org.
[6]vCard [EB/OL]. [2013-12-08]. http://www.w3.org/Submission/2010/ SUBM-vcard-rdf-20100120.
[7]諾貝爾官方網(wǎng)站[EB/OL]. [2013-12-08]. http://nobelprize.org.
[8]BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia - A crystallization point for the Web of Data [J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2009, 7(3): 154-165.
[9]人立方[EB/OL]. [2013-12-08]. http://renlifang.msra.cn.
[10]谷歌學(xué)術(shù)搜索[EB/OL]. [2013-12-08]. http://scholar.google.com.
[11]微軟學(xué)術(shù)搜索[EB/OL]. [2013-12-08]. http://academic. research.microsoft.com.
[12]陳國(guó)華,湯庸,彭澤武,等.基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2011,38(8):171-175.
[13]NORUZI A. Google Scholar: The new generation of citation indexes [J]. Libri, 2005, 55(4): 170-180.
[14]HEATH T, BIZER C. Linked data: Evolving the web into a global data space [J]. Synthesis lectures on the semantic web: theory and technology, 2011, 1(1): 1-136.
[15]Jena [EB/OL]. [2013-12-08]. http://jena.apache.org.
[16]Sesame [EB/OL]. [2013-12-08]. http://www.openrdf.org.
[17]4Store [EB/OL]. [2013-12-08]. http://4store.org.
[18]HASLHOFER B, MOMENI R E, SCHANDL B, et al. Europeana RDF store report [J]. 2011.
[19]d3.js [EB/OL]. [2013-12-08]. http://d3js.org.
[20]Exhibit [EB/OL]. [2013-12-08]. http://www.simile-widgets. org/exhibit/.
金國(guó)棟,男,四川大學(xué)公共管理學(xué)院信息管理技術(shù)系本科生。
范煒,男,1981年生,管理學(xué)博士,四川大學(xué)公共管理學(xué)院信息管理技術(shù)系講師,研究方向:信息組織與信息檢索。通訊作者,E-mail: fanwscu@163.com。
Semantic Association, Searching and Discovering for Excellent Scientists Data
JIN GuoDong FAN Wei
(Department of Information Management Technology, School of Public Administration, Sichuan University, Chengdu 610064, China)
Centered on person data, this paper explores a technical route of semantic description and linkage discovery for excellent scientists. Based on a semantic data model of excellent scientists, we add semantic annotations, and manage the semantic data with Sesame. Then, we discover the linkage of excellent scientists by their discipline areas, awards, organizations, scienti fi c research achievements and geographical locations. Finally, We provide web services through keywords retrieval and map their semantic associations.
Excellent scientists; Semantic association; Searching and discovering
G254
10.3772/j.issn.1673—2286.2014.04.004
2014-04-01)
*本研究得到四川大學(xué)中央高?;A(chǔ)科研業(yè)務(wù)經(jīng)費(fèi)項(xiàng)目“關(guān)聯(lián)數(shù)據(jù)集描述與發(fā)現(xiàn)服務(wù)研究”(編號(hào):skq201204)和四川大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“可視化語(yǔ)義搜索引擎——以卓越科學(xué)家搜索為例”(編號(hào):20130564)資助。