周湘超++詹磊++吳慶++陳義明
摘要:該文在深入分析專家信息的基礎(chǔ)上,抽象出專家實體、屬性以及它們之間的相互關(guān)系,構(gòu)建出專家知識圖譜。運用RDF(Resource Description Framework)2三元組實現(xiàn)對專家知識圖譜描述和構(gòu)建,并實現(xiàn)通過SPARQL(Simple Protocol and RDF Query Language)3語言進行查詢。專家知識圖譜的構(gòu)建,對專家知識、智慧的延伸和專家影響力的擴展具有重大的意義。
關(guān)鍵詞:專家;知識圖譜;RDF;SPARQL
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)07-0195-03
目前,隨著“微軟小冰”與“小度機器人”等人機對話系統(tǒng)的崛起,基于大數(shù)據(jù)構(gòu)建知識圖譜,成為當前研究的熱點。在信息化技術(shù)高速發(fā)展的時代,各個領(lǐng)域?qū)<业难芯砍晒?、學術(shù)觀點、言論、工作動態(tài)等信息都一定會體現(xiàn)在學術(shù)論文、期刊文獻、專利數(shù)據(jù)庫、網(wǎng)絡(luò)媒體、社交平臺(微信、微博、博客、論壇)等載體上。通過對這些信息的采集、過濾、挖掘,分析出各個專家實體、屬性之間的關(guān)系,構(gòu)建出含有專家信息的知識模型庫,可以使得專家們在互聯(lián)網(wǎng)上虛擬存在,實現(xiàn)對專家知識、智慧和影響力的延伸?;谥R圖譜構(gòu)建專家機器人,能夠方便人們更好的查找到某一主題或領(lǐng)域中的各類專家;通過機器人理解、分析并查找相關(guān)問題,便可以實現(xiàn)對專家的推薦,擴大專家的影響力。
1 知識圖譜簡介
知識圖譜是描述現(xiàn)實世界實體之間的關(guān)系的圖4,是“圖”和“譜”雙重特性的體現(xiàn)5,其概念最先由谷歌提出6。如果將知識圖譜比作有一張巨大點線關(guān)系圖,那么圖中的點就代表這每個實體,而實體之間若存在連線,則表示兩個實體存在著相應(yīng)的關(guān)系。現(xiàn)在,各大互聯(lián)網(wǎng)公司均建立了自己知識圖譜,其目的主要是為了提高搜索質(zhì)量2。截至2012年,谷歌為了保障強大的搜索,Google語義網(wǎng)絡(luò)已超過570億個對象、18億個介紹6;但在這些實體和事實中,英語占絕對主導地位。與此同時,百度和搜狗也建立了中文知識圖譜,其規(guī)模比谷歌略小。
2 專家知識圖譜建模
本系統(tǒng)通過對專家知識圖譜的構(gòu)建,以圖的形式更簡潔、直觀地表達專家關(guān)聯(lián)信息,提升用戶對專家信息的搜索效率。本系統(tǒng)的研究內(nèi)容有知識的獲取、知識圖譜的構(gòu)建、系統(tǒng)模型的建立、專家信息關(guān)聯(lián)與檢索、專家智能推薦、專家機器人的動態(tài)維護等;
知識獲?。褐R圖譜構(gòu)建的前提;主要包含各類專家的基本信息,主要包含專家基本信息,專利信息,文獻信息,項目信息,報道信息。目前知識的主要來源于各類百科類數(shù)據(jù),如百度百科,維基百科等;
知識圖譜構(gòu)建:這是本系統(tǒng)核心部分,專家知識圖譜的構(gòu)建,首先從專家、專利等實體以
及屬性之間關(guān)系的抽象開始。根據(jù)專家的屬性分析和專家與專家之間的關(guān)系分析,基本確定本系統(tǒng)的模式圖形如圖1所示,專家是文獻,專利,情報,項目的主體部分,而專家又屬于文獻,專利,情報,項目的一部分,各個專家之間存在著同事,合作等等關(guān)系,建立每個專家之間的關(guān)系就能構(gòu)建一個專家圖譜網(wǎng)絡(luò)。例如關(guān)系模型圖,專家作為一個實體,專利也是一個實體,專家擁有這項專利,專利的擁有者是這個專家,專利這個實體也擁有自己的屬性,例如專利擁有作者,內(nèi)容,機構(gòu),時間等等屬性值。專家與專家之間也存在多種關(guān)系,其關(guān)系圖如圖2所示。例如一篇文獻上面的作者屬性是專家1,專家2,那么他屬于合作關(guān)系;如果專家1和專家2的基本信息中的機構(gòu)名稱是一樣的,那他們就是同事關(guān)系;如果兩篇專利的課題一樣的那么他們的著作人即專家1和專家2就是研究方向一樣的關(guān)系,等等。在存儲方式上,專家知識圖譜的主要存儲的方式摒棄了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的存儲方式,而是直接采用RDF (Resource Description Framework) 2 三元組的形式對專家信息進行描述和保存(如圖1所示)。
系統(tǒng)模型的建立:通過對海量專家信息資源庫的挖掘與搜索,自動生成或呈現(xiàn)專家的基本信息,專利信息,文獻信息,項目信息,報道信息。并且以關(guān)系圖形的形式展現(xiàn)。
專家信息檢索:其前端主要有兩種檢索方式,一是直接通過SPARQL語言,直接對RDF構(gòu)建的知識庫進行查詢;而是通過關(guān)鍵字檢索,如姓名,行業(yè),文獻,研究主題等,間接使用SPARQL語言對知識庫進行查詢。
專家關(guān)聯(lián):能通過某一研究方向,某一個領(lǐng)域找出核心專家(如圖2所示)。
專家智能推薦:通過某一關(guān)鍵詞,推薦出相關(guān)聯(lián)的專家信息或者其他實體、屬性信息。
專家機器人的動態(tài)維護:主要是指通過不斷機器學習,不斷地發(fā)掘已有的專家信息或者搜索信息分析出更為復雜的專家之間的關(guān)系;并構(gòu)建出新的關(guān)聯(lián)關(guān)系。
3 專家知識圖譜實現(xiàn)
3.1 RDF構(gòu)建
RDF主要是一種描述語義WEB的標記語言7,通過RDF/XML的形式存儲,實現(xiàn)了對專家知識圖譜模型的構(gòu)建。通過對專家、文獻、專利、報道等實體關(guān)系分析,我們可以構(gòu)建如下類型的三元組。
文字描述:第1571號專家,姓名為張三,工作單位為熱帶農(nóng)業(yè)科學院;擁有兩篇論文,兩篇報道;同時,他與6579號、3766號專家屬于同事關(guān)系;
RDF/XML格式描述:
xmlns:info="http://www.w3.org/2001/info-rdf/3.0#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:exper="http://www.w3.org/2001/Exper-rdf/3.0#" xmlns:doc="http://www.w3.org/2001/document-rdf/3.0#"
xmlns:patent="http://www.w3.org/2001/patent-rdf/3.0#">
RDF圖形表示:張三專家RDF圖如圖3所示。
3.2 SPARQL查詢
為了提升搜索質(zhì)量,本系統(tǒng)采用SPARQL對RDF進行查詢;SPARQL對于RDF或者語義查詢來說,其重要性就類似于數(shù)據(jù)庫中的SQL(Structured Query Language);本系統(tǒng)不僅可
以直接通過SPARQL對專家信息進行檢索,而且還可以通過專家信息;專業(yè)領(lǐng)域;專利名稱等信息對專家進行檢索;如欲搜索的專家姓名為“張三”,工作單位為中國科學院,期刊信息為期刊A;其SPARQL搜索語句如下所示:
PREFIX exper:
PREFIX doc:http://www.w3.org/2001/document-rdf/3.0#
SELECT ?s ?name ?o ?doc ?cn WHERE {
?s exper:exper_org ?o .
?s exper:exper_name ?name .
?s exper:exper_doc ?doc .
?doc doc:journal_cn ?cn .
FILTER regex(?o, "中國科學院", "i")
FILTER regex(?name, "張三", "i")
FILTER regex(?cn,"期刊A", "i")
}
以上檢索均是模糊查詢;
4 結(jié)束語
專家知識圖譜不僅可以方便用戶在海量專家數(shù)據(jù)中快速準確地找到對應(yīng)主題或者領(lǐng)域?qū)<?,而且將專家虛擬存在于互聯(lián)網(wǎng)中,使各專家的知識和智慧得到延伸。同時通過系統(tǒng)對專家數(shù)據(jù)的發(fā)掘、關(guān)聯(lián)和整理,實現(xiàn)了專家推薦的功能,使得專家的影響力得到擴展。
參考文獻:
[1] 深度. 知識圖譜:谷歌打造未來搜索[J]. 電腦愛好者, 2013(5):28-29.
[2] 王海榮, 馬宗民. 一種擴展關(guān)鍵詞的RDF模糊查詢方法[J]. 中國科技論文, 2013, 8(10):989-993.
[3] 王昊奮. 面向大規(guī)模RDF數(shù)據(jù)的語義搜索[D]. 上海: 上海交通大學, 2013.
[4] 杜亞軍, 吳越. 微博知識圖譜構(gòu)建方法研究[J]. 西華大學學報:自然科學版, 2015(1):27-35.
[5] 楊思洛, 韓瑞珍. 國外知識圖譜的應(yīng)用研究現(xiàn)狀分析[J]. 情報資料工作, 2013(6):15-20.
[6] 胡芳槐. 基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究[D]. 上海: 華東理工大學, 2015.
[7] 師波, 王鳳利, 安建成. 從關(guān)系數(shù)據(jù)庫到RDF的轉(zhuǎn)換[J]. 電腦開發(fā)與應(yīng)用, 2015(1):5-7.