(西華大學(xué)數(shù)學(xué)與計算機學(xué)院, 四川 成都 610039)
· 計算機軟件理論、技術(shù)與應(yīng)用·
微博知識圖譜構(gòu)建方法研究
杜亞軍,吳 越
(西華大學(xué)數(shù)學(xué)與計算機學(xué)院, 四川 成都 610039)
傳統(tǒng)搜索引擎需要用戶從返回網(wǎng)頁中提煉有用知識;社交網(wǎng)絡(luò)搜索根據(jù)人物的社會關(guān)系、共同愛好,提供人物和興趣間的關(guān)系等方面的搜索結(jié)果。當(dāng)前,社交網(wǎng)絡(luò)搜索主要存在2個問題:不能從語義上理解用戶查詢詞;僅局限于人物、興趣搜索,限制了查詢范圍。為解決微博搜索中存在的一些問題,并主動返回更多知識,基于微博這一社交網(wǎng)絡(luò)的重要平臺,研究微博社區(qū)知識圖譜構(gòu)建方法,重點提出5方面的研究:微博社區(qū)中概念提取,其概念包括人物、事物、地點、事件和話題等5種類型;微博社區(qū)概念間的關(guān)系提取,其關(guān)系包括上述5種概念間的組合關(guān)系;知識圖譜是帶有語義的網(wǎng)絡(luò)圖譜,將概念作為頂點并將概念間關(guān)系作為邊,研究知識圖譜的構(gòu)建方法;分析微博社區(qū)知識圖譜,包括構(gòu)建效果、演化特征、應(yīng)用效果分析;研發(fā)基于微博知識圖譜的應(yīng)用系統(tǒng)等內(nèi)容。
微博;知識圖譜;圖譜構(gòu)建;概念提取;關(guān)系提取
從20世紀(jì)后期,借助關(guān)鍵詞匹配的信息檢索技術(shù),Google、中文Baidu等世界著名的搜索引擎給人們生活、學(xué)習(xí)、工作帶來巨大變化?;陉P(guān)鍵詞的搜索引擎已成為互聯(lián)網(wǎng)中信息獲取的主要工具。它們主要使用向量空間模型(VSM),因此無法擺脫不能滿足人們搜索精確的事實。該問題主要表現(xiàn)在2方面。1)由于自然語言的模糊性,相同用戶提交不同查詢詞,雖然查詢詞語義上是相同的,但是搜索引擎返回的結(jié)果是不同的;不同用戶提交相同查詢詞,雖然查詢詞對不同用戶來說語義是不相同的,但是搜索引擎返回的結(jié)果是相同的。2)由于搜索引擎缺乏網(wǎng)頁中人、事、物之間的語義關(guān)系,查詢結(jié)果僅僅從字符串相同與否來匹配用戶查詢與網(wǎng)頁之間的關(guān)系,使得一些不包含查詢詞,但與查詢詞內(nèi)容特別相關(guān)的信息流失;一些本身與查詢詞在語義上關(guān)系不大的信息,僅僅包含了查詢字符串,卻被檢索出來。這些問題產(chǎn)生的根本原因在于傳統(tǒng)搜索引擎的主要工作流程(圖1)是網(wǎng)頁→網(wǎng)頁數(shù)據(jù)→用戶查詢→字符匹配→返回結(jié)果網(wǎng)頁,這種流程模式需要用戶把結(jié)果網(wǎng)頁消化成知識,這個過程對用戶而言效率很低(需要花費時間理解),同時精確度也低(很多時候找到的網(wǎng)頁了,回答不了我們的問題)。比如“×××的兒子的老婆的情人是誰”,這個問題目前的搜索引擎是回答不了的。人們更需要的信息應(yīng)該是以知識的形式展示在搜索結(jié)果中,而不是直接輸出網(wǎng)頁。讓搜索能提煉用戶查詢和網(wǎng)頁中的知識,從自然語言語義的角度,理解用戶的真正需求,讓搜索引擎更能模擬人與人之間自然的交流方式,實現(xiàn)人與Web之間的問答、會話,以至讓W(xué)eb能預(yù)測和理解到人搜索的目的,給出用戶真正需要的知識,是未來搜索技術(shù)的又一大革新。
圖1 搜索引擎、知識圖譜搜索引擎、社交網(wǎng)絡(luò)搜索流程對比
為解決查詢詞的歧義和同義問題,下一代智能搜索引擎應(yīng)運而生。它能夠?qū)⒂脩羲峤坏牟樵冊~理解成實體或者概念,通過實體或者概念匹配為用戶返回其所可能關(guān)心的全部網(wǎng)頁內(nèi)容。Google在2012年5月提出Knowledge Graph(知識圖譜)搜索[1],將人物、事物或者地點當(dāng)作實體并構(gòu)建它們之間的關(guān)系,以滿足用戶語義高級檢索需求。Google知識圖譜在搜索中的主要功能表現(xiàn)在3方面:增強語言模糊性處理,以便找出更正確的搜索結(jié)果;對查詢主題有關(guān)的內(nèi)容進行語義摘要;在對話搜索中,尋找更深更廣的信息。Google借助知識圖譜重點解決2個問題[2]:與Google會話搜索; Google預(yù)測你的需求。微軟提出Satori[3]搜索,從互聯(lián)網(wǎng)非結(jié)構(gòu)化文檔中提取結(jié)構(gòu)化的實體所包含的屬性信息,這些屬性都是與動作相關(guān)的,以實現(xiàn)用戶的語義檢索。百度實體搜索[4]先根據(jù)用戶提交的查詢詞找到實體類型,再利用查詢詞與這類實體的屬性匹配找到相關(guān)的實體,從而達到理解查詢詞語義的目的。實體搜索構(gòu)建了實體數(shù)據(jù)庫,該數(shù)據(jù)庫包含實體信息和實體屬性,通過對實體信息和關(guān)鍵屬性進行分類,提高了實體信息的搜索廣度和實體屬性的搜索精度。搜狗知立方搜索[5]從網(wǎng)頁集中抽取實體及其關(guān)系信息,同時利用語義推理補充實體信息,從而實現(xiàn)對用戶查詢意圖的理解。知立方通過數(shù)據(jù)挖掘、分析等技術(shù)準(zhǔn)確地構(gòu)建知識數(shù)據(jù)庫,并通過推理計算分析用戶查詢語義,不僅向用戶提供核心的內(nèi)容信息,而且展現(xiàn)了較完整的知識體系。這些搜索引擎中知識圖譜的搜索過程(圖1)可以總結(jié)概括為: 網(wǎng)頁→網(wǎng)頁數(shù)據(jù)→知識圖譜→用戶查詢→知識提取→返回知識?,F(xiàn)有知識圖譜中的知識來源于網(wǎng)頁,從Web結(jié)構(gòu)化和半結(jié)構(gòu)化網(wǎng)頁中提取知識。由于微博等社交網(wǎng)絡(luò)中,實體形成的知識具有突發(fā)性和實時性,據(jù)調(diào)查和分析,現(xiàn)在很少有文獻研究基于微博的知識圖譜的構(gòu)成。
在Web網(wǎng)絡(luò)中,國內(nèi)外各大知名搜索引擎都利用知識圖譜中的實體及其關(guān)系理解用戶查詢意圖并已初步實現(xiàn)下一代智能搜索。在社交網(wǎng)絡(luò)搜索SNS(social network search)中,國內(nèi)外各大社交網(wǎng)站推出利用類似知識圖譜的社交圖譜、興趣圖譜,實現(xiàn)社交搜索的功能[6]。社交圖譜是表明“我認(rèn)識你”的網(wǎng)絡(luò)圖譜,研究人物與人物之間的社會關(guān)系;興趣圖譜是表明“我喜歡這個”的網(wǎng)絡(luò)圖譜,研究人物與人物之間的共同興趣。Facebook在2013年1月推出Graph Search[7],其利用人物間關(guān)系與他們所關(guān)心的事物,構(gòu)建成網(wǎng)絡(luò)圖譜,直接向用戶提供人物、照片、地點和興趣的搜索結(jié)果。Twitter提出的興趣圖譜[8],是以人物與人物間的興趣愛好為線索的網(wǎng)絡(luò)圖譜,在龐大的社交網(wǎng)絡(luò)挖掘出基于興趣的海量基礎(chǔ)數(shù)據(jù),滿足用戶尋找具有相同興趣愛好的人物需求。與Facebook所提出的社交圖譜相比,興趣圖譜基于興趣與人物之間的相互關(guān)聯(lián),這些人物可能是不認(rèn)識的,從而很大程度上擴展了社交網(wǎng)絡(luò)搜索的深度和廣度。騰訊推出QQ圈子[9],用戶可應(yīng)用其將自身的真實社會關(guān)系進行自動分圈,并向同一交際圈內(nèi)的陌生人拓展人脈。在QQ圈子中,用戶可以智能地備注好友的真實姓名,此功能間接實現(xiàn)用戶實名制,同時用戶向其朋友的朋友發(fā)起對話,以達到拓展交際人脈的目的。新浪在興趣圖譜方面做了嘗試[6],在很大程度上增強了用戶活躍度,但是,未在微博最盛行的時候,將用戶好友間的興趣點推向商業(yè)化。相反,阿里推出淘寶數(shù)據(jù)盛典[10],其在沒有社交網(wǎng)絡(luò)的場景中挖掘海量交易數(shù)據(jù),分析網(wǎng)購人群的消費興趣,展現(xiàn)出很多興趣圖譜的功能。
當(dāng)前,Web語義搜索通過實體及其關(guān)系信息,智能地理解用戶的查詢意圖,并向用戶提供更全面、更精準(zhǔn)的搜索結(jié)果。同時,社交網(wǎng)絡(luò)搜索利用人物及其社會關(guān)系、共同愛好直接向用戶提供人物、興趣等方面的搜索結(jié)果;但是,與Web語義搜索相比,由于查詢詞的歧義性、多樣性,社交搜索仍然存在一些問題。這些問題具體表現(xiàn)為2方面。1)在SNS網(wǎng)絡(luò)中,大多數(shù)社交網(wǎng)站沒有實現(xiàn)從語義上理解用戶所提交的查詢詞的社交搜索,當(dāng)前只有Facebook已實現(xiàn)社交語義搜索,但是其只專注于人物、照片、地點和興趣4方面的語義搜索;而在Web網(wǎng)絡(luò)中,許多搜索引擎已經(jīng)實現(xiàn)查詢詞的語義理解,并提高了搜索結(jié)果的覆蓋率和準(zhǔn)確度。2)在SNS網(wǎng)絡(luò)中,由于各大社交網(wǎng)站都利用人物與人物間的社會關(guān)系、共同興趣構(gòu)建社交圖譜和興趣圖譜,這些網(wǎng)絡(luò)圖譜將用戶的社交搜索局限到人物、興趣方面,從而限制用戶的查詢范圍。SNS網(wǎng)絡(luò)存在事物、事件、話題等海量信息,對這些信息進行數(shù)據(jù)挖掘并添加到網(wǎng)絡(luò)圖譜中,能夠拓寬用戶查詢需求,延伸社交網(wǎng)絡(luò)搜索范圍。
微博已成為網(wǎng)民廣泛傳播信息的社交網(wǎng)絡(luò)平臺,同時基于微博的朋友推薦、信息檢索、輿情分析已經(jīng)越來越受到政府、網(wǎng)民的關(guān)注。微博,是一個基于用戶關(guān)系的信息分享、傳播以及獲取平臺,用戶可以通過Web、Wap等各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)即時分享。微博社區(qū)指一群在微博社交網(wǎng)站中彼此溝通的用戶,他們分享某種程度的知識和信息,從而所形成的團體。知識圖譜是描述概念及其關(guān)系的知識庫,其可以利用網(wǎng)絡(luò)圖譜表示,圖譜的頂點是概念,邊是概念關(guān)系。概念類型包括人物、事物、地點、事件、話題,而概念關(guān)系類型包括上述5種類型任意排列所組成的類型。
隨著社交網(wǎng)絡(luò)中微博用戶日益巨增及共享信息迅猛增長,在微博社區(qū)中,知識的產(chǎn)生和發(fā)展越來越具有規(guī)律性。通過挖掘微博社區(qū)中的海量信息,用來構(gòu)建知識圖譜,推進數(shù)據(jù)挖掘、網(wǎng)絡(luò)圖論、Web、社交網(wǎng)絡(luò)、搜索引擎理論等研究,促進它們朝著更智能化、語義化的方向發(fā)展。同時,所構(gòu)建的知識圖譜能夠廣泛地應(yīng)用到社交信息檢索、社交朋友推薦、社交輿情分析等系統(tǒng)研發(fā),提高這些系統(tǒng)語義理解能力,向用戶提供更全面、更準(zhǔn)確的信息。
知識圖譜是實體和實體之間關(guān)系的一個知識庫,它的本質(zhì)是一種揭示實體知識之間的語義網(wǎng)絡(luò)圖。知識圖譜源于引文分析理論、復(fù)雜網(wǎng)絡(luò)系統(tǒng)、社會網(wǎng)絡(luò)分析,以及信息可視化。1963年Garfield成立美國費城科學(xué)情報研究所(簡稱SCI), SCI的設(shè)計初衷是為人們提供一個檢索工具,它是從被引文獻中去檢索引用文獻的索引,揭示科學(xué)文獻之間、作者之間的引用與被引用關(guān)系,從而提供了引文分析所必需的大量數(shù)據(jù),并于次年手工完成了DNA領(lǐng)域的引文編年圖;1965年普耐斯運用相同的數(shù)據(jù)完成了他的經(jīng)典論文——科學(xué)論文網(wǎng)絡(luò)[11]。這2個事件就是知識圖譜的最早雛形。知識圖譜發(fā)展歷經(jīng)了4個階段。1)知識的集成和知識結(jié)構(gòu)化表達。 20世紀(jì)70年代末期,知識圖譜理論誕生,Bondy等[12]在處理醫(yī)學(xué)和社會學(xué)文本時,使用圖理論來表達文本內(nèi)容中由cause和by產(chǎn)生的因果關(guān)系,便于用于決策支持系統(tǒng)。Brachman[13]采用圖理論來表達醫(yī)學(xué)論文中名詞間Isa、Partof和Kindof語義關(guān)系,構(gòu)建語義網(wǎng)絡(luò),并成功用于Medical專家系統(tǒng)。本體Ontology是這類用圖表示知識的典型代表。2)文本知識的獲取與表達。 20世紀(jì)90年代初期,用圖理論表達知識廣泛用于自然語言處理中。Sowa[14]提出概念圖的基本理論,在圖中廣泛地考慮了文本名詞之間的關(guān)系,將其分為Eou(相等關(guān)系)、Sub(子關(guān)系)、Ali(似乎像關(guān)系)、Dis(變異關(guān)系)、Ord(先后關(guān)系)、Cau(因果關(guān)系)、Par(部分屬性關(guān)系)、Sko(信息相關(guān)關(guān)系)8類。與第1階段本體不同之處在于概念圖重點加入了由名詞組成的概念之間的關(guān)系。3)句子之間的語義知識表達。21世紀(jì)初,基于圖的知識表達廣泛應(yīng)用于自然語言的處理中。Zhang[15]建立了不同語言單詞之間的語義關(guān)系圖,將每個單詞的語義在圖中進行標(biāo)注,構(gòu)建基于每個詞的語義圖譜,成功用于2種不同語言之間句子的翻譯系統(tǒng)。4)知識圖譜在Web中的應(yīng)用。其典型代表是Google公司的知識圖譜、微軟公司的Satori知識圖譜?;趫D的知識表示方法在不同的發(fā)展歷史階段,有著不同的表現(xiàn)形式和應(yīng)用,發(fā)展了不同的基于Web的知識圖譜。目前在國際國內(nèi)主要的知識圖譜有:Wolframalpha,一個計算知識引擎;Freebase,6 800萬個實體,10億的關(guān)系;Google知識圖譜[2],一個實體及其關(guān)系的知識數(shù)據(jù)庫,包括5億實體、180億實體關(guān)系信息,這些信息不僅為用戶準(zhǔn)確查找網(wǎng)頁內(nèi)容提供知識庫,而且給用戶提供擴展知識的工具。與Google知識圖譜相似,Satori也構(gòu)建實體及其關(guān)系的知識數(shù)據(jù)庫,該庫包括4億多實體[3]。DBpedia是一個在線關(guān)聯(lián)數(shù)據(jù)知識庫項目,它從維基百科的詞條中抽取結(jié)構(gòu)化數(shù)據(jù),并將這些數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上,提供給需要這些關(guān)聯(lián)數(shù)據(jù)的在線網(wǎng)絡(luò)應(yīng)用、社交網(wǎng)站或者其他在線關(guān)聯(lián)數(shù)據(jù)知識庫。此外,還有Cyc、KnowItAll、ConceptNet、DBpedia、YAGO等知識庫和知識圖譜[16]。大數(shù)據(jù)的處理離不開知識庫,現(xiàn)在知識圖譜面臨2個重要的挑戰(zhàn):一個是發(fā)展構(gòu)建知識圖譜的軟件系統(tǒng);另一個是面向現(xiàn)代Web網(wǎng)頁、博客、微博等社交網(wǎng)絡(luò)產(chǎn)生的大數(shù)據(jù),如何去構(gòu)建它們的知識圖譜和怎樣利用知識圖譜的知識去建立不同的應(yīng)用系統(tǒng)。這2方面既是挑戰(zhàn)也是一種新的嘗試。微博社區(qū)知識圖譜構(gòu)建的相關(guān)研究工作除微博社區(qū)的發(fā)現(xiàn)外,還可以借鑒的相關(guān)研究有網(wǎng)頁中實體和概念的獲取、關(guān)系提取、圖的建立等方面。
2.1 微博社區(qū)發(fā)現(xiàn)
近幾年來,借助微博平臺的熱點研究主要有:微博用戶行為分析[17],微博語言的分析與識別、單詞規(guī)范處理[18],信息傳播與輿情模型[19],微博社區(qū)劃分與發(fā)現(xiàn)[20]。隨著理論、方法和技術(shù)上的突破,在應(yīng)用領(lǐng)域,以微博信息為基礎(chǔ),開展了基于移動互聯(lián)用戶的微博內(nèi)容瀏覽工具[21]、信息檢索與搜索、主題或任務(wù)推薦系統(tǒng)[22]等研究工作。其中,主要工作是微博社區(qū)的發(fā)現(xiàn)。目前主流的微博社區(qū)劃分的典型方法有:基于興趣,基于鏈接,基于信任度、主題與鏈接相結(jié)合的方法。Fu等[23]對微博中微貼的觀點和情感進行分析,研究了觀點一致、情感一致的跟貼人之間的相似關(guān)系,對某個和某些主題觀點和情感一致的用戶進行層次聚類分析,提出了在微博中隱式社區(qū)發(fā)現(xiàn)和挖掘的方法。微博中的跟貼人,往往會追逐社會網(wǎng)絡(luò)中的明星和名流,但是明星們往往又不向他們的粉絲跟貼。結(jié)合微博這一特點,Qin等[24]研究了微博跟貼人之間的鏈接關(guān)系,提出了一種從微博中挖掘真實朋友之間的關(guān)系,從而為每一位微博跟貼人提供一個朋友圈,達到社區(qū)發(fā)現(xiàn)的目的。Wu等[25]分析微博中跟貼人的行為和信譽,將微博中用戶分為3種人群:正常人群,一些受利益和經(jīng)濟驅(qū)使、操縱跟貼人的人群,受操縱的人群,并分別給他們不同的信譽等級,采用半監(jiān)督學(xué)習(xí)方法,從不同種類人群中提取他們的信息,然后對整個微博空間中用戶進行劃分和分類。 微博用戶參與微貼的回復(fù)、評論,構(gòu)成了人與人、信息與信息的網(wǎng)絡(luò)。將微博參與者之間構(gòu)成的社會網(wǎng)絡(luò)和信息網(wǎng)絡(luò)相結(jié)合,閆光輝等[26]定義了用戶相關(guān)度,它是鏈接相關(guān)和主題相關(guān)的加權(quán)和,給出了鏈接和主題相結(jié)合的微博社區(qū)發(fā)現(xiàn)算法。此外,傳統(tǒng)的一些用于社會網(wǎng)絡(luò)的算法,也廣泛地用于微博社區(qū)挖掘上。如Newman提出了一種快速聚類算法,算法優(yōu)化目標(biāo)函數(shù)Q定義為簇內(nèi)隨機連接與簇內(nèi)期望連接數(shù)目之差,通過合并使ΔQ最大,形成一個自底向上的聚類過程[27]。 Clauset等提出的啟發(fā)式的CNM算法[28],能夠快速找到網(wǎng)絡(luò)中社區(qū)的近似最優(yōu)解,它通過迭代計算分割最大介數(shù)邊的方法來劃分網(wǎng)絡(luò)社區(qū)。史春永[29]改善傳統(tǒng)社交網(wǎng)絡(luò)社區(qū)中結(jié)點只能屬于一個社區(qū)的弊端,提出了重疊社區(qū)發(fā)現(xiàn)算法。
2.2 實體和概念的獲取
在微博社區(qū)中,概念的本質(zhì)就是現(xiàn)實世界中的語義對象,由描述該對象的屬性集合構(gòu)成,而對象的屬性集本質(zhì)上就是能夠表示對象的名詞集。微博中概念的提取,不僅有效地簡化了微博文本的結(jié)構(gòu)形式,還能夠在一定程度上解決微博語言中的一詞多義、多詞同義的概念匹配問題,從而有效地幫助用戶從海量的、實時動態(tài)更新的微博信息中檢索到感興趣的內(nèi)容,并為知識圖譜的構(gòu)建奠定良好的基礎(chǔ)。目前,關(guān)于微博社區(qū)中概念提取方面的研究工作尚處于起步階段。國內(nèi)外學(xué)者對于Web網(wǎng)頁文本中的概念提取進行了大量地探索,如:Chen等[30]利用語義相關(guān)的對數(shù)似然比和k-means方法,對文獻資料搜索結(jié)果組織的概念進行提取和聚類,同時通過聚類和引文耦合實現(xiàn)搜索結(jié)果的組織和可視化呈現(xiàn);基于每一個詞在網(wǎng)頁文本中的相關(guān)估計,F(xiàn)resno等[31]提出了從Web網(wǎng)頁中獲得相關(guān)概念集的方法,對HTML環(huán)境下的概念進行了提取,其中詞的相關(guān)性同時考慮到HTML語言的特征;類似于詞在文檔中的頻率和位置,章成志等[32]依據(jù)網(wǎng)頁標(biāo)引源加權(quán)方案進行文本的概念提取,利用語義相似度算法進行文本的自動分類,從而設(shè)計了一個中文Web概念挖掘系統(tǒng),為使系統(tǒng)能及時提取新詞,系統(tǒng)中還加入了未登錄詞挖掘的功能。在網(wǎng)頁、微博、博客中,實體的名字往往是模糊的,特別是在微博中,由于文本短小,在一個微貼中,很少有確定性的信息內(nèi)容。據(jù)此,Dalvi等[33]認(rèn)為概念是Web用戶感興趣的實體、事件和主題。 Spina等[34]先過濾掉大量與實體無關(guān)的文本或關(guān)鍵詞,然后區(qū)分剩下關(guān)鍵詞的情感詞性,再過濾掉負(fù)面關(guān)鍵詞,從正面關(guān)鍵詞中抽取實體(公司)名,并提出了相應(yīng)的算法。由于微博中用戶對一個事件的觀點隨著時間的推移在發(fā)生改變,從微博中提取人們對某件事的具體觀點是一個挑戰(zhàn)性的工作。Zhao等[35]充分利用微博中文本、時間信息、社區(qū)結(jié)構(gòu),建立了Term-Tweet-User 圖模型,提出時間感知的隨機游走算法,解決了詞項隨時間變化的相關(guān)性計算,然后再分類詞項,提取群體對某件事的觀點。潘虹等[36]提出了一種基于最大公共子串(longest common substring,LCS)算法的術(shù)語抽取方法,針對學(xué)前教育領(lǐng)域進行抽取實驗,驗證了LCS算法可以有效地抽取中文領(lǐng)域術(shù)語。Nie等[37]首次提到了基于視覺的網(wǎng)絡(luò)實體提取,在理解網(wǎng)頁結(jié)構(gòu)和文本內(nèi)容中綜合考慮了信息的可視化布局和知識庫的特征,并結(jié)合統(tǒng)計滾雪球的方法自動發(fā)現(xiàn)文本模式,并在Microsoft Academic Search (aka Libra) 和 EntityCube中有很好的應(yīng)用。粱健等[38]研究了文本的本體學(xué)習(xí)方法以及本體對知識概念表達的層次結(jié)構(gòu),利用統(tǒng)計和規(guī)則2種方法抽取與種子概念相關(guān)的領(lǐng)域術(shù)語,將種子概念方法用于文本中知識和術(shù)語概念的提取。Cui等[39]提出了基于詞語共現(xiàn)的領(lǐng)域概念提取方法,在概念選擇時只考慮了頻率的作用,沒有加入概念之間距離因素的影響。Górriz等[40]將遺傳算法和種子概念相結(jié)合,用于本體概念提取,利用種子概念的一些固有關(guān)系,得到遺傳算法的初始種群,利用遺傳算法對種子概念進行擴展,得到擴展種子概念,用戶只需要給出基本的種子概念,就可以得到更多、更全面的種子概念。劉競等[41]提出了基于免疫計算的概念提取方法,它在有效降低特征個數(shù)的同時,提取各類的中心,以此為實例模式對待識別樣本進行分類決策。Zhang等[42]提出了對數(shù)似然比的領(lǐng)域本體概念提取方法,采用對數(shù)似然比計算概念與領(lǐng)域、概念與概念之間的相關(guān)性,將其應(yīng)用到概念提取中,能夠有效地提高概念提取的準(zhǔn)確度。
2.3 關(guān)系提取
美國國家標(biāo)準(zhǔn)技術(shù)研究院2005年自動內(nèi)容提取(automatic content Ext ract ion, ACE)會議將文檔中的實體之間的關(guān)系[43]分為局部整體關(guān)系(Part-whole)、地理位置關(guān)系(Phys)、類屬關(guān)系(Gen-aff)、轉(zhuǎn)喻關(guān)系(Metonymy)、制造使用關(guān)系(Art)、組織結(jié)構(gòu)從屬關(guān)系(Org-Aff)、人物關(guān)系(Per-Soc)。信息提取領(lǐng)域的學(xué)者對關(guān)系提取進行了長期的探索,目前已經(jīng)有許多關(guān)系提取方法被應(yīng)用到各種實驗系統(tǒng)中,主要有基于知識庫的方法和基于機器學(xué)習(xí)的方法。根據(jù)對訓(xùn)練語料數(shù)據(jù)的不同需求又將基于機器學(xué)習(xí)的方法歸納為有指導(dǎo)的機器學(xué)習(xí)方法、半指導(dǎo)的機器學(xué)習(xí)方法和無指導(dǎo)的機器學(xué)習(xí)方法。有指導(dǎo)的關(guān)系提取方法在關(guān)系提取領(lǐng)域占有主導(dǎo)地位,主要方法有基于特征的機器學(xué)習(xí)方法和Kernel方法。SVM(support vector machine)[44]是Cortes和Vapnik于1995年最先提出的,是一個能夠?qū)⒉煌悇e的樣本在樣本空間用超平面分隔,也就是說,給定一些標(biāo)記好的訓(xùn)練樣本,SVM算法輸出一個最優(yōu)化的分隔超平面。MaxEnt(maximum entropy)模型[45]是MaxEnt分類器[46]的理論基礎(chǔ),模型是由Jaynes首次提出,基本思想是為所有已知的因素建立模型,而把所有未知的因素排除在外。也就是說,要找到一個滿足所有已知的事實并且不受任何未知因素影響的概率分布。Zhou等[47]在基于特征的關(guān)系提取中使用了SVM,廣泛合并多樣的詞法、句法和語義知識,融合基礎(chǔ)短語的組塊信息,大大提高了在句法方面的性能,還證明了將語義信息如詞匯網(wǎng)WordNet和名單Name List用到基于特征的關(guān)系提取中能進一步提高性能。Choi等[48]采用基于核的支撐向量機的方法,從文本句子中提取人名,構(gòu)建2個不同的人名之間的社會關(guān)系,并開發(fā)了社會網(wǎng)絡(luò)的社會關(guān)系提取系統(tǒng)。Xu等[49]研究了挖掘文本中實體、關(guān)系的語法和語義模型、關(guān)系的上下文句子、關(guān)系背景知識圖、關(guān)系出現(xiàn)的背景區(qū)域等識別方法,對實體的不同語義關(guān)系進行挖掘,從而探討實體中不同語義關(guān)系隨時間變化的演化規(guī)律。Chaveevan[50]結(jié)合貝葉斯網(wǎng)絡(luò)和最大熵確定文本中有效的基本篇章單位,從相鄰基本的篇章單元采用機器學(xué)習(xí)方法,提出動詞對提取因果關(guān)系的方法。Mausam等[51]從5億個網(wǎng)頁中,提取實體之間的鏈接關(guān)系,建立一個Web中實體關(guān)系的知識庫。Furlan等[52]使用自然語言的處理方法,研究出短文本中不同句子之間的語義關(guān)系。文獻[53-54]探討了概念之間的語義關(guān)系的計算方法。Liang等[55]分析概念和實體的關(guān)系,研究它們之間的語義,提出了概念間隱式關(guān)系的發(fā)現(xiàn)方法。
2.4 知識圖譜的建立
在Hoede(離散數(shù)學(xué)家)和Stokman(數(shù)學(xué)社會學(xué)家)提出的知識圖譜中,用圖的概念來表達知識,一個圖或者一個有向圖G=(V,E)是由節(jié)點集合V和邊集合E組成。其中節(jié)點就是實體或概念,邊或者弧就是節(jié)點之間的關(guān)系。到目前為止,知識圖譜能表達7種類型的關(guān)系[43]和4種類型的框架。在知識圖譜的構(gòu)建過程中,實體與實體間、概念與概念之間有各種各樣的關(guān)系,然后對它們有效合理地進行量化。Bondy 等[12]作為醫(yī)學(xué)內(nèi)容和社會學(xué)文本研究者的代表,用這些文本中積累的知識構(gòu)建越來越大的圖,由此形成一個專家系統(tǒng)。Bakker[56]建立了一個知識圖譜的知識管理系統(tǒng)KISS(knowledge integration and structuring system),并給出了其知識圖譜的建立過程:1)文本分析,將文本映射到一個圖上;2)構(gòu)造分析,確定子圖,形成一個“自然”單位;3)鏈接集成,使用路徑代數(shù)從提取的知識中派生新的知識。Wang等[57]對稀疏大圖的結(jié)構(gòu)相似性進行有效地研究,通過分解圖成為不同的由鄰居樹模式組成的圖粒,逐步匹配不同圖的圖粒,使用編輯距離最小下限估計方法解決了不同圖的相似匹配問題。 在知識圖譜應(yīng)用方面,Steiner等[58]在瀏覽器中開發(fā)了一個擴展程序,實現(xiàn)了其搜索結(jié)果一旦有知識圖譜中實體,就從Wikipedia 中選擇一個真實概念和它的鏈接,從當(dāng)前主流的社交網(wǎng)絡(luò)Twitter和Facebook的前n個結(jié)果獨立地顯式在瀏覽器的某個面板中,最后從檢索結(jié)果的有用性和相關(guān)性角度分析知識圖譜的性能。Pujara等[59]針對現(xiàn)有知識提取系統(tǒng)輸出常常會發(fā)生丟失節(jié)點和邊、不準(zhǔn)確的節(jié)點分類標(biāo)記等問題,通過組合實體的解析、協(xié)同過濾,提出了基于本體約束的鏈接預(yù)測來進行知識圖的節(jié)點和邊的自動識別與標(biāo)識。在基于本體的知識庫應(yīng)用中,文獻[60-61]探索了知識的更新,對給定的一個知識,將知識分解為概念和概念之間的關(guān)系,然后將新的知識插入到知識庫中,達到系統(tǒng)新的知識動態(tài)更新的目的。在科學(xué)研究和工程應(yīng)用中,知識庫和本體等已解決許多問題。
此外,隨著應(yīng)用的深入,一些研究者對已有知識圖譜、本體庫、知識庫等的性能測試做了一些嘗試性的研究。Santoso等[62]研究了本體概念提取方法的精確度問題,提出了從文本中提取知識的方法,并對這些方法進行測評的策略。面向本體及其應(yīng)用,該方法比較客觀地對知識獲取算法進行了較好的評價。Ittoo等[63]研究了本體中概念之間的關(guān)系提取算法的精度和召回率問題。Luis等[64]利用形式概念分析方法,綜合考慮了形式概念格中概念和概念關(guān)系,研究了從文本中獲取知識的方法的評價策略。Zhou等[65]在分析關(guān)系的語義基礎(chǔ)上,探討了基于樹的語義關(guān)系表示方法在不同應(yīng)用問題中的適應(yīng)能力。Khattak等[66]探討本體中,概念和關(guān)系等知識隨著時間的變化規(guī)律和演化趨勢。Liu等[67]針對本體中概念和關(guān)系的變化規(guī)律,探討了隨時間變化的演化過程,從而總結(jié)性地提出了本體演化模型。
綜上,面對微博社會網(wǎng)絡(luò)平臺中海量信息,幾乎很少發(fā)現(xiàn)有對其實體、概念、關(guān)系提取方法的研究,因此,微博社區(qū)知識圖譜的構(gòu)建具有廣闊的研究前景。
3.1 微博社區(qū)概念提取方法
微博社區(qū)的概念本質(zhì)上就是現(xiàn)實世界中的語義對象和描述該對象的屬性集合構(gòu)成。這些對象具有5種類型:人物、事物、地點、事件和話題。對象的屬性集本質(zhì)上就是能夠表示對象的名詞集。本項目重點研究以下幾方面的內(nèi)容。1)從微博社區(qū)所分享的海量信息中抽取概念。概念是由微博社區(qū)中的頻繁屬性和信息屬性所組成。頻繁屬性是指在微博社區(qū)中出現(xiàn)次數(shù)較多的名詞集,例如爆炸詞、流行詞等;信息屬性是指在微博社區(qū)中具有豐富語義信息的名詞集,例如敏感詞、新近詞等,需要研究頻繁屬性和信息屬性的提取方法。2)在微博社區(qū)中,概念理解為描述語義對象的屬性名詞集構(gòu)成,由于語言中存在一詞多義、多詞同義現(xiàn)象,需要研究所提取的屬性名詞同義匹配、多義匹配的方法。同義匹配是指不同屬性名詞屬于相同概念的匹配方法;多義匹配是指相同屬性名詞屬于不同概念的匹配方法。3)概念類型包括人物、事物、地點、事件和話題5種類型,但是每種概念類型可能包括更多的子概念類型,例如體育話題概念包括田徑運動、球類運動、棋牌運動等子概念類型;因此,需要研究概念層次聚類方法,將不同的概念劃分到不同的類別。
3.2 微博社區(qū)關(guān)系提取方法
微博社區(qū)的概念間關(guān)系本質(zhì)上就是現(xiàn)實世界中對象間的語義聯(lián)系,由描述該聯(lián)系的鏈接集構(gòu)成,這些聯(lián)系類型是由上述對象的5種類型任意排列所組成的關(guān)系類型,例如人物與地點的聯(lián)系、事物與事物的聯(lián)系等,而聯(lián)系的鏈接集本質(zhì)上就是表示任意2對象的不同屬性間聯(lián)系動詞集。本項目重點研究以下幾方面的內(nèi)容。1)從微博社區(qū)所分享的海量信息中抽取概念間關(guān)系,其是由不同概念的屬性集間的頻繁鏈接和信息鏈接所組成。頻繁鏈接是指能夠鏈接不同概念的屬性并且出現(xiàn)次數(shù)較多的動詞集;信息鏈接是指能夠鏈接不同概念的屬性并且具有豐富語義信息的動詞集。需要研究頻繁鏈接和信息鏈接的提取方法。2)在微博社區(qū)中,概念間關(guān)系是由描述不同概念間聯(lián)系的鏈接動詞集構(gòu)成,由于語言中存在一詞多義、多詞同義現(xiàn)象,需要研究所提取的鏈接動詞同義匹配、多義匹配的方法。同義匹配是指不同鏈接動詞屬于相同概念間關(guān)系的匹配方法;多義匹配是指相同鏈接動詞屬于不同概念間關(guān)系的匹配方法。3)概念間關(guān)系類型是由人物、事物、地點、事件、話題5種類型任意排列所組成的,但是每種關(guān)系類型可能包括更多子關(guān)系類型,例如人物與人物間的關(guān)系包括師生、朋友、親戚、同學(xué)等子關(guān)系類型;因此,需要研究概念間關(guān)系層次聚類方法,將不同的概念間關(guān)系劃分到不同的類別中。
3.3 微博社區(qū)知識圖譜構(gòu)建
微博社區(qū)知識圖譜是由實體及關(guān)系、概念及其關(guān)系所構(gòu)成的語義性知識庫,將該知識庫概念作為頂點,實體或概念關(guān)系作為邊,可以建立帶有語義的網(wǎng)絡(luò)圖譜。根據(jù)所建立的語義網(wǎng)絡(luò)圖譜,可能將挖掘出新的隱式概念和關(guān)系,并不斷地擴展知識圖譜。同時,隨著微博社區(qū)的信息不斷增長,將會發(fā)現(xiàn)新的實體及關(guān)系、概念及其關(guān)系,需要不斷地更新知識圖譜。本項目重點研究以下幾方面的內(nèi)容。1)在微博社區(qū)中,將抽取的全部實體及關(guān)系、概念及關(guān)系存儲到知識庫中,建立知識圖譜,但是該知識圖譜可能存在重復(fù)的、歧義的概念及其關(guān)系(或?qū)嶓w及關(guān)系)。其重復(fù)性表現(xiàn)為這些實體屬性集、實體關(guān)系集、概念屬性集、概念關(guān)系的鏈接集中存在多詞同義的現(xiàn)象,因此需要合并重復(fù)的實體及關(guān)系、概念及關(guān)系。實體及關(guān)系、概念及關(guān)系的歧義性表現(xiàn)為這些實體的屬性集合、實體關(guān)系集合、概念屬性集、概念的關(guān)系鏈接集中存在一詞多義的現(xiàn)象,因此需要拆分歧義的實體及關(guān)系、概念及關(guān)系。2)在微博社區(qū)中,知識圖譜是利用微博社區(qū)中所分享的信息建立的,這些分享信息不能體現(xiàn)語言的整體特征,需要利用同義擴展、多義擴展方法來完善所建立的知識圖譜。同義擴展是通過實體屬性集、實體關(guān)系集、概念屬性集、概念的關(guān)系鏈接集中的同義詞來擴展知識圖譜;多義擴展是通過實體屬性集、實體關(guān)系集、概念屬性集、概念的關(guān)系鏈接集中的多義詞來擴展知識圖譜。3)隨著微博社區(qū)所分享的信息不斷變化,此微博社區(qū)將會抽取到新的實體屬性集、實體關(guān)系集、概念屬性集、概念的關(guān)系鏈接集,需要利用它們來更新與完善所建立的知識圖譜。概念(或?qū)嶓w)更新是通過新抽取到的概念(或?qū)嶓w)集、概念(或?qū)嶓w)的屬性集中的同義詞和多義詞實現(xiàn)知識圖譜的更新;關(guān)系更新是通過新抽取到的概念(或?qū)嶓w)關(guān)系集、關(guān)系的鏈接集中的同義詞和多義詞實現(xiàn)知識圖譜的更新。
3.4 微博社區(qū)知識圖譜分析
微博社區(qū)知識圖譜是帶有語義性的知識庫,實現(xiàn)在應(yīng)用層面上,從語義方面理解用戶的意圖。從知識圖譜自身的意義角度,需要分析實體及關(guān)系、概念及其關(guān)系抽取的覆蓋度和精準(zhǔn)度;從知識圖譜的時間特征角度,需要分析實體及關(guān)系、概念及其關(guān)系抽取方法的適應(yīng)性和演化性;從知識圖譜的應(yīng)用效果,需要分析知識圖譜在社交網(wǎng)絡(luò)系統(tǒng)中的召回率和準(zhǔn)確率。對于此內(nèi)容,本項目重點研究以下幾方面的內(nèi)容。1)從微博社區(qū)海量信息中獲得了實體、概念及其關(guān)系,需要分析實體、概念及其關(guān)系抽取的覆蓋度和精準(zhǔn)度。2)由于不同微博社區(qū)的描述信息和其他社交平臺的呈現(xiàn)信息的差異,需要分析實體、概念及其關(guān)系抽取方法、知識圖譜構(gòu)建方法的社區(qū)適應(yīng)性和平臺適應(yīng)性。3)由于微博社區(qū)的用戶規(guī)模、話題內(nèi)容不斷發(fā)生變化,需要分析實體、概念及其關(guān)系抽取方法的用戶演化性和話題演化性。用戶演化性反映了隨著用戶規(guī)模不斷更新,實體、概念及其關(guān)系的變化趨勢,而話題演化性反映了隨著話題內(nèi)容不斷更新,實體、概念及其關(guān)系的變化趨勢。此2個趨勢反映出知識圖譜的演化規(guī)律。4)知識圖譜能夠從語義上理解用戶尋找朋友、查詢信息等各種意圖,主要應(yīng)用到社交朋友推薦、信息檢索、輿情監(jiān)測等系統(tǒng)服務(wù)中,需要分析知識圖譜在這些應(yīng)用中的召回率和準(zhǔn)確率。召回率反映了用戶所感興趣的所有信息中,利用知識圖譜方法所返回相關(guān)信息的比率,而準(zhǔn)確率反映了利用該知識圖譜所返回的所有信息中相關(guān)信息所占的比率,這2種比率反映出知識圖譜的應(yīng)用效果。
3.5 微博社區(qū)知識圖譜的應(yīng)用
面向微博社區(qū)海量信息,有許多值得研究的應(yīng)用問題,如社交朋友推薦、信息檢索、輿情監(jiān)測、問答系統(tǒng)、推薦系統(tǒng)、廣告投放。基于微博的諸如此類的應(yīng)用,還是一個嘗試性的研究領(lǐng)域。本項目重點解決以下幾方面的內(nèi)容。1)選擇一個典型的應(yīng)用問題(擬為基于微博的問答系統(tǒng)),研究知識圖譜中實體、概念提取和利用方法、接口;研究實體關(guān)系、概念關(guān)系、實體與概念之間的關(guān)系提取、快速檢索、接口的方法。2)建立和開發(fā)與微博有關(guān)的、面向不同應(yīng)用的知識(實體、概念、實體關(guān)系、概念關(guān)系、實體與概念之間的關(guān)系)高效訪問的原理和方法、開發(fā)訪問接口API或控件。3)面向不同應(yīng)用問題,研究知識圖譜的知識獲取原理和方法。4)面向不同應(yīng)用問題,研究知識圖譜的知識更新原理和方法。
[1]Amit S. Introducing the Knowledge Graph: Things, Not Strings[EB/OL].[2014-10-10]. http://googleblog.blogspot. co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[2]Lee J. OK Google: ‘The End of Search as We Know It’[EB/OL].[2014-10-10]. http://searchenginewatch.com/article /2268726, 2013.
[3]Sean G. How Google and Microsoft Taught Search to Understand the Web[EB/OL].[2014-10-10]. http://arstechnica. com/information-technology/2012/06/inside-the-architecture-of-googles-knowledge-graph-and-microsofts-satori/.
[4]辜斯繆. 解密百度實體搜索[EB/OL].[2014-10-10]. http://tieba.baidu.com/p/2008266622.
[5]東坡下載. 搜狗“知立方”讓搜索更加準(zhǔn)確全面[EB/OL].[2014-10-10]. http://www.uzzf.com/news/5986.html.
[6]新浪科技. 下一代搜索引擎: 知識圖譜的用戶體驗報告[EB/OL].[2014-10-10]. http://tech.sina.com.cn/I/2013-08-27/ 18208681029.shtml.
[7]搜狐IT. FaceBook發(fā)布社交圖譜搜索Graph Search[EB/OL].[2014-10-10]. http://it.sohu.com/20130116 /n363567269.shtml.
[8]Tian J. 為什么興趣圖譜將重塑我們的社交網(wǎng)絡(luò)及未來的商業(yè)[EB/OL].[2014-10-10]. http://www.36kr.co. 2013m/p/84790. html.
[9]TechWeb. 騰訊QQ圈子實現(xiàn)真人社交[EB/OL].[2014-10-10]. http://www.techweb.com.cn/internet/2012-03-21/1169220. shtml.
[10]艾瑞網(wǎng). 淘寶網(wǎng)數(shù)據(jù)盛典公布首份2011年度趣味數(shù)據(jù)[EB/OL].[2014-10-10]. http://ec.iresearch.cn/shopping/ 20120228/ 164451.shtml.
[11]Garfield E. Scientography: Mapping the Tracks of Science[J]. Current Contents: Social & Behavioral Science, 1994, 7(45):5-10.
[12]Bondy J A, Murty U S R. Graph Theory with Applications[M]. London and Basingstoke: McMillan Press, 1976.
[13]Brachman R J. What IS-A Is and Isn’t : an Analysis of Taxonomic Links in Semantic Networks[J]. IEEE Transactions on Computers, Special Issue on Knowledge Representation, 1983, 16(10):30-35.
[14]Sowa J F. Conceptual Structures: Information Processing in Mind and Machine[M].[s.n.]:Addison-Wesley, 1984:45-86.
[15]Zhang L. Knowledge Graph Theory and Structural Parsing[D]. Enschede, The Netherlands: University of Twente, 2002.
[16]Suchanek F, Weikum G. Knowledge Harvesting in the Big-Data Era[C]// The 2013 ACM SIGMOD International Conference on Management of Data. New York, USA:[s.n.], 2013:933-938.
[17]Yan Q, Wu L R, Zheng L. Social Network Based Microblog User Behavior Analysis[J]. Physica A-Statistical Mechanics and Its Applications, 2013, 392(7):1712-1723.
[18]Simon C, Wouter W, Manos T. Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text[J]. Language Resources and Evaluation, 2013, 47(1):195-215.
[19]Yan Q, Wu L R, Liu C, et al. Information Propagation in Online Social Network Based on Human Dynamics. Abstract and Applied Analysis[EB/OL].[2014-10-10]. http://Dx.Doi.Org/10.1155/2013/953406.
[20]Yan Q, Yi L L, Wu L R. Human Dynamic Model Co-Driven by Interest and Social Identity in the MicroBlog Community[J]. Physica A-Statistical Mechanics and Its Applications, 2012, 391(4):1540-1545.
[21]Han J H, Xie X, Woontack W. Context-Based MicroBlog Browsing for Mobile Users[J]. Journal of Ambient Intelligence and Smart Environments, 2013, 5(1):89-104.
[22]陳克寒, 韓盼盼, 吳健. 基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計算機學(xué)報, 2013, 36(2):349-359.
[23]Fu M H, Peng C H, Kuo Y H, et al. Hidden Community Detection Based on MmicroBlog by Opinion-Consistent Analysis[C]//International Conference on Information Society, I-Society. London, UK:[s.n.], 2012:83-88.
[24]Qin H L , Liu T , Ma Y J. Mining User’s Real Social Circle in MicroBlog. [C]//The IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Istanbul Turkey:[s.n.],2012:348-352.
[25]Wu X, Feng Z M, Fan W, et al. Detecting Marionette MicroBlog Users for Improved Information Credibility[J]. Lecture Notes in Computer Science, 2013, 8190(3):483-498.
[26]閆光輝, 舒昕, 李祥. 基于主題和鏈接分析的微博社區(qū)發(fā)現(xiàn)算法[J]. 計算機應(yīng)用研究, 2013, 30(7):1953-1957.
[27]Newman M E J. Fast Algorithm for Detecting Community Structure in Networks[J]. Physical Review E, 2004, 69(62):066133/1-066133/5.
[28]Clauset A, Newman M E J. Finding Community Structure in Very Large Networks[J]. Physics Review E, 2004, 70(62):066111/1-066111/6.
[29]史春永. 面向新浪微博的數(shù)據(jù)采集和社區(qū)發(fā)現(xiàn)算法研究[D].武漢:華東科技大學(xué), 2012.
[30]Chen S Y , Chang C N , Nien Y H, et al. Concept Extraction and Clustering for Search Result Organization and Virtual Community Construction[J]. Computer Science and Information Systems, 2012, 9(1):323-354.
[31]Fresno V, Ribeiro A. An Analytical Approach to Concept Extraction in HTML Environments[J]. Journal of Intelligent Information Systems, 2004, 22(3):215-235.
[32]章成志, 侯漢清, 丁璇. 中文 Web 概念挖掘系統(tǒng)設(shè)計與測評[J]. 上海交通大學(xué)學(xué)報:自然科學(xué)版,2003, 37(sup):207-211.
[33]Dalvi N, Kumar R, Pang B, et al. A Web of Concepts[C]//The Twenty-Eighth ACM SIGMOD-SIGACT- SIGART Symposium on Principles of Database System.New York, USA:[ s.n.], 2009:1-12.
[34]Spina D, Gonzalo J, Amigó E. Discovering Filter Keywords for Company Name Disambiguation in Twitter[J]. Expert Systems with Applications, 2013, 40(12), 4986-5003.
[35]Zhao B, Zhang Z, Qian W N, et al. Identification of Collective Viewpoints on MicroBlogs. Data & Knowledge Engineering, 2013, 87: 374-393.
[36]潘虹, 徐朝軍. LCS算法在術(shù)語抽取中的應(yīng)用研究[J]. 情報學(xué)報, 2010, 29(5):853-857.
[37]Nie Z Q, Wen J R, Ma W Y. Statistical Entity Extraction from the Web[J]. The proceedings of the IEEE, 2012, 100(9):2675-2687.
[38]粱健, 吳丹. 種子概念方法及其在基于文本的本體學(xué)習(xí)中的應(yīng)用[J]. 圖書情報工作, 2006, 50(9):17-21.
[39]Cui G Y, Lu Q, Li W J, et al. Mining Concepts from Wikipedia for Ontology Construction[C]//The IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology- Workshops. Milan, Italy: [ s.n.],2009:287-290.
[40]Górriz J M , Puntonet C G , Rojas F ,et al. Optimizing Blind Source Separation with Guided Genetic Algorithms[J]. Neurocomputing, 2006, 69(13/15):1442-1457.
[41]劉競, 趙友剛, 韓仲志. 基于免疫計算的概念提取方法研究[J].微計算機信息, 2009, 25(1/3): 251-252.
[42]Zhang Y F, Shu W L, Xiong Z Y. Domain Ontology Concept and Relation Extraction Using Log-Likelihood Ratio[J]. Computer Engineering and Application, 2013, 49(6):148-151.
[43]黃鑫, 朱巧明, 錢龍華, 等. 基于特征組合的中文實體關(guān)系抽取[J].微電子學(xué)與計算機, 2010, 27( 4):198-204.
[44]Cortes C, Vapnik V. Support Vector Networks[J]. Machine Learning, 1995, 20(3):273-297.
[45]Berger A L , Pietra S A D , Pietra V J D. A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics, 1996, 22(1):39-71.
[46]何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧[J].軟件學(xué)報, 2010, 21(6):1287-1295.
[47]Zhou G, Su J, Zhang J, et al. Exploring Various Knowledge inRelation Extraction[C]//The 43rd Annual Meeting of the Association for Computational Linguistics. Sydney, Australia:[s.n.],2005: 427-434.
[48]Choi M, Kim H. Social Relation Extraction from Texts Using a Support Vector Machine Based Dependency Trigram Kernel[J].Information Processing & Management, 2013, 49(1):303-311.
[49]Xu Z, Luo X F. Mining Temporal Explicit and Implicit Semantic Relations between Entities Using Web Search Engines[J]. Future Generation Computer Systems, 2014, 37:468-477.
[50]Chaveevan P. Explanation Knowledge Graph Construction through Causality Extraction from Texts[J]. Journal of Computer Science and Technology, 2010, 25(5):1055-1070.
[51]Mausam T L, Etzioni O. Entity Linking at Web Scale[C]//The Joint Workshop on Automatic Knowledge Base Construction and Web-Scale Knowledge Extraction. Montreal, Canada: [s.n.], 2012:84-88.
[53]Li W J, Xia Q X. A Method of Concept Similarity Computation Based on Semantic Distance[J]. Procedia Engineering, 2011, 15: 2852-2859.
[54]Li Y F , Qin K Y , He X X. Some New Approaches to Constructing Similarity Measures[J]. Fuzzy Sets and Systems, 2014, 234: 46-60.
[55]Liang T P, Yang Y F. A Semantic-Expansion Approach to Personalized Knowledge Recommendation[J]. Decision Support Systems, 2008, 45(3):401-412.
[56]Bakker R R. Knowledge Graphs: Representation and Structuring of Scientific Knowledge[D]. [S.l.]: University of Twente, Enschede, 1987.
[57]Wang G R , Wang B, Yang X C, et al. Efficiently Indexing Large Sparse Graphs for Similarity Search[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(3):440-451.
[58]Steiner T, Verborgh R, Troncy R, et al. Adding Realtime Coverage to the Google Knowledge Graph[C]//The 11th International Semantic Web Conference. Boston, USA:[s.n.], 2012:1-4.
[59]Pujara J, Miao H. Getoor L Ontology-Aware Partitioning for Knowledge Graph Identification[C]//Proceeding of Automated Knowledge Base Construction. Atlanta, Georgia: [s.n.], 2013:19-24,.
[60]Khan M D A, Banerjee M. An Update Logic for Information Systems[J].International Journal of Approximate Reasoning, 2014, 55(1):436-456.
[61]Du Y J, Peng Q Q, Gao Z Q. A Topic-Specific Crawling Strategy Based on Semantics Similarity[J].Data Knowledge & Engineering, 2013, 88: 75-93.
[62]Santoso H A, Haw S C. Ontology Extraction from Relational Database: Concept Hierarchy as Background Knowledge[J].Knowledge-Based Systems, 2011, 24(3):457-464.
[63]Ittoo A, Bouma G. Minimally-Supervised Extraction of Domain-Specific Part-Whole Relations Using Wikipedia as Knowledge-Base[J].Data & Knowledge Engineering, 2013, 85: 57-79.
[64]Luis E, Zárate S, Mariano D, et. al. FCANN: A New Approach for Extraction and Representation of Knowledge from ANN Trained via Formal Concept Analysis[J].Neurocomputing, 2008, 71(13/15):2670-2684.
[65]Zhou G D, Qian L H, Fan J X. Tree Kernel-Based Semantic Relation Extraction with Rich Syntactic and Semantic Information[J].Information Sciences, 2010, 180(8):1313-1325.
[66]Khattak A M, Pervez Z. Time Efficient Reconciliation of Mappings in Dynamic Web Ontologies[J].Knowledge-Based Systems, 2012, 35: 369-374.
[67]Liu L, Zhang P. Modeling Ontology Evolution with SetPi[J].Information Sciences, 2014, 255(10):155-169.
(編校:饒莉)
ResearchonConstructingtheKnowledgeGraphBasedonMicroblog
DU Ya-jun, WU Yue
(SchoolofMathematicsandComputerEngineering,XihuaUniversity,Chengdu610039China)
Search engine only returns the Web page set for the user queries, it needs the user refine useful knowledge from it; Social Network Search (SNS) directly provides people and their interest to users by using characters’ social relations and common hobbies. However, the SNS mainly exists two unresolved problems. On the one hand, the SNS can’t semantically understand user queries submitted by users. On the other hand, the SNS only provides people search and interest search, and confines query domains for users. Microblog has become an important platform for social network. To address these problems of information retrieval about microblog and provide more knowledge for user queries, this project researches knowledge graph construction and analysis based on the microblog community. The project focuses on five contents. (1)It researches concept extractions for the microblog community, and concepts have five types including people, things, locations, events and topics. (2)It researches relationships extractions for the microblog community. The relationships among concepts include collection types formed by combining two arbitrary types above concepts. (3)It researches knowledge graph construction, and the knowledge graph is a semantic network graph which takes concepts and relationships respectively as vertices and edges. (4)It researches knowledge graph analysis. It includes construction effect analysis, evolution characteristics and rules analysis and application effect analysis. (5)It researches the application interface and system based the knowledge graph.
Microblog; knowledge graph; knowledge graph construction; concept extraction; relationships extraction
2014-11-12
國家自然科學(xué)基金(61271413;61472329)
杜亞軍(1967—),男,教授,博士,碩士生導(dǎo)師,主要研究方向為網(wǎng)上信息挖掘與搜索引擎、計算機軟件開發(fā)技術(shù)。
TP393.09
:A
:1673-159X(2015)01-0027-09
10.3969/j.issn.1673-159X.2015.01.005