前 言
隨著互聯(lián)網(wǎng)的快速普及與發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)以驚人的速度在全世界范圍內(nèi)呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的態(tài)勢(shì).而數(shù)據(jù)作為客觀世界在信息世界中的抽象表達(dá),其必然帶有普遍的關(guān)聯(lián)性.如何從海量的異構(gòu)數(shù)據(jù)中挖掘?qū)嶓w及其語義關(guān)聯(lián)和屬性,并進(jìn)行知識(shí)的融合,進(jìn)而構(gòu)建大規(guī)模的知識(shí)圖譜,為語義搜索、深度問答、文本理解等應(yīng)用提供有力支撐,已成為數(shù)據(jù)管理、數(shù)據(jù)挖掘和信息抽取等領(lǐng)域的一個(gè)重要研究方向.相比于傳統(tǒng)的數(shù)據(jù)集成,在面向大規(guī)模的數(shù)據(jù)和知識(shí)融合過程中,融合算法的效率、多源數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估和基于語義的數(shù)據(jù)和知識(shí)融合等都給現(xiàn)有的數(shù)據(jù)集成和知識(shí)融合技術(shù)帶來了巨大的挑戰(zhàn).
2016年《計(jì)算機(jī)研究與發(fā)展》數(shù)據(jù)融合與知識(shí)融合專題側(cè)重大規(guī)模數(shù)據(jù)和知識(shí)的抽取、融合及應(yīng)用等諸多方面,涉及到數(shù)據(jù)管理、信息抽取和知識(shí)工程等多個(gè)交叉學(xué)科領(lǐng)域,研究主題包括數(shù)據(jù)與知識(shí)抽取技術(shù)、歧義性消除、數(shù)據(jù)與知識(shí)融合技術(shù)、數(shù)據(jù)與知識(shí)建模、關(guān)聯(lián)知識(shí)庫的應(yīng)用等.本期專題經(jīng)過公開征文收到43篇投稿,并最終收錄了7篇論文,內(nèi)容涉及實(shí)體抽取、實(shí)體鏈接、數(shù)據(jù)融合與溯源、短文本理解、數(shù)據(jù)查詢、知識(shí)表示等主題,為相關(guān)領(lǐng)域的研究者探討面向大數(shù)據(jù)的數(shù)據(jù)融合與知識(shí)融合的基礎(chǔ)理論研究及其應(yīng)用、討論該領(lǐng)域內(nèi)最新的突破性進(jìn)展、交流新的學(xué)術(shù)思想和新方法以及展望未來的發(fā)展趨勢(shì)提供了很好的溝通和交流機(jī)會(huì).
隨著大規(guī)模數(shù)據(jù)的關(guān)聯(lián)、交叉和融合,當(dāng)下亟待解決的問題是如何利用數(shù)據(jù)的關(guān)聯(lián)、交叉和融合實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值最大化.“大數(shù)據(jù)融合研究:?jiǎn)栴}與挑戰(zhàn)”(孟小峰等,中國人民大學(xué))一文認(rèn)為,解決這一問題的關(guān)鍵在于數(shù)據(jù)的集成或融合.該文提出了大數(shù)據(jù)融合的概念,并以Web數(shù)據(jù)、科學(xué)數(shù)據(jù)和商業(yè)數(shù)據(jù)的融合作為案例分析了大數(shù)據(jù)融合的需求和必要性,同時(shí)總結(jié)分析了現(xiàn)有數(shù)據(jù)融合技術(shù).最后針對(duì)大數(shù)據(jù)融合可能面臨的挑戰(zhàn)進(jìn)行了展望.最近,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)受到廣泛關(guān)注.表示學(xué)習(xí)旨在將研究對(duì)象的語義信息表示為稠密低維實(shí)值向量,知識(shí)表示學(xué)習(xí)則面向知識(shí)庫中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí).該技術(shù)可以在低維空間中高效計(jì)算實(shí)體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識(shí)獲取、融合和推理的性能得到顯著提升.“知識(shí)表示學(xué)習(xí)研究進(jìn)展”(劉知遠(yuǎn)等,清華大學(xué))介紹知識(shí)表示學(xué)習(xí)的最新成果,總結(jié)該技術(shù)面臨的主要挑戰(zhàn)和可能解決方案,并展望該技術(shù)的未來發(fā)展方向與前景.
圖靈在1950年的論文“計(jì)算機(jī)器與智能”中提出了圖靈測(cè)試的概念,期望從行為主義角度來定義機(jī)器智能,而人機(jī)對(duì)話也成為人工智能領(lǐng)域的目標(biāo).“短文本理解研究”(王仲遠(yuǎn)等,微軟亞洲研究院)正是把這一重要但又充滿挑戰(zhàn)的任務(wù)作為目標(biāo),針對(duì)短文本的不遵循語法規(guī)則、長(zhǎng)度短、信息量小等特點(diǎn),將短文本分析的方法分為了隱性語義、半顯性語義、顯性語義3種語義分析方法,總結(jié)并提出了文本粒度和詞粒度模型,并提出了2種可行的解決方案.
實(shí)體鏈接是文本分析會(huì)議(TAC)知識(shí)庫構(gòu)建領(lǐng)域設(shè)定的基本挑戰(zhàn),其目標(biāo)是將從文本中提取到的實(shí)體指稱項(xiàng)正確地鏈接到知識(shí)庫中對(duì)應(yīng)的實(shí)體對(duì)象上.“基于圖的中文集成實(shí)體鏈接算法”(劉嶠等,電子科技大學(xué))提出一種新穎的基于圖的中文集成實(shí)體鏈接方法,