實(shí)際工程問(wèn)題的求解往往涉及跨領(lǐng)域、跨模態(tài)的海量碎片化知識(shí),這些知識(shí)不能僅靠專(zhuān)家提供,而需要從環(huán)境中動(dòng)態(tài)學(xué)習(xí)和融合生成.知識(shí)工程旨在研究計(jì)算機(jī)對(duì)知識(shí)的獲取、表征和處理.隨著UGC(User Generated Content)模式的興起,一種新的知識(shí)工程范式——大數(shù)據(jù)知識(shí)工程應(yīng)運(yùn)而生.
和早期的專(zhuān)家系統(tǒng)相比,大數(shù)據(jù)知識(shí)工程的顯著特點(diǎn)是:實(shí)現(xiàn)了從以文本、小規(guī)模、靜態(tài)、人工方式的專(zhuān)家知識(shí)計(jì)算機(jī)表示,到多模態(tài)、大規(guī)模、動(dòng)態(tài)不確定環(huán)境下知識(shí)的自動(dòng)獲取與表征的跨越式發(fā)展.大數(shù)據(jù)知識(shí)工程的核心科學(xué)問(wèn)題是大數(shù)據(jù)碎片知識(shí)的挖掘和融合.
《計(jì)算機(jī)研究與發(fā)展》推出了大數(shù)據(jù)知識(shí)工程及應(yīng)用專(zhuān)題,以促進(jìn)該方向新的研究與發(fā)展.本專(zhuān)題得到同行的廣泛關(guān)注,通過(guò)公開(kāi)征文收到18篇高質(zhì)量投稿稿件,這些論文闡述了大數(shù)據(jù)知識(shí)工程的重要研究成果和發(fā)展前景.特邀編委先后邀請(qǐng)了20余位相關(guān)領(lǐng)域的專(zhuān)家參與評(píng)審,歷經(jīng)初審、復(fù)審、終審等階段,最終遴選出3篇高質(zhì)量的論文入選本專(zhuān)題.內(nèi)容涵蓋了零樣本學(xué)習(xí)、表示學(xué)習(xí)等大數(shù)據(jù)知識(shí)工程的關(guān)鍵技術(shù),在一定程度上反映了當(dāng)前國(guó)內(nèi)學(xué)者在大數(shù)據(jù)知識(shí)工程的典型應(yīng)用.
零樣本學(xué)習(xí)旨在識(shí)別具有少量、甚至沒(méi)有訓(xùn)練樣本的未見(jiàn)類(lèi),這些類(lèi)與可見(jiàn)類(lèi)遵循不同的數(shù)據(jù)分布;已有方法通過(guò)共享生成器和解碼器,通過(guò)深度神經(jīng)網(wǎng)絡(luò)聯(lián)合傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)和變分自編碼器來(lái)實(shí)現(xiàn)樣本的合成.然而,由于這兩種生成網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)分布不同,聯(lián)合模型合成的數(shù)據(jù)不再滿足單一的模型分布,而是遵循復(fù)雜的多域分布,即生成器域分布和解碼器域分布.為此,劉歡等作者的“基于跨域?qū)箤W(xué)習(xí)的零樣本分類(lèi)”一文提出跨域?qū)股删W(wǎng)絡(luò)(CrossD-AGN),將傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)和變分自編碼器有機(jī)結(jié)合起來(lái),基于類(lèi)級(jí)語(yǔ)義信息為未見(jiàn)類(lèi)合成樣本,從而實(shí)現(xiàn)零樣本分類(lèi).
知識(shí)圖譜的核心為三元組形式的實(shí)體和關(guān)系,因此,如何通過(guò)實(shí)體關(guān)系抽取方法來(lái)補(bǔ)全或者構(gòu)建新的知識(shí)圖譜顯得至關(guān)重要.傳統(tǒng)流水線式的實(shí)體關(guān)系抽取方法會(huì)導(dǎo)致誤差傳遞,而已有的聯(lián)合抽取沒(méi)有充分考慮命名實(shí)體識(shí)別與關(guān)系抽取之間的聯(lián)系,從而降低抽取效果.針對(duì)上述問(wèn)題,黃培馨等作者的“融合對(duì)抗訓(xùn)練的端到端知識(shí)三元組聯(lián)合抽取”一文提出了一種融合對(duì)抗訓(xùn)練的端到端知識(shí)三元組聯(lián)合抽取方法.首先采用了一種實(shí)體關(guān)系聯(lián)合標(biāo)注策略,通過(guò)端到端的神經(jīng)網(wǎng)絡(luò)抽取文本語(yǔ)義特征,并對(duì)文本進(jìn)行自動(dòng)標(biāo)注;其次,模型在神經(jīng)網(wǎng)絡(luò)中加入自注意力機(jī)制增強(qiáng)文本信息的編碼能力,并通過(guò)引入帶偏置項(xiàng)的目標(biāo)函數(shù)提高關(guān)系相關(guān)實(shí)體的辨識(shí)能力,最后,模型融合了對(duì)抗訓(xùn)練以提高魯棒性,改進(jìn)模型抽取效果.
杜治娟等作者的“TransNS:基于鄰域和語(yǔ)義親和力的開(kāi)放知識(shí)圖譜表示學(xué)習(xí)”一文針對(duì)允許新實(shí)體存在的開(kāi)放知識(shí)圖譜(knowledge graph,KG),提出一種表示學(xué)習(xí)方法TransNS.它選取相關(guān)的鄰居實(shí)體作為實(shí)體的屬性來(lái)推斷新實(shí)體,并在學(xué)習(xí)階段利用實(shí)體之間的語(yǔ)義親和力選擇負(fù)例三元組來(lái)增強(qiáng)語(yǔ)義交互能力.
承蒙各位作者、審稿專(zhuān)家、編輯部各方面的全力支持,本專(zhuān)題得以順利出版.在審稿過(guò)程中難免出現(xiàn)不盡人意之處,希望各位作者和讀者包容諒解,同時(shí)也請(qǐng)各位同行不吝批評(píng)指正.
特別感謝《計(jì)算機(jī)研究與發(fā)展》編委會(huì)和編輯部,從專(zhuān)題的立項(xiàng)到征稿啟事的發(fā)布,從審稿專(zhuān)家的邀請(qǐng)到評(píng)審意見(jiàn)的匯總,以及最后的定稿、修改和出版工作,都凝聚了他們辛勤的汗水.本專(zhuān)題的出版期望能給廣大相關(guān)領(lǐng)域研究人員帶來(lái)啟發(fā)和幫助.