陳 雷,王宏志,童詠昕,高 宏
1(香港科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)系,香港 999077)
2(哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部,黑龍江 哈爾濱 150001)
3(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
近年來,支撐人工智能的數(shù)據(jù)管理與分析技術(shù)正成為大數(shù)據(jù)和人工智能領(lǐng)域研究的熱點(diǎn)問題之一.利用和發(fā)展數(shù)據(jù)管理與分析理論技術(shù),為提升人工智能系統(tǒng)全生命周期的效率和有效性提供基礎(chǔ)性支撐,必將進(jìn)一步促進(jìn)基于大數(shù)據(jù)的人工智能技術(shù)發(fā)展與其在更大范圍的推廣應(yīng)用.本??劢乖跀?shù)據(jù)管理與人工智能融合發(fā)展的過程中,數(shù)據(jù)庫(kù)技術(shù)對(duì)人工智能的優(yōu)化支撐作用,包括兩方面:(1)傳統(tǒng)數(shù)據(jù)管理分析的理論技術(shù)對(duì)人工智能的數(shù)據(jù)和計(jì)算過程的優(yōu)化;(2)傳統(tǒng)數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)理念對(duì)開發(fā)通用且易用型人工智能平臺(tái)的促進(jìn)作用.因此,需要利用和發(fā)展現(xiàn)有數(shù)據(jù)庫(kù)理論,構(gòu)建形成新的技術(shù)和系統(tǒng)經(jīng)驗(yàn).??攸c(diǎn)立足于數(shù)據(jù)庫(kù)核心技術(shù),探討數(shù)據(jù)管理與分析技術(shù)對(duì)人工智能研究發(fā)展推動(dòng)作用,特別是數(shù)據(jù)管理分析的理論技術(shù)對(duì)人工智能在數(shù)據(jù)和計(jì)算密集環(huán)節(jié)的優(yōu)化,以及數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)理念與開發(fā)經(jīng)驗(yàn)對(duì)構(gòu)建通用型人工智能平臺(tái)的促進(jìn)作用,重點(diǎn)關(guān)注數(shù)據(jù)管理與分析技術(shù)對(duì)人工智能在數(shù)據(jù)存儲(chǔ)、算法優(yōu)化、模型管理、模型服務(wù)、系統(tǒng)構(gòu)建等方面的支撐作用.
本??_征文,共收到投稿36 篇.論文均通過了形式審查,內(nèi)容涉及支撐人工智能的數(shù)據(jù)管理、分析、系統(tǒng)與應(yīng)用.特約編輯先后邀請(qǐng)了 60 多位專家參與審稿工作,每篇投稿至少邀請(qǐng)2 位專家進(jìn)行評(píng)審.稿件經(jīng)初審、復(fù)審、NDBC 2020 會(huì)議宣讀和終審共4 個(gè)階段,歷時(shí)6 個(gè)月,最終有17 篇論文入選本???根據(jù)主題,這些論文可以分為5 組.
《支撐機(jī)器學(xué)習(xí)的數(shù)據(jù)管理技術(shù)綜述》從數(shù)據(jù)管理的視角對(duì)機(jī)器學(xué)習(xí)訓(xùn)練過程進(jìn)行解構(gòu)和建模,從數(shù)據(jù)選擇、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)存取、自動(dòng)優(yōu)化和系統(tǒng)實(shí)現(xiàn)等方面,綜述并提出支持機(jī)器學(xué)習(xí)數(shù)據(jù)管理的若干關(guān)鍵技術(shù)挑戰(zhàn).
《數(shù)據(jù)庫(kù)內(nèi)AI 模型優(yōu)化》提出一種“預(yù)篩選+驗(yàn)證”對(duì)AI 模型推理進(jìn)行優(yōu)化的框架,分析探討了決策樹等多個(gè)機(jī)器學(xué)習(xí)模型的優(yōu)化技術(shù),并通過擴(kuò)展SQL 支持了決策樹訓(xùn)練與推理,所提出的方法能夠?qū)Α敖柚鷽Q策樹模型推理結(jié)果對(duì)數(shù)據(jù)進(jìn)行篩選”的應(yīng)用場(chǎng)景起到較好的加速效果.
《圖嵌入算法的分布式優(yōu)化與實(shí)現(xiàn)》提出一種通用的分布式圖嵌入框架,將圖嵌入算法中的采樣流程和訓(xùn)練流程進(jìn)行解耦,并設(shè)計(jì)了一種基于參數(shù)服務(wù)器的模型切分嵌入策略,從而大幅減少分布式計(jì)算中的通信開銷.
《時(shí)序圖節(jié)點(diǎn)嵌入策略的研究》提出了一種對(duì)時(shí)序圖節(jié)點(diǎn)進(jìn)行自適應(yīng)嵌入表達(dá)的方法ATGEB.結(jié)合信息在時(shí)序圖中的傳播特征,提出一種自適應(yīng)方式對(duì)其活躍時(shí)刻進(jìn)行聚類,并設(shè)計(jì)了雙向多叉樹索引結(jié)構(gòu)和節(jié)點(diǎn)采樣策略,在時(shí)序圖中節(jié)點(diǎn)間時(shí)序可達(dá)性檢測(cè)以及節(jié)點(diǎn)分類等問題上取得很好的實(shí)驗(yàn)效果.
《面向企業(yè)數(shù)據(jù)孤島的聯(lián)邦排序?qū)W習(xí)》提出了一種面向企業(yè)數(shù)據(jù)孤島的聯(lián)邦排序?qū)W習(xí)框架,并設(shè)計(jì)了交叉分割的聯(lián)邦學(xué)習(xí)策略、基于略圖的隱私保護(hù)技術(shù)和聯(lián)邦半監(jiān)督學(xué)習(xí)方法,進(jìn)而驗(yàn)證了所提方法的有效性.
《多區(qū)間速度約束下的時(shí)序數(shù)據(jù)清洗方法》提出了多區(qū)間速度約束下的時(shí)間序列數(shù)據(jù)修復(fù)方法,并采用動(dòng)態(tài)規(guī)劃方法來求解最優(yōu)修復(fù)路徑,進(jìn)而驗(yàn)證所提出方法的可行性和有效性,特別是其可提升人工智能結(jié)果質(zhì)量.
《基于Motif 聚集系數(shù)與時(shí)序劃分的高階鏈接預(yù)測(cè)方法》提出了一種基于Motif 聚集系數(shù)與時(shí)序劃分的高階鏈接預(yù)測(cè)模型,通過同時(shí)結(jié)合網(wǎng)絡(luò)中高階結(jié)構(gòu)的聚集特征與網(wǎng)絡(luò)結(jié)構(gòu)演變信息,提升預(yù)測(cè)效果與性能.
《面向時(shí)空?qǐng)D建模的圖小波卷積神經(jīng)網(wǎng)絡(luò)模型》提出了一種新的時(shí)空?qǐng)D建模圖小波卷積神經(jīng)網(wǎng)絡(luò)模型,通過結(jié)合圖小波卷積層和擴(kuò)展因果卷積層捕獲時(shí)空?qǐng)D節(jié)點(diǎn)間屬性特征的相關(guān)性,并設(shè)計(jì)了利用自適應(yīng)鄰接矩陣從數(shù)據(jù)中動(dòng)態(tài)學(xué)習(xí)隱層空間依賴關(guān)系的有效方法.
《捕獲局部語義結(jié)構(gòu)和實(shí)例辨別的無監(jiān)督哈?!诽岢隽艘环N基于語義結(jié)構(gòu)保持和實(shí)例分辨力的深度無監(jiān)督哈希學(xué)習(xí)框架.其對(duì)語義結(jié)構(gòu)進(jìn)行學(xué)習(xí)的同時(shí)也指導(dǎo)哈希編碼學(xué)習(xí),并被驗(yàn)證可有效提升哈希編碼的辨識(shí)力.
《用于表格事實(shí)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)模型》提出用于表格事實(shí)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)模型,利用表格的結(jié)構(gòu)特征結(jié)合圖注意力網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了以表格的行為單位的Row-GVM 和以表格的單元格為單位的Cell-GVM,進(jìn)而證明所提方法的高效性.
《PandaDB:一種異構(gòu)數(shù)據(jù)智能融合管理系統(tǒng)》提出了基于智能屬性圖模型的分布式數(shù)據(jù)融合管理系統(tǒng)PandaDB,該系統(tǒng)實(shí)現(xiàn)了結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的高效存儲(chǔ)管理,并提供了靈活的AI 算子擴(kuò)展機(jī)制,具備對(duì)多元異構(gòu)數(shù)據(jù)內(nèi)在信息的即席查詢能力.
《KGDB:統(tǒng)一模型和語言的知識(shí)圖譜數(shù)據(jù)庫(kù)管理系統(tǒng)》研發(fā)了統(tǒng)一模型和語言的知識(shí)圖譜數(shù)據(jù)庫(kù)管理系統(tǒng)KGDB,提出統(tǒng)一的存儲(chǔ)方案,解決了無類型三元組的存儲(chǔ)問題,并實(shí)現(xiàn)了兩種不同知識(shí)圖譜查詢語言的互操作,進(jìn)而驗(yàn)證該系統(tǒng)比gStore 和Neo4j 節(jié)省30%的存儲(chǔ)空間,查詢速度最高可提高2 個(gè)數(shù)量級(jí).
《基于Seq2Seq 模型的SparQL 查詢預(yù)測(cè)》 研究如何利用已有的信息進(jìn)行知識(shí)圖譜的查詢預(yù)測(cè),從而進(jìn)行數(shù)據(jù)的預(yù)加載與緩存,提高系統(tǒng)的響應(yīng)效率,提出了將SparQL 查詢提取為序列形式的方法,使用Seq2Seq 模型對(duì)其進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),并使用真實(shí)的數(shù)據(jù)集對(duì)方法進(jìn)行測(cè)試,實(shí)驗(yàn)表明所提出的方案具有良好的效果.
《LFKT:學(xué)習(xí)與遺忘融合的深度知識(shí)追蹤模型》針對(duì)學(xué)生遺忘行為對(duì)其知識(shí)掌握程度的影響,提出了融合學(xué)習(xí)與遺忘的深度知識(shí)追蹤模型LFKT.通過結(jié)合4 個(gè)影響知識(shí)遺忘因素,采用深度神經(jīng)網(wǎng)絡(luò)可實(shí)時(shí)追蹤由學(xué)生遺忘造成的知識(shí)水平變化過程.
《多尺度時(shí)序依賴的校園公共區(qū)域人流量預(yù)測(cè)》提出了一種基于深度學(xué)習(xí)的多尺度時(shí)序卷積網(wǎng)絡(luò)MSCNN 以對(duì)校園公共區(qū)域人流量進(jìn)行預(yù)測(cè).通過在真實(shí)校園環(huán)境測(cè)試,所提出模型的預(yù)測(cè)效果優(yōu)于其他已有的校園區(qū)域人流量數(shù)據(jù)預(yù)測(cè)方法,特別在捕獲多尺度時(shí)序模式方面更具優(yōu)勢(shì).
《基于人工智能方法的數(shù)據(jù)庫(kù)智能診斷》研究了OLTP 數(shù)據(jù)庫(kù)在實(shí)際運(yùn)行時(shí)可能遇到的異常,分析了這些異常和一系列監(jiān)控指標(biāo)之間的影響關(guān)系,提出了一種智能的數(shù)據(jù)庫(kù)異常診斷框架AutoMonitor,包括數(shù)據(jù)庫(kù)異常監(jiān)測(cè)、異常指標(biāo)提取和根因分析這3 個(gè)模塊,并部署在PostgreSQL 數(shù)據(jù)庫(kù),實(shí)驗(yàn)結(jié)果表明該框架對(duì)于異常診斷具有較高的精確度,并且不會(huì)對(duì)系統(tǒng)性能造成太大的影響.
《GPU 數(shù)據(jù)庫(kù)核心技術(shù)綜述》綜述了以GPU 計(jì)算為核心的數(shù)據(jù)庫(kù)系統(tǒng)(GDBMS)發(fā)展歷程,深入剖析GDBMS 的四大核心組件:查詢編譯器、查詢處理器、查詢優(yōu)化器和存儲(chǔ)管理器,并展望了其與人工智能、時(shí)空數(shù)據(jù)分析、數(shù)據(jù)可視化、商務(wù)智能等領(lǐng)域的交互應(yīng)用.
本??饕嫦驍?shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、信息檢索等多領(lǐng)域的研究人員和工程人員,反映了我國(guó)學(xué)者在支撐人工智能的數(shù)據(jù)管理、分析、系統(tǒng)與應(yīng)用領(lǐng)域最新的研究進(jìn)展.感謝《軟件學(xué)報(bào)》編委會(huì)和數(shù)據(jù)庫(kù)專委會(huì)對(duì)??ぷ鞯闹笇?dǎo)和幫助,感謝專刊全體評(píng)審專家及時(shí)、耐心、細(xì)致的評(píng)審工作,感謝踴躍投稿的所有作者.希望本??軌?qū)χ稳斯ぶ悄艿臄?shù)據(jù)管理、分析與系統(tǒng)相關(guān)領(lǐng)域的研究工作有所促進(jìn).