Text-to-SQL文本信息處理技術(shù)研究綜述

2024-07-20 00:00:00彭鈺寒喬少杰薛騏李江敏謝添丞徐康鐳冉黎瓊曾少北

無線電工程 2024年5期

摘要：信號(hào)與信息處理的需求日益增加，離不開數(shù)據(jù)處理技術(shù)，數(shù)據(jù)處理需要數(shù)據(jù)庫的支持，然而沒有經(jīng)過訓(xùn)練的使用者會(huì)因?yàn)椴皇煜?shù)據(jù)庫操作產(chǎn)生諸多問題。文本轉(zhuǎn)結(jié)構(gòu)化查詢語言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，Ｔｅｘｔ-ｔｏ-ＳＱＬ）的出現(xiàn)，使用戶無需掌握結(jié)構(gòu)化查詢語言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）也能夠熟練操作數(shù)據(jù)庫。介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ的研究背景及面臨的挑戰(zhàn)；介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ關(guān)鍵技術(shù)、基準(zhǔn)數(shù)據(jù)集、模型演變及最新研究進(jìn)展，關(guān)鍵技術(shù)包括Ｔｒａｎｓｆｏｒｍｅｒ等主流技術(shù)，用于模型訓(xùn)練的基準(zhǔn)數(shù)據(jù)集包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；介紹Ｔｅｘｔ-ｔｏ-ＳＱＬ不同階段模型的特點(diǎn)，詳細(xì)闡述Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究成果的工作原理，包括模型構(gòu)建、解析器設(shè)計(jì)及數(shù)據(jù)集生成；總結(jié)Ｔｅｘｔ-ｔｏ-ＳＱＬ未來的發(fā)展方向及研究重點(diǎn)。

關(guān)鍵詞：文本轉(zhuǎn)結(jié)構(gòu)化查詢語言；解析器；文本信息處理；數(shù)據(jù)庫；深度學(xué)習(xí)

中圖分類號(hào)：ＴＰ３９１．１文獻(xiàn)標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（ＯＳＩＤ）：

文章編號(hào)：１００３－３１０６（２０２４）０５－１０５３－１０

０引言

隨著信號(hào)與信息處理領(lǐng)域（圖像處理、文本處理、數(shù)據(jù)處理、語音處理等）研究工作的快速發(fā)展，需要考慮如何高效和準(zhǔn)確地處理、查詢、存儲(chǔ)數(shù)據(jù)信息，因此數(shù)據(jù)庫成為首選工具。專業(yè)人員可以熟練使用結(jié)構(gòu)化查詢語言（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）對(duì)數(shù)據(jù)庫中的信息進(jìn)行增刪改查，但是越來越多的應(yīng)用開始投入到信號(hào)與信息處理領(lǐng)域，并非所有使用者都擁有專業(yè)的數(shù)據(jù)庫使用技巧，所以將用戶輸入的文本自動(dòng)轉(zhuǎn)換為機(jī)器可執(zhí)行ＳＱＬ的文本轉(zhuǎn)結(jié)構(gòu)化查詢語言（ＴｅｘｔｔｏＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＴｅｘｔｔｏＳＱＬ）文本信息處理技術(shù)產(chǎn)生并蓬勃發(fā)展［１］。

Ｔｅｘｔ-ｔｏ-ＳＱＬ研究面臨的挑戰(zhàn)主要集中在３個(gè)方面：① 對(duì)輸入的文本進(jìn)行預(yù)處理，理解輸入的自然語言的含義，提取文本涉及的數(shù)據(jù)庫關(guān)鍵字、列名和表名，減小模型訓(xùn)練難度；② 將經(jīng)過預(yù)處理的文本轉(zhuǎn)換成一種中間表示，ＳＱＬ的作用并非是方便閱讀，而是提高計(jì)算機(jī)處理數(shù)據(jù)庫的效率，它與文本之間存在巨大的差距，所以需要建立文本與數(shù)據(jù)庫語句之間的映射關(guān)系，提高文本轉(zhuǎn)化數(shù)據(jù)庫語句的效率；③ 將中間表示轉(zhuǎn)化為最終的ＳＱＬ語句。

傳統(tǒng)的Ｔｅｘｔ-ｔｏ-ＳＱＬ方法雖然有效，但需要耗費(fèi)大量的人力，需要提前為各種場(chǎng)景下的ＳＱＬ設(shè)置轉(zhuǎn)換模板，過程十分繁瑣［２］，并且傳統(tǒng)方法沒有解決上述Ｔｅｘｔ-ｔｏ-ＳＱＬ面臨的挑戰(zhàn)，轉(zhuǎn)換模板沒有設(shè)置文本與ＳＱＬ之間的中間表示，導(dǎo)致文本與ＳＱＬ之間的轉(zhuǎn)換效率低下。隨著近年來深度學(xué)習(xí)的崛起，深度學(xué)習(xí)逐漸運(yùn)用到Ｔｅｘｔ-ｔｏ-ＳＱＬ中。在眾多深度學(xué)習(xí)模型中，循環(huán)神經(jīng)網(wǎng)絡(luò)模型在這一領(lǐng)域的效果最佳，因?yàn)槲谋菊Z言和ＳＱＬ都可以當(dāng)作序列信息，需要結(jié)合前后文信息預(yù)測(cè)當(dāng)前信息，所以主要用于處理序列信息（文本、視頻和音頻等）的循環(huán)神經(jīng)網(wǎng)絡(luò)模型在Ｔｅｘｔ-ｔｏ-ＳＱＬ研究中效果較好。

１關(guān)鍵技術(shù)

文本和ＳＱＬ都是序列信息，使用處理序列信息的序列模型訓(xùn)練文本效果較好，本節(jié)針對(duì)常見的序列模型以及模型評(píng)判標(biāo)準(zhǔn)進(jìn)行介紹。Ｔｅｘｔ-ｔｏ-ＳＱＬ工作過程示例如圖１所示。

長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）［３］神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體，通過內(nèi)部的４類門控單元：輸入門控單元、遺忘門控單元、候選記憶門控單元和輸出門控單元對(duì)序列信息進(jìn)行篩選。ＬＳＴＭ單元在循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上，除了隱藏狀態(tài)（對(duì)應(yīng)短期記憶），還加入了記憶單元（對(duì)應(yīng)長期記憶），解決了序列信息作為輸入面臨的長期信息保存和短期輸入缺失的問題。

門控循環(huán)單元（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）［４］是ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)的簡化版本，將ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)內(nèi)部的４類門控單元簡化為２個(gè)門控單元：重置門控單元和更新門控單元。雖然ＧＲＵ針對(duì)簡易輸入的訓(xùn)練速度更快、效果更好，但面對(duì)輸入文本包含復(fù)雜語法和語義信息的情況，ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)是更好的選擇。

Ｔｒａｎｓｆｏｒｍｅｒ［５］模型是當(dāng)前主流深度學(xué)習(xí)模型，諸多文本處理工作都是基于Ｔｒａｎｓｆｏｒｍｅｒ完成的。Ｔｒａｎｓｆｏｒｍｅｒ是一種基于編碼器－解碼器的架構(gòu)，編碼器用于編碼輸入序列，將輸入序列變成向量形式并添加位置編碼，然后將其編碼為隱藏狀態(tài)輸出到解碼器中。解碼器除了接收編碼器的輸出，在每一個(gè)當(dāng)前時(shí)間步處理序列信息時(shí)，還會(huì)接受來自上一個(gè)時(shí)間步的輸出，解碼器也會(huì)將輸入信息轉(zhuǎn)變?yōu)橄蛄坎⑻砑游恢镁幋a?；冢裕颍幔睿?ｆｏｒｍｅｒ模型的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如圖２所示。

Ｂｅｒｔ［６］模型是Ｔｒａｎｓｆｏｒｍｅｒ模型的變體，Ｔｒａｎｓ-ｆｏｒｍｅｒ基于編碼器－解碼器架構(gòu)，Ｂｅｒｔ模型雖然僅有編碼器架構(gòu)，但其內(nèi)部的參數(shù)是Ｔｒａｎｓｆｏｒｍｅｒ的數(shù)倍，它是一種預(yù)訓(xùn)練微調(diào)模型，設(shè)置好預(yù)訓(xùn)練任務(wù)對(duì)模型進(jìn)行訓(xùn)練，訓(xùn)練后的模型僅需要針對(duì)不同的任務(wù)對(duì)輸出層進(jìn)行微調(diào)。Ｂｅｒｔ模型具有極高的泛化性，基于Ｂｅｒｔ的Ｔｅｘｔ-ｔｏ-ＳＱＬ模型工作原理如圖３所示。

域外數(shù)據(jù)（ＯｕｔｏｆＤｏｍａｉｎ）。數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測(cè)試集。訓(xùn)練集用于訓(xùn)練模型，開發(fā)集用于驗(yàn)證模型，測(cè)試集用于最后測(cè)試模型。因?yàn)闇y(cè)試集只能測(cè)試一次，不能用于多次訓(xùn)練測(cè)試模型好壞，所以在數(shù)據(jù)集比較大的情況下，可以劃分出開發(fā)集對(duì)模型訓(xùn)練效果進(jìn)行驗(yàn)證。域外數(shù)據(jù)是指訓(xùn)練集與開發(fā)集中不同的部分，過多會(huì)導(dǎo)致訓(xùn)練難度變大。

ＢＬＥＵ分?jǐn)?shù)（ＢｉｌｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙＳｃｏｒｅ）［７］用于評(píng)估序列模型語義解析的好壞，將文本解析為數(shù)據(jù)庫語句的好壞程度通常用ＢＬＥＵ分?jǐn)?shù)去評(píng)估。分?jǐn)?shù)值介于０～１，越接近１代表解析結(jié)果越接近參考值。除了ＢＬＥＵ分?jǐn)?shù)，還有ＭＥＴＥＯＲ、ＲＯＵＧＥ和ＰＰＬ等標(biāo)準(zhǔn)也可以評(píng)價(jià)解析模型的好壞，根據(jù)不同需求選擇不同的評(píng)價(jià)指標(biāo)。

２基準(zhǔn)數(shù)據(jù)集

高質(zhì)量的數(shù)據(jù)集能夠直接決定模型訓(xùn)練的效果，在Ｔｅｘｔ-ｔｏ-ＳＱＬ領(lǐng)域，用于絕大多數(shù)模型檢驗(yàn)常用的基準(zhǔn)數(shù)據(jù)集為ＷｉｋｉＳＱＬ［８］和Ｓｐｉｄｅｒ［９］數(shù)據(jù)集，其為大規(guī)模、多領(lǐng)域的基準(zhǔn)測(cè)試集，也是使用最為廣泛的基準(zhǔn)數(shù)據(jù)集。

ＷｉｋｉＳＱＬ是目前文本轉(zhuǎn)數(shù)據(jù)庫語句領(lǐng)域使用最頻繁的基準(zhǔn)數(shù)據(jù)集，包含約２５０００個(gè)維基百科數(shù)據(jù)表和８００００個(gè)由人工創(chuàng)建的自然語言與ＳＱＬ句子對(duì)，數(shù)據(jù)集中每一行由一個(gè)自然語言文本、一個(gè)文本對(duì)應(yīng)的ＳＱＬ查詢還有ＳＱＬ查詢中涉及的列和表組成。ＷｉｋｉＳＱＬ中的ＳＱＬ復(fù)雜性較低，因?yàn)槠鋬?nèi)部沒有使用復(fù)雜的ＳＱＬ子句，如：“ＪＯＩＮ”“ＧＲＯＵＰＢＹ”“ＯＲＤＥＲＢＹ”“ＵＮＩＯＮ”“ＩＮＴＥＲＳＥＣＴＩＯＮ”等，且在執(zhí)行查詢語句時(shí)不允許在單個(gè)查詢中選擇多個(gè)列。因此在訓(xùn)練模型時(shí)，ＷｉｋｉＳＱＬ的訓(xùn)練難度比較低，這是ＷｉｋｉＳＱＬ使用率最高的原因。

Ｓｐｉｄｅｒ是一個(gè)大規(guī)模的、復(fù)雜的跨領(lǐng)域數(shù)據(jù)集，包含來自１３８個(gè)不同領(lǐng)域的２００多個(gè)關(guān)系數(shù)據(jù)庫。相較于ＷｉｋｉＳＱＬ，Ｓｐｉｄｅｒ數(shù)據(jù)集具有更多復(fù)雜的嵌套查詢子句、更多的域外數(shù)據(jù)，讓訓(xùn)練更加困難。經(jīng)過Ｓｐｉｄｅｒ訓(xùn)練的機(jī)器學(xué)習(xí)模型可以變得更加泛化，研究人員廣泛依賴它訓(xùn)練可以生成復(fù)雜ＳＱＬ查詢的模型，適應(yīng)更多的任務(wù)。還有數(shù)據(jù)集針對(duì)Ｓｐｉｄｅｒ做了擴(kuò)展，用于訓(xùn)練指定任務(wù)。Ｓｐｉｄｅｒ-ｄｋ擴(kuò)展了Ｓｐｉｄｅｒ，用于訓(xùn)練跨領(lǐng)域泛化模型，探索模型在面對(duì)不同領(lǐng)域中專業(yè)名詞的表現(xiàn)；Ｓｐｉｄｅｒ-ｓｙｎ側(cè)重于訓(xùn)練模型區(qū)分同義詞、反義詞的性能。

此外，其他數(shù)據(jù)集，例如：ＫａｇｇｌｅＤＢＱＡ是一個(gè)跨域數(shù)據(jù)集［１０］，雖然規(guī)模比不上ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，但它是從Ｋａｇｇｌｅ中提取出來的，包含相當(dāng)多工業(yè)界的真實(shí)數(shù)據(jù)。

３模型演變

本節(jié)將按時(shí)間演變介紹文本轉(zhuǎn)數(shù)據(jù)庫領(lǐng)域的模型，模型發(fā)展歷程如圖４所示。

（１）理論提出

在文本轉(zhuǎn)數(shù)據(jù)庫語句領(lǐng)域，Ｌｉ等［１１］提出的ＳＱＬＮｅｔ是較早成理論體系的模型，該模型使用的方法基于草圖技術(shù)，草圖中包含數(shù)據(jù)庫語句的關(guān)鍵字、列名和表名，通過這個(gè)草圖，ＳＱＬＮｅｔ僅需往草圖留空處添加信息，就可以實(shí)現(xiàn)自然語言到數(shù)據(jù)庫語句的轉(zhuǎn)換。

（２）理論發(fā)展

基于ＳＱＬＮｅｔ，Ｍｉｎ等［１２］提出一種樹型結(jié)構(gòu)返回輸出的模型———Ｓｅｑｕｅｎｃｅ-ｔｏ-Ｔｒｅｅ。該模型可以看作是序列到樹的模型，使用ＬＳＴＭ網(wǎng)絡(luò)編碼器對(duì)輸入問題進(jìn)行編碼，在編碼器處理輸入序列后，通過解碼器輸出樹型結(jié)構(gòu)的ＳＱＬ查詢語句。模型通過識(shí)別單個(gè)詞元來理解輸入，并將其轉(zhuǎn)化為樹型結(jié)構(gòu)，樹節(jié)點(diǎn)上包括關(guān)鍵字（如ＳＥＬＥＣＴ、ＷＨＥＲＥ）、表名和列名。

（３）理論加工

這一階段數(shù)據(jù)庫領(lǐng)域開始大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建模型，采用中間表示生成查詢，顯著提高了計(jì)算效率。Ｋｅｖｉｎ等［１３］提出Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型以深度學(xué)習(xí)模型為基準(zhǔn)，引入了強(qiáng)化學(xué)習(xí)方法，將交叉熵?fù)p失和數(shù)據(jù)庫在運(yùn)行中執(zhí)行查詢的獎(jiǎng)勵(lì)函數(shù)作為模型評(píng)價(jià)指標(biāo)。該模型內(nèi)部采用了一種增強(qiáng)指針網(wǎng)絡(luò)，該網(wǎng)絡(luò)是一種能夠改變輸出序列長度的網(wǎng)絡(luò)架構(gòu)，相較于循環(huán)神經(jīng)網(wǎng)絡(luò)輸入輸出的序列長度需要一一對(duì)應(yīng)，增強(qiáng)指針網(wǎng)絡(luò)能使模型具有更好的性能。Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型由聚合分類器、ＳＥＬＥＣＴ組件和ＷＨＥＲＥ組件構(gòu)成。

Ｓｅｑｕｅｎｃｅ-ｔｏ-ＳＱＬ模型對(duì)查詢的聚合操作進(jìn)行分類，將輸入的文本數(shù)據(jù)分類為最大最小升序降序這類約束條件。聚類分類器內(nèi)部采用的是編碼器－解碼器架構(gòu)，編碼器內(nèi)部使用了雙向ＬＳＴＭ網(wǎng)絡(luò)，解碼器內(nèi)部采用普通的ＬＳＴＭ；ＳＥＬＥＣＴ組件用于處理輸入文本中的列名和表名；ＷＨＥＲＥ組件，用于確定用于轉(zhuǎn)換的數(shù)據(jù)庫語句約束條件。

（４）理論成型

這一階段文本轉(zhuǎn)數(shù)據(jù)庫語句技術(shù)趨于成熟，開始運(yùn)用復(fù)雜跨域文本數(shù)據(jù)集訓(xùn)練模型。大部分模型訓(xùn)練選用基準(zhǔn)數(shù)據(jù)集ＷｉｋｉＳＱＬ進(jìn)行訓(xùn)練，但Ｇｕｏ等［１４］提出的ＩＲＮｅｔ選用Ｓｐｉｄｅｒ數(shù)據(jù)集訓(xùn)練模型。相較于Ｓｐｉｄｅｒ數(shù)據(jù)集，ＷｉｋｉＳＱＬ的生態(tài)更加成熟，沒有復(fù)雜的嵌套查詢語句和大量域外數(shù)據(jù)，簡化了模型的訓(xùn)練過程，但Ｇｕｏ等［１４］的目的是訓(xùn)練適用于復(fù)雜且有跨域文本的數(shù)據(jù)庫，所以選用更為復(fù)雜的Ｓｐｉｄｅｒ對(duì)模型進(jìn)行訓(xùn)練。

ＩＲＮｅｔ是基于編碼器－解碼器架構(gòu)的模型，工作原理包括３個(gè)關(guān)鍵步驟：① 編碼器，分為問題編碼器（ＱｕｅｓｔｉｏｎＥｎｃｏｄｅｒ）和模式編碼器（ＳｃｈｅｍａＥｎ-ｃｏｄｅｒ）。問題編碼器內(nèi)部是雙向ＬＳＴＭ神經(jīng)網(wǎng)絡(luò)，負(fù)責(zé)預(yù)處理輸入數(shù)據(jù)，將輸入的文本詞元化，并使用Ｎｇｒａｍ算法對(duì)文本中出現(xiàn)的列名和表名賦予一個(gè)類，如果詞元是數(shù)據(jù)庫中的列則分配一個(gè)“Ｃｏｌｕｍｎ”，如果詞元是數(shù)據(jù)庫中的表則分配一個(gè)“Ｔａｂｌｅ”；模式編碼器負(fù)責(zé)為Ｎ-ｇｒａｍ算法中識(shí)別的列名、表名的準(zhǔn)確性匹配一個(gè)類型。其中有２個(gè)控制單元，模式單元和記憶單元，模式單元負(fù)責(zé)為Ｎ-ｇｒａｍ算法識(shí)別正確的列名和表名分配一個(gè)“ＥｘａｃｔＭａｔｃｈ”類型，沒有正確識(shí)別的列名和表名分配一個(gè)“ＰａｒｔｉａｌＭａｔｃｈ”類型，分配好類型后將這些信息送入記憶單元進(jìn)行存儲(chǔ)。② 解碼器，負(fù)責(zé)接收問題編碼器的輸出，將其作為自身的隱藏狀態(tài)，將文本數(shù)據(jù)轉(zhuǎn)化為樹型結(jié)構(gòu)中間表示樹。解碼器中有一套樹型結(jié)構(gòu)的轉(zhuǎn)化規(guī)則，樹中節(jié)點(diǎn)用字母Ｚ表示數(shù)據(jù)庫中的交集（ｉｎｔｅｒｓｅｃｔ）、并集（ｕｎｉｏｎ）和補(bǔ)集（ｅｘｃｅｐｔ）操作，沒有這些操作時(shí)也用字母Ｚ表示；樹中結(jié)點(diǎn)用字母Ｒ表示“ＳＥＬＥＣＴ”關(guān)鍵字；樹中結(jié)點(diǎn)“Ｓｅｌｅｃｔ”可以分化出一個(gè)或多個(gè)節(jié)點(diǎn)；樹中結(jié)點(diǎn)“Ｏｒｄｅｒ”對(duì)應(yīng)升序（ａｓｃ）和降序（ｄｅｓｃ）；樹中結(jié)點(diǎn)“Ｓｕｐｅｒｌａｔｉｖｅ”對(duì)應(yīng)最大（ｍｏｓｔ）和最?。ǎ欤澹幔螅簦?；樹中結(jié)點(diǎn)“Ｆｉｌｔｅｒ”表示過濾操作，對(duì)應(yīng)條件關(guān)鍵字，比如：大于、小于、等于、ｂｅ-ｔｗｅｅｎ、ｎｏｔｉｎ等；樹中結(jié)點(diǎn)“Ａ”表示可以分化出列和表，列和表分別用字母Ｃ和Ｔ表示。③ 輸出層，遍歷解碼器輸出的樹將其轉(zhuǎn)化為最終的ＳＱＬ語句。

４最新研究進(jìn)展

Ｏｃｔａｖｉａｎ等［１５］以編碼器－解碼器架構(gòu)為原型，提出了一個(gè)結(jié)合自動(dòng)訓(xùn)練數(shù)據(jù)增強(qiáng)及多模型集成技術(shù)的系統(tǒng)，該系統(tǒng)可以處理和提取輸入問題中的特定信息，從數(shù)據(jù)庫中將詞元連接到特定的表和列。編碼器中常用的實(shí)體識(shí)別（ＮａｍｅＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）模塊在該模型中被替換成消除歧義字典模塊（Ｄｉｓ-ａｍｂｉｇｕａｔｉｏｎＤｉｃｔｉｏｎａｒｙＭｏｄｕｌｅ），用于提供模型所需要的關(guān)鍵信息。系統(tǒng)具有以下優(yōu)勢(shì)：① 集成了種子訓(xùn)練數(shù)據(jù)增強(qiáng)技術(shù)，基于被稱為種子的初始訓(xùn)練語料庫，利用這種方法生成更大的訓(xùn)練集；② 使用不同的自動(dòng)生成訓(xùn)練數(shù)據(jù)集，訓(xùn)練不同的模型，并使用集成技術(shù)來分析組合多個(gè)模型的輸出。

Ｌｉ等［１６］提出了用于聚合表內(nèi)文本到數(shù)據(jù)庫語句轉(zhuǎn)換的方法———Ｗａｇｇ，該方法使用了一種動(dòng)態(tài)修剪策略對(duì)多個(gè)聚合表中的不相關(guān)項(xiàng)進(jìn)行修剪，大大減少模型訓(xùn)練的時(shí)間成本。聚合是一種數(shù)據(jù)批處理的操作，可以將數(shù)據(jù)分組，對(duì)每組數(shù)據(jù)執(zhí)行多種批處理操作。聚合表為經(jīng)過聚合處理的表，常用于頻繁使用查詢操作的情況。目前針對(duì)聚合表的文本轉(zhuǎn)數(shù)據(jù)庫語句方向的研究相對(duì)較少，主要面臨２個(gè)方面的挑戰(zhàn)：① 聚合表意味著更復(fù)雜的映射關(guān)系，在文本與數(shù)據(jù)庫語句進(jìn)行轉(zhuǎn)換時(shí)面臨更多歧義；② 目前的深度學(xué)習(xí)模型處理聚合表會(huì)產(chǎn)生巨大的時(shí)間成本。Ｌｉ等［１６］的方法使用動(dòng)態(tài)修剪策略克服了上述困難，讓聚合表這種復(fù)雜的數(shù)據(jù)庫表可以輸入模型進(jìn)行訓(xùn)練。

Ｗｅｉ等［１７］在解碼器中引入了多任務(wù)學(xué)習(xí)的共享機(jī)制，通過不同的子任務(wù)共享同一個(gè)解碼器來實(shí)現(xiàn)，可以有效降低模型的復(fù)雜性，并且允許不同子任務(wù)在訓(xùn)練過程中共享知識(shí)，使模型能夠更好地學(xué)習(xí)到不同子任務(wù)之間的依賴關(guān)系。文本轉(zhuǎn)數(shù)據(jù)庫語句使用基于編碼器－解碼器架構(gòu)的模型時(shí)，普通解碼器學(xué)習(xí)不同子任務(wù)之間相關(guān)性的能力有限，過于復(fù)雜的解碼器會(huì)增加訓(xùn)練成本。文獻(xiàn)［１７］的方法避免了上面２種情況，保證模型訓(xùn)練效果的同時(shí)避免了過高的模型復(fù)雜性。

Ｔｏｍｅｒ等［１８］提出了一種基于弱監(jiān)督學(xué)習(xí)的方法———Ｏｄｍｒｓ來訓(xùn)練模型中文本轉(zhuǎn)數(shù)據(jù)庫語句的解析器，其未使用手動(dòng)標(biāo)記的高質(zhì)量數(shù)據(jù)作為訓(xùn)練標(biāo)準(zhǔn)，而是使用非專業(yè)用戶提供的數(shù)據(jù)進(jìn)行訓(xùn)練，證明了模型強(qiáng)大的泛化性。解析器中合成ＳＱＬ的算法流程，如算法１所示。

算法１的工作原理為：定義一個(gè)數(shù)組ｍａｐｐｅｄ用于后續(xù)存儲(chǔ)變量（第１行）；利用啟發(fā)式函數(shù)ｆ將ｘｉ表達(dá)為結(jié)構(gòu)化形式Ｍｉ，根據(jù)模板推斷Ｍｉ中的具體操作（第２行）；然后通過弱監(jiān)督學(xué)習(xí)模型將結(jié)構(gòu)化表示Ｍｉ映射到數(shù)組中（第３～１４行），針對(duì)每個(gè)結(jié)構(gòu)化的表示Ｍｉ，提取出其中的列名和相關(guān)性強(qiáng)的ＳＱＬ查詢，并創(chuàng)建數(shù)組ｊｏｉｎ（第３～７行）。根據(jù)列與列之間的相關(guān)性和構(gòu)建的結(jié)構(gòu)化模板去生成ＳＱＬ查詢（第８～１４行），ＪＯＩＮＰ函數(shù)用于連接表之間的不同列，ＯＰＴＹＰＥ函數(shù)用于從結(jié)構(gòu)化模板中推斷Ｍｉ中的具體數(shù)據(jù)庫操作，ＭＡＰＳＱＬ函數(shù)將Ｍｉ映射到ＳＱＬ中；最后返回ＳＱＬ查詢（第１５行）。Ｔｅｘｔ-ｔｏ-ＳＱＬ最新研究進(jìn)展總結(jié)如表１所示。

Ｇｅｕｎｙｅｏｎｇ等［１９］提出了一種混合譯碼器，為ＳＱＬ生成構(gòu)建出基本結(jié)構(gòu)，結(jié)構(gòu)中包含每個(gè)查詢過程中可能需要使用的自行定義數(shù)據(jù)庫語句組件，混合解碼器依據(jù)該結(jié)構(gòu)依次生成ＳＱＬ查詢。Ｑｉ等［２０］提出了一種基于Ｔｒａｎｓｆｏｒｍｅｒ的架構(gòu)，利用Ｔｒａｎｓｆｏｒｍｅｒ中的自注意力機(jī)制識(shí)別表與表之間的關(guān)系，將模式連接和模式編碼等關(guān)系結(jié)構(gòu)引入模型，讓模型生成更符合邏輯的ＳＱＬ。Ｘｕ等［２１］提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法———ＳｅａＤ，將自回歸模型與序列到序列模型結(jié)合，過濾輸入文本，克服解碼過程對(duì)模型的限制，提高文本到ＳＱＬ的準(zhǔn)確性。Ｑｉｎ等［２２］設(shè)計(jì)了一種基于神經(jīng)網(wǎng)絡(luò)的方法———Ｓｕｎ，在Ｓｕｎ中使用一種啟發(fā)式的約束規(guī)則來限制模型輸出，提高模型的泛化性和穩(wěn)定性。Ｓｈｉ等［２３］針對(duì)跨語言文本到ＳＱＬ語義解析的問題，提出一種基于遷移學(xué)習(xí)的文本解析模型———ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇｉｎＣｒｏｓｓ-Ｌｉｎｇｕａｌ（ＸＲＩＣＬ），利用基于英文數(shù)據(jù)集的訓(xùn)練成果遷移到其他語言模型中。Ｐｉ等［２４］設(shè)計(jì)了一種名為Ａｄｖｅｔａ的系統(tǒng)，用于測(cè)試Ｔｅｘｔ-ｔｏ-ＳＱＬ模型魯棒性，使用ＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ（ＡＴＰ）指標(biāo)評(píng)估模型魯棒性，該系統(tǒng)內(nèi)部結(jié)構(gòu)主要是對(duì)抗生成框架，在監(jiān)測(cè)模型魯棒性的同時(shí)也能對(duì)模型進(jìn)行改進(jìn)。Ｈａｎ等［２５］提出一種基于圖的方法———ＲｕｌｅＳＱＬｏｖａ，偏向于處理數(shù)據(jù)庫中的聚合操作符。Ｚｈｅｎｇ等［２６］提出了一種基于模式連接圖的方法———ＨＩＥＳＱＬ，該方法增強(qiáng)輸入文本與ＳＱＬ之間的連接，提升了模式連接的準(zhǔn)確率。Ｘｉａｏ等［２７］基于上下文相關(guān)文本序列問題提出ＣｏｎｖｅｒｓａｔｉｏｎＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎ（ＣＱＲ）方法，該方法基于遞歸增強(qiáng)模式來生成文本與ＳＱＬ之間的中間表示，讓模型充分理解上下文語義，增強(qiáng)ＳＱＬ的解析能力。Ｗａｎｇ等［２８］提出了一種基于大規(guī)模預(yù)訓(xùn)練語言模型來誘導(dǎo)解析器對(duì)輸入文本進(jìn)行處理的方法———Ｐｒｏｔｏｎ，該方法是無監(jiān)督學(xué)習(xí)模型，無需對(duì)輸入文本進(jìn)行預(yù)處理。Ａｂｈｉｊｅｅｔ等［２９］提出了一種名為ＲＥＦＩＬＬ的框架，用于合成高質(zhì)量、多樣化的并行數(shù)據(jù)集，ＲＥＦＩＬＬ框架從現(xiàn)有模式中檢索和添加文本查詢，提高模型訓(xùn)練效率。Ｃｈｅｎ等［３０］提出了一種基準(zhǔn)數(shù)據(jù)集修改器，用于預(yù)訓(xùn)練基準(zhǔn)數(shù)據(jù)集ＳＱｕＡＬＬ時(shí)進(jìn)行分割，該解析器由模式擴(kuò)展和模式修剪組成，在訓(xùn)練過程中對(duì)輸入數(shù)據(jù)ＳＱｕＡＬＬ進(jìn)行合成與分割。Ｌｅｅ等［３１］設(shè)計(jì)了一種符合醫(yī)院應(yīng)用場(chǎng)景的數(shù)據(jù)庫———ＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ（ＥＨＲｓ），用于醫(yī)學(xué)場(chǎng)景下的模型訓(xùn)練。

５結(jié)束語

本文綜述了Ｔｅｘｔ-ｔｏ-ＳＱＬ文本處理技術(shù)最新研究成果，包括關(guān)鍵技術(shù)、基準(zhǔn)數(shù)據(jù)集、模型演變和最新研究進(jìn)展。關(guān)鍵技術(shù)包括ＬＳＴＭ、ＧＲＵ、Ｔｒａｎｓｆｏｒｍｅｒ、Ｂｅｒｔ、域外數(shù)據(jù)和ＢＬＥＵ分?jǐn)?shù)等技術(shù)；基準(zhǔn)數(shù)據(jù)集主要介紹了ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ；模型演變從４個(gè)階段詳述了Ｔｅｘｔ-ｔｏ-ＳＱＬ技術(shù)，包括理論提出、理論發(fā)展、理論加工和理論成型；最新研究進(jìn)展從模型構(gòu)建、解析器設(shè)計(jì)和數(shù)據(jù)集生成３個(gè)方面概述了最新研究成果。

在模型的構(gòu)建上，雖然大部分是基于Ｔｒａｎｓｆｏｒｍｅｒ的編碼器－解碼器架構(gòu)模型，但是ＣｈａｔＧｅｎｅｒａｔｉｖｅＰｅ-ｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒ（ＣｈａｔＧＰＴ）模型的成功預(yù)示著這類架構(gòu)具有很大的潛力，未來仍可以針對(duì)該結(jié)構(gòu)進(jìn)行改良，從不同角度提高模型性能。對(duì)于解析器而言，未來可以設(shè)計(jì)基于圖神經(jīng)網(wǎng)絡(luò)的模型，利用圖中節(jié)點(diǎn)之間的關(guān)系解析上下文，增加文本與ＳＱＬ之間的轉(zhuǎn)換效率。目前常用的數(shù)據(jù)集主要包括ＷｉｋｉＳＱＬ和Ｓｐｉｄｅｒ，數(shù)據(jù)集是決定模型訓(xùn)練效果好壞的重要因素，未來可以針對(duì)不同業(yè)務(wù)場(chǎng)景構(gòu)建出適合的基準(zhǔn)數(shù)據(jù)集用于該領(lǐng)域模型訓(xùn)練，如針對(duì)性的構(gòu)建適合法律、教育和互聯(lián)網(wǎng)等環(huán)境的訓(xùn)練數(shù)據(jù)集，讓模型在上述領(lǐng)域具有更好的性能。

此外，文本信息處理涉及隱私數(shù)據(jù)，隱私保護(hù)問題是不可忽視的，通常獲取的文本信息是公開的、性比較低的，不能擅自使用未公開或是私密性高的數(shù)據(jù)，未來可以制定相關(guān)規(guī)范或是制定更多的基準(zhǔn)數(shù)據(jù)集，吸引更多的研究者投入Ｔｅｘｔ-ｔｏ-ＳＱＬ領(lǐng)域的研究。

參考文獻(xiàn)

［１］ＧＥＯＲＧＥＫＭ，ＧＥＯＲＧＩＡＫ．ＡＳｕｒｖｅｙｏｎＤｅｅｐＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｅｓｆｏｒＴｅｘｔｔｏＳＱＬ［Ｊ］．ＴｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ，２０２３，３２（４）：９０５－９３６．

［２］ＧＵＺＨ，ＦＡＮＪ，ＴＡＮＧＮ，ｅｔａｌ．ＳａｍＭａｄｄｅｎ：ＦｅｗｓｈｏｔＴｅｘｔｔｏＳＱＬＴｒａｎｓｌａｔｉｏｎＵｓｉｎｇＳｔｒｕｃｔｕｒｅａｎｄＣｏｎｔｅｎｔＰｒｏｍｐｔＬｅａｒｎｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ，２０２３，１（２）：１４７．

［３］ＺＨＯＵＳＬ，ＬＩＪ，ＷＡＮＧＨ，ｅｔａｌ．ＧＲＬＳＴＭ：ＴｒａｊｅｃｔｏｒｙＳｉｍｉｌａｒｉｔｙＣｏｍｐｕｔａｔｉｏｎｗｉｔｈＧｒａｐｈｂａｓｅｄＲｅｓｉｄｕａｌＬＳＴＭ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｔｙｓｅｖｅｎｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．［Ｓ．ｌ．］：ＡＡＡＩ，２０２３：４９７２－４９８０．

［４］ＣＨＥＮＹ，ＣＡＯＨ，ＺＨＯＵＹＱ，ｅｔａｌ．ＡＧＣＮＧＲＵＢａｓｅｄＥｎｄｔｏＥｎｄＬＥＯＳａｔｅｌｌｉｔｅＮｅｔｗｏｒｋＤｙｎａｍｉｃＴｏｐｏｌｏｇｙＰｒｅｄｉｃｔｉｏｎＭｅｔｈｏｄ［Ｃ］∥２０１６ＩＥＥＥＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｇｌａｓｇｏｗ：ＩＥＥＥ，２０２３：１－６．

［５］ＣＨＡＴＺＩＡＮＡＳＴＡＳＩＳＭ，ＬＵＴＺＥＹＥＲＪＦ，ＤＡＳＯＵＬＡＳＧ，ｅｔａｌ．ＧｒｐｈＯｒｄｅｒｉｎｇＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０２２－０４－１１）［２０２３－０７－１０］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０４．０５３５１．

［６］ＺＨＡＯＷＣ，ＨＵＨＺ，ＺＨＯＵＷＧ，ｅｔａｌ．ＢＥＳＴ：ＢＥＲＴＰｒｅｔｒａｉｎｉｎｇｆｏｒＳｉｇｎＬａｎｇｕａｇｅＲｅｃｏｇｎｉｔｉｏｎｗｉｔｈＣｏｕｐｌｉｎｇＴｏｋｅｎｉｚａｔｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３７ｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＷａｓｈｉｎｇｔｏｎＤ．Ｃ．：ＡＡＡＩ，２０２３：３５９７－３６０５．

［７］ＳＡＭＡＮＴＡＤ，ＶＥＮＫＡＴＥＳＨＶ，ＭＯＮＩＫＡＧ，ｅｔａｌ．ＥｖａｌｕａｔｉｎｇＣｏｍｍｉｔＭｅｓｓａｇｅＧｅｎｅｒａｔｉｏｎ：ＴｏＢＬＥＵｏｒＮｏｔｔｏＢＬＥＵ？［Ｃ］∥２０２２ＩＥＥＥ／ＡＣＭ４４ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ：ＮｅｗＩｄｅａｓａｎｄＥｍｅｒｇｉｎｇＲｅｓｕｌｔｓ．Ｐｉｔｔｓｂｕｒｇｈ：ＩＥＥＥ，２０２３：３１－３５．

［８］ＳＥＭＩＨＹ，ＩＺＺＥＤＤＩＮＧ，ＳＵＹ，ｅｔａｌ．ＷｈａｔＩｔＴａｋｅｓｔｏＡｃｈｉｅｖｅ１００％ＣｏｎｄｉｔｉｏｎＡｃｃｕｒａｃｙｏｎＷｉｋｉＳＱＬ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：１７０２－１７１１．

［９］ＹＵＴ，ＺＨＡＮＧＲ，ＹＡＮＧＫ，ｅｔａｌ．Ｓｐｉｄｅｒ：ＡＬａｒｇｅｓｃａｌｅＨｕｍａｎｌａｂｅｌｅｄＤａｔａｓｅｔｆｏｒＣｏｍｐｌｅｘａｎｄＣｒｏｓｓｄｏｍａｉｎＳｅｍａｎｔｉｃＰａｒｓｉｎｇａｎｄＴｅｘｔｔｏＳＱＬＴａｓｋ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｂｒｕｓｓｅｌｓ：ＡＣＬ，２０１８：３９１１－３９２１．

［１０］ＬＥＥＣＨ，ＰＯＬＯＺＯＶＯＰ，ＲＩＣＨＡＲＤＳＯＮＭ．ＫａｇｇｌｅＤＢＱＡ：ＲｅａｌｉｓｔｉｃＥｖａｌｕａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．［Ｓ．ｌ．］：ＡＣＬ，２０２１：２２６１－２２７３．

［１１］ＬＩＤ，ＭＩＲＥＬＬＡＬ．ＬａｎｇｕａｇｅｔｏＬｏｇｉｃａｌＦｏｒｍｗｉｔｈＮｅｕｒａｌＡｔｔｅｎｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｂｅｒｌｉｎ：ＡＣＬ，２０１６：３３－４３．

［１２］ＭＩＮＱＫ，ＳＨＩＹＦ，ＺＨＡＮＧＹ．ＡＰｉｌｏｔＳｔｕｄｙｆｏｒＣｈｉｎｅｓｅＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１９ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰＩＪＣＮＬＰ）．ＨｏｎｇＫｏｎｇ：ＡＣＬ，２０１９：３６５２－３６５８．

［１３］ＫＥＶＩＮＳ，ＤＩＲＫＫ．Ｓｅｑ２ＳＱＬＥｖａｌｕａｔｉｎｇＤｉｆｆｅｒｅｎｔＤｅｅｐＬｅａｒｎｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅｓＵｓｉｎｇＷｏｒｄＥｍｂｅｄｄｉｎｇｓ［Ｃ］∥１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＤａｔａＭｉｎｉｎｇｉｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ：ＭＬＤＢ，２０１９：３４３－３５４．

［１４］ＧＵＯＪＱ，ＺＨＡＮＺＣ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＣｏｍｐｌｅｘＴｅｘｔｔｏＳＱＬｉｎＣｒｏｓｓｄｏｍａｉｎＤａｔａｂａｓｅｗｉｔｈＩｎｔｅｒｍｅｄｉａｔｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｆｌｏｒｅｎｃｅ：ＡＣＬ，２０１９：４５２４－４５３５．

［１５］ＯＣＴＡＶＩＡＮＰ，ＩＲＥＮＥＭ，ＮＧＯＣＰＡＯ，ｅｔａｌ．ＡｄｄｒｅｓｓｉｎｇＬｉｍｉｔａｔｉｏｎｓｏｆＥｎｃｏｄｅｒＤｅｃｏｄｅｒＢａｓｅｄＡｐｐｒｏａｃｈｔｏＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：１５９３－１６０３．

［１６］ＬＩＳＱ，ＺＨＯＵＫＢ，ＺＨＵＡＮＧＺＹ，ｅｔａｌ．ＴｏｗａｒｄｓＴｅｘｔｔｏＳＱＬｏｖｅｒＡｇｇｒｅｇａｔｅＴａｂｌｅｓ［Ｊ］．ＤａｔａＩｎｔｅｌｌｉｇｅｎｃｅ，２０２３，５（２）：４５７－４７４．

［１７］ＷＥＩＣ，ＨＵＡＮＧＳＢ，ＬＩＲＳ．ＥｎｈａｎｃｅＴｅｘｔｔｏＳＱＬＭｏｄｅｌＰｅｒｆｏｒｍａｎｃｅｗｉｔｈＩｎｆｏｒｍａｔｉｏｎＳｈａｒｉｎｇａｎｄＲｅｗｅｉｇｈｔＬｏｓｓ［Ｊ］．ＭｕｌｔｉｍｅｄｉａＴｏｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０２２，８１（１１）：１５２０５－１５２１７．

［１８］ＴＯＭＥＲＷ，ＤＡＮＩＥＬＤ，ＪＯＮＡＴＨＡＮＢ．ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇＴｈｒｏｕｇｈＱｕｅｓｔｉｏｎＤｅｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＮＡＡＣＬ２０２２．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：２５２８－２５４２．

［１９］ＧＥＵＮＹＥＯＮＧＪ，ＭＩＲＡＥＨ，ＳＥＵＬＧＩＫ，ｅｔａｌ．ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈａＨｙｂｒｉｄＤｅｃｏｄｉｎｇＭｅｔｈｏｄ［Ｊ］．Ｅｎｔｒｏｐｙ，２０２３，２５（３）：５１３．

［２０］ＱＩＪＸ，ＴＡＮＧＪＹ，ＨＥＺＷ，ｅｔａｌ．ＲＡＳＡＴ：ＩｎｔｅｇｒａｔｉｎｇＲｅｌａｔｉｏｎａｌＳｔｒｕｃｔｕｒｅｓｉｎｔｏＰｒｅｔｒａｉｎｅｄＳｅｑ２ＳｅｑＭｏｄｅｌｆｏｒＴｅｘｔｔｏＳＱＬ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：３２１５－３２２９．

［２１］ＸＵＫ，ＷＡＮＧＹＢ，ＷＡＮＧＹＬ，ｅｔａｌ．ＳｅａＤ：ＥｎｄｔｏＥｎｄＴｅｘｔｔｏＳＱＬＧｅｎｅｒａｔｉｏｎｗｉｔｈＳｃｈｅｍａａｗａｒｅＤｅｎｏｉｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｅａｔｔｌｅ：ＡＣＬ，２０２２：１８４５－１８５３．

［２２］ＱＩＮＢＷ，ＷＡＮＧＬＨ，ＨＵＩＢＹ，ｅｔａｌ．ＳＵＮ：ＥｘｐｌｏｒｉｎｇＩｎｔｒｉｎｓｉｃＵｎｃｅｒｔａｉｎｔｉｅｓｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｇｙｅｏｎｇｊｕ：ＩＣＣＬ，２０２２：５２９８－５３０８．

［２３］ＳＨＩＰ，ＺＨＡＮＧＲ，ＢＡＩＨ，ｅｔａｌ．ＸＲＩＣＬ：ＣｒｏｓｓｌｉｎｇｕａｌＲｅｔｒｉｅｖａｌａｕｇｍｅｎｔｅｄＩｎｃｏｎｔｅｘｔＬｅａｒｎｉｎｇｆｏｒＣｒｏｓｓｌｉｎｇｕａｌＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：５２４８－５２５９．

［２４］ＰＩＸＹ，ＷＡＮＧＢ，ＧＡＯＹ，ｅｔａｌ．ＴｏｗａｒｄｓＲｏｂｕｓｔｎｅｓｓｏｆＴｅｘｔｔｏＳＱＬＭｏｄｅｌｓＡｇａｉｎｓｔＮａｔｕｒａｌａｎｄＲｅａｌｉｓｔｉｃＡｄｖｅｒｓａｒｉａｌＴａｂｌｅＰｅｒｔｕｒｂａｔｉｏｎ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２００７－２０２２．

［２５］ＨＡＮＳＫ，ＧＡＯＮ，ＧＵＯＸＢ，ｅｔａｌ．ＲｕｌｅＳＱＬｏｖａ：ＩｍｐｒｏｖｉｎｇＴｅｘｔｔｏＳＱＬｗｉｔｈＬｏｇｉｃＲｕｌｅｓ［Ｃ］∥２０２２ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｐａｄｕａ：ＩＥＥＥ，２０２２：１－８．

［２６］ＺＨＥＮＧＹＺ，ＷＡＮＧＨＢ，ＤＯＮＧＢＨ，ｅｔａｌ．ＨＩＥＳＱＬ：ＨｉｓｔｏｒｙＩｎｆｏｒｍａｔｉｏｎＥｎｈａｎｃｅｄＮｅｔｗｏｒｋｆｏｒＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＳｅｍａｎｔｉｃＰａｒｓｉｎｇ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：２９９７－３００７．

［２７］ＸＩＡＯＤＬ，ＣＨＡＩＬＺ，ＺＨＡＮＧＱＷ，ｅｔａｌ．ＣＱＲＳＱＬ：ＣｏｎｖｅｒｓａｔｉｏｎａｌＱｕｅｓｔｉｏｎＲｅｆｏｒｍｕｌａｔｉｏｎＥｎｈａｎｃｅｄＣｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥ＦｉｎｄｉｎｇｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：２０５５－２０６８．

［２８］ＷＡＮＧＬＨ，ＱＩＮＢＷ，ＨＵＩＢＹ，ｅｔａｌ．Ｐｒｏｔｏｎ：ＰｒｏｂｉｎｇＳｃｈｅｍａＬｉｎｋｉｎｇＩｎｆｏｒｍａｔｉｏｎｆｒｏｍＰｒｅｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌｓｆｏｒＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡＣＭＳＩＧＫＤＤＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０２２：１８８９－１８９８．

［２９］ＡＢＨＩＪＥＥＴＡ，ＡＳＨＵＴＯＳＨＳ，ＳＵＮＩＴＡＳ．ＤｉｖｅｒｓｅＰａｒａｌｌｅｌＤａｔａＳｙｎｔｈｅｓｉｓｆｏｒＣｒｏｓｓｄａｔａｂａｓｅＡｄａｐｔａｔｉｏｎｏｆＴｅｘｔｔｏＳＱＬＰａｒｓｅｒｓ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０２２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡｂｕＤｈａｂｉ：ＡＣＬ，２０２２：１１５４８－１１５６２．

［３０］ＣＨＥＮＺ，ＳＵＹ，ＡＤＡＭＰ，ｅｔａｌ．ＢｒｉｄｇｉｎｇｔｈｅＧｅｎｅｒａｌｉｚａｔｉｏｎＧａｐｉｎＴｅｘｔｔｏＳＱＬＰａｒｓｉｎｇｗｉｔｈＳｃｈｅｍａＥｘｐａｎｓｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｄｕｂｌｉｎ：ＡＣＬ，２０２２：５５６８－５５７８．

［３１］ＬＥＥＧ，ＨＷＡＮＧＨ，ＢＡＥＳ，ｅｔａｌ．ＥＨＲＳＱＬ：ＡＰｒａｃｔｉｃａｌＴｅｘｔｔｏＳＱＬＢｅｎｃｈｍａｒｋｆｏｒＥｌｅｃｔｒｏｎｉｃＨｅａｌｔｈＲｅｃｏｒｄｓ［ＥＢ／ＯＬ］．（２０２３－０１－１６）［２０２３－０７－１８］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２３０１．０７６９５．

作者簡介

彭鈺寒男，（１９９９—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

（*通信作者）喬少杰男，（１９８１—），博士，教授。主要研究方向：人工智能數(shù)據(jù)庫、時(shí)空數(shù)據(jù)庫、機(jī)器學(xué)習(xí)。

薛騏男，（１９９９—），碩士研究生。主要研究方向：時(shí)空數(shù)據(jù)庫。

李江敏男，（１９９７—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

謝添丞男，（１９９７—），碩士研究生。主要研究方向：軌跡預(yù)測(cè)。

徐康鐳男，（１９９９—），碩士研究生。主要研究方向：人工智能數(shù)據(jù)庫。

冉黎瓊女，（１９９８—），碩士研究生。主要研究方向：數(shù)據(jù)挖掘、云計(jì)算。

曾少北男，（１９８０—），碩士。主要研究方向：數(shù)據(jù)智能應(yīng)用。

基金項(xiàng)目：國家自然科學(xué)基金（６２２７２０６６，６１９６２００６）；四川省科技計(jì)劃（２０２１ＪＤＪＱ００２１，２０２２ＹＦＧ０１８６，２０２２ＮＳＦＳＣ０５１１，２０２３ＹＦＧ００２７）；教育部人文社會(huì)科學(xué)研究規(guī)劃基金（２２ＹＪＡＺＨ０８８）；宜賓市引進(jìn)高層次人才項(xiàng)目（２０２２ＹＧ０２）；成都市“揭榜掛帥”科技項(xiàng)目（２０２２-ＪＢ００-００００２-ＧＸ，２０２１-ＪＢ００-０００２５-ＧＸ）；四川省教育廳人文社科重點(diǎn)研究基地四川網(wǎng)絡(luò)文化研究中心資助科研項(xiàng)目（ＷＬＷＨ２２-１）；成都信息工程大學(xué)國家智能社會(huì)治理實(shí)驗(yàn)基地開放課題（ＺＮＺＬ２０２３Ｂ０５）；成都信息工程大學(xué)科技創(chuàng)新能力提升計(jì)劃（ＫＹＴＤ２０２２２２）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Text-to-SQL文本信息處理技術(shù)研究綜述