• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于專利語(yǔ)義表征的技術(shù)預(yù)見(jiàn)方法及其應(yīng)用

      2021-11-28 11:55賴朝安高晗
      中國(guó)集體經(jīng)濟(jì) 2021年36期
      關(guān)鍵詞:自然語(yǔ)言處理

      賴朝安 高晗

      摘要:技術(shù)預(yù)見(jiàn)是支持政府制定產(chǎn)業(yè)政策、企業(yè)進(jìn)行戰(zhàn)略布局的重要手段。當(dāng)前廣泛采用的技術(shù)預(yù)見(jiàn)方式是基于專家經(jīng)驗(yàn)的定性方式,易受到專家水平和觀點(diǎn)的影響,定量分析相比定性分析更加科學(xué)準(zhǔn)確。文章對(duì)Doc2Vec模型進(jìn)行改進(jìn),提出KWE-Doc2Vec模型,使用該模型提取專利摘要的編碼表示,計(jì)算得出專利相似度,以此為基礎(chǔ)提出一種技術(shù)預(yù)見(jiàn)分析框架。并結(jié)合自然語(yǔ)言處理領(lǐng)域的發(fā)展?fàn)顩r進(jìn)行實(shí)證研究,識(shí)別出該領(lǐng)域的技術(shù)發(fā)展路徑,對(duì)未來(lái)的技術(shù)機(jī)遇進(jìn)行了預(yù)測(cè)。

      關(guān)鍵詞:專利挖掘;技術(shù)預(yù)見(jiàn);Doc2Vec;自然語(yǔ)言處理

      一、研究背景

      技術(shù)預(yù)見(jiàn)是一項(xiàng)社會(huì)系統(tǒng)工程,通過(guò)前瞻性戰(zhàn)略研究,對(duì)未來(lái)的發(fā)展中具有重要戰(zhàn)略地位的研究領(lǐng)域做出預(yù)測(cè)。其綜合了科學(xué)、技術(shù)、經(jīng)濟(jì)和社會(huì)多方面的因素,確定在未來(lái)的發(fā)展中能給經(jīng)濟(jì)、社會(huì)帶來(lái)最大化利益的研究領(lǐng)域與技術(shù),對(duì)有限資源的優(yōu)化配置提供相應(yīng)的決策依據(jù),以期實(shí)現(xiàn)經(jīng)濟(jì)與社會(huì)利益的最大化。自20世紀(jì)90年代以來(lái),無(wú)論是英、美等發(fā)達(dá)國(guó)家,亦或是發(fā)展中國(guó)家,都積極地開展了大量的技術(shù)預(yù)見(jiàn)活動(dòng),儼然已成為世界潮流。這一潮流的形成主要是因?yàn)?,近年?lái)科學(xué)技術(shù)的發(fā)展呈幾何式增長(zhǎng),人們的生產(chǎn)方式也因此進(jìn)入了快速而深刻的變革。國(guó)家在國(guó)際舞臺(tái)上的競(jìng)爭(zhēng)力很大程度上取決于核心科技的掌握以及技術(shù)創(chuàng)新的能力。如何快速定位最具發(fā)展?jié)摿Φ念I(lǐng)域成為政府和企業(yè)關(guān)注的核心問(wèn)題。

      目前的技術(shù)預(yù)見(jiàn)已經(jīng)形成了一套較為系統(tǒng)的理論體系,通常采用基于專家主觀經(jīng)驗(yàn)的定性方法,主要有頭腦風(fēng)暴法、德?tīng)柗品?、同行評(píng)議法、專家咨詢法等,這些方式依賴于專家學(xué)者的討論,因此其客觀性、科學(xué)性往往難以保證,從而導(dǎo)致技術(shù)預(yù)見(jiàn)結(jié)果的可靠性不高。將技術(shù)預(yù)見(jiàn)與定量的統(tǒng)計(jì)學(xué)模型相結(jié)合,有助于提升技術(shù)預(yù)見(jiàn)的效率與質(zhì)量。Lintonnen等在2014年組織芬蘭的43名藥物專家組建了一個(gè)德?tīng)柗茖<倚〗M,對(duì)芬蘭2020年的藥物形式變化趨勢(shì)開展了預(yù)見(jiàn)研究;王金鵬在2011年研究了在技術(shù)預(yù)見(jiàn)的過(guò)程中引入科學(xué)計(jì)量方法的必要性,并通過(guò)實(shí)證分析論證了科學(xué)計(jì)量方法在技術(shù)預(yù)見(jiàn)中應(yīng)用的可行性和有效性;韓毅等利用了基于引文的主路徑方法分析了富勒烯領(lǐng)域的演化結(jié)構(gòu),證明了主路徑分析方法的獨(dú)特性;Yoon等在2010年開發(fā)了一個(gè)基于關(guān)鍵詞的科學(xué)地圖,用于制定支持有前景的研發(fā)領(lǐng)域的政策和計(jì)劃。表1展示了本文采用的研究方法與經(jīng)典技術(shù)預(yù)見(jiàn)文獻(xiàn)采用的研究方法的對(duì)比。

      據(jù)研究表明,專利反映了最新的科學(xué)技術(shù)與商業(yè)信息,包含了世界全部科技知識(shí)的90%~95%,如果能夠?qū)⑵渲刑N(yùn)含的知識(shí)資源充分利用,識(shí)別出核心技術(shù),挖掘其中的潛在價(jià)值,在此基礎(chǔ)上進(jìn)行技術(shù)創(chuàng)新活動(dòng)將會(huì)極大地提升創(chuàng)新的成功率。對(duì)于專利信息的分析,一方面可以對(duì)專利的被引次數(shù)、引用關(guān)系網(wǎng)絡(luò)、創(chuàng)新度或者中心度評(píng)估等文獻(xiàn)計(jì)量學(xué)的視角進(jìn)行研究。但上述方法對(duì)于專利的分析粒度較粗,往往只能得出宏觀上的普遍規(guī)律,難以起到具體的戰(zhàn)略指導(dǎo)作用。另一方面,專利的標(biāo)題、摘要、說(shuō)明書中有大量的文本內(nèi)容,對(duì)技術(shù)的使用場(chǎng)景、具體方案、原理、效果的詳細(xì)描述,對(duì)于專利中的大量的非結(jié)構(gòu)化數(shù)據(jù)分析,需要采用文本挖掘的方法,從專利中抽取有價(jià)值的知識(shí)信息。然而原始的文本內(nèi)容無(wú)法直接參與到數(shù)學(xué)模型構(gòu)建過(guò)程中,需要將文本轉(zhuǎn)化為特征向量才能進(jìn)行各種交互運(yùn)算。目前較為成熟的專利特征提取方式有基于關(guān)鍵詞的分析法(keyword-based-analysis,KWA)以及SAO分析法(Subject-Action-Object)。關(guān)鍵詞法本質(zhì)上是將專利當(dāng)做詞袋模型進(jìn)行處理,選取出該領(lǐng)域的關(guān)鍵詞,忽略專利文本中的詞語(yǔ)的順序,只記錄關(guān)鍵詞出現(xiàn)的次數(shù),以此構(gòu)建專利的空間向量模型。而SAO分析方法是提取出專利文本中的“主-謂-賓”結(jié)構(gòu),使用該種結(jié)構(gòu)以及單詞的相似度從而計(jì)算出專利之間的相似度。得到專利之間的相似度后,通過(guò)專利網(wǎng)絡(luò)或者專利地圖進(jìn)行降維處理,將高維的專利數(shù)據(jù)映射到二維平面之上,采用可視化的方式展現(xiàn)專利簇中的核心專利以及專利地圖空位,作為技術(shù)演進(jìn)趨勢(shì)分析、技術(shù)機(jī)遇預(yù)測(cè)的依據(jù)。

      但是上述兩種文本表征方式都存在著一些不足之處。KWA方法中的關(guān)鍵詞往往都是名詞或者名詞詞組,所以這種方法容易損失掉詞語(yǔ)之間的關(guān)聯(lián)信息,并且忽略語(yǔ)序也會(huì)導(dǎo)致語(yǔ)義的偏差,而SAO分析方法也無(wú)法表征出特定場(chǎng)景下詞語(yǔ)的含義變化,并且將專利分解成一個(gè)個(gè)SAO結(jié)構(gòu),反映的是碎片化的信息,無(wú)法從整體上對(duì)專利信息做出良好的表征。為了克服上述兩種文本表征方式的缺點(diǎn),本文采用Doc2Vec算法從專利摘要中提取特征向量,該算法在提取特征時(shí)不僅考慮到了詞語(yǔ)的語(yǔ)序,并且摘要中的所有內(nèi)容都會(huì)經(jīng)過(guò)模型的編碼輸出最終的特征向量,包含了摘要中全部的語(yǔ)義信息,能更好地對(duì)文本內(nèi)容做出表達(dá)。

      二、研究設(shè)計(jì)

      本文的研究路線如圖1所示。首先通過(guò)專利平臺(tái)收集特定領(lǐng)域的專利數(shù)據(jù)構(gòu)建了該領(lǐng)域的專利數(shù)據(jù)庫(kù),通過(guò)KWE-Doc2Vec算法將所有的專利摘要及題目編碼成為固定長(zhǎng)度的向量,使用該向量作為專利的表征,以此為基礎(chǔ)計(jì)算專利之間的相似度,構(gòu)建專利的關(guān)聯(lián)矩陣。然后結(jié)合社會(huì)網(wǎng)絡(luò)學(xué)的理論,將高維的專利數(shù)據(jù)進(jìn)行降維操作,映射到二維的知識(shí)圖譜中。在可視化的圖譜中,可以從海量的專利信息里提取出核心專利,識(shí)別技術(shù)空位,將其中所蘊(yùn)含的有價(jià)值的信息分析歸納,對(duì)自然語(yǔ)言處理領(lǐng)域的發(fā)展脈絡(luò)、技術(shù)路徑以及未來(lái)技術(shù)機(jī)遇做出預(yù)測(cè),為政府的產(chǎn)業(yè)規(guī)劃以及企業(yè)的發(fā)展戰(zhàn)略制定提供有力的支撐。

      文本是一種非結(jié)構(gòu)化的數(shù)據(jù),在進(jìn)行規(guī)模較大的文本挖掘任務(wù)時(shí),需要將大量的文本數(shù)據(jù)轉(zhuǎn)化成為計(jì)算機(jī)可以直接處理的數(shù)字類型的數(shù)據(jù)。為了對(duì)大量數(shù)據(jù)進(jìn)行批量的快速處理,往往會(huì)對(duì)數(shù)據(jù)格式有更高的要求,需要固定數(shù)據(jù)的維度。因此提取出專利的合適的表征是本方法的核心部分。本文中使用的Doc2Vec算法是一種無(wú)監(jiān)督的算法,經(jīng)過(guò)在由本文的專利數(shù)據(jù)庫(kù)構(gòu)建的語(yǔ)料庫(kù)訓(xùn)練后,可以將每一篇專利的摘要提取成特定長(zhǎng)度的稠密向量表示,使用該向量表示繼續(xù)進(jìn)行下游的任務(wù)。

      (一)特征提取算法

      Doc2vec算法是受到一些關(guān)于使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量表征的工作啟發(fā),對(duì)Word2Vec的模型結(jié)構(gòu)進(jìn)行簡(jiǎn)單改進(jìn)從而使得模型在學(xué)習(xí)詞向量的同時(shí)可以得到整個(gè)段落的向量表征。本文中針對(duì)專利數(shù)據(jù)的特征對(duì)普通的Doc2Vec算法進(jìn)行了改進(jìn),提出了附加關(guān)鍵詞擴(kuò)展的KWE-Doc2Vec算法。

      1. Word2Vec

      最為流行的提取詞向量算法框架如圖2所示。此算法的任務(wù)是,給出上下文中的其它單詞,去預(yù)測(cè)尚未給出的單詞。每一個(gè)單詞都會(huì)被映射成一個(gè)唯一的向量,由在矩陣W當(dāng)中的某一列表示。該列由單詞在詞匯表中的位置編制索引,然后將向量進(jìn)行拼接或者求和,用來(lái)預(yù)測(cè)句子中的下一個(gè)單詞。

      具體地,給定一句話,可以將其視為由單詞w1,w2,…,wn構(gòu)成的序列,算法的目標(biāo)函數(shù)即為最大化如下對(duì)數(shù)平均概率:

      詞向量對(duì)于很多自然語(yǔ)言處理任務(wù)如語(yǔ)言模型、自然語(yǔ)言理解、機(jī)器翻譯、關(guān)系抽取等都會(huì)有很大的增益效果。

      2. Doc2Vec

      詞向量的初始化是隨機(jī)的,但是作為預(yù)測(cè)任務(wù)的間接產(chǎn)物,詞向量最終會(huì)捕獲單詞的語(yǔ)義信息,段落向量的獲取方式也是利用了相同的思想。段落向量也被用來(lái)參與到下一個(gè)單詞的預(yù)測(cè)任務(wù)。

      Doc2Vec的算法框架如圖3所示,每一個(gè)段落都被映射成一個(gè)唯一的向量,由矩陣D中對(duì)應(yīng)的某一列表示,同時(shí)每一個(gè)單詞也被映射成一個(gè)唯一的向量,由矩陣W中的某一列表示。段落向量和詞向量會(huì)被拼接在一起用來(lái)預(yù)測(cè)上下文中的下一單詞。與Word2Vec算法的模型相比,Doc2Vec僅有的改動(dòng)在于公式(1),其中的h由矩陣W和矩陣D共同組成。段落的向量表示可以被認(rèn)為是另一個(gè)特殊的“單詞”,其作用相當(dāng)于是一個(gè)存儲(chǔ)了模型丟失掉的上下文信息或者段落主題的“緩存”,因此該算法被稱為分布式段落記憶向量模型(PV-DM)。

      在使用Doc2Vec提取文檔表示向量時(shí),常常會(huì)使用PV-DM算法與PV-DBOW算法相結(jié)合的方式。該模型能夠表征段落的語(yǔ)義信息,并且在訓(xùn)練時(shí)考慮了詞序,對(duì)語(yǔ)義信息的表征會(huì)比詞袋模型更為精確,將高維稀疏向量轉(zhuǎn)化成為了低維的稠密向量。更重要的是這是一種無(wú)監(jiān)督的算法,在沒(méi)有足夠的有標(biāo)簽數(shù)據(jù)時(shí)也能發(fā)揮作用。

      3. ?基于關(guān)鍵詞擴(kuò)展(KWE)的Doc2Vec模型改進(jìn)

      Doc2Vec模型在提取文檔向量時(shí)考慮到了專利摘要中的全部單詞的語(yǔ)義信息,但是專利文本作為專業(yè)性很強(qiáng)、技術(shù)內(nèi)涵豐富的特殊語(yǔ)料,為數(shù)不多的關(guān)鍵詞當(dāng)中有時(shí)會(huì)蘊(yùn)含重要的技術(shù)信息,因此應(yīng)當(dāng)在特征提取時(shí)占有較大的比重。Doc2Vec模型在進(jìn)行訓(xùn)練時(shí)會(huì)對(duì)所有的單詞同等對(duì)待,因此會(huì)將潛在的重要關(guān)鍵詞做出一定的“稀釋”,無(wú)法突出專利的重點(diǎn)。因此本文提出的KWE-Doc2Vec算法在原有算法的基礎(chǔ)上做出了一些改進(jìn),使得模型提取的文本向量中包含了關(guān)鍵詞的特征信息,從而使得專利相似度的計(jì)算更加準(zhǔn)確。

      Doc2Vec模型在訓(xùn)練完成時(shí),不僅會(huì)獲得段落向量,同時(shí)也會(huì)獲得詞向量。由于詞向量是在特定技術(shù)領(lǐng)域的語(yǔ)料庫(kù)上完成的訓(xùn)練,因此會(huì)更適合在該領(lǐng)域下完成下游的任務(wù)。KWE-Doc2Vec在提取出文檔特征向量的同時(shí),將專利題目中的關(guān)鍵詞向量也提取出來(lái)并與文檔向量進(jìn)行拼接,作為最終計(jì)算專利相似度的特征。

      首先對(duì)專利題目進(jìn)行去停用詞的處理,只保留有實(shí)際含義的單詞。用KW={w1,w2,w3,…,wn}表示題目中去掉停用詞后剩下的關(guān)鍵詞,wn表示其中的第n個(gè)單詞,使用emb()來(lái)表示單詞的詞向量轉(zhuǎn)化函數(shù),經(jīng)過(guò)詞向量平均后,可以得到題目T的編碼信息:

      用題目T的編碼信息作為關(guān)鍵詞向量,與文檔向量p完成拼接,得到最終的專利表征向量z:

      z=[p;T]

      4. 實(shí)驗(yàn)分析

      為進(jìn)行實(shí)驗(yàn)分析對(duì)比KWE-Doc2Vec算法的與KWA、SAO算法的優(yōu)劣,本文通過(guò)Innography專利分析平臺(tái)以artificial intelligence(人工智能)為關(guān)鍵詞檢索并下載了實(shí)驗(yàn)數(shù)據(jù),由于人工智能的概念更宏觀,涵蓋的技術(shù)范圍更廣泛,因此相關(guān)專利的IPC分類體系中相對(duì)分散,適宜作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行算法有效性的驗(yàn)證。

      從下載的數(shù)據(jù)中選取數(shù)量較多的G分部(物理)20000條以及H分部(電學(xué))5000條專利數(shù)據(jù)進(jìn)行建模預(yù)測(cè)。將數(shù)據(jù)按照8:2的比例進(jìn)行訓(xùn)練集和測(cè)試集的劃分。分別使用KWA模型、SAO模型以及KWE-Doc2Vec算法從專利中提取文本的向量表征,然后將提取出的表征作為特征輸入到一個(gè)簡(jiǎn)單結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)當(dāng)中。網(wǎng)絡(luò)具有一個(gè)維度為32的隱藏層和一個(gè)維度為2的輸出層,輸出的是專利屬于某一類的概率。經(jīng)過(guò)訓(xùn)練后,采用ROC曲線對(duì)模型效果在測(cè)試集上進(jìn)行評(píng)估,將三種特征提取方式模型的ROC曲線繪制成如圖4,可見(jiàn)KWE-Doc2Vec模型的ROC曲線完全可以包裹住其他兩條曲線。經(jīng)過(guò)計(jì)算KWE-Doc2Vec模型的AUC(Area Under Curve)為0.891,顯著高于KWA模型(0.818)以及SAO模型(0.845),證明了KWE-Doc2Vec模型對(duì)于文本信息的特征提取更為準(zhǔn)確,能夠精確地對(duì)文本的語(yǔ)義信息作出表征,因此基于該方法提取出的特征向量計(jì)算專利之間的相似度能夠得到更為有效的度量結(jié)果。

      (二)專利距離計(jì)算

      在使用KWE-Doc2Vec算法將專利編碼成為固定長(zhǎng)度的向量之后,可以基于該向量表征計(jì)算得到專利關(guān)聯(lián)矩陣,本文中采用歐氏距離來(lái)衡量專利之間的關(guān)系遠(yuǎn)近。假設(shè)專利A和專利B經(jīng)過(guò)KWE-Doc2Vec的編碼分別得到了維度為n的兩個(gè)向量A=(a1,…,an),B=(b1,…,bn)可以使用如下公式來(lái)計(jì)算專利AB之間的相似度:

      三、實(shí)證研究

      (一)專利庫(kù)建立

      本文通過(guò)Innography專利分析平臺(tái)進(jìn)行專利的檢索,檢索式為:(@(abstract,claims,title)“nlp” OR“natural language process*”O(jiān)R“nlu”O(jiān)R“natural language understand*”)下載到本地?cái)?shù)據(jù)庫(kù)后,共得到專利22297條。剔除掉專利強(qiáng)度過(guò)低的無(wú)效專利,刪除IPC不符合要求的,重復(fù)、信息缺失的專利,經(jīng)過(guò)數(shù)據(jù)清洗之后共得到10540條數(shù)據(jù)進(jìn)行后續(xù)的分析。

      (二)行業(yè)技術(shù)發(fā)展階段分析

      對(duì)于自然語(yǔ)言處理領(lǐng)域?qū)@磕晟暾?qǐng)數(shù)量以及專利權(quán)人數(shù)量進(jìn)行統(tǒng)計(jì)分析,得到年份分布如圖5所示。由于專利的申請(qǐng)到公布一般需要一年以上的時(shí)間,所以近兩年的專利數(shù)據(jù)可能并不夠完備,沒(méi)有展示在折線圖當(dāng)中。

      根據(jù)圖5中的專利申請(qǐng)數(shù)量以及專利權(quán)人數(shù)量變化特征,本文將自然語(yǔ)言處理技術(shù)的發(fā)展劃分為三個(gè)大的階段:一是萌芽期(1983~1996年):自然語(yǔ)言處理領(lǐng)域?qū)@钤绯霈F(xiàn)在20世紀(jì)80年代,處于技術(shù)發(fā)展的初期,關(guān)于自然語(yǔ)言處理的技術(shù)仍不夠成熟,沒(méi)有太多的可以直接落地的場(chǎng)景,相關(guān)的專利數(shù)量較少,一直處于一個(gè)低速的緩慢增長(zhǎng)狀態(tài)。二是快速發(fā)展階段(1997~2011年):隨著互聯(lián)網(wǎng)的興起和高速發(fā)展,自然語(yǔ)言處理領(lǐng)域迎來(lái)了他的第一個(gè)發(fā)展機(jī)遇:在信息爆炸的年代,一切自然語(yǔ)言處理技術(shù)的基礎(chǔ)——語(yǔ)料庫(kù)得到了極大的豐富,在大數(shù)據(jù)時(shí)代向來(lái)都是得數(shù)據(jù)者得天下,加之計(jì)算機(jī)硬件不斷更新完善,理性主義的思潮成為主流,基于統(tǒng)計(jì)的方法也逐漸替代了基于規(guī)則的方法。在這個(gè)階段,基于數(shù)學(xué)和統(tǒng)計(jì)模型的方法使得自然語(yǔ)言處理技術(shù)取得了一些實(shí)質(zhì)性的突破,已經(jīng)可以從實(shí)驗(yàn)室走出,走向工業(yè)界的實(shí)際應(yīng)用。三是井噴爆發(fā)階段(2012年以后):隨著計(jì)算機(jī)算力的大幅提升,基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)迎來(lái)了爆發(fā)。有了GPU計(jì)算速度的加成,使得RNN、LSTM、GRU等模型的大規(guī)模矩陣運(yùn)算成為可能。深度學(xué)習(xí)與自然語(yǔ)言處理的結(jié)合,在機(jī)器翻譯、機(jī)器閱讀等細(xì)分領(lǐng)域都取得了很大的成功。甚至可以利用深度學(xué)習(xí)技術(shù)將自然語(yǔ)言處理任務(wù)進(jìn)行端到端的訓(xùn)練,免去了傳統(tǒng)的pipeline方法的麻煩。

      (三)關(guān)聯(lián)矩陣計(jì)算

      本文提取出所有專利的摘要和標(biāo)題作為KWE-Doc2Vec模型訓(xùn)練的語(yǔ)料庫(kù)。使用python編程語(yǔ)言調(diào)用開源的第三方自然語(yǔ)言處理工具包gensim來(lái)進(jìn)行Doc2Vec模型的訓(xùn)練,設(shè)置模型的迭代次數(shù)為100,輸出向量的維度為10,再提取出專利標(biāo)題的特征向量并進(jìn)行拼接。使用歐氏距離計(jì)算兩兩專利之間的距離,得到專利之間的關(guān)聯(lián)矩陣。

      (四)基于專利網(wǎng)絡(luò)的分析

      使用可視化網(wǎng)絡(luò)分析工具ucinet,對(duì)自然語(yǔ)言處理領(lǐng)域的專利數(shù)據(jù)繪制專利網(wǎng)絡(luò)。每個(gè)節(jié)點(diǎn)的大小代表專利的中心度,即與該專利相連的其它專利數(shù)量,中心度越高的專利在圖中的節(jié)點(diǎn)越大,通過(guò)該指標(biāo)可以識(shí)別專利群中的核心專利。調(diào)整專利網(wǎng)絡(luò)的距離顯示閾值以及展示節(jié)點(diǎn)的中心度閾值,可以畫出自然語(yǔ)言處理領(lǐng)域的專利網(wǎng)絡(luò)如圖6。

      在自然語(yǔ)言處理技術(shù)發(fā)展的早期,相關(guān)的概念提出較早,但是實(shí)驗(yàn)室中的技術(shù)還沒(méi)能轉(zhuǎn)化為可落地的生產(chǎn)力。早期的核心專利主要是一些基礎(chǔ)性的工作,涉及到的多是語(yǔ)法、句法分析,基于規(guī)則的方法仍然是主流,有時(shí)會(huì)輔助以基于統(tǒng)計(jì)的方法。該階段的另一大特點(diǎn)是,專利往往以搭載了自然語(yǔ)言處理技術(shù)的某種設(shè)備或終端的形式展現(xiàn),主要有微型計(jì)算機(jī)、顯示器或者音頻交互設(shè)備,技術(shù)的研究本身并不是目的,最終都是要服務(wù)于人,在該階段便初步產(chǎn)生了通過(guò)自然語(yǔ)言處理技術(shù)進(jìn)行人機(jī)交互的趨勢(shì)。直到20世紀(jì)90年代中期,得益于計(jì)算機(jī)運(yùn)算速度以及存儲(chǔ)設(shè)備容量的大幅增加,自然語(yǔ)言處理技術(shù)的物質(zhì)基礎(chǔ)有了極大的改善,同時(shí)Internet的商業(yè)化進(jìn)程快速啟動(dòng)以及網(wǎng)絡(luò)技術(shù)的發(fā)展使得自然語(yǔ)言處理技術(shù)所需的語(yǔ)料數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng),語(yǔ)料庫(kù)技術(shù)成為自然語(yǔ)言處理領(lǐng)域較為重要的技術(shù)之一。大規(guī)模的真實(shí)語(yǔ)料,經(jīng)過(guò)不同程度的加工,為研究自然語(yǔ)言的統(tǒng)計(jì)學(xué)性質(zhì)提供了必要的基礎(chǔ),使得該領(lǐng)域的研究方式不用再像以前的那樣,針對(duì)少量詞條或者典型句子抽取規(guī)則,而是可以采用基于統(tǒng)計(jì)的技術(shù)方法,從真實(shí)的數(shù)據(jù)中學(xué)習(xí)規(guī)律。同時(shí)為某些特定專業(yè)領(lǐng)域編制定制化的計(jì)算機(jī)可用詞典對(duì)于下游的自然語(yǔ)言處理任務(wù)的提升也是非常之大。另一方面,隨著互聯(lián)網(wǎng)的普及,海量的網(wǎng)頁(yè)催生了自動(dòng)檢索技術(shù)。并且在這一階段的末期,已經(jīng)有少量的專利嘗試將深度學(xué)習(xí)、遷移學(xué)習(xí)技術(shù)應(yīng)用于自然語(yǔ)言處理任務(wù)。根據(jù)摩爾定律的描述,處理器的性能每過(guò)兩年翻一倍,在2012年后,深度學(xué)習(xí)這種需要大規(guī)模計(jì)算能力的技術(shù)蓬勃發(fā)展,使得自然語(yǔ)言處理技術(shù)與深度學(xué)習(xí)的技術(shù)融合成為可能。在這一嶄新的階段,各種網(wǎng)絡(luò)結(jié)構(gòu)如CNN、LSTM、GRU在自然語(yǔ)言處理領(lǐng)域的應(yīng)用層出不窮,并且都取得了不錯(cuò)的效果,同時(shí)將研究者從繁瑣的手工設(shè)計(jì)、提取特征工作中解放出來(lái)。在深度學(xué)習(xí)基礎(chǔ)上發(fā)展出來(lái)的預(yù)訓(xùn)練模型,融合了超大規(guī)模的語(yǔ)料庫(kù)當(dāng)中的語(yǔ)義信息,相當(dāng)于為模型注入了類似于人類常識(shí)一樣的背景知識(shí)。2018年谷歌發(fā)布具有劃時(shí)代意義的預(yù)訓(xùn)練模型BERT并且刷新了自然語(yǔ)言處理領(lǐng)域的11項(xiàng)任務(wù)的最好成績(jī),從此BERT成為各項(xiàng)任務(wù)的baseline。另一方面,深度學(xué)習(xí)技術(shù)的引入使得自然語(yǔ)言處理技術(shù)的許多應(yīng)用得以走出實(shí)驗(yàn)室,成為正式的可商用的產(chǎn)品,落地比較成功的應(yīng)用包括機(jī)器翻譯、搜索引擎、對(duì)話機(jī)器人等。從中可以發(fā)現(xiàn)一個(gè)較強(qiáng)的趨勢(shì),自然語(yǔ)言處理技術(shù)正在迅速與人工智能領(lǐng)域的其它技術(shù)如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù)進(jìn)行深度的融合交互。谷歌、微軟、Facebook 和百度均擁有能夠讓用戶搜索或者自動(dòng)整理沒(méi)有識(shí)別標(biāo)簽圖片的技術(shù)。商業(yè)化落地比較成功的對(duì)話機(jī)器人也已經(jīng)能夠完成語(yǔ)音識(shí)別—自然語(yǔ)言理解—自然語(yǔ)言生成—語(yǔ)音合成的一整套流程,用戶完全可以只通過(guò)說(shuō)話的方式完成與機(jī)器人的交互。

      自然語(yǔ)言處理領(lǐng)域的技術(shù)從早期的專家人工編制規(guī)則的處理方式,到基于大量語(yǔ)料數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法,以及近期的深度學(xué)習(xí)技術(shù)與自然語(yǔ)言處理相結(jié)合,人工參與的程度逐漸降低,模型的學(xué)習(xí)能力越來(lái)越強(qiáng),可以自動(dòng)的從大量的真實(shí)文本中“學(xué)習(xí)”到其中蘊(yùn)含的知識(shí)。與此同時(shí),自然語(yǔ)言處理技術(shù)也一步步走出實(shí)驗(yàn)室,逐步商業(yè)化落地,為技術(shù)的發(fā)展提供了更多的動(dòng)力。預(yù)計(jì)今后在計(jì)算力繼續(xù)提升的助力之下,一方面,可以將研究方向在商業(yè)化的應(yīng)用的更大范圍的部署到如智能手機(jī)、智能家居之上,真正實(shí)現(xiàn)萬(wàn)物互聯(lián),并且可以采用人類語(yǔ)言的方式完成與設(shè)備的交互。另一方面,預(yù)訓(xùn)練模型的潛力還未完全開發(fā),采用更大規(guī)模、覆蓋面更廣的訓(xùn)練語(yǔ)料,進(jìn)行時(shí)間更長(zhǎng)、迭代次數(shù)更多、任務(wù)更加困難的訓(xùn)練,可以使預(yù)訓(xùn)練模型學(xué)習(xí)到語(yǔ)料庫(kù)中更深層次的知識(shí),從而提升下游任務(wù)的效果,加速自然語(yǔ)言處理技術(shù)的落地。

      (五)基于專利地圖的分析

      自然語(yǔ)言處理領(lǐng)域的技術(shù)日新月異,本文選取井噴爆發(fā)期(2012年以后)的專利數(shù)據(jù),使用ucinet軟件繪制專利地圖如圖7所示,專利地圖上的空位指示了未來(lái)可以挖掘的技術(shù)方向,本文識(shí)別出6個(gè)技術(shù)空位,對(duì)其周圍的專利進(jìn)行具體研究分析,可以對(duì)該領(lǐng)域的發(fā)展趨勢(shì)和重要機(jī)遇做出預(yù)測(cè)。

      1. 與風(fēng)險(xiǎn)管理領(lǐng)域的深度融合

      空位1周圍的專利主要涉及到自動(dòng)化風(fēng)險(xiǎn)預(yù)測(cè)、管理的相關(guān)技術(shù),包括關(guān)于電子合同的潛在風(fēng)險(xiǎn)條款注釋提醒、基于社交媒體的風(fēng)險(xiǎn)預(yù)警、對(duì)于患者的健康風(fēng)險(xiǎn)自動(dòng)評(píng)估等技術(shù)。當(dāng)前的合規(guī)與風(fēng)險(xiǎn)治理領(lǐng)域采用的多是基于專家的主觀經(jīng)驗(yàn)的評(píng)估,難以將風(fēng)險(xiǎn)進(jìn)行量化,然而目前的問(wèn)題是進(jìn)行風(fēng)險(xiǎn)分析的主要數(shù)據(jù)為半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,難以對(duì)海量的管理信息做出有效評(píng)估。因此今后采用自然語(yǔ)言處理技術(shù)對(duì)非結(jié)構(gòu)化的文本材料進(jìn)行解析,抽取其中的關(guān)鍵信息并且轉(zhuǎn)化為易于處理的結(jié)構(gòu)化數(shù)據(jù),在采用風(fēng)險(xiǎn)評(píng)估模型進(jìn)行預(yù)警將是一個(gè)極具潛力的研究方向。從上述技術(shù)路徑中,采用自然語(yǔ)言處理技術(shù)從海量的文本數(shù)據(jù)中,快速地抽取重要的結(jié)構(gòu)化信息,同時(shí)保證其準(zhǔn)確性,是該方案的順利施行關(guān)鍵,也是未來(lái)需要投入大量精力解決的問(wèn)題。

      2. 底層支撐技術(shù)的發(fā)展為自然語(yǔ)言處理的實(shí)現(xiàn)創(chuàng)造機(jī)遇

      空位2周圍的專利主要涉及到與自然語(yǔ)言處理領(lǐng)域技術(shù)相關(guān)的底層軟硬件支持。由于音視頻資料中的大量對(duì)白或演講等內(nèi)容包含了大量的知識(shí)信息,采用語(yǔ)音識(shí)別技術(shù)可以從中獲取到大量有價(jià)值的語(yǔ)料數(shù)據(jù),因此開發(fā)支持大規(guī)模存儲(chǔ)查詢音視頻數(shù)據(jù)這類非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)已成為一個(gè)研究的熱點(diǎn)方向,同時(shí)也研發(fā)能夠精準(zhǔn)采集特定場(chǎng)景下的音視頻數(shù)據(jù)的傳感器從而能夠幫助系統(tǒng)更好地完成上游的數(shù)據(jù)采集任務(wù)。另一方面,進(jìn)入深度學(xué)習(xí)時(shí)代以后數(shù)據(jù)量、模型復(fù)雜度以及求解模型的計(jì)算量都成指數(shù)級(jí)增長(zhǎng),而GPU作為進(jìn)行矩陣并行運(yùn)算的主要硬件,提高其性能也是未來(lái)可研究的一個(gè)重要方向。

      3. 人機(jī)對(duì)話技術(shù)的場(chǎng)景化、個(gè)性化,實(shí)現(xiàn)互聯(lián)

      空位3周圍的專利主要涉及到對(duì)話機(jī)器人、問(wèn)答系統(tǒng)、智能助手、終端部署設(shè)備以及定制化的語(yǔ)料庫(kù)設(shè)計(jì)等相關(guān)技術(shù)。人機(jī)對(duì)話技術(shù)自其誕生以來(lái)就一直是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,然而目前的對(duì)話系統(tǒng)依然是基于大量的規(guī)則以及算法模型,距離真正的智能還有很遠(yuǎn)的距離,但是已經(jīng)可以幫助人們完成一些簡(jiǎn)單的任務(wù)。因此目前階段為了提升用戶的使用體驗(yàn),將對(duì)話系統(tǒng)進(jìn)行場(chǎng)景化、個(gè)性化的定制就顯得尤為重要,任務(wù)導(dǎo)向型的對(duì)話系統(tǒng)因?yàn)橛忻鞔_的目標(biāo),所以更加容易引導(dǎo)用戶完成對(duì)話。未來(lái)可采用定制化的語(yǔ)料庫(kù)來(lái)完成對(duì)話系統(tǒng)的訓(xùn)練,并且在后端可以連接知識(shí)圖譜等數(shù)據(jù)庫(kù),完成對(duì)用戶的特征描述,構(gòu)建出可以完成“千人千面”的對(duì)話系統(tǒng)。另一個(gè)值得發(fā)掘的研究方向就是將對(duì)話系統(tǒng)更多地部署在智能手表、智能家電等終端上,研發(fā)與應(yīng)用場(chǎng)景相適應(yīng)的嵌入式系統(tǒng)以及高效的無(wú)線數(shù)據(jù)傳輸技術(shù),真正實(shí)現(xiàn)萬(wàn)物互聯(lián)。

      4. 與人工智能其它領(lǐng)域的交互

      空位4周圍的專利主要涉及到基于深度學(xué)習(xí)的OCR、跨模態(tài)數(shù)據(jù)匹配、圖像自動(dòng)標(biāo)注、可視化檢索等相關(guān)技術(shù)。自然語(yǔ)言處理作為人工智能皇冠上的明珠,從來(lái)都不是孤立地發(fā)展,與其它領(lǐng)域如計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等都有著深層次的交流。自從2010年后人工智能進(jìn)入深度學(xué)習(xí)時(shí)代以來(lái),自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)的整體研究工具和模式都有趨同的跡象,這也就給了不同領(lǐng)域之間直接溝通交流的便利。在現(xiàn)實(shí)生活中,文本、圖像、語(yǔ)音等數(shù)據(jù)都是同時(shí)存在的,不可能將其完全割裂開來(lái)單獨(dú)研究,因此將來(lái)對(duì)各種模態(tài)的數(shù)據(jù)進(jìn)行跨模態(tài)學(xué)習(xí)是人工智能發(fā)展的一大趨勢(shì)。在跨模態(tài)學(xué)習(xí)中,面臨的首要問(wèn)題即是如何將異質(zhì)的信息投影到同一個(gè)表征空間,還要最大限度的保持?jǐn)?shù)據(jù)原有的語(yǔ)義信息,提取到有用的特征。采用深度學(xué)習(xí)的方式,可以對(duì)數(shù)據(jù)進(jìn)行各種方向的映射,完成各種來(lái)源數(shù)據(jù)的交互融合,需要研究比單模態(tài)數(shù)據(jù)更加復(fù)雜、表達(dá)能力更強(qiáng)的模型結(jié)構(gòu),以期在提取特征的同時(shí)保存原有信息。

      5. 自然語(yǔ)言處理+具體行業(yè)的商業(yè)化落地

      空位5周圍的專利主要涉及醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別、自動(dòng)駕駛當(dāng)中的語(yǔ)音交互、電力需求工單的自動(dòng)分類等技術(shù)。自然語(yǔ)言處理技術(shù)的研究本身并不是目的,技術(shù)的最終歸宿還是要服務(wù)于某個(gè)行業(yè),為人類創(chuàng)造價(jià)值。用自然語(yǔ)言處理技術(shù)為行業(yè)賦能,需要準(zhǔn)確地找到技術(shù)的切入點(diǎn),要求行業(yè)本身具有大量的規(guī)范文本數(shù)據(jù)作為語(yǔ)料庫(kù),并且行業(yè)需要是智力密集型的服務(wù)行業(yè)。自然語(yǔ)言處理技術(shù)在金融風(fēng)控、醫(yī)療領(lǐng)域已經(jīng)有了初步的落地應(yīng)用,但是目前也只是能夠承擔(dān)一些重復(fù)性的輔助工作。因此自然語(yǔ)言處理技術(shù)與具體行業(yè)的結(jié)合將會(huì)是將來(lái)很長(zhǎng)一段時(shí)間內(nèi)的熱點(diǎn)趨勢(shì)。在自然語(yǔ)言處理技術(shù)有了大跨步的進(jìn)展,真正實(shí)現(xiàn)了理解語(yǔ)義并且能夠掌握專業(yè)領(lǐng)域知識(shí)的情況下,會(huì)滲透到教育、司法、交通等更多行業(yè)。

      6. 更大、更深、更重的模型

      空位6周圍的專利主要涉及深度學(xué)習(xí)模型的定制化損失函數(shù)、基于attention機(jī)制的語(yǔ)義網(wǎng)絡(luò)、基于廣度門的聯(lián)合模型回收等技術(shù)??梢?jiàn)我們需要表征能力更加強(qiáng)大的模型才能勝任更有挑戰(zhàn)性的任務(wù)。由于人類在溝通時(shí)都已經(jīng)是具備了一定的常識(shí)或者是某些方面的專業(yè)知識(shí),因此在一些簡(jiǎn)短的對(duì)話或者文本當(dāng)中可能蘊(yùn)含著巨大的信息量,然而這些所謂“常識(shí)”卻是計(jì)算機(jī)所不具備或者難以理解的。因此堆疊更深、更復(fù)雜的模型,提高模型的表達(dá)能力是目前的一個(gè)研究趨勢(shì)。另外自從2018年谷歌發(fā)布了BERT模型之后,自然語(yǔ)言處理領(lǐng)域開啟了屬于預(yù)訓(xùn)練模型的時(shí)代。Bert采用Transformer模型的decoder在維基百科等語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模的預(yù)訓(xùn)練,采用“博覽群書”的方式讓模型本身具備了一定的背景知識(shí)。近年來(lái)更是有XLNet、RoBERTa等結(jié)構(gòu)更加復(fù)雜、迭代次數(shù)更多、語(yǔ)料更加豐富的預(yù)訓(xùn)練模型出現(xiàn),但這些模型具有數(shù)量龐大的參數(shù),訓(xùn)練和使用成本都極為高昂,在這樣的大背景下,采用更有挑戰(zhàn)性的預(yù)訓(xùn)練任務(wù)或者更加合理的模型結(jié)構(gòu),從而提升模型的表達(dá)能力同時(shí)降低其使用成本,將是未來(lái)一個(gè)重要的技術(shù)發(fā)展方向。

      根據(jù)以上的技術(shù)機(jī)遇分析,本文提出如圖8的技術(shù)路徑圖。橫軸代表時(shí)間,框體的寬度代表了技術(shù)的研發(fā)周期。任務(wù)的研發(fā)成本與其研發(fā)周期的長(zhǎng)度是成正比的。圖中的箭頭表示不同的對(duì)象之間的支持關(guān)系。

      四、結(jié)語(yǔ)

      21世紀(jì)是科學(xué)技術(shù)飛速發(fā)展的時(shí)代,在現(xiàn)代化浪潮中要想占據(jù)領(lǐng)先優(yōu)勢(shì),需要具有敏銳的感知力對(duì)技術(shù)機(jī)遇做出準(zhǔn)確的預(yù)見(jiàn),這是技術(shù)創(chuàng)新的前提和基礎(chǔ)。專利當(dāng)中蘊(yùn)含了大量的技術(shù)知識(shí),以專利文本挖掘?yàn)榍腥朦c(diǎn),可以在短時(shí)間內(nèi)對(duì)一個(gè)領(lǐng)域的發(fā)展脈絡(luò)做出梳理,并且預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。本文采用的KWE-Doc2Vec算法可以克服已有方法的缺點(diǎn),提取出更準(zhǔn)確的篇章級(jí)別的專利文本內(nèi)容的向量表征,并基于此向量表征計(jì)算專利相似度。然后使用該技術(shù)預(yù)見(jiàn)方法對(duì)自然語(yǔ)言處理領(lǐng)域進(jìn)行了實(shí)證分析,對(duì)已有專利的技術(shù)演進(jìn)路徑進(jìn)行了描述和分析,并且對(duì)未來(lái)的路徑走向做出了預(yù)測(cè)。結(jié)合生成的專利地圖識(shí)別出未來(lái)發(fā)展的6個(gè)技術(shù)機(jī)遇,提出了自然語(yǔ)言處理領(lǐng)域未來(lái)技術(shù)路徑圖,為政府的政策制定或相關(guān)企業(yè)的未來(lái)戰(zhàn)略規(guī)劃提供了有力的決策支持,同時(shí)本文提出的研究方法也可以應(yīng)用到其它技術(shù)領(lǐng)域,為其它研究者提供可供參考的思路。

      參考文獻(xiàn):

      [1]吳貴生.技術(shù)創(chuàng)新管理[M].北京:清華大學(xué)出版社,2000.

      [2]Frster B, von der Gracht H. Assessing Delphi panel composition for strategic foresight—A comparison of panels based on company-internal and external participants[J].Technological Forecasting and Social Change, 2014, 84: 215-229.

      [3]Lintonen T, Konu A, Rnk?S, et al. Drugs foresight 2020: a Delphi expert panel study[J].Substance abuse treatment, prevention, and policy, 2014, 9(01):18.

      [4]王金鵬.基于科學(xué)計(jì)量的技術(shù)預(yù)見(jiàn)方法優(yōu)化研究[D].武漢:華中師范大學(xué),2011.

      [5]韓毅,童迎,夏慧.領(lǐng)域演化結(jié)構(gòu)識(shí)別的主路徑方法與高被引論文方法對(duì)比研究[J].圖書情報(bào)工作,2013,57(03):11-16.

      [6]Yoon B, Lee S, Lee G. Development and application of a keyword-based knowledge map for effective R&D planning[J]. Scientometrics,2010,85(03):803-820.

      [7]Janghyeok Yoon,Kwangsoo Kim. An analysis of property-function based patent networks for strategic R&D planning in fast - moving industries: The case of silicon - based thin film solar cells[J]. Expert Systems with Applications,2012,39(01):7709-7717.

      [8]Lee C, Kang B, Shin J. Novelty-focused patent mapping for technology opportunity analysis[J].Technological Forecasting and Social Change,2015,90:355-365.

      [9]Yoon J, Park H, Kim K. Identifying technological competition trends for R&D planning using dynamic patent maps: SAO-based content analysis[J].Scientometrics,2013,94(01):313-331.

      [10]陳二靜,姜恩波.文本相似度計(jì)算方法研究綜述[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(06):1-11.

      [11]阮光冊(cè),夏磊.基于Doc2Vec的期刊論文熱點(diǎn)選題識(shí)別[J].情報(bào)理論與實(shí)踐,2019,42(04):107-111+106.

      [12]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781,2013.

      [13]Le Q, Mikolov T. Distributed representations of sentences and documents[C].//International conference on machine learning,2014:1188-1196.

      [14]徐翼龍,李文法,周純潔.基于深度學(xué)習(xí)的自然語(yǔ)言處理綜述[A].中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì).中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2018年第二十二屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集[C].中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì):北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,2018:4.

      [15]丁恒,陸偉.基于相關(guān)性的跨模態(tài)信息檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(01):17-23.

      [16]王金鳳,吳敏,岳俊舉,吳漢爭(zhēng),馮立杰創(chuàng)新過(guò)程的技術(shù)機(jī)會(huì)識(shí)別路徑研究——基于專利挖掘和形態(tài)分析[J].情報(bào)理論與實(shí)踐,2017,40(08):82-86.

      (作者單位:華南理工大學(xué)工商管理學(xué)院)

      猜你喜歡
      自然語(yǔ)言處理
      基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
      自然語(yǔ)言處理與司法案例
      國(guó)外基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
      基于依存句法的實(shí)體關(guān)系抽取
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
      宽城| 乐亭县| 山东省| 清水河县| 祁东县| 饶阳县| 五指山市| 和林格尔县| 定结县| 富阳市| 林州市| 白玉县| 南和县| 林州市| 唐山市| 佛教| 南城县| 滦平县| 千阳县| 阿克| 曲阜市| 徐州市| 汉阴县| 西盟| 全椒县| 织金县| 神农架林区| 洛阳市| 壶关县| 炎陵县| 华蓥市| 临江市| 磴口县| 秭归县| 柯坪县| 宕昌县| 亚东县| 桦川县| 登封市| 新沂市| 黑水县|