• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然語(yǔ)言處理在其他學(xué)科領(lǐng)域的影響考察*
      ——基于CNKI的中文文獻(xiàn)挖掘

      2022-01-21 02:12:20蔣彥廷胡韌奮
      情報(bào)雜志 2021年12期
      關(guān)鍵詞:分類號(hào)交叉標(biāo)簽

      蔣彥廷 胡韌奮

      (1. 成都航空職業(yè)技術(shù)學(xué)院 成都 610100;2. 四川傳媒學(xué)院 成都 611745;3. 北京師范大學(xué)中文信息處理研究所 北京 100875;4. 北京師范大學(xué)漢語(yǔ)文化學(xué)院 北京 100875)

      0 引 言

      近年來(lái),自然語(yǔ)言處理(Natural Language Processing, NLP)作為人工智能的一個(gè)分支蓬勃發(fā)展。作為一門讓計(jì)算機(jī)有效地理解與處理人類語(yǔ)言的學(xué)科,它在文本分類[1]、信息檢索[2]、機(jī)器翻譯[3]、閱讀理解[4]等技術(shù)上均取得了長(zhǎng)足進(jìn)步。隨著社會(huì)經(jīng)濟(jì)科技發(fā)展,信息傳播越來(lái)越便捷,各個(gè)專業(yè)學(xué)科相互溝通、相互交融的趨勢(shì)愈加明顯。邊緣學(xué)科乃至跨學(xué)科的專著、論文也不斷涌現(xiàn)[5]??疾熳匀徽Z(yǔ)言處理在其他專業(yè)的影響,探索NLP與其他學(xué)科的交叉領(lǐng)域,不僅有利于在學(xué)科專業(yè)之間找到創(chuàng)新點(diǎn),助力科學(xué)研究;而且也能推動(dòng)NLP技術(shù)在各領(lǐng)域應(yīng)用落地,促進(jìn)產(chǎn)研合作與研究成果轉(zhuǎn)化。

      1 相關(guān)研究

      在既往的研究中,一些研究者注意到了自然語(yǔ)言處理與其他學(xué)科的交叉領(lǐng)域。例如王煜[6]介紹了詞頻分析、依存句法分析、文本分類、信息檢索和知識(shí)圖譜等技術(shù)在建筑工程領(lǐng)域的用途,包括合同管理、工程輿情分析、施工事故原因識(shí)別等。薛蕊等[7]指出鐵路領(lǐng)域有著大量非結(jié)構(gòu)化文本,NLP技術(shù)能將數(shù)據(jù)結(jié)構(gòu)化,在鐵路智能客服、資產(chǎn)設(shè)備管理、智能維修、輔助決策等方面發(fā)揮作用。此外還有介紹NLP在法律[8]、軍事地理情報(bào)[9]、教育[10]、社會(huì)傳播學(xué)[11]的應(yīng)用情況。這一類文獻(xiàn)往往是綜述性質(zhì)的,關(guān)注NLP在某一個(gè)具體方面的成果,且考察方式為定性分析。而通過(guò)定量方式、盡可能全面展示NLP與其他學(xué)科領(lǐng)域交融發(fā)展、NLP知識(shí)擴(kuò)散的情況,還是一個(gè)值得填補(bǔ)的研究空白。

      在運(yùn)用定量手段發(fā)現(xiàn)學(xué)科交叉主題、探索跨學(xué)科知識(shí)擴(kuò)散的研究中,引文網(wǎng)絡(luò)、共詞分析、聚類法是常用的方法。

      引文網(wǎng)絡(luò)法基于這樣假設(shè):引用相似文獻(xiàn)的兩篇論文,在研究主題上也具有相似性。通過(guò)構(gòu)建共被引網(wǎng)絡(luò)、進(jìn)行網(wǎng)絡(luò)密度、核心度等指標(biāo)的復(fù)雜網(wǎng)絡(luò)分析,可發(fā)現(xiàn)具有相似主題的文獻(xiàn),進(jìn)而發(fā)現(xiàn)學(xué)科間主題交叉、知識(shí)擴(kuò)散的現(xiàn)象[12, 13]。采用引文網(wǎng)絡(luò)進(jìn)行跨學(xué)科的知識(shí)擴(kuò)散探索,主要的關(guān)注點(diǎn)是文獻(xiàn)之間的引用關(guān)系[14],忽略了文獻(xiàn)本身的主題內(nèi)容,主題粒度較粗[15]。該方法難以探尋具體研究主題的跨學(xué)科擴(kuò)散狀況。

      共詞分析法主要以文獻(xiàn)關(guān)鍵詞為計(jì)量項(xiàng),通過(guò)尋找不同學(xué)科文獻(xiàn)之中共同出現(xiàn)的關(guān)鍵詞,構(gòu)建共現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)交叉研究的主題。共詞分析法簡(jiǎn)便易行,但許多學(xué)術(shù)文獻(xiàn)的關(guān)鍵詞設(shè)置有很強(qiáng)的人為主觀性。一方面部分文獻(xiàn)關(guān)鍵詞不規(guī)范、概念混亂、粒度大小不一[16];另一方面也難以解決多詞一義、一詞多義的問題,例如論文關(guān)鍵詞中的“LSTM”與“LSTM模型”、“LSTM網(wǎng)絡(luò)”、“長(zhǎng)短期記憶”、“長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)”多詞一義;而“深度學(xué)習(xí)”概念在教育學(xué)和人工智能領(lǐng)域的含義大相徑庭。

      聚類法首先通過(guò)對(duì)不同學(xué)科的文獻(xiàn)進(jìn)行語(yǔ)義聚類,構(gòu)建學(xué)科交叉文獻(xiàn)集。每一個(gè)聚類簇內(nèi)可能包含學(xué)科不同但主題相似的文獻(xiàn)。進(jìn)而對(duì)每一個(gè)類簇,運(yùn)用以LDA(Latent Dirichlet Allocation)為代表的主題模型求解,將交叉文獻(xiàn)轉(zhuǎn)變?yōu)榻徊嬷黝}[15]。這是一種無(wú)監(jiān)督數(shù)據(jù)挖掘的方法,不依賴人為標(biāo)注的數(shù)據(jù)。但聚類方法的類別數(shù)量往往需要人為設(shè)置。在數(shù)據(jù)量大、樣本成員之間總體的語(yǔ)義距離較小的情況下,聚類的效果往往不盡如人意。此外,以LDA為代表的主題模型會(huì)生成由若干關(guān)鍵詞構(gòu)成的主題,主題的意義需要人為歸納。

      我們認(rèn)為,發(fā)現(xiàn)學(xué)科交叉研究的主題,包含兩個(gè)子任務(wù):第一是交叉領(lǐng)域文獻(xiàn)集的確定;第二是交叉領(lǐng)域文獻(xiàn)集主題的識(shí)別。針對(duì)這兩個(gè)任務(wù),該文的研究方法將在第2節(jié)中詳述。

      2 研究方法

      本文的研究方法涉及兩方面。第一,針對(duì)交叉領(lǐng)域文獻(xiàn)集的確定,我們將利用《中國(guó)圖書館分類法》與文獻(xiàn)之間的引證關(guān)系,確定NLP與其他領(lǐng)域的交叉研究文獻(xiàn)。第二,針對(duì)交叉領(lǐng)域文獻(xiàn)集的主題識(shí)別,我們構(gòu)建了一個(gè)“數(shù)據(jù)資源-算法模型-關(guān)鍵技術(shù)-應(yīng)用系統(tǒng)”的4層級(jí)的NLP知識(shí)分類體系與文獻(xiàn)數(shù)據(jù)集,通過(guò)文獻(xiàn)的多標(biāo)簽分類(Multi-label classification),實(shí)現(xiàn)有監(jiān)督的文獻(xiàn)主題識(shí)別,從而使NLP在其他領(lǐng)域的影響作用更具體地呈現(xiàn)出來(lái)。

      2.1依據(jù)文獻(xiàn)分類號(hào)、引證關(guān)系構(gòu)建交叉領(lǐng)域文獻(xiàn)集要發(fā)現(xiàn)NLP在其他學(xué)科領(lǐng)域的影響力,首先需要收集NLP與其他學(xué)科交叉研究的文獻(xiàn)。在中國(guó)知網(wǎng)(CNKI)論文數(shù)據(jù)庫(kù)中,許多論文均標(biāo)注了文獻(xiàn)分類號(hào)。文獻(xiàn)分類號(hào)設(shè)置的依據(jù)就是《中國(guó)圖書館分類法》(以下簡(jiǎn)稱“《中圖法》”)。《中圖法》是一個(gè)針對(duì)圖書、文獻(xiàn)的大型知識(shí)分類體系,是當(dāng)今國(guó)內(nèi)圖書館使用最廣泛的分類體系。《中圖法》包含22個(gè)一級(jí)類別,以下又區(qū)分約250個(gè)二級(jí)類別和更多的小類,層層隸屬,逐級(jí)細(xì)分。

      NLP在《中圖法》知識(shí)分類體系中的定位是怎樣的?我們經(jīng)過(guò)對(duì)代表性NLP論文所屬分類號(hào)的分析調(diào)研,認(rèn)為具有以下《中圖法》分類號(hào)(以下簡(jiǎn)稱“中圖分類號(hào)”)的文獻(xiàn),就屬于NLP的典型文獻(xiàn),如表1所示。

      表1 自然語(yǔ)言處理的典型中圖分類號(hào)及其含義

      根據(jù)《中圖法》,TP391.1“文字信息處理”不僅包括文字錄入技術(shù),而且也涉及范圍更廣的、非語(yǔ)音而是書寫形式的文字處理系統(tǒng)。TP391.2“翻譯系統(tǒng)”與H085“機(jī)器翻譯”兩個(gè)分類號(hào)的區(qū)別在于,前者主要收錄與翻譯軟件及其應(yīng)用相關(guān)的圖書文獻(xiàn),后者則偏重機(jī)器翻譯及其理論[17]。每篇文獻(xiàn)的分類號(hào),由作者或期刊編輯人工標(biāo)記確定,嚴(yán)謹(jǐn)性和準(zhǔn)確性較強(qiáng)。

      我們依據(jù)上述分類號(hào),從CNKI中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中收集了2159篇文獻(xiàn)的題名、刊物名、摘要、關(guān)鍵詞、中圖分類號(hào)等信息。這些包含表1典型NLP分類號(hào)的文獻(xiàn),就是NLP領(lǐng)域的典型文獻(xiàn)。值得指出的是,這2159篇典型文獻(xiàn)中,也有不少文獻(xiàn)包含了多個(gè)中圖分類號(hào)。

      除了采集NLP領(lǐng)域的典型文獻(xiàn),我們也收集了NLP領(lǐng)域的非典型文獻(xiàn)。我們對(duì)于NLP領(lǐng)域非典型文獻(xiàn)的界定標(biāo)準(zhǔn)是:它們雖然本身不含表1所示的NLP文獻(xiàn)分類號(hào),但引用參考了NLP領(lǐng)域的典型文獻(xiàn)。我們依照此標(biāo)準(zhǔn),搜尋NLP典型文獻(xiàn)的引證文獻(xiàn),從中采集了1376篇NLP的非典型論文。

      2.2建立NLP知識(shí)分類體系,構(gòu)建論文主題數(shù)據(jù)集“NLP-others”如第1節(jié)所述,學(xué)術(shù)論文關(guān)鍵詞普遍存在主觀性強(qiáng),一致性較弱的現(xiàn)象。一詞多義、多詞一義、上位詞和下位詞的問題也不利于直接通過(guò)統(tǒng)計(jì)關(guān)鍵詞,反映NLP與其他學(xué)科領(lǐng)域交叉研究的研究主題。另外,根據(jù)我們對(duì)3535篇NLP典型與非典型論文的數(shù)據(jù)統(tǒng)計(jì),論文的關(guān)鍵詞同時(shí)存在于摘要或標(biāo)題中的比例不到30%。這意味著難以通過(guò)詞向量學(xué)習(xí),在論文的標(biāo)題或摘要中獲得關(guān)鍵詞的嵌入(embedding)表示。

      針對(duì)這樣的情況,我們依據(jù)參考對(duì)采集到的部分論文主題的考察,并參考宗成慶[18]對(duì)NLP領(lǐng)域內(nèi)容、層次的梳理,構(gòu)建了一個(gè)4層級(jí)的NLP知識(shí)分類體系,并據(jù)此體系,人工標(biāo)注了一個(gè)NLP與其他領(lǐng)域交叉研究的論文主題的多標(biāo)簽分類數(shù)據(jù)集“NLP-others”。該NLP知識(shí)分類體系如表2所示。

      表2 NLP的4層級(jí)知識(shí)多標(biāo)簽分類體系

      NLP的4層級(jí)知識(shí)多標(biāo)簽分類體系的第一層次是“數(shù)據(jù)資源”,任何一個(gè)信息處理系統(tǒng),都離不開數(shù)據(jù)和知識(shí)庫(kù)的支持, 自然語(yǔ)言處理系統(tǒng)也不例外。第二層次是“模型算法”,它主要涉及自然語(yǔ)言處理領(lǐng)域的統(tǒng)計(jì)方法與機(jī)器學(xué)習(xí)方法。第三層次是“關(guān)鍵任務(wù)”,主要涉及從詞語(yǔ)、句子序列、篇章等角度,對(duì)自然語(yǔ)言文本進(jìn)行分析并從中提取有價(jià)值的信息。第四層次是“應(yīng)用系統(tǒng)”,它是NLP知識(shí)分類體系中最宏觀抽象的一層,其下包含的具體label,通常都是集成性、實(shí)用性較強(qiáng)的落地的系統(tǒng)。

      為了讓表2的分類體系更好地指導(dǎo)NLP文獻(xiàn)主題數(shù)據(jù)標(biāo)注,增強(qiáng)標(biāo)注的準(zhǔn)確度與一致性。我們對(duì)該體系做出如下標(biāo)注說(shuō)明:

      a.知識(shí)庫(kù)/知識(shí)圖譜。知識(shí)庫(kù)與知識(shí)圖譜都屬于經(jīng)由人為提煉、加工后的形式化的知識(shí)資源,因此歸入同一個(gè)label中。詞典、辭書、本體、語(yǔ)義網(wǎng)、圖數(shù)據(jù)庫(kù)等主題也歸入該label中。

      b. 語(yǔ)言模型。包括但不限于經(jīng)典的n-gram語(yǔ)言模型與預(yù)訓(xùn)練深層語(yǔ)言模型。

      c.神經(jīng)網(wǎng)絡(luò)?!吧窠?jīng)網(wǎng)絡(luò)”label包括“詞向量”“LSTM”“CNN”“BERT”等下位概念。當(dāng)一篇文獻(xiàn)中包括這些下位概念時(shí),也需要標(biāo)注“神經(jīng)網(wǎng)絡(luò)”這一上位概念。

      d.詞向量、LSTM、CNN、LDA主題模型等。這些標(biāo)簽分別是所屬的一類模型算法的通稱。與它們密切相關(guān)的改進(jìn)、變種版算法/模型,也歸入對(duì)應(yīng)的標(biāo)簽里。例如“循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)”、“雙向的長(zhǎng)短期記憶(Bi-LSTM)”模型也歸入“LSTM”標(biāo)簽中。

      e.詞法分析。該label具體包括自動(dòng)分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)與詞語(yǔ)共現(xiàn)相關(guān)的內(nèi)容。另外有關(guān)語(yǔ)素(Morpheme)、詞類、復(fù)合詞內(nèi)部結(jié)構(gòu)等的語(yǔ)言理論研究,也歸入此label。而“關(guān)鍵詞抽取”相關(guān)內(nèi)容不歸入此label,而歸入“應(yīng)用系統(tǒng)”層次的“自動(dòng)文摘”label。

      f.句法分析。該label既涉及短語(yǔ)結(jié)構(gòu)語(yǔ)法、依存語(yǔ)法的自動(dòng)分析,也包括形式語(yǔ)言、自動(dòng)機(jī)理論、構(gòu)式語(yǔ)法等語(yǔ)言學(xué)語(yǔ)法理論的探索。

      g.語(yǔ)義分析。該label主要涉及對(duì)語(yǔ)言意義的分析研究,包括語(yǔ)義角色標(biāo)注、語(yǔ)義依存、詞義消歧等。也包括理論語(yǔ)言學(xué)領(lǐng)域相關(guān)的語(yǔ)義研究(如動(dòng)詞配價(jià)理論)?!爸R(shí)庫(kù)/知識(shí)圖譜”label中涉及語(yǔ)言意義形式化分析的內(nèi)容(如WordNet、HowNet知網(wǎng)),也同時(shí)歸入“語(yǔ)義分析”label中。

      h.網(wǎng)絡(luò)分析。包括圖論、復(fù)雜網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)分析等內(nèi)容。該label與“知識(shí)圖譜”的區(qū)別在于,“網(wǎng)絡(luò)分析”側(cè)重于動(dòng)態(tài)的算法過(guò)程與網(wǎng)絡(luò)性質(zhì)的分析,例如社群發(fā)現(xiàn)、關(guān)鍵節(jié)點(diǎn)挖掘、網(wǎng)絡(luò)表示學(xué)習(xí)等。

      i.輿情分析。該label主要包括監(jiān)測(cè)、情感分析、謠言識(shí)別、信息傳播等內(nèi)容。它與網(wǎng)絡(luò)社交媒體密切相關(guān)。

      j.分類系統(tǒng)。該label主要包括句子分類、文本分類,也包括廣義上的機(jī)器學(xué)習(xí)分類任務(wù)。若“輿情分析”label中涉及到分類任務(wù),也同時(shí)標(biāo)記“分類系統(tǒng)”這個(gè)label。但同層級(jí)除了“輿情分析”的其他label,如命名實(shí)體識(shí)別、信息檢索、問答系統(tǒng)、閱讀理解、自動(dòng)文摘等若涉及了分類的子任務(wù),也不再標(biāo)記“分類系統(tǒng)”label,以避免類別范圍無(wú)限制地?cái)U(kuò)大。

      k.回歸系統(tǒng)。該label主要涉及對(duì)樣本數(shù)值的預(yù)測(cè)。例如電影評(píng)分預(yù)測(cè)、溫度預(yù)測(cè)、廣告點(diǎn)擊率預(yù)測(cè)、作文評(píng)分預(yù)測(cè)。

      l.其他。當(dāng)一篇文獻(xiàn)不屬于其他任何一個(gè)label時(shí),就標(biāo)記為“其他”類別。

      該分類體系在指導(dǎo)文獻(xiàn)主題標(biāo)注時(shí),以文獻(xiàn)的簡(jiǎn)介信息(包括標(biāo)題、摘要、關(guān)鍵詞)為參考的材料依據(jù)。一篇文獻(xiàn)可能只有一個(gè)label,也可能有多個(gè)label。在主題標(biāo)注時(shí),應(yīng)當(dāng)彰顯文獻(xiàn)論述的顯式的重點(diǎn),例如若文獻(xiàn)簡(jiǎn)介明確提到了詞向量,除非在文獻(xiàn)簡(jiǎn)介也明確提到了自動(dòng)分詞、詞性標(biāo)注等內(nèi)容,否則該文獻(xiàn)僅標(biāo)注“詞向量”的label,不標(biāo)注“詞法分析”的label。

      我們依據(jù)此分類體系,對(duì)采集的文獻(xiàn)進(jìn)行主題標(biāo)注。在一位NLP專業(yè)的教師、兩位NLP專業(yè)研究生的合作下,人工標(biāo)注了每篇NLP相關(guān)論文的主題label,構(gòu)建了NLP與其他領(lǐng)域交叉研究的論文主題數(shù)據(jù)集“NLP-others”。下載鏈接為:https://www.mediafire.com/file/q5gy8iurtr7am76/NLP_topic_classification_dataset.xlsx/file。它包含1484篇帶NLP主題標(biāo)記的論文。這1 484篇論文或多或少均與其他學(xué)科領(lǐng)域有所關(guān)聯(lián)(如表3所示)。這為后續(xù)的主題統(tǒng)計(jì)、論文多主題識(shí)別奠定了基礎(chǔ)。

      3 實(shí)驗(yàn)數(shù)據(jù)

      如第2.1節(jié)所述,實(shí)驗(yàn)數(shù)據(jù)包括1 376篇NLP非典型文獻(xiàn),以及2 159篇NLP的典型文獻(xiàn)。而標(biāo)注的NLP論文主題數(shù)據(jù)集,則包括1 376篇NLP非典型文獻(xiàn)的全部,以及108篇典型文獻(xiàn)。這108篇典型文獻(xiàn)同時(shí)包含了表1的NLP典型分類號(hào),以及表1之外的其他中圖分類號(hào)。如表3所示。

      表3 實(shí)驗(yàn)數(shù)據(jù)的類型及其規(guī)模

      4 實(shí)驗(yàn)過(guò)程與分析

      4.1文獻(xiàn)的來(lái)源期刊分析我們首先統(tǒng)計(jì)了NLP的典型文獻(xiàn)、非典型文獻(xiàn)來(lái)源的期刊分布情況,根據(jù)期刊的頻次高低繪制了詞云圖。如圖1、圖2所示。

      對(duì)比圖1、圖2可以發(fā)現(xiàn),NLP領(lǐng)域的典型文獻(xiàn)主要來(lái)源于計(jì)算機(jī)學(xué)科相關(guān)的學(xué)術(shù)雜志,尤其以《中文信息學(xué)報(bào)》《計(jì)算機(jī)學(xué)報(bào)》《軟件學(xué)報(bào)》《計(jì)算機(jī)研究與發(fā)展》等為代表。而NLP領(lǐng)域的非典型文獻(xiàn),則主要分布在圖書館學(xué)、情報(bào)學(xué)領(lǐng)域的學(xué)術(shù)期刊中,如《圖書情報(bào)工作》《情報(bào)理論與實(shí)踐》《情報(bào)科學(xué)》。這說(shuō)明,圖情領(lǐng)域的許多論文雖然沒有標(biāo)注NLP的中圖分類號(hào),但參考引用了NLP領(lǐng)域的許多典型文獻(xiàn),受到NLP的影響較大。

      圖1 2 159篇NLP典型文獻(xiàn)的來(lái)源期刊

      圖2 1 376篇NLP非典型文獻(xiàn)的來(lái)源期刊

      總的來(lái)看,除計(jì)算機(jī)學(xué)科外,圖情學(xué)科與NLP的關(guān)聯(lián)最為密切。此外,也可以看到其他領(lǐng)域的學(xué)術(shù)雜志涉及了一些NLP的邊緣性、交叉性研究,如醫(yī)學(xué)領(lǐng)域的《醫(yī)學(xué)信息學(xué)雜志》、農(nóng)業(yè)領(lǐng)域的《農(nóng)業(yè)機(jī)械學(xué)報(bào)》、教育學(xué)領(lǐng)域的《中國(guó)遠(yuǎn)程教育》、傳播學(xué)領(lǐng)域的《現(xiàn)代傳播》、語(yǔ)言學(xué)領(lǐng)域的《語(yǔ)言文字應(yīng)用》、《語(yǔ)言科學(xué)》等。

      4.2文獻(xiàn)的中圖分類號(hào)分析NLP在其他領(lǐng)域的影響力,可以由NLP文獻(xiàn)涉及的其他學(xué)科分類號(hào)的出現(xiàn)頻次來(lái)定量地衡量。我們統(tǒng)計(jì)了3 535篇NLP典型與非典型的文獻(xiàn)中,除表1以外的其他中圖分類號(hào)頻次。這些中圖分類號(hào)要么與典型的NLP分類號(hào)同現(xiàn),要么是參考引用了NLP典型論文的文獻(xiàn)的分類號(hào)。它們代表著與NLP相關(guān)的其他學(xué)科領(lǐng)域。經(jīng)歸并小類的整理,如表4所示。

      表4 與NLP相關(guān)的其他領(lǐng)域分類號(hào)(部分)

      由表4可知,與NLP有聯(lián)系的領(lǐng)域十分廣泛。限于篇幅,我們闡述分析頻次前8位的分類號(hào)對(duì)應(yīng)的領(lǐng)域。分類號(hào)頻次最突出的是TP18人工智能理論領(lǐng)域,分類號(hào)出現(xiàn)的頻次高達(dá)639。NLP作為人工智能的一個(gè)分支,與人工智能中的機(jī)器學(xué)習(xí)、知識(shí)工程、人工神經(jīng)網(wǎng)絡(luò)有著千絲萬(wàn)縷的聯(lián)系[17]。

      頻次位居第二是G353“情報(bào)資料處理”的領(lǐng)域。根據(jù)對(duì)該領(lǐng)域下198篇文獻(xiàn)的考察,它們主要探討了各領(lǐng)域知識(shí)圖譜的構(gòu)建與應(yīng)用,以及科研學(xué)術(shù)信息的挖掘與分析。具體涉及知識(shí)圖譜[19-21]、主題發(fā)現(xiàn)及演化[22, 23]等技術(shù)。

      頻次第三的是G206“傳播理論”。該領(lǐng)域涉及輿情管理分析、社交媒體數(shù)據(jù)挖掘與計(jì)算視角下的傳播學(xué)研究。如唐存琛等[24]通過(guò)模塊化采集、文本分類與聚類,提升了獲取社交網(wǎng)站輿情信息的速度與質(zhì)量。胡吉明[25]、麻友[26]等分別利用BiLSTM-CRF、LDA模型從微博等社交媒體中抽取機(jī)構(gòu)、觀點(diǎn)等關(guān)鍵實(shí)體,實(shí)現(xiàn)輿情的挖掘與結(jié)構(gòu)化。譚振華[27]、劉麗群[28]、徐建民[29]等則從網(wǎng)絡(luò)傳播的角度,對(duì)用戶轉(zhuǎn)發(fā)微博的行為進(jìn)行特點(diǎn)分析或建模預(yù)測(cè)。

      頻次第四的是G252“信息資源服務(wù)、文獻(xiàn)檢索”領(lǐng)域。如名稱所示,該領(lǐng)域著眼于為用戶提供有效的信息資源。主要涉及相關(guān)數(shù)據(jù)庫(kù)、開放數(shù)據(jù)集的建設(shè)[30-31]、知識(shí)檢索[32-33]、智能推薦[34-36]、問答服務(wù)[37]等。

      頻次第五的是F724、F274“商品流通、企業(yè)營(yíng)銷管理與市場(chǎng)”領(lǐng)域。NLP在該領(lǐng)域處理的文本類型,既包括電商平臺(tái)的消費(fèi)者評(píng)論[38-40],也涉及招聘網(wǎng)站信息[41]與企業(yè)微博內(nèi)容[42]。NLP發(fā)揮的作用主要是挖掘文本關(guān)鍵信息,為企業(yè)人員與消費(fèi)者提供決策支持。

      頻次第六的是G254“信息組織理論”領(lǐng)域。該領(lǐng)域的文獻(xiàn)主要涉及信息加工、知識(shí)標(biāo)注與結(jié)構(gòu)化工作。例如學(xué)術(shù)知識(shí)描述體系[43]、古籍知識(shí)本體[44]、就業(yè)知識(shí)需求模型的構(gòu)建[45, 46],也包括機(jī)器學(xué)習(xí)對(duì)圖書[5]、文獻(xiàn)[47]多標(biāo)簽分類相關(guān)的研究等等。

      頻次第七的是G250“圖書館學(xué),情報(bào)學(xué)工作”。該領(lǐng)域與NLP交叉研究的突出主題,就是圖書館工作的網(wǎng)絡(luò)化與自動(dòng)化(數(shù)字圖書館)。數(shù)字圖書館是未來(lái)圖書館的發(fā)展趨勢(shì),數(shù)字人文、文化遺產(chǎn)的數(shù)字化[48]以及移動(dòng)圖書館、數(shù)字出版、數(shù)字資源的共享[49]都是與NLP緊密聯(lián)系的領(lǐng)域。

      頻次第八的是G434“計(jì)算機(jī)化教學(xué)、電化教學(xué)”領(lǐng)域。該領(lǐng)域與NLP交叉研究的領(lǐng)域較為廣泛。包括學(xué)生書面成績(jī)的自動(dòng)評(píng)價(jià)[50, 51]、學(xué)習(xí)者情感文本分析[52, 53]、運(yùn)用深度學(xué)習(xí)方法的MOOC在線課程信息挖掘[54-56]、知識(shí)推薦[57]與教育知識(shí)圖譜[58]等。

      我們按照《中圖法》將中圖分類號(hào)轉(zhuǎn)化成領(lǐng)域名稱,根據(jù)分類號(hào)出現(xiàn)的頻次,繪制了圖3所示的詞云圖??梢钥闯?,NLP與自然、社會(huì)與人文學(xué)科均有程度不同的影響力。這反映了當(dāng)代學(xué)科間的相互滲透、融合的趨勢(shì)。只要某領(lǐng)域存在需要處理分析的大量文本,NLP就能發(fā)揮重要作用,例如漁業(yè)標(biāo)準(zhǔn)的命名實(shí)體識(shí)別[59]。此外,NLP技術(shù)甚至在非自然語(yǔ)言的序列中,也有用武之地,例如向量空間模型用于RNA序列物種鑒定[60];又如注意力機(jī)制、LSTM模型用于基于實(shí)時(shí)負(fù)荷、歷史電價(jià)、日期類型、天氣等非文本特征的未來(lái)電價(jià)預(yù)測(cè)[61]。

      圖3 NLP聯(lián)系密切的其他領(lǐng)域一覽圖

      4.3“NLP-others”論文主題數(shù)據(jù)集的統(tǒng)計(jì)與多標(biāo)簽分類“NLP-others”論文主題數(shù)據(jù)集標(biāo)注工作完成后,我們統(tǒng)計(jì)了NLP主題標(biāo)簽的數(shù)量,依據(jù)頻次繪制了如圖4的詞云,它反映了NLP的數(shù)據(jù)資源、模型算法、關(guān)鍵任務(wù)、應(yīng)用系統(tǒng)被其他學(xué)科領(lǐng)域提及或應(yīng)用的頻繁程度。

      圖4 NLP主題在其他學(xué)科領(lǐng)域提及/應(yīng)用的頻繁程度

      由圖4可以看出,知識(shí)庫(kù)與知識(shí)圖譜(占比約9.71%)、神經(jīng)網(wǎng)絡(luò)(占比約9.23%)、輿情分析(占比約9.16%)是在其他學(xué)科領(lǐng)域廣泛提及或應(yīng)用的NLP知識(shí)的前3位。而篇章分析、閱讀理解、自然語(yǔ)言生成、多模態(tài)信息處理等目前仍然是富有挑戰(zhàn)的NLP任務(wù),還有較大的發(fā)展空間,因此這些主題在其他領(lǐng)域還較少被提及或應(yīng)用。在具體模型算法上,擅長(zhǎng)序列分析的LSTM相關(guān)模型、擅長(zhǎng)序列標(biāo)注的CRF模型、擅長(zhǎng)主題挖掘的LDA相關(guān)模型、擅長(zhǎng)分類的SVM模型在其他領(lǐng)域應(yīng)用較為廣泛。此外,近年來(lái)興起的預(yù)訓(xùn)練語(yǔ)言模型BERT也迅速被與NLP相關(guān)的其他領(lǐng)域所應(yīng)用。

      為了預(yù)測(cè)未來(lái)產(chǎn)生的NLP相關(guān)論文的主題,發(fā)揮“NLP-others”的主題識(shí)別作用,實(shí)現(xiàn)知識(shí)擴(kuò)散的精細(xì)化探測(cè)。我們?cè)凇癗LP-others”數(shù)據(jù)集上進(jìn)行多標(biāo)簽分類。我們選取了label數(shù)量最高的前30個(gè)label作為多標(biāo)簽分類的標(biāo)簽,其余低頻的label均轉(zhuǎn)變?yōu)椤捌渌眑abel。

      文本多標(biāo)簽分類(Multi-label classification)意味著給每個(gè)文本分配一個(gè)或多個(gè)label。例如一篇文獻(xiàn)同時(shí)論述了詞向量與語(yǔ)言模型相關(guān)的內(nèi)容,那么它至少應(yīng)標(biāo)記表2中“詞向量”、“語(yǔ)言模型”兩個(gè)label。在樣本量較少的情況下,它至今仍是一個(gè)充滿挑戰(zhàn)的NLP任務(wù)[62]。對(duì)于多標(biāo)簽分類,目前的常用方法是通過(guò)一定手段,將其轉(zhuǎn)化成單標(biāo)簽分類的任務(wù)。手段包括二元關(guān)聯(lián)(Binary Relevance)、分類器鏈(Classifier Chains)、標(biāo)簽子集(Label Powerset)[63]。

      二元關(guān)聯(lián)是最簡(jiǎn)易的方法,對(duì)于總計(jì)N個(gè)標(biāo)簽的多標(biāo)簽分類任務(wù),它將訓(xùn)練集中所有屬于類別i的數(shù)據(jù)標(biāo)記為正類,包括多標(biāo)簽的情況,而不屬于類別i的數(shù)據(jù)標(biāo)記為負(fù)類別,以此構(gòu)建N個(gè)二元分類器。分類器鏈則在二元關(guān)聯(lián)的基礎(chǔ)上,考慮了標(biāo)簽之間的相關(guān)性:首個(gè)二元分類器只在輸入數(shù)據(jù)上進(jìn)行訓(xùn)練,之后的分類器則在訓(xùn)練數(shù)據(jù)和所有之前的分類器上進(jìn)行訓(xùn)練。標(biāo)簽子集則將數(shù)據(jù)集中每個(gè)多標(biāo)簽的組合情況,都轉(zhuǎn)換為一個(gè)單獨(dú)的類別。從而將原任務(wù)轉(zhuǎn)化成單標(biāo)簽的多類分類任務(wù)。

      我們對(duì)所有的文本均按字切分,使用單字、2-gram、3-gram與TF-IDF特征,并把每個(gè)label的名稱在文本中的出現(xiàn)次數(shù)作為補(bǔ)充特征。我們選用支持向量機(jī)(SVM)與邏輯回歸(Logistic Regression,LR)作為分類器。按9∶1的比例劃分訓(xùn)練集與測(cè)試集,進(jìn)行10折交叉驗(yàn)證(10-fold Cross-validation)。在測(cè)試集上計(jì)算每個(gè)樣本的每個(gè)真實(shí)label的準(zhǔn)確率、召回率與F1值,如表5所示。

      表5 “NLP-others”數(shù)據(jù)集的多標(biāo)簽分類實(shí)驗(yàn)結(jié)果

      如表5所示,SVM分類器顯著優(yōu)于邏輯回歸。另外Label Powerset的多標(biāo)簽分類策略,略優(yōu)于Binary Relevance與Classifier Chains,這是因?yàn)長(zhǎng)abel Powerset方法把問題轉(zhuǎn)化成單標(biāo)簽多類的分類任務(wù),比起另外兩者“一對(duì)多”的二元分類,類別間數(shù)據(jù)不平衡問題有所緩解。30類多標(biāo)簽分類的F1值最優(yōu)達(dá)到76.60%。這證明對(duì)于NLP與其他學(xué)科交叉研究的文獻(xiàn),“NLP-others”數(shù)據(jù)集可以成為預(yù)測(cè)它們論文主題的基礎(chǔ)性資源。

      5 結(jié) 語(yǔ)

      該文依據(jù)《中圖法》文獻(xiàn)分類號(hào)與文獻(xiàn)之間的引證關(guān)系,從CNKI數(shù)據(jù)庫(kù)采集了3 535篇NLP典型與非典型文獻(xiàn)。提出了4層級(jí)的NLP知識(shí)分類體系,并據(jù)此構(gòu)建了NLP論文主題識(shí)別數(shù)據(jù)集“NLP-others”。實(shí)驗(yàn)發(fā)現(xiàn)自然語(yǔ)言處理在圖書館學(xué)情報(bào)學(xué)、傳播學(xué)、企業(yè)營(yíng)銷與市場(chǎng)、電化教學(xué)、醫(yī)學(xué)信息學(xué)、軍事學(xué)、行政管理、英語(yǔ)翻譯、地理信息系統(tǒng)、電力系統(tǒng)等領(lǐng)域均有著廣泛的影響。學(xué)科領(lǐng)域交叉的態(tài)勢(shì)顯著。知識(shí)庫(kù)與知識(shí)圖譜、神經(jīng)網(wǎng)絡(luò)、輿情分析等NLP技術(shù)在其他學(xué)科領(lǐng)域被廣泛提及或應(yīng)用。而篇章分析、閱讀理解、自然語(yǔ)言生成等技術(shù)在其他領(lǐng)域的應(yīng)用發(fā)展還有較大潛力。我們?cè)凇癗LP-others”數(shù)據(jù)集上進(jìn)行30類的論文多標(biāo)簽分類,基于Label Powerset方法的SVM分類器取得了當(dāng)前最好效果,F(xiàn)1值達(dá)到76.60%。實(shí)驗(yàn)證明,該文提出的NLP主題分類體系,與構(gòu)建的數(shù)據(jù)集“NLP-others”能為未來(lái)相關(guān)論文主題識(shí)別、NLP跨學(xué)科研究提供有力支撐。當(dāng)未來(lái)在其他領(lǐng)域出現(xiàn)了引用NLP典型論文的文獻(xiàn)時(shí),我們不僅可以根據(jù)引證關(guān)系,將其識(shí)別為受NLP影響的文獻(xiàn),而且可以利用“NLP-others”數(shù)據(jù)集與多標(biāo)簽分類算法,識(shí)別出NLP的哪些具體的數(shù)據(jù)資源、模型算法、關(guān)鍵任務(wù)、應(yīng)用系統(tǒng)對(duì)該領(lǐng)域文獻(xiàn)產(chǎn)生了影響。實(shí)現(xiàn)知識(shí)擴(kuò)散路徑的精細(xì)化探測(cè)。

      由于與NLP相關(guān)的外文文獻(xiàn)大都未標(biāo)注《中圖法》分類號(hào),本研究的數(shù)據(jù)采集范圍限于CNKI數(shù)據(jù)庫(kù)的中文文獻(xiàn)。在未來(lái)的研究中,我們將基于外文NLP文獻(xiàn)數(shù)據(jù),探索自然語(yǔ)言處理在其他領(lǐng)域的知識(shí)擴(kuò)散情況。

      猜你喜歡
      分類號(hào)交叉標(biāo)簽
      “六法”巧解分式方程
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      連一連
      A Study on the Change and Developmentof English Vocabulary
      標(biāo)簽化傷害了誰(shuí)
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      基于Fast-ICA的Wigner-Ville分布交叉項(xiàng)消除方法
      Translation on Deixis in English and Chinese
      The law of exercise applies on individual behavior change development
      南汇区| 商南县| 平远县| 新干县| 铜山县| 淮南市| 西宁市| 东平县| 武安市| 平泉县| 应城市| 兴山县| 九龙城区| 罗源县| 肥东县| 正镶白旗| 库尔勒市| 项城市| 漳平市| 商丘市| 星座| 饶河县| 赣州市| 班玛县| 胶州市| 财经| 新兴县| 比如县| 修水县| 厦门市| 尉犁县| 广东省| 普定县| 潮州市| 建平县| 金秀| 清远市| 永泰县| 达孜县| 永嘉县| 武威市|