• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      計(jì)算人文視閾下的計(jì)算語言學(xué):現(xiàn)狀和范式

      2023-06-18 06:15:42柏曉鵬
      圖書與情報(bào) 2023年1期
      關(guān)鍵詞:數(shù)字人文自然語言處理語言學(xué)

      摘? ?要:文章討論計(jì)算人文視閾下計(jì)算語言學(xué)的定位問題,主要涉及三個問題:計(jì)算人文視閾下計(jì)算語言學(xué)的定位、研究范式,以及它與其他計(jì)算人文研究方向的關(guān)系?!坝?jì)算人文”這一術(shù)語明確了數(shù)字人文的研究以計(jì)算技術(shù)解決人文學(xué)科的研究問題這一研究范式。我們認(rèn)為,當(dāng)前計(jì)算語言學(xué)的工作顯示出明顯的工程特征,將語言作為數(shù)據(jù)進(jìn)行處理,很少有回答語言學(xué)研究問題的工作。盡管很多學(xué)者認(rèn)為計(jì)算語言學(xué)是語言學(xué)的研究方向之一,但目前并無很多利用計(jì)算技術(shù)來進(jìn)行語言學(xué)研究的案例。因此,以文本可讀性工作為例,提出一個利用計(jì)算技術(shù)進(jìn)行語言學(xué)研究的計(jì)算語言學(xué)研究范式。研究認(rèn)為,計(jì)算語言學(xué)在工作方式上與其他計(jì)算人文研究方向并無二致,應(yīng)在統(tǒng)一的研究范式下工作;作為研究工具的計(jì)算語言學(xué),則需要在有效性和可解釋性間獲得平衡,推動數(shù)字人文各分支領(lǐng)域的發(fā)展,這是計(jì)算語言學(xué)在“以人文為核心,以計(jì)算為工具”這一研究框架中的準(zhǔn)確定位。

      關(guān)鍵詞:計(jì)算語言學(xué);計(jì)算人文;數(shù)字人文;語言學(xué);自然語言處理

      中圖分類號:H085.2? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023002

      Abstract In this article, we discuss the positioning of computational linguistics in the context of computational humanities. We focus on three main issues: the position of computational linguistics in the context of computational humanities, the research paradigm, and its relationship with other research fields in computational humanities. The term "computational humanities" clarifies the research paradigm in which the study of digital humanities solves research problems in the humanities with computational technologies. We find that current work in computational linguistics shows distinctly engineering character, treating language as data, with little work answering the research questions of linguistics. Although many scholars consider computational linguistics as one of the research directions in linguistics, we do not see many cases of using computational technology for linguistic (especially for Chinese language) research at present. Therefore, this paper proposes a computational linguistics research paradigm that uses computational techniques for linguistic research, using text readability work as an example. We believe that computational linguistics is no different from other research fields in computational humanities and should work under a unified research paradigm. Computational linguistics as a research method requires a balance between validity and interpretability. This is the positioning of computational linguistics in the framework of "humanities as the core and computation as the tool".

      Key words computational linguistics; computational humanities; computational humanities; linguistics; natural language processing

      1? ?從數(shù)字人文到計(jì)算人文

      數(shù)字人文將人文研究的成果用數(shù)字化手段呈現(xiàn)出來,如可視化的數(shù)據(jù)檢索在地圖上表示。隨著近年來計(jì)算技術(shù)作為研究工具應(yīng)用到學(xué)術(shù)研究的各個領(lǐng)域,人文研究也逐漸接受并嘗試使用這些工具來更新研究方法、拓展研究視野乃至提出新的研究問題?!坝?jì)算人文”這一術(shù)語強(qiáng)調(diào)將計(jì)算技術(shù)運(yùn)用成研究工具,改變現(xiàn)有的研究范式。簡單來說,是將基于數(shù)據(jù)(data based)和數(shù)據(jù)驅(qū)動(data driven)這兩種方法運(yùn)用到傳統(tǒng)上依賴研究者個人經(jīng)驗(yàn)的人文研究中。

      在數(shù)字人文提出之前,較有影響力的術(shù)語是人文計(jì)算。人文計(jì)算源于羅伯特·布薩對于著作索引的研究[1],早期的人文計(jì)算的研究也主要圍繞著詞語索引的構(gòu)建,借助計(jì)算機(jī)對詞語進(jìn)行計(jì)量,以此完成索引資源的建構(gòu)[2]。人文學(xué)科在研究過程中引入了計(jì)算技術(shù),開拓新的研究視角[3]。黃水清認(rèn)為,人文計(jì)算的核心框架與數(shù)字人文沒有本質(zhì)區(qū)別[4]。通過文本編碼、數(shù)據(jù)庫、計(jì)量分析等技術(shù)將人文內(nèi)容以及研究成果以數(shù)字化的形式呈現(xiàn)。數(shù)據(jù)可視化為人文研究提供了全局圖景,得以進(jìn)行“遠(yuǎn)讀”研究[5]。

      “計(jì)算人文”術(shù)語的提出,體現(xiàn)了計(jì)算技術(shù)作為研究方法融入人文科學(xué)的趨勢,“人文”是研究問題和研究對象,通過計(jì)算技術(shù)的方法發(fā)現(xiàn)、回應(yīng)人文學(xué)科的研究問題。一方面,計(jì)算技術(shù)作為人文科學(xué)的研究方法,在各人文子領(lǐng)域中應(yīng)該擁有統(tǒng)一的研究范式、系統(tǒng)的研究流程。黃水清在針對人文計(jì)算的困窘以及規(guī)范化的研究中提出了問題定義、數(shù)據(jù)集構(gòu)建、技術(shù)實(shí)現(xiàn)、問題求解、結(jié)果評價(jià)及呈現(xiàn)的五階段范式[6];另一方面,科學(xué)研究不僅是對材料進(jìn)行計(jì)量統(tǒng)計(jì),得到統(tǒng)計(jì)數(shù)據(jù),更重要的是利用數(shù)據(jù),對其中的研究問題進(jìn)行解釋,通過計(jì)算技術(shù)在人文學(xué)科研究中發(fā)現(xiàn)問題,解釋問題,甚至對已有結(jié)論進(jìn)行再論證。

      本文討論計(jì)算語言學(xué)與計(jì)算人文的關(guān)系。首先,介紹計(jì)算語言學(xué)的概況、發(fā)展歷程以及主流研究范式;其次,介紹計(jì)算語言學(xué)中一些典型的語言學(xué)問題。目前計(jì)算語言學(xué)的主要研究問題不是語言學(xué)研究問題,其主流方法與計(jì)算人文提出的研究框架并不兼容;第三,展示一項(xiàng)文本可讀性的研究,提出計(jì)算人文框架下計(jì)算語言學(xué)的研究范式;最后,討論計(jì)算語言學(xué)作為計(jì)算人文的研究工具的問題。

      2? ?計(jì)算語言學(xué)的發(fā)展

      2.1? ? 計(jì)算語言學(xué)的定義

      計(jì)算語言學(xué)致力于自動化處理自然語言,如語音與文字的相互轉(zhuǎn)換、專有名詞的識別、文本分類、回答問題、文本摘要的生成、翻譯等。其研究成果的運(yùn)用使數(shù)字人文研究的重點(diǎn)逐漸轉(zhuǎn)向了對文本知識的挖掘。如劉瀏等通過對《春秋》三傳中的女性人物知識以及諸侯國聯(lián)姻關(guān)系進(jìn)行量化分析,為《春秋》三傳中的女性人物的解讀提供了新的角度[7]。于純良等利用機(jī)器學(xué)習(xí)算法對稷下學(xué)重要文獻(xiàn)資料中的知識信息進(jìn)行自動識別、細(xì)粒度的語義知識深度標(biāo)引以及知識單元提取,以支持文獻(xiàn)資源的知識挖掘[8]。

      計(jì)算語言學(xué)至少在語言學(xué)和計(jì)算機(jī)科學(xué)兩個領(lǐng)域得到系統(tǒng)性關(guān)注,與之并列,還有“自然語言處理”這一常見術(shù)語。關(guān)于這兩個術(shù)語,我們列舉學(xué)界一些有代表性的說法:

      計(jì)算語言學(xué)是利用電子數(shù)字計(jì)算機(jī)進(jìn)行的語言分析[9]。

      計(jì)算語言學(xué)是通過建立形式化的計(jì)算模型來分析、理解和處理語言的學(xué)科[9]。

      計(jì)算語言學(xué),也稱自然語言處理或自然語言理解,是一門以計(jì)算為手段對自然語言進(jìn)行研究和處理的學(xué)科[10]。

      自然語言處理就是利用計(jì)算機(jī)為工具對人類特有的書面形式和口頭形式的語言進(jìn)行各種類型處理和加工的技術(shù)[11]。

      (計(jì)算語言學(xué)是)語言學(xué)的一個分支,用計(jì)算技術(shù)和概念來闡述語言學(xué)和語音學(xué)問題[12]。

      自然語言處理要研制表示語言能力和語言應(yīng)用的模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評測技術(shù)[13]。

      計(jì)算語言學(xué)包括以語音為主要研究對象的語音學(xué)基礎(chǔ)及其語音處理技術(shù)研究和以詞匯、句子、話語或語篇及其詞法、句法、語義和語用等相關(guān)信息為主要研究對象的處理技術(shù)研究[14]。

      從上述定義和描述可以看出,“計(jì)算語言學(xué)”強(qiáng)調(diào)使用計(jì)算技術(shù)對語言進(jìn)行研究,“自然語言處理”則關(guān)注語言處理技術(shù),但二者的定義在很大程度上是重合的,難以做出涇渭分明的區(qū)分。目前學(xué)界對計(jì)算語言學(xué)的認(rèn)識是:其研究對象是人類語言,研究手段是計(jì)算技術(shù),研究目的是對語言進(jìn)行自動化處理,其研究過程涉及對語言的建模和對模型的評價(jià)。

      2.2? ? 計(jì)算語言學(xué)方法論的變遷

      計(jì)算語言學(xué)研究的方法論經(jīng)歷了三個階段:基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)主義方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法。

      2.2.1? ? 基于規(guī)則的方法

      基于規(guī)則的方法是理性主義(rationalism)方法,基于喬姆斯基關(guān)于語言是人腦內(nèi)在功能(faculty)的假設(shè)。它主張用人工整理和定義的語法規(guī)則,通過推理程序,對自然語言進(jìn)行自動處理。根據(jù)規(guī)則構(gòu)造出來的語言處理系統(tǒng)解釋力很強(qiáng),因?yàn)橐?guī)則來自于語言學(xué)家對語言的觀察和總結(jié)。然而,在多數(shù)情況下,系統(tǒng)中的規(guī)則并不能覆蓋所有語言現(xiàn)象。當(dāng)某條規(guī)則在計(jì)算過程中碰到例外,需要對這條規(guī)則做出修正。

      以詞性標(biāo)注(POS tagging)為例,假設(shè)一個詞性標(biāo)注系統(tǒng)由一百條語法規(guī)則組成,對其中任何一條規(guī)則進(jìn)行變動,都可能會帶來其他規(guī)則變化的連鎖反應(yīng)。語法學(xué)研究顯示,自然語言是復(fù)雜系統(tǒng),幾乎沒有一套規(guī)則可以涵蓋所有可能的語言現(xiàn)象?;谝?guī)則的方法需要不斷地對規(guī)則系統(tǒng)做出調(diào)整,隨著所要處理的語言現(xiàn)象增多,規(guī)則系統(tǒng)面臨崩潰。

      2.2.2? ?基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法

      基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是經(jīng)驗(yàn)主義(empiricism)方法。它與認(rèn)知語言學(xué)的假設(shè)一致,認(rèn)為語言能力的獲取是語言輸入的結(jié)果。人們通過已有的語言數(shù)據(jù)對統(tǒng)計(jì)模型進(jìn)行訓(xùn)練(training),將語言現(xiàn)象在語料庫中的分布轉(zhuǎn)化為統(tǒng)計(jì)模型的參數(shù),然后用帶有參數(shù)的統(tǒng)計(jì)模型去處理新的語言現(xiàn)象。相較于基于規(guī)則的方法,該方法更加健壯(robust),具有較好的預(yù)測性。從應(yīng)用的角度說,基于統(tǒng)計(jì)的方法比基于規(guī)則的方法更加簡單,適應(yīng)性更強(qiáng)?;诮y(tǒng)計(jì)的方法需要將自然語言轉(zhuǎn)換為恰當(dāng)?shù)谋硎荆╮epresentation),并根據(jù)具體任務(wù)抽取特征(features),所以,特征工程(feature engineering)是非常重要的工作。

      2.2.3? ?基于深度神經(jīng)網(wǎng)絡(luò)的方法

      基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法結(jié)果的好壞很大程度上取決于數(shù)據(jù)的規(guī)模和標(biāo)注質(zhì)量。語料庫的規(guī)模、標(biāo)注深度、標(biāo)注質(zhì)量、標(biāo)注內(nèi)容等問題都會對機(jī)器學(xué)習(xí)模型的結(jié)果產(chǎn)生影響。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)上積累了海量數(shù)據(jù),這為深度神經(jīng)網(wǎng)絡(luò)(deep neural network)算法的實(shí)現(xiàn)提供了數(shù)據(jù)基礎(chǔ)。深度神經(jīng)網(wǎng)絡(luò)的輸入端和輸出端之間有n層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)上有若干個節(jié)點(diǎn)(node,又稱為神經(jīng)元),每個節(jié)點(diǎn)是一個參數(shù),數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)后經(jīng)過計(jì)算(如激活函數(shù)、求導(dǎo)等操作)進(jìn)行逐層的向前/向后傳播,最終得到輸出值,在此期間,網(wǎng)絡(luò)中的節(jié)點(diǎn)(參數(shù))不斷更新,以優(yōu)化輸出值。深度神經(jīng)網(wǎng)絡(luò)方法又稱為深度學(xué)習(xí)(deep learning)。

      深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語言處理中代表性的算法主要有詞嵌入(Word Embedding)、長短時(shí)記憶(Long-Short Term Memory)和預(yù)訓(xùn)練語言模型(Pre-trained Language Models)。詞嵌入是文本表示方法,與統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法常用的獨(dú)熱表示(One-hot Representation)相比,詞嵌入表示將高維空間的詞匯向量投射到低維空間,得到低維高稠密的詞匯向量。LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network),RNN是一類處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),適用于語言,LSTM通過門結(jié)構(gòu)(Gate)的設(shè)計(jì)彌補(bǔ)了RNN無法處理長距離依存信息的問題,成為處理語言數(shù)據(jù)的典型算法。預(yù)訓(xùn)練模型提供“預(yù)訓(xùn)練+微調(diào)”的模式,研究者使用開源預(yù)訓(xùn)練模型,用自己的數(shù)據(jù)對模型進(jìn)行微調(diào)后,即可開展研究工作。深度神經(jīng)網(wǎng)絡(luò)方法已成為計(jì)算語言學(xué)的主流方法,其在各項(xiàng)NLP任務(wù)上的表現(xiàn)均優(yōu)于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。

      2.3? ? 計(jì)算語言學(xué)的主流研究范式

      從20世紀(jì)40年代機(jī)器翻譯工作開始,計(jì)算語言學(xué)逐漸形成了一個主流的研究范式獲取數(shù)據(jù)、訓(xùn)練模型、評測模型。這三個部分是目前進(jìn)行計(jì)算語言學(xué)研究工作的必要環(huán)節(jié)。

      2.3.1? ?獲取數(shù)據(jù)

      數(shù)據(jù)是用來訓(xùn)練模型的。對于不同的方法,獲取數(shù)據(jù)的方式和難度是不同的。對于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來說,需要從語料庫中獲取信息,對模型進(jìn)行訓(xùn)練。而標(biāo)注是必要的工作,如分詞、詞性標(biāo)注、句法剖析、語義角色標(biāo)注等。不同任務(wù)需要標(biāo)注的類型和深度是不一樣的。

      對于深度神經(jīng)網(wǎng)絡(luò)的方法,數(shù)據(jù)主要來自互聯(lián)網(wǎng)語料,包含了很多信息。如果使用預(yù)訓(xùn)練模型,研究者只需要準(zhǔn)備少量的、簡單標(biāo)注的數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)即可將模型轉(zhuǎn)移(transfer)到自己的工作上。

      2.3.2? ?訓(xùn)練模型

      本質(zhì)上,模型是(一些)數(shù)學(xué)公式,訓(xùn)練模型就是利用語料庫將公式中的參數(shù)估計(jì)出來的過程。如最簡單的一元線性回歸模型y=a+bx,訓(xùn)練模型的過程就是利用語料庫中(x,y)信息對參數(shù)a、b進(jìn)行估計(jì)。對于預(yù)訓(xùn)練模型來說,訓(xùn)練模型是對網(wǎng)絡(luò)上的參數(shù)進(jìn)行估計(jì)。在實(shí)際工作中,模型參數(shù)的規(guī)??赡芊浅}嫶?,當(dāng)前的大語言模型(Large Language Models)參數(shù)規(guī)模往往超過億個,如Bert、GPT-1的參數(shù)規(guī)模是1億多,GPT-2的參數(shù)規(guī)模是15億,Google的PaLm參數(shù)規(guī)模5400億,ChatGPT(GPT-3.5)參數(shù)規(guī)模1750億,而GPT-4達(dá)到百萬億的參數(shù)規(guī)模。

      2.3.3? ?評測模型

      模型訓(xùn)練完成后需要對其表現(xiàn)進(jìn)行檢測,以判斷其是否有效,稱為評測(evaluation)。一般來說,用于評測模型的數(shù)據(jù)是訓(xùn)練語料中的一部分,在實(shí)際工作中,研究者會按一定的比例將語料庫分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),也就是說,測試數(shù)據(jù)是模型在訓(xùn)練階段沒有“見過”的,這個比例往往是7:3或者8:2,取決于語料庫規(guī)模。

      用于評測模型的指標(biāo)對不同的任務(wù)是不同的。如準(zhǔn)確率(accuracy)、召回率(recall)和調(diào)和平均值(f-score)適合用于分類、序列標(biāo)注等模型的評測,而BLEU、標(biāo)注一致性等指標(biāo)適用于機(jī)器翻譯、自動文摘模型的評測。

      在這個研究范式中,研究目標(biāo)是最大程度優(yōu)化模型算法在語言處理任務(wù)中的表現(xiàn),研究問題則是通過模型改進(jìn)、開發(fā)新的數(shù)據(jù)集以在特定任務(wù)上達(dá)到最佳的評測結(jié)果。

      3? ?計(jì)算語言學(xué)與語言學(xué)的關(guān)系

      通過引入其他學(xué)科的研究方法,當(dāng)代語言學(xué)衍生出相應(yīng)的研究方向。如認(rèn)知語言學(xué)使用認(rèn)知科學(xué)中的“象似性”原理解釋語法化過程中某些語法現(xiàn)象的演變,心理語言學(xué)使用眼動儀和行為實(shí)驗(yàn)記錄人眼對語言材料的“刺激-反應(yīng)”數(shù)據(jù),從而對多義詞義項(xiàng)選擇進(jìn)行解釋。同樣,學(xué)者們認(rèn)為計(jì)算語言學(xué)是當(dāng)代語言學(xué)的研究方向之一。但仔細(xì)觀察計(jì)算語言學(xué)的發(fā)展及其研究范式,我們并不認(rèn)為計(jì)算語言學(xué)與認(rèn)知語言學(xué)、心理語言學(xué)一樣,是典型的語言學(xué)研究方向。本節(jié)羅列一些曾在計(jì)算語言學(xué)中被關(guān)注的語言問題,藉此來討論計(jì)算語言學(xué)與語言學(xué)的關(guān)系。

      3.1? ? 分詞(Segmentation)

      漢語書面語沒有詞邊界,相較于英語這類語言,計(jì)算機(jī)處理漢語首先要識別詞邊界,詞邊界隔開的單位被稱為分詞單位。在具體研究中,分詞單位的定義往往不是語言學(xué)意義上的詞。如果我們要從語料庫中統(tǒng)計(jì)常用詞,那么分詞單位應(yīng)當(dāng)是語言學(xué)意義上的詞,即“獨(dú)立運(yùn)用的最小音義結(jié)合體”,所以,“中華人民共和國”就應(yīng)該被切分為三個分詞單位“中華”“人民”和“共和國”。如果要做一個搜索系統(tǒng),那么分詞單位應(yīng)當(dāng)是表達(dá)一個完整概念的單位,“中華人民共和國”就應(yīng)該被視為一個分詞單位。用于進(jìn)行分詞的方法有三種:基于詞典的規(guī)則方法、基于統(tǒng)計(jì)模型的方法和基于分類模型的方法。

      3.2? ? 詞性標(biāo)注(Part-of-speech Tagging)

      句子中的每個詞都有其語法類別,稱為詞性,詞性標(biāo)注就是在句子中確定每個詞詞性的任務(wù)。相較于印歐語系形態(tài)屈折變化豐富的語言,對漢語進(jìn)行詞性標(biāo)注存在一些困難[15]:無法從詞形推斷詞性;詞的語法兼類現(xiàn)象普遍;詞性標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一。進(jìn)行詞性標(biāo)注的方法主要有基于統(tǒng)計(jì)的方法、基于規(guī)則的方法和統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。

      3.3? ? 句法分析(Parsing)

      句子是層次性結(jié)構(gòu),所以句子中的詞不總是與相鄰的詞有直接句法關(guān)系,句法分析就是自動識別句子中詞與詞之間的句法關(guān)系并進(jìn)一步確定句法結(jié)構(gòu)的任務(wù)。

      句法分析主要分為短語結(jié)構(gòu)分析(constituent parsing)和依存分析(dependency parsing)兩種路徑。前者以賓州樹庫(Penn Treebank)為代表,后者以哈工大依存樹庫(dependency treebank)為代表。這兩種路徑反映了不同的語法理論,對于計(jì)算語言學(xué)來說,這是兩種不同的句子表示方法。

      句法分析是計(jì)算語言學(xué)中一項(xiàng)基礎(chǔ)工作,曾被認(rèn)為是機(jī)器翻譯必經(jīng)之路。用于句法分析的訓(xùn)練語料庫開發(fā)成本非常大,而且不同學(xué)者對同一個句法現(xiàn)象該如何標(biāo)注也會有爭議。

      3.4? ? 語義分析

      常見的語義分析工作有詞義消歧和語義角色標(biāo)注。

      3.4.1? ?詞義消歧(Word Sense Disambiguation)

      一詞多義是詞匯語義中最常見的現(xiàn)象,詞匯學(xué)往往會區(qū)別多義詞和漢語中的同音同形詞,但對計(jì)算機(jī)而言,這兩個現(xiàn)象是一回事,都是一個詞形對應(yīng)多個義項(xiàng)。如“吃”在“我吃餃子”和“吃俺老孫一棒”中是不同的意思,詞義消歧的目標(biāo)就是把“吃”在不同句子中的義項(xiàng)標(biāo)注出來。

      3.4.2? ?語義角色標(biāo)注(Semantic Role Labeling)

      語義角色描述了句法上所說“論元”與謂語中心的語義關(guān)系,來源于Fillmore(1968)提出的格語法。如“我吃了一碗飯”,謂語中心是“吃”,它轄制兩個論元:“我”和“一碗飯”。論元“我”的語義角色是謂語中心的“施事(agent)”,而“一碗飯”則是謂語中心的“受事(patient)”。SRL就是要在“論元-謂語中心”的框架中將論元的語義角色自動識別出來。

      3.5? ? 計(jì)算語言學(xué)和語言學(xué)的關(guān)系

      上述問題并不能算是語言學(xué)的研究問題,換言之,計(jì)算語言學(xué)的相關(guān)研究沒有回答相關(guān)的詞匯學(xué)、句法學(xué)和語義學(xué)的問題。上述問題只是在特定任務(wù)中計(jì)算語言學(xué)需要解決的障礙。如計(jì)算語言學(xué)需要識別漢語文本的詞邊界,因?yàn)榻y(tǒng)計(jì)模型需要使用詞分布的數(shù)據(jù)進(jìn)行訓(xùn)練。對于語言學(xué),分詞問題的本質(zhì)是回答“漢語中什么是詞”的問題,而詞性標(biāo)注的本質(zhì)則是“對于缺乏屈折形態(tài)變化的漢語,如何對詞劃分句法類別”的問題??梢钥吹?,計(jì)算語言學(xué)在分詞、詞性標(biāo)注方面的工作并沒有推動解決相關(guān)語言學(xué)問題。

      從評價(jià)的角度來看,評價(jià)一個計(jì)算語言學(xué)工作優(yōu)劣的標(biāo)準(zhǔn)是某個機(jī)器學(xué)習(xí)模型在標(biāo)準(zhǔn)數(shù)據(jù)集上是否能夠取得評測指標(biāo)的提升。如預(yù)訓(xùn)練語言模型能夠比支撐向量機(jī)模型在同一個漢語分詞數(shù)據(jù)集上取得更好的調(diào)和平均值,那使用預(yù)訓(xùn)練語言模型進(jìn)行分詞的工作就是更好的。但是,預(yù)訓(xùn)練語言模型依然沒有能夠回答語言學(xué)問題。

      總體而言,在目前主流計(jì)算語言學(xué)的研究范式中,研究目的不是對語言現(xiàn)象進(jìn)行研究解釋,而是解決具體的工程問題。計(jì)算語言學(xué)還沒有發(fā)展出一套以解決語言學(xué)研究問題為中心的研究范式。以句法為例,計(jì)算語言學(xué)所說的句法研究與語言學(xué)所說的句法研究不是一回事,計(jì)算語言學(xué)的句法研究工作是在現(xiàn)有句法分析體系(一般是短語結(jié)構(gòu)文法或依存句法)框架下,探討如何將線性的句子自動解析為層次性的樹狀結(jié)構(gòu),語言學(xué)的句法研究工作則是構(gòu)建句法規(guī)則體系,并且用句法體系來解釋句法現(xiàn)象。現(xiàn)有的計(jì)算語言學(xué)研究范式與“人文為問題,計(jì)算為方法”的框架不兼容。計(jì)算語言學(xué)研究應(yīng)當(dāng)有一個以“語言/語言學(xué)研究”為核心,回應(yīng)語言和語言學(xué)研究問題的研究范式。

      4? ?計(jì)算人文視閾下計(jì)算語言學(xué)研究范式:以文本可讀性計(jì)算為例

      計(jì)算語言學(xué)應(yīng)形成一個以語言學(xué)問題為中心的研究范式,在這個范式中對語言學(xué)問題進(jìn)行討論。這里我們以一項(xiàng)文本可讀性計(jì)算(text readability assessment)的工作為例,來演示我們?nèi)绾瓮ㄟ^計(jì)算語言學(xué)中的自動分類技術(shù),對比評價(jià)各項(xiàng)語言學(xué)特征對文本可讀性的影響[16],并嘗試提出一套以語言問題為核心研究范式。

      4.1? ? 文本可讀性計(jì)算(Text Readability Assessment)

      文本可讀性指文本易于閱讀和理解的程度,是對文本的難易程度進(jìn)行評估的核心指標(biāo),是分級閱讀研究關(guān)心的核心問題之一。前人研究將文本可讀性計(jì)算看作分類問題,使用基于統(tǒng)計(jì)的自動分類模型為研究方法。

      4.2? ? 研究問題

      研究者在文本可讀性計(jì)算這個問題上,主要關(guān)心兩方面的問題:一是哪些計(jì)算模型和方法可以用來解決這個問題;二哪些因素影響了文本的可讀性。前一個問題是關(guān)于如何構(gòu)造文本可讀性計(jì)算系統(tǒng),以達(dá)到自動判斷的目的。后一個問題是文本中有哪些特征影響了可讀性,這是關(guān)于文本可讀性的理論問題。顯然后一個問題是語言學(xué)的研究問題,在計(jì)算人文的框架中,應(yīng)以此為研究問題。文本可以分解為若干語言學(xué)特征:詞匯、句法、篇章。這些特征如何影響文本的可讀性,從而可以指導(dǎo)應(yīng)用語言學(xué)的相關(guān)工作,如語言教學(xué)。所以,研究問題具體為:詞匯、句法和篇章這三種語言特征對文本可讀性的影響如何。

      4.3? ? 構(gòu)建語料庫和獲取語言學(xué)特征

      語料庫是此項(xiàng)研究的材料,選取了“統(tǒng)編版語文教材語料庫”[17]共計(jì)31.5萬字(不包括標(biāo)點(diǎn))。由于語料整體規(guī)模較小,語料庫以學(xué)段為分級單位,根據(jù)教育部頒布的《義務(wù)教育語文課程標(biāo)準(zhǔn)》(2022版)對學(xué)段的劃分將四個學(xué)段的課文對應(yīng)為四個可讀性級別,作為類別標(biāo)簽。然后,對語料庫標(biāo)注了三個層面的語言學(xué)特征:詞法(25種)、句法(6種)和篇章(44種)。

      4.4? ? 自動分類實(shí)驗(yàn)

      工程研究不同,本文不以提高分類器的分類結(jié)果為目標(biāo),而是把分類器作為工具,用來測試文本語言特征對可讀性的影響。以文本在教材中所處的學(xué)段作為可讀性類別標(biāo)簽,以語言特征作為參數(shù),實(shí)現(xiàn)特征與類別的關(guān)聯(lián),最后利用該模型判定該文本的所屬類別。對文本可讀性級別影響較大的特征,當(dāng)它出現(xiàn)的時(shí)候,分類模型的結(jié)果必然比它不出現(xiàn)的時(shí)候更好。我們可以通過觀察某類特征是否出現(xiàn)對于分類結(jié)果的影響,來評估該特征對文本可讀性的影響。

      4.5? ? 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果顯示了不同種類的語言特征對文本可讀性的影響(見表1)。使用支撐向量機(jī)分類器,我們可以對“語言特征對文本可讀性的影響”這一問題進(jìn)行量化分析。在單一特征模型中,篇章特征模型的分級準(zhǔn)確率為65.21%,優(yōu)于詞匯模型和句法模型,句法特征模型的準(zhǔn)確率最差。所以,篇章特征對文本可讀性的影響最大,詞匯特征次之,句法特征最次。

      4.6? ? 計(jì)算人文視閾下計(jì)算語言學(xué)的研究范式

      以語言和語言學(xué)問題為核心,計(jì)算技術(shù)為研究手段,通過上述文本可讀性的工作,可以總結(jié)出一個計(jì)算人文視閾下計(jì)算語言學(xué)的研究范式。它包含四個部分:提出語言學(xué)研究問題;與研究問題相關(guān)的語言學(xué)特征的獲?。粚⒀芯繂栴}轉(zhuǎn)換為計(jì)算語言學(xué)任務(wù),設(shè)計(jì)實(shí)驗(yàn);分析實(shí)驗(yàn)結(jié)果,回應(yīng)研究問題。

      5? ?作為研究工具的計(jì)算語言學(xué)

      語言是人類文明的重要載體,人類文明大多以語言形式(語音和文字)保留下來。人文學(xué)科(如文學(xué)、歷史、文獻(xiàn)學(xué)等)大部分的研究對象(如檔案、文獻(xiàn)等)以文本形式呈現(xiàn),所以文本是必不可少的研究材料。在研究中,不僅要對個體材料有精深的理解和把握,也需要對大規(guī)模材料有整體上的認(rèn)識,這在依賴研究者個體經(jīng)驗(yàn)的情況下是難以實(shí)現(xiàn)的。計(jì)算語言學(xué)的快速發(fā)展為處理大規(guī)模文本數(shù)據(jù),以及在文本中進(jìn)行知識發(fā)現(xiàn)等研究活動提供了工具。我們認(rèn)為,計(jì)算語言學(xué)作為研究工具,有三方面的工作可為相關(guān)研究所用:語言資源建設(shè)、文本分析技術(shù)、基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)。

      5.1? ? 語言資源建設(shè)

      語言資源分為語料庫和語言知識庫。

      語料庫是對真實(shí)語言材料進(jìn)行各類標(biāo)注的結(jié)果,它為統(tǒng)計(jì)模型提供數(shù)據(jù)。語料庫可以做如下分類:根據(jù)語料庫的用途可分為通用語料庫(如人民日報(bào)語料庫、BCC語料庫、臺灣中研院語料庫)和專用語料庫(如口語語料庫、中介語語料庫);根據(jù)所搜集語料的時(shí)間跨度可分為共時(shí)語料庫(如LIVAC語料庫、人民日報(bào)語料庫)和歷時(shí)語料庫(如古代漢語語料庫);根據(jù)語料庫的加工類型和深度可分為詞法標(biāo)注語料庫(如人民日報(bào)語料庫、國家語委平衡語料庫)、句法樹庫(如賓州樹庫、清華樹庫)、句法依存樹庫(如哈工大漢語依存樹庫)、命題庫(如賓州命題樹庫)、篇章樹庫(賓州篇章樹庫)、抽象語義表示庫。語料規(guī)模、采集范圍、標(biāo)注規(guī)范,這些問題決定了語料庫的質(zhì)量并進(jìn)一步影響后續(xù)的研究,相關(guān)研究催生了一個專門的研究方向:語料庫語言學(xué)。

      語言知識庫是確定的語言知識的集合,它往往以詞典和數(shù)據(jù)庫的形式出現(xiàn)。語言知識庫的建立依賴專家知識,是語言處理系統(tǒng)的基礎(chǔ)設(shè)施。根據(jù)語言知識庫的基本元素,可分為概念知識庫(如WordNet、FrameNet、HowNet、同義詞詞林)、詞匯知識庫(如北大語法信息詞典)。

      語言資源相關(guān)的工作對于計(jì)算人文依然具有重大的意義和價(jià)值,一方面現(xiàn)有的語言資源可以直接用于計(jì)算人文的研究,另一方面其方法論可以指導(dǎo)未來語料庫和數(shù)據(jù)庫的開發(fā)和建設(shè)。

      5.2? ? 文本分析技術(shù)

      計(jì)算語言學(xué)在文本分析方面的成果可以運(yùn)用在從詞到篇各層面的數(shù)據(jù)挖掘。文本分析產(chǎn)生的數(shù)據(jù),如詞匯、語法關(guān)系等,對于文學(xué)、語言學(xué)、歷史學(xué)等人文社會科學(xué)研究領(lǐng)域是非常有用的材料。目前研究者可以通過開源的形式獲得大部分的文本分析工具。這里簡單介紹一些可以對漢語文本進(jìn)行分析的開源工具。

      5.2.1? ?詞法分析工具

      詞法分析是對文本進(jìn)行挖掘和處理的第一步,目前大多數(shù)面向現(xiàn)代漢語的詞法分析工具可以達(dá)到高于90%的調(diào)和平均值(f-score),即使不能直接用于研究,也可以極大地簡化相應(yīng)的工作負(fù)擔(dān)。古文分詞的工具比較少見,這主要是因?yàn)楣糯鷿h語的時(shí)間跨度很大,不同時(shí)代、文體、題材的文本都稱為古代漢語文本,其內(nèi)部的詞法分布規(guī)律非常不均衡,故打造一個通用的古文分詞工具難度很大。古漢語分詞與詞性標(biāo)注國際評測是專門面向該問題的工作[18]。

      詞法分析主要包括:分詞、詞性標(biāo)注、各類命名實(shí)體識別等。命名實(shí)體識別可以看作是一類特殊的詞性標(biāo)注,目前大部分的詞法分析工具都把這三個部分集成在一起(一些開源詞法分析工具見表2)。

      5.2.2? ?句法分析工具

      句法分析工具將句子中詞的關(guān)系進(jìn)行顯性標(biāo)注一般有短語結(jié)構(gòu)分析和依存分析兩種。短語結(jié)構(gòu)分析將句子表示為一個樹狀結(jié)構(gòu),依存分析將句子表示為一個有向圖的結(jié)構(gòu)。盡管這兩種分析方法基于不同的句法學(xué)理念,但是二者間在技術(shù)上是可以相互轉(zhuǎn)換的。本文僅對部分開源句法分析工具簡單列舉(見表3)。

      5.2.3? ?語義分析工具

      語義分析主要是對句中詞的語義角色關(guān)系進(jìn)行顯性標(biāo)注。語義分析需要在句法分析的基礎(chǔ)上進(jìn)行,非常依賴句法分析的結(jié)果。目前主要是LTP和suPar提供語義角色標(biāo)注和語義依存分析。需要指出的是,suPar是一款若干句法分析工具的集成,很難看作是原創(chuàng)性的工作。

      以上列舉的各項(xiàng)文本分析工具,大多以語言處理平臺的方式出現(xiàn),專門針對某一語言單項(xiàng)的分析工具(除了結(jié)巴分詞)不多。從效果上來看,從高到低依次排序?yàn)椋悍衷~、句法分析、語義分析。分詞和句法分析工具的結(jié)果基本上可以直接使用,但是需要根據(jù)具體研究做一些適應(yīng)性改造。而語義分析的結(jié)果較差,如suPar報(bào)告的語義依存分析結(jié)果的調(diào)和平均值最高為71%。

      就計(jì)算語言學(xué)本身而言,對文本內(nèi)容進(jìn)行挖掘是其工作流程中的中間環(huán)節(jié),如果下游的任務(wù)不再需要某種文本數(shù)據(jù),那么對這種數(shù)據(jù)的挖掘就不再重要,如上文所提及的句法分析工作。所以計(jì)算人文領(lǐng)域需要在句法語義等“傳統(tǒng)的”文本處理分析工具方面投入研究。

      5.3? ? 基于深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型的技術(shù)

      深層神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型技術(shù)是目前計(jì)算語言學(xué)的主流技術(shù),已經(jīng)應(yīng)用在各個研究方向上。深層神經(jīng)網(wǎng)絡(luò)技術(shù)又稱為端到端(end-to-end)的技術(shù),即研究者只需選擇模型、調(diào)整參數(shù)、輸入數(shù)據(jù)即可,而不再需要從頭開發(fā)。而這種端到端的模式也使得很多任務(wù),如機(jī)器翻譯、人機(jī)對話等,不再依賴對文本的詞匯、結(jié)構(gòu)、語義等分析的結(jié)果,所以上面提到的各種文本分析技術(shù)不再是(計(jì)算機(jī)科學(xué)視閾下)計(jì)算語言學(xué)研究的重點(diǎn)①。學(xué)界和工業(yè)界相繼開源了一批深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架,如PyTorch[28]、TensorFlow[29]等,這些框架的核心是各種預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型是在深層神經(jīng)網(wǎng)絡(luò)框架中使用大規(guī)模數(shù)據(jù)訓(xùn)練得到的神經(jīng)語言模型,這些框架和預(yù)訓(xùn)練模型使得研究者可以訓(xùn)練自己的預(yù)訓(xùn)練模型。目前開源的中文預(yù)訓(xùn)練模型如中文BERT[30-31]、ELECTRA(現(xiàn)代漢語)、SiKuBert[32](古代漢語)等,還有Hugging Face[33]這樣的模型框架。

      開源的深層神經(jīng)網(wǎng)絡(luò)框架和預(yù)訓(xùn)練模型極大簡化了研究者對深層神經(jīng)網(wǎng)絡(luò)技術(shù)的使用,研究者不必從頭去開發(fā)極為復(fù)雜的模型,甚至不用去準(zhǔn)備大量數(shù)據(jù),而是直接調(diào)用開源工具,結(jié)合小規(guī)模數(shù)據(jù)對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)。當(dāng)然,目前開源的預(yù)訓(xùn)練模型大多是通用性的,人文研究還需要結(jié)合具體研究,開發(fā)特定用途的預(yù)訓(xùn)練模型,如史學(xué)模型、文學(xué)模型、文獻(xiàn)模型等。

      5.4? ? 技術(shù)的有效性和可解釋性

      相比統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,基于深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型能夠更好地完成語言處理的各項(xiàng)任務(wù)。但也帶來一個問題,預(yù)訓(xùn)練模型的解釋力不及統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,盡管學(xué)術(shù)界提出“可解釋的深度學(xué)習(xí)”,但是預(yù)訓(xùn)練模型為何能夠取得很好的結(jié)果,哪些因素對模型產(chǎn)生了積極影響。對于人文研究來說,需要在技術(shù)的有效性和可解釋性間達(dá)到平衡,在計(jì)算機(jī)科學(xué)無法使得預(yù)訓(xùn)練模型更加“透明”的情況下,研究者可以將預(yù)訓(xùn)練模型作為在研究的中間層,而不是直接輸出最終結(jié)果,這樣可以做到一定程度的平衡。如在文本可讀性的研究中,我們使用基于預(yù)訓(xùn)練模型的句法分析器輸出了高質(zhì)量的句法分析結(jié)果,然后用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型構(gòu)造文本可讀性分類器,以評估不同語言學(xué)特征對文本可讀性的影響。

      6? ?結(jié)論

      本文首先介紹了計(jì)算人文的概念,提出這一術(shù)語是數(shù)字人文進(jìn)一步發(fā)展、對研究方法的認(rèn)識進(jìn)一步明確的結(jié)果。隨后討論了計(jì)算語言學(xué)在計(jì)算人文中的定位,介紹了計(jì)算語言學(xué)的發(fā)展,計(jì)算語言學(xué)與語言學(xué)的關(guān)系,以及計(jì)算語言學(xué)作為研究工具在計(jì)算人文領(lǐng)域中的作用。認(rèn)為當(dāng)前計(jì)算語言學(xué)的研究范式屬于計(jì)算機(jī)科學(xué)。計(jì)算人文視閾下的計(jì)算語言學(xué)研究范式與計(jì)算機(jī)科學(xué)的研究范式應(yīng)有所不同。由此展示了一項(xiàng)文本可讀性計(jì)算的工作,利用自動分類實(shí)驗(yàn)考查不同的語言學(xué)特征對文本可讀性的影響,借此提出了一個與計(jì)算機(jī)科學(xué)研究范式不同的、以語言和語言學(xué)研究問題為核心的計(jì)算人文研究范式,這個范式與計(jì)算人文所提出的研究框架是契合的。

      在新一代互聯(lián)網(wǎng)技術(shù)爆發(fā)的背景下,計(jì)算語言學(xué)研究應(yīng)順勢而上,把握好國家建設(shè)“新文科”的機(jī)遇,在計(jì)算人文這一大的框架下,將本體研究與計(jì)算技術(shù)充分結(jié)合,開辟出具有中國特色的學(xué)科體系、學(xué)術(shù)話語。在以深層神經(jīng)網(wǎng)絡(luò)為代表的新一代計(jì)算語言學(xué)技術(shù)蓬勃發(fā)展的今天,利用開源框架和模型,人文研究已經(jīng)完全可以將計(jì)算技術(shù)融入自己的研究,使用基于數(shù)據(jù)和數(shù)據(jù)驅(qū)動的方法推動人文研究的進(jìn)一步發(fā)展。

      計(jì)算語言學(xué)今后的發(fā)展,一方面需要以語言和語言學(xué)研究為核心,利用計(jì)算技術(shù)推動語言學(xué)研究;另一方面,應(yīng)在文本分析、預(yù)訓(xùn)練模型等方面深入研究,以人文學(xué)科的問題為研究問題,為計(jì)算人文領(lǐng)域其他研究方向提供研究工具。計(jì)算語言學(xué)應(yīng)找準(zhǔn)定位,推動計(jì)算人文的進(jìn)一步發(fā)展,助力“新文科”發(fā)展戰(zhàn)略。

      參考文獻(xiàn):

      [1]? Busa R.The Annals of Humanities Computing:The Index Thomisticus[J].Computer and the Humanities,1980,14(2):83-90.

      [2]? 黃水清,劉瀏,王東波.計(jì)算人文的發(fā)展及展望[J].科技情報(bào)研究,2021,3(4):1-12.

      [3]? 黃水清,劉瀏,王東波.國內(nèi)外數(shù)字人文研究進(jìn)展[J].情報(bào)學(xué)進(jìn)展,2022,14(0):50-84.

      [4]? 黃水清.回歸人文:從人文計(jì)算到計(jì)算人文[N].社會科學(xué)報(bào),2021-09-09(5).

      [5]? 王軍.從人文計(jì)算到可視化——數(shù)字人文的發(fā)展脈絡(luò)梳理[J].文藝?yán)碚撆c批評,2020(2):18-23.

      [6]? 黃水清.人文計(jì)算與數(shù)字人文:概念、問題、范式及關(guān)鍵環(huán)節(jié)[J].圖書館建設(shè),2019(5):68-78.

      [7]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計(jì)算研究[J].圖書情報(bào)工作,2020,64(23):109-123.

      [8]? 于純良,吳一平,白如江,等.數(shù)字人文視域下稷下學(xué)語義計(jì)算平臺建設(shè)研究[J].圖書館建設(shè),2022(2):141-149.

      [9]? 翁富良、王野翊.計(jì)算語言學(xué)導(dǎo)論[M].北京:中國社會科學(xué)出版社,2015.

      [10]? 劉穎.計(jì)算語言學(xué)[M].北京:清華大學(xué)出版社,2014.

      [11]? 馮志偉.自然語言的計(jì)算機(jī)處理[M].上海:上海外語教育出版社,1996.

      [12]? (英)戴維·克里斯特爾.沈家煊,譯.現(xiàn)代語言學(xué)詞典[M].北京:商務(wù)印書館,2002.

      [13]? Manaris B.Natural Language Processing:A Human-computer Interaction Perspective[J].Advaced in Computers,1999,47:1-66.

      [14]? 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2016.

      [15]? 劉開瑛.中文文本自動分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.

      [16]? 柏曉鵬,吉伶俐.篇章結(jié)構(gòu)特征對文本可讀性的影響[J].語言文字應(yīng)用,2022(3):62-72.

      [17]? 柏曉鵬,吉伶俐.部編版小學(xué)語文教材語料庫建設(shè):目的和原則[J].新疆教育學(xué)院學(xué)報(bào) ,2020,36 (1):11-17.

      [18]? Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.

      [19]? HanLP官網(wǎng)[EB/OL].[2023-01-14].https://www.hanlp.com/index.html.

      [20]? JUNYI S.jieba[CP/OL].[2023-01-14].https://github.com/fxsjy/jieba.

      [21]? 語言技術(shù)平臺(Language Technology Plantform | LTP )[EB/OL].[2023-01-14].http://ltp.ai/.

      [22]? THULAC:一個高效的中文詞法分析工具包[EB/OL].[2023-01-14].http://thulac.thunlp.org/.

      [23]? YAN J.甲言Jiayan[CP/OL].[2023-01-14].https://github.com/jiaeyan/Jiayan.

      [24]? stanfordnlp/stanza[CP].Stanford NLP,2023.

      [25]? supar·PyPI[EB/OL].[2023-01-14].https://pypi.org/project/supar/.

      [26]? DDParser[CP].Baidu,2023.

      [27]? Overview[EB/OL].[2023-01-14].https://stanfordnlp.github.io/CoreNLP/.

      [28]? PyTorch[EB/OL].[2023-01-14].https://www.pytorch.org.

      [29]? ABADI M,AGARWAL A,BARHAM P,et al.TensorFlow,Large-scale machine learning on heterogeneous systems[EB/OL].[2023-01-14].https://github.com/tensorflow/tensorflow.

      [30]? BERT[EB/OL].[2023-01-14].https://github.com/google-research/bert.

      [31]? Li B,Yuan Y,Lu J,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[C].Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages,2022:135-140.

      [32]? 王東波,劉暢,朱子赫,等.SikuBERT與SikuRoBERTa:面向數(shù)字人文的《四庫全書》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究[J].圖書館論壇,2022,42(6):31-43.

      [33]? Hugging Face-The AI community building the future[EB/OL].[2023-01-14].https://huggingface.co/.

      作者簡介:柏曉鵬,華東師范大學(xué)中文系副教授,研究方向:計(jì)算語言學(xué)、語言數(shù)字資源、詞匯學(xué)、漢語語言學(xué)。

      猜你喜歡
      數(shù)字人文自然語言處理語言學(xué)
      數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
      跨界與融合:全球視野下的數(shù)字人文
      跨界與融合:全球視野下的數(shù)字人文
      認(rèn)知語言學(xué)與對外漢語教學(xué)
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
      韶山市| 丹东市| 双流县| 井冈山市| 绥宁县| 独山县| 辽阳市| 邵阳县| 荣昌县| 镇雄县| 唐海县| 莒南县| 新龙县| 随州市| 泸州市| 曲阜市| 英德市| 内江市| 开阳县| 永胜县| 南溪县| 云安县| 石门县| 临沭县| 黔东| 桂东县| 平度市| 邹城市| 甘南县| 河间市| 伽师县| 全南县| 岢岚县| 称多县| 进贤县| 三都| 策勒县| 莱州市| 桓仁| 郑州市| 玛曲县|