• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語(yǔ)辭書(shū)詞條自動(dòng)編纂調(diào)查研究

      2024-09-25 00:00:00張永偉劉婷
      辭書(shū)研究 2024年5期

      摘 要 文章以ChatGPT為例,借助問(wèn)卷考察了大語(yǔ)言模型在漢語(yǔ)辭書(shū)詞條自動(dòng)編纂中的表現(xiàn)。研究選取40個(gè)詞目作為樣本,充分考慮詞性、詞長(zhǎng)、義項(xiàng)數(shù)的多樣性,借助ChatGPT生成釋文,并與《現(xiàn)代漢語(yǔ)詞典》第7版進(jìn)行對(duì)比分析。問(wèn)卷調(diào)查顯示,ChatGPT編纂的詞條中有37.5%獲得了更多受訪(fǎng)者的認(rèn)可,但整體質(zhì)量距離全面超越傳統(tǒng)辭書(shū)仍有差距。ChatGPT在單音字、單一詞性詞語(yǔ)的標(biāo)注和單義項(xiàng)詞語(yǔ)的釋義方面具有優(yōu)勢(shì),但對(duì)多音字、兼類(lèi)詞、多義詞以及特殊語(yǔ)體詞的詞條編纂效果明顯下降,也暴露出義項(xiàng)遺漏、釋義不準(zhǔn)確、舉例模式化等問(wèn)題??傮w而言,ChatGPT在辭書(shū)編纂中展現(xiàn)了生成新義、快速編纂等優(yōu)勢(shì),但嚴(yán)謹(jǐn)性、系統(tǒng)性不足,難以獨(dú)立完成編纂任務(wù)。大語(yǔ)言模型正在不斷升級(jí)中,未來(lái)宜持續(xù)關(guān)注并將其用作辭書(shū)編纂的輔助工具,通過(guò)人機(jī)互助提高辭書(shū)編纂速度,提升辭書(shū)編纂質(zhì)量,推動(dòng)漢語(yǔ)辭書(shū)智能化發(fā)展。

      關(guān)鍵詞 辭書(shū) 詞條 自動(dòng)編纂 大語(yǔ)言模型 ChatGPT

      一、 引 言

      詞條又稱(chēng)條目,是詞典的基本查檢單位,一般包括詞目、注音、釋義、例證、語(yǔ)用說(shuō)明和各種掛尾信息。詞條釋文的編纂是辭書(shū)編纂最重要、最費(fèi)時(shí)、最耗精力的工作。自動(dòng)編纂詞條釋文可以大幅提高辭書(shū)編纂效率,對(duì)辭書(shū)的現(xiàn)代化編纂具有重要意義。

      詞條自動(dòng)編纂的方法包括基于規(guī)則的方法(魏雪,袁毓林 2014)和基于深度學(xué)習(xí)的方法(Noraset et al. 2017;Gadetsky et al. 2018;Kong et al. 2022;范齊楠等 2021)等。近年來(lái),生成式大語(yǔ)言模型的發(fā)展為詞條自動(dòng)編纂提供了新方法和新契機(jī),其中具有代表性的是OpenAI公司于2022年11月發(fā)布的智能聊天機(jī)器人程序ChatGPT。ChatGPT使用超大規(guī)模語(yǔ)料訓(xùn)練,集成了指令學(xué)習(xí)、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等一系列創(chuàng)新技術(shù),能夠使用自然語(yǔ)言與用戶(hù)對(duì)話(huà),理解、執(zhí)行用戶(hù)的請(qǐng)求。ChatGPT最初由GPT-3.5系列模型支持,其后更新的GPT-4模型性能進(jìn)一步提升,在常識(shí)推理、代碼生成、閱讀理解、多學(xué)科測(cè)驗(yàn)等任務(wù)中表現(xiàn)優(yōu)異,超越了現(xiàn)有其他模型(OpenAI et al. 2023)。Cai等(2023)讓ChatGPT作為被試,進(jìn)行了包括語(yǔ)音、詞匯、語(yǔ)法、語(yǔ)義、語(yǔ)篇、對(duì)話(huà)等在內(nèi)的12項(xiàng)經(jīng)典的心理語(yǔ)言學(xué)實(shí)驗(yàn),發(fā)現(xiàn)ChatGPT能夠復(fù)制人類(lèi)的語(yǔ)言行為模式,在10項(xiàng)實(shí)驗(yàn)中達(dá)到了接近人類(lèi)的水平。

      隨著ChatGPT的流行,辭書(shū)編輯開(kāi)始利用大語(yǔ)言模型輔助辭書(shū)編纂,學(xué)習(xí)者也開(kāi)始利用大語(yǔ)言模型查詢(xún)?cè)~語(yǔ)的含義與用法。這方面的研究主要集中于英語(yǔ)領(lǐng)域。Phoodai和R0ebd24df93cd6d80555e0d55b3e234a8ikk(2023)選取50個(gè)高頻英語(yǔ)詞,從微觀層面對(duì)比分析ChatGPT和《牛津高階學(xué)習(xí)詞典》(Oxford Advanced Learner’s Dictionary)的詞條,發(fā)現(xiàn)ChatGPT在為英語(yǔ)學(xué)習(xí)者提供詞匯數(shù)據(jù)項(xiàng)方面整體優(yōu)于后者(平均分高11%),而在提供上下文信息和互動(dòng)能力方面存在不足。Lew(2023)邀請(qǐng)4位專(zhuān)家評(píng)估ChatGPT(GPT-3.5)生成的

      15個(gè)詞條,與柯林斯在線(xiàn)詞典(Collins COBUILD Advanced Online)[1]進(jìn)行比較,結(jié)果表明ChatGPT生成的釋義可與后者相媲美,但生成的例句和整體詞條獲得的評(píng)分較低。Rees和Lew(2024)面向二語(yǔ)學(xué)習(xí)者進(jìn)行詞匯閱讀理解測(cè)試,分別提供ChatGPT(GPT-3.5)和麥克米倫在線(xiàn)詞典(Macmillan English Dictionary Online)[2]的詞條,發(fā)現(xiàn)ChatGPT和麥克米倫在線(xiàn)詞典均能讓學(xué)生的表現(xiàn)更優(yōu),但前者對(duì)成績(jī)的提升不顯著,后者較顯著。ChatGPT在非英語(yǔ)詞條編纂領(lǐng)域的調(diào)研較少,有代表性的是Tran等(2023)的研究,他們針對(duì)斯洛文尼亞語(yǔ)進(jìn)行釋義提取測(cè)評(píng),發(fā)現(xiàn)釋義結(jié)構(gòu)明確、數(shù)據(jù)量較少時(shí),基于規(guī)則的方法效果更好,釋義結(jié)構(gòu)寬泛、數(shù)據(jù)量較大時(shí),Transformer和ChatGPT(GPT-3.5)一類(lèi)大語(yǔ)言模型的效果更好,其中Transformer的精確率更高,ChatGPT的召回率更高。

      本研究面向漢語(yǔ)語(yǔ)文辭書(shū)讀者,以ChatGPT(GPT-4)作為大語(yǔ)言模型的典型代表,通過(guò)問(wèn)卷形式調(diào)查大語(yǔ)言模型自動(dòng)編纂詞條的認(rèn)可度,分析大語(yǔ)言模型自動(dòng)編纂的質(zhì)量與特點(diǎn),探討大語(yǔ)言模型為詞條自動(dòng)編纂帶來(lái)的機(jī)遇與挑戰(zhàn)。

      二、 研 究 方 法

      (一) 調(diào)查對(duì)象

      1. 詞目選擇

      《現(xiàn)代漢語(yǔ)詞典》是一部久享盛譽(yù)的規(guī)范型詞典。本研究從《現(xiàn)代漢語(yǔ)詞典》第7版(以下簡(jiǎn)稱(chēng)《現(xiàn)漢》)中選取40個(gè)調(diào)查詞目,選取時(shí)充分考慮詞性、詞長(zhǎng)、義項(xiàng)數(shù)、特殊用法的多樣性,用盡可能少的詞目覆蓋盡可能多的調(diào)查項(xiàng)目。40個(gè)詞目為:哎、彼、不、城、均、了、梅、人、些、咬、包袱、并且、除了、吹填、催淚、第一、短線(xiàn)、感冒、干凈、紅線(xiàn)、呼啦、回信、剪影、進(jìn)行、克隆、暌違、龍頭、矛盾、美工、逆天、熱絡(luò)、信箱、應(yīng)該、著調(diào)、左右、兜底翻、互聯(lián)網(wǎng)+、花花搭搭、鐵帽子王、阿爾茨海默病。

      下面介紹40個(gè)詞目的涵蓋范圍。在詞性方面,涉及《現(xiàn)漢》標(biāo)注的所有12個(gè)大類(lèi),包含實(shí)詞35個(gè)、虛詞5個(gè)。單類(lèi)詞(單一詞性的詞)和兼類(lèi)詞的比例為4∶1,單類(lèi)詞以名詞、動(dòng)詞和形容詞為主,分別占比27.5%、17.5%、12.5%;在詞長(zhǎng)方面,二字詞最多(25個(gè)),單字詞其次(10個(gè)),3字及以上的詞目最少(5個(gè));在詞義數(shù)方面,義項(xiàng)數(shù)平均值為2.9,最小值為1,最大值為9,以雙義詞、三義詞和單義詞為主,分別為17、7、6個(gè);在語(yǔ)體和語(yǔ)域方面,包含科技詞10個(gè),口語(yǔ)詞、方言詞和文言詞共8個(gè),其余為普通語(yǔ)文詞;在新詞新義方面,包含《現(xiàn)漢》新增詞目或新增義項(xiàng)9個(gè),占比22.5%。

      2. 自動(dòng)編纂的詞條

      本研究借助ChatGPT(GPT-4)實(shí)現(xiàn)詞條自動(dòng)編纂,具體步驟為:(1) 打開(kāi)ChatGPT網(wǎng)頁(yè)版人機(jī)對(duì)話(huà)窗口,輸入提示詞,約定自動(dòng)編纂要求的同時(shí)引導(dǎo)ChatGPT在后續(xù)對(duì)話(huà)中直接根據(jù)詞目生成釋文;(2) 輸入一個(gè)詞目,獲取ChatGPT自動(dòng)編纂的釋文;(3) 重復(fù)步驟(2),直至獲取所有詞目的釋文。

      提示詞除了明確ChatGPT需要完成的具體任務(wù)外,還對(duì)釋義要求進(jìn)行了詳細(xì)的約定,包括釋義的體例和風(fēng)格要與《現(xiàn)漢》保持一致等。提示詞的撰寫(xiě)參考了《現(xiàn)漢》凡例,但實(shí)驗(yàn)表明將整個(gè)凡例提交給ChatGPT并不能獲得更好的結(jié)果。經(jīng)過(guò)對(duì)提示詞進(jìn)行多輪調(diào)整和優(yōu)化,最終選擇的提示詞如下[3]:

      請(qǐng)你充當(dāng)一個(gè)專(zhuān)業(yè)的漢語(yǔ)辭書(shū)編輯,按照中型現(xiàn)代漢語(yǔ)辭書(shū)的標(biāo)準(zhǔn),為輸入詞目編纂權(quán)威、正確、規(guī)范的釋義。嚴(yán)格按照以下格式:

      圓括號(hào)中的內(nèi)容為可選項(xiàng),根據(jù)詞條實(shí)際情況選擇;讀作輕聲時(shí)注音不標(biāo)調(diào)號(hào),只在拼音前加·;詞性標(biāo)記使用簡(jiǎn)稱(chēng),包括{名}{動(dòng)}{形}{副}{量}{數(shù)}{代}{介}{連}{助}{嘆}{擬聲}十二類(lèi);劃分出的義項(xiàng)盡可能全面涵蓋詞目意義和用法;同一類(lèi)型詞目應(yīng)在釋義模式和語(yǔ)言風(fēng)格上保持一致;舉例應(yīng)簡(jiǎn)潔明了、典型,其中詞目用~代替;詞目屬于外來(lái)音譯詞時(shí),在釋義最后附注外文原文,如:“伏特加”……[俄водка]。三類(lèi)典型的詞目釋義方式如下:

      1. 單義詞

      “詞目” 拼音{詞性} 釋義(:舉例1 |舉例2 |舉例3……)。

      2. 多義詞且所有詞性相同

      “詞目”拼音{詞性}①釋義(:舉例1 |舉例2 |舉例3……)。②釋義(:舉例1 |舉例2 |舉例3……)。③……。

      3. 兼類(lèi)詞

      “詞目”拼音①{詞性}釋義(:舉例1 |舉例2 |舉例3……)。②{詞性}釋義(:舉例1 |舉例2 |舉例3……)。③……。

      以“熱絡(luò)”和“彼”為例,ChatGPT自動(dòng)生成并經(jīng)后處理[4]的詞條見(jiàn)下:

      熱絡(luò) rèluò ①形容感情親密,交往頻繁:他們之間的關(guān)系很~|~的氣氛。②指活動(dòng)或場(chǎng)合氣氛熱烈,人際交往頻繁:聚會(huì)十分~|市場(chǎng)~。(ChatGPT)

      彼 bǐ ①指遠(yuǎn)離說(shuō)話(huà)人和聽(tīng)話(huà)人的人或事物:~岸|~處。②用于指代前文已提到的人或事物:~時(shí)|~人。③古代文言文中,常用作男子的美稱(chēng):~生|~君。(ChatGPT)

      “熱絡(luò)”和“彼”在《現(xiàn)漢》中的釋文見(jiàn)下:

      熱絡(luò) rèluò ①親熱:兩人關(guān)系~。②熱烈:氣氛~。③頻繁:兩國(guó)領(lǐng)導(dǎo)人往來(lái)~。(《現(xiàn)漢》)

      彼 bǐ ①指示代詞。那;那個(gè)(跟“此”相對(duì)):~時(shí)|此起~伏|由此及~。②人稱(chēng)代詞。對(duì)方;他:知己知~|~退我進(jìn)。(《現(xiàn)漢》)

      瀏覽ChatGPT自動(dòng)編纂的詞條可以發(fā)現(xiàn),ChatGPT自動(dòng)編纂結(jié)果符合預(yù)先設(shè)計(jì)的體例要求,具有較高可讀性。但是,對(duì)于同一個(gè)詞目,ChatGPT自動(dòng)編纂的釋文和《現(xiàn)漢》中的釋文存在比較明顯的差異。

      (二) 調(diào)查工具

      調(diào)查采用問(wèn)卷形式,借助問(wèn)卷星的微信小程序發(fā)放和回收問(wèn)卷。研究為每個(gè)詞目設(shè)置1個(gè)問(wèn)題,包含兩個(gè)候選項(xiàng),即同一詞目對(duì)應(yīng)的《現(xiàn)漢》詞條和ChatGPT自動(dòng)編纂的詞條,選項(xiàng)之間隨機(jī)排列,不提示釋義來(lái)源。問(wèn)卷導(dǎo)語(yǔ)對(duì)作答標(biāo)準(zhǔn)進(jìn)行了說(shuō)明:“請(qǐng)參照中型通用現(xiàn)代漢語(yǔ)辭書(shū)的標(biāo)準(zhǔn),從兩個(gè)選項(xiàng)中選擇你認(rèn)為更合理、質(zhì)量更高的詞條:釋義無(wú)錯(cuò)誤,義項(xiàng)劃分更合理,釋義更清晰,舉例更恰當(dāng),更能滿(mǎn)足實(shí)際查詢(xún)需求,等等?!?/p>

      除上述問(wèn)題外,問(wèn)卷還收集了受訪(fǎng)者年齡、身份、受教育程度、學(xué)科、辭書(shū)使用頻次等5項(xiàng)背景信息。

      三、 結(jié)果與討論

      (一) 受訪(fǎng)者情況

      調(diào)查共回收202份有效問(wèn)卷,平均填寫(xiě)時(shí)長(zhǎng)為10分鐘。所有受訪(fǎng)者均為漢語(yǔ)母語(yǔ)者,平均年齡為23歲。學(xué)生群體占比最大(93.07%),學(xué)生家長(zhǎng)和教師占比較?。?.93%)。受訪(fǎng)人群的受教育程度以本科(64.36%)和碩士(32.67%)為主,詳見(jiàn)圖1。受訪(fǎng)群體來(lái)自多元學(xué)科,以文學(xué)專(zhuān)業(yè)(28.71%)和教育學(xué)專(zhuān)業(yè)(16.83%)為主,詳見(jiàn)圖2。受訪(fǎng)者辭書(shū)使用頻率多為偶爾使用(37.13%),有時(shí)使用(34.16%)和經(jīng)常使用(15.35%)次之,詳見(jiàn)圖3??傮w來(lái)說(shuō),本次受訪(fǎng)對(duì)象主要為接受過(guò)高等教育、有一定辭書(shū)使用需求和習(xí)慣的年輕學(xué)生群體,具備對(duì)詞條優(yōu)劣進(jìn)行準(zhǔn)確判斷的能力。

      (二) 大語(yǔ)言模型詞條自動(dòng)編纂整體表現(xiàn)

      1. 詞條自動(dòng)編纂的整體表現(xiàn)

      為評(píng)估ChatGPT在詞條自動(dòng)編纂上的整體表現(xiàn),本研究選擇每個(gè)問(wèn)題中支持ChatGPT編纂詞條的受訪(fǎng)者比例,作為該詞目在自動(dòng)編纂任務(wù)上的得分。全部詞目自動(dòng)編纂的平均得分為0.548,中位數(shù)為0.579,標(biāo)準(zhǔn)差為0.199。40個(gè)詞目中有15個(gè)得分大于0.5,占比37.5%,說(shuō)明ChatGPT編纂的詞條中有37.5%被更多的受訪(fǎng)者判定為優(yōu)于

      《現(xiàn)漢》。為進(jìn)一步分析ChatGPT自動(dòng)編纂的整體效果,本文將0.0至1.0的得分區(qū)間劃分為5個(gè),每個(gè)區(qū)間的寬度為0.2。各區(qū)間的詞條數(shù)量及其占比如表1所示:

      表1顯示,最低得分區(qū)間(0.0—0.2)的詞條數(shù)量為0,表明所有由ChatGPT編纂的詞條中,沒(méi)有一條被超過(guò)80%的受訪(fǎng)者認(rèn)為比《現(xiàn)漢》差。換言之,每個(gè)ChatGPT編纂的詞條至少有20%的人認(rèn)為其質(zhì)量更好。在得分最高的區(qū)間(0.8—1.0)內(nèi),只有5個(gè)詞條,僅占總數(shù)的12.5%。這表明,被超過(guò)80%的受訪(fǎng)者認(rèn)為優(yōu)于《現(xiàn)漢》的ChatGPT編纂詞條數(shù)量較少。ChatGPT自動(dòng)編纂呈現(xiàn)出平均分越高、詞條數(shù)量越少的趨勢(shì),意味著大部分ChatGPT自動(dòng)編纂的詞條質(zhì)量尚未達(dá)到很高的水平,明顯優(yōu)于傳統(tǒng)詞典釋義的詞條數(shù)量相對(duì)較少??偟膩?lái)說(shuō),盡管所有ChatGPT編纂的詞條都有一定的支持者,但其整體質(zhì)量距離全面超越傳統(tǒng)詞典還有一定差距,特別優(yōu)秀的詞條只占少數(shù)。ChatGPT在詞條編纂領(lǐng)域展現(xiàn)出了一定的潛力,但要達(dá)到更高的水平仍需進(jìn)一步提升。

      2. 不同類(lèi)型詞條自動(dòng)編纂的整體表現(xiàn)

      為進(jìn)一步探究ChatGPT自動(dòng)編纂釋文在不同詞語(yǔ)類(lèi)型上的表現(xiàn)差異,本研究按照詞性、兼類(lèi)性質(zhì)、詞長(zhǎng)、義項(xiàng)數(shù)、語(yǔ)體標(biāo)記和學(xué)科6個(gè)維度,分類(lèi)統(tǒng)計(jì)詞條平均分,結(jié)果如表2所示:

      表2顯示,在詞性方面,實(shí)詞平均分為0.565,高于虛詞的0.428,表明ChatGPT在實(shí)詞釋義上的表現(xiàn)優(yōu)于虛詞。這可能是由于實(shí)詞承載了詞語(yǔ)的主要意義信息,而虛詞更多表達(dá)語(yǔ)法功能,前者更容易通過(guò)大規(guī)模語(yǔ)料學(xué)習(xí)并生成相關(guān)解釋。在兼類(lèi)性質(zhì)方面,單類(lèi)詞平均分為0.573,高于兼類(lèi)詞的0.449,表明詞性越單一,生成的釋文越容易被認(rèn)可。對(duì)于兼類(lèi)詞而言,由于其在不同語(yǔ)境下展現(xiàn)出不同語(yǔ)法功能,增加了自動(dòng)編纂的難度。在詞長(zhǎng)方面,二字詞的平均分最高,為0.574,多字詞平均分為0.522,單字詞的平均分最低,為0.495?,F(xiàn)代漢語(yǔ)中二字詞分布最普遍,ChatGPT為這類(lèi)詞語(yǔ)自動(dòng)編纂的釋文能夠獲得一定的認(rèn)可度,而單字詞中一部分兼做語(yǔ)素,功能和用法更加多樣,自動(dòng)編纂的釋文認(rèn)可度有所下降。在義項(xiàng)數(shù)量方面,單義項(xiàng)的詞平均分最高,為0.683,義項(xiàng)數(shù)大于3的詞平均分最低,為0.433。義項(xiàng)數(shù)越多的詞語(yǔ),相對(duì)而言語(yǔ)義越豐富,用法越復(fù)雜,ChatGPT釋文不全面、不準(zhǔn)確的概率也隨之增加。相反,對(duì)于單一義項(xiàng)的詞語(yǔ),ChatGPT的釋文能夠獲得更多的認(rèn)可。在語(yǔ)體方面,口語(yǔ)詞、方言詞、文言詞的平均分僅為0.478,低于一般詞語(yǔ)的0.565??梢?jiàn)當(dāng)前ChatGPT對(duì)口語(yǔ)詞、方言詞、文言詞等語(yǔ)體詞語(yǔ)的自動(dòng)編纂能力還有待提升。在學(xué)科領(lǐng)域方面,科技詞條的平均分達(dá)到了0.601,優(yōu)于其他詞語(yǔ)的0.53,表明ChatGPT在科技術(shù)語(yǔ)的自動(dòng)編纂上具有一定優(yōu)勢(shì),這可能得益于訓(xùn)練語(yǔ)料中包含了大量的科技文本,使其能夠較好地掌握科技術(shù)語(yǔ)的概念。

      (三) 大語(yǔ)言模型詞條自動(dòng)編纂的細(xì)節(jié)表現(xiàn)

      本研究中,詞條由讀音、詞性、一個(gè)或多個(gè)義項(xiàng)、掛尾信息等組成,每個(gè)義項(xiàng)又包含釋義和例句等信息。問(wèn)卷調(diào)查結(jié)果僅反映受訪(fǎng)者對(duì)詞條整體質(zhì)量的評(píng)判,缺乏對(duì)詞條組成部分的細(xì)致考察。為了更全面地評(píng)估,本研究對(duì)詞條各組成部分進(jìn)行分析,從更多視角評(píng)估大語(yǔ)言模型的自動(dòng)編纂表現(xiàn)。

      1. 注音準(zhǔn)確性分析

      40個(gè)詞目樣本中,ChatGPT對(duì)36個(gè)詞目的注音完全正確,僅有4個(gè)詞目注音錯(cuò)誤,錯(cuò)誤率為10%?!爸{(diào)”“鐵帽子王”“花花搭搭”“除了”的讀音分別被錯(cuò)標(biāo)為“zhuótiáo”

      “tiěmàozǐwáng”“huāhuādādā”“chúle”,標(biāo)注錯(cuò)誤集中在多音字或輕聲音節(jié)。然而,ChatGPT具備按提示詞標(biāo)注輕聲音節(jié)的能力,比如“了”的拼音被準(zhǔn)確標(biāo)注為“·le”。

      為更準(zhǔn)確評(píng)估ChatGPT的注音能力,本研究從《現(xiàn)漢》中另外選取200個(gè)詞語(yǔ)作為樣本,其中僅包含單音字的詞和包含多音字的詞各100個(gè)。每個(gè)詞語(yǔ)從《現(xiàn)漢》中抽取對(duì)應(yīng)的1個(gè)例句,由ChatGPT自動(dòng)標(biāo)注詞語(yǔ)讀音。不同類(lèi)型詞語(yǔ)的注音準(zhǔn)確率如表3所示:

      200個(gè)詞語(yǔ)中,ChatGPT的平均注音準(zhǔn)確率為93.0%,有14個(gè)詞注音錯(cuò)誤。在讀音方面,僅包含單音字的詞語(yǔ)注音錯(cuò)誤數(shù)量為3,平均準(zhǔn)確率為97.0%;包含多音字的詞語(yǔ)注音錯(cuò)誤數(shù)量為11,平均準(zhǔn)確率為89.0%。根據(jù)聲調(diào)、詞長(zhǎng)、語(yǔ)體標(biāo)記等特征進(jìn)一步細(xì)分時(shí),包含多音字的詞的準(zhǔn)確率均低于前者,說(shuō)明ChatGPT為單音字注音時(shí)準(zhǔn)確率較高,為多音字注音時(shí)更容易出錯(cuò),其中當(dāng)標(biāo)注對(duì)象同時(shí)包含多音字和輕聲字時(shí),注音準(zhǔn)確率最低,僅為70.0%。在聲調(diào)方面,對(duì)于不含輕聲的詞語(yǔ),ChatGPT的注音準(zhǔn)確率為96.3%;對(duì)于輕聲詞,ChatGPT的注音準(zhǔn)確率降至80.0%,比如例句“紅霞映山崖呃!”中,“呃”讀為“·e”,ChatGPT標(biāo)注為“è”。可見(jiàn)ChatGPT在輕聲字的標(biāo)注上仍有較大的提升空間。在詞長(zhǎng)方面,單字詞的注音準(zhǔn)確率為97.6%,二字詞和多字詞的注音準(zhǔn)確率為89.6%,說(shuō)明詞長(zhǎng)增加時(shí),ChatGPT標(biāo)注錯(cuò)誤的概率增大。在語(yǔ)體標(biāo)記方面,一般詞語(yǔ)的注音準(zhǔn)確率為95.3%,口語(yǔ)詞、方言詞、文言詞等特殊語(yǔ)體詞語(yǔ)的注音準(zhǔn)確率為86.0%,比如例句“累累若喪家之狗”中,“累累”為書(shū)面詞,讀為“l(fā)éiléi”,ChatGPT標(biāo)注為“l(fā)ěilěi”。根據(jù)抽樣結(jié)果,ChatGPT對(duì)多音字、輕聲字、多字詞、口語(yǔ)詞、方言詞、文言詞等特殊類(lèi)型字詞的注音準(zhǔn)確率均低于90.0%,更依賴(lài)人工檢查和修正。

      2. 詞性標(biāo)注準(zhǔn)確性分析

      ChatGPT為40個(gè)詞目生成了102個(gè)義項(xiàng),其中32個(gè)詞目的詞性標(biāo)注完全準(zhǔn)確,占全部詞目數(shù)的80%;87個(gè)義項(xiàng)的詞性標(biāo)注準(zhǔn)確,占全部義項(xiàng)數(shù)的85.3%。ChatGPT識(shí)別為多義詞的35個(gè)詞目中,27個(gè)詞目的同性標(biāo)注完全正確,占比為77.1%。詞性標(biāo)注錯(cuò)誤的詞語(yǔ)均為多義詞,其中4個(gè)多義詞的所有詞性均標(biāo)注錯(cuò)誤,4個(gè)多義詞的詞性同時(shí)包含正確標(biāo)注和錯(cuò)誤標(biāo)注。由此可見(jiàn),ChatGPT對(duì)單義詞的詞性標(biāo)注較為準(zhǔn)確,標(biāo)注多義詞的詞性時(shí),性能更加不穩(wěn)定,可能出現(xiàn)標(biāo)注錯(cuò)誤。ChatGPT詞性標(biāo)注錯(cuò)誤詳情如表4所示:

      詞性標(biāo)注屬于自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù),目前中文詞性標(biāo)注已經(jīng)達(dá)到了較高精度。以通用的PFR《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)為例,袁里馳(2023)的方法在該數(shù)據(jù)集上的詞性標(biāo)注精確率和召回率分別為97.67%、97.48%。相比單純對(duì)給定文本進(jìn)行詞性標(biāo)注,詞條釋文生成與詞性標(biāo)注相結(jié)合的任務(wù)難度更大。本研究中,ChatGPT的義項(xiàng)詞性標(biāo)注精確率和召回率分別為85.3%和75.0%,標(biāo)注錯(cuò)誤的概率較高。一種錯(cuò)誤情形是對(duì)于單一詞類(lèi)的多義詞,ChatGPT將詞目所有義項(xiàng)或部分義項(xiàng)的詞性標(biāo)注錯(cuò)誤,比如“應(yīng)該”屬于動(dòng)詞中的助動(dòng)詞小類(lèi),ChatGPT將所有義項(xiàng)統(tǒng)一標(biāo)注為助詞;“除了”只有介詞詞性,ChatGPT生成了兩個(gè)義項(xiàng),詞性分別標(biāo)注為介詞、連詞。另一種錯(cuò)誤情形是對(duì)于兼類(lèi)詞,ChatGPT將部分義項(xiàng)的詞性標(biāo)注錯(cuò)誤,比如“催淚”涉及動(dòng)詞和形容詞詞性,ChatGPT生成了兩個(gè)義項(xiàng),都標(biāo)注為形容詞。

      3. 義項(xiàng)劃分合理性分析

      義項(xiàng)劃分指將多義詞的不同詞義按照一定標(biāo)準(zhǔn)加以區(qū)分和排列。合理的義項(xiàng)劃分有助于準(zhǔn)確表達(dá)詞目含義、揭示詞義關(guān)聯(lián)、提高詞條可讀性。然而,編纂目的不同,辭書(shū)讀者群體不同,義項(xiàng)劃分標(biāo)準(zhǔn)也不盡相同。辭書(shū)編纂人員在進(jìn)行義項(xiàng)劃分時(shí)同樣面臨諸多挑戰(zhàn),不同編纂人員的詞義劃分結(jié)果也可能存在差異。因此,義項(xiàng)劃分準(zhǔn)確性的評(píng)判往往具有一定的主觀性。本文僅以《現(xiàn)漢》的義項(xiàng)劃分作為參照,評(píng)估模型義項(xiàng)劃分的合理性。

      從義項(xiàng)數(shù)量上看,《現(xiàn)漢》對(duì)本次調(diào)查的40個(gè)詞目劃分的義項(xiàng)數(shù)最小為1個(gè),最大為9個(gè),平均義項(xiàng)數(shù)為2.9個(gè)。ChatGPT對(duì)40個(gè)詞目劃分的義項(xiàng)數(shù)最小為1個(gè),最大為5個(gè),平均義項(xiàng)數(shù)為2.55個(gè)。這一結(jié)果表明,與參照辭書(shū)相比,ChatGPT生成的詞條在義項(xiàng)數(shù)量上總體較為精簡(jiǎn)。

      從義項(xiàng)內(nèi)容上看,ChatGPT能生成《現(xiàn)漢》未收錄的義項(xiàng),讓部分詞條得到受訪(fǎng)者更高的認(rèn)可度。然而,ChatGPT在義項(xiàng)劃分方面也存在一些不足,主要表現(xiàn)為常用義劃分粒度過(guò)細(xì),罕用義存在遺漏。以“紅線(xiàn)”“哎”“進(jìn)行”“人”和“感冒”為例,ChatGPT生成的詞條和《現(xiàn)漢》詞條見(jiàn)下:

      紅線(xiàn) hóngxiàn ①用紅色染料染成的線(xiàn):~布。②比喻不可逾越的界限或原則:這是一個(gè)政策的~|~問(wèn)題不容觸犯。③中國(guó)民間傳說(shuō)中的一種象征性物品,常用以表示天注定的緣分,特別是婚姻:相傳月老用~將有緣人連在一起。④在地圖或圖表上用紅色線(xiàn)條標(biāo)示的線(xiàn),常用以表示特定的數(shù)據(jù)或趨勢(shì):地圖上的~表示鐵路線(xiàn)路|銷(xiāo)售額的~持續(xù)上升。

      (ChatGPT)

      哎 āi ①表示驚訝、感嘆或召喚時(shí)的發(fā)聲:~,你看那邊!|~,小張,過(guò)來(lái)一下。②表示悲傷、嘆息或無(wú)奈時(shí)的發(fā)聲:~,怎么會(huì)這樣?|~,真是沒(méi)辦法。③用于語(yǔ)句開(kāi)頭,引起對(duì)方注意,沒(méi)有實(shí)際意義:~,我告訴你一個(gè)好消息|~,這件事情是這樣的。(ChatGPT)

      進(jìn)行 jìnxíng ①表示開(kāi)始并繼續(xù)做某事:~調(diào)查|項(xiàng)目~中。②指沿著一定路線(xiàn)前進(jìn):隊(duì)伍~了三公里|~式游行。③進(jìn)展,發(fā)展:談判~得很順利|工作~得怎么樣?(ChatGPT)

      人 rén ①指人類(lèi),是地球上智力最高的生物:~類(lèi)|~口。②指?jìng)€(gè)體,通常指成年的男性或女性:外國(guó)~|老~。③指有某種身份或特征的人:學(xué)~|好~。④指工作人員或服務(wù)人員:服務(wù)~員|技術(shù)~才。⑤用于計(jì)算人數(shù)的量詞:三個(gè)~|一大群~。(ChatGPT)

      感冒 gǎnmào ①一種常見(jiàn)的呼吸道感染疾病,通常由病毒引起,癥狀包括發(fā)熱、咳嗽、鼻塞、喉嚨痛等:~癥狀|預(yù)防~。②指患上感冒:他~了|小心不要~。(ChatGPT)

      《現(xiàn)漢》中的釋義見(jiàn)下:

      紅線(xiàn) hónɡxiàn ①指一以貫之的正確理論或思想:唯物辯證法是貫穿全書(shū)的一根~。②指劃定禁區(qū)范圍的界線(xiàn):守住耕地保護(hù)的~|制度~,不容越過(guò)。(《現(xiàn)漢》)

      哎 āi ①表示驚訝或不滿(mǎn)意:~!真是想不到的事|~!你怎么能這么說(shuō)呢?、诒硎咎嵝眩骸业褂袀€(gè)辦法,你們大家看行不行?(《現(xiàn)漢》)

      進(jìn)行 jìnxínɡ ①?gòu)氖拢撤N活動(dòng)):~討論|~工作|~教育和批評(píng)|會(huì)議正在~。

      “進(jìn)行”總是用在持續(xù)性的和正式、嚴(yán)肅的行為,短暫性的和日常生活中的行為不用“進(jìn)行”,例如不說(shuō)“進(jìn)行午睡”,“進(jìn)行叫喊”。②前進(jìn):~曲。(《現(xiàn)漢》)

      人 rén ①能制造工具并使用工具進(jìn)行勞動(dòng)的高等動(dòng)物:男~|女~|~們|~類(lèi)。

      ②每人;一般人:~手一冊(cè)|~所共知。③指成年人:長(zhǎng)大成~。④指某種身份或職業(yè)的人:工~|軍~|主~|介紹~|電影~|媒體~。⑤別人:~云亦云|待~誠(chéng)懇。⑥指人的品質(zhì)、性格或名譽(yù):丟~|這個(gè)同志~很好|他~老實(shí)。⑦指人的身體或意識(shí):這兩天~不大舒服|送到醫(yī)院~已經(jīng)昏迷過(guò)去了。⑧指人手、人才:~浮于事|我們這里正缺~。⑨(Rén)姓。(《現(xiàn)漢》)

      感冒 ɡǎnmào ①傳染病,病原體是病毒,在身體過(guò)度疲勞、著涼、抵抗力降低時(shí)容易引起。癥狀是咽喉發(fā)干、鼻塞、咳嗽、打噴嚏、頭痛、發(fā)熱等。②患這種病。||也叫傷風(fēng)。

      ③〈口〉感興趣(多用于否定式):他對(duì)打牌從來(lái)就不~。(《現(xiàn)漢》)

      關(guān)于詞條“紅線(xiàn)”,盡管ChatGPT生成的義項(xiàng)①價(jià)值不大,但義項(xiàng)③和④卻具有一定的參考價(jià)值,最終86.1%的受訪(fǎng)者認(rèn)為ChatGPT生成的詞條更優(yōu)。

      關(guān)于詞條“哎”和“進(jìn)行”,與《現(xiàn)漢》相比,ChatGPT對(duì)“哎”的義項(xiàng)劃分更為細(xì)致,但義項(xiàng)并不是分得越細(xì)越好,過(guò)于細(xì)分反而容易使詞義不夠清晰,給讀者查找和定位義項(xiàng)帶來(lái)困難;ChatGPT為“進(jìn)行”生成的義項(xiàng)①和③意思相近,《現(xiàn)漢》處理為同一個(gè)義項(xiàng)。Jakubí?ek和Rundell(2023)提到了類(lèi)似的現(xiàn)象,即ChatGPT傾向于用不同的方式解釋同一個(gè)意義,這可能導(dǎo)致模型生成的詞條中出現(xiàn)信息冗余,需要人工進(jìn)行甄別和修改。

      關(guān)于詞條“人”和“感冒”,“人”屬于基本詞,用法較多,ChatGPT只生成了“人”的一些常用義項(xiàng),而沒(méi)有生成《現(xiàn)漢》中⑥—⑨對(duì)應(yīng)的義項(xiàng),這些義項(xiàng)與漢語(yǔ)特定的文化背景和表達(dá)習(xí)慣密切相關(guān),反映了“人”用法的多樣性和靈活性;ChatGPT生成了“感冒”在醫(yī)學(xué)領(lǐng)域的義項(xiàng),但未生成“感冒”在口語(yǔ)中的用法。可見(jiàn),處理具有特殊語(yǔ)體色彩的詞語(yǔ)時(shí),ChatGPT的表現(xiàn)不夠理想,容易遺漏一些非常用義或“地道”的表達(dá)方式。

      綜上所述,ChatGPT在義項(xiàng)劃分上展現(xiàn)出了一定的創(chuàng)新性,能夠從新穎的角度提供具有啟發(fā)性的義項(xiàng),是其優(yōu)勢(shì)所在。與此同時(shí),ChatGPT在常用義和罕用義的處理上還存在一些不足,如義項(xiàng)劃分顆粒度把握不當(dāng)、對(duì)部分義項(xiàng)的遺漏等。這些問(wèn)題的存在凸顯了人機(jī)協(xié)作的必要性,即由專(zhuān)業(yè)編纂人員對(duì)機(jī)編義項(xiàng)進(jìn)行審核和調(diào)整,在提高編纂效率的同時(shí),為用戶(hù)呈現(xiàn)更加準(zhǔn)確、全面且富有特色的義項(xiàng)劃分。

      4. 釋義準(zhǔn)確性分析

      釋義是對(duì)詞義的解釋?zhuān)窃~條最核心的組成部分,直接影響著用戶(hù)對(duì)詞目的理解和使用。詞條釋義應(yīng)該準(zhǔn)確、簡(jiǎn)明、規(guī)范,清楚地闡釋詞語(yǔ)的意義、用法和語(yǔ)法特點(diǎn)等信息。ChatGPT熟練掌握了“指”“形容”“比喻”“表達(dá)”等辭書(shū)釋義用詞,生成的釋義語(yǔ)言簡(jiǎn)潔、通俗易懂,沒(méi)有明顯的語(yǔ)法錯(cuò)誤,例如“回信”和“逆天”:

      回信 huíxìn ①對(duì)收到的信件作出的答復(fù):收到一封~|期待你的~。②對(duì)收到的信件進(jìn)行回復(fù):請(qǐng)盡快~。

      逆天 nìtiān 網(wǎng)絡(luò)流行語(yǔ),原指違背自然法則或常理,后泛指某人或某事物的能力、表現(xiàn)遠(yuǎn)超常人或常規(guī),達(dá)到了令人難以置信的程度:他的記憶力簡(jiǎn)直~|這款游戲的難度~。

      然而,ChatGPT生成的釋義也存在一些問(wèn)題,主要包括以下兩種情況:

      (1) 完全虛構(gòu)釋義?;糜X(jué)現(xiàn)象是大語(yǔ)言模型普遍存在的問(wèn)題,ChatGPT生成的釋義可能與事實(shí)不符。虛構(gòu)的釋義缺乏真實(shí)性和可靠性,容易誤導(dǎo)讀者。例如,“兜底翻”的ChatGPT釋義和《現(xiàn)漢》釋義如下:

      兜底翻 dōudǐfān ①指在體操、雜技或其他運(yùn)動(dòng)中,以雙腳為軸心進(jìn)行的一種翻轉(zhuǎn)動(dòng)作,身體形成一個(gè)圓弧:完成一次~|~訓(xùn)練。②泛指在其他領(lǐng)域中進(jìn)行的類(lèi)似翻轉(zhuǎn)、翻身的行動(dòng)或變化:事業(yè)上的~|策略上的~。(ChatGPT)

      兜底翻 dōudǐfān ①比喻把底細(xì)全部揭露出來(lái):對(duì)這起事故的原因要~,徹底查,決不姑息。②比喻徹底換掉:工作要有連續(xù)性,不要換一屆領(lǐng)導(dǎo)就~。(《現(xiàn)漢》)

      “兜底翻”原指為尋找某物將所有東西都翻出來(lái),常用來(lái)借指徹底推翻原有的計(jì)劃、方案,《現(xiàn)漢》收錄了該詞的兩個(gè)比喻義。ChatGPT將“兜底翻”解釋為一種運(yùn)動(dòng)動(dòng)作,不符合實(shí)際。

      (2) 釋義不準(zhǔn)確。有時(shí)ChatGPT僅給出詞目中個(gè)別語(yǔ)素的含義,以偏概全。例如,ChatGPT為“左右”生成的釋義如下:

      左右 zuǒyòu ①表示方位,與“右”相對(duì):他站在我~|~手?!–hatGPT)

      義項(xiàng)①的釋義實(shí)際是“左”的含義,ChatGPT生成時(shí)忽略了“右”,使用“左”來(lái)代表“左右”,未能準(zhǔn)確表達(dá)“左右”作為方位詞的意義。

      有時(shí)ChatGPT對(duì)詞目概念的描述不夠嚴(yán)謹(jǐn)、不夠清晰。例如,ChatGPT為“矛盾”生成的釋義如下:

      矛盾 máodùn ①古代兵器,一端是矛,另一端是盾?!–hatGPT)

      義項(xiàng)①前半部分“古代兵器”符合“矛盾”的性質(zhì),但進(jìn)一步的描述存在問(wèn)題,“一端是矛,另一端是盾”容易讓讀者誤以為“矛”和“盾”是同一兵器的兩個(gè)部分,但實(shí)際上“矛”和“盾”是兩種兵器。

      5. 舉例準(zhǔn)確性分析

      辭書(shū)編纂中的舉例按照形式可分為詞例、短語(yǔ)例、句例、句群例等。傳統(tǒng)的舉例編纂方式包括自編、改編和書(shū)證,而隨著自然語(yǔ)言處理技術(shù)的發(fā)展,大語(yǔ)言模型已經(jīng)能夠自動(dòng)生成不同形式的舉例,即機(jī)編例子。40個(gè)詞目不同形式的舉例的數(shù)量見(jiàn)表5所示:

      ChatGPT生成的舉例數(shù)整體上高于《現(xiàn)漢》,以短語(yǔ)例(54.55%)為主,其次是句例(37.88%),詞例數(shù)量較少(7.58%),未生成句群例;《現(xiàn)漢》舉例以短語(yǔ)例(47.49%)和c/ICAlStMK7KjOiSx8G7vSgRnee0iycDKX0rt0qm8vw=句例(40.22%)為主,詞例數(shù)量較少(10.61%),此外包含少量句群例(1.68%)形式。相比于《現(xiàn)漢》,ChatGPT生成詞目的舉例類(lèi)型更為單一,短語(yǔ)例出現(xiàn)最為頻繁,詞例、句例和句群例的比例均略低于《現(xiàn)漢》。盡管在詞條自動(dòng)編纂釋文的提示詞中,舉例被描述為可選項(xiàng),但ChatGPT為所有詞目無(wú)一例外地生成了舉例。ChatGPT和《現(xiàn)漢》詞條中各個(gè)義項(xiàng)舉例數(shù)量的標(biāo)準(zhǔn)差分別為0.27和1.51,可見(jiàn)ChatGPT舉例數(shù)量整體分布較平均,相比之下,《現(xiàn)漢》對(duì)用法多的詞目集中舉例,非必要不舉例,兼顧了典型性和針對(duì)性。

      《〈現(xiàn)代漢語(yǔ)詞典〉編纂細(xì)則》(呂叔湘2004)在總則中論述了辭書(shū)舉例的指導(dǎo)思想,“舉例要注意思想內(nèi)容,語(yǔ)言生動(dòng)活潑,并且多樣化。切忌內(nèi)容庸俗,形式大同小異,語(yǔ)言僵硬單調(diào)”。經(jīng)過(guò)檢查,ChatGPT生成的舉例存在虛構(gòu)和重復(fù)等問(wèn)題。比如,ChatGPT為詞目“干凈”“不”“左右”生成了“干凈官”“不勝似敗”“成敗由左右”等例子,漢語(yǔ)中不存在這些用法。舉例重復(fù)問(wèn)題以“著調(diào)”為例:

      著調(diào) zhuótiáo ①形容事物調(diào)和,搭配得當(dāng):這套家具的顏色很~|裝飾得~。②指言行得體,合乎情理:他做事總是很~|談吐~。③形容人或事物有特色,引人注目:這個(gè)設(shè)計(jì)很~|她的穿搭風(fēng)格很~。(ChatGPT)

      “著調(diào)”三個(gè)義項(xiàng)的舉例都反復(fù)出現(xiàn)“很~”結(jié)構(gòu),雖然整體能夠體現(xiàn)詞語(yǔ)的語(yǔ)義搭配用法,但句法形式缺乏變化,存在公式化問(wèn)題,同時(shí)內(nèi)容不夠精簡(jiǎn),占用較大篇幅。

      綜上所述,ChatGPT雖然能快速生成舉例,但其多樣性、靈活性、針對(duì)性有待提高??梢酝ㄟ^(guò)優(yōu)化提示詞、提供包含詞目的語(yǔ)料等方式,進(jìn)一步提升機(jī)編例子的質(zhì)量,使其在句法結(jié)構(gòu)和語(yǔ)義表達(dá)上更加豐富多樣,更好地滿(mǎn)足辭書(shū)舉例實(shí)際需求。此外,也可以限定舉例形式和數(shù)量,讓ChatGPT有針對(duì)性地生成更多舉例,供辭書(shū)編纂人員挑選。

      四、 余 論

      本文以ChatGPT為例,調(diào)查了大語(yǔ)言模型在漢語(yǔ)辭書(shū)詞條自動(dòng)編纂中的表現(xiàn)。結(jié)果表明,ChatGPT在注音和詞性標(biāo)注方面展現(xiàn)出較高的準(zhǔn)確率,尤其對(duì)單音字和單一詞性詞的標(biāo)注效果更佳。ChatGPT能夠從新穎角度提供具有啟發(fā)性的義項(xiàng),體現(xiàn)出一定的創(chuàng)新性。在釋義方面,ChatGPT生成的釋文語(yǔ)言簡(jiǎn)潔通俗,無(wú)明顯語(yǔ)法錯(cuò)誤。同時(shí),ChatGPT能快速、批量生成舉例,節(jié)省人力。然而,ChatGPT在處理多音字、輕聲字、多義詞、口語(yǔ)詞、方言詞、文言詞等特殊詞語(yǔ)時(shí),注音和詞性標(biāo)注的準(zhǔn)確率有待提高,對(duì)義項(xiàng)劃分把握也欠佳,容易遺漏非常用義項(xiàng)。此外,ChatGPT生成的釋義可能出現(xiàn)虛構(gòu)或不準(zhǔn)確等情況,包括舉例形式單一、內(nèi)容重復(fù)、針對(duì)性不足等問(wèn)題。

      ChatGPT等大語(yǔ)言模型為傳統(tǒng)辭書(shū)編纂模式帶來(lái)了新的啟示。一方面,ChatGPT可作為辭書(shū)編纂的輔助工具,通過(guò)高效生成詞條初稿,實(shí)現(xiàn)人機(jī)協(xié)同,節(jié)省編纂時(shí)間,提升編纂質(zhì)量。另一方面,針對(duì)性?xún)?yōu)化大語(yǔ)言模型在辭書(shū)編纂中的應(yīng)用,如專(zhuān)門(mén)訓(xùn)練或微調(diào)模型、完善釋義機(jī)制、豐富舉例形式等,將有助于提高機(jī)編辭書(shū)的整體水平。此外,充分發(fā)揮大語(yǔ)言模型的技術(shù)優(yōu)勢(shì),積極探索辭書(shū)編纂的創(chuàng)新路徑,如拓展義項(xiàng)劃分視角、實(shí)現(xiàn)辭書(shū)動(dòng)態(tài)更新、滿(mǎn)足用戶(hù)個(gè)性化需求等,也是值得關(guān)注的發(fā)展方向。同時(shí),在語(yǔ)料選取、模型架構(gòu)設(shè)計(jì)、評(píng)估體系構(gòu)建等技術(shù)層面進(jìn)行持續(xù)優(yōu)化,將為大語(yǔ)言模型賦能辭書(shū)編纂提供更加堅(jiān)實(shí)的基礎(chǔ)。

      隨著人工智能的發(fā)展,大語(yǔ)言模型必將助力漢語(yǔ)辭書(shū)向智能化方向發(fā)展,但此間也將面臨諸多挑戰(zhàn)。辭書(shū)編纂模式變革、查檢方式創(chuàng)新固然值得期待,但編纂理念更新、知識(shí)產(chǎn)權(quán)保護(hù)、人才隊(duì)伍建設(shè)等問(wèn)題也同樣值得關(guān)注。推動(dòng)漢語(yǔ)辭書(shū)編纂理論和實(shí)踐的創(chuàng)新發(fā)展,需要在借鑒大語(yǔ)言模型等前沿技術(shù)的同時(shí),加強(qiáng)傳統(tǒng)編纂理論與人工智能技術(shù)的深度融合,建立健全人機(jī)協(xié)同的辭書(shū)編纂新范式。只有在堅(jiān)持傳承與創(chuàng)新并重的基礎(chǔ)上,加強(qiáng)多學(xué)科交叉融合,才能更好地推進(jìn)漢語(yǔ)辭書(shū)編纂事業(yè)的智能化發(fā)展,為廣大讀者提供更加優(yōu)質(zhì)、高效、個(gè)性化的辭書(shū)服務(wù)。

      本研究的不足主要有:(1) 設(shè)計(jì)問(wèn)卷時(shí),考慮到受訪(fǎng)者作答時(shí)間因素,將最初的100個(gè)詞目降為40個(gè)詞目,樣本數(shù)量的減少一定程度上影響了樣本的代表性和結(jié)論的可靠性。(2) 研究主要采用問(wèn)卷調(diào)查的方式,通過(guò)受訪(fǎng)者的主觀判斷來(lái)評(píng)估ChatGPT編纂詞條的整體質(zhì)量,評(píng)估指標(biāo)較為單一。(3) 文章重點(diǎn)關(guān)注ChatGPT在詞條自動(dòng)編纂中的表現(xiàn),但缺少與其他自動(dòng)編纂方法的對(duì)比,缺少不同大語(yǔ)言模型之間的對(duì)比。(4) 提示詞的編寫(xiě)有許多策略,本文對(duì)這些策略的使用不夠充分。未來(lái)可針對(duì)上述不足進(jìn)一步擴(kuò)展本研究。

      附 注

      [1] 主頁(yè):https://www.collinsdictionary.com/dictionary/english。

      [2] 主頁(yè):https://www.macmillanenglish.com。

      [3] ChatGPT使用該提示詞生成GI1ooJzO4umsAqz4J1HmGTorE+8fjuvGwpRKZc+Vq2A=釋義的時(shí)間為2024年1月23日。

      [4] ChatGPT直接生成的詞條見(jiàn)下:

      “熱絡(luò)” rèluò {形}①形容感情親密,交往頻繁:他們之間的關(guān)系很~|~的氣氛。②指活動(dòng)或場(chǎng)合氣氛熱烈,人際交往頻繁:聚會(huì)十分~|市場(chǎng)~。(ChatGPT)

      “彼” bǐ {代} ①指遠(yuǎn)離說(shuō)話(huà)人和聽(tīng)話(huà)人的人或事物:~岸|~處。②用于指代前文已提到的人或事物:~時(shí)|~人。③古代文言文中,常用作男子的美稱(chēng):~生|~君。(ChatGPT)

      為便于同《現(xiàn)漢》詞條對(duì)比,我們對(duì)ChatGPT生成的詞條進(jìn)行了后處理:詞目刪除雙引號(hào),詞性外加方框。

      [5] 括注內(nèi)的序號(hào)表示標(biāo)注了當(dāng)前詞性的義項(xiàng)號(hào)。

      參考文獻(xiàn)

      1. 范齊楠,孔存良,楊麟兒,等.基于BERT與柱搜索的中文釋義生成.中文信息學(xué)報(bào),2021(11):80-90.

      2. 呂叔湘.《現(xiàn)代漢語(yǔ)詞典》編寫(xiě)細(xì)則. //中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編.《現(xiàn)代漢語(yǔ)詞典》五十年.北京:商務(wù)印書(shū)館,2004.

      3. 魏雪,袁毓林.基于規(guī)則的漢語(yǔ)名名組合的自動(dòng)釋義研究.中文信息學(xué)報(bào),2014(3):1-10.

      4. 袁里馳.基于BiLSTM-CRF的中文分詞和詞性標(biāo)注聯(lián)合方法.中南大學(xué)學(xué)報(bào),2023(8):3145-3153.

      5. 中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編,現(xiàn)代漢語(yǔ)詞典(第7版).北京:商務(wù)印書(shū)館,2016.

      6. Cai Z,Haslett D,Duan X,et al. Do Large Language Models Resemble Humans in Language Use? arXiv preprint arXiv:2303.08014,2023.

      7. Gadetsky A,Yakubovskiy I,Vetrov D. Conditional Generators of Words Definitions. //Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018(2):266-271.

      8. Jakubí?ek M,Rundell M. The End of Lexicography? Can ChatGPT Outperform Current Tools for Post-editing Lexicography? //Proceedings of the eLex 2023 Conference,2023:518-533.

      9. Kong C,Chen Y,Zhang H,et al. Multitasking Framework for Unsupervised Simple Definition Generation. // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics,2022(1):5934-5943.

      10. Lew R. ChatGPT as a COBUILD lexicographer. Humanities and Social Sciences Communications,2023(10):1-10.

      11. Noraset T,Liang C,Birnbaum L,et al. Definition Modeling:Learning to Define Word Embeddings in Natural Language. // Proceedings of the AAAI Conference on Artificial Intelligence,2017(31):3259-3266.

      12. OpenAI,Achiam J,Adler S,et al. GPT-4 Technical Report. arXiv preprint arXiv:2303.08774,2023.

      13. Phoodai C,Rikk R. Exploring the Capabilities of ChatGPT for Lexicographical Purposes:A Comparison with Oxford Advanced Learner’s Dictionary within the Microstructural Framework.

      //Proceedings of the eLex 2023 Conference,2023:335-365.

      14. Rees G,Lew R. The Effectiveness of OpenAI GPT-Generated Definitions Versus Definitions from an English Learners’ Dictionary in a Lexically Orientated Reading Task. International Journal of Lexicography,2024(1):50-74.

      15. Tran H,Podpe?an V,Tomazin M,et al. Definition Extraction for Slovene: Patterns,Transformer Classifiers and ChatGPT. //Proceedings of the eLex 2023 Conference,2023:19-38.

      (張永偉 中國(guó)社會(huì)科學(xué)院大學(xué)文學(xué)院/中國(guó)社會(huì)科學(xué)院辭書(shū)編纂研究中心 北京 102488;

      劉 婷 中國(guó)社會(huì)科學(xué)院大學(xué)文學(xué)院 北京 102488)

      (責(zé)任編輯 郎晶晶)

      巫溪县| 南和县| 宁国市| 临海市| 涟水县| 时尚| 长治市| 香港| 安阳市| 新民市| 屏边| 沙坪坝区| 微山县| 手游| 安阳县| 乐平市| 景宁| 井冈山市| 铜川市| 将乐县| 南安市| 河南省| 永福县| 景洪市| 馆陶县| 七台河市| 浮梁县| 阜平县| 集贤县| 吉林市| 遵化市| 南郑县| 怀化市| 泗洪县| 建昌县| 高平市| 利辛县| 曲阳县| 新蔡县| 甘谷县| 凌海市|