• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能化期刊投審稿系統(tǒng)自然語言處理模塊的應(yīng)用探索

      2023-12-29 07:36:44張芃捷袁皓偉
      中國傳媒科技 2023年12期
      關(guān)鍵詞:科技期刊稿件期刊

      張芃捷 袁皓偉 唐 璞 馮 甜 石 蕓

      (重慶市衛(wèi)生健康統(tǒng)計信息中心期刊部,重慶 401120)

      目前,科技期刊發(fā)展正迎來難得的機遇與巨大的挑戰(zhàn)。2019 年,中國科協(xié)、中宣部、教育部、科技部聯(lián)合發(fā)布《關(guān)于深化改革培育世界一流科技期刊的意見》[1],文件提出要“全力推進數(shù)字化、專業(yè)化、集團化、國際化進程。實現(xiàn)科技期刊管理、運營與評價等機制的深刻調(diào)整,構(gòu)建開放創(chuàng)新、協(xié)同融合、世界一流的中國科技期刊體系。”這為期刊積極探索未來辦刊模式,開啟融合轉(zhuǎn)型發(fā)展提供了參考綱領(lǐng)。2021 年,中共中央宣傳部、教育部、科技部印發(fā)《關(guān)于推動學(xué)術(shù)期刊繁榮發(fā)展的意見》的通知,提出科技期刊要順應(yīng)媒體融合發(fā)展趨勢,通過流程優(yōu)化、平臺再造,實現(xiàn)數(shù)字化轉(zhuǎn)型升級,這為期刊的移動化、智能化發(fā)展指明了探索方向。根據(jù)2022 年12 月中國科學(xué)技術(shù)信息研究所發(fā)布的《2022 年中國科技論文統(tǒng)計報告》,2010 年至2020 年(截至2022 年9 月)中國高被引論文數(shù)為4.99萬篇,數(shù)量比2021年統(tǒng)計時增加了16.2%;2021年,中國卓越科技論文共計48.05 萬篇,比2020 年增加了1.67 萬篇,中國科技論文產(chǎn)出不斷增加。在此關(guān)鍵時刻,引入人工智能相關(guān)技術(shù),幫助期刊進行系統(tǒng)升級,應(yīng)對未來的各項挑戰(zhàn)具有極其重要的意義。

      1.相關(guān)研究

      2017 年,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》指出,要以技術(shù)突破推動科技期刊領(lǐng)域的應(yīng)用和產(chǎn)業(yè)升級,以應(yīng)用示范推動技術(shù)和系統(tǒng)優(yōu)化,從而使科技期刊發(fā)展由數(shù)字化、網(wǎng)絡(luò)化向智能化加速躍升。在這6 年間,已有眾多學(xué)者為人工智能與期刊融合發(fā)展提供了思路。有學(xué)者提出,人工智能對期刊發(fā)展可能起到政治支持、技術(shù)支持、觀念支持和行為支持的作用。[2]在頂層設(shè)計層面,科技期刊出版綜合運用人工智能技術(shù),將數(shù)據(jù)挖掘、機器學(xué)習(xí)、語音和圖像識別及智能算法等技術(shù)應(yīng)用到出版過程中,實現(xiàn)從經(jīng)驗到計算的選題策劃、從輔助到自主的內(nèi)容生產(chǎn)、從繁雜到效率的編輯加工、從粗略到精準的傳播推送、從平面到場景的閱讀體驗、從大眾到定制的內(nèi)容服務(wù),使科技期刊出版流程得以優(yōu)化和升級。[3-4]在具體操作層面,學(xué)者提出,科技期刊可以考慮引入人工智能技術(shù)縮短稿件處理時間,提高期刊影響力[5],或是利用人工智能的協(xié)同系統(tǒng)進行科技論文內(nèi)容生產(chǎn),協(xié)助作者進行文獻資料的整理、分析及寫作[6],亦可通過“人物畫像”實現(xiàn)內(nèi)容的精準推薦等。

      已有的研究成果為本研究提供了寶貴的研究思路和方向參考。然而,根據(jù)現(xiàn)有收集的相關(guān)資料進行分析,發(fā)現(xiàn)國內(nèi)眾多研究更多提供的是研究思路和發(fā)展方向,很少從具體操作層面,特別是落地應(yīng)用效果的視角來研究和分析人工智能如何與科技期刊的發(fā)展相融合?;诖?,本研究在已有研究進行討論,以降低編輯處理投審稿的門檻要求、提高投審稿處理的速度和精度、優(yōu)化稿件處理流程、節(jié)約出版時間為研發(fā)目標[7],采用人工智能分支技術(shù)之一——自然語言處理的相關(guān)技術(shù),對搭建的實驗用投審稿系統(tǒng)進行普適化通用智能升級探索和應(yīng)用,歸納與總結(jié)經(jīng)驗,為我國科技期刊與人工智能的融合發(fā)展提供參考和借鑒。

      2.投審稿系統(tǒng)升級需求分析

      2.1 當(dāng)前投審稿系統(tǒng)難點

      “十二五”時期,眾多科技期刊從傳統(tǒng)的郵箱投稿逐步開發(fā)和升級使用投審稿系統(tǒng)。時至今日,傳統(tǒng)的投審稿系統(tǒng)(或稱為采編系統(tǒng))運行效率已顯得力不從心,逐漸成為限制期刊進一步發(fā)展的短板。一方面,投審稿系統(tǒng)在當(dāng)初開發(fā)時,更加注重對投審稿流程的完整實現(xiàn),流程復(fù)雜,操作多,與過去郵箱投稿相比進步巨大,但隨著投稿量的不斷上升,編輯和審稿專家更容易出現(xiàn)操作失誤,需要更多的時間從多維度進行查詢、參考,以此來判斷稿件質(zhì)量和創(chuàng)新性,影響審稿進度和審稿質(zhì)量,造成巨大的人力資源浪費,也不利于青年編輯的平滑發(fā)展;而作者與編輯交流通過投審稿系統(tǒng)發(fā)送站內(nèi)信息,存在信息滯后性,編輯很難在第一時間解決作者的燃眉之急,對編輯和作者的關(guān)系,及期刊發(fā)展產(chǎn)生負面影響。另一方面,當(dāng)初的投審稿系統(tǒng)大多采用線性開發(fā),每一條工作流程封閉且并未預(yù)留功能拓展空間,很難按需直接在系統(tǒng)環(huán)節(jié)定制開發(fā)新功能。例如,如果要將手動分配學(xué)科和專家,升級為智能分配學(xué)科和專家,不僅需要對整個送審環(huán)節(jié)進行重新開發(fā),甚至可能導(dǎo)致系統(tǒng)不穩(wěn)定,未知故障頻出。但若要重新開發(fā)新系統(tǒng),不僅需要巨大的財力和人力資源,還需要超前評估和預(yù)判期刊發(fā)展需求。如何在不影響科技期刊運行現(xiàn)狀的基礎(chǔ)上,在投審稿系統(tǒng)方面進行升級發(fā)展,這是眾多科技期刊所面臨的一大挑戰(zhàn)。

      2.2 編輯與專家審稿需求

      在傳統(tǒng)投審稿環(huán)節(jié),編輯人員會根據(jù)自己的學(xué)科知識對稿件進行初步鑒定,評價其是否具有發(fā)表價值,而綜合性醫(yī)學(xué)期刊覆蓋較多學(xué)科,受限于編輯專精方向,對稿件把握不夠準確。[8-9]而在如今學(xué)科快速發(fā)展的背景下,根據(jù)關(guān)鍵詞選擇審稿專家,往往審稿專家并不是該方向的研究者,這樣就會出現(xiàn)稿件送審被拒的問題,或者對審稿專家進行更換,延長稿件處理時間。[10-11]有文獻報道,醫(yī)學(xué)論文被拒審的原因中,69.8%(268/384)是因為專家對送審論文研究方向不熟悉,無法對來稿進行科學(xué)評價。[12]因此,新老編輯除了要持續(xù)學(xué)習(xí)提升所屬領(lǐng)域的專業(yè)知識外,也需要能提升審稿速度和精度的輔助工具。而人工智能作為一項知識工具,能跨平臺地進行信息補充和分類。審稿環(huán)節(jié)由傳統(tǒng)的人審稿,轉(zhuǎn)變?yōu)椤皺C器+人”,首先讓機器“閱讀”大量科技期刊論文,然后將篩選后的相關(guān)論文讓編輯閱讀[13],以此提升編輯的知識服務(wù)能力,加速學(xué)術(shù)傳播。

      3.自然語言處理模塊的實際應(yīng)用

      本研究的自然語言處理模塊采用“外部掛載”的方式獨立運行,以保障投審稿系統(tǒng)的穩(wěn)定運行。

      投審稿系統(tǒng)中,通常將瀏覽器作為前端,服務(wù)器系統(tǒng)、數(shù)據(jù)庫作為后端。瀏覽器通過渲染代碼,提取數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容,顯示在頁面上;同時,瀏覽器接受用戶的指令和輸入的內(nèi)容,傳入服務(wù)器系統(tǒng),推動服務(wù)器系統(tǒng)進行下一步工作,最終將需要的數(shù)據(jù)內(nèi)容存入數(shù)據(jù)庫。由此,形成數(shù)據(jù)交互運行的基本循環(huán)。自然語言處理模塊與投審稿系統(tǒng)相互獨立,前者從投審稿系統(tǒng)數(shù)據(jù)庫(后簡稱原數(shù)據(jù)庫)提取所需信息進行處理,將預(yù)處理結(jié)果存入新的數(shù)據(jù)庫“TabNLP”——“TabNLP”也與原數(shù)據(jù)庫彼此獨立。最終,通過對瀏覽器渲染內(nèi)容進行略微修改,從數(shù)據(jù)庫中提取預(yù)處理結(jié)果并顯示在瀏覽器上,實現(xiàn)更多輔助信息的展示,推動審稿流程和編輯部管理工作的更高效運行。見圖1。

      圖1 投審稿系統(tǒng)自然語言處理模塊運行流程

      3.1 自然語言處理模塊構(gòu)造

      投審稿系統(tǒng)自然語言處理模塊主要包括4個部分,即核心模型、數(shù)據(jù)庫“TabNLP”、訓(xùn)練部分、運行部分(見圖2)。

      圖2 自然語言處理模塊構(gòu)造

      3.1.1 核心模型

      核心模型包括詞嵌入層、均值化層、處理層。

      設(shè)輸入的論文標題為S,經(jīng)過文本預(yù)處理,刪除標點等特殊字符和并無實際語義的助詞(如“的”“了”“于”等),得到輸出S’。

      (1)詞嵌入層(embedding layer)。[14]使用分詞模塊將S’的每個字轉(zhuǎn)為輸入序列。假設(shè)該序列有N個字,則將S’的數(shù)據(jù)輸入表示為{w1,w2,w3,…,wN},然后通過神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練的詞嵌入模型,對輸入序列進行向量映射,轉(zhuǎn)化為詞向量序列{v1,v2,v3,…,vN},vi ∈Rd,R 表示所有實體向量合集,d表示每個詞的維度(本研究中d=128)。

      (2)均值化層(Fasttext layer)。將詞向量序列進行合并和均值化處理,得到S’的特征向量。計算過程如式(1)。

      (3)處理層(process layer)。根據(jù)相應(yīng)的功能需求,將算式(1)獲得的結(jié)果wS’輸入以下式子,分別獲取不同結(jié)果,供最終調(diào)用。

      一是用于中圖法分類號和學(xué)科領(lǐng)域推薦功能,通過Softmax 函數(shù)處理。計算過程如式(2),其中,wi 表示wS’中第i 個向量值,d 表示向量維度(本研究中d=128),e 表示自然常量。具體模型采用Tensorflow 的Keras 進行構(gòu)建。

      二是用于發(fā)表相似文章提醒和智能問答功能,計算wS’與其他文本向量(wT)的余弦相似性。計算過程如式(3),其中wi 表示wS’中第i 個向量值,w’i表示wT 中第i 個向量值,d 表示向量維度(本研究中d=128)。具體模型采用sklearn的cosine_similarity進行構(gòu)建。

      三是計算文章創(chuàng)新性系數(shù),計算過程如式(4),其中na 表示相似度超過預(yù)設(shè)閾值的文獻條數(shù),r 表示文章的文字復(fù)制比,nb 表示最大超閾值容忍文獻數(shù),e 表示自然常量。具體模型根據(jù)下列公式另行構(gòu)建。

      3.1.2 數(shù)據(jù)庫“TabNLP”

      “TabNLP”是自然語言處理模塊新生成的數(shù)據(jù)庫,存儲核心模型計算出的所有數(shù)值和分析結(jié)果。由于其與原數(shù)據(jù)庫相互獨立,即使自然語言處理模塊出現(xiàn)問題,也不會影響投審稿系統(tǒng)的運行,僅在網(wǎng)頁顯示時,缺少由自然語言處理模塊輸出的數(shù)值和分析結(jié)果。

      3.1.3 訓(xùn)練部分

      本研究以重慶市衛(wèi)生健康統(tǒng)計信息中心下屬期刊2020 年及以前的50000 余條投審稿數(shù)據(jù)(包括稿件信息、作者信息、審稿專家信息、已投稿稿件等)作為數(shù)據(jù)集,以8∶2的比例劃分訓(xùn)練集和測試集進行訓(xùn)練,完成訓(xùn)練后獨立保存模型,供運行部分調(diào)用。投審稿系統(tǒng)每天產(chǎn)生的新投審稿數(shù)據(jù),都將按上述方式納入訓(xùn)練和測試,對核心模型進行迭代。

      3.1.4 運行部分

      運行部分以“while True”作為永續(xù)運行條件,每隔2 秒從原數(shù)據(jù)庫提取一次信息,發(fā)現(xiàn)有新投稿信息后即進行數(shù)據(jù)處理。設(shè)置定時啟動的程序命令os.system,以命令提示符運行程序文件,可定時進行數(shù)據(jù)處理。如果由于新內(nèi)容和新數(shù)據(jù)導(dǎo)致訓(xùn)練無法進行,運行部分可以采用保存好的模型繼續(xù)進行計算和預(yù)測。

      3.2 其他軟件基礎(chǔ)與資料

      本研究以重慶市衛(wèi)生健康統(tǒng)計信息中心下屬期刊的投審稿系統(tǒng)為基礎(chǔ)進行系統(tǒng)和數(shù)據(jù)庫的安裝和配置,系統(tǒng)為Windows Server 2012 R2,數(shù)據(jù)庫為Microsoft SQL Server。采用Python 語言編寫自然語言處理模塊。為保證審稿系統(tǒng)與編程平臺的相互獨立運行,構(gòu)建了Jupyter Notebook(支持實時代碼、數(shù)學(xué)方程、可視化的Web 應(yīng)用程序)進行編程與調(diào)試。

      3.3 數(shù)據(jù)庫

      與數(shù)據(jù)庫的通信包含2 個部分:從原數(shù)據(jù)庫提取數(shù)據(jù),向“TabNLP”數(shù)據(jù)庫寫入數(shù)據(jù)。

      利用Python 的pymssql 工具庫,于Python 程序端執(zhí)行sql 語句提取數(shù)據(jù)庫內(nèi)容,再結(jié)合pandas 工具庫將內(nèi)容以數(shù)據(jù)矩陣模式存儲。根據(jù)需求選取字段進行數(shù)據(jù)清洗,去除空值內(nèi)容和不符合訓(xùn)練內(nèi)容需求的數(shù)據(jù)。

      TabNLP 數(shù)據(jù)庫包含稿件ID(數(shù)據(jù)庫內(nèi)部ID)、稿件編號、用戶ID、用戶名、稿件名稱、相似文章名稱和相似度(1 ~3)、領(lǐng)域與專家推薦(1 ~3)、創(chuàng)新性系數(shù)、中圖法分類號推薦(1 ~3)等27 個字段。

      3.4 運行結(jié)果

      自然語言處理模塊可相關(guān)可能性最高的3 個學(xué)科領(lǐng)域及其中圖法分類號、3 個已發(fā)表文章標題、3 位推薦審稿專家(見圖3、圖4);在接受作者問題后,自動將答案回復(fù)給作者,同時向負責(zé)該稿件的編輯發(fā)送郵件,提示編輯查漏補缺(見圖5)。

      圖3 初審、專審時提供的中圖法分類號推薦、相似文章檢測、創(chuàng)新性系數(shù)

      圖4 專審時的送審專家推薦

      圖5 系統(tǒng)向編輯發(fā)送提示郵件

      單項學(xué)科領(lǐng)域測試中,準確率為60.19%;中圖法分類號二級分類(如R56 呼吸系統(tǒng))準確率為60.93%;中圖法分類號一級分類(如R5 內(nèi)科學(xué))準確率為77.19%。

      3.5 有待解決的問題

      (1)單項學(xué)科領(lǐng)域測試整體準確率并不高,究其原因,在于醫(yī)學(xué)類稿件存在學(xué)科交叉情況,例如稿件“老年肺炎的護理與康復(fù)研究”中,可涉及的學(xué)科領(lǐng)域包括老年科、護理科、呼吸內(nèi)科、康復(fù)科等多個學(xué)科,在測試中以單一分類結(jié)果作為標準評判則必然會產(chǎn)生系統(tǒng)誤差。(2)參與本課題計算的數(shù)據(jù)僅為期刊過去的投審稿數(shù)據(jù),時效性、數(shù)量不足,未來可以考慮和國內(nèi)知名數(shù)據(jù)庫對接聯(lián)系,導(dǎo)入更大規(guī)模的數(shù)據(jù)集進行訓(xùn)練。(3)本研究采用的服務(wù)器硬件性能不高,故課題組采用了折中的模型和算法,精度和準度均有待進一步提升,可嘗試引入其他優(yōu)化算法甚至預(yù)訓(xùn)練模型,提高擬合效果。

      結(jié)語

      隨著軟硬件的成熟,人工智能的意義逐漸凸顯,尤其是科技部等六部門印發(fā)《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指導(dǎo)意見》[15],強調(diào)提升場景創(chuàng)新能力,加大應(yīng)用示范,加速人工智能技術(shù)攻關(guān),探索人工智能發(fā)展新模式新路徑。本研究作為實際應(yīng)用探索,為未來重新設(shè)計和開發(fā)符合智能化、融合發(fā)展趨勢的新投審稿系統(tǒng)(編校平臺)積累了技術(shù)和經(jīng)驗。通過研究,發(fā)現(xiàn)自然語言處理可以實現(xiàn)學(xué)科領(lǐng)域及專家推薦、中圖法分類號推薦、已發(fā)表相似文章提示、智能問答和創(chuàng)新性系數(shù)計算等輔助功能,也可以采用“外部掛載”的方式對現(xiàn)有投審稿系統(tǒng)進行升級和過渡。

      對編輯而言,人工智能帶來了智能的一個關(guān)鍵組成部分:預(yù)測。[16]預(yù)測是利用手中已有的信息(亦被稱為“數(shù)據(jù)”),填補缺失信息,生成編輯尚未掌握的信息;而在摸清文字和文章脈絡(luò)規(guī)律后,可以根據(jù)具體使用場景和需求,進一步利用人工智能對文章進行體例、格式、內(nèi)容方向的預(yù)測和判斷。人工智能在給編輯審稿帶來輔助信息提示的同時,也會逐步影響編輯思維,從主觀感受往更為理性、數(shù)據(jù)化方向轉(zhuǎn)變。對期刊行業(yè)而言,人工智能的引入也會對傳統(tǒng)業(yè)務(wù)考核機制產(chǎn)生影響。以往對編輯在審稿方面的考核,除了審稿時間能直觀掌握外,內(nèi)容、主題方面因其更加主觀,導(dǎo)致考核存在滯后性,即稿件在終審,乃至刊登后才可能因為內(nèi)容方面存在的問題,倒查發(fā)現(xiàn)投審稿流程中存在的失誤。但引入人工智能以后,人工智能可以基于稿件每個流程的數(shù)據(jù),對下一個流程的操作給出判斷和建議。一旦提前將與人工智能判斷和實際操作相差甚遠的稿件做進一步檢查,可能提前及時清理錯誤處理的稿件,并可基于此進行規(guī)范和考核。

      人工智能與科技期刊的融合之路并非坦途。早在人工智能技術(shù)剛興起時,業(yè)界就提出了兩者融合發(fā)展的眾多構(gòu)想,但在實際應(yīng)用的過程中,這些構(gòu)想要么脫離了科技期刊的行業(yè)背景,要么在軟硬件實現(xiàn)方面存在困難:(1)眾多編輯和期刊管理人員不具備人工智能相關(guān)的專業(yè)背景,難以理解算法的基本原理,不理解計算結(jié)果,遇到問題也較難清晰地表示和復(fù)現(xiàn)錯誤情況;(2)目前自然語言處理主要以預(yù)訓(xùn)練模型為主,而在涉及較為復(fù)雜的價值判斷選題或敏感選題中,模型可能因數(shù)據(jù)存在的偏倚導(dǎo)致判斷有誤,難以穩(wěn)定地代替編輯進行決策;(3)不同出版集團,乃至同一個出版集團的不同期刊間的數(shù)據(jù)通道尚未完全打通,導(dǎo)致人工智能模型訓(xùn)練的數(shù)據(jù)不足。此外,人工智能在對歷史數(shù)據(jù)進行訓(xùn)練和無差別預(yù)測中,存在“過度擬合”現(xiàn)象。如果跳過編輯,直接采納人工智能意見進行稿件處理,則有誤判的可能,甚至導(dǎo)致閃光的潛力稿件被埋沒。因此,越智能、越具有創(chuàng)新的內(nèi)容編輯環(huán)節(jié)應(yīng)當(dāng)是人工編輯的產(chǎn)物,人機合理分工是自動編輯的關(guān)鍵。[17]

      猜你喜歡
      科技期刊稿件期刊
      科技期刊的分類
      錄用稿件補充說明
      期刊更名啟事
      期刊簡介
      科技期刊的分類
      科技期刊”
      期刊問答
      科技期刊的分類
      Shanxi Agricultural University Visitor Professor Donald Grierson*
      本刊歡迎下列稿件
      黎平县| 曲松县| 三原县| 壤塘县| 金川县| 凤庆县| 开平市| 张北县| 额济纳旗| 柯坪县| 广德县| 长宁县| 和龙市| 那坡县| 福建省| 五峰| 孝义市| 十堰市| 闽清县| 林周县| 怀远县| 绵竹市| 调兵山市| 黄山市| 内江市| 高要市| 长顺县| 怀化市| 阳东县| 潮安县| 彭泽县| 西丰县| 建宁县| 铜山县| 东山县| 灵璧县| 隆德县| 连城县| 日土县| 陆良县| 方山县|