人工智能在學(xué)術(shù)誠信建設(shè)中的應(yīng)用探討

2020-01-08 02:24:39李娜娜李銀平

天津科技 2020年1期

李娜娜，李爽，李楊，李銀平

(1.天津市第一中心醫(yī)院《實(shí)用器官移植電子雜志》編輯部天津 300192；2.天津市天津醫(yī)院《中華危重病急救醫(yī)學(xué)》雜志社天津 300050)

近年來，學(xué)術(shù)不端的行為屢見報(bào)道，2015年英國出版商現(xiàn)代生物出版集團(tuán)撤稿生物醫(yī)學(xué)論文 43篇。2017年，施普林格出版集團(tuán)撤銷《腫瘤生物學(xué)》期刊論文107篇[1]，此次撤稿事件在學(xué)術(shù)界引起軒然大波，不僅刷新了全球?qū)W術(shù)期刊一次性撤稿論文數(shù)量的紀(jì)錄，更是首次將科研誠信問題推至風(fēng)口浪尖。尤其在我國，科研誠信得到了前所未有的重視，科研誠信危機(jī)浮出水面。加強(qiáng)科研誠信建設(shè)，提升學(xué)術(shù)道德水平，已成為我國學(xué)術(shù)界一項(xiàng)刻不容緩的重要任務(wù)。

當(dāng)前，隨著知識(shí)大爆炸時(shí)代的到來，人工智能(Artificial Intelligence，AI)、“互聯(lián)網(wǎng)＋”、數(shù)據(jù)挖掘、深度學(xué)習(xí)正在融入我們的生活，同時(shí)對(duì)傳統(tǒng)行業(yè)提出了挑戰(zhàn)。國務(wù)院于2017年7月頒布了《新一代人工智能發(fā)展規(guī)劃》的通知，明確指出要全面貫徹、深入學(xué)習(xí)習(xí)近平總書記系列重要講話精神和治國理政新理念、新思想、新戰(zhàn)略，將提升新一代AI科技創(chuàng)新能力作為未來發(fā)展的重要戰(zhàn)略方針，構(gòu)建 AI科技與社會(huì)和諧發(fā)展的創(chuàng)新體系，爭(zhēng)取到 2030年，我國的 AI理論、技術(shù)與應(yīng)用總體可以位于世界領(lǐng)先地位[2]。AI是研究、開發(fā)用于模擬人的思維過程和行為的學(xué)科，該領(lǐng)域的研究包括機(jī)器人、音頻識(shí)別、語言輸入及處理等。隨著以數(shù)據(jù)挖掘、深度學(xué)習(xí)、互聯(lián)網(wǎng)為基礎(chǔ)的 AI時(shí)代的到來，人們逐步感受到了其帶來的沖擊和影響。作為發(fā)表重要科技成果、知識(shí)與信息傳播及引領(lǐng)輿論導(dǎo)向的重要行業(yè)[3]，出版業(yè)一直是與人們生活密切相關(guān)并緊跟科技潮流的行業(yè)，尤其是期刊領(lǐng)域，在人工智能不斷崛起的背景下，各種智能科技已開始逐步被應(yīng)用，未來將進(jìn)入智能出版時(shí)代[4]。因此，利用大數(shù)據(jù)挖掘、機(jī)器深度學(xué)習(xí)、VR/AR、人機(jī)交互等工具進(jìn)行學(xué)術(shù)不端檢測(cè)，逐漸成為新的趨勢(shì)。

目前，學(xué)術(shù)不端行為檢測(cè)系統(tǒng)是各出版社甄別學(xué)術(shù)不端的主要工具。與國內(nèi)相比，國外的檢測(cè)系統(tǒng)起步較早，反抄襲技術(shù)相對(duì)成熟。Turnitin檢測(cè)軟件創(chuàng)建于 1998年，是目前全球最權(quán)威、使用最多的英文檢測(cè)軟件[5]，支持中文、意大利文、法文、英文等多種語言。在我國，中國知網(wǎng)在2008年開發(fā)的AMLC系統(tǒng)是目前國內(nèi)期刊出版單位使用最多的檢測(cè)系統(tǒng)，其優(yōu)點(diǎn)是檢測(cè)速度快、準(zhǔn)確率高、抗干擾性強(qiáng)，支持的文件格式多樣。隨后萬方數(shù)據(jù)庫和維普資訊也相繼推出WFSD系統(tǒng)及WPCS系統(tǒng)，相比AMLC系統(tǒng)，這2個(gè)系統(tǒng)都支持個(gè)人使用。WFSD的優(yōu)勢(shì)為算法精準(zhǔn)科學(xué)，報(bào)告詳實(shí)全面；WPCS的優(yōu)勢(shì)為檢測(cè)資源豐富，有創(chuàng)新性檢測(cè)指標(biāo)。北京智齒數(shù)匯科技有限公司針對(duì)大部分高校畢業(yè)生推出了 PaperPass檢測(cè)系統(tǒng)，其比對(duì)指紋數(shù)據(jù)庫由 9000多萬種學(xué)術(shù)期刊和學(xué)位論文、超過10億的互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)庫組成[6]。

以上4種是目前我國使用比較普遍的檢測(cè)系統(tǒng)，但仍然存在諸多問題：①各個(gè)系統(tǒng)存在檢測(cè)差異；②數(shù)據(jù)庫中的論文存在滯后性或缺失；③檢測(cè)算法不夠智能；④不能區(qū)分合理的自引、他引或抄襲；⑤不能檢測(cè)論文中的圖片、圖表抄襲。

這些問題已存在許久，但是隨著 AI、“互聯(lián)網(wǎng)＋”、AR/VR等新興技術(shù)的崛起，信息傳播更加智能、精準(zhǔn)，智媒時(shí)代已經(jīng)開啟[7]，AI與文化產(chǎn)業(yè)的交集逐漸擴(kuò)大，為 AI在學(xué)術(shù)不端行為檢測(cè)中的應(yīng)用提供了可能，其中的跨語言檢測(cè)技術(shù)和語義識(shí)別技術(shù)可幫助檢測(cè)軟件有效解決“思想抄襲”的問題[6]。

1 建立完善的數(shù)據(jù)庫系統(tǒng)

想在海量的論文中分辨出相似、相近文章以及判斷文章的價(jià)值，需要一個(gè)龐大的數(shù)據(jù)庫系統(tǒng)。因此，未來將利用AI、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)不斷擴(kuò)大和完善數(shù)據(jù)庫。機(jī)器學(xué)習(xí)指用算法解析數(shù)據(jù)，通過學(xué)習(xí)對(duì)周圍發(fā)生的事做出判斷、預(yù)測(cè)；深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種技術(shù)，利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)實(shí)現(xiàn)，它的構(gòu)想源自于大腦的神經(jīng)元，擁有獨(dú)立的層、連接以及數(shù)據(jù)傳播方向。每一個(gè)神經(jīng)元會(huì)對(duì)輸入的信息進(jìn)行權(quán)衡，確定權(quán)重，搞清它與所執(zhí)行任務(wù)的關(guān)系，比如有多正確或多么不正確，最終的結(jié)果由所有權(quán)重來決定[8]。

數(shù)據(jù)庫系統(tǒng)與AI系統(tǒng)是相輔相成的，AI系統(tǒng)使用大量標(biāo)準(zhǔn)的算法去執(zhí)行搜索與推理、高效檢索訪問以及管理海量數(shù)據(jù)庫。數(shù)據(jù)庫技術(shù)中引入AI，實(shí)現(xiàn)了兩者的完美結(jié)合：數(shù)據(jù)庫智能化和智能化數(shù)據(jù)庫。數(shù)據(jù)庫智能化，就是將數(shù)據(jù)庫系統(tǒng)作為 AI系統(tǒng)，利用AI技術(shù)實(shí)現(xiàn)數(shù)據(jù)庫系統(tǒng)的智能表達(dá)、推理和查詢功能；智能化數(shù)據(jù)庫表現(xiàn)為數(shù)據(jù)庫定時(shí)自我更新的功能，使其具備一定的翻譯、推理功能，提高系統(tǒng)的智能化程度[9]。目前，國內(nèi)的 AMLC、WFSD、WPCS、PaperPass等系統(tǒng)均不能達(dá)到智能化效果，同時(shí)還存在數(shù)據(jù)庫不穩(wěn)定、更新不及時(shí)、缺乏外文以及小語種文獻(xiàn)、覆蓋范圍不全面、缺乏網(wǎng)絡(luò)或會(huì)議發(fā)表文章等問題，不能將同一作者、導(dǎo)師、單位進(jìn)行歸類，在文獻(xiàn)檢測(cè)的時(shí)候，通常不能排除同一作者的文章。另外，各系統(tǒng)缺乏數(shù)據(jù)共享平臺(tái)，不同系統(tǒng)的檢測(cè)結(jié)果無法進(jìn)行共享對(duì)比。出版巨頭愛思唯爾誠信部門主管也表示，出版商需要?jiǎng)?chuàng)建一個(gè)共享的數(shù)據(jù)庫，以便進(jìn)行相關(guān)檢索，查實(shí)論文圖片重復(fù)使用的情況。而 AI不僅能建立完善的數(shù)據(jù)庫系統(tǒng)，甚至構(gòu)建數(shù)據(jù)共享平臺(tái)，為學(xué)術(shù)不端檢測(cè)打造扎實(shí)的基礎(chǔ)。

2 開發(fā)高效的圖片相似性檢測(cè)技術(shù)

在文章相似性檢測(cè)中，圖片的相似性檢測(cè)往往是最困難的，因?yàn)槟壳皼]有任何一個(gè)軟件或算法能夠準(zhǔn)確分析2張圖片的相似性，尤其是在作者刻意進(jìn)行修改的前提下。在中國，論文文字查重體系一直到2005年前后才建立。后來，人們又不斷優(yōu)化這個(gè)系統(tǒng)，從能識(shí)別“復(fù)制粘貼型”抄襲，到能識(shí)別改變用詞和句法的抄襲，但圖片重復(fù)一直是論文查重的死角[10]。在過去，圖片審核的工作往往需要人力完成。Nature雜志會(huì)對(duì)收到的稿件隨機(jī)抽樣進(jìn)行檢查，并要求作者提供未編輯的圖像作參考；《細(xì)胞生物學(xué)雜志》和《歐洲分子生物學(xué)組織雜志》也是對(duì)圖片進(jìn)行手工查重。手工查重不僅耗時(shí)、耗力，更重要的是效率低，甚至檢測(cè)不出，以至于多數(shù)刊物都沒有采用這項(xiàng)流程。

2018年億歐智庫發(fā)布的《2017人工智能＋內(nèi)容生產(chǎn)研究報(bào)告》中提到的“圖像相似性檢測(cè)”或許將帶來新的希望。近 2年，在 AI芯片和服務(wù)器集群逐步完善，算力越發(fā)強(qiáng)大的基礎(chǔ)上，無監(jiān)督學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)等算法的研究繼續(xù)深入，在文本處理、音頻處理和圖像處理方面持續(xù)取得突破。將這一技術(shù)用于文章相似性檢測(cè)的想法，很快就實(shí)現(xiàn)了。同年，美國紐約雪城大學(xué)的研究員丹尼爾·阿庫納等研發(fā)出一套算法，可以利用 AI識(shí)別學(xué)術(shù)論文中的圖像造假，對(duì)論文圖片進(jìn)行查重。他們檢測(cè)了 76萬篇論文，并從中提出有效圖片 263萬張。其中，約 9%的圖像存在高度重復(fù)，該團(tuán)隊(duì)又在其中選取了約4000張可疑圖片進(jìn)行人工核查。經(jīng)測(cè)算，在所有論文中，約 1.5%存在學(xué)術(shù)不端的嫌疑，0.6%確認(rèn)存在圖像方面的論文造假。

3 完善智能語義檢測(cè)技術(shù)

現(xiàn)有的檢測(cè)系統(tǒng)只能粗略檢測(cè)大段的文字復(fù)制，無法對(duì)篡改、偽造進(jìn)行檢測(cè)，并不能根據(jù)語義、語境、同義詞、近義詞等進(jìn)行檢測(cè)。中文博大精深，如果作者刻意對(duì)語言文字進(jìn)行修飾、篡改，現(xiàn)有檢測(cè)系統(tǒng)是不能及時(shí)發(fā)現(xiàn)的。自然語言處理(Natural Language Processing，NLP)是利用計(jì)算機(jī)對(duì)人類自然語言信息進(jìn)行處理和加工，最終實(shí)現(xiàn)人機(jī)對(duì)話的理論和方法[11]。目前，NLP與 ANN技術(shù)被應(yīng)用于學(xué)術(shù)不端檢測(cè)，大幅提高了編輯的效率[12]。無論字還是詞組，在形式上都可從發(fā)散或收斂、分或合，來產(chǎn)生或排除相應(yīng)的形式歧義，形成涉及形式語義的判定。另外，由于年代、方言和人際的種種復(fù)雜因素，其交叉重疊的內(nèi)容與形式之間增加了無數(shù)歧義，很多文章難以判斷，而 AI可以很好地解決這一難題。

此外，另一個(gè)檢測(cè)難點(diǎn)為外文翻譯，某些作者提交的文章是直接翻譯外文文獻(xiàn)后拼湊而成，目前各大檢測(cè)系統(tǒng)尚無法識(shí)別這種類型的文章。但是隨著 AI的發(fā)展，AI翻譯也逐漸變得簡(jiǎn)單、便捷。AI翻譯是指通過計(jì)算機(jī)等芯片軟件，基于規(guī)則的機(jī)器翻譯，根據(jù)統(tǒng)計(jì)規(guī)律來進(jìn)行翻譯，這是通過詞典和規(guī)則庫來構(gòu)成知識(shí)源，以一定的規(guī)則為基礎(chǔ)來進(jìn)行的翻譯。隨著AI的發(fā)展，基于 ANN的機(jī)器翻譯誕生，通過深度神經(jīng)網(wǎng)絡(luò)，自動(dòng)地在數(shù)據(jù)庫中學(xué)習(xí)翻譯知識(shí)，通過理解源句子，經(jīng)過復(fù)雜的推導(dǎo)運(yùn)算和學(xué)習(xí)計(jì)算，生成流暢且符合規(guī)范的譯文。這種基于ANN的機(jī)器翻譯實(shí)現(xiàn)了學(xué)習(xí)功能，從各個(gè)方面使人工智能翻譯取得質(zhì)的飛躍[13]。而文獻(xiàn)檢測(cè)系統(tǒng)可以利用這一技術(shù)，檢測(cè)中文文章與外文文獻(xiàn)的相似性，進(jìn)一步杜絕不勞而獲的現(xiàn)象。

總之，學(xué)術(shù)期刊作為把控學(xué)術(shù)論文真實(shí)性的重要環(huán)節(jié)之一，深刻影響了國內(nèi)學(xué)術(shù)環(huán)境的學(xué)術(shù)誠信。科研人員及科研單位作為源頭，更應(yīng)充分了解國內(nèi)學(xué)術(shù)誠信現(xiàn)狀和學(xué)術(shù)態(tài)度的影響因素，加強(qiáng)學(xué)術(shù)誠信建設(shè)，以提高論文的質(zhì)量和可靠性，提高我國學(xué)術(shù)誠信和國際影響力。在當(dāng)今人工智能迅速發(fā)展的時(shí)代，“互聯(lián)網(wǎng)＋”、AI、數(shù)據(jù)挖掘等已經(jīng)為我們的生活帶來了許多便利，積極擁抱人工智能帶來的變革，探索利用人工智能促進(jìn)學(xué)術(shù)誠信建設(shè)的新方法，將會(huì)為學(xué)術(shù)期刊發(fā)展帶來新的動(dòng)力。