邢明鋼 屈軍 邢泉 李娟*
(1.新疆師范大學(xué)圖書館 新疆維吾爾自治區(qū)烏魯木齊市 830054)
(2.新疆師范大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院 新疆維吾爾自治區(qū)烏魯木齊市 830054)
近年來,伴隨我國高等教育的普及,畢業(yè)大學(xué)生人數(shù)逐年呈增長趨勢,2019-2021 年分別為834 萬人、874 萬人、909 萬人。教育部統(tǒng)計數(shù)據(jù)顯示,2022 屆高校畢業(yè)生規(guī)模預(yù)計將達(dá)1076 萬人,同比增加167 萬,規(guī)模和增量均創(chuàng)歷史新高。為確保高等教育質(zhì)量,越來越多的高校和大學(xué)生對畢業(yè)前撰寫畢業(yè)論文(設(shè)計)予以高度重視,教育部也于2020 年12 月印發(fā)《本科畢業(yè)論文(設(shè)計)抽檢辦法(試行)》的通知(教督〔2020〕5 號),加強(qiáng)對大學(xué)生畢業(yè)論文的質(zhì)量監(jiān)督。高等教育質(zhì)量建設(shè)的需要,客觀上推高了對大學(xué)生畢業(yè)論文相似性檢測(查重)需求。當(dāng)前,大學(xué)生畢業(yè)論文相似性檢測中存在以下突出問題:
(1)論文檢測需求大;
(2)具備檢測資質(zhì)的機(jī)構(gòu)有限;
(3)檢測時間相對集中在每年3 月、4 月兩個月;
(4)檢測業(yè)務(wù)的程序性、環(huán)節(jié)性要求比較嚴(yán)格;
(5)缺少檢測自動化手段。
大學(xué)生畢業(yè)論文相似性檢測屬于論文發(fā)表前查重檢測,一般由具有檢測資質(zhì)的高等院校圖書館或科研院所開展相關(guān)檢測。國內(nèi)主流的論文相似性檢測系統(tǒng)有中國知網(wǎng)、萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫三大系統(tǒng),三者都有總復(fù)制比指標(biāo),知網(wǎng)采用多階自適應(yīng)指紋分析技術(shù)、語義理解技術(shù),萬方采用了自主研發(fā)的“基于滑動窗口的低頻特征部分匹配算法”,維普采用自主研發(fā)的業(yè)界領(lǐng)先的“F&V”算法,集合了VSM + 、語義指紋、自動分類三種方式的計算模型。三者均可勝任對本科生、研究生的畢業(yè)論文進(jìn)行相似性檢測。
分析對比三大檢測系統(tǒng)指標(biāo)體系、檢測技術(shù)、系統(tǒng)功能、檢測結(jié)果以及對于用戶的經(jīng)濟(jì)性等因素,本研究探討在維普期刊相似性檢測系統(tǒng)環(huán)境下,構(gòu)建大學(xué)生畢業(yè)論文相似性檢測自動化系統(tǒng),解決實(shí)踐中存在的突出問題。
對于以自動化方式對大學(xué)生畢業(yè)論文進(jìn)行相似性檢測的研究情況,在中國知網(wǎng)(CNKI)以“論文查重”為關(guān)鍵詞進(jìn)行主題檢索,共檢出文獻(xiàn)78 篇,以“論文相似性檢測”為關(guān)鍵詞檢出文獻(xiàn)26 篇,共計104 篇。如圖1 所示,目前的研究中對“相似性檢測”、 “查重”采用的技術(shù)進(jìn)行探討的41 篇,占比39.42%;對“相似性檢測”、 “查重”的方法和結(jié)果進(jìn)行評價的58 篇,占比55.77%;對查重業(yè)務(wù)工作的開展進(jìn)行探討的5 篇,占比4.81%。
圖1: 論文查重研究文獻(xiàn)分布
從數(shù)據(jù)可以分析得出,對論文相似性檢測的研究起步較晚,全庫僅收錄不到220 篇,研究對象大部分集中在論文相似性檢測的技術(shù)或結(jié)果,對論文相似性檢測業(yè)務(wù)進(jìn)行探討的不到5%。對于怎樣通過對信息化技術(shù)的整合和運(yùn)用,開發(fā)出業(yè)務(wù)工作的自動化程序,從根本上提高檢測機(jī)構(gòu)論文相似性檢測效率進(jìn)行專門研究的,還沒有發(fā)現(xiàn)。本研究將為解決大學(xué)生畢業(yè)論文相似性檢測供需矛盾提供解決方案,并具有填補(bǔ)論文相似性檢測業(yè)務(wù)領(lǐng)域相關(guān)研究空白的作用。
本研究還具重要現(xiàn)實(shí)意義:
(1)極大地提高大學(xué)生畢業(yè)論文相似性檢測工作效率,節(jié)約檢測機(jī)構(gòu)人力資源;
(2)縮短廣大畢業(yè)生論文相似性檢測的等待時間,為社會降低時間成本;
(3)助力大學(xué)生和檢測機(jī)構(gòu)全面有效落實(shí)國家有關(guān)論文相似性檢測的規(guī)定要求,引導(dǎo)大學(xué)生提高科研水平,防范學(xué)術(shù)不端。
大學(xué)生畢業(yè)論文的相似性檢測主要可分為待檢測論文的收集、論文上傳至指定的檢測系統(tǒng)、檢測報告的返回三個步驟。這三個步驟在操作平臺、數(shù)據(jù)管理上相互依賴、相互依存,但又具有不一致性、操作關(guān)聯(lián)性低的特點(diǎn)。本系統(tǒng)在功能上,要做到將論文收集、相似性檢測、檢測報告回送在操作上的自動、連續(xù),在數(shù)據(jù)上的統(tǒng)一。
因此,在自動化系統(tǒng)的設(shè)計上主要表現(xiàn)為郵件收發(fā)(任務(wù)接收、結(jié)果返回)、論文相似性檢測兩個子系統(tǒng)。系統(tǒng)需要建立數(shù)據(jù)庫,為檢測任務(wù)的分發(fā)、提交、結(jié)果發(fā)送奠定基礎(chǔ),實(shí)現(xiàn)兩個子系統(tǒng)的數(shù)據(jù)耦合、解耦。整個系統(tǒng)建立前端,便于在一個集成統(tǒng)一的界面中運(yùn)行自動化流程。
根據(jù)維普期刊系統(tǒng)的特點(diǎn),大學(xué)生(本科生)版、研究生(碩士生、博士生)版只需要分別登陸子帳戶(改變接口),各版的界面、模塊、功能全部相同,本研究主要以大學(xué)生版為例,不再贅述其它版本。
自動化系統(tǒng)服務(wù)于檢測機(jī)構(gòu)和大學(xué)生兩方,可重構(gòu)現(xiàn)行大學(xué)生畢業(yè)論文相似性檢測的各環(huán)節(jié),建立形成圖2 所示的大學(xué)生畢業(yè)論文相似性檢測流程,導(dǎo)入到自動化處理進(jìn)程中。
圖2: 大學(xué)生畢業(yè)論文相似性檢測自動化流程
本系統(tǒng)整體采用前后端分離的B/S 架構(gòu)。
3.1.1 收集和檢測模塊設(shè)計
收集和檢測模塊是前后端呈現(xiàn),前端采用Vue 框架,以element-ui 作為主要的組件庫進(jìn)行組件式的Web;模塊的后端以spring boot 框架為基礎(chǔ)的,以MVC 范式為設(shè)計模式范式開發(fā),整體架構(gòu)如圖3 所示。
圖3: 系統(tǒng)整體架構(gòu)
3.1.2 系統(tǒng)研發(fā)相關(guān)程序的選擇
(1)JavaScript 編程語言。JavaScript(JS)是運(yùn)行在瀏覽器上的即時編譯型編程語言,為本系統(tǒng)設(shè)計的面向用戶的網(wǎng)頁界面添加各種動態(tài)功能。
(2)Spring boot 技術(shù)框架。Spring boot 整合多種持久化技術(shù)管理數(shù)據(jù)訪問,提供優(yōu)秀的Web 框架方便開發(fā);通過使用SpringAOP 技術(shù)實(shí)現(xiàn)事務(wù)管理、遠(yuǎn)程訪問等功能;Spring 的數(shù)據(jù)訪問框架解決了本系統(tǒng)研發(fā)中應(yīng)用程序使用數(shù)據(jù)庫時可能遇到的困難,為數(shù)據(jù)訪問提供了靈活的抽象。
(3)Vue 框架。在構(gòu)建本系統(tǒng)操作界面的漸進(jìn)式框架中,Vue 能夠為復(fù)雜的單頁應(yīng)用提供驅(qū)動,具備易用性、靈活性(簡單小巧的核心、漸進(jìn)式技術(shù)棧,可以應(yīng)對人數(shù)眾多的大學(xué)畢業(yè)生群體乃至更大規(guī)模的應(yīng)用)、性能強(qiáng)大(20kb min+gzip 運(yùn)行大小、快速虛擬 DOM、高效率優(yōu)化)的特點(diǎn)。
(4)JeecgBoot 開源平臺。JeecgBoot 的代碼生成器能讓前后端代碼一鍵生成,快速提高效率,節(jié)省本系統(tǒng)研發(fā)的時間成本,同時又不失靈活性。
在面向大學(xué)畢業(yè)生等群體性服務(wù)對象時,論文檢測機(jī)構(gòu)收發(fā)論文材料多采用設(shè)置新浪、QQ、網(wǎng)易等郵箱系統(tǒng)作為工作郵箱,也有部分機(jī)構(gòu)會使用自研的郵箱系統(tǒng)。本研究中使用javax.mail 將機(jī)構(gòu)用戶現(xiàn)有的郵件賬戶作為發(fā)送郵件的工具,實(shí)現(xiàn)自動發(fā)送郵件機(jī)制。
本研究依賴mybatis-plus(ORM 框架)以對象的方法操作數(shù)據(jù)庫,來實(shí)現(xiàn)結(jié)果集與對象的自動映射。
3.3.1 數(shù)據(jù)庫模型的建立
從需求出發(fā),可從論文相似性檢測業(yè)務(wù)中分離出所需要的數(shù)據(jù),如郵件主題、附件名、附件、論文名稱等數(shù)據(jù),建立數(shù)據(jù)庫。進(jìn)一步明確這些數(shù)據(jù)的宏觀行為,如郵件主題數(shù)據(jù)可用于判斷該郵件是不是論文查重請求的郵件;通過類似宏觀行為來確定其行為所屬的對象范圍。當(dāng)所有對象確定后,聯(lián)系各個對象之間的關(guān)系,例如將郵箱用戶與本自動化系統(tǒng)用戶進(jìn)行綁定。而后根據(jù)必要性選擇細(xì)化行為,如判斷郵件主題的行為可以細(xì)化為判斷首次上傳和判斷更新上傳兩種細(xì)化行為。繼而確定業(yè)務(wù)規(guī)則,例如一個合法的請求查重郵件的文檔附件只能有一個待回送的檢測報告。通過數(shù)據(jù)庫設(shè)計即可得出數(shù)據(jù)庫模型。
3.3.2 mysql 和redis 數(shù)據(jù)庫
mysql 是關(guān)系型數(shù)據(jù)庫,雖讀取速度較慢,系統(tǒng)主要運(yùn)用其存放持久化數(shù)據(jù)的功能,將數(shù)據(jù)存儲在硬盤中。redis是非關(guān)系型數(shù)據(jù)庫,屬于緩存數(shù)據(jù)庫,雖保存時間有限,系統(tǒng)運(yùn)用其將數(shù)據(jù)存儲在緩存中帶來的讀取速度快的優(yōu)點(diǎn),能夠大大提高運(yùn)行效率。
4.1.1 接收符合條件的待查重論文
郵件模塊基于JavaMail 處理電子郵件,自動判別論文查重請求郵件的相關(guān)格式,建立數(shù)據(jù)庫。將符合格式的郵件信息導(dǎo)入到數(shù)據(jù)庫中,將郵件附件中的論文收納到系統(tǒng),進(jìn)入查重隊例。接收待查重論文操作可細(xì)化分為首次收集和更新收集兩種類型。
郵件過濾時,通過郵件主題格式判斷收集類型。若主題格式不合法,則直接回執(zhí)主題異常信息。
(1)首次收集。對郵件主題自動進(jìn)行合法性檢查,郵件其他部分如附件的合法性檢查和分類亦同。在首次收集中,先判斷發(fā)件人是否已經(jīng)存在于數(shù)據(jù)庫,若存在則為聯(lián)系人所新增的附件,否則為新的聯(lián)系人郵件,插入新的郵件信息。而后存儲附件。
首次收集成功后,回執(zhí)郵件中包含各個附件的UUID 編號,學(xué)生可以通過該編號更新對應(yīng)附件。
(2)更新收集。判斷出郵件主題帶有附件UUID 唯一標(biāo)示且郵件用戶已存在于郵件數(shù)據(jù)庫中,此時郵件所帶的附件將會自動更新對應(yīng)UUID 的附件,但是更新郵件中附件包含一個文件,若包含多個則默認(rèn)使用系統(tǒng)讀取文件列表的第一個。
4.1.2 自動回復(fù)異常信息
大學(xué)生發(fā)送到指定郵箱的論文郵件若發(fā)生主題格式錯誤、文檔文件格式命名錯誤,附件更新錯誤等異常,則向發(fā)件人返回包含異常提示的回執(zhí)郵件,便于用戶修改錯誤后再次發(fā)起郵件傳送,亦實(shí)現(xiàn)屏蔽錯誤提交查重論文的功能。
論文收集自動化實(shí)現(xiàn)過程如圖4 所示。
圖4: 論文收集自動化
郵件處理系統(tǒng)實(shí)現(xiàn)了四項功能:一是實(shí)現(xiàn)了郵件收發(fā)操作的自動化;二是在使用上避免了信息收集和信息處理之間的不統(tǒng)一,為管理人員簡化了在郵件中收集信息—移送信息到數(shù)據(jù)庫—傳導(dǎo)信息到查重環(huán)節(jié)的流程;三是對數(shù)據(jù)進(jìn)行了甄別和集中,將論文這一最初的文件信息模型擴(kuò)展為 “發(fā)送者——附件——報告”這一層次模型,以對應(yīng)對論文的管理。四是將論文管理擴(kuò)展為聯(lián)系人管理,再回溯到聯(lián)系人下的論文管理,使得管理人員清晰可見聯(lián)系人信息及論文歸屬信息。
4.2.1 以模擬點(diǎn)擊方式將論文上傳至維普檢測系統(tǒng)
通過提前預(yù)定所需要進(jìn)行的項目的像素點(diǎn)來安排系列點(diǎn)擊,來完成既定的任務(wù)。在瀏覽器操作上,使用Selenium進(jìn)行模擬點(diǎn)擊。在對文件以及Window 系統(tǒng)的窗口操作上,通過調(diào)用操作系統(tǒng)給定的應(yīng)用編程接口(API)來實(shí)現(xiàn)對Windows 的自動化操作。核心代碼如圖5 所示。
圖5: 論文上傳檢測核心代碼
如以分析數(shù)據(jù)表來進(jìn)行自動化上傳,則分析數(shù)據(jù)包分析周期長,特別是其僅對當(dāng)前版本的瀏覽器有用,在后續(xù)對應(yīng)網(wǎng)站進(jìn)行技術(shù)迭代的時候?qū)⑼耆プ饔?;本系統(tǒng)采用的模擬點(diǎn)擊方式兼容性好,針對無法用selenium 驅(qū)動瀏覽器來進(jìn)行點(diǎn)擊的元素節(jié)點(diǎn)以Windows 系統(tǒng)API 來實(shí)現(xiàn)的方式予以解決,后續(xù)維護(hù)成本低,且通俗易懂方便掌握。
4.2.2 自動回送包含查重結(jié)果的檢測報告
(1)從維普檢測系統(tǒng)得到的檢測報告是壓縮格式的文件。將壓縮件從暫存文件夾讀出,解壓到臨時文件夾,遍歷其中的普通文件,并存儲。
(2)當(dāng)存放論文檢測報告的臨時文件夾出現(xiàn)新文件時,表明增加了新的檢測報告。系統(tǒng)將對檢測報告的文件名和附件的UUID 做匹配,確定報告對應(yīng)的論文附件。自動將報告發(fā)送給該附件所屬的郵件發(fā)送者。
(3)一個完整的相似性檢測流程完成后,系統(tǒng)還將讀取數(shù)據(jù)庫中的信息,在符合可覆蓋的要求下,自動覆蓋同一請求郵箱下的原同名附件,方便管理的同時,確保了論文與其相似性檢測報告的一致性。
本研究以當(dāng)前大學(xué)生畢業(yè)論文相似性檢測現(xiàn)狀中,存在的論文查重需求大、時間集中、缺乏自動化手段帶來的突出供需矛盾為問題驅(qū)動,以極大提高大學(xué)生畢業(yè)論文相似性檢測效率、降低社會成本、引導(dǎo)大學(xué)生提高科研水平、防范學(xué)術(shù)不端為導(dǎo)向,探討了大學(xué)生畢業(yè)論文相似性檢測自動化系統(tǒng)的研發(fā)。經(jīng)將大學(xué)生畢業(yè)論文相似性檢測分解為論文的收集、上傳和檢測、報告自動返回三個步驟,在技術(shù)研發(fā)上規(guī)劃為郵件收發(fā)、查重檢測兩個子系統(tǒng),通過建立的數(shù)據(jù)庫實(shí)現(xiàn)數(shù)據(jù)的耦合、解耦,實(shí)現(xiàn)了在一個集成統(tǒng)一的界面中論文相似性檢測的自動化。為便利運(yùn)維,系統(tǒng)預(yù)留了輔助腳本,提高了系統(tǒng)的開放性和可擴(kuò)展性。