曹樹金 趙 浜
(中山大學(xué)信息管理學(xué)院,廣東 廣州 510006)
科研創(chuàng)新是每一位學(xué)者應(yīng)有的不懈追求,然而科研創(chuàng)新并非易事,需要在科研工作中不斷地求索與開拓。學(xué)術(shù)論文是學(xué)者們科研工作的綜合呈現(xiàn),每一篇都凝結(jié)著前人的智慧、當(dāng)下的成果,以及對后人的啟發(fā)。每一次真正的科研探索都會由特定基點出發(fā),有新的發(fā)現(xiàn)、尚存的問題,以及對進(jìn)一步研究的思考乃至推演,從而引出下一步的基點,而這些通常會被論文所承載。論文間就存在著這樣一種潛在關(guān)聯(lián),發(fā)掘此種關(guān)聯(lián)可為學(xué)者提供開展科研創(chuàng)新、創(chuàng)作學(xué)術(shù)論文梳理可以遵從的成果基礎(chǔ),需要注意的探索阻礙以及值得努力的創(chuàng)新方向。
學(xué)術(shù)論文通常在篇章結(jié)構(gòu)上存在結(jié)論與展望部分,這里會總結(jié)研究發(fā)現(xiàn)與結(jié)論、研究不足與局限以及未來可開展的研究方向與思路等,謂之“啟后”;而論文的摘要部分通常也包含研究目的與意義,是學(xué)者們經(jīng)過提煉前人研究后針對不足與局限,或是當(dāng)前研究空白所進(jìn)行更深入探索的契機,謂之“承前”。每篇論文都可能有其“承前”或“啟后”的1篇或多篇論文,而它們之間就可能存在一種“承前啟后”的關(guān)聯(lián)鏈條,甚至是關(guān)聯(lián)網(wǎng)絡(luò)。
然而發(fā)掘此間關(guān)聯(lián)并非易事,特別是當(dāng)前面對學(xué)術(shù)論文資源爆炸性增長的態(tài)勢,傳統(tǒng)的“文獻(xiàn)檢索+人工理解分析”方式顯然會越來越困難。一般的引文分析又因缺乏被引位置的上下文語義信息導(dǎo)致無法判斷其具體作用,且引文分析是往前追溯,無法對未來可創(chuàng)新的基點進(jìn)行有效預(yù)測。因此,本文嘗試綜合運用深度學(xué)習(xí)模型、語義相似算法等自然語言處理技術(shù)以及模糊邏輯,從語義角度構(gòu)建學(xué)術(shù)論文起承關(guān)聯(lián)智能化挖掘方案,以期有效發(fā)掘論文間“承前啟后”的關(guān)聯(lián),助力學(xué)者更快梳理領(lǐng)域內(nèi)已有研究的脈絡(luò)與傳承關(guān)系,發(fā)現(xiàn)后續(xù)研究值得創(chuàng)新的方向與視角,啟發(fā)科研工作者的創(chuàng)新靈感與思路。
論文間的關(guān)聯(lián)研究一直是圖書情報學(xué)界的重要研究內(nèi)容。目前大量工作從作者、機構(gòu)、期刊、基金項目、關(guān)鍵詞、引文等論文要素關(guān)聯(lián)角度展開;而基于論文內(nèi)容的關(guān)聯(lián),特別是論文內(nèi)容間的語義關(guān)聯(lián)的研究相對較少。但隨著自然語言處理在文本分類、語義分析、信息檢索、閱讀理解等技術(shù)上取得的長足進(jìn)步[1],相關(guān)研究也在迅速進(jìn)展。已有研究包括結(jié)合科研實體與研究內(nèi)容的科技文獻(xiàn)間語義關(guān)聯(lián)網(wǎng)絡(luò)[2],利用語義分析方法構(gòu)建學(xué)術(shù)論文創(chuàng)新內(nèi)容知識圖譜[3],從特定功能章節(jié)內(nèi)容中的引文分布結(jié)構(gòu)探討對后續(xù)文獻(xiàn)的影響[4]等,分別從不同視角對論文間的關(guān)聯(lián)開展了探索。
對于論文內(nèi)的結(jié)構(gòu)功能識別研究,秦成磊等[5]利用不同粒度的層次注意力網(wǎng)絡(luò)模型在特定領(lǐng)域中實現(xiàn)了較好的識別效果;王佳敏等[6]通過多層次融合模型實現(xiàn)了對章節(jié)標(biāo)題、章節(jié)內(nèi)容和章節(jié)段落的有效抽取。對于摘要結(jié)構(gòu)功能的識別研究,沈思等[7]利用LSTM-CRF模型較好地識別了目的、方法、結(jié)果等摘要結(jié)構(gòu);鄭夢悅等[8]通過知識元本體模型實現(xiàn)了對非結(jié)構(gòu)化摘要中上述3種摘要結(jié)構(gòu)的有效抽取。針對論文內(nèi)句子級特定類型內(nèi)容的識別研究,羅卓然等[9]基于ALBERT深度學(xué)習(xí)模型有效識別了學(xué)術(shù)論文創(chuàng)新貢獻(xiàn)句;曹樹金等[10]利用BERT深度學(xué)習(xí)模型識別學(xué)術(shù)論文創(chuàng)新句并構(gòu)建了創(chuàng)新點檢索入口。實際上,句子級特定類型內(nèi)容的識別與摘要結(jié)構(gòu)功能的識別非常類似,可以等同為同一類研究問題;而其與論文篇章結(jié)構(gòu)功能識別的不同在某些模式下可理解為長短文本的差異。
語義相似度算法在自然語言處理中是一個古老卻又一直煥發(fā)著生機與活力的話題,在經(jīng)歷了傳統(tǒng)的基于字符串匹配、基于分布統(tǒng)計、基于知識庫等經(jīng)典算法后,隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),各種基于深度學(xué)習(xí)的方法迅速發(fā)展。特別是2018年BERT模型[11]的出現(xiàn),給NLP界帶來了巨大變化,隨后在語義相似度計算任務(wù)上不斷涌現(xiàn)了諸如Sentence-BERT[12]、BERT-flow[13]、SimCSE[14]、CoSENT[15]等優(yōu)秀的算法模型。語義相似度計算從任務(wù)目標(biāo)上可劃分為短文本間的匹配、短文本與長文本間的匹配以及長文本間的匹配,目前的算法模型普遍來講在短文本間匹配的任務(wù)上效果相對較好。
在自然語言中,絕對精確是不多的,在平時說話、寫文章、下定義時,都大量地存在著模糊現(xiàn)象。為了以科學(xué)的方法將模糊的事情變得精確,美國控制論專家扎德(Zadeh L A)提出了模糊集理論,目前該理論在人工智能領(lǐng)域有著重要且廣泛的應(yīng)用。模糊計算以模糊集理論為基礎(chǔ),可以表現(xiàn)事物本身性質(zhì)的內(nèi)在不確定性,能夠模擬人腦認(rèn)識客觀世界的非精確、非線性的信息處理能力,在綜合評價[16]、知識發(fā)現(xiàn)[17]、決策支持[18]等方面都有深入的研究。
本文將充分借鑒當(dāng)前相關(guān)研究的成功經(jīng)驗,結(jié)合本研究欲為學(xué)者們開展更深層或更廣域科研創(chuàng)新提供線索與指引的目標(biāo),利用深度學(xué)習(xí)模型、語義相似度算法以及模糊邏輯在特定任務(wù)上的優(yōu)勢,嘗試構(gòu)建一套智能化的論文間“承前啟后”關(guān)聯(lián)挖掘方案。
論文中結(jié)論、不足、展望部分都會對后續(xù)研究有一定的啟發(fā)作用,但由于其功能的不同以及作者表述上的差異,有必要將三者加以區(qū)分。一般情況下,展望部分是最直接的對后續(xù)研究基點的表述。但也經(jīng)常會有因不足而引出的展望,因結(jié)論而推出的展望,這種情況下,為了語言的簡練,作者會使用諸如“針對上述不足……”“基于上述結(jié)論……”等形式,這樣在展望部分中就可能損失一定的上下文語義信息。而對于不足部分,正反兩種表達(dá)會產(chǎn)生字面信息的較大差別,比如“本文僅考慮了abc,未考慮其他因素……”與“本文未考慮諸如def因素……”,從語義匹配角度來講由此也會產(chǎn)生較大差異。對于結(jié)論部分,又通常會包含較多與其研究相關(guān)的語義信息。因此需要對3個部分綜合考量。
論文摘要中研究目的與意義部分通常包含其研究基點的描述,雖然更詳盡的研究背景介紹以及研究問題如何引入等通常出現(xiàn)在正文的引言部分,但考慮到針對這部分內(nèi)容的識別效率以及本方案的執(zhí)行效率,本研究就以論文摘要中研究目的與意義部分作為引言中所論述其研究“承前”基點的概述。那么在識別出這部分內(nèi)容后就可以將如何發(fā)掘論文間“承前啟后”關(guān)聯(lián)的問題轉(zhuǎn)化為如何有效地將論文結(jié)論、不足、展望部分內(nèi)容語義信息與之后發(fā)表的其他論文摘要中研究目的與意義部分內(nèi)容語義信息匹配并綜合考量。
因此,本研究將學(xué)術(shù)論文間“承前啟后”關(guān)聯(lián)挖掘分為4個子任務(wù):①截取論文結(jié)論與展望章節(jié)后對句子級結(jié)論、不足、展望部分的識別;②對論文摘要中研究目的與意義部分的識別;③結(jié)論、不足、展望部分分別和其他論文摘要中目的與意義部分的語義相似度計算;④論文間是否存在“承前啟后”關(guān)聯(lián)的推斷。子任務(wù)①、②可以同步進(jìn)行,隨后逐步開展子任務(wù)③與④。
本研究以情報學(xué)期刊論文文本為原始語料,通過CNKI選取《情報學(xué)報》2013—2022年4月發(fā)表的1 168篇文獻(xiàn),經(jīng)初步篩查后排除“卷首語”“編者的話”等非完整學(xué)術(shù)論文54篇后,對其余1 114篇文獻(xiàn)文本內(nèi)容進(jìn)行深入處理分析。
在進(jìn)行完初步語料數(shù)據(jù)預(yù)處理后的首要任務(wù)就是對論文相關(guān)內(nèi)容部分的分類識別。文本分類一直都是自然語言處理的基礎(chǔ)任務(wù),按照輸出類別(標(biāo)簽)不同,可分為單標(biāo)簽多分類(Multi-Class Classification)和多標(biāo)簽分類(Multi-Label Classification),而單標(biāo)簽多分類任務(wù)中又包含二分類、三分類、多分類任務(wù)。各種分類任務(wù)都已被廣泛應(yīng)用,比如廣告過濾(二分類)、情感分析(三分類:正面、負(fù)面、中性)、新聞分類(多分類或多標(biāo)簽分類)等。本研究中,對于論文摘要中研究目的與意義部分的識別可視為一個二分類任務(wù),對于結(jié)論與展望章節(jié)中結(jié)論、不足、展望部分的識別可視為一個多分類任務(wù)。BERT模型在多項文本分類任務(wù)中都有良好的效果[19],但由于二分類與多分類是不同任務(wù),且在模型層面有些許差異,本研究將分別用兩個預(yù)訓(xùn)練模型對這兩個任務(wù)進(jìn)行微調(diào)。
ALBERT[20]作為BERT的一個輕量級版本,在BERT模型的基礎(chǔ)上加入了多種改進(jìn)策略,使其在大幅減少參數(shù)量、幾乎不降低模型效果的同時,在模型訓(xùn)練和模型預(yù)測的速度上有了很大的提升。本研究將調(diào)用ALBERT預(yù)訓(xùn)練模型,用于后續(xù)的文本分類任務(wù)。
在文本語義相似度(Sentence Textual Similarity)任務(wù)上,BERT雖然有著優(yōu)異的效果,但卻有著巨大計算開銷的代價,隨后提出的Sentence-BERT[12],在保持精度的同時大幅提升了效率。
而CoSENT(Cosine Sentence)又在InferSent[21]和Sentence-BERT的基礎(chǔ)上,設(shè)計了一個可排序的、優(yōu)化cos值的新的損失函數(shù),使訓(xùn)練過程更貼近預(yù)測,在收斂速度和最終效果上普遍比InferSent和Sentence-BERT更好[15]。CoSENT已在開源世界中獲得了大多數(shù)的認(rèn)可,其綜合性能是值得肯定的。因此,本研究將采用基于CoSENT的語義相似度算法分別計算子任務(wù)①中識別出的3個部分與子任務(wù)②中識別出的部分之間的語義相似度。
前3個子任務(wù)完成后,本研究將面臨的問題是,結(jié)論、不足、展望部分與目的與意義部分的語義相似度達(dá)到多少可以謂之相似?三部分分別與目的與意義部分在何種相似情況下可以推斷論文間存在“承前啟后”的關(guān)聯(lián)?實際上這些定義和判斷是相對模糊的。而模糊邏輯可用來嘗試解決上述問題,它運用模糊集理論來研究模糊性思維、語言形式及其規(guī)律。模糊邏輯善于表達(dá)界限不清晰的定性知識與經(jīng)驗,它借助于隸屬度函數(shù)概念,區(qū)分模糊集合,處理模糊關(guān)系,模擬人腦實施規(guī)則型推理,解決常規(guī)方法難于對付的規(guī)則型模糊信息問題[22]。
模糊控制語言(Fuzzy Control Language,F(xiàn)CL)[23]是一個實現(xiàn)模糊邏輯,以國際電工委員會IEC 61131-7為標(biāo)準(zhǔn)規(guī)范的領(lǐng)域編程語言。模糊控制語言允許使用模糊邏輯定義從給定輸入到輸出的映射過程。它基于適合捕捉專家知識模糊推理方法,它的規(guī)則能以更貼近人的方式描述專家知識[24]。模糊推理過程包括以下步驟:對輸入進(jìn)行模糊化處理,對模糊規(guī)則進(jìn)行評估,對輸出進(jìn)行聚合得到最終決策,對輸出進(jìn)行解模糊處理得到一個清晰值。本研究將在子任務(wù)③完成后對所有相似度值定量分析的基礎(chǔ)上,結(jié)合專家經(jīng)驗與判斷,通過模糊控制語言制定適當(dāng)?shù)哪:瘮?shù)與模糊邏輯規(guī)則,以期較為合理地推斷論文間是否存在“承前啟后”的關(guān)聯(lián)。
獲取論文全文本的一般途徑是通過論文期刊數(shù)據(jù)庫下載PDF全文文件,但在批量處理全文本時由于PDF文件排版的不同或是格式版本號的不同會導(dǎo)致非常多的麻煩。因此,本研究選擇通過抓取CNKI期刊數(shù)據(jù)庫的論文網(wǎng)頁數(shù)據(jù)來獲得論文全文,隨后使用基于JAVA語言的HTML解析器Jsoup來解析并獲取不同網(wǎng)頁標(biāo)簽下對應(yīng)的各章節(jié)段落文本以及摘要,甚至是標(biāo)題、作者、收稿日期等。在論文網(wǎng)頁數(shù)據(jù)抓取階段發(fā)現(xiàn)本文2.1章節(jié)所提的1 114篇文獻(xiàn)中有16篇只有PDF全文鏈接,沒有論文網(wǎng)頁鏈接,所以這16篇暫不處理,排除后對剩余1 098篇文獻(xiàn)進(jìn)行后續(xù)分析處理。
為了增加整體方案效率,本研究將識別學(xué)術(shù)論文結(jié)論與展望章節(jié)的任務(wù)簡單化處理,即通過簡單的頁面解析與代碼邏輯獲取論文全文本數(shù)據(jù)中的最后一個章節(jié),以此作為對結(jié)論與展望章節(jié)的初步判斷,并直接開展下一步流程。后續(xù)實驗結(jié)果表明,這樣處理在絕大多數(shù)情況下是正確的,也有少數(shù)例外,比如截取出的論文最后一章是致謝,或者是附錄。但通過下一步句子級的結(jié)論、不足、展望的識別,基本可以將這些情況鑒別出來(即在最后一章中沒有識別出三者中的任一類型),隨后再專門處理這些例外情況。通過對1 098篇文獻(xiàn)的最后一章文本以句號、分號或者換行為結(jié)尾的簡單分句,共獲得13 166個句子,并標(biāo)記好每個句子對應(yīng)的論文編號,以及他們所在章節(jié)的次序。
首先是數(shù)據(jù)標(biāo)注,本研究隨機抽取了165篇論文進(jìn)行標(biāo)注。標(biāo)注樣本中共出現(xiàn)989個結(jié)論句,412個不足句,445個展望句以及23個其他句(包括致謝、附錄、圖表標(biāo)題等)。隨后又選擇另外兩位標(biāo)注者同時對其中的55篇再次標(biāo)注,并進(jìn)行交叉檢驗,得到Kappa一致性系數(shù)為0.7,即相對可靠的一致水平。
隨后是ALBERT模型的部署和訓(xùn)練代碼的編寫與調(diào)試。本研究選用Bert4keras作為預(yù)訓(xùn)練模型加載框架,它基于Keras開發(fā),目前支持多種預(yù)訓(xùn)練模型,并支持多種環(huán)境和后端[25],極大簡化了使用各種預(yù)訓(xùn)練模型的編碼流程。本研究的實驗環(huán)境如表1所示,后續(xù)的實驗均在此環(huán)境中完成。
表1 實驗環(huán)境及配置
對albert_base_zh_additional_36k_steps預(yù)訓(xùn)練模型進(jìn)行微調(diào),將batch_size設(shè)置為32,最大句長設(shè)置為256,epoch設(shè)置為5。最終模型達(dá)到了較好的水平,模型效果指標(biāo)如圖1所示。
圖1 模型效果指標(biāo)
但是,也可以發(fā)現(xiàn)其中展望部分的識別準(zhǔn)確率相對其他部分較差。經(jīng)過對訓(xùn)練樣本的分析發(fā)現(xiàn):①有一些論文在寫作時將不足與展望合并在一句話中表述,而在標(biāo)注時的邏輯是在發(fā)現(xiàn)有“不足”或“局限”字眼時優(yōu)先標(biāo)成“不足”,但如果論文的不足與展望中僅有合并的這一句時又會標(biāo)注成“展望”;②有些論文會將展望部分分成幾個小點分別表述,而表述的語言形式又與結(jié)論比較類似。這些可能都會造成模型在“學(xué)習(xí)”過程中的“迷惑”,從而影響最終的效果。
由于本研究的①、②子任務(wù)與后續(xù)任務(wù)是層層遞進(jìn)的關(guān)系,每一層的結(jié)果都會對下一層任務(wù)產(chǎn)生影響。在模型執(zhí)行完對所有結(jié)論、不足、展望部分的預(yù)測后,針對上文所述展望部分識別準(zhǔn)確率相對較低的分析,又做了少量的干預(yù)(主要靠代碼自動處理)。處理的內(nèi)容包括:①如果每一篇論文僅有結(jié)論與不足部分,自動將不足部分轉(zhuǎn)換成展望部分。這樣處理可以理解為如果論文作者只寫了不足,言下之意這就是未來需要進(jìn)一步探索的地方;還有一個主要原因是子任務(wù)④中的模糊邏輯的設(shè)想是優(yōu)先判斷展望部分和研究目的與意義部分間的語義相似度;②如果每一篇論文在識別出的展望部分之后(依靠數(shù)據(jù)預(yù)處理過程中記錄下的句子次序判斷),又識別出了結(jié)論部分,那么會提示進(jìn)一步人工判斷是否將后面這些結(jié)論部分轉(zhuǎn)換成展望部分。因為這種情況大多數(shù)是由于論文實際的展望部分分了幾個小點分別表述,而被模型判斷成了結(jié)論,但少數(shù)例外是個別論文先寫了對未來的展望,再總結(jié)結(jié)論。
類似地,整體沿用子任務(wù)①中的方法、模型和流程,對ALBERT模型的微調(diào)代碼進(jìn)行適當(dāng)改造后使其適用于二分類任務(wù)。隨機抽取200篇論文摘要進(jìn)行研究目的與意義部分的標(biāo)注,微調(diào)訓(xùn)練好新模型后對其余論文摘要進(jìn)行預(yù)測識別。由于篇幅限制,不過多論述這部分內(nèi)容。
將每篇論文被識別出的結(jié)論、不足、展望部分分別和其他論文摘要中目的與意義部分進(jìn)行語義相似度計算。這里計算語義相似度的過程暫不考慮論文發(fā)表時間的先后次序(時序因素可待后續(xù)分析),僅排除論文自己與自己比的情況。
模型使用通過CoSENT方法,在MacBERT-base[26]預(yù)訓(xùn)練模型的基礎(chǔ)上,利用中文STS-B(Semantic Textual Similarity Benchmark)數(shù)據(jù)集上訓(xùn)練且在中文STS-B測試集評估達(dá)到SOTA(State of the Art)的text2vec-base-chinese。而MacBERT則是吸收了ALBERT的句子順序預(yù)測(Sentence Order Prediction,SOP)這一優(yōu)化策略,彌補了BERT在MLM(Masked Language Model)預(yù)訓(xùn)練任務(wù)中會影響其微調(diào)性能的缺陷[27],并在中文語料上進(jìn)行預(yù)訓(xùn)練。因此,有理由相信使用該模型可以得到較好的語義相似度計算效果。
實際計算效果示例如圖2所示,“VS”左右兩邊分別代表先前任務(wù)識別的某篇論文的展望部分以及其他論文摘要的研究目的與意義部分,SCORE代表二者的相似度分值。
同時,在所需相似度分值全部計算完成的情況下,可以通過排序算法找到相互間相似度最高的匹配,如圖3所示,可以實現(xiàn)一個簡單的語義相似度檢索入口。由此發(fā)現(xiàn)了一個疑似的“承前啟后”關(guān)聯(lián)(由后續(xù)分析可知,0.8691對于展望部分來說是一個相對較高的相似度分值,較大概率可以推斷出“承前啟后”關(guān)聯(lián)的存在)。
圖3 語義相似度檢索示例
全部相互間的語義相似度計算完成后,共得到2 669 238個相似度分值。找到每篇論文的結(jié)論、不足、展望部分和其他論文摘要的研究目的與意義間語義相似度最高的分值,統(tǒng)計后做成分布直方圖,如圖4~圖6所示。通過每篇論文對應(yīng)部分間相似度最高值,結(jié)合實際人工判斷來為后續(xù)的模糊邏輯預(yù)測一個大致的參考空間。經(jīng)初步判斷,展望部分的相似度與是否存在“承前啟后”關(guān)聯(lián)的相關(guān)性較高;在存在“承前啟后”關(guān)聯(lián)的情況下,結(jié)論部分的相似度也普遍很高,而不足部分的相似度影響不大;以展望部分相似度最高分值的前5%為前提,再找結(jié)論部分相似度較高的,有很大概率發(fā)現(xiàn)“承前啟后”的關(guān)聯(lián)。
圖4 結(jié)論部分最高相似度分布
圖5 不足部分最高相似度分布
模糊計算并不模糊,反倒可以使模糊的事情變得精確。針對本文研究問題,首先需要確定論文結(jié)論、不足、展望3個部分分別與其他論文研究目的與意義部分相似度分值的模糊集合,以及對應(yīng)的隸屬度函數(shù)。在模糊集合中,每個元素ei對集合A均有一定的隸屬度,隸屬度的數(shù)值取決于針對模糊集合A而定義的隸屬函數(shù)μA,其中μA(ei)表示元素ei在模糊集合A中的隸屬度,μA(ei)∈[0,1],1≤i≤n。隸屬函數(shù)可描繪為不同形狀,包括三角形、梯形和高斯形等。通常情況下,確定模糊集合與其對應(yīng)隸屬度函數(shù)需要專家知識與經(jīng)驗。本文研究的語料對象為情報學(xué)學(xué)術(shù)論文,是筆者熟悉的學(xué)科,加之通過對各部分語義相似度數(shù)據(jù)的統(tǒng)計分析,并在實驗中不斷調(diào)整函數(shù)參數(shù)與驗證,可以給出一個較為合理的設(shè)定。
參考圖4~圖6對應(yīng)的各部分相似度分值的分布區(qū)間,將相似度分值分成4個模糊集合,即不相似(poor)、些許相似(median)、較相似(good)、非常相似(excellent),初步依照各項最高相似度分值的前5%、10%、20%、30%、50%等設(shè)定函數(shù)的主要節(jié)點,同時逐步調(diào)整各項節(jié)點數(shù)值,以適當(dāng)?shù)厥站o或放寬對應(yīng)區(qū)間,并加以驗證。最終形成以模糊控制語言(FCL)描述的模糊集合與隸屬度函數(shù)的定義,如圖7所示。
圖6 展望部分最高相似度分布
其中conclusion、shortage、future分別對應(yīng)結(jié)論、不足、展望部分,每個FUZZIFY-END_FUZZIFY模塊對應(yīng)了各部分的模糊集合與其隸屬度函數(shù)的定義。如圖8~圖10描繪了各部分的隸屬度函數(shù),圖中橫坐標(biāo)代表相似度分值,縱坐標(biāo)代表對應(yīng)模糊集合的隸屬度數(shù)值(Membership)。
圖10 展望部分隸屬函數(shù)圖像
圖11 “承前啟后”關(guān)聯(lián)的模糊邏輯規(guī)則
同時,基于模糊集合與其隸屬度函數(shù)的定義,結(jié)合語義相似度數(shù)據(jù)分析與多次實驗嘗試獲得的關(guān)聯(lián)驗證經(jīng)驗,設(shè)計出如下模糊邏輯規(guī)則,如圖11所示,基本邏輯是優(yōu)先判斷展望部分的相似度。用correlation代表最終是否存在“承前啟后”關(guān)聯(lián)的評價指標(biāo),依據(jù)關(guān)聯(lián)性高低分為great、fine、little,設(shè)定只有當(dāng)評價為great時可以推斷出“承前啟后”關(guān)聯(lián)的存在。模糊推理的過程相當(dāng)于去模糊化的過程,常用的方法包括加權(quán)平均判決法、最大值平均法、重心法等,選擇使用計算復(fù)雜度相對較高但也更精確的重心法(Center of Gravity)作為去模糊化算法。
設(shè)計好整套模糊邏輯后相當(dāng)于構(gòu)建了一個小型模糊推理系統(tǒng),當(dāng)前的系統(tǒng)輸入為論文“3個部分”各自對應(yīng)的語義相似度分值,而輸出結(jié)果即為“承前啟后”關(guān)聯(lián)性(correlation)的評價。
隨后編寫代碼邏輯遍歷所有論文“3個部分”各自對應(yīng)的語義相似度分值作為系統(tǒng)輸入,獲得運行結(jié)果如圖12所示,其中papername對應(yīng)結(jié)論與展望部分的論文編號,abstractid對應(yīng)摘要部分的論文編號,以便進(jìn)一步查找相關(guān)聯(lián)的論文。
最終基于上述模糊邏輯,發(fā)現(xiàn)了52例“承前啟后”的關(guān)聯(lián),經(jīng)閱讀判斷,有41例較為符合,基本能夠?qū)崿F(xiàn)論文間“承前啟后”關(guān)聯(lián)的智能化挖掘需求。語義相似度計算與模糊推理結(jié)果示例如表2所示,其中論文A[28]的展望部分與論文B[29]的目的與意義部分語義相似度相對很高,依據(jù)隸屬度函數(shù)以及模糊邏輯可以直接推斷出二者存在“承前啟后”關(guān)聯(lián)。巧合的是,A與B也存在引文關(guān)系,B在其正文研究現(xiàn)狀部分也有對A研究成果的引述,然而,本研究所探索的“承前啟后”關(guān)聯(lián)與其間引文關(guān)系并沒有必然聯(lián)系。另外,也可以看出,實際上A的展望與B的目的意義還是存在一定細(xì)節(jié)差異的,而這種細(xì)節(jié)差異的識別只能通過后續(xù)更加細(xì)粒度的識別算法加以區(qū)分。
表2 語義相似度計算與模糊推理結(jié)果示例
經(jīng)閱讀判斷后整理出較為符合的41例“承前啟后”關(guān)聯(lián),由于篇幅限制僅展示部分結(jié)果,如表3所示。對所有41例關(guān)聯(lián)進(jìn)行分析,有如下發(fā)現(xiàn):①“承前”或“啟后”的論文二者間是一種多對多的關(guān)系,即同一篇論文可能同時“承前”多篇論文,另外同一篇論文也可能同時“啟后”多篇論文;②多數(shù)關(guān)聯(lián)是兩兩關(guān)聯(lián)的二元關(guān)聯(lián),但也存在1例兩兩關(guān)聯(lián)形成的三元關(guān)聯(lián),且形成一種三角關(guān)系,即A→B,B→C,A→C,這在理論上也預(yù)示著該方案在更大數(shù)據(jù)集中發(fā)現(xiàn)四元、五元甚至更長關(guān)聯(lián)鏈條,乃至多邊關(guān)聯(lián)的可能性;③有13例關(guān)聯(lián)存在引文關(guān)系,其中有11例的引文出現(xiàn)在引言或研究現(xiàn)狀部分,而另外2例引文出現(xiàn)在研究設(shè)計與分析部分,這也一定程度上印證了本研究選擇論文摘要中研究目的與意義部分作為引言中所論述其研究“承前”基點概述的合理性;④本研究所挖掘的論文間“承前啟后”關(guān)聯(lián)與其間是否存在引文關(guān)系沒有必然聯(lián)系,但不存在引文關(guān)系的原因也是值得分析的。其中不存在引文關(guān)系的案例中有5例,是同一科研團(tuán)隊或者交叉合作團(tuán)隊在同一時期發(fā)表的系列論文,也有個別案例是因為前后兩篇論文發(fā)表時間相隔很近。其余案例的原因有待后續(xù)研究進(jìn)一步分析;⑤計算所有關(guān)聯(lián)論文的發(fā)表時間間隔,平均值僅為1.945年,中位數(shù)僅為1.625年,排除上述5例同一時期發(fā)表的情況后平均間隔2.215年,中位數(shù)1.709年,這說明存在“承前啟后”關(guān)聯(lián)的論文發(fā)表間隔非常短。這也預(yù)示著如果想在已發(fā)表論文的結(jié)論、不足、展望的基礎(chǔ)上開展科研創(chuàng)新,需要敏銳的把握并付諸迅捷有力的科研行動;⑥有個別關(guān)聯(lián)包含綜述類的文章,這在語義關(guān)聯(lián)的角度是合理的,從創(chuàng)作論文的角度也是需要“承前”參考的,且綜述類文章可以成為“承前啟后”關(guān)聯(lián)的中介。但若要從嚴(yán)格意義上排除綜述類文章的關(guān)聯(lián),未來可以考慮增加對論文標(biāo)題的識別來控制對這類文章間關(guān)聯(lián)的輸出。
表3 關(guān)聯(lián)挖掘結(jié)果示例
有部分錯誤推斷是由于配對語句中同時包含的非關(guān)鍵概念信息過多導(dǎo)致的混淆,以及論文發(fā)表時間上的前后顛倒,例如一篇相對較新的文章提出未來可以“結(jié)合語義分析……”,而語義分析又是個較為傳統(tǒng)且寬泛的話題,這種情況就可能關(guān)聯(lián)上一篇相對較早的文章,當(dāng)前數(shù)據(jù)集在這種情況下也未發(fā)現(xiàn)正例(即展望的具體內(nèi)容在早期已有研究)。
從千余篇同一期刊10年來發(fā)表論文的集合中發(fā)現(xiàn)40余例關(guān)聯(lián),這個比例不大,另外,理論上這種關(guān)聯(lián)是可能形成鏈條乃至多邊關(guān)聯(lián)來展現(xiàn)科研發(fā)展脈絡(luò)的,然而在當(dāng)前數(shù)據(jù)集中僅發(fā)現(xiàn)1例短的三元關(guān)聯(lián)鏈條,主要也是由于數(shù)據(jù)集局限在單一期刊所致,因為針對展望內(nèi)容的研究可能會在其他刊物發(fā)表。另外,即使兩篇論文間實際存在著“承前啟后”的關(guān)聯(lián),但只要前后兩篇文獻(xiàn)首尾表述中有任一方?jīng)]使用較為直接明顯的表述,都會造成無法通過語義相似度匹配。不過,在有限的集合中仍有一定的發(fā)現(xiàn),也驗證了本方案通過論文的結(jié)論、不足、展望部分與其他論文摘要的研究目的與意義部分的語義關(guān)聯(lián)與模糊邏輯來綜合推斷其間“承前啟后”關(guān)聯(lián)的有效性與可行性。
當(dāng)然,正如此前實驗流程所講述那樣,模糊集合、隸屬度函數(shù)、模糊邏輯對于模糊推理系統(tǒng)而言都是可調(diào)節(jié)的變量,如果把它當(dāng)成一個檢索系統(tǒng),知道查全率和查準(zhǔn)率不可同時滿足,因此,可以依據(jù)具體科研檢索需求,適當(dāng)放寬或收緊隸屬度函數(shù)參數(shù)以及模糊邏輯判斷條件,以達(dá)到更切合實際的效果。另外,本研究嘗試了將“3個部分”的最高相似度倒排序,并制定模糊邏輯優(yōu)先選擇各項最高相似度中最低的,也能發(fā)現(xiàn)一些潛在未被研究的方向。
同時,還可以變換思路,比如,當(dāng)前本研究的目標(biāo)是設(shè)法找到特定數(shù)據(jù)集上所有領(lǐng)域的“承前啟后”關(guān)聯(lián),但實際情況是,作為論文作者一般只關(guān)心自己聚焦的方向或問題,因此這個需求就變成了如何在特定數(shù)據(jù)集中找到自己聚焦的方向或問題上,可以“承前”并對自己有所啟發(fā)的文獻(xiàn)。這時,可以設(shè)想自己在寫摘要并擬定一句研究目的與意義,以此作為檢索式,反向查找語義相似度最高的展望、不足或結(jié)論部分(類似示例見圖3),再結(jié)合模糊邏輯,更加智能化地推薦可以參考的文獻(xiàn)。
探索論文間“承前啟后”的關(guān)聯(lián)會有很多有趣且有意義的發(fā)現(xiàn),比如論文A描述了x、y、z 3點未來可以深入研究的方向,之后在論文B與論文C中分別發(fā)現(xiàn)了與x、y之間的關(guān)聯(lián),但未發(fā)現(xiàn)與z有關(guān)聯(lián)的文獻(xiàn),那么z是否為一個值得繼續(xù)研究的方向,是否為一個不易解決的難題,甚至是否為一個偽命題,都是值得進(jìn)一步思考的。這對未來的科研創(chuàng)新有著巨大的指導(dǎo)意義。另外,如果加入時序的判斷,是否存在B或者C在A之前已經(jīng)發(fā)表的情況,即所述展望已有前人研究,是否存在z在多年后仍被展望等問題也是需要關(guān)注的。再者,如果加入作者的判斷,是否存在作者并未繼續(xù)深入研究其此前展望內(nèi)容的情況,后續(xù)研究的作者與“前文”作者存在何種關(guān)系等也值得探討。當(dāng)然,在更全量論文數(shù)據(jù)集中探索上述潛在發(fā)現(xiàn),才能發(fā)揮其更大的價值。
本研究綜合運用深度學(xué)習(xí)模型、語義相似度算法以及模糊邏輯,識別并深入挖掘論文中結(jié)論、不足、展望部分和其他論文摘要中研究目的與意義部分之間潛在的“承前啟后”關(guān)聯(lián),構(gòu)建了一套較為有效的關(guān)聯(lián)智能挖掘方案,并討論了多種可以應(yīng)用的科研創(chuàng)新場景,以及潛在可研究的問題。研究表明:①學(xué)術(shù)論文間存在語義上的“承前啟后”關(guān)聯(lián),且該關(guān)聯(lián)存在多元關(guān)聯(lián)鏈條,以及多邊關(guān)聯(lián)的可能性;②論文結(jié)論與展望部分對后續(xù)科研選題及創(chuàng)新具有啟發(fā)作用;③本文構(gòu)建的方案可以較好地發(fā)掘出論文間“承前啟后”的關(guān)聯(lián),助力學(xué)者更快梳理領(lǐng)域內(nèi)已有研究的脈絡(luò)與傳承關(guān)系,發(fā)現(xiàn)后續(xù)研究值得創(chuàng)新的方向與視角,啟發(fā)學(xué)者的創(chuàng)新靈感與思路,為學(xué)者們開展更深層或更廣域科研創(chuàng)新提供線索與指引的目標(biāo)。
本研究所構(gòu)建的方案僅僅是一套初步的探索,在如下幾個方面仍有局限:①僅選取了一種情報學(xué)刊物作為實驗探索的論文文本語料來源,數(shù)據(jù)來源較為單一,需要進(jìn)一步在更大范圍上驗證方案的有效性;②論文引言的部分內(nèi)容是更加合理完整的“承前啟后”關(guān)聯(lián)挖掘素材,目前僅使用摘要的研究目的與意義部分作為其概述可能會導(dǎo)致“漏判”情況;③句子級甚至段落級的語義相似度匹配存在非關(guān)鍵語義信息過多的潛在問題,無法把握語句重點,會造成一定程度的混淆;④該方案有一定的數(shù)據(jù)集依賴性,主要因為需要根據(jù)語料識別效果而做的人工干預(yù)以及制定模糊邏輯時的“經(jīng)驗”,雖然在不同數(shù)據(jù)集上按照類似流程行得通,但不同數(shù)據(jù)集可能無法很好地融合兼容。
未來可以進(jìn)一步開展的工作包括:①拓展論文文本語料數(shù)據(jù)集,面向更多期刊以及其他學(xué)科領(lǐng)域;②嘗試將方案拓展至論文其他部分間關(guān)聯(lián)的探索;③基于現(xiàn)有語料數(shù)據(jù),進(jìn)行更細(xì)粒度的實體與關(guān)系抽取,構(gòu)建知識圖譜,進(jìn)行更加精確、更多角度的論文間關(guān)聯(lián)性探索;④疏通完善方案中每個子任務(wù)間的數(shù)據(jù)處理與傳遞流程,設(shè)計用戶交互界面,構(gòu)建關(guān)聯(lián)檢索系統(tǒng)。