孟旭陽 白海燕
(中國科學(xué)技術(shù)信息研究所 北京 100038)
語步是語言學(xué)概念,指實現(xiàn)完整交流功能的一個修辭單位[1]。在科技論文的摘要中,作者一般會說明研究的目的、方法、結(jié)果以及結(jié)論等要素,這些要素被稱為科技論文摘要的語步。近年來,國內(nèi)外在語步自動識別領(lǐng)域的相關(guān)研究中取得了較多的研究成果。
以科技論文為例,摘要語步自動識別研究的終極目標(biāo)在于更好的對論文中主要意圖和科學(xué)知識進行揭示,使科研人員閱讀文獻摘要時能夠快速、準(zhǔn)確了解論文的主要內(nèi)容,提升閱讀效率,同時更好地支撐基于科技論文的情報分析與知識發(fā)現(xiàn)。
然而,在各大學(xué)術(shù)檢索系統(tǒng),如WOS、PubMed、Wiley、CNKI、百度學(xué)術(shù)和萬方等平臺目前都未發(fā)現(xiàn)提供語步成果的相關(guān)應(yīng)用功能服務(wù)。是學(xué)術(shù)研究成果成熟度不夠還是在工程化應(yīng)用中面臨著應(yīng)用難點?目前較為先進成熟的摘要語步識別研究成果是否能夠投入實際應(yīng)用,如何進行應(yīng)用,在加速推動知識化服務(wù)建設(shè)上具有重要的意義。
本文重點關(guān)注面向?qū)W術(shù)檢索系統(tǒng)的應(yīng)用測評和應(yīng)用策略研究,以國家科技圖書文獻中心(以下簡稱NSTL)為例,針對在NSTL實際應(yīng)用中需要考慮的應(yīng)用條件、場景、數(shù)據(jù)特點等,制定多維度的測評方案,對目前較為先進的基于BERT深度學(xué)習(xí)模型的語步識別效果進行多維度測評和結(jié)果分析,評估目前語步識別成果在實際應(yīng)用中的可行性及存在問題,并以NSTL為例,制定相應(yīng)的優(yōu)化策略和應(yīng)用方案,解決應(yīng)用問題,促進語步識別研究成果的落地應(yīng)用。
摘要語步識別已有相關(guān)研究主要分為基于規(guī)則的方法、機器學(xué)習(xí)方法和深度學(xué)習(xí)方法三大類。
基于規(guī)則的方法主要通過一些啟發(fā)式定義的函數(shù)或組合特征,基于詞頻、位置等信息構(gòu)建特征模板。Milward等[2]對醫(yī)學(xué)領(lǐng)域文獻的摘要進行了分析,提出了基于本體的科學(xué)文獻交互信息提取模型。Cross等[3]從語義組織和主題結(jié)構(gòu)兩個方面分析原生動物學(xué)領(lǐng)域的文獻摘要,探索了摘要中各語步內(nèi)容的語義特點。杜圣梅等[4]對醫(yī)學(xué)領(lǐng)域的科技文獻摘要內(nèi)容特征進行分析,使用PIBOSO模型給出了摘要中一些語步特征的抽取方法。鄭夢悅等[5]基于知識元本體理論,對各個語步功能句中的線索詞、句型和位置,建立相關(guān)規(guī)則庫,設(shè)計了非結(jié)構(gòu)化摘要語步信息的抽取算法。一般來說,基于規(guī)則的方法識別準(zhǔn)確度較高,但往往針對特定語言、特定領(lǐng)域等,具有一定的局限性,可移植性低,且規(guī)則特征模板的設(shè)計繁瑣耗時,代價較高。
基于機器學(xué)習(xí)的方法大致可以分為兩類:一類是將語步自動識別看作文本自動分類任務(wù),即對論文摘要中的句子語步功能類別進行劃分,利用文本分類算法模型實現(xiàn)語步的自動識別。另一類是把語步識別問題轉(zhuǎn)化為序列標(biāo)注問題,根據(jù)各類別在文本中出現(xiàn)的位置順序規(guī)律來識別文本片段所屬的類。Wu等[6]提出了隱馬爾可夫模型對摘要中的語步進行識別。McKnight等[7-8]構(gòu)建了支持向量機模型,對文獻摘要句子進行分類。Hirohata等[9]利用條件隨機場構(gòu)建語步識別模型,取得了良好的識別效果。機器學(xué)習(xí)的方法識別性能良好,但大多為特征工程,依賴精心設(shè)計的詞匯、語義、結(jié)構(gòu)、統(tǒng)計等特征。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的研究者將深度學(xué)習(xí)方法應(yīng)用到語步識別中。沈思等[10]提出了基于Bi-LSTM-CRF模型的全字語義摘要結(jié)構(gòu)功能自動識別方法,實現(xiàn)了字粒度上的摘要語步內(nèi)容自動識別。張智雄[11]等對不同深度學(xué)習(xí)模型的科技論文摘要語步識別效果進行了對比研究,認為深度學(xué)習(xí)方法在語步識別中具有較大的優(yōu)越性。特別是2018年10月,谷歌的Devlin等[12]發(fā)布的BERT受到了廣泛關(guān)注,一些學(xué)者基于BERT開展了語步識別工作[13]。王末等[14]結(jié)合句子文中位置改進BERT模型輸入,同時在句子表征輸出單元之上增加多層感知機分類器,實現(xiàn)了語步分類,語步識別效果較好。Gaihong Yu等[15]提出的一種基于BERT的掩藏句子模型 (masked sentence model, MSM),對文摘中的語步開展自動識別,該模型能夠充分學(xué)習(xí)摘要句子的上下文特征,提高整體識別性能,在PubMed 20k RCT 數(shù)據(jù)集上與其他基于BERT的方法進行了對比實驗,結(jié)果表明具有更好的標(biāo)注效果?;谏疃葘W(xué)習(xí)的方法避免了繁瑣的“特征工程”,能夠?qū)崿F(xiàn)精準(zhǔn)自動識別并提高語步識別的效果。
在應(yīng)用研究上,國內(nèi)外已有不少學(xué)者在學(xué)術(shù)論文論證結(jié)構(gòu)上的相關(guān)研究證明,基于論文結(jié)構(gòu)的論證知識提取對于知識組織、語義檢索、知識發(fā)現(xiàn)等有重要的應(yīng)用價值和較好的知識服務(wù)能力[16]。黃永等[17]探討了學(xué)術(shù)文本全文層面的結(jié)構(gòu)功能在學(xué)術(shù)搜索中的作用,證明了學(xué)術(shù)文本的結(jié)構(gòu)功能在學(xué)術(shù)搜索中具有應(yīng)用價值。孟旭陽等[18]分析了學(xué)術(shù)文獻摘要中目的、方法、結(jié)論等結(jié)構(gòu)功能代表的語義特征對關(guān)鍵詞抽取效果的提升有良好的作用。但是目前還沒有相關(guān)研究面向?qū)W術(shù)檢索系統(tǒng)中的知識服務(wù)對論文摘要語步識別研究成果進行應(yīng)用測評和應(yīng)用探索,也并未發(fā)現(xiàn)相關(guān)的工程化實際應(yīng)用。因此,本文將選擇較為先進語步識別模型開展面向?qū)嶋H學(xué)術(shù)檢索系統(tǒng)的應(yīng)用測評和應(yīng)用方案研究,給出面向應(yīng)用的策略和建議,以期促進語步識別研究成果在學(xué)術(shù)檢索系統(tǒng)知識服務(wù)中的落地應(yīng)用。
為了促進科技論文語步識別研究成果在實際系統(tǒng)中的應(yīng)用,以NSTL為例,深度分析和梳理面向應(yīng)用條件、應(yīng)用場景、數(shù)據(jù)特點等應(yīng)用問題,制定面向應(yīng)用的多維度測評方案,開展大樣本量的科技論文數(shù)據(jù)測評和結(jié)果分析,最終面向NSTL應(yīng)用給出具體的應(yīng)用策略和建議。本文研究設(shè)計框架如圖1所示。
圖1 研究設(shè)計框架圖
如圖1所示,本文的研究過程共包括6個部分。
a.面向NSTL的工程化集成應(yīng)用,梳理應(yīng)用問題。本文從應(yīng)用條件、應(yīng)用場景、數(shù)據(jù)特點等三個方面分析梳理投入NSTL實際應(yīng)用應(yīng)考慮的問題。具體主要包括:在應(yīng)用條件上,需要通過準(zhǔn)確率等測評指標(biāo)評估上線服務(wù)的可行性和實用性,切實保證服務(wù)質(zhì)量。在應(yīng)用場景上,應(yīng)結(jié)合不同場景的應(yīng)用方式和應(yīng)用內(nèi)容,評估語步要素數(shù)量的適宜性。在數(shù)據(jù)特點上,一方面,針對NSTL數(shù)據(jù)資源涵蓋理工農(nóng)醫(yī)四大領(lǐng)域的特點,應(yīng)評測語步識別在各領(lǐng)域?qū)W科上的通用性;另一方面,科技論文的摘要存在自有結(jié)構(gòu)化要素文摘和非結(jié)構(gòu)化文摘兩種類型,有必要面向不同文摘類型數(shù)據(jù)開展語步識別效果測評以支撐應(yīng)用策略研究。
b.制定多維度的測評方案。根據(jù)上述分析和梳理的具體應(yīng)用問題,制定有針對性的測評方案,包括準(zhǔn)確性與實用性測評、語步要素類型適宜性測評、學(xué)科領(lǐng)域通用性、不同文摘類型對比測評等多維度測評內(nèi)容,為后續(xù)的應(yīng)用策略和應(yīng)用方案提供切實參考依據(jù)。為保證測評質(zhì)量,通過自動化測評和人工測評相結(jié)合的方式,實現(xiàn)更加高效、精準(zhǔn)的測評。
c.測評數(shù)據(jù)構(gòu)建。以NSTL實際英文科技論文數(shù)據(jù)為對象,根據(jù)測評方案涉及的要點,構(gòu)建大體量的、學(xué)科領(lǐng)域涵蓋全面的、囊括多樣化文摘類型的測評數(shù)據(jù),充分支撐測評分析內(nèi)容。
d.基于BERT深度學(xué)習(xí)模型的語步識別效果測評。通過相關(guān)研究的調(diào)研和分析,本文選取Yu等[15]文章中基于BERT的掩藏句子模型 (masked sentence model, MSM)的語步自動識別方法,該模型能夠充分學(xué)習(xí)摘要句子的上下文特征,提高整體識別性能,在現(xiàn)有研究中具有一定的代表性和先進性。因此,本文選取該模型作為測評模型,開展面向應(yīng)用的語步識別效果測評。
e.測評結(jié)果分析。對測評實驗結(jié)果進行統(tǒng)計,開展不同維度以及橫向縱向的對比分析,并針對測評內(nèi)容和面向?qū)嶋H應(yīng)用的具體問題進行討論分析。
f.應(yīng)用策略及建議。根據(jù)測評結(jié)果分析,梳理存在的應(yīng)用問題和應(yīng)用難點,從NSTL的實際應(yīng)用角度出發(fā),給出具體的應(yīng)用策略和建議。
語步識別效果測評過程主要包括:測評數(shù)據(jù)構(gòu)建、結(jié)構(gòu)化摘要語步要素類型分析與語步提取、基于BERT模型的語步識別、結(jié)果測評等4個部分,如圖2所示。
如圖2所示,首先開展測評數(shù)據(jù)的構(gòu)建、語步識別模型的準(zhǔn)備;然后,對結(jié)構(gòu)化摘要數(shù)據(jù)中包含的語步要素類型進行梳理總結(jié),進而對結(jié)構(gòu)化摘要進行語步要素內(nèi)容的提取。一方面,將梳理總結(jié)的語步要素類型與語步識別模型支持的語步要素類型進行對比分析;另一方面,結(jié)構(gòu)化摘要的語步提取為每個句子添加語步要素標(biāo)簽,支撐自動化測評。其次,通過基于BERT的掩藏句子模型[15]對測評數(shù)據(jù)進行語步識別;最后,開展語步識別結(jié)果測評。在測評方法上,針對不同摘要類型數(shù)據(jù)特點采取不同的測評方法,具體包括:①對于結(jié)構(gòu)化摘要數(shù)據(jù),以原文摘結(jié)構(gòu)化要素為正確依據(jù),開展大規(guī)模的自動化測評。②對于非結(jié)構(gòu)化摘要數(shù)據(jù),因為無測評的正確依據(jù),只能依靠人工判讀,考慮人力和時間成本,開展隨機抽樣的人工判讀測評方法。
面向NSTL實際文獻數(shù)據(jù)開展測評數(shù)據(jù)的構(gòu)建,為確保測評的充分性、真實性、客觀性、準(zhǔn)確性,本文構(gòu)建較大規(guī)模的數(shù)據(jù)進行測評。
首先,從NSTL數(shù)據(jù)倉儲中抽取數(shù)據(jù),并對語種、文獻類型、發(fā)表年份、摘要長度、數(shù)據(jù)量等進行了設(shè)置,如表1所示。依據(jù)抽取條件設(shè)置開展數(shù)據(jù)抽取。
表1 數(shù)據(jù)抽取條件設(shè)置
數(shù)據(jù)抽取完成后,根據(jù)模型標(biāo)注結(jié)果的機器自動化效果評估篩選(依據(jù)語步出現(xiàn)的異常順序等條件自動過濾),經(jīng)統(tǒng)計,保留的數(shù)據(jù)量為3 089 610篇,其中,結(jié)構(gòu)化摘要論文數(shù)1 487 038篇,非結(jié)構(gòu)化摘要論文數(shù)1 602 572篇。因此,本文以保留的3 089 610篇數(shù)據(jù)作為測評數(shù)據(jù)集開展測評分析。
在具有結(jié)構(gòu)化摘要的英文科技論文中,每篇論文使用的結(jié)構(gòu)化語步要素類型在數(shù)量和表達用詞上并不統(tǒng)一。為了全面了解實際數(shù)據(jù)中語步要素類型概況,以支撐實際應(yīng)用中語步要素類型的選擇。本文對實際英文科技論文數(shù)據(jù)中的結(jié)構(gòu)化語步要素進行分析總結(jié),如表2所示。
表2 結(jié)構(gòu)化語步要素梳理
通過梳理總結(jié)了英文科技論文存在的較為常見的結(jié)構(gòu)化語步要素共18個,共計45種不同的表達用詞。如“Objective”語步要素,其他表達用詞有“Aim”、“Purpose”等,因表達含義相同,均歸為或者映射為“Objective”語步要素內(nèi)容。
本文基于結(jié)構(gòu)化要素關(guān)鍵詞及表達用詞,利用正則表達式完成結(jié)構(gòu)化摘要語步要素對應(yīng)內(nèi)容的自動提取,則每個句子有了正確的語步要素標(biāo)簽,作為判斷模型識別正確的依據(jù),支撐結(jié)構(gòu)化摘要數(shù)據(jù)的自動化測評。
然而,目前語步識別研究成果中,大多數(shù)研究成果包括本文測評模型[15]采用的語步要素均為常見且使用較多的5個語步要素:“背景”、“目的”、“方法”、“結(jié)果”、“結(jié)論”,這與實際數(shù)據(jù)中存在18種語步要素的現(xiàn)狀不相符。這就需要討論兩個問題:①面向?qū)W術(shù)研究使用的5個語步要素是否能夠滿足和支撐面向工程化應(yīng)用的實際需求;②在測評工作開展中,如何對實際數(shù)據(jù)中的18個語步要素與模型支持的5個語步要素進行合理的映射,以判斷模型識別結(jié)果正確與否,進而開展測評分析。
為初步討論問題①,對測評數(shù)據(jù)集中的結(jié)構(gòu)化摘要語步分布情況進行統(tǒng)計,如圖3所示。
圖3 測評數(shù)據(jù)集中結(jié)構(gòu)化摘要語步分布情況
如圖3所示,可看出在實際數(shù)據(jù)中當(dāng)前學(xué)術(shù)研究常使用的5個語步要素占比均較高,“背景”占比10%、“目的”占比15%、“方法”占比21%、 “結(jié)果”占比24%、“結(jié)論”占比24%,一共占比所有語步要素的94%。從一定程度上側(cè)面反映了這5個語步要素在面向應(yīng)用中具備良好的適宜性。后面小節(jié)也將從準(zhǔn)確性等其他維度進一步深度分析5個語步要素的適宜性。
為討論問題②,需要對結(jié)構(gòu)化摘要數(shù)據(jù)分為兩類分別進行討論,類別A:原始結(jié)構(gòu)化摘要中的語步要素僅包括上述5個語步要素或為這5個語步要素中的幾個;類別B:原始結(jié)構(gòu)化摘要中包括上述5個語步要素外的其他語步要素(即表2中的序號為6-18的語步要素)。對于類別A,無需進行其他處理,可直接與模型識別結(jié)果開展對照測評;對于類別B,則需要對其他語步要素與5個語步要素之間進行對照映射,如結(jié)構(gòu)化摘要中存在“局限”語步,不在語步識別模型支持的5個語步要素之內(nèi),如何判斷“局限”句子在模型中識別的正確與否,依據(jù)具體的含義,普遍認為模型將“局限”句子內(nèi)容識別為“結(jié)論”的話是可以被接受的,反之,若識別為“目的”、“方法”等其他語步則普遍認為是不可以被接受的,即認為識別錯誤。因此,本文依據(jù)語步要素的具體含義和學(xué)術(shù)研究成果使用的映射方式對照進行映射,具體對照映射關(guān)系為:將表2中序號為6、11、12、17的語步要素映射到“結(jié)論”語步,序號為7-10,13-16,18的語步要素映射到“方法”語步。依據(jù)映射后的語步,與測評模型的語步識別結(jié)果開展測評分析。
本文語步識別效果的測評,對于每篇文獻的每個語步要素,統(tǒng)計準(zhǔn)確率P(Precision)、召回率 R(Recall)、 F1值(F1-Score),如公式(1)-公式(3)所示。使用F1值指標(biāo)的算術(shù)平均值評價各語步的識別效果。同時,對每篇文獻統(tǒng)計Accuracy,如公式(4)所示。通過Accuracy指標(biāo)的算術(shù)平均值評價整體標(biāo)注的準(zhǔn)確率。
(1)
(2)
(3)
(4)
對于每個語步要素類型i來說, TP(True posit- ives)表示將實際為語步i且被預(yù)測為語步i的句子數(shù)。FP(False positives)表示將實際為其他語步類型但被預(yù)測為語步i的句子數(shù)。FN(False negatives)表示將實際為語步i但被預(yù)測為其他語步類型的句子數(shù)。
自動化測評:對結(jié)構(gòu)化摘要數(shù)據(jù),采用本文選取的基于BERT的掩藏句子模型開展語步識別。
測評一:語步識別效果的準(zhǔn)確性與實用性、當(dāng)前研究使用的5個語步要素的適宜性。結(jié)構(gòu)化摘要語步識別效果統(tǒng)計如表3所示。其中,結(jié)構(gòu)化摘要類別A、類別B的含義已在3.3節(jié)中說明。
表3 結(jié)構(gòu)化摘要語步識別效果統(tǒng)計
從表3的結(jié)果中可看出:a.整體的語步識別準(zhǔn)確率Accuracy平均值達70.88%,在NSTL的大體量科技論文數(shù)據(jù)中平均識別效果良好,準(zhǔn)確率有進一步提升的空間。b.從各語步識別的平均F1值來看,“結(jié)論”語步識別效果最好,平均F1值86.27%,其次“方法”語步識別效果較好,平均F1值83.06%,“背景”語步識別效果最差,平均F1值31.36%。由此可看出,模型在不同的語步要素識別準(zhǔn)確率上存在較大差異,普遍在“結(jié)論”“方法”語步上表現(xiàn)較好,其他語步識別效果較差,因此,模型后續(xù)可著力針對效果較差的這幾個語步優(yōu)化提升。c.在結(jié)構(gòu)化摘要論文中,結(jié)構(gòu)化摘要類別A的論文有1303763篇,占全部結(jié)構(gòu)化摘要數(shù)據(jù)的87.68%,說明僅包含當(dāng)前研究成果采用的5個語步要素內(nèi)的論文量占比較多,5個語步要素的設(shè)置具有一定的合理性,能夠涵蓋大多結(jié)構(gòu)化摘要數(shù)據(jù)。d.通過其他語步要素的合理映射,采用統(tǒng)一的5個語步要素,模型的識別效果在類別B與類別A數(shù)據(jù)上的統(tǒng)計效果基本一致,也一定程度上反映了映射方式較為合理。
測評二:語步識別在不同學(xué)科領(lǐng)域文獻數(shù)據(jù)上的適用性和通用性測評。
將測評數(shù)據(jù)按照論文的分類號:理O、工T、農(nóng)S、醫(yī)R,分別統(tǒng)計理工農(nóng)醫(yī)4個學(xué)科領(lǐng)域語步識別效果,如表4所示。
表4 理工農(nóng)醫(yī)4個學(xué)科領(lǐng)域語步識別效果統(tǒng)計
從表4的統(tǒng)計結(jié)果可看出,(1)統(tǒng)計數(shù)據(jù)中理工農(nóng)醫(yī)文獻數(shù)據(jù)量共約82萬篇。其中,醫(yī)學(xué)類的文獻占比最多,約80.56萬篇,占比為98.30%。且從Accuracy指標(biāo)來看,醫(yī)學(xué)論文的語步識別準(zhǔn)確率最高,達73.17%。通過分析發(fā)現(xiàn),本文選擇的測評模型是基于PubMed(核心主題為醫(yī)學(xué))數(shù)據(jù)集訓(xùn)練得到的,因此在醫(yī)學(xué)領(lǐng)域數(shù)據(jù)上表現(xiàn)效果最佳。(2)各學(xué)科間語步識別的效果存在一定的差異,醫(yī)學(xué)、工學(xué)文獻的語步識別平均準(zhǔn)確率較好,Accuracy值均在73%左右,理學(xué)文獻的語步識別平均準(zhǔn)確率略低,農(nóng)學(xué)文獻的語步識別平均準(zhǔn)確率最低,Accuracy僅為62.70%。(3)從語步要素角度來看,整體上 “結(jié)論”語步識別效果最好,且醫(yī)學(xué)的“結(jié)論”語步標(biāo)注效果最佳,達89.15%。其次是“方法”語步識別效果好,且醫(yī)學(xué)的“方法”語步標(biāo)注效果最佳,達83.80%?!氨尘啊闭Z步識別效果最差,平均F1值僅為34.16%。
人工測評:對非結(jié)構(gòu)化摘要數(shù)據(jù),采用隨機抽樣人工判讀方式進行效果評估。
隨機抽樣的數(shù)據(jù)對象為英文期刊科技論文,按中圖分類號對理(O)、工(T)、農(nóng)(S)、醫(yī)(R)4個學(xué)科領(lǐng)域的文獻進行了隨機抽樣,每個領(lǐng)域各10篇論文,共40篇論文,對其語步識別結(jié)果進行判讀,根據(jù)判讀結(jié)果統(tǒng)計得出準(zhǔn)確率Accuracy,結(jié)果如圖4所示。
圖4 非結(jié)構(gòu)化摘要數(shù)據(jù)語步識別人工評測結(jié)果
如圖4所示,對于隨機抽樣的非結(jié)構(gòu)化摘要樣例數(shù)據(jù),在醫(yī)學(xué)和農(nóng)學(xué)領(lǐng)域數(shù)據(jù)中語步標(biāo)注的準(zhǔn)確率近90%,準(zhǔn)確率和實用程度較好,但在理學(xué)和工學(xué)上的標(biāo)注準(zhǔn)確率較低,有優(yōu)化的空間。從40個隨機樣例的語步識別結(jié)果判讀來看,選取5個語步元素整體上具有一定的適宜性,僅有1個樣例數(shù)據(jù)不適用該5個語步元素,具體分析后發(fā)現(xiàn)該文主要闡述了主題為建筑業(yè)未來及新冠影響的研討會內(nèi)容,摘要主要論述了研討會概況和一些專家的觀點,因此不適用。
基于以上對摘要語步識別效果的測評結(jié)果與分析,對面向?qū)W術(shù)檢索系統(tǒng)知識發(fā)現(xiàn)服務(wù)應(yīng)用上的語步識別成果應(yīng)用策略提出以下3點建議:
a.語步識別模型的準(zhǔn)確率與學(xué)科領(lǐng)域的通用性有待進一步提升。在準(zhǔn)確率上,模型在方法和結(jié)論語步上識別效果較優(yōu),可著力針對效果較差的背景、目的和結(jié)果三個語步優(yōu)化提升。在學(xué)科領(lǐng)域上,當(dāng)前語步識別研究成果多是基于單一領(lǐng)域的數(shù)據(jù)集開展研究,主要專注于模型算法的優(yōu)化,提升識別準(zhǔn)確性。然而在實際系統(tǒng)中面臨的數(shù)據(jù)往往是多學(xué)科多領(lǐng)域的,在模型的準(zhǔn)確性要求上同時關(guān)注模型的通用性和可擴展性,因此建議開展支持多學(xué)科領(lǐng)域協(xié)同的建模研究,進一步優(yōu)化模型算法,增強模型成熟度和通用性,以滿足實際應(yīng)用需求。
b.可提供多層次的深度服務(wù)。學(xué)術(shù)檢索系統(tǒng)可結(jié)合數(shù)據(jù)特點,服務(wù)場景、用戶需求等,基于語步要素和語步內(nèi)容為用戶提供多層次的深度服務(wù)。服務(wù)的場景、內(nèi)容,應(yīng)用的深度、維度,功能的可操作性、便利性與實用性等都直接影響著用戶體驗。摘要語步識別研究成果在應(yīng)用中可充分考慮不同場景的數(shù)據(jù)特點和不同用戶的功能需求,以此獲取用戶青睞。如,檢索場景下可擴展基于語步要素的檢索功能,深化學(xué)術(shù)研究要素的細粒度檢索,提升知識發(fā)現(xiàn)能力;瀏覽場景下可提供基于語步要素的分面篩選功能,通過限定語步精煉檢索結(jié)果,實現(xiàn)檢索結(jié)果的快速過濾;詳情查看場景下可提供結(jié)構(gòu)化要素的可視化展示功能,輔助用戶快速掌握論文要點,提高閱讀效率;統(tǒng)計分析場景下可提供基于語步要素的統(tǒng)計分析功能,為用戶提供知識化的深度分析服務(wù)。
c.面向不同應(yīng)用場景與數(shù)據(jù)特點采取不同的應(yīng)用策略。從數(shù)據(jù)特點來看,摘要類型分為結(jié)構(gòu)化摘要和非結(jié)構(gòu)化摘要兩類,這兩類數(shù)據(jù)的應(yīng)用上可采取不同的應(yīng)用策略。如,對于結(jié)構(gòu)化摘要論文,在論文詳情查看場景下的結(jié)構(gòu)化語步要素展示功能,可采用結(jié)構(gòu)化摘要本身的語步要素進行展示,不受限于研究成果的固定語步要素,因為作者的結(jié)構(gòu)化標(biāo)識是對論文摘要內(nèi)容最準(zhǔn)確的闡述,與作者保持一致不論是對閱讀用戶還是作者本身來說都是最合適的方式;對于非結(jié)構(gòu)化摘要論文,可采用研究成果得到的常用語步要素進行展示。而在其他場景下,如基于要素的擴展檢索中,可采用固定的、常見的、用戶較關(guān)注的結(jié)構(gòu)化要素進行檢索,以滿足不同數(shù)據(jù)類型上應(yīng)用的統(tǒng)一性。
本文為探究語步識別研究成果的成熟度,加速推動該成果的落地應(yīng)用,面向NSTL實際的各種應(yīng)用問題,制定了多維度的測評方案,包括準(zhǔn)確性、實用性、語步要素類型適宜性、學(xué)科領(lǐng)域通用性等,測評內(nèi)容較為全面,測評維度廣,測評模型對象具有先進性,測評數(shù)據(jù)具有大體量和真實性,并通過自動化測評和人工測評主客觀相結(jié)合的方式開展測評和結(jié)果分析。測評結(jié)果分析發(fā)現(xiàn)模型在識別的準(zhǔn)確率和學(xué)科領(lǐng)域通用性上有待進一步優(yōu)化提升,同時給出了面向應(yīng)用的一些具體策略和建議,如多層次的深度應(yīng)用服務(wù),不同場景下可采用不同的應(yīng)用策略,希望可以為該學(xué)術(shù)研究成果的工程化應(yīng)用提供有益的參考。