黃文彬,王越千,步一,車尚錕
(1.北京大學(xué)信息管理系,北京 100871;2.清華大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100084)
學(xué)術(shù)論文是學(xué)術(shù)成果交流的主要方式,學(xué)術(shù)論文的文本挖掘也是信息管理學(xué)科重要的研究內(nèi)容。與一般文本相比,學(xué)術(shù)論文具有以下特點(diǎn):①學(xué)術(shù)論文的用詞和句法比較規(guī)范,這降低了對論文的語句進(jìn)行語法、句法分析的難度;②學(xué)術(shù)論文內(nèi)部有比較嚴(yán)密的邏輯結(jié)構(gòu),且同一學(xué)科或同一類型的論文行文內(nèi)部結(jié)構(gòu)具有較高的相似性。因此,除了使用一般文本的挖掘方法之外,合理利用上述特點(diǎn)對論文的結(jié)構(gòu)進(jìn)行解析,將給學(xué)術(shù)論文的文本挖掘帶來極大的便利。
為了提升學(xué)術(shù)論文的文本挖掘效果,已有不少研究引入了各種理論模型將論文結(jié)構(gòu)化。例如,Swales的CARS(create a research space model)體裁分析模型[1],將論文簡介部分分為三個(gè)語輪(Move)中的7個(gè)語步(Step),但使用的范圍一般僅限于論文的特定章節(jié)(如摘要、簡介等),泛化能力較弱,難以大規(guī)模應(yīng)用到學(xué)術(shù)論文的全文本分析中;黃曾陽的HNC(hierarchical network of concepts,概念層次網(wǎng)絡(luò))理論[2]從詞語、語句、句群和篇章4個(gè)層級對文章進(jìn)行解析輔助計(jì)算機(jī)進(jìn)行自然語言理解,但語義單元類型過于復(fù)雜,提高了標(biāo)注的難度;陸偉、黃永等[3-6]系列研究則對學(xué)術(shù)論文中章節(jié)的結(jié)構(gòu)功能進(jìn)行識別,由于其粒度局限在章節(jié)層面,故不能實(shí)現(xiàn)更細(xì)粒度的文本挖掘。
本文期望找到滿足以下條件的學(xué)術(shù)論文結(jié)構(gòu)功能模型,并以此為基礎(chǔ)進(jìn)行論文結(jié)構(gòu)自動(dòng)標(biāo)注的研究:①通用性強(qiáng),適用于不同學(xué)科和論文中的不同章節(jié);②模型規(guī)則不能過于復(fù)雜,且有明顯的語法、詞匯等語言學(xué)特征,方便機(jī)器識別;③粒度較細(xì),即粒度要等于或更細(xì)于句子粒度。根據(jù)上述要求,本文選擇了de Waard[7]提出的篇章子段類型的模型作為本研究使用的模型。Waard認(rèn)為,論文中所有子句可以分為事實(shí)(Fact)、假設(shè)(Hypothesis)、問題(Problem)、方法(Method)、結(jié)果(Result)、意義(Ⅰmplication)和目標(biāo)(Goal)7種類型。以Huang等[8]一篇論文的片段為例,其劃分出的子句包括:
Although parallel browsing is more prevalent than linear browsing online(Fact),little is known about how users perform this activity(Problem).We study the use of parallel browsing(Goal)through a log-based study of millions of Web users and present findings on their behavior(Method).We identify a power law distribution in browser metrics comprising“outclicks”and tab switches(Result),which signify the degree of parallel browsing(Hypothesis).
本文旨在將論文的片段切分成子句(即上段例子中每個(gè)括號前的短句子),并用機(jī)器學(xué)習(xí)的方法給每個(gè)句子標(biāo)注相應(yīng)的語義角色(即括號里的內(nèi)容)。與現(xiàn)有的學(xué)術(shù)論文子句語義類型自動(dòng)標(biāo)注研究相比,本文的主要貢獻(xiàn)在于:
(1)實(shí)現(xiàn)了論文全文本子句粒度的語義類型的標(biāo)注。相比之下,以往研究大多是標(biāo)注論文章節(jié)所屬的功能類型,或特定章節(jié)中句子的語義類型。
(2)使用了包括論文章節(jié)結(jié)構(gòu)在內(nèi)的更多的語法、詞匯、位置特征判斷子句的語義類型,提高了語義類型標(biāo)注的準(zhǔn)確度,并結(jié)合人工標(biāo)注一致性實(shí)驗(yàn),探討導(dǎo)致標(biāo)注錯(cuò)誤的主要原因。
(3)進(jìn)行了基于子句語義類型標(biāo)注結(jié)果的論文主題聚類實(shí)驗(yàn),證明了本模型的價(jià)值。
篇章修辭結(jié)構(gòu)是指文章的功能結(jié)構(gòu),其定義了文章各部分的順序和修辭功能[9]。隨著學(xué)術(shù)論文的撰寫、傳播和閱讀環(huán)境由線下向線上轉(zhuǎn)移,對學(xué)術(shù)論文的篇章修辭結(jié)構(gòu)進(jìn)行建模以便于計(jì)算機(jī)理解,已經(jīng)成為了一個(gè)研究熱點(diǎn)。目前,篇章修辭結(jié)構(gòu)模型正在由較粗的段落粒度向較細(xì)的句子甚至子句粒度演進(jìn)。本節(jié)將對句子及以下粒度的篇章結(jié)構(gòu)模型和基于這些模型的篇章結(jié)構(gòu)自動(dòng)標(biāo)注實(shí)驗(yàn)進(jìn)行回顧。
Teufel等[10]在1999年提出的論證分區(qū)模型(argumentative zoning,AZ模型)是一種較早的句子粒度修辭結(jié)構(gòu)模型。AZ模型針對語言學(xué)領(lǐng)域論文的結(jié)構(gòu)特點(diǎn),將句子分為目標(biāo)(Aim)、背景(Background)、理論基礎(chǔ)(Basis)、對比(Contrast)、已有研究(Other)、本文研究(Own)和篇章結(jié)構(gòu)(Textual)7種類型。AZ模型認(rèn)為,研究者撰寫學(xué)術(shù)論文的目的在于向同行聲明其對新發(fā)現(xiàn)知識的所有權(quán),因此,這種論文比較注重文中的新知識和已有知識之間的關(guān)系,而非對新知識本身的解析。
Mizuta等[11]參考AZ模型提出了嵌套標(biāo)記模型,突破句子粒度,進(jìn)入了更細(xì)的子句粒度。在子句粒度上,最常見的修辭結(jié)構(gòu)模型是在引言中提及的de Waard的篇章字段類型模型[7]。2008年,de Waard等[12]對篇章子段類型模型進(jìn)行改進(jìn),在保證修辭結(jié)構(gòu)完整的前提下對分類粒度進(jìn)行細(xì)化。除了引言中提及的7種子句語義類型外,改進(jìn)模型還添加了介紹(Ⅰntroduction)大類和討論(Discussion)大類。其中,介紹大類分為研究定位(Positioning)、中心問題(Central Problem)、假設(shè)(Hypothesis)與結(jié)果匯總(Summary of Results)4個(gè)小類;討論大類分為評價(jià)(Evaluation)、對比(Comparison)、啟示(Ⅰmplications)和下一步研究(Next Steps)4個(gè)小類。另外,改進(jìn)模型還對實(shí)體(專有名詞、圖標(biāo)、引文)和關(guān)系(實(shí)體間關(guān)系、實(shí)體本身和實(shí)體在文中表示的關(guān)系、同一篇文章中不同類型子句的關(guān)系、不同文章中子句的關(guān)系)進(jìn)行了定義。
科學(xué)論文篇章結(jié)構(gòu)自動(dòng)標(biāo)注是指給定一定粒度的文本片段,要求判斷其功能類型。具體到句子粒度,則要求對給定論文文本中的每個(gè)句子進(jìn)行語義類型自動(dòng)標(biāo)注。語義類型自動(dòng)標(biāo)注通常通過機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)。從使用的特征上看,常用特征有句子在文中的位置特征、語法/句法特征與詞匯特征,特別是和動(dòng)詞有關(guān)的詞匯特征;從使用機(jī)器學(xué)習(xí)模型上看,常用的模型有樸素貝葉斯(naive Bayesian model,NBM)、條件隨機(jī)場(conditional random field,CRF)、支持向量機(jī)(support vector machine,SVM)等傳統(tǒng)分類模型,深度學(xué)習(xí)的應(yīng)用相對較少;從實(shí)驗(yàn)語料上看,大多數(shù)研究只對論文的部分章節(jié)(如摘要)進(jìn)行標(biāo)注,對論文全文進(jìn)行標(biāo)注的研究較少。
Guo等[13]對篇章結(jié)構(gòu)解析及其影響進(jìn)行了一項(xiàng)較為完善的研究,其對AZ、CoreSC和摘要section headings模型(共有目標(biāo)、方法、結(jié)果和結(jié)論四種句子語義類型)3種篇章修辭結(jié)構(gòu)模型進(jìn)行研究,抽取了上個(gè)句子類型、句子位置特征、bi-gram、動(dòng)詞信息、詞性等11個(gè)特征,訓(xùn)練了樸素貝葉斯、支持向量機(jī)、條件隨機(jī)場3種模型,對15種生物醫(yī)藥領(lǐng)域期刊的1000篇文獻(xiàn)的摘要部分進(jìn)行了句子語義類型的自動(dòng)標(biāo)注。為了檢驗(yàn)篇章結(jié)構(gòu)解析的實(shí)際效果,該文還請領(lǐng)域?qū)<议喿x了未經(jīng)標(biāo)注、經(jīng)人工標(biāo)注和經(jīng)自動(dòng)標(biāo)注的3種不同篇章結(jié)構(gòu)解析方式的論文摘要,并記錄其在閱讀時(shí)回答論文相關(guān)問題的耗時(shí)和答案的一致性。實(shí)驗(yàn)結(jié)果證明,該文使用的自動(dòng)標(biāo)注模型能在基本不影響回答的正確率的情況下有效縮短耗時(shí)。
Dasigi等[14]提出了一個(gè)基于長短時(shí)記憶模型(long short-term memory,LSTM)的科學(xué)論述標(biāo)注系統(tǒng)(scientific discourse tagging,SDT)。SDT根據(jù)在PubMed語料中訓(xùn)練得到的詞嵌入模型,使用注意力(Attention)機(jī)制獲取句子的向量表示作為LSTM的輸入,按照Waard篇章子段類型模型七種子句語義類型,將PubMed中75篇文章的4497個(gè)子句進(jìn)行標(biāo)注。該文對注意力機(jī)制的可視化分析顯示,雖然沒有進(jìn)行專門的特征工程,但注意力機(jī)制仍能捕捉到句子中對語義類型產(chǎn)生關(guān)鍵影響的詞匯,如“suggest”“analyze”等動(dòng)詞。
為解決經(jīng)過標(biāo)注的訓(xùn)練數(shù)據(jù)不足對監(jiān)督學(xué)習(xí)模型效果的限制,陳果等[15]將主動(dòng)學(xué)習(xí)的方法應(yīng)用在論文摘要語句的功能識別中,利用結(jié)構(gòu)化摘要訓(xùn)練學(xué)習(xí)器,并選擇少量重要的非結(jié)構(gòu)化摘要進(jìn)行標(biāo)注,減小數(shù)據(jù)標(biāo)注的工作量的同時(shí)達(dá)到較好的訓(xùn)練效果。Kiela等[16]提出了一種無監(jiān)督的聚類方法完成篇章結(jié)構(gòu)的自動(dòng)標(biāo)注任務(wù),其以AZ模型和摘要section headings模型為分類標(biāo)準(zhǔn),使用球面Kmeans、期望最大化高斯混合模型(expectation maximization-Gaussian mixture model,EM-GMM)和 多級加權(quán)圖3種聚類模型,對15種生物醫(yī)藥領(lǐng)域期刊的1000篇文獻(xiàn)的摘要部分中的句子進(jìn)行聚類,并且試圖通過聚類結(jié)果探索新的語義類型,使結(jié)構(gòu)模型更適合特定的學(xué)科領(lǐng)域。
本文使用de Waard的篇章字段類型模型[7]進(jìn)行子句語義類型自動(dòng)標(biāo)注研究。整個(gè)實(shí)驗(yàn)流程如下:首先,對論文語料進(jìn)行預(yù)處理,人工標(biāo)注訓(xùn)練集和測試集,并訓(xùn)練得到一個(gè)子句語義自動(dòng)標(biāo)注的機(jī)器學(xué)習(xí)模型。其次,選取100篇論文進(jìn)行聚類實(shí)驗(yàn),使用自動(dòng)標(biāo)注模型對論文中每一個(gè)子句進(jìn)行語義類型標(biāo)注,通過幾種結(jié)構(gòu)化程度不同的模型,如純文本無結(jié)構(gòu)數(shù)據(jù)、LDA(latent Dirichlet allocation)模型、子句語義模型等,對這些論文進(jìn)行主題聚類,通過對比聚類結(jié)果論證子句語義自動(dòng)標(biāo)注模型在文本挖掘等應(yīng)用上的價(jià)值。
由于本文采用的子句語義類型模型是針對實(shí)證研究類論文而構(gòu)建的,因此,將實(shí)驗(yàn)語料中的論文也限制為實(shí)證研究,而不是綜述類文章或純理論文章,即論文必須具有方法部分和實(shí)驗(yàn)/系統(tǒng)構(gòu)建部分。本文選擇論文的具體規(guī)則包括:①文章是用英語撰寫的;②文章長度適中(2000~20000詞);③論文結(jié)構(gòu)符合ⅠMRD或ⅠMRC結(jié)構(gòu),即論文至少要有表示引言、方法、結(jié)果、討論(或結(jié)論)的章節(jié)。
本文選擇了“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”四個(gè)主題,使用Google Scholar分別以“web information extraction”“text information extraction”“browsing log analysis”和“user behavior analysis”為檢索詞進(jìn)行檢索,并人工選取相關(guān)性排名最靠前的30篇符合論文選擇規(guī)則的論文,將其中4篇加入訓(xùn)練集、1篇加入測試集、25篇加入后續(xù)聚類實(shí)驗(yàn)語料。因此,本文的數(shù)據(jù)集共有120篇論文,其中16篇作為訓(xùn)練集、4篇作為測試集、100篇作為后續(xù)聚類實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)的集具體統(tǒng)計(jì)信息如下:訓(xùn)練集中共有16篇論文,3658個(gè)字句,經(jīng)過人工標(biāo)注;測試集共有4篇論文,909個(gè)字句,經(jīng)過人工標(biāo)注;聚類實(shí)驗(yàn)語料共有100篇論文,27085個(gè)字句,未經(jīng)人工標(biāo)注。
數(shù)據(jù)預(yù)處理過程分為3個(gè)步驟:子句切分、標(biāo)題化歸和人工類型標(biāo)注。其中,子句切分,是指根據(jù)一定規(guī)則將論文中的句子切分為粒度更細(xì)的子句;標(biāo)題化歸,是指將論文中的章節(jié)標(biāo)題統(tǒng)一屬于為8種標(biāo)準(zhǔn)章節(jié)標(biāo)題中的一種,以作為特征輸入子句語義類型標(biāo)注模型;人工類型標(biāo)注,是指人工給每個(gè)子句打上語義類型的標(biāo)簽,以作為訓(xùn)練/測試語料。訓(xùn)練集和測試集的預(yù)料需要經(jīng)過所有3個(gè)步驟的預(yù)處理,而用作聚類實(shí)驗(yàn)的語料只經(jīng)過了子句切分和標(biāo)題劃歸2個(gè)步驟。
1)子句切分
子句是指“文本中語義完整、不中斷的區(qū)間”[17],是文本分析中常見的,并且介于句子和從句之間的分析粒度。子句切分將一個(gè)句子根據(jù)一定規(guī)則切分成一個(gè)或多個(gè)子句。和系統(tǒng)功能語言學(xué)注重語法和語義結(jié)構(gòu)完整性的切分方式不同,該切分方法更側(cè)重對子句語義類型或語義功能的描述。本文采用了一種較為簡單的啟發(fā)式的子句切分方法。切分原則如下:
(1)以逗號為切分點(diǎn),將一個(gè)有n個(gè)逗號的句子切分為n+1個(gè)候選字句。
(2)如果一個(gè)候選子句的第一個(gè)單詞是“to”“by”或“then”,或候選子句中包含多于7個(gè)單詞,那么將這個(gè)候選子句作為一個(gè)獨(dú)立的子句單獨(dú)輸出;否則,將這個(gè)候選子句和前一個(gè)候選子句合并。
(3)如果這個(gè)候選子句是一個(gè)句子中的第一個(gè)候選子句,或者這個(gè)候選子句的前一個(gè)候選子句的第一個(gè)單詞是“to”“by”或“then”,則將其和后一個(gè)候選子句合并。
以Etzioni等[18]論文中的一個(gè)句子為例,“To address the problem of accumulating large collections of facts,we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”根據(jù)上述規(guī)則就應(yīng)該被拆分為“To address the problem of accumulating large collections of fact,”和“we have constructed KNOWⅠTALL,a domain-independent system that extracts information from the Web in an automated,open-ended manner.”兩個(gè)子句。
2)標(biāo)題化歸
Yang等[19]提出章節(jié)標(biāo)題可以分為傳統(tǒng)章節(jié)標(biāo)題(“引言”“理論基礎(chǔ)”“文獻(xiàn)綜述”“方法”“結(jié)果”“討論”“結(jié)論”“教學(xué)法”和“意義”)、變異標(biāo)題(“背景”“前人研究”“當(dāng)前研究”“研究設(shè)置和主題”和“實(shí)驗(yàn)設(shè)計(jì)”等在傳統(tǒng)章節(jié)標(biāo)題基礎(chǔ)上變異而來,但具有相似功能的標(biāo)題)和內(nèi)容標(biāo)題(“第二語言學(xué)習(xí)者”“L2閱讀策略”“音韻學(xué)中心度”和“最短路徑算法”等表示章節(jié)具體內(nèi)容的標(biāo)題)。為了將宏觀結(jié)構(gòu)信息結(jié)合到機(jī)器學(xué)習(xí)模型中,本文將所有標(biāo)題都轉(zhuǎn)換為“摘要”“簡介”“綜述”“方法”“實(shí)驗(yàn)”“結(jié)果”“討論”和“結(jié)論”8個(gè)標(biāo)準(zhǔn)章節(jié)標(biāo)題中的一個(gè)。通過閱讀大量章節(jié)標(biāo)題,本文總結(jié)了8類標(biāo)準(zhǔn)章節(jié)標(biāo)題對應(yīng)的關(guān)鍵詞。對于本文數(shù)據(jù)集中每篇科學(xué)文獻(xiàn)的每個(gè)標(biāo)題,按“摘要”(Abstract,對應(yīng)關(guān)鍵詞如“abstract”)、“簡介”(Ⅰntroduction,對應(yīng)關(guān)鍵詞如“introduction”“background”)、“綜述”(Review,對應(yīng)關(guān)鍵詞如“review”“background”)、“方法”(Methodology,對應(yīng)關(guān)鍵詞如“methodology”“method”“model”等)、“實(shí)施”(Ⅰmplementation,對應(yīng)關(guān)鍵詞如“implementation”“experiment”“validation design”等)、“結(jié)果”(Result,對應(yīng)關(guān)鍵詞如“result”“analysis”“evaluation”)、討論(Discussion)和“結(jié)論”(Conclusion,對應(yīng)關(guān)鍵詞如“conclusion”“future”)的順序,依次判斷每個(gè)標(biāo)準(zhǔn)章節(jié)標(biāo)題對應(yīng)的關(guān)鍵詞是否在該標(biāo)題中出現(xiàn)。如果該標(biāo)題中出現(xiàn)了某類關(guān)鍵詞,那么將這個(gè)標(biāo)題化歸為對應(yīng)的標(biāo)準(zhǔn)章節(jié)標(biāo)題;如果標(biāo)題中不含任何關(guān)鍵詞,那么將這個(gè)標(biāo)題化歸為和上個(gè)章節(jié)相同的標(biāo)準(zhǔn)章節(jié)標(biāo)題。大多數(shù)一級標(biāo)題都是傳統(tǒng)/變異章節(jié)標(biāo)題,基本都能通過關(guān)鍵詞匹配識別出來;內(nèi)容標(biāo)題主要是二級及更低級別的標(biāo)題,即使內(nèi)容標(biāo)題不含關(guān)鍵詞,也可以通過化歸為和前一個(gè)章節(jié)相同的標(biāo)準(zhǔn)章節(jié)標(biāo)題實(shí)現(xiàn)正確化歸。
3)人工類型標(biāo)注
為方便和他人的實(shí)驗(yàn)結(jié)果進(jìn)行對比,本文使用de Waard[7]對子句語義類型的定義對訓(xùn)練集和測試集子句進(jìn)行標(biāo)注。實(shí)驗(yàn)采用的7種類型標(biāo)記為事實(shí)(F)、問題(P)、研究目標(biāo)(G)、方法(M)、結(jié)果(R)、意義(Ⅰ)和假設(shè)(H)。7種類型的具體含義分別是:
(1)事實(shí)(Fact):在領(lǐng)域內(nèi)已經(jīng)得到認(rèn)可的觀點(diǎn)。
(2)假設(shè)(Hypothesis):對一種現(xiàn)象的說明。
(3)問題(Problem):未解決的、矛盾的或不明確的問題。
(4)方法(Method):實(shí)驗(yàn)方法。
(5)結(jié)果(Result):實(shí)驗(yàn)的直接結(jié)果。
(6)意義(Ⅰmplication):根據(jù)研究目標(biāo)和已知事實(shí)對結(jié)果的解釋。
(7)目標(biāo)(Research Goal):研究目標(biāo)。
3.2.1 特征選取
本文統(tǒng)計(jì)了一系列語法、句法和詞匯特征在不同類型子句上的分布情況后,選擇以下機(jī)器學(xué)習(xí)算法特征:
(1)時(shí)態(tài)。句法實(shí)驗(yàn)和心理學(xué)實(shí)驗(yàn)表明,子句的時(shí)態(tài)與其語義類型之間存在相關(guān)性。例如,de Waard等[20]的相關(guān)性分析實(shí)驗(yàn)中已經(jīng)證明,現(xiàn)在時(shí)的子句更有可能被預(yù)測為事實(shí);過去時(shí)的子句更可能被預(yù)測為結(jié)果。這一特征的可選取值為“過去時(shí)”和“其他時(shí)態(tài)”。
(2)引用。如果一個(gè)子句引用了其他文獻(xiàn)或指向一個(gè)公式/圖表,那么通常表明該子句應(yīng)歸類為結(jié)果或事實(shí)[21]。當(dāng)一個(gè)子句沒有引用標(biāo)記時(shí),則此特征取值為“無”;如果該子句引用其他文獻(xiàn),那么此特征取值為“外部”;如果該子句指向圖或表格,那么此特征取值為“內(nèi)部”。
(3)章節(jié)名稱。本文根據(jù)內(nèi)容將論文的傳統(tǒng)章節(jié)標(biāo)題分為8類:“摘要”“簡介”“綜述”“方法”“實(shí)驗(yàn)”“結(jié)果”“討論”和“結(jié)論”。將子句所在章節(jié)的傳統(tǒng)章節(jié)標(biāo)題作為此特征的取值。
(4)情態(tài)動(dòng)詞?!癱an”“may”等情態(tài)動(dòng)詞更可能出現(xiàn)在“意義”子句中[20]。本文將子句是否包含情態(tài)動(dòng)詞作為情態(tài)動(dòng)詞特征的取值。
(5)詞表。本文使用了子段邊界(segment-segment boundaries)詞典和點(diǎn)互信息(pointwise mutual information,PMⅠ)高頻詞對兩個(gè)詞典以提取詞匯特征。子段邊界詞典是de Waard[7]統(tǒng)計(jì)得出的論文中從一種子句類型過渡到另一種子句類型時(shí)常見的標(biāo)識詞。例如,若某個(gè)子句是事實(shí)類子句,而下一個(gè)子句以“we found”為起始詞組,這就往往意味著下一個(gè)子句不再是事實(shí)類子句,而是結(jié)果類子句。若某個(gè)子句以Waard統(tǒng)計(jì)的子段邊界詞之一為起始詞(組),則將這個(gè)起始詞(組)作為一個(gè)特征。為適應(yīng)本文所用的語料,使用點(diǎn)互信息法[22]創(chuàng)建了高頻詞對詞典,若某個(gè)詞對中的兩個(gè)詞在同一個(gè)子句中出現(xiàn),則將該詞對作為這個(gè)子句的一個(gè)特征。
(6)詞性。本文使用Python nltk工具包對子句中的每個(gè)單詞的詞性進(jìn)行標(biāo)注,并將標(biāo)注結(jié)果中的POS(part-of-speech)標(biāo)簽去重后作為詞性特征。
3.2.2 機(jī)器學(xué)習(xí)模型
在撰寫科學(xué)論文時(shí),作者通常會(huì)遵循一些寫作范式,如一個(gè)篇章子段通常先陳述事實(shí)并提出有關(guān)問題,然后根據(jù)問題確定實(shí)驗(yàn)?zāi)康?、設(shè)計(jì)實(shí)驗(yàn),并根據(jù)結(jié)果做出假設(shè),即某個(gè)子句的語義類型可能和上個(gè)子句的語義類型存在關(guān)系。基于這一特性,本文選擇序列標(biāo)注模型中的條件隨機(jī)場完成子句類型標(biāo)注任務(wù)。但考慮到不同文章結(jié)構(gòu)存在差異,CRF無法從相鄰句子的概率轉(zhuǎn)移中學(xué)習(xí)到適用于所有論文的模型,因此,本文還使用隨機(jī)森林(random forest,RF)、隨機(jī)梯度下降分類器(stochastic gradient descent,SGD)、支持向量機(jī)和梯度提升分類器(gradient boosting classifier,GBC)作為補(bǔ)充分類器。這些模型是使用Python軟件包sklearn和crfsuite構(gòu)建的。利用sklearn中的RandomizedSearchCV函數(shù)對5個(gè)機(jī)器學(xué)習(xí)模型的常見參數(shù)進(jìn)行隨機(jī)搜索調(diào)優(yōu)。每個(gè)機(jī)器學(xué)習(xí)模型隨機(jī)搜索100次參數(shù),并使用訓(xùn)練集的全部語料進(jìn)行3折交叉驗(yàn)證。參數(shù)調(diào)優(yōu)結(jié)果顯示,CRF、SVM和GBC這3個(gè)模型的效果比較好,說明某個(gè)子句語義類型和其上個(gè)子句語義類型之間的關(guān)系并不像預(yù)期的那樣重要,這是因?yàn)樘崛×吮姸嗟奶卣?,其中包含了一些子句間轉(zhuǎn)移的規(guī)則詞等,在一定程度上可以彌補(bǔ)序列中相鄰子句語義類型轉(zhuǎn)移情況的作用。將這3個(gè)表現(xiàn)最好的模型進(jìn)行集成,即對使用3個(gè)模型分別給出的標(biāo)注結(jié)果進(jìn)行投票作為最終的預(yù)測結(jié)果。
最終參與集成的3個(gè)機(jī)器學(xué)習(xí)模型的部分重要參數(shù)如下:CRF使用的訓(xùn)練算法為lbfgs,不設(shè)置特征出現(xiàn)最小次數(shù)限制;SVM使用的核函數(shù)為線性(linear)核函數(shù),正則化系數(shù)C=0.167,多分類問題策略為一對多(one vs rest);GBC使用deviance loss作為損失函數(shù),基學(xué)習(xí)器個(gè)數(shù)為300,學(xué)習(xí)率為0.13,節(jié)點(diǎn)特征選擇算法為friedman_mse,節(jié)點(diǎn)特征數(shù)上限設(shè)為對數(shù)個(gè)特征(log2),最大深度為2。
3.2.3 實(shí)驗(yàn)結(jié)果
為了與前人的實(shí)驗(yàn)進(jìn)行比較,本文選擇了Burns等[21]提出的特征選取方法和CRF模型作為對比模型,在本文實(shí)驗(yàn)的訓(xùn)練和測試集論文全文上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果和集成模型的混淆矩陣如表1和表2所示。
表1 自動(dòng)標(biāo)注全文實(shí)驗(yàn)結(jié)果
表2 集成模型自動(dòng)標(biāo)注全文混淆矩陣
集成模型在標(biāo)注“目標(biāo)”類型時(shí)效果最佳,大量的“目標(biāo)”類型都以“To”開頭,因此模型可以通過子段邊界詞典中的詞匯特征判斷出目標(biāo)類型?!笆聦?shí)”和“方法”類型的標(biāo)注效果也相對較好,這是因?yàn)閿?shù)據(jù)集中這些類型子句的數(shù)量較多,所以更容易找到區(qū)分這些類型的特征。然而,此模型在對“假設(shè)”和“意義”類型進(jìn)行標(biāo)注時(shí)表現(xiàn)不佳,主要是由于這幾類子句的數(shù)量非常少,模型難以找到區(qū)分它們的特征。在區(qū)分論文全文中的子句類型時(shí),由于本文的模型結(jié)合了章節(jié)等宏觀信息,同時(shí)利用了句法和語法層面的微觀信息,因此,絕大多數(shù)類型的標(biāo)注效果都優(yōu)于對比算法。
Burns等[21]是為了通過“結(jié)果”章節(jié)實(shí)現(xiàn)對生物論文中實(shí)驗(yàn)的分類而進(jìn)行的子句語義類型標(biāo)注實(shí)驗(yàn),因此,其僅使用了論文中的“結(jié)果”章節(jié)對自動(dòng)標(biāo)注結(jié)果進(jìn)行評測。為了將本文提出的集成模型和Burns等[21]的對比模型進(jìn)行進(jìn)一步比較,從測試集中提取出每篇論文的“結(jié)果”章節(jié)進(jìn)行評測?!敖Y(jié)果”章節(jié)的實(shí)驗(yàn)結(jié)果和集成模型的混淆矩陣如表3和表4所示。
表3 自動(dòng)標(biāo)注“結(jié)果”章節(jié)實(shí)驗(yàn)結(jié)果
在結(jié)果章節(jié)中,集成模型的效果雖在大多數(shù)指標(biāo)上仍然優(yōu)于對照模型,但整體提升效果沒有在全文中明顯。這是因?yàn)閷φ漳P捅旧砭褪轻槍Α敖Y(jié)果”章節(jié)的子句標(biāo)注問題而提出的,所以在“結(jié)果”章節(jié)的準(zhǔn)確度會(huì)提高;而集成模型在不同章節(jié)的標(biāo)注準(zhǔn)確度存在波動(dòng),因此可能在某些章節(jié)上標(biāo)注準(zhǔn)確度高于全文準(zhǔn)確度,另一些章節(jié)上標(biāo)注準(zhǔn)確度低于全文準(zhǔn)確度的情況。
表4 集成模型自動(dòng)標(biāo)注“結(jié)果”章節(jié)混淆矩陣
分析全文自動(dòng)標(biāo)注結(jié)果和人工標(biāo)注一致性實(shí)驗(yàn)的混淆矩陣,絕大多數(shù)混淆都發(fā)生在“事實(shí)”類型和其他幾種類型之間?!笆聦?shí)”類型是七種子句類型中定義最寬泛、外延最廣的一類,“事實(shí)”類型子句數(shù)量占子句總數(shù)量的比例也最大。因此,明確對“事實(shí)”類型子句的定義,將更有助于完善該子句語義類型模型,并提升自動(dòng)標(biāo)注準(zhǔn)確率。
3.2.4 人工標(biāo)注一致性實(shí)驗(yàn)
為了對自動(dòng)標(biāo)注結(jié)果產(chǎn)生錯(cuò)誤的原因做進(jìn)一步解釋,同時(shí)探索這七種子句語義類型的定義可能產(chǎn)生的理解上的問題,本次實(shí)驗(yàn)招募了4名志愿者,對測試集中的4篇論文額外進(jìn)行了兩輪標(biāo)注。要求每名志愿者閱讀Waard對7種子句類型的定義,并提供了de Waard的論文原文[7]作為自愿閱讀的參考資料。每名志愿者在學(xué)習(xí)子句類型定義后標(biāo)注1~3篇不同的文章。志愿者均是至少獲得了信息管理與信息系統(tǒng)專業(yè)的學(xué)士學(xué)位,且具有一定的相關(guān)領(lǐng)域的英文論文閱讀經(jīng)驗(yàn),是上述4個(gè)主題論文的主要讀者群體,因此,志愿者提供的標(biāo)注結(jié)果比較可信。這2份標(biāo)注的混淆矩陣如表5所示。
表5 人工標(biāo)注混淆矩陣
2份標(biāo)注中,僅有61.39%的子句標(biāo)注結(jié)果相同。2份標(biāo)注的分歧主要在如下3個(gè)方面:
(1)介紹論文行文結(jié)構(gòu)的子句。這類子句的主要作用是方便讀者閱讀,本身含有的信息量不大。如“the[…]results are given in table 2”經(jīng)常產(chǎn)生“事實(shí)”和“結(jié)果”間的混淆;“we divide this task into 2 parts”經(jīng)常產(chǎn)生“事實(shí)”和“方法”間的混淆;“in section 3,we[…]”經(jīng)常產(chǎn)生“事實(shí)”和“目標(biāo)”之間的混淆。
(2)涉及別人實(shí)驗(yàn)方法的子句。這類混淆集中在“方法”章節(jié)中。如“following the approach used by[…]”經(jīng)常產(chǎn)生“事實(shí)”和“方法”之間的混淆。標(biāo)注“方法”志愿者認(rèn)為這句話的確描述了實(shí)驗(yàn)方法的一部分;標(biāo)注“事實(shí)”志愿者認(rèn)為別人在已發(fā)表論文中使用的方法是學(xué)界周知的事實(shí),所以符合“事實(shí)”的定義。
(3)有關(guān)實(shí)驗(yàn)結(jié)果和實(shí)驗(yàn)討論的子句。這類混淆集中在“結(jié)果”章節(jié)和“討論”章節(jié)中。例如,“we observed two major reasons for changes in[…]”經(jīng)常產(chǎn)生“結(jié)果”和“意義”之間的混淆。志愿者難以把握這類句子中的內(nèi)容多大比例是數(shù)據(jù)直接展示的,多大比例是經(jīng)過作者推理或猜測才能得出的。同時(shí),也存在因?yàn)椴恢廊绾螛?biāo)注,于是直接標(biāo)作“事實(shí)”的情況。
在機(jī)器學(xué)習(xí)分類任務(wù)中,人們常把人工分類的準(zhǔn)確率(human-level)作為機(jī)器學(xué)習(xí)方法的“天花板”,機(jī)器學(xué)習(xí)模型分類的準(zhǔn)確率往往難以突破人工分類的準(zhǔn)確率。而本實(shí)驗(yàn)中人工標(biāo)注一致性并不能完全代表人工分類的準(zhǔn)確率,其主要原因是人工標(biāo)注實(shí)驗(yàn)唯一分類標(biāo)準(zhǔn)是Waard對子句類型的定義,而這些定義在不同的具體情況下的確可以產(chǎn)生不同的理解。如果在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),對定義進(jìn)行了進(jìn)一步的明確(如在標(biāo)注訓(xùn)練集時(shí)約定好上述幾種容易產(chǎn)生分歧的子句的標(biāo)注方案),自動(dòng)標(biāo)注模型的準(zhǔn)確度完全可以超過人工標(biāo)注的一致性。
子句語義類型可以用于學(xué)術(shù)論文的信息抽取和文本挖掘相關(guān)的許多場景,下文將通過在100篇文獻(xiàn)的聚類實(shí)驗(yàn)語料上的主題聚類實(shí)驗(yàn)作為示例說明其價(jià)值。如果論文在經(jīng)過語義類型自動(dòng)標(biāo)注并抽取出特定類型的子句后構(gòu)建的特征向量,比使用全文或其他語言模型構(gòu)建的特征向量在聚類實(shí)驗(yàn)中的表現(xiàn)更好,那么說明經(jīng)過子句語義類型自動(dòng)標(biāo)注模型處理后構(gòu)建的特征向量更能反映論文的主題,即在抽取論文的內(nèi)容信息上具有一定的效果。
本文使用全文本無結(jié)構(gòu)數(shù)據(jù)、論文宏觀結(jié)構(gòu)模型中“摘要”“簡介”“結(jié)論”章節(jié)、子句語義類型模型中“事實(shí)”類型子句和全文LDA主題6種方法對論文進(jìn)行處理。主體聚類實(shí)驗(yàn)具體步驟如下:
(1)對于使用論文宏觀結(jié)構(gòu)模型子句語義類型模型的組別,分別抽取出相應(yīng)部分的內(nèi)容作為聚類語料。
(2)使用Python nltk中的分詞器進(jìn)行分詞,并使用nltk中stopwords工具刪除停用詞。
(3)使用Snowball-Stemmer①https://snowballstem.org/提取詞語的詞干。
(4)使 用TF-ⅠDF(term frequency-inverse document frequency)模型確定詞語權(quán)重。詞語頻率閾值分別為0.2和0.8,即剔除出現(xiàn)在大于80%的論文中和小于20%的論文中的詞語。
(5)使用LDA模型提取文檔的主題分布特征,或使用TF-ⅠDF向量空間模型計(jì)算文檔的距離,使用層次聚類方法對文檔進(jìn)行聚類,并對聚類結(jié)果進(jìn)行評測和解釋。
本文使用sklearn中的Agglomerative Clustering層次聚類算法對文檔進(jìn)行聚類。層次聚類算法首先將每篇文檔作為1個(gè)簇,每次合并距離最小的2個(gè)簇,直到剩余的簇?cái)?shù)小于設(shè)定的終止簇?cái)?shù)為止。與Kmeans等常用的原型聚類算法相比,層次聚類算法不需要設(shè)定任何初始狀態(tài),從而避免了因初始狀態(tài)不同,導(dǎo)致同樣的語料在多次實(shí)驗(yàn)中得到不同聚類結(jié)果的情況發(fā)生。將層次聚類算法終止簇?cái)?shù)設(shè)為4,文檔間距離度量算法使用曼哈頓距離,在合并2個(gè)簇時(shí)以2個(gè)簇中點(diǎn)間距離的最大值(即全鏈接算法)作為合并判斷的標(biāo)準(zhǔn),使得算法傾向于對2個(gè)規(guī)模較小的類進(jìn)行合并,以保證聚類結(jié)果中每個(gè)簇的大小盡量相同。
本文使用了純度、互信息和同質(zhì)性3個(gè)聚類效果評價(jià)指標(biāo)。由于“Web信息提取”“文本信息提取”“瀏覽日志分析”和“購買記錄分析”4個(gè)主題分屬“信息抽取”和“用戶分析”大類主題,同一大主題下的兩類主題存在內(nèi)容相似度較高,因此,在純度和同質(zhì)性上分別選擇了以2個(gè)大類為真實(shí)類別的2類純度、2類同質(zhì)性以及以4個(gè)小類為真實(shí)類別的4類純度、4類同質(zhì)性對聚類結(jié)果進(jìn)行評價(jià)。聚類結(jié)果的評測和分析如表6所示。
表6 主題聚類實(shí)驗(yàn)結(jié)果
表6展示了不同模型下聚類的評測結(jié)果。綜合來看,經(jīng)過子句語義類型抽取的事實(shí)類子句在聚類結(jié)果的多種評測指標(biāo)上都能得到最好或接近最好的結(jié)果,使用論文全文本和簡介章節(jié)在綜合效果上僅次于事實(shí)類子句,由于論文的全文和簡介部分中的事實(shí)類型子句占比較大,因此可以達(dá)到和事實(shí)類型子句相似地較好表現(xiàn)。
圖1展示了事實(shí)類子句層次聚類效果。其中,點(diǎn)的坐標(biāo)對應(yīng)抽取出的事實(shí)類子句形成的文檔TF-ⅠDF矩陣經(jīng)主成分分析(principal component analysis,PCA)算法降至二維后的結(jié)果;點(diǎn)的形狀表示對應(yīng)文檔實(shí)際所屬的主題;數(shù)字表示對應(yīng)文檔在聚類結(jié)果中所屬的簇。從圖1中可知,聚類算法能夠較準(zhǔn)確地區(qū)分“信息抽取”和“用戶分析”兩大類主題,但對每個(gè)大類主題內(nèi)的兩小類主題分辨能力仍有待提高。
圖1 事實(shí)類子句聚類效果展示圖
本文通過引入系統(tǒng)功能語言學(xué)中的體裁分析理論,結(jié)合自然語言處理領(lǐng)域的句法分析、語法分析和關(guān)鍵詞抽取等方法,將論文的宏觀結(jié)構(gòu)信息與子句語法特征相結(jié)合,構(gòu)建了能夠自動(dòng)標(biāo)注子句語義類型的機(jī)器學(xué)習(xí)模型。與已有自動(dòng)標(biāo)注模型的對比分析,發(fā)現(xiàn)應(yīng)用子句的章節(jié)特征,嘗試更多機(jī)器學(xué)習(xí)模型并使用集成學(xué)習(xí)可以改善子句語義類型自動(dòng)標(biāo)注的準(zhǔn)確度,且當(dāng)標(biāo)注范圍從“結(jié)果”章節(jié)等特定章節(jié)擴(kuò)展到論文全文時(shí)依舊有較好的效果。本文通過自動(dòng)標(biāo)注模型在論文主題聚類中的應(yīng)用,證明了該模型在文本挖掘方面的應(yīng)用價(jià)值。另外,本文的主要不足之處在于人工標(biāo)注困難導(dǎo)致的數(shù)據(jù)量較小。論文語義模型的多樣性和缺乏統(tǒng)一、公開、經(jīng)過標(biāo)注的數(shù)據(jù)集是包括本文的研究在內(nèi)的許多論文全文本語義模型研究的主要制約因素。
子句語義類型模型在保證不同學(xué)科論文普遍適用的前提下,實(shí)現(xiàn)了論文在子句粒度上的結(jié)構(gòu)化,可以廣泛應(yīng)用在文本挖掘任務(wù)中。本文只選取了主題聚類這一項(xiàng)應(yīng)用作為示例,其他的應(yīng)用場景還有:①在抽取式自動(dòng)摘要任務(wù)中,可以利用本模型根據(jù)摘要的組成規(guī)律,分別選取合適的事實(shí)子句、方法子句、結(jié)果子句等拼合成一篇抽取式摘要,提升摘要的信息量和結(jié)構(gòu)上的完整性;②在論文的個(gè)性化檢索任務(wù)中,可以利用本模型從論文的假設(shè)、方法、結(jié)論等方面進(jìn)行語義層面的信息檢索,為用戶提供更精準(zhǔn)的學(xué)術(shù)論文檢索和分析服務(wù)。這些對子句語義類型自動(dòng)標(biāo)注結(jié)果的應(yīng)用將是下一步研究的重點(diǎn)。