汪琦凡 魏楊燁
摘要摘要:基于全文的信息檢索技術(shù)很難準確進行主題識別,無法識別文章的重要性。利用引文上下文語義構(gòu)建一個引文網(wǎng)絡(luò)可達到提升檢索效率和效果的目的。通過分析引文上下文,將相關(guān)文獻排序,從而確定重要文獻。引文上下文包含的語詞如果與目標語詞相關(guān),那么就在兩篇文獻之間創(chuàng)建一個有向且賦予權(quán)重的邊,然后在這個由不同邊構(gòu)成的網(wǎng)絡(luò)里用相關(guān)的排序算法找出重要文獻。該排序方法可通過給定檢索語詞找出重要文獻,即便檢索出的文章中不含有既定檢索詞也同樣成立,極大增加了文獻檢索的查全率和查準率。
關(guān)鍵詞關(guān)鍵詞:引文分析;引文網(wǎng)絡(luò);文獻排序
DOIDOI:10.11907/rjdk.171127
中圖分類號:TP391
文獻標識碼:A文章編號文章編號:16727800(2017)005014603
0引言
研究人員在某個知識領(lǐng)域進行主題學習之前,需要充分掌握有關(guān)該主題的相關(guān)知識,找出該領(lǐng)域的核心文獻,引文索引是一個非常有用的導(dǎo)航檢索工具。有些引文索引系統(tǒng)提供了檢索全文的平臺,而有些引文索引可在不需要獲得全文的情況下檢索相關(guān)文獻。引文充分反映了某一篇文獻被引次數(shù)的情況,而引用次數(shù)排名靠前的文章,在一定程度上代表了這個領(lǐng)域的研究進展,可用來評估文獻的重要性。
引文索引是一個通過全盤掃描文獻的過程,是根據(jù)學科領(lǐng)域主題找到重要文章的方法。文獻文本中包含大量與主題不相關(guān)的文字,這些文字可能會在例子中,或者在反證里使用,使用全文檢索方法會有各種各樣的問題。例如用信息檢索工具檢索文章,文本中某個章節(jié)里包含“癌癥”一詞,結(jié)果所有文本中出現(xiàn)了“癌癥”的語詞都會被檢索出來,雖然這個詞與文章的主要論點不怎么相關(guān)。因此,檢索工具無法幫助我們確定哪一篇文獻是主題最相關(guān)的文獻。
引文還可以測量某一篇文獻的影響。一個以文章為節(jié)點形成引文網(wǎng)絡(luò),如果文獻i包含有文獻j的引文,就可以將文獻i與文獻j用線連接在一起,然后根據(jù)點入度(例如引用數(shù)量)來給檢索出來的文章加權(quán)排序,從而形成一個引文網(wǎng)絡(luò),該網(wǎng)絡(luò)可以通過文獻集合來確定其中最重要的文獻。
引文上下文是圍繞在參考文獻附近用來參考其它科學文獻的文本[1]。引文上下文是確認一篇文獻主要研究意義的重要方法,因為作者是通過簡明扼要的引文來參考其他人的文獻。文章越是被相同的語詞引用,就表示這篇文章在這個主題領(lǐng)域里越重要。
引文上下文通常是由特定且被定義的文字組成。絕大多數(shù)情況下,引文上下文是對被引文獻的一個高度概括。換言之,引文上下文即是表征被引文獻的關(guān)鍵語詞。引文上下文分析提供了在沒有獲取全文的情況下,也可以去推論被引文獻主要觀點的方法。
引文上下文對于文獻的撰寫十分重要,體現(xiàn)后來研究者對前人工作的借鑒與認可,為文獻與文獻之間建立了一條知識紐帶[2]。
本文根據(jù)論文主題詞找出重要文章,使用從引文上下文中提取語詞來創(chuàng)建上下文語境的引文網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)中基于Schwartz等[3]所提出的網(wǎng)絡(luò)分析方法,找到最重要的文章。
文本內(nèi)容相似性也可以提高文獻檢索的準確度和效率[4]。如果有兩個密切相關(guān)的概念C1和C2,可能一篇文章一直在談?wù)揅1而從未提及C2。如果全文檢索,C2是不會被檢索出來的。
1相關(guān)工作
1.1引文上下文
S.Bradshaw[5]提出文檔索引模型(Reference Directed Indexing,RDI),RDI模型的原理是:抽取引用句里的語詞作為檢索式,然后對文檔進行標引。該模型采用一個固定的窗口——引文上下文兩側(cè)約50~100字。然后根據(jù)引文創(chuàng)建一個索引詞表。當某些語詞頻繁出現(xiàn),RDI值就會增加。創(chuàng)建完所有的索引數(shù)據(jù)集后,對給定的查詢檢索式,RDI會首先檢查它包含查詢的所有語詞在其索引列表中的文章,然后根據(jù)RDI值進行排列。最后在檢索排名前十的文章里,檢查有多少篇是基于RDI模型返回的相關(guān)文獻,并將其與全文檢索方法對比。
文獻之間的連接關(guān)系不僅存在于科學文獻中,而且大量存在于網(wǎng)頁中。Ritchie等[6]探討了網(wǎng)絡(luò)和科學文獻之間的相似性,指出超鏈接不能完全類比引文,因為超鏈接的數(shù)量很多,論文的引用數(shù)卻以某種方式存在限制,它們各不相同。Aljaber等[1]也在網(wǎng)頁和科學引文之間找到了一些相似性。
引文上下文還可以用來概括文章。Radev等[7]使用ngram模型從引文上下文數(shù)據(jù)集中提取關(guān)鍵語詞,然后用這些關(guān)鍵短語構(gòu)建摘要。還有些學者會將科技文獻的引文根據(jù)文章的概念性、可操作性、組織性、革命性等進行分類[8]。
Aljaber等[1]對如何確定引文上下文以及如何將引文上下文與相關(guān)的引文匹配,采用了一個簡單而有效的方法——將預(yù)定窗口大小里引文周圍的語詞作為數(shù)據(jù)。他們嘗試了不同的窗口大小,發(fā)現(xiàn)有50個字引文的窗口是文檔聚類最佳的引文上下文大小。
1.2網(wǎng)絡(luò)生成
構(gòu)建網(wǎng)絡(luò)方式多樣。Kessler[9]提出文獻耦合假設(shè),該假設(shè)認為相似的文獻大多有著類似的參考文獻。如果兩篇文章引用了同一篇文獻,那么兩篇文章是耦合的。此時,可以在擁有相同引文數(shù)量的兩篇文獻之間創(chuàng)建一個無向加權(quán)邊,從而構(gòu)建相應(yīng)網(wǎng)絡(luò)。
另外從文章出發(fā)構(gòu)建網(wǎng)絡(luò)的方法則是使用共引分析。文章A和文章B的共引數(shù)量就是共同引用了A和B的文章數(shù)量[10]。該方法假設(shè)相似的文章被同時引用的頻率很大。Gipp等[11]對共引分析進行了擴展——共引相似性分析(Cocitation Proximity Analysis ,CPA)。
2引文分析排序方法
2.1相關(guān)理論
被大量引用且與主題相關(guān)的文獻通常是該領(lǐng)域內(nèi)的種子文獻,所以被引數(shù)量越大意味著該文獻越重要。
引用某一篇文獻可能存在很多動機:它可能是題外話,也可能是批評而不是贊同,由此很難自動確定引文上下文的意圖[12]。但是總的來說,一篇文章被許多文章用相同的語詞引用,那么它會在這語詞區(qū)域內(nèi)得到一種集中確認,可從累積的引證文獻中抽取出被引文獻的語義部分。
按照前人總結(jié)出來的方法來定義引文上下文語詞,采用固定大小的窗口來確定引文上下文[5]。
在所有文章的引文上下文里,將每個雙字詞組作為定義語詞。例如,如果有3篇文章被引用到一個引文上下文里,我們就會提取上下文中每一個雙字詞組來作為這3篇文章的定義語詞,這更容易從引文上下文里抽取有意義的語詞。單字詞的抽取方法會造成很多同義詞問題,例如,“social network”是一個專有名詞,但是拆開之后,“social”和“network”會涉及到更加寬泛的定義。
2.2引文網(wǎng)絡(luò)
引用上下文是圍繞引文標記的文本。這個文本的范圍可以定義為句子、詞或者字符。從引證文獻到被引文獻之間創(chuàng)建一個有向邊,從而構(gòu)建一個引文網(wǎng)絡(luò),就是所謂的有向圖。
一個引文網(wǎng)絡(luò)里的邊所承載的信息比一個單純的二元關(guān)系要多??蓮囊纳舷挛睦锾崛≌Z詞,也就是一個單詞或者一個組詞,而這些詞正是作者用來解釋引文的。
A為所有文章的集合,然后用小寫的拉丁字母來代替A中的文章,例如i,j∈A。讓T成為A文章集合中所有的元素。為了區(qū)別,使用小寫的希臘字母來表示T集合中的元素,例如β,τ∈T。
一個以元素標記的網(wǎng)絡(luò)記成G(A,C),這個網(wǎng)絡(luò)是一個邊集有向圖C=A×A,當文章i引用文章j,那么(i,j) ∈C。邊(i,j) ∈C 被記成Ti,jT,其中Ti,j是所有出現(xiàn)在文章i到文章j的引文上下文中最新的元素。Ti,j可在相同的引文上下文中出現(xiàn)多次。當然,如果文章i和文章j沒有引文,也可能出現(xiàn)Ti,j,或引文上下文的集合中沒有任何元素。
根據(jù)某一個元素去獲取一個引文上下文的網(wǎng)絡(luò),即β∈T稱為一個元素。那么子圖G(A,C)中的Gβ(A,Cβ)就稱為引文網(wǎng)絡(luò)。在元素β中,Cβ∈C,并且如果β∈Ti,j,那么(i,j)∈Cβ。于是,就可運行這個網(wǎng)絡(luò)標準的排名算法,找到這個元素的重要文獻。
圖1的例子是由6篇文章組成的一個引文上下文網(wǎng)絡(luò),與之對應(yīng)的元素標記引文網(wǎng)絡(luò)A={a1,a2,…,a6}和圖2中給出的T={τ1,τ2,…,τ6}。引文網(wǎng)絡(luò)中的元素τ1和τ4也都在圖2中相應(yīng)給出。
2.3語詞相似性
一個語詞一般不足以完整識別一篇文獻所包含的所有主題,因為僅僅只是用一個單詞傳達信息時會有噪音存在,如同義詞等。本文方法是在文檔檢索過程中使用相似語詞,即如果兩個詞在相當數(shù)量的引文中出現(xiàn),那么這兩個詞就認定是相似的。為了定義語詞的相似性,本文還用到以下方法。
詞頻是語詞-文檔矩陣方法中一個重要概念,記作F=[fβj],其中fβj是引文上下文中用語詞β引用文章j的文章數(shù)量。也就是說,fβj是在引文網(wǎng)絡(luò)Gβ中文章j的引用次數(shù)。F實質(zhì)上是從文章節(jié)點和詞節(jié)點之間的無向加權(quán)二分網(wǎng)絡(luò)中抽取出來的。例如,圖2中的一個二分網(wǎng)絡(luò),f是詞項文檔矩陣。
使用簡單的詞頻方法存在一定問題:除了少數(shù)幾個詞外,幾乎所有的詞會被看作同等重要。例如,文章集合中的“癌癥”一詞,可能幾乎所有的引文上下文中都會有“癌癥”這個詞,所以需要縮小在引文上下文中出現(xiàn)的語詞權(quán)重。原則上,減少語詞頻次權(quán)重正是因為該語詞在引文上下文里的頻繁出現(xiàn)。Term-frequency-inverse document frequency(tf-idf)就是解決此問題的一種統(tǒng)計方法[13]。這種方法廣泛運用于信息檢索和文本挖掘中,它表現(xiàn)了一篇文檔中一個語詞對于文檔的重要性。語詞β的逆向文檔頻率定義如下:
idf(β)=log|A|[]j∈Asgn(fβj)(1)
其中sgn(x)被如下函數(shù)定義:
sgn(x)=1,x>0,0,x=0,-1,x<0.(2)
顯然,x<0不會考慮在內(nèi)。
定義權(quán)重語詞文檔矩陣N=[nβj],N=D×F,其中D=[dτβ],它是一個|T|×|T|的對角矩陣:
dβτ=idf(β),t=β,0,otherwise(3)
然后讓β和τ成為語詞β和語詞τ對應(yīng)的行向量。B和τ的代入顯示了文章數(shù)據(jù)集里的語詞β和語詞τ的權(quán)重語詞頻率。如果想知道這些語詞在文章中重復(fù)了多少,只需要對比行向量β和τ即可。出于這個目的,采用樣本中β和τ的皮爾遜相關(guān)系數(shù)pβ。
其中是向量x的詞的平均數(shù)。樣本皮爾遜相關(guān)系數(shù)與樣本x和樣本y對應(yīng),給定一個-1~1的值。一個為1的值意味著用一個線性方程來描述x與y之間的關(guān)系,所有的數(shù)據(jù)點都在一條x增加y就增加的線上。而數(shù)值為-1則代表所有的數(shù)據(jù)點在一條x增加y就減少的線上。這和數(shù)據(jù)沒有關(guān)系,因為給語詞τ和語詞β賦值-1,就不得不讓它們相互補充。
最終,定義語詞的相似性。如果pβτ<δ,且0<δ<1,就認為語詞τ與語詞β相似。
2.4相似語詞集合的引文網(wǎng)絡(luò)
給定語詞β,相似的集合就為Sβ={T|τ相似于β},可把相似的語詞引文網(wǎng)絡(luò)合并到一個權(quán)重的有向網(wǎng)絡(luò)中。子圖G(A,C)的GSβ(A,CSβ) 就被稱作為β-相似引文網(wǎng)絡(luò),在這個網(wǎng)絡(luò)可以合并和β相似的語詞引文網(wǎng)絡(luò)的邊。例如,CSβ=Uτ∈SβCτ,wij的邊(i,j) ∈CSβ,那么它就是邊合并之后權(quán)重的總和。即:
wij=∑(i,j)∈Tij∩Sβpβτ(5)
注意:Sβ不能為空,因為β∈Sβ。
通過給定一個語詞β,構(gòu)建一個β-相似引文網(wǎng)絡(luò)后,就可以運行網(wǎng)絡(luò)中的排序算法,找出β詞語相關(guān)主題中最重要的文章。
3結(jié)語
引文索引是建立在布爾檢索之上的,所以任何一篇文章的查詢語句集就相當于一個給定的查詢列表。文章的作者會用許多語詞去描述研究過程,而有些語詞可能與文章最主要的研究意義無關(guān)。因此,不相關(guān)的文章可能會排在檢索結(jié)果前面,這僅僅是因為這些文章可能在其它領(lǐng)域是重要文章,所以有必要構(gòu)建一個衡量主題識別相關(guān)性和影響的方法。
從上下文語義出發(fā)去檢索一篇重要文獻是一個新方法。當前,大部分引文分析研究集中在被引數(shù)量而忽視了引文的潛在原因,本文辦法解決了這個問題。
利用引文上下文的方法是為了給重要的文章排序。對于一個給定的主題語詞,首先要創(chuàng)建一個相似語詞集合,然后再查詢包含有相似語詞集合的引文上下文。只有通過檢測引文上下文,才能創(chuàng)建主題相關(guān)的網(wǎng)絡(luò),才能應(yīng)用鏈接分析,在網(wǎng)絡(luò)中找到相關(guān)主題最重要的文章。
參考文獻參考文獻:
[1]ALJABER,BADER.Document clustering of scientific texts using citation contexts[J].Information Retrieval Journal,2010,13(2):101131.
[2]陸偉,孟睿,劉興幫.面向引用關(guān)系的引文內(nèi)容標注框架研究[J].中國圖書館學報,2014(6):93104.
[3]SCHWARTZ,ARIEL S,M HEARST.Summarizing key concepts using citation sentences[J].The Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis Association for Computational Linguistics,2006(5):134135.
[4]劉盛博,丁堃,張春博.引文分析的新階段:從引文著錄分析到引用內(nèi)容分析[J].圖書情報知識,2015 (3):2534.
[5]BRADSHAW,SHANNON.Reference directed indexing: redeeming relevance for subject search in citation indexes.research and advanced technology for digital libraries[J].Springer Berlin Heidelberg,2003(4):499510.
[6]RITCHIE ANNA,S TEUFEL,S ROBERTSON.How to find better index terms through citations[J].The Workshop on How Can Computational Linguistics Improve Information Retrieval Association for Computational Linguistics,2006(6):2532.
[7]QAZVINIAN,VAHED,D R RADEV,et al.Citation summarization through key phrase extraction[C].COLING 2010,International Conference on Computational Linguistics,Proceedings of the Conference,Beijing,China DBLP,2010:895903.
[8]MORAVCSIK,MICHAEL J,P MURUGESAN.Some results on the function and quality of citations[J].Social Studies of Science,1975,5(1):8692.
[9]KESSLER.Bibliographic coupling between scientific papers[J].Journal of the Association for Information Science and Technology,1963,14(1):1025.
[10]SMALL,HENRY.Cocitation in the scientific literature: a new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265269.
[11]GIPP,BELA,J BEEL.Citation proximity analysis (CPA)a new approach for identifying related work based on cocitation analysis[C].International Conference on Scientometrics & Informetrics,2009:571575.
[12]A ABUJBARA,J EZRA,D RADEV.Purpose and polarity of citation: towards nlpbased bibliometrics[C].HLTNAACL,2013.
[13]MANNING,CHRISTOPHER D,P RAGHAVAN,et al.Introduction to information retrieval[M].北京:人民郵電出版社,2010.
責任編輯(責任編輯:杜能鋼)