• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多標(biāo)簽分類的學(xué)術(shù)文獻(xiàn)潛在時間意圖識別研究

      2017-11-20 23:15:21沈思吳璽煜
      關(guān)鍵詞:文本分類

      沈思+吳璽煜

      摘 要:為了提高檢索結(jié)果的時間相關(guān)性,將文本特征抽取和多標(biāo)簽分類算法應(yīng)用于文獻(xiàn)檢索的潛在時間意圖分類研究之中.從檢索潛在時間意圖分類的角度出發(fā),提出一種基于文本時間信息抽取和Labeled LDA(標(biāo)簽主題模型)的文獻(xiàn)潛在時間意圖自動分類算法.首先,在獲取的文獻(xiàn)時間信息基礎(chǔ)上,將文獻(xiàn)檢索潛在時間意圖映射至具體時間類別.其次,為了減少時間信息的稀疏性對分類特征學(xué)習(xí)過程的影響,利用交叉學(xué)科中時間短語分布特征優(yōu)化Labeled LDA分類模型的標(biāo)簽選擇過程.最后,將所提算法與其他多標(biāo)簽分類算法進(jìn)行對比實(shí)驗(yàn),分析和評估文獻(xiàn)檢索潛在時間意圖自動分類的準(zhǔn)確率.結(jié)果表明,所提算法的AUC的值達(dá)到79.6%,較同類基準(zhǔn)算法ECC(整體分類鏈)提高約10.9%,且針對不同學(xué)科均取得了較好的分類效果,是一種有效的文獻(xiàn)檢索潛在時間意圖學(xué)習(xí)方法.

      關(guān)鍵詞:多標(biāo)簽分類;主題模型;潛在時間意圖;文本特征抽??;文本分類

      中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A

      Research on Identifying Potential Temporal Intentions of AcademicLiterature Based on Multi-label Classification

      SHEN Si1,WU Xiyu2

      (1.School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China;

      2. School of Computer Science,South China Normal University,Guangzhou 510631,China)

      Abstract:In order to enhance the temporal relevance of retrieval result,the text feature extraction and algorithm of multi-label classification were applied to potential temporal intention classification of literature retrieval. From the perspective of retrieving the classification of potential temporal intentions,an algorithm was proposed to automatically classifiy potential temporal intentions of literature,based on text temporal information extraction and labeled LDA. Firstly,by use of such temporal information,the potential temporal intention of literature retrieval was mapped onto specific temporal categories based on temporal information gained from literature. Secondly,the distribution features of temporal phrases across disciplines were used to optimize the process of label selection of the classification model of labeled LDA in order to reduce the impact of sparsity of temporal information on the learning process of classification features. Finally,the proposed algorithm was compared with other multi-label classification algorithms in specific experiments,and the accuracy of automated classification of potential temporal intentions of literature retrieval was analyzed and evaluated. The result shows that the AUC value of the proposed algorithm reaches 94.3%,which increases approximately 4.3%,compared with the algorithm of ECC (Ensembles of Classifler Chains). In addition,the present algorithm has produced favorable classifying effects in different disciplines. Thus,it is an effective learning method for potential temporal intention of literature retrieval.

      Key words:multi-label classification; topic model; temporal information need; text feature Extraction; ext classificationendprint

      目前,檢索式的潛在時間意圖自動識別研究主要是進(jìn)行自動抽取能體現(xiàn)潛在時間意圖的各類文本特征并應(yīng)用于現(xiàn)有分類算法中.NTCIR 主辦的TQIC[1](Temporal Query Intent Classification Task)測評任務(wù)要求參加者設(shè)計(jì)算法分析檢索式的潛在時間意圖,正確的潛在時間意圖識別可以幫助更加容易地找到與未來信息相關(guān)的研究方向而不是流行的研究趨勢.

      在完成對時間信息標(biāo)注的學(xué)術(shù)文獻(xiàn)基礎(chǔ)上[2],針對學(xué)術(shù)文獻(xiàn)檢索這一特定應(yīng)用領(lǐng)域,本文主要解決學(xué)術(shù)文獻(xiàn)潛在時間意圖識別的問題.本文通過訓(xùn)練數(shù)據(jù)獲取具有領(lǐng)域特性的時間詞匯,并在本領(lǐng)域大量未標(biāo)記的數(shù)據(jù)中進(jìn)行擴(kuò)展后,與跨學(xué)科全局時間詞匯相結(jié)合作為先驗(yàn)知識,融入產(chǎn)生式分類模型Labeled LDA之中,對學(xué)術(shù)文獻(xiàn)的潛在時間意圖進(jìn)行分類.在評價所構(gòu)建的模型性能時,本文主要選取了由Read[3]提出的 ECC的算法進(jìn)行比較.ECC是一種集成框架算法,主要集成了多條隨機(jī)產(chǎn)生的分類鏈并通過投票機(jī)制來確定最終的分類結(jié)果.該算法的優(yōu)點(diǎn)是通過多條分類鏈來提高分類的整體準(zhǔn)確率,缺點(diǎn)主要是在解釋性的分類任務(wù)上不能使用.

      1 相關(guān)研究

      典型的針對檢索式的潛在時間意圖的文本特征選取和分類模型構(gòu)建方法主要有:Gupta[4]采用樸素貝葉斯分類算法并采用多項(xiàng)特征對檢索式的潛在時間意圖進(jìn)行分類.基于搜狗實(shí)驗(yàn)室的查詢?nèi)罩?,張曉娟[5]按照檢索詞和時間詞共同出現(xiàn)的頻次自動識別檢索式的潛在時間意圖.結(jié)合查詢位置、意圖和用戶的個性化特征,楊丹[6]提出了GT-WSearch個性化Web搜索框架,該框架對于改進(jìn)Web搜索結(jié)果的質(zhì)量具有極大的提升.對于識別與事件相關(guān)的查詢,Kanhabua[7]進(jìn)行了相應(yīng)的探究.對于理解時間查詢的意圖和完成不同時間檢索的應(yīng)用,比如,時間感知查詢自動實(shí)現(xiàn)、時間排序、結(jié)果呈現(xiàn)的多樣化來說,識別與事件相關(guān)的查詢是第一步的工作.在 AOL查詢?nèi)罩竞蚆SN查詢?nèi)罩緝蓚€數(shù)據(jù)集上,通過考慮隱性和顯性的時間信息需求,研究者首先識別了潛在事件.在TQIC任務(wù)上,Burghartz[8]完成了相應(yīng)的探究工作,把特征分成了七個集合,集合包含了N元的特征,而被描述的時間觸發(fā)詞被分到了特征集合詞匯上,與事件和時間詞典相關(guān)的特征被單獨(dú)進(jìn)行了保存并按照他們各自的特征對時間和詞典進(jìn)行了分類.Zhao[9]對維基百科頁面瀏覽日志進(jìn)行了探究,同時從查詢中抽取出了兩類特征,為一類為內(nèi)容特征,另一類為時間序列的基本特征,并使用這些特征對歧義或者多種查詢意圖進(jìn)行了分類.采用邏輯回歸的方法,通過人工標(biāo)記的方式,Willis[10]對TREC(Text Retrieval Conference)數(shù)據(jù)集中判別是否存在潛在時間意圖的600項(xiàng)主題進(jìn)行統(tǒng)計(jì)分析,通過內(nèi)容分析的方法識別與時間敏感相關(guān)的潛在TREC主題特征.TQIC測評結(jié)果表明[11],在分類算法選擇上,其他效果較好的方法還包括支持向量機(jī)(SVM)、隨機(jī)森林(Random Forrest)等分類器以及組合分類器.

      上述研究表明,文本潛在時間意圖對分類結(jié)果性能有很大影響.因此,本研究主要通過

      利用學(xué)術(shù)文獻(xiàn)的隱含時間意圖,在產(chǎn)生式分類模型中加入時間信息和領(lǐng)域特性的先驗(yàn)知識,提高學(xué)術(shù)文獻(xiàn)的主題分類效果.

      2 基于多標(biāo)簽的學(xué)術(shù)文獻(xiàn)潛在時間意圖自動分類算法

      2.1 文本內(nèi)容特征與時間特征的確定

      文本時間特征選擇方面,主要基于Chinese TIMEX2 規(guī)范[12]中收錄的中文時間詞確定本研究的時間觸發(fā)詞.同時,根據(jù)本研究關(guān)注的研究領(lǐng)域?qū)υ撘?guī)范的時間詞進(jìn)行了調(diào)整.一方面,刪減了該標(biāo)準(zhǔn)所收錄的“春分”、“春節(jié)”等在日常時間概念詞匯,因?yàn)樵擃愒~匯在學(xué)術(shù)文獻(xiàn)文本中極少出現(xiàn).另一方面,追加“未來”、“最近”等綜述類文獻(xiàn)中頻繁出現(xiàn)但Chinese TIMEX2卻沒有列出的時間詞作為本文的時間觸發(fā)詞,并作為一項(xiàng)可用于確定學(xué)術(shù)文獻(xiàn)時間類別的描述特征.

      在學(xué)術(shù)文獻(xiàn)中,時間信息主要用于修飾文獻(xiàn)的特有表述,例如結(jié)合“與有在什么領(lǐng)域……”、“本文擬探討……”、“本文旨在……”、“作者希望……”、“對……的研究分析表明”等修辭性表述,時間信息可以對研究主題涉及的概念、方法、模型、算法、理論、應(yīng)用、數(shù)據(jù)的不同側(cè)面進(jìn)行描述.因此,通過對時間信息與其描述對象之間的語義關(guān)系建模,可以有效區(qū)分不同學(xué)術(shù)文獻(xiàn)的潛在時間意圖.TempEval2010測評將該數(shù)據(jù)集中出現(xiàn)的時間詞,按照時間信息與其描述對象的語義關(guān)系,劃分至表1所示的12項(xiàng)類別之中.基于隱含時間意圖,本文定義了如表1所示的類別,并把學(xué)術(shù)文獻(xiàn)標(biāo)題、摘要和關(guān)鍵詞中的時間信息映射到表1的不同類別當(dāng)中.我們定義映射函數(shù):fmod:A→B,A={時間觸發(fā)詞 },B={隱含時間類別}={ before,...,approx}將學(xué)術(shù)文獻(xiàn)標(biāo)題、摘要和關(guān)鍵詞中的時間信息映射到表1的不同類別當(dāng)中.表2是映射實(shí)例.表2是以計(jì)算機(jī)學(xué)科文獻(xiàn)為例,描述了部分映射結(jié)果.

      在表2中,行列交叉的單元格表示待分類的文本時間詞,其列標(biāo)記對應(yīng)該時間詞所描述的查詢表示式,其行標(biāo)記對應(yīng)該時間詞按照表1制定的分類標(biāo)準(zhǔn)所映射的時間類別.

      2.2 基于Labeled LDA的文本分類模型

      Labeled LDA[13]將類別標(biāo)簽融入到無監(jiān)督的主題模型LDA中,構(gòu)造一種有監(jiān)督的主題模型.該模型對于多標(biāo)簽分類問題的解決證明是非常有用的,在不同的領(lǐng)域具有廣泛的應(yīng)用,比如被應(yīng)用于利用微博內(nèi)容對微博標(biāo)簽分類[14]、利用RCDC(Research Categorization and Disease Classification category)標(biāo)簽對NIH(National Cancer Institute)醫(yī)療項(xiàng)目分類[15]等領(lǐng)域相關(guān)文本的分類任務(wù)中.下圖1給出了Labeled LDA的概率圖模型表示.假設(shè)語料中的詞項(xiàng)構(gòu)成詞典,且詞典長度為V.一篇文檔有N個詞項(xiàng)組成,標(biāo)記為endprint

      W={w1,w2,…,wn}.整個語料由M篇文檔組成,標(biāo)記為D={W1,W2,…,Wm},文檔集D共可得到T項(xiàng)主題,即t∈1,…,T.對每一篇文檔W,定義標(biāo)簽類別向量Λ(w)=(Λ1(w),Λ2(w),…,ΛT(w)),且Λt(w)=1,文檔w中第t項(xiàng)主題對應(yīng)標(biāo)簽0,其他情況

      則Labeled-LDA對語料D中每篇文檔W的生成過程如下:

      (a)對每一個主題t∈1,…,T,選擇超參數(shù)β;

      (b)對每一篇文檔W,選擇超參數(shù)α,生成文檔W與標(biāo)簽的映射向量αw=Λ(w)×α.同時選擇θ,θ(w)~Dirichlet(αw=(αw1,αw2,…,αwT));

      (c)對文檔中N個詞項(xiàng)中的每個詞項(xiàng)wn,選擇一個主題zn,zn~Multinomial(θ(w)),并以zn為條件的概率P(wn|zn,β)選出詞wn.

      從上述過程中可以看出,對比于無監(jiān)督的主題模型LDA中任何主題均能被分配到相應(yīng)的詞干上,有監(jiān)督的LDA主題模型則至于某一個主題下的詞匯關(guān)聯(lián).基于吉布斯采樣的Labeled-LDA訓(xùn)練模型的概率計(jì)算式為:

      P(z-i=j|z-i,w,di)∝n(w)-i,j+βn(*)-i,j+Wβ·

      n(di)-i,j+αwndi-i,j+Kαw(1)

      公式(1)中,n(w)-i,j表示詞w分配到主題j的數(shù)量,n(*)-i,j表示分配到主題j的詞的總數(shù),n(di)-i,j表示文本di中分配到主題j的詞的數(shù)量,ndi-i,j表示文本di中詞的數(shù)量,αw表示考慮超參數(shù)α情況下文檔W與標(biāo)簽的映射向量.

      基于吉布斯采樣的Labeled-LDA預(yù)測模型的概率計(jì)算式為:對于新加入數(shù)據(jù)集的文檔d',設(shè)Λ(d')t=1t∈{1,…,T},則主題j下的后驗(yàn)分布計(jì)算式為:

      P(z-i=j|z-i,w,d')∝n(w)-i,j+βn(*)-i,j+Wβ·

      n(d')-i,j+αnd'-',j+Kαwj(2)

      式中,n(w)-i,j和n(*)-i,j等詞匯-主題共現(xiàn)數(shù)量統(tǒng)計(jì)由Labeled-LDA訓(xùn)練模型得到,僅n(d')-i,j和nd'-',j等需要根據(jù)文本d'中被分配到主題j的情況進(jìn)行更新.

      2.3 基于Labeled LDA的學(xué)術(shù)文獻(xiàn)時間分類的特征權(quán)重改進(jìn)算法

      已有研究證明,在LDA模型的預(yù)測上不能非常好的進(jìn)行校準(zhǔn).在本研究中,Labeled LDA的標(biāo)簽預(yù)測結(jié)果,同樣存在上述問題.

      針對上述問題,我們提出一種根據(jù)不同學(xué)科潛在時間意圖偏好性的標(biāo)簽主題模型改進(jìn)特征權(quán)重算法.

      算法1:基于學(xué)科時間信息的分類特征權(quán)重調(diào)整算法.

      輸入:某學(xué)科文檔集合S.

      輸出:基于該學(xué)科文檔S生成的特征權(quán)重調(diào)整向量weight.

      step1:遍歷學(xué)科文檔集合S,提取各文檔中的時間觸發(fā)詞匯,形成候選集Tword(S),并分別計(jì)算各時間觸發(fā)詞匯對應(yīng)的時間關(guān)系,找出屬于相同類別的觸發(fā)詞集合:fmod(tword1)=fmod(tword2)=…=fmod(twordn),twordi∈Tword(S).

      step2:依據(jù)Tword(S)中的各時間觸發(fā)詞對應(yīng)的時間關(guān)系fmod(twordi),將學(xué)科文檔集合S進(jìn)行子集劃分,使得子集Sj中各文檔的時間信息隸屬于同一時間關(guān)系,即{tword1,tword2,…,twordjn}∈Tword(Sj),且fmod(tword1)=fmod(tword2)=…=fmod(twordjn).

      step3: 依次計(jì)算隸屬于同一時間關(guān)系的文檔子集Sj的時間信息語義傾向性.假設(shè)子集Sj對應(yīng)第i類時間關(guān)系,且子集中不重復(fù)的時間詞項(xiàng)數(shù)為jn項(xiàng).則從第0項(xiàng)時間詞的詞頻Ni,0開始依次統(tǒng)計(jì)該子集中各項(xiàng)時間詞的詞頻,并將詞頻項(xiàng)的平均值作為該時間關(guān)系對應(yīng)的特征權(quán)重調(diào)整分量wmod(i),即

      wmod(i)=

      (Ni,0-Navg)2+(Ni,1-Navg)2+…+(Ni,jn-Navg)2jn×Navg2(3)

      其中,Ni,0+Ni,1+…+Ni,jn>0且Navg=average(Ni,0+Ni,1+…+Ni,jn).

      step4: 將不同隱含時間類別的分量wmod(i)組成特征權(quán)重調(diào)整向量weight,即weight={wbefore,wafter,…,wmod(i),…,wmid},再逐一對不同學(xué)科文獻(xiàn)的Labeled LDA隱含時間意圖的分類結(jié)果進(jìn)行調(diào)整,詳見算法2.

      算法2:潛在時間意圖標(biāo)簽分類權(quán)重調(diào)整算法.

      輸入:和某檢索主題相關(guān)的文檔集合D,以及文檔集合D中各文檔所屬學(xué)科類別.

      輸出:改進(jìn)后的對于學(xué)術(shù)文獻(xiàn)的預(yù)測標(biāo)簽集合p(L(d')t|d').

      1)將文檔集合D劃分為訓(xùn)練集D+和測試集D-,并基于訓(xùn)練集D+學(xué)習(xí)Labeled LDA模型.

      2)利用已學(xué)習(xí)的Labeled LDA模型,生成文檔集合中的測試集D-中各文檔標(biāo)簽分配結(jié)果.對其中每一個新加入的文檔d',對應(yīng)的多重l標(biāo)簽分配結(jié)果可表示為p(Λ(d')t|d'),Λ(d')=(Λ1(d'),Λ2(d'),…,ΛT(d')).

      對新加入數(shù)據(jù)集的文檔d',對基于公式(2)計(jì)算所有的標(biāo)簽Λ(d')t=1t∈{1,…,T}在該文檔中的概率,按照概率從高至低進(jìn)行排序.

      3)對文檔集合D 按照文檔所屬學(xué)科類別進(jìn)行劃分,并以劃分結(jié)果中的學(xué)科文檔集為輸入,根據(jù)算法1依次生成各學(xué)科的特征權(quán)重調(diào)整向量weight.

      4)對每一個新加入的文檔d',首先查找該文檔對應(yīng)學(xué)科.再根據(jù)對應(yīng)學(xué)科的權(quán)重調(diào)整向量weight,調(diào)整p(Λ(d')t|d')標(biāo)簽分配概率值.首先計(jì)算各項(xiàng)標(biāo)簽Λt對應(yīng)的時間關(guān)系fmod(Λt),隨后查找權(quán)重向量weight中第k個表示該時間關(guān)系的分量,用公式p(L(d')t|d')=p(Λ(d')t|d')·weightk將該標(biāo)簽分配概率值進(jìn)行更新.endprint

      5)重復(fù)4),直至測試集中所有文檔均得到修正后的標(biāo)簽分配結(jié)果.

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)描述

      統(tǒng)計(jì)結(jié)果表明,人文社會科學(xué)領(lǐng)域的文獻(xiàn)內(nèi)容中時間詞存在比例遠(yuǎn)高于自然科學(xué)領(lǐng)域文獻(xiàn)集合.因此,我們以cnki數(shù)據(jù)庫為來源,收集了11個學(xué)科的學(xué)術(shù)文獻(xiàn)題錄文本,具體學(xué)科和對應(yīng)文獻(xiàn)數(shù)量以及各學(xué)科包括時間詞文獻(xiàn)所占比例如表3所示.

      3.2 實(shí)驗(yàn)結(jié)果以及分析

      3.2.1 分類過程與參數(shù)選擇

      在參數(shù)選擇方面,對文本進(jìn)行TFIDF,PMI和信息熵等不同特征選擇時,本文保留排名前50%的特征作為輸入文本并去除噪音.在訓(xùn)練集和測試集構(gòu)建時采用9∶1比例,把36,409個標(biāo)簽的文獻(xiàn)隨機(jī)地分成了訓(xùn)練和測試兩種數(shù)據(jù)集合,并參考已有研究選擇AUC(area under the receiver operating characteristic curve)得分作為Labeled-LDA分類任務(wù)的測評指標(biāo).在分類過程方面,采用抽樣的方式對測試集的樣本進(jìn)行標(biāo)簽分類,再計(jì)算標(biāo)簽分類結(jié)果的AUC值.針對包含時間觸發(fā)詞的標(biāo)簽集合Setlabeled作為正樣本采樣結(jié)果,采用n次迭代且根據(jù)公式(3)計(jì)算AUC值

      AUC=n′+0.5n″n(4)

      其中,n′為從Setlabeled中取出的正樣本的概率大于負(fù)樣本的概率的次數(shù),n″為概率相等的次數(shù),n為總迭代次數(shù).

      3.2.2 分類性能評價

      本實(shí)驗(yàn)在通過TF-IDF,PMI和熵獲取的單個內(nèi)容特征的基礎(chǔ)上,基于比較原有的標(biāo)簽主題模型和本研究改進(jìn)的模型方法,對比了本文方法在不同學(xué)科之間的分類性能表現(xiàn)情況.整個查詢分類的結(jié)果具體如表4所示.如該表所示,在文本特征選擇方面,PMI值相較于其他文本特征的選擇方法AUC的值最低為0.739,其性能最差.同時,信息熵的選取特征的方法取得了最好的效果,AUC的值最好達(dá)到了0.795.從表中還可以看出,即使選擇效果最差的PMI值作為文本特征,本文方法也比原始的Labeled LDA算法在AUC值有所提升,從0.739提升到了0.754.

      表5則對比了不同學(xué)科下本文的特征權(quán)重調(diào)整算法的分類性能,從表中可以看出,即使學(xué)術(shù)文獻(xiàn)的不同學(xué)科對時間觸發(fā)詞分布有所影響,信息熵的選取特征的方法依然取得了最好的效果,其在11個學(xué)科中的AUC平均值達(dá)到了0.796.同時,就單一學(xué)科文本分類結(jié)果而言,本文提出的方法在計(jì)算機(jī)學(xué)科上AUC達(dá)到了最高值,為0.939.

      表6則對比了本文的特征權(quán)重調(diào)整算法和同類基于權(quán)重調(diào)整的多標(biāo)簽分類算法 ECC的性能對比.從表中可以看出,本文方法在相同的文本特征選擇基礎(chǔ)上,分類結(jié)果的AUC值均高于ECC方法.同樣以信息熵作為文本特征時效果最好,本方法的AUC值平均值高過ECC算法達(dá)到了10.9%.

      4 結(jié) 語

      綜上所示,本研究以學(xué)術(shù)文獻(xiàn)中隱含時間意圖為分類對象,在Labeled-LDA的標(biāo)簽語義關(guān)系的分類基礎(chǔ)上,提出了一種潛在時間意圖標(biāo)簽分類權(quán)重調(diào)整算法.根據(jù)不同的文本特征選擇方式,以及在不同學(xué)科上的分類實(shí)驗(yàn)表明,本文提出的方法能夠區(qū)分不同文獻(xiàn)、不同學(xué)科在隱含時間意圖之下的時間關(guān)系偏好性,從而更好地優(yōu)化學(xué)術(shù)文獻(xiàn)的隱含時間意圖分類結(jié)果.因此,本文的方法可用于更好地從語義知識層面來挖掘?qū)W術(shù)文獻(xiàn)的隱含的時間信息,幫助分析以時間觸發(fā)詞作為文本標(biāo)簽時研究主題之間的時間關(guān)聯(lián)性.

      參考文獻(xiàn)

      [1] JOHO H,JATOWT A,BLANCO R. NTCIR temporalia: a test collection for temporal information access research[C]//Proceedings of the 23rd International Conference on World Wide Web. Seoul,Republic of Korea,2014: 845-850.

      [2] 沈思,蘇新寧,謝靖,等. 基于清華漢語樹庫的時間表達(dá)式抽取模型構(gòu)建研究[J]. 圖書情報工作,2012,56(18):127-132.

      [3] READ J,PFAHRINGER B,HOLMES G,et al. Classifier chains for multi-label classification[C]// Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin,Heidelberg,2009:254-269.

      [4] GUPTA D,BERBERICH K. Temporal query classification at different granularities[C]// String Processing and Information Retrieval. London,UK,2015:156-164.

      [5] 張曉娟,陸偉,周紅霞. 用戶查詢中潛在時間意圖分析及其檢索建模[J]. 現(xiàn)代圖書情報技術(shù),2011 ,30(11): 38-43.

      [6] 楊丹,申德榮,陳默. 基于地理-時間意圖和偏好的個性化Web搜索框架GT-WSearch[J]. 計(jì)算機(jī)科學(xué),2015,42(7):240-244.

      [7] KANHABUA N,NGOC NGUYEN T,NEJDL W. Learning to detect event-related queries for web search[C]//Proceedings of the 24th International Conference on World Wide Web. Florence,Italy,2015: 1339-1344.endprint

      [8] BURGHARTZ R,BERBERICH K. MPI-INF at the NTCIR-11 temporal query classification task[C]// Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies. Tokyo,Japan,2014:443-450.

      [9] ZHAO Y,HAUFF C. Temporal query intent disambiguation using time-series data[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing,China,2016: 1017-1020.

      [10]WILLIS C,SHERMAN G,EFRON M. What makes a query temporally sensitive?[C]// Proceedings of the 39th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval. Beijing,China,2016:1065-1068

      [11]JOHO H,JATOWT A,BLANCO R,et al. Building test collections for evaluating temporal IR[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. Beijing,China,2016:677-680.

      [12]ACE(Automatic Content Extraction) Chinese Annotation Guidelines for TIMEX2(Summary)[EB/OL].[2016-12-19].http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-TIMEX2-Guideline-Summary_v1.

      [13]RAMAGE,D,HALL,D,NALLAPATI,R,et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C] //Proceedings of the 2009 Conference on Empirical Methods in Natural Language. Cambridge,Massachusetts USA,2009: 248-256.

      [14] KIRCZ G. Rhetorical structure of scientific articles: the case for argumentational analysis in information retrieval[J]. Journal of Documentation,1991,47(4): 354-372.

      [15]PARK J,BLUME-KOHOUT M,KRESTE R,et al. Analyzing NIH funding patterns over time with statistical[C] // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix,Arizona USA,2016:698-704.endprint

      猜你喜歡
      文本分類
      基于樸素貝葉斯的Web文本分類及其應(yīng)用
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      不同情境下中文文本分類模型的表現(xiàn)及選擇
      基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
      多核SVM文本分類研究
      軟件(2015年5期)2015-08-22 08:02:45
      灌南县| 保康县| 南部县| 昌图县| 怀仁县| 墨竹工卡县| 富蕴县| 定西市| 宜城市| 阿勒泰市| 长岛县| 江川县| 如皋市| 许昌县| 九寨沟县| 肇州县| 开江县| 元阳县| 武清区| 宝应县| 河间市| 乌拉特中旗| 汕尾市| 贵定县| 德清县| 阳江市| 庐江县| 陵川县| 公安县| 溆浦县| 恩施市| 罗山县| 晋城| 离岛区| 安阳市| 赣榆县| 南投县| 临湘市| 保亭| 腾冲县| 永泰县|