• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向問題導向的學術(shù)文獻搜索引擎研究

      2016-12-26 02:26:39萬連城
      電子科技 2016年12期
      關(guān)鍵詞:搜索引擎分類器文檔

      萬連城

      (西安電子科技大學 期刊中心,陜西 西安 710071)

      ?

      面向問題導向的學術(shù)文獻搜索引擎研究

      萬連城

      (西安電子科技大學 期刊中心,陜西 西安 710071)

      針對學術(shù)搜索引擎的使用、查詢和檢索模型尚待深入研究的問題,研究了由學術(shù)搜索引擎接收的查詢的分布,并且提出了一種查詢識別方法。文中分析了學術(shù)搜索查詢,并將其分為導航查詢和信息查詢。將導航查詢限定為用戶尋找特定學術(shù)文檔的查詢,在此條件下,通過引入一組新特征的機器學習方法來識別此類的查詢,采用梯度提高樹(GBT)來訓練識別導航查詢的分類器,結(jié)果顯示在召回率為0.68的條件下,準確率為0.68,并且獲得了0.677的F評分。

      學術(shù)搜索; 導航; 查詢; 機器學習

      學術(shù)搜索引擎已成為許多研究人員起草研究手稿或著手研究提案時的起點。通常,有兩類主要的檢索系統(tǒng)供學者使用。第一類是引用數(shù)據(jù)庫,例如,Web of Science和Pubmed;另一類是典型的網(wǎng)絡搜索,例如,Google學術(shù)搜索和百度學術(shù)搜索。統(tǒng)計數(shù)據(jù)可以反映用戶對每種類型系統(tǒng)的偏好。在調(diào)查統(tǒng)計中,2012年30%的博士研究人員依靠Google學術(shù)搜索作為查找信息的主要來源,根據(jù)來自加利福尼亞大學的統(tǒng)計數(shù)據(jù),Santa Cruz表示Google 學術(shù)在2010年被用作次要信息來源[1]。在科學領域檢索相關(guān)信息的需求導致了在信息檢索方面的許多進展[2-6]。Kang和Kim使用了分布差異、相互信息、使用率作為錨文本、以及POS信息用于分類[7];Jansen等人提出了一種基于啟發(fā)式算法的方法[8];Lee等人研究了用戶點擊行為和錨鏈接分布[9]。最接近的工作是Kan和Poo[10],他們專注于檢測在線公共訪問目錄中的已知項目搜索。

      本文中專注于使用基于關(guān)鍵字搜索的學術(shù)搜索系統(tǒng),使用3年的查詢?nèi)罩緛硌芯繉W術(shù)搜索引擎的用戶行為。通過觀察用戶的查詢模式,將學術(shù)搜索查詢分類為導航和信息查詢來研究用戶查詢意圖。搜索引擎查詢通常被分為3類[11]:(1)信息,用戶正在網(wǎng)上尋找一些信息;(2)導航,用戶試圖訪問特定網(wǎng)站;(3)事務性,用戶試圖執(zhí)行某種類型的事務。查詢意圖分類是所有搜索引擎的重要部分,這是因為查詢類型會影響查詢的處理方式。如果已知查詢是導航,則搜索引擎可以選擇通過顯示單個結(jié)果或少數(shù)結(jié)果來不同地呈現(xiàn)結(jié)果頁面。在本文工作中,引入學術(shù)導航查詢的概念。

      1 學術(shù)查詢?nèi)罩?/h2>

      本文工作動機來自檢查CiteSeerX的學術(shù)用戶的使用行為,其中CiteSeerX是計算機科學和工程、物理學和經(jīng)濟學的出版物的索引。搜索引擎提供多種搜索類型,最典型的是文檔搜索和作者搜索。將搜索引擎在2009年9月~2013年3月期間收到的搜索過程用于本研究。搜索類型的比例在表1中給出,從表1中可以看出,大多數(shù)的搜索過程(92.73%)屬于文檔搜索。此外,6.9%的搜索過程屬于作者姓名搜索。推測兩個可能的原因在于:(1)當用戶記住論文的作者之一但不記得標題時,用戶對通過作者姓名搜索論文感興趣;(2)個別作者搜索自己追蹤他們的論文被引用數(shù)量,以及被搜索引擎索引的文檔數(shù)量。查詢的一個重要特征是查詢長度,其在某種程度上可以指示用戶查詢意圖。例如,發(fā)出較長查詢的用戶更有可能搜索更具體的信息。通過檢查類型文檔搜索的查詢,發(fā)現(xiàn)查詢的平均長度為4.76項。

      表1 文檔和作者搜索類型百分比

      2 查詢類型分類

      大多數(shù)查詢意圖識別集中在通用搜索引擎[9]。當前學術(shù)搜索引擎的易用性,以及它們與大多數(shù)人熟悉的傳統(tǒng)Web搜索的相似性給研究用戶的查詢意圖創(chuàng)造了機會。在學術(shù)搜索中,可以將查詢至少分為導航和信息兩種類型。在學術(shù)環(huán)境中定義事務性查詢并不簡單,在學術(shù)搜索中提供查詢意圖的完整分類超出了本研究的范圍。相反,本文專注于識別導航查詢。將導航查詢限定為用戶尋找特定學術(shù)文檔的查詢,特定學術(shù)文檔可以是報紙、書、論文等。正確識別導航查詢是重要的,因為排名者受引用的嚴重影響,這可能導致高引用論文排名高于新論文低引用論文。此外,標題包含一般術(shù)語的論文更容易受到影響,這是因為存在大量的匹配。在學術(shù)搜索中存在導航查詢的多個方面,例如,用戶可以通過以下方式查找給定文檔:

      文檔對象標識符(DOI):10.1038/science15102

      完整標題查詢:百度文件系統(tǒng)

      作者和標題信息的組合:zhang and LED

      作者和年份/場地信息:Green 2009

      知名工作的作者姓名:Cormen Leiserson

      作者姓名與論文區(qū)別術(shù)語的結(jié)合:dic brin motwani

      在第一種情況下,當用戶通過DOI搜索時,檢查查詢是否與DOI數(shù)據(jù)庫匹配就足夠了。然而,標題查詢不容易檢測。首先,從論文中提取標題并不總是準確的。此外,雖然可以針對標題列表來檢查查詢,但是可能存在多個標題位置處匹配的許多短的和不明確的查詢。除此之外,沒有搜索引擎包含所有學術(shù)文檔[12],因此識別搜索引擎沒有結(jié)果的標題導航查詢可以用作定位丟失文檔的信號。在學術(shù)搜索引擎的日志中發(fā)現(xiàn)以下查詢并不明顯:在查詢Green 2009中,存在一個作者姓名和年份用于識別工作。找到這些查詢的正確匹配可能需要比簡單規(guī)則更復雜的方法。

      表2 導航查詢特性

      2.1 查詢方法

      將查詢建模為二進制分類問題。給定查詢q,希望將其分類為導航和信息兩類之一。每個查詢q被表示為表2中描述的特征的向量。這些特征用于捕獲表示導航查詢的多個方面。例如,在注意到許多導航查詢具有比信息查詢更多的術(shù)語之后,選擇#_tokens。is_title_match通常是好的信號,但如果查詢術(shù)語是普通的,則查詢導航不一定匹配。其他語法特征(例如,has_stop_word和has_punctuation)用于識別標題查詢。如示例所示,提及作者姓名是導航查詢的一個方面。例如,在學術(shù)搜索引擎的日志中發(fā)現(xiàn)的以下查詢不被視為導航:mccallum nigam,因為這兩個作者在多篇論文中共同署名,并且該查詢不能被解釋為指向單篇論文。然而,作者姓名是導航查詢的指示符之一。因此,創(chuàng)建一個特征來表示被識別為作者姓名的查詢符號的數(shù)量。識別符號是否指向作者姓名并不像檢查所有可能的姓名的字典那么簡單。最初,使用DBLP的作者列表作為姓名字典,然而,假陽性識別很高。因此,采用了一種語言模型方法來識別作者姓名。對于每個符號t估計3個概率:P(t|author)、P(t|title)和P(t|abstract),其中作者、標題和摘要分別指示論文的作者、標題或摘要中出現(xiàn)的符號。在如下情況下,符號t被認為是作者

      P(t|author)>P(t|abstract)∧P(t|author)>P(t|title)

      梯度提高樹(GBT)用于訓練識別導航查詢的分類器。分別在范圍[10,400]和[10-4, 10-1]上使用網(wǎng)格搜索來選擇樹的數(shù)目和學習速率參數(shù)。Smote過采樣用于在數(shù)據(jù)集不平衡時對導航查詢進行過采樣。

      2.2 數(shù)據(jù)集

      為了構(gòu)建數(shù)據(jù)集,首先從用戶搜索日志中隨機抽取1 000個查詢,然后僅保留文檔搜索類型中的查詢,這將導致總共553個查詢。然而,注意該小數(shù)目的樣本可能不能給出所有可能的陽性樣本(導航查詢)的合理覆蓋,進行多輪采樣并使用上述啟發(fā)法來匹配可能的陽性候選。然后,通過可能在隨機采樣的數(shù)據(jù)集中沒有足夠存在的陽性實例(例如,具有作者姓名的實例)來增強數(shù)據(jù)集。還增加了可比數(shù)量的陰性實例來抵消這種影響。最后,數(shù)據(jù)集包含579個查詢。每個查詢由兩個判定者檢查,并標記為導航或信息。當判定者具有不匹配的標簽時,他們授予相同的標簽。在手動標記的查詢中,發(fā)現(xiàn)12.5%是導航。

      2.3 實驗

      分類器的性能如表3所示。針對5層交叉驗證,訓練層隨機分為90:10,其中10%用于驗證網(wǎng)格搜索參數(shù)。使用Smote的過采樣僅在訓練層上進行,試驗層保持不變。將提高的樹分類器的性能與具有RBF內(nèi)核的SVM的性能以及隨機森林的性能進行比較。類似于GBT,兩個基準分類器的所有參數(shù)都使用網(wǎng)格搜索進行配置。最高準確率和總體F評分通過GBT獲得,如表3所示。表中的數(shù)字指通過5層交叉驗證獲得的平均準確率、召回率和F評分,括號內(nèi)指出了標準偏差。每個特征的重要性如圖1所示。查詢中的符號數(shù)量是最重要的特征,這可以通過傾向于具有較高數(shù)量的符號的標題查詢來解釋。類似地,與查詢中的符號的數(shù)量密切相關(guān)的標題匹配特征在重要性方面次之,隨后是作者比率特征。值得注意的是,對導航查詢進行分類在網(wǎng)絡領域是一項艱巨的任務,至少在學術(shù)領域如此。例如,Jansen等人[8]只獲得74%的整體網(wǎng)絡查詢意圖分類,這不僅限于導航。在高召回率的信息查詢下,其他人能夠獲得70%的準確率。許多關(guān)于網(wǎng)絡搜索引擎的導航查詢分類的研究依賴于點擊率[13-15]。雖然這些方法總體上有效,但它們?nèi)匀皇潜粍拥?,并且取決于日志中查詢和點擊的存在,以便能夠準確地對它們進行分類。當在沒有見到新查詢到達時,或者當用戶使用新的關(guān)鍵字組合來引用學術(shù)論文時,這提出了挑戰(zhàn)。表3中括號內(nèi)的數(shù)表示5層交叉驗證中的標準偏差。

      圖1 導航查詢分類特征重要性

      方法準確率召回率F評分GBT0.68(0.03)0.68(0.09)0.677(0.04)SVM(RBF)0.67(0.05)0.63(0.12)0.64(0.07)隨機森林0.71(0.06)0.59(0.14)0.62(0.09)

      3 結(jié)束語

      基于用戶查詢?nèi)罩痉治隽藢W術(shù)搜索,介紹了學術(shù)導航查詢的概念,探討了新的數(shù)據(jù)集與人判斷的學術(shù)查詢類型分類的問題,提出了一組特征來學習分類器。結(jié)果證明了所提出特征的有效性并且展示了該問題所帶來的挑戰(zhàn)。利用導航查詢分類和學術(shù)文獻排名函數(shù)來實現(xiàn)新的學術(shù)排名方法,可以將導航查詢分類結(jié)果添加作為排序器的新特征或者對于不同類型的查詢分別訓練排序器。

      [1] Hightower C,Caldwell C.Shifting sands: science researchers on google scholar, web of science, and pubmed, with implications for library collections budgets[J].Issues in Science and Technology Librarianship,2010(63):4-12.

      [2] Sanderson M,Croft W B.The history of information retrieval research[C].CA,USA:Proceedings of the IEEE,100 Special Centennial Issue,2012.

      [3] Berry M W,Dumais S T,Brien G W O.Using linear algebra for intelligent information retrieval[J].Siam Review,2012,37(4):573-595.

      [4] Müller H M,Kenny E E,PW Sternberg. Textpresso: an ontology-based information retrieval and extraction system for biological literature[J].Plos Biology,2013,2(11):309-315.

      [5] Charikar M,Chekuri C,Feder T,et al.Incremental clustering and dynamic information retrieval[J].Siam Journal on Computing,2015,33(6):626-635.

      [6] Jensen L J,Saric J,Bork P.Literature mining for the biologist:from information retrieval to biological discovery[J].Nature Reviews Genetics,2006,7(2):119-129.

      [7] Kang I H,Kim G.Query type classification for web document retrieval[C].Mrcao:In Proceedings of the 26th Annual International ACM SIGIR,2003.

      [8] Jansen B J,Booth D L, Spink A.Determining the user intent of web search engine queries[C].Germany:In Proceedings of the 16th International Conference on World Wide Web, ACM,2007.

      [9] Lee U,Liu Z,Cho J.Automatic identification of user goals in web search[C].France:In Proceedings of the 14th International Conference on World Wide Web,ACM,2005.

      [10] Kan M Y,Poo D C.Detecting and supporting known item queries in online public access catalogs[C].Korea:Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries, IEEE,2005.

      [11] Baeza Yates R,Calder′on Benavides L,Gonz′alez Caro C.The intention behind web queries[J]. String Processing and Information Retrieval,2006(3):98-109.

      [12] Khabsa M,Giles C L.The number of scholarly documents on the public web[J].PLOS One, 2014,9(5): 93-94.

      [13] Lu Y, Peng F, Li X,et al.Coupling feature selection and machine learning methods for navigational query identification[C].Lanzhou:In Proceedings of the 15th ACM International Conference on Information and Knowledge Management,2006.

      [14] Li X,Wang Y Y,Acero A.Learning query intent from regularized click graphs[C].Hangzhou:In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2008.

      [15] Sun Y, Li H,Councill I G,et al.Personalized ranking for digital libraries based on log analysis[C].Hongkong:In Proceedings of the 10th ACM Workshop on Web Information and Data Management,2008.

      Research on Problem-oriented Academic Search Engine

      WAN Liancheng

      (Center of Journal Publication,Xidian University,Xi’an 710071,China)

      This paper investigates the distribution of queries received by academic search engines and presents a method of query recognition for the problem that academic search engine usage, query and retrieval models are not well studied. This paper studies the academic search queries and divides them into navigation queries and information queries. In this paper, the navigation query is defined as a query to find a specific academic document. Under this condition, a new set of machine learning methods is introduced to identify the query. The Gradient Boosted Trees (GBT) is used to train the classifiers , The results showed that the recall was 0.68, the precision was 0.68, and the F score of 0.677 was obtained.

      academic search;navigation;query;machine learning

      10.16180/j.cnki.issn1007-7820.2016.12.039

      2016- 11- 07

      萬連城(1983-),男,碩士。研究方向:學術(shù)出版與傳播。

      TP305

      A

      1007-7820(2016)12-142-04

      猜你喜歡
      搜索引擎分類器文檔
      有人一聲不吭向你扔了個文檔
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于RI碼計算的Word復制文檔鑒別
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      網(wǎng)絡搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      廣告主與搜索引擎的雙向博弈分析
      莱州市| 江孜县| 开封市| 勃利县| 宁城县| 富裕县| 垫江县| 江山市| 庆阳市| 贡嘎县| 措美县| 蒲城县| 晋城| 双桥区| 营口市| 靖远县| 电白县| 府谷县| 凤台县| 黔西| 南华县| 合川市| 江城| 汝城县| 登封市| 治多县| 万荣县| 繁峙县| 皮山县| 内丘县| 罗源县| 瑞昌市| 潮安县| 钟山县| 新河县| 香格里拉县| 田阳县| 旌德县| 互助| 望城县| 娄烦县|