• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于專家知識的評審專家推薦算法研究

      2017-03-24 18:35:55冷昕陽
      環(huán)球人文地理·評論版 2016年11期
      關鍵詞:推薦系統(tǒng)

      冷昕陽

      摘要:科研論文是科學研究的重要表現(xiàn)方式,是引領技術發(fā)表的指南針。對論文發(fā)表流程的把控是保證論文質(zhì)量的關鍵。在論文的發(fā)表過程中,為其尋找特定的評審專家又是論文發(fā)表中關鍵的一環(huán)。因此,為了保證論文的質(zhì)量,應為投稿論文選擇合適的評審專家。本研究首先收集候選專家已發(fā)表的科技論文作為分析專家知識的基礎,然后,分析投稿論文的研究內(nèi)容,提取投稿論文的研究主題,最后,把專家推薦的問題建模成一個信息檢索的問題,采用向量空間模型(Vector Space Model, VSM)來計算投稿論文的研究內(nèi)容與專家知識的相關性,并以此為依據(jù)為投稿論文推薦出特定的審稿專家。

      關鍵詞:推薦系統(tǒng);主題提取;評審專家推薦

      1.引言

      信息過載是各行各業(yè)所面臨的一個嚴重問題,如電子商務網(wǎng)站,需要針對每位用戶的需要,在海量的商品信息中,判斷出用戶更傾向于要購買的商品;如公司的招聘人員,需要在大量的求職者中,識別有能力的求職者給予進行面試機會;如期刊的編輯需要面對龐大的評審專家?guī)?,識別出合適的評審專家來對投稿論文進行審稿。推薦系統(tǒng)的出現(xiàn)在一定程度緩解了過量的信息給人們所帶來的壓力,在一定程度上提高了工作的效率,并迅速擴展到其它領域。然而,目前關于推薦系統(tǒng)大多都應用到電子商務、社交網(wǎng)絡以及數(shù)字圖書館等領域,而較少對評審專家推薦的研究,即根據(jù)投稿論文的研究特征來推薦合適的評審專家。

      在學術環(huán)境下,同樣也暴露出信息過載等問題,許多的科研成果需要依靠論文的形式來讓其他同一領域的科研人員也了解到,這時期刊編輯部對于論文的評選應該更加細致認真,以防止投稿論文審稿工作分配不當導致出現(xiàn)偏差。然而若單純的靠人工的遴選便會有許多弊端。比如:在選擇上會帶有不可避免的主觀性以及對于專家信息的更新不夠及時等因素,這些都會導致有些真正有價值的論文沒有及時發(fā)表從而導致學術領域的發(fā)展減緩。而且在海量的信息面前僅依靠人去識別區(qū)分顯然工作效率很低也浪費時間。在這種情況下專家推薦系統(tǒng)應運而生,評審專家推薦系統(tǒng)使這份工作變得十分簡單。

      評審專家推薦系統(tǒng)能夠針對投稿論文遴選出合適的審稿專家,該系統(tǒng)首先提取專家知識并分析投稿論文的研究內(nèi)容,理解編輯需求,并為編輯推薦合適的評審專家。隨著投稿論文的數(shù)量持續(xù)增長以及專家知識的擴散性,充分準確的理解專家知識對于編輯來說是十分困難,因此,能夠自動分析專家知識,為投稿論文遴選出合適的審稿專家的系統(tǒng)顯得尤為必要。

      本研究首先收集候選專家已發(fā)表的科技論文作為分析專家知識的基礎,然后,分析投稿論文的研究內(nèi)容,提取投稿論文的研究主題,最后,把專家推薦的問題建模成一個信息檢索的問題,采用向量空間模型(Vector Space Model, VSM)來計算投稿論文的研究內(nèi)容與專家知識的一個相關性和匹配度,并以此為依據(jù)為投稿論文推薦出特定的審稿專家。

      2.相關研究

      專家推薦系統(tǒng)的構建,主要包括專家的選擇以及專家特長的識別,從而基于專家的特長屬性與查詢條目的匹配相關性進行推薦。目前,就專家特長角度而言,主要來源于兩個方面,一種是專家個人提供關于自身特長和經(jīng)驗的準確和綜合的文檔描述;另一種則是通過文章、Email交流以及學術論壇挖掘?qū)<业奶亻L信息;由于第一種方法主觀性較高,所以大多數(shù)學者都是從第二種角度出發(fā)對于專家特長識別進行研究。

      基于主題信息的專家推薦主要是借助于關鍵詞、作者的學科標簽等信息為稿件遴選相關的專家。例如,劉一星[1]等學者把評審專家推薦的問題視為一個分類問題,該研究首先把投稿論文對應到相應類別中,再從該類別中尋找相關的專家對投稿論文進行評審。余峰[2]等學者首先把利用文本相似度的計算方法,首先把專家知識和投稿論文的研究內(nèi)容向量的形式表示出來,然后,再利用相似度公式計算投稿論文與專家知識的相關性。鞏軍[3]等學者引入知識圖的方法來為投稿論文推薦相關的評審專家,該研究首先把投稿論文的研究內(nèi)容和專家知識映射到反映知識相似性的知識地圖中去,然后,計算投稿論文和候選專家在在知識地圖的相關性距離為投稿論文遴選合適的專家。Gollapalli[4]等人通過ADT(Author- Document- Topic)以及主題模型建模工具,建立作者、文檔以及主題之間的權重關系圖,進而通過計算圖和路徑計算任何一對節(jié)點的相似度,進而發(fā)現(xiàn)在不一定具有合作作者關系的情況下,達到基于內(nèi)容的專家發(fā)現(xiàn),從而用以進行專家推薦。

      3.研究方法

      3.1 研究思路

      本研究主要包括三大步驟:數(shù)據(jù)準備、數(shù)據(jù)預處理、計算專家與論文的匹配度以及專家推薦。

      (1)數(shù)據(jù)準備:該部分主要收集兩部分的數(shù)據(jù):一個是專家?guī)?,其中包括專家的個人信息(隱私信息除外)比如名字、年齡、主要的成就等等,并遴選出專家被引量較高的幾篇論文作為其代表作。另一方面就是投稿論文的數(shù)據(jù)庫的建立,本研究從萬方數(shù)據(jù)庫中隨機遴選出幾篇論文作為投稿論文。

      (2)數(shù)據(jù)預處理:從“萬方數(shù)據(jù)庫”中爬取專家發(fā)表的論文后,遴選出高被引的論文作為其知識的表示。另外,從“萬方數(shù)據(jù)庫”中隨機遴選出投稿論文作為評審專家推薦算法的輸入數(shù)據(jù)。本研究首先通過停用詞表將常用詞篩選出去,停用詞表是人為的建立的常用語集合的一個文檔,將常用詞,沒有實際意義,沒有實際指代的詞生成一個集合,形成一個停用詞表。篩選出去之后會得到專家論文的詞表以及投稿論文的詞表,然后用TF- IDF算法分別計算每個詞針對于專家知識和投稿論文研究內(nèi)容的權重。

      (3)計算專家與論文的匹配度以及專家推薦:利用空間向量模型計算投稿論文與專家適應的余弦相似性,并降序排列計算出的結果,排在最前面的專家就說明這些專家與投稿論文匹配度高,最后只需將論文送至這些專家然審閱。

      3.2數(shù)據(jù)獲取與數(shù)據(jù)預處理

      數(shù)據(jù)獲取主要是從“萬方數(shù)據(jù)庫”中獲取專家姓名、專家的主題標簽、專家發(fā)表的論文等數(shù)據(jù)。依據(jù)論文被引數(shù)來評價論文質(zhì)量,遴選出專家被引量較高的幾篇論文作為其代表作,將其作為提取專家知識、分析專家研究方向的基礎。另一方面就是投稿論文的數(shù)據(jù)庫的建立,本研究從萬方數(shù)據(jù)庫中隨機遴選出幾篇論文作為投稿論文,作為評審專家算法的輸入。

      數(shù)據(jù)獲取后,需要對專家發(fā)表的論文以及專家主題關系詞等信息進行分詞操作。為了使計算機更好的理解語句的含義,我們應該把一句話變?yōu)橐粋€個獨立的詞。我們知道,在英文的書寫習慣中,空格是分隔詞與詞的主要標志。然而,在中文的行文習慣中,沒有明顯的標志區(qū)分不同的詞。因此,本研究需要首先對專家發(fā)表論文以及專家興趣描述等數(shù)據(jù)進行分詞處理。在這里,我們使用IK Analyzer作為分詞工作,IK Analyzer是一個基于Java語言開源的中文分詞工具。

      3.3特征選擇

      這里介紹一個TF- IDF(Term Frequency–Inverse Document Frequency)算法,該算法是一種常用關鍵詞遴選工具,TF- IDF算法的思想如果一個詞在一篇文章中出現(xiàn)的頻率越高,則說明該詞對于該篇文章越重要;如果這個詞在其它文章中出現(xiàn)的次數(shù)很少,則認為此詞或短語具有越高的區(qū)分能力。在本研究中,我們借助IF- IDF計算每個詞的權重。

      3.4評審專家知識與投稿論文相關性計算

      本研究以投稿論文的研究內(nèi)容與專家知識的相關性為依據(jù)為投稿論文遴選出合適的評審專家。本研究引入向量空間模型(VSM, Vector Space Model)計算兩者的相關性。VSM算法是借助于詞表和遴選關鍵詞的權值把投稿論文的研究內(nèi)容和專家知識表示為空間向量,并利用COS來計算兩個向量的夾角,表示其相關性。第i位候選專Ei家與投稿論文S之間的相關性標記為:

      4.結論

      科研論文是科學研究的重要表現(xiàn)方式,是引領技術發(fā)表的指南針。因此,對論文發(fā)表流程的把控是保證論文質(zhì)量的關鍵。在論文的發(fā)表過程中,為其尋找特定的評審專家又是論文發(fā)表中關鍵的一環(huán)。因此,為了保證論文的質(zhì)量,首先應該建立科學合理的評審專家遴選與推薦方法。然而,目前關于推薦系統(tǒng)的大多都應用到電子商務、社交網(wǎng)絡以及數(shù)字圖書館領域,而較少的對評審專家推薦的研究。為此,本研究首先從專家的研究興趣描述、專家發(fā)表的論文以及相應的資料數(shù)據(jù)中挖掘?qū)<抑R并利用停用詞表對無實際意義的詞以及特殊符號進行剔除,并用IF- IDF為每個代表性的詞計算權重,然后,計算投稿論文的研究內(nèi)容與專家知識之間的相關性,并以此為依據(jù)為投稿論文遴選出相關的專業(yè)。

      但是,在專家推薦的過程中,仍有一些實際的問題值得深入探討。例如,專家在其科研活動中發(fā)表多篇論文,但是并不是每一篇論文專家都能夠以完全足夠的精力投入到該論文中去。因此,在后續(xù)的研究中,我們更應該首先遴選出專家的代表作,并以此為依據(jù)遴選出相關的專家。

      參考文獻

      [1] 劉一星,梁山.基于改進ATSVM算法的評審專家自動推薦模型[J].重慶科技學院學報(自然科學版),2010,01:134-136.

      [2] 余峰,余正濤,楊劍鋒,郭劍毅,嚴馨.基于主題信息的項目評審專家推薦方法[J].計算機工程,2014,06:201-205.

      [3] 鞏軍,劉魯.基于個人知識地圖的專家推薦[J].管理學報,2011,09:1365-1371.

      [4] Gollapalli S D, Mitra P, Giles C L. Ranking authors in digital libraries[C]//Proceedings of the 11th annual international ACM/ IEEE joint conference on Digital libraries. ACM, 2011: 251-254.

      猜你喜歡
      推薦系統(tǒng)
      數(shù)據(jù)挖掘在選課推薦中的研究
      軟件(2016年4期)2017-01-20 10:09:33
      基于用戶偏好的信任網(wǎng)絡隨機游走推薦模型
      基于個性化的協(xié)同過濾圖書推薦算法研究
      個性化推薦系統(tǒng)關鍵算法探討
      淺談Mahout在個性化推薦系統(tǒng)中的應用
      關于協(xié)同過濾推薦算法的研究文獻綜述
      商(2016年29期)2016-10-29 15:22:08
      一種基于自適應近鄰選擇的協(xié)同過濾推薦算法
      UGC標簽推薦系統(tǒng)的一種新的標簽清理方法
      商(2016年15期)2016-06-17 17:39:50
      網(wǎng)上商品推薦系統(tǒng)設計研究
      基于消費者視角的在線推薦系統(tǒng)研究綜述
      中國市場(2016年2期)2016-01-16 10:16:10
      图木舒克市| 宾川县| 独山县| 龙山县| 玛曲县| 菏泽市| 独山县| 揭西县| 仪陇县| 盘锦市| 青神县| 左云县| 台江县| 四子王旗| 邹平县| 新安县| 桐庐县| 湘乡市| 泸定县| 富源县| 来安县| 云龙县| 会宁县| 垣曲县| 伊金霍洛旗| 临泉县| 松阳县| 台山市| 宝应县| 滕州市| 宝丰县| 兴仁县| 新蔡县| 赤峰市| 景谷| 盐津县| 嘉禾县| 安新县| 花莲县| 昭通市| 金乡县|