• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多個(gè)智能檢索引擎整合策略及其在專利檢索中的應(yīng)用

      2020-01-04 15:10:30共同第一作者
      關(guān)鍵詞:引擎排序檢索

      劉 琦 李 翔(共同第一作者)

      (知識(shí)產(chǎn)權(quán)出版社有限責(zé)任公司- 知識(shí)挖掘與服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京100081)

      對(duì)于專利查新檢索來說,其最終的目的便是依照檢索人員給出的查詢返回與此查詢相關(guān)的專利文本集合,并將這個(gè)文本集合按照相關(guān)性降序排序后返回給用戶使用。在此過程中,排序這一環(huán)節(jié)對(duì)于決定一個(gè)搜索引擎的效果來說是至關(guān)重要而又意義重大,它直接能夠影響搜索引擎的效果以及審查員用戶的滿意程度。目前,越來越多的人工智能技術(shù)運(yùn)用于專利檢索技術(shù),其形成的智能檢索引擎相對(duì)于傳統(tǒng)的全文文本檢索引擎,更能模仿檢索人員的檢索理念,通過對(duì)待檢專利的理解,抽取關(guān)鍵信息,并進(jìn)行語義擴(kuò)展,從而一定程度上提高了專利文獻(xiàn)的檢準(zhǔn)率和檢全率,然而單一智能引擎的局限性較大,通過研究評(píng)測,發(fā)現(xiàn)不同的引擎對(duì)于特定的檢索案例會(huì)有較好的表現(xiàn),但是對(duì)于另一批案例卻未必如此。每個(gè)引擎很難做到覆蓋全面,在所有領(lǐng)域超出其他引擎。因此,本文研究了多個(gè)智能引擎整合的策略,使用多引擎結(jié)果的互相補(bǔ)充、確定和重調(diào)序,可以使得結(jié)果更為準(zhǔn)確,整體效果在單一的引擎基礎(chǔ)上穩(wěn)定提升。

      多引擎策略整體分為兩個(gè)階段:第一階段,是使用多個(gè)相對(duì)簡單的常用專利檢索模型對(duì)用戶query 從索引中快速檢索出Top-k 候選結(jié)果集。常用檢索模型主要有向量空間模型(Vector Space Model)、布爾模型(Boolean Model)、概率檢索模型BM25等,通常Top-k 的候選集選取還結(jié)合離線計(jì)算質(zhì)量分高的文檔以排除掉文本相關(guān)但質(zhì)量分太低的文檔;第二階段,則使用計(jì)算相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)排序模型對(duì)Top-k 候選結(jié)果集進(jìn)行精確的重排序,因?yàn)門op-K 的候選結(jié)果集數(shù)據(jù)量級(jí)一般不會(huì)很大,這一步計(jì)算可控。多引擎的整合算法,將會(huì)是本文的核心,本文中將從結(jié)果合集、排序評(píng)估,重調(diào)序策略等方面對(duì)多引擎整合算法的構(gòu)建與優(yōu)化過程中的進(jìn)行說明。

      1 多引擎結(jié)果合集

      多引擎結(jié)果合集需要有一個(gè)前提,即單引擎必須經(jīng)過詳細(xì)嚴(yán)格的召回率的評(píng)測,由于篇幅問題,評(píng)測方法不在這里詳細(xì)描述。評(píng)測的目的是對(duì)引擎有明確的了解,需確認(rèn)如下信息:

      1.1 引擎達(dá)到相對(duì)最優(yōu)召回率,所需的檢索結(jié)果集合數(shù)量。理論來說,常規(guī)智能搜索引擎,結(jié)果條數(shù)選取越多,則召回率越高,但是當(dāng)結(jié)果條數(shù)突破一定數(shù)量之后,召回率的提升速度將會(huì)大幅度放緩。多引擎整合策略中,不可能無限制的從各個(gè)引擎選取太多的結(jié)果進(jìn)行整合。因此需要通過評(píng)測,尋找到召回率相對(duì)最佳的臨界點(diǎn),在多引擎整合的時(shí)候,使用該臨界點(diǎn)提取結(jié)果集。

      1.2 引擎擅長的領(lǐng)域或者檢索方面。不同的引擎有不同的側(cè)重方面。有些引擎可能擅長于生物領(lǐng)域,有些可能擅長于機(jī)械領(lǐng)域。有些引擎在跨語言智能檢索方面有優(yōu)勢,有些可能擅長與中文檢索。有些引擎可能在X 類對(duì)比文獻(xiàn)的召回方面有優(yōu)勢,有些引擎則擅長尋找Y 類對(duì)文獻(xiàn)。因此需要通過評(píng)測,定位各個(gè)引擎的優(yōu)勢點(diǎn),為多引擎整合提供依據(jù)。

      多引擎結(jié)果合集,也需要對(duì)各引擎的輸出進(jìn)行規(guī)范化約定:a.各引擎輸出自己的前N 個(gè)結(jié)果。這里的N,就是在評(píng)測中得到的最優(yōu)召回率臨界點(diǎn)。b.每個(gè)引擎在自己的結(jié)果提交中,使用專利申請(qǐng)?zhí)栕鳛殛P(guān)聯(lián)標(biāo)識(shí)進(jìn)行結(jié)果提交。c.每個(gè)引擎需提交結(jié)果的申請(qǐng)?zhí)枂?,以及結(jié)果集中每件專利的相似度排序以及相似度值(相似度值需是數(shù)字,并且做歸一化處理);多引擎結(jié)果合集最終選擇各個(gè)引擎的結(jié)果集的并集,去重后作為多引擎整合調(diào)序的對(duì)象集合。

      2 多引擎整合調(diào)序策略

      本次實(shí)驗(yàn)中,針對(duì)多引擎結(jié)果合集的整合和重新調(diào)序,提出了三種調(diào)序策略,以及一套調(diào)序策略綜合方案。

      2.1“主- 副”型多重確定整合策略

      該調(diào)序策略的主要思路是,充分利用各個(gè)引擎的結(jié)果及排序,使用各結(jié)果集的相關(guān)度排序結(jié)果進(jìn)行多重確定,將其結(jié)果的相似度數(shù)值進(jìn)行線性加合,得到多重確定的專利結(jié)果集。首先是“主- 副”引擎的選定,之所以需要進(jìn)行這個(gè)操作,基本原因在于兩點(diǎn)。單引擎評(píng)測時(shí),多個(gè)引擎的評(píng)測水平可能出現(xiàn)較大差異,我們需要定下線性整合時(shí)的權(quán)重,權(quán)重需更加偏向于效果最好的引擎,從而保證可以得到在最好的單引擎基礎(chǔ)上的更好的檢索結(jié)果。而不至于讓相對(duì)質(zhì)量較差的引擎“拖后腿”。“主-副”引擎的模式,可以在不同的檢索側(cè)重領(lǐng)域靈活變化,以適應(yīng)各個(gè)引擎的優(yōu)勢。在“主- 副”引擎選定的基礎(chǔ)上,可以進(jìn)行如下的調(diào)序操作:a.主副引擎檢索結(jié)果求并集。假設(shè)并集數(shù)量為M(本課題實(shí)驗(yàn)環(huán)境下,雙引擎結(jié)果并集數(shù)量為總結(jié)果合集的10%左右);b. 將并集結(jié)果作為新結(jié)果集的前M件專利結(jié)果,使用這M件專利在主引擎中的排序作為最終排序;c. 剩余集合,采用A*主引擎相似度+(b1*副引擎1 相似度+ b2*副引擎2相似度+……+ bn*副引擎n 相似度)的方式,加權(quán)多引擎相似度,并按照加權(quán)相似度進(jìn)行重新排序(注意,a 要遠(yuǎn)大于sumb);該策略屬于保守型策略,優(yōu)點(diǎn)在于排序計(jì)算快(其計(jì)算速度相對(duì)于智能檢索環(huán)節(jié)幾乎可以忽略不計(jì)),提升穩(wěn)定(肯定可以比最好的引擎提升一點(diǎn))。缺點(diǎn)在于提升不大,可能會(huì)丟棄一些副引擎挑選出來的好專利。

      2.2“多級(jí)文本聚類”整合策略

      多級(jí)文本聚類策略,完全摒棄了單引擎提供的相似度排序信息,而使用獨(dú)立策略進(jìn)行重新整合調(diào)蓄。它的基本操作如下:

      a.對(duì)多引擎檢索結(jié)果合集進(jìn)行特征抽?。梢允褂弥悄軝z索環(huán)節(jié)的抽取結(jié)果);b.將待檢專利加入結(jié)果合集;c.對(duì)步驟2 的集合進(jìn)行多次控制類別數(shù)量的文本聚類,聚類的類別(轉(zhuǎn)下頁)數(shù)量從2 開始,成等差數(shù)列,至結(jié)果集專利數(shù)/5 為止(等差數(shù)列的間隔可以自行選擇,本課題實(shí)驗(yàn)環(huán)境下為10);d.記錄每一次聚類的結(jié)果。在每一次結(jié)果中,與待檢專利聚為一類的專利記分為1,否則記0。e.多級(jí)聚類完畢后,累加每一件專利的積分;f.使用積分進(jìn)行重新排序(若專利重分,可以使用多引擎相似度線性加成進(jìn)行細(xì)排序)多級(jí)聚類策略的優(yōu)點(diǎn),在于進(jìn)行了重新的語義抽取和排序,完全不受前一個(gè)環(huán)節(jié)檢索結(jié)果的影響。它的智能抽取細(xì)化程度可以遠(yuǎn)遠(yuǎn)超出智能檢索環(huán)節(jié)。例如智能檢索環(huán)節(jié)的語義要素抽取,最多至50 個(gè)就會(huì)影響檢索策略了,但聚類環(huán)節(jié)可以到數(shù)千個(gè)。這樣,語義特征就更加細(xì)致,其聚類結(jié)果可能能夠更準(zhǔn)確的表征語義相關(guān)度。該策略的缺點(diǎn),在于多重聚類的耗時(shí)非常的長,有可能大幅度降低智能檢索的效率。

      2.3“神經(jīng)網(wǎng)絡(luò)”分類策略

      “神經(jīng)網(wǎng)絡(luò)”分類策略是將排序問題轉(zhuǎn)化成為了分類問題,使用一個(gè)訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)分類器,對(duì)專利進(jìn)行二元分類(是X類文獻(xiàn),不是X 類文獻(xiàn)),將其分類結(jié)果,按照分類傾向性進(jìn)行排序。其基本操作流程是:a.使用審查員歷史審查數(shù)據(jù)中的X 類對(duì)比文獻(xiàn)和待檢專利,作為訓(xùn)練數(shù)據(jù),對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練(本課題使用的為CNN 卷積神經(jīng)網(wǎng)絡(luò));b.將待檢專利作為輸入,輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中,輸出它的分類結(jié)果。c.使用分類結(jié)果進(jìn)行排序(X 類文獻(xiàn)在前)。

      “神經(jīng)網(wǎng)絡(luò)”分類策略的優(yōu)點(diǎn)在于:a.速度快。雖然神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要耗費(fèi)大量時(shí)間,但是一旦訓(xùn)練完成,在實(shí)際檢索運(yùn)算中,計(jì)算速度是非常快的。b.帶有自學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)模型可以通過過往檢索人員的檢索結(jié)果,學(xué)習(xí)訓(xùn)練自己的分類模型。這使得整個(gè)系統(tǒng)是在不斷改進(jìn)提升。c.對(duì)歷史數(shù)據(jù)的擬合非常的好。在訓(xùn)練集合足夠大的基礎(chǔ)上,對(duì)以前檢索人員檢索結(jié)果的擬合可以達(dá)到其他智能引擎不能比擬的程度。但是在本次實(shí)驗(yàn)研究有限時(shí)間內(nèi),神經(jīng)網(wǎng)絡(luò)分類策略的結(jié)果并不好,究其原因在于:a.訓(xùn)練集合嚴(yán)重不足。本研究時(shí)間有限,僅使用了數(shù)千篇專利作為訓(xùn)練集,遠(yuǎn)遠(yuǎn)不夠。但即便是2010 年以后公布的所有帶X 類對(duì)比文獻(xiàn)的專利,總量也僅有數(shù)十萬。該數(shù)量對(duì)于深度訓(xùn)練是有些不足的。b.分類任務(wù)的描述設(shè)定存在局限性。本次研究之所以將分類任務(wù)設(shè)定為二元分類(是X 類對(duì)比文獻(xiàn),不是X 類對(duì)比文獻(xiàn)),是因?yàn)閄 類文獻(xiàn)相對(duì)于非對(duì)比文獻(xiàn),有著較為明確的差異,而且所需訓(xùn)練集少,工作量可以接受。但這個(gè)任務(wù)假設(shè)過于簡單,對(duì)于專利查詢結(jié)果的各類情況考慮不足,可能導(dǎo)致訓(xùn)練集合永遠(yuǎn)無法擬合。

      2.4 調(diào)序策略綜合方案

      本節(jié)提出了三種整合調(diào)序策略,其實(shí)隨著研究的深入,還會(huì)有更多的可用調(diào)序策略。每個(gè)策略都會(huì)有其優(yōu)點(diǎn)和局限性。又會(huì)引發(fā)一個(gè)“老”問題:我們是在這些策略中選擇一個(gè)?還是有辦法綜合評(píng)價(jià)?從本次實(shí)驗(yàn)研究的結(jié)果來看,顯然還是綜合評(píng)價(jià)會(huì)得到較好的結(jié)果。但由于時(shí)間有限,沒能在這個(gè)基礎(chǔ)上再進(jìn)行進(jìn)一步的研究。不過可以提出一個(gè)思路,給后續(xù)的研究者。a.將調(diào)序算法n 得到的排序,進(jìn)行排序的歸一化處理,某一件專利在調(diào)序算法n 下的排序分值為Xn=(集合總數(shù)- 排名)/集合總數(shù)。b.設(shè)定權(quán)重值A(chǔ)1、A2、……An;c.求Y=A1×X1+ A2×X2+…..+ An×Xn;d.使用Y 值做最終的排序??梢?,這仍然延續(xù)了多引擎策略的思路,多策略結(jié)果整合。

      猜你喜歡
      引擎排序檢索
      排序不等式
      恐怖排序
      2019年第4-6期便捷檢索目錄
      節(jié)日排序
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      藍(lán)谷: “涉藍(lán)”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      無形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      基于Cocos2d引擎的PuzzleGame開發(fā)
      國際標(biāo)準(zhǔn)檢索
      宜章县| 土默特右旗| 肇源县| 南昌市| 宜章县| 遵义县| 岳阳市| 朝阳市| 冀州市| 资源县| 房产| 淮北市| 张家口市| 崇阳县| 烟台市| 汽车| 富源县| 江都市| 浦县| 太保市| 通辽市| 阳泉市| 太原市| 额济纳旗| 民和| 瓮安县| 高密市| 松桃| 视频| 长泰县| 临桂县| 栖霞市| 临湘市| 祁门县| 嘉兴市| 内江市| 理塘县| 怀宁县| 密山市| 麟游县| 云和县|