尹夢(mèng)巖 王夢(mèng)霞
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局審查協(xié)作廣東中心,廣東 廣州 510000)
檢索是專利行政審批中非常關(guān)鍵的環(huán)節(jié),而檢索離不開檢索系統(tǒng),傳統(tǒng)的檢索系統(tǒng)如中文摘要庫(kù)、中文全文庫(kù)、DWPI數(shù)據(jù)庫(kù),一些新的語(yǔ)義檢索系統(tǒng)如Patentics、Incopat也為人們熟知,智能語(yǔ)義檢索系統(tǒng)的特點(diǎn)在于基于語(yǔ)義檢索模型與模型構(gòu)建后的向量空間矩陣計(jì)算[1],并不局限于關(guān)鍵詞的比對(duì),而是整個(gè)文獻(xiàn)之間的關(guān)系,依托于大數(shù)據(jù)的處理,從而更快更好地得到對(duì)比文件。
相應(yīng)的,國(guó)家知識(shí)產(chǎn)權(quán)局也推出了自己的智能檢索環(huán)境,在保留原有S系統(tǒng)核心功能的基礎(chǔ)上,新增加了語(yǔ)義檢索、語(yǔ)義排序等智能化檢索模塊[2]?;谏鲜龉δ?,智能檢索環(huán)境提供了四種常用的檢索策略,分別為純語(yǔ)義檢索、先語(yǔ)義后布爾限定、先布爾檢索后語(yǔ)義排序和純布爾檢索[3],其中語(yǔ)義排序是智能檢索環(huán)境的核心功能。語(yǔ)義排序功能的實(shí)現(xiàn)和其他智能檢索環(huán)境類似,先提取本申請(qǐng)或者自定義文本中的關(guān)鍵詞等作為語(yǔ)義分詞,然后生成詞典,計(jì)算詞向量,得到語(yǔ)義分詞的關(guān)系矩陣,對(duì)相關(guān)的文獻(xiàn)根據(jù)關(guān)系矩陣計(jì)算相關(guān)度并進(jìn)行排序。由此可見,語(yǔ)義分詞對(duì)于文獻(xiàn)的檢索是非常關(guān)鍵的。一般情況,智能檢索環(huán)境會(huì)給出約20個(gè)語(yǔ)義分詞以及相關(guān)的權(quán)重,審查員在檢索時(shí)可對(duì)語(yǔ)義分詞進(jìn)行增加、刪減和/或更改權(quán)重,以期望更快地得到可用對(duì)比文件,然而,語(yǔ)義分詞的調(diào)整方向有很多,如何干預(yù)分詞才能夠更加準(zhǔn)確快速地定位對(duì)比文件,是值得探討的問(wèn)題,本研究結(jié)合兩個(gè)案例對(duì)語(yǔ)義檢索過(guò)程中語(yǔ)義分詞調(diào)整的調(diào)整策略進(jìn)行初步探討。
如前所述,語(yǔ)義分詞可以增加、刪減和/或更改權(quán)重,下面主要從增加關(guān)鍵分詞、刪除部分分詞、僅保留關(guān)鍵分詞這三個(gè)情況進(jìn)行探討,并相應(yīng)地調(diào)整關(guān)鍵分詞的權(quán)重,進(jìn)而得到這三種情況下分詞對(duì)對(duì)比文件的排序影響。
一種可降解環(huán)??邸?quán)利要求1范圍如下。其特征在于,包括以下重量份數(shù)配比的原料:PLA和增塑劑。根據(jù)記載,本發(fā)明提供了一種可降解環(huán)??奂捌渖a(chǎn)工藝,具備可降解環(huán)保等優(yōu)點(diǎn),該種漸變色樹脂紐扣以及其他塑料紐扣無(wú)法進(jìn)行自然降解,不能夠形成二氧化碳和水等自然界常見形態(tài)的化合物,對(duì)地球環(huán)境造成巨大的威脅,故而提出一種可降解環(huán)??奂捌渖a(chǎn)工藝解決上述問(wèn)題。因此,本申請(qǐng)的要點(diǎn)在于使用聚乳酸制備成可降解的紐扣,關(guān)鍵詞為聚乳酸+紐扣。
首先進(jìn)行純語(yǔ)義檢索,在智能檢索數(shù)據(jù)庫(kù)中選擇中文全文庫(kù),語(yǔ)義基準(zhǔn)為本申請(qǐng)的申請(qǐng)?zhí)?,瀏覽前5頁(yè)給出的100篇文獻(xiàn),其中無(wú)可用對(duì)比文件。然后進(jìn)行布爾檢索后語(yǔ)義排序,數(shù)據(jù)庫(kù)不變,限定關(guān)鍵組分進(jìn)行檢索,檢索式如下:(聚乳酸or PLA or聚丙交酯or P?LA)p(紐扣or扣or紐)檢索結(jié)果共851篇,瀏覽得到文獻(xiàn)CN101902932A,其公開了由生物質(zhì)原料制成的鈕或鍵,其具有160℃以上的熱變形溫度。所述的鈕或鍵將含有樹脂的成型材料成型而成,其中所述樹脂包含聚乳酸;通過(guò)適用JIS-S-4025,具有230 N以上的強(qiáng)度。該文獻(xiàn)出現(xiàn)在第38位,不算靠前,但經(jīng)分析可知,此對(duì)比文件和本申請(qǐng)相關(guān)度很高,已經(jīng)公開了本申請(qǐng)的發(fā)明構(gòu)思,按照上述思路調(diào)整檢索的語(yǔ)義分詞,嘗試分析語(yǔ)義分詞和文獻(xiàn)排序的關(guān)系。
1.1.1 增加關(guān)鍵分詞。展開系統(tǒng)中給出的語(yǔ)義分詞,分別為固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、減水、精化、抗拉伸、切粒、攪拌釜、聚乳酸、可降解、開環(huán)、自然界、淀粉,而從前面的分析可知,關(guān)鍵的分詞為聚乳酸、紐扣/鈕扣,因此添加語(yǔ)義分詞紐扣、鈕扣,并將紐扣、鈕扣和聚乳酸的權(quán)重調(diào)整為5,對(duì)比文件出現(xiàn)在第43位,相關(guān)度反而降低。
降低上述語(yǔ)義分詞的權(quán)重為4,發(fā)現(xiàn)該對(duì)比文件出現(xiàn)在第39位,相關(guān)度增加;繼續(xù)調(diào)整權(quán)重為3,相應(yīng)對(duì)比文件出現(xiàn)在第27位;調(diào)整為2/1,相應(yīng)排在第14/22位。除去前面一些時(shí)間不可用的文獻(xiàn),這樣的排序已經(jīng)很靠前了。
1.1.2 刪除部分分詞。從前面給出的分詞中可以看出有些分詞如攪拌釜、固相聚合在該申請(qǐng)中只是泛泛提及,和該申請(qǐng)關(guān)鍵的發(fā)明點(diǎn)關(guān)系不大,將這些分詞刪除,并將分詞聚乳酸、紐扣權(quán)重調(diào)整為5,以申請(qǐng)?zhí)枮榛鶞?zhǔn)進(jìn)行語(yǔ)義排序,上述對(duì)比文件排序?yàn)榈?7位;將分詞權(quán)重調(diào)整為4,對(duì)比文件排序?yàn)榈?6位;繼續(xù)權(quán)重調(diào)整為3,對(duì)比文件排序?yàn)榈?4位。權(quán)重調(diào)整為2,對(duì)比文件排序?yàn)榈?5位;權(quán)重調(diào)整為1,對(duì)比文件排序?yàn)榈?7位。
1.1.3 僅保留關(guān)鍵分詞。將認(rèn)為不相關(guān)的分詞全部刪除,僅保留關(guān)鍵的聚乳酸、紐扣/鈕扣,并將權(quán)重設(shè)置為5,語(yǔ)義排序后該文獻(xiàn)排在第43位。隨后將分詞權(quán)重依次調(diào)整為4→3→2→1,對(duì)比文件相應(yīng)的排序依次為41→33→12→24。
目前分詞中僅含有上述三個(gè)分詞,可以進(jìn)一步探討哪個(gè)分詞對(duì)結(jié)果影響最大,設(shè)置分詞聚乳酸和鈕扣的權(quán)重使其不同,調(diào)整聚乳酸分詞權(quán)重為5,其他分詞權(quán)重為1,結(jié)果對(duì)比文件直接降到了第116位;調(diào)整紐扣分詞權(quán)重為5,聚乳酸權(quán)重為1,對(duì)比文件排序?yàn)榈?6位。從上面的結(jié)果可以知道,分詞聚乳酸對(duì)對(duì)比文件排序產(chǎn)生是負(fù)向影響,而紐扣則產(chǎn)生正向影響的。調(diào)整紐扣分詞權(quán)重為3,聚乳酸等分詞權(quán)重為2,對(duì)比文件排序?yàn)榈?3位。刪除分詞聚乳酸,對(duì)比文件排序變?yōu)榈?9位。
對(duì)上文中探究過(guò)程進(jìn)行總結(jié),見表1。
從表1可以看出,是否刪除分詞對(duì)排序影響不大,三種情況下對(duì)比文件的排序和分詞權(quán)重的關(guān)系是相似的,分詞權(quán)重從5變化到1時(shí),對(duì)比文件的排序都是先變得更加靠前然后有所下降,因此設(shè)置分詞權(quán)重為2或3時(shí),對(duì)比文件排序更為靠前,有更大可能更快獲得對(duì)比文件。
表1 分詞調(diào)整的探究過(guò)程總結(jié)
上述語(yǔ)義分詞的調(diào)整結(jié)果和預(yù)想有所差別,比如關(guān)鍵特征的分詞權(quán)重很高,刪除無(wú)關(guān)分詞僅保留關(guān)鍵分詞,反而對(duì)比文件的排序較低,這可能是因?yàn)橹悄軝z索環(huán)境下,以申請(qǐng)?zhí)栕鳛檎Z(yǔ)義基準(zhǔn)時(shí),對(duì)一篇文獻(xiàn)標(biāo)引的語(yǔ)義分詞是非常多的,可能有幾百個(gè),審查員能看到的僅有前20個(gè),存在大量看不到無(wú)法調(diào)整的語(yǔ)義分詞,而對(duì)于對(duì)比文件的排序,并不是一兩個(gè)分詞決定的,而是多個(gè)分詞的組合決定的,每篇文獻(xiàn)都有大量的分詞組成的組合,在這兩個(gè)文獻(xiàn)之間進(jìn)行相似度的匹配,因此,在調(diào)整分詞的時(shí)候,部分分詞的刪除可能并不是必要的,而分詞的權(quán)重也并不是越重越好。
為了驗(yàn)證該猜測(cè),下面調(diào)整語(yǔ)義排序基準(zhǔn)為自定義文本,排除看不到的分詞的影響,和前面類似的只保留分詞聚乳酸、紐扣/鈕扣,并設(shè)置權(quán)重為5,對(duì)比文件排序在第192位,將權(quán)重依次調(diào)整為4→3→2→1,排序位置均為192位,并無(wú)變化。這說(shuō)明貌似不相關(guān)的語(yǔ)義分詞其實(shí)對(duì)對(duì)比文件的排序篩選是有效果的,為了驗(yàn)證這些分詞的效果,在上述基礎(chǔ)上手動(dòng)添加系統(tǒng)給出的并不關(guān)鍵的分詞,即添加固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、減水、精化、抗拉伸、切粒、攪拌釜、可降解、開環(huán)、自然界、淀粉,并且設(shè)置權(quán)重和原有的相同,語(yǔ)義排序后對(duì)比文件為第158位。類似地刪除攪拌釜、固相聚合,對(duì)比文件變?yōu)榈?85位。這說(shuō)明確實(shí)存在其他分詞也在影響對(duì)比文件的排序,相關(guān)對(duì)比文件的排序是多個(gè)分詞的組合決定的,刪除不相關(guān)的分詞反而會(huì)影響對(duì)比文件的位置。
系統(tǒng)中對(duì)比文件給出的語(yǔ)義分詞為酒石黃、氫氧化鉍、紐扣、氧化鐵棕、碳酸鉛、染色性、青藍(lán)、光澤、分散染料、JIS、半透明、珠光粉、高品質(zhì)、強(qiáng)度高、樹脂、酞青藍(lán)、擠壓、氧化鐵黃、立構(gòu)、透明,可以看到分詞中存在著紐扣,因此上述分詞調(diào)整中紐扣權(quán)重的調(diào)整對(duì)于對(duì)比文件的排序是正相關(guān)的。
不過(guò)相關(guān)的分詞和該申請(qǐng)差別也很大,而且和對(duì)比文件主要公開的內(nèi)容也不相符,對(duì)比文件的語(yǔ)義分詞存在著大量顏料相關(guān)的關(guān)鍵詞,其實(shí)這只是對(duì)比文件泛泛提及的技術(shù)特征,所以直接語(yǔ)義檢索無(wú)法得到該對(duì)比文件,這也說(shuō)明了布爾檢索的必要性。進(jìn)一步的,該結(jié)果也說(shuō)明了將看似無(wú)關(guān)的分詞全部或部分刪除后,對(duì)比文件反而不容易獲得。
故從案例1來(lái)看,對(duì)分詞的調(diào)整建議如下:①不進(jìn)行調(diào)整,也可以比較快速地得到對(duì)比文件;②在進(jìn)行調(diào)整時(shí),可以先嘗試增加關(guān)鍵的分詞,相應(yīng)的權(quán)重設(shè)置為2或3即可,不要進(jìn)行分詞的刪除,因?yàn)閺那懊娴慕Y(jié)果來(lái)看,無(wú)關(guān)分詞的存在反而提高了對(duì)比文件的順次,這可能是因?yàn)檫@部分分詞只是看似不相關(guān),其實(shí)在整體上影響申請(qǐng)文件和對(duì)比文件之間的相似程度。
下面結(jié)合案例2來(lái)看一下上述結(jié)論是否準(zhǔn)確。
一種PPE/PS合金及其制備方法和應(yīng)用。權(quán)利要求1:一種PPE/PS合金,其特征在于,按重量份計(jì),包括以下組分:PPE樹脂和PS樹脂總重量份為100份,重量比PPE∶PS=6∶1至1∶1;碳納米管2~10份。根據(jù)說(shuō)明書的記載,該申請(qǐng)要解決的技術(shù)問(wèn)題為提供一種同時(shí)具有表面無(wú)脫碳、熱變形溫度高、電阻值大于E5的PPE/PS合金。主要的發(fā)明點(diǎn)在于通過(guò)復(fù)配一定比例的PPE/PS合金、采用碳納米管代替導(dǎo)電炭黑,解決了PPE/導(dǎo)電炭黑的制件表面脫碳的技術(shù)缺陷。同時(shí),具有熱變形溫度高、當(dāng)添加玻璃纖維時(shí),該發(fā)明PPE/PS合金還具有制件表面無(wú)浮纖的優(yōu)點(diǎn),滿足ICTRAY盤行業(yè)的使用需求??梢钥闯霰旧暾?qǐng)的檢索要點(diǎn)在于組成,即聚苯醚+聚苯乙烯+碳納米管,因此,首先想到先進(jìn)行語(yǔ)義檢索,并對(duì)語(yǔ)義分詞進(jìn)行調(diào)整。
類似地先進(jìn)行語(yǔ)義檢索,但前200條結(jié)果均未獲取對(duì)比文件。然后布爾檢索后語(yǔ)義排序,數(shù)據(jù)庫(kù)選擇為CNTXT,排序基準(zhǔn)為申請(qǐng)?zhí)?,布爾檢索式為:(聚苯醚or PPS)and(聚苯乙烯or PS)and(碳納米管or CNT),檢索結(jié)果為2 594篇,對(duì)比文件CN101580243A排序第168位。調(diào)整語(yǔ)義分詞,僅在原有語(yǔ)義分詞的基礎(chǔ)上,增加分詞聚苯醚、聚苯乙烯,權(quán)重調(diào)整為3,該對(duì)比文件排序在第46位。
如若將上述關(guān)鍵詞權(quán)重增加,調(diào)整為4,該對(duì)比文件排序在第110位,接著調(diào)整權(quán)重為5,對(duì)比文件排序?yàn)榈?50位??梢钥闯鲈摯螜z索和案例1的規(guī)律相符,當(dāng)然,以上的探討并不嚴(yán)謹(jǐn),也無(wú)法僅通過(guò)兩個(gè)案例得到確定的結(jié)論。不過(guò),從上述案例可以得到一種傾向,即為分詞的權(quán)重先嘗試調(diào)整為2或3,有更大的期望能夠快速得到對(duì)比文件。
從以上的探究可知,在智能檢索環(huán)境中下以申請(qǐng)?zhí)枮檎Z(yǔ)義基準(zhǔn)進(jìn)行檢索時(shí),對(duì)文獻(xiàn)標(biāo)引了大量語(yǔ)義分詞,但受限于實(shí)際應(yīng)用僅能給出一小部分的分詞進(jìn)行調(diào)整,因此,在調(diào)整分詞的時(shí)候需要謹(jǐn)慎,刪除部分分詞的必要性不大甚至有相反效果,可增加部分關(guān)鍵分詞,而分詞的權(quán)重也不宜過(guò)高,建議調(diào)整為2或3即可。