杜玉鋒,季 鐸,姜利雪,張桂平
(沈陽航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽 110136)
基于SAO的專利結(jié)構(gòu)化相似度計(jì)算方法
杜玉鋒,季 鐸,姜利雪,張桂平
(沈陽航空航天大學(xué) 知識(shí)工程研究中心,遼寧 沈陽 110136)
該文提出了一種基于subject-action-object(SAO)的專利結(jié)構(gòu)化相似度計(jì)算方法。傳統(tǒng)的基于關(guān)鍵詞的定量分析方法沒有考慮專利自身的結(jié)構(gòu)特點(diǎn),忽略了對專利間內(nèi)在關(guān)系的計(jì)算,該文彌補(bǔ)了傳統(tǒng)的基于關(guān)鍵詞的定量方法的不足。在SAO結(jié)構(gòu)抽取過程中,將最新的實(shí)體抽取工具OLLIE引入到專利領(lǐng)域,得到了比傳統(tǒng)SAO抽取工具更好的抽取結(jié)果。和傳統(tǒng)的SAO方法相比,對Action元組進(jìn)行了大量分析,通過重復(fù)大量實(shí)驗(yàn),確定了Action元組的結(jié)構(gòu)特征。最后,通過實(shí)驗(yàn)驗(yàn)證,將vector space module(VSM)模型和SAO結(jié)構(gòu)進(jìn)行融合,得到了比僅僅通過VSM模型進(jìn)行相似度計(jì)算更好的結(jié)果。
數(shù)據(jù)挖掘;專利相似度;Subject-Action-Object(SAO)技術(shù);實(shí)體抽取工具;OLLIE
在當(dāng)今的科技和工業(yè)領(lǐng)域,專利是一種重要的知識(shí)獲取資源,據(jù)世界知識(shí)產(chǎn)權(quán)組織研究表明 ,全世界最新的發(fā)明創(chuàng)造信息 90%以上首先通過專利文獻(xiàn)反映出來。然而,專利的有效性獲取存在著如下三方面的問題: (1)全世界的專利數(shù)量每年大幅度增加[1];(2)分析專利是一項(xiàng)很耗時(shí)的任務(wù),這需要大量的人力投入[2];(3)專利評定機(jī)構(gòu)對專利的初始評定結(jié)果不盡如人意[3]。
因此,對專利的分析就顯得尤為重要。專利分析的一個(gè)重要方面就是衡量專利的相似度,即通過對專利的聚類,進(jìn)行專利的各方面研究。例如,(1)專利的現(xiàn)有技術(shù)分析,給定一篇專利,然后返回與其技術(shù)相關(guān)的其他專利;(2)專利的侵權(quán)分析,給定一篇被侵權(quán)的專利,然后找出和其內(nèi)容重疊的其他專利;(3)專利地圖的生成,通過專利的相似度矩陣,得到專利之間的直觀表示圖[4]。
傳統(tǒng)的定量分析方法,對關(guān)鍵詞的相似度計(jì)算是最常見的專利相似度計(jì)算方法[4-6]。將專利用關(guān)鍵詞構(gòu)成的詞袋集合表示,然后構(gòu)造關(guān)鍵詞的空間特征向量,通過cosine等計(jì)算公式,得到專利之間的相似度[7]。Xu Feng,Leng Fuhai[8]在通過構(gòu)造關(guān)鍵詞的空間特征向量基礎(chǔ)上,通過加入主成分分析法和層次聚類算法,將形態(tài)學(xué)分析引入進(jìn)來。
然而,定量的分析方法沒有考慮到專利自身所具有的結(jié)構(gòu)特征,專利最重要的結(jié)構(gòu)特征體現(xiàn)在產(chǎn)品、技術(shù)和兩者的關(guān)系上。為了彌補(bǔ)定量分析方法的不足,專利分析中引入了“關(guān)系”概念?!瓣P(guān)系”[9],用來表示“改變主體特征的行為”,為了表示這種關(guān)系,Subject-Action-Object(SAO)模型被廣泛使用。
本文提出了基于SAO的專利結(jié)構(gòu)化相似度計(jì)算方法。和傳統(tǒng)的基于SAO方法相比,(1)通過實(shí)體抽取工具OLLIE抽取SAO三元組;(2)對抽取出來的元組A進(jìn)行結(jié)構(gòu)分析,提取出來的結(jié)構(gòu)特征包括核心詞,動(dòng)詞的ing形式,動(dòng)詞的被動(dòng)形式,not形式,以及介詞情況。
本文接下來的內(nèi)容由四部分組成。第二節(jié)介紹了SAO技術(shù)和實(shí)體抽取工具OLLIE;第三節(jié)詳細(xì)描述了本文提出的研究思路并給出了具體的研究步驟;第四節(jié)通過一個(gè)實(shí)驗(yàn)來驗(yàn)證研究思路,并給出了實(shí)驗(yàn)結(jié)果及分析;最后是“結(jié)論及展望”部分。
2.1 SAO技術(shù)介紹
SAO結(jié)構(gòu)的概念來源于theory of inventive problem sloving(TRIZ)理論,TRIZ理論是描述技術(shù)問題并解決技術(shù)問題的一套理論。這套理論是由Genrich Altshuller從20萬篇專利中抽取技術(shù)信息,總結(jié)了描述專利中創(chuàng)新設(shè)計(jì)功能的關(guān)系,然后通過這些關(guān)系形成一種專利創(chuàng)新的思考模式[10]。SAO結(jié)構(gòu)就是基于TRIZ理論中的關(guān)系函數(shù)形成的。SAO結(jié)構(gòu)的基本單位是“key-concept”,而不是“key-words”[4];在一個(gè)SAO結(jié)構(gòu)中,如果AO(Action-Object)代表對問題的描述,S代表解決問題的方法,那么SAO結(jié)構(gòu)就可以認(rèn)為是能表示問題解決的一種組織形式。例如,“battery energizes bulb”,“battery”是Subject,“energizes”是Action,“bulb”是Object,那么“battery”這個(gè)技術(shù)的目的是給“bulb”提供能量,即“battery”的功能是給“bulb”提供能量。
2.2 實(shí)體抽取工具OLLIE
OLLIE[11-15]是由華盛頓大學(xué)Oren Etzioni教授等人在2012年完成的信息抽取軟件。抽取出的例子見表1。和傳統(tǒng)的SAO抽取工具Knowlegist[16],PAT-analysis tool[17]相比,OLLIE的特色是加入了對語句的淺層句法分析,從而讓抽取出來的實(shí)體更準(zhǔn)確,同時(shí),OLLIE學(xué)習(xí)了一些開放模板,從而可以更廣泛地抽取SAO結(jié)構(gòu)模型。
表1 OLLIE抽取出的SAO信息
本文將SAO結(jié)構(gòu)引入到專利的相似度研究中,在相似度計(jì)算時(shí),融合了基于關(guān)鍵詞的定量分析方法和基于SAO結(jié)構(gòu)的定性分析方法。本文的研究分為以下四個(gè)步驟。(1)SAO結(jié)構(gòu)的抽??;(2)元組A的結(jié)構(gòu)分析;(3)基于SAO結(jié)構(gòu)的相似度計(jì)算;(4)專利的相似度計(jì)算,由基于VSM模型的定量分析方法和基于SAO結(jié)構(gòu)的定性分析方法組成。流程見圖1。
3.1 SAO結(jié)構(gòu)的抽取
在專利中,概要被認(rèn)為是平均信息量最大的專利部分,因此,本文選取專利的概要進(jìn)行SAO結(jié)構(gòu)抽取。本文采用的抽取工具是由華盛頓大學(xué)圖靈實(shí)驗(yàn)室開發(fā)的OLLIE軟件,OLLIE軟件抽取出來的專利信息包括(S,A,O)三元組以及專利句子對應(yīng)的詞法和句法信息。
3.2 元組A的結(jié)構(gòu)分析
在Subject-Action-Object(SAO)結(jié)構(gòu)中,Subject和Object表示專利中產(chǎn)品或技術(shù)的主題詞,作為專利中的實(shí)體,這類詞一般不容易提取。Action表示Subject和Object之間的關(guān)系。由于專利自身的特點(diǎn),專利中的動(dòng)詞一般很固定,而且容易獲得。因此,本課題將SAO的研究主要集中Action元組中。
本文通過大量實(shí)驗(yàn)表明,A結(jié)構(gòu)可以用core-verb,s1,s2,s3,s4五部分表示(見圖2),其中core-verb表示核心動(dòng)詞,s1表示是否含有動(dòng)詞的ing形式,s2表示是否含有動(dòng)詞的被動(dòng)形式,s3表示是否含有not形式,s4表示是否含有介詞。
圖1 研究步驟的主流程圖
圖2 A元組的結(jié)構(gòu)圖
從3.1中,本文可以得到A元組中每個(gè)詞對應(yīng)的詞性和所屬的語塊信息,然后本文構(gòu)造了一個(gè)基于詞性和語塊的A短語結(jié)構(gòu)模板(例子見表2),包含4 000余條規(guī)則。其中,若si為0,則表示在對應(yīng)的語塊和詞性條件下, 元組A不包含si部分;若si為1,則表示在對應(yīng)的語塊和詞性條件下,元組A包含si部分。
表2 語塊詞性規(guī)則模板
通過A短語結(jié)構(gòu)模板,本文將元組A用特征向量表示。例如,“be subjected to”表示為(subjected,0,1,0,1),“is working on”表示為(working,1,0,0,1),“do not carry”表示為(carry,0,0,1,0)。
3.3 基于SAO結(jié)構(gòu)的相似度計(jì)算
第i個(gè)SAO結(jié)構(gòu)和第j個(gè)SAO結(jié)構(gòu)的相似度等于對應(yīng)A結(jié)構(gòu)的相似度SimA(i,j)和對應(yīng)S-O結(jié)構(gòu)的相似度SimS-O(i,j)的乘積,表示為公式(1)。
(1)
(2)
SimS-O(i,j)表示第i個(gè)SAO中的S-O元組和第j個(gè)SAO中的S-O元組的相似度結(jié)果。首先,將S-O元組中的詞進(jìn)行停用詞過濾,然后構(gòu)造S-O元組詞的VSM矩陣,最后通過夾角余弦得到SimS-O(i,j)。
3.4 專利的相似度計(jì)算
本文的專利相似度計(jì)算方法是由基于關(guān)鍵詞的定量分析方法和基于專利結(jié)構(gòu)的定性分析方法兩者融合得到的,見公式(3)。
(3)
本實(shí)驗(yàn)通過KNN算法對測試語料的每篇文檔進(jìn)行三次分類,分類的依據(jù)依次為IPC的主部(第一位數(shù))、大類(前三位數(shù))、小類(前四位數(shù))。實(shí)驗(yàn)考查了在不同分類依據(jù)下SAO結(jié)構(gòu)在專利相似度計(jì)算中所起的作用。
4.1 實(shí)驗(yàn)語料
本實(shí)驗(yàn)所用語料來自美國國家專利及商標(biāo)局(USPTO)2004~2006年的專利語料,共56 000篇,語料內(nèi)容有專利號,國際分類號(IPC)和概要組成。按照國際分類號的主部進(jìn)行平均分配,A~H部各7 000篇。其中,訓(xùn)練語料為54 400篇,A~H部各6 800篇,測試語料為1 600篇,A~H部各200篇。語料分類情況見表3。
表3 語料分類明細(xì)
通過OLLIE軟件,從54 400篇訓(xùn)練語料里面抽取出801 730個(gè)SAO結(jié)構(gòu),從1 600篇測試語料里面抽取出23 580個(gè)SAO結(jié)構(gòu),平均從每篇專利概要里面抽取出14.7個(gè)SAO結(jié)構(gòu)。
4.2 評測方法
本實(shí)驗(yàn)通過KNN算法對測試語料的每篇文檔進(jìn)行分類。對每次分類的結(jié)果,設(shè)初始分值為0,當(dāng)分類結(jié)果與測試文檔本身的類別相符時(shí),視為分類正確,分值加1;否則,視為分類錯(cuò)誤,不加分。對于整個(gè)測試語料,準(zhǔn)確率為總分除以文檔的總數(shù)。見公式(4)。
(4)
4.3 實(shí)驗(yàn)結(jié)果與分析
表4 公式(3),VSM結(jié)果分析表
表5 公式(3),SAO結(jié)果分析表
表6 公式(3),VSM+SAO結(jié)果分析表
表7 VSM,SAO,VSM+SAO最優(yōu)結(jié)果比較
從表4中可以看到,通過VSM模型進(jìn)行專利的相似度計(jì)算,隨著K值的增加,分類結(jié)果的準(zhǔn)確率依次降低;從表5中可以看到,通過SAO結(jié)構(gòu)計(jì)算專利的相似度,隨著k值的增加,分類結(jié)果的準(zhǔn)確率先升高,后降低,在k=30處達(dá)到最高值。這是因?yàn)?,在SAO實(shí)驗(yàn)中,本課題是以Action為核心的,而表示Action的詞代表著一種subject和object之間的關(guān)系,在這種關(guān)系下,對應(yīng)的subject和object不需要一致,例如,“A includes B,C”,“D includes E,F(xiàn)”,subject和object之間的關(guān)系是“includes”,而第一個(gè)subject是“A”,第二個(gè)subject卻是“D”。當(dāng)k特別小的時(shí)候(k≤30),隨著k值的增大,這種不一致現(xiàn)象越來越弱,導(dǎo)致準(zhǔn)確率越來越高,當(dāng)k增大的一定程度(k≥30),這種不一致現(xiàn)象可以忽略。通過表4和表5可以看到,僅僅通過SAO結(jié)構(gòu),并不能提高專利分類的準(zhǔn)確率。因?yàn)镾AO結(jié)構(gòu)表示專利的內(nèi)在關(guān)系,忽略了對專利中非結(jié)構(gòu)化部分的考慮。
通過表7可以看到,VSM模型加SAO結(jié)構(gòu),在依據(jù)IPC的大類(前三位數(shù))、小類(前四位數(shù))進(jìn)行分類時(shí),效果最好。VSM模型是從整體上對專利進(jìn)行分析;SAO結(jié)構(gòu)僅對專利中結(jié)構(gòu)化的部分進(jìn)行考慮,側(cè)重于對專利內(nèi)容的深度挖掘。如果僅僅通過VSM模型進(jìn)行專利的相似度計(jì)算,將會(huì)忽略專利中結(jié)構(gòu)化的內(nèi)容,如果僅僅通過SAO結(jié)構(gòu)進(jìn)行專利的相似度計(jì)算,將沒有從整體進(jìn)行考慮。兩者結(jié)合才能起到更好的作用。在融合VSM模型和SAO結(jié)構(gòu)時(shí),公式(3)中參數(shù)α的確定是一個(gè)研究的難點(diǎn),如果對專利進(jìn)行簡單分類的話,那么α取大值,說明更加偏向從整體上對專利進(jìn)行分析,而忽略了專利的結(jié)構(gòu);如果對專利進(jìn)行細(xì)致分類的話,那么α取小值,說明更加偏向從結(jié)構(gòu)上對專利進(jìn)行分析。對于本實(shí)驗(yàn),將α的值從0,0.1,0.2,……,直至1,當(dāng)α等于0.8時(shí)效果最好。
本文將SAO結(jié)構(gòu)引入到專利的相似度計(jì)算方法中。通過對專利結(jié)構(gòu)的分析,揭示了專利間的內(nèi)在聯(lián)系。在SAO結(jié)構(gòu)中,本文分析了元組A的結(jié)構(gòu),將元組A用一個(gè)五元組來表示,使得SAO結(jié)構(gòu)能更好地反應(yīng)專利的內(nèi)部結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,在傳統(tǒng)的基于關(guān)鍵詞的定量分析方法中加入SAO結(jié)構(gòu),在依據(jù)IPC的大類(前三位數(shù))、小類(前四位數(shù))進(jìn)行分類時(shí),可以取得更好的效果。隨著人們對專利分析的要求越來越高,專利分析已經(jīng)從簡單的基于關(guān)鍵詞的分析,轉(zhuǎn)變成基于“概念”的分析,針對這種轉(zhuǎn)變,SAO結(jié)構(gòu)將會(huì)在未來專利研究的過程中起到更加巨大的作用。
通過SAO結(jié)構(gòu)計(jì)算專利相似度的過程中,本文是以A元組為主,弱化了S,O元組對最終計(jì)算結(jié)果的影響。接下來的工作,本研究打算先從大量專利中構(gòu)建一個(gè)關(guān)于S,O元組的知識(shí)庫,然后在計(jì)算專利相似度的過程中,將S,O元組也考慮進(jìn)去。
[1] Bergmann I, Butzke D, Walter L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D Management, 2008,38(5): 550-562.
[2] Yanhong L, Runhua T T. A text-mining-bases patent analysis in product innovative process[J]. Trends in computer aided innovation 2007: 89-96.
[3] Burke P F, Reitzig M. Measuring patent assessment quality-analyzing the degree and kind of (in)consistency in patent offices’ decision making[J]. Research Policy, 2007,36(9): 1404-1430.
[4] Lee B, Jeong Y-I. Mapping Korea’s national R&D domain of robot technology by using the co-word analysis[J]. Scientometrics,2008, 77(1): 3-19.
[5] Lee S, Lee S, Seol H, et al. Using patent information for designing new product and technology: Keyword based technology roadmapping[J]. R&D Management, 2008,38(2): 169-188.
[6] Yoon B, Park Y. A text-mining-based patent network: Analytical tool for high-technology trend[J]. The Journal of High Technology Management Research, 2004,15(1): 37-50.
[7] Moehrle M. Measures for textual patent similarities: a guided way to select appropriate approaches[J]. Scientometrics, 2010,85(1): 95-109.
[8] Xu Feng,Leng Fuhai. Patent text mining and informetricbased patent technology morphological analysis: an empirical study[J]. Technology Analysis & Strategic Management, 2012: 467-479.
[9] Savransky S D. Engineering of creativity: Introduction to TRIZ methodology of inventive problem solving[M]. London: CRC Press.2000:1-383.
[10] Altshuller G S. Creativity as an exact science: the theory of the solution of inventive problems[M]. New York: Gordon and Breach Science Publishers,1984.
[11] Michele Banko. Open information extraction for the web[D]. PHD thesis, University of Washington,2009.
[12] Thomas Lin. Leveraging Knowledge Bases in Web Text Processing[D]. PHD thesis, University of Washington,2012.
[13] Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying relations for open information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.2011.
[14] Oren Etzioni, Anthony Fader, Janara Christensen, et al. Open information extraction: the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence.2011.
[15] Mausam, Michael Schmitz, Robert Bart, et al. Open Language Learning for Information Extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CONLL).2012.
[16] Goldfire Inventor, www.invention-machine.com.
[17] Cascini G. System and Method for performing functional analyses making use of a plurality of inputs[P]. European Patent Office, International Publication Number WO 03/077154 A2,2002.
[18] Tseng Y-H, Lin C-J, Lin Y-I. Text mining techniques for patent analysis[J]. Information Processing & Management, 2007,43(5): 1216-1247.
Patent Similarity Measure Based on SAO Structure
DU Yufeng, JI Duo, JIANG Lixue, ZHANG Guiping
(Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang, Liaoning 110136,China)
This paper proposes a metric for patents’ similarity based on Subject-Action-Object(SAO) structure. In contrast to the traditional approach based on key-words, this method captures the patent structure and consider the relationship among patents. To extract the SAO triple, this paper applies OLLIE, the latest entity information extraction tool, into the patent field. In addition, this paper investigates into the action element, outlining the structure of action element. Finally, this paper combines the SAO structure with the VSM module to calculate the patent similarity, achieving an improvement on the pure VSM based approach.
data mining; patent similarity; technology Subject-Action-Object(SAO); entity information extraction tool; Ollie
杜玉鋒(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:DUYF1988@163.com季鐸(1981—),博士研究生,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,信息檢索。E?mail:jiduo_1@163.com姜利雪(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:jlxsnow@163.com
1003-0077(2016)01-0030-06
2013-07-10 定稿日期: 2014-00-00
國家自然科學(xué)基金(61073123);遼寧省教育廳項(xiàng)目(L2011031)
TP391
A