專利數據檢索與分析系統的設計與實現

2021-06-28 17:40管魏琪

電腦知識與技術 2021年10期

管魏琪

摘要：技術在繼承與創(chuàng)新中發(fā)展。專利檢索為技術繼承提供了便利，檢索能夠更快的了解某項技術同時還能避免重復的勞動;專利分析可以預測領域空白點為創(chuàng)新做指引。專利檢索與分析使企業(yè)明晰世界專利的動態(tài)、避免重復開發(fā)與資金浪費，對企業(yè)而言功勞甚大。本文以鋼鐵、電力產業(yè)專利作為數據源構建專利數據檢索與分析系統。

關鍵詞：數據清洗;專利檢索;專利分析;聚類分析

中圖分類號：TP31? ? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）10-0040-03

Abstract： Technology is developed in inheritance and innovation. Patent search provides convenience for technology inheritance， which can quickly understand a certain technology while avoiding duplication of labor; patent analysis can predict gaps in the field and guide innovation. Patent search and analysis enable companies to clarify the dynamics of patents in the world， avoid repeated development and waste of funds， which is a great contribution to companies. This article uses the steel and electric power industry patents as data sources to construct a patent data retrieval and analysis system.

Key words： Data cleaning; patent search; patent analysis; cluster analysis

當科技的進步，伴隨著技術的更新，專利數量的涌現。專利存在多種特性與特點。例如專利的復雜性表現為同族專利的復雜性與不同族專利的復雜性，同族專利的復雜性主要體現為同族不同專利會有多個不同優(yōu)先權人，同族的不同專利又具有一個相同的優(yōu)先權人，而不同族的復雜性就更好理解，它就為專利涉及多個領域多種方法[1];專利的結構化特點是專利的核心特點，這一特點主要是為了方便去進行專利檢索;專利的抽象性是描繪了專利的本質特征，它是一種知識產權的體現不以人的五官觸覺去認識，不占用任何空間，但是又能以一定的形式為人們所感知的智力創(chuàng)造成果;專利的唯一性主要是來維護自我或地域的智力成果的保障。這些特點使專利數據的檢索方式與分析方法對傳統文本的方式與方法發(fā)起了挑戰(zhàn)，逐步轉化為現代化的信息檢索方式與智能化的分析方法[2]。

1 相關理論介紹

在本章中主要是對數據清洗工作以及專利數據信息的分析方法中所需要的理論支持進行描述與表達。

1.1 專利數據清洗

專利分析與檢索系統的基礎是充足和完備的數據量，本論文采用的是Mysql數據庫，它的數據類型是結構化數據[3]。而本文的數據來源是德溫特專利數據庫中導出的文本數據，需要將文本數據類型轉化為Mysql數據庫中的結構化數據，并對轉化過程中產生的“臟”數據進行數據完整性處理。

數據清洗（Data cleaning）是對數據進行去空、去錯以及去重的過程，主要目的是實現數據的完整性，不因可去除的錯誤信息誤導實驗結果的正確性[4]。本文數據清洗的流程為：

（1）按照專利數據標引字段進行截取將文本數據轉化為結構化數據如圖1所示：

（2）一致性檢查，就是對數據整體性以及局部各字段類型進行校驗，具體過程是通過數據下各字段存在的合理取值范圍和字段之間的相互關系，以此來檢查數據是否存在不合理性，發(fā)現處于正常范圍外、邏輯上下存在不合理或者相互矛盾的數據。

（3）數據中無效值和缺失值的處理，這一過程是通過前面兩步確認數據中存在不合理的數據信息即存在一些無效值和缺失值，這時需要給他們進行適當的處理以此來保證數據的正確性。

1.2 專利數據分析

專利數據分析是通過對專利數據信息中各個專利信息字段的進行加工以及組合[5]（例如：專利的地域字段、專利的申請人字段、專利技術主題字段等都可以和時間序與專利的申請量進行組合），并通過統計學的方法或者數據挖掘的處理手段來使這些信息具有縱覽過去專利的全局情況以及預測未來可研發(fā)領域或者說可加大投入研發(fā)資金的領域的功能[6]。

專利數據信息分析可以使它們由普通的專利基本信息變成為能夠為企業(yè)或者個人提供對專利資金研發(fā)的投入、專利未來的布局以及個人專利申請的研發(fā)方向。

2 系統設計

2.1 系統需求分析

對于個人而言，若在申請專利之前甚至可說在投入到專利技術研究方向之前，若是沒有對于專利檢索的系統，那么可能導致專利研究的方向沖突或者是專利已經被申請，對于企業(yè)而言，對于研究技術方向的投入每一份的資金都要去估算它的價值是否能夠盈利或者說在未來公司長遠立場上是否能起到舉足輕重的地位，企業(yè)和個人都是該專利檢索與分析系統的潛在用戶。系統的研發(fā)意義都是從用戶的角度出發(fā)，本文從使用者基本需求出發(fā)：

（1）用戶的登錄與注冊

任何系統能被廣泛地推廣和使用首先也是最重要的是對于用戶個人信息的保護，本文系統由于為了方便用戶重復使用會保留用戶搜索信息，所以用戶需要一人一賬戶避免因為搜索信息的泄露造成別人關注和預測你接下來的研究方向。

（2）專利數據的檢索

企業(yè)和個人想在某技術領域進行投入研究之前需要對該技術領域專利進行技術專利檢索。本文在專利檢索這個功能模塊主要分為三部分。分別為智能檢索、高級檢索和分來檢索，可以讓用戶根據自己需求來自我選擇合適的檢索模塊。

（3）專利分析

對于專利信息的數據分析，可對于企業(yè)技術領域研究方向進行預測。在本文系統專利分析這一模塊，進行多例專利分析，統籌分析更有效的對企業(yè)專利技術領域做出戰(zhàn)略布局。主要有專利概況分析、申請人分析、主要機構分析、地域分析、發(fā)明人分析、技術領域分析、技術生命周期分析、聚類分析。

（4）生成分析報告

在這一模塊中，主要實現的是對專利分析結果的可視化界面進行打印生成可視化專利數據的分析報告。

2.2 系統框架設計

通過本章開頭所做的需求分析，本文將采用經典的三層構對專利數據檢索與分析系統進行業(yè)務功能可劃分為，如圖2系統的三層結構設計圖所示。

系統的表示層即為用戶與系統的交互UI界面，采用Boostrap框架、Material Design語言進行界面美化和echart圖標庫進行可視化展示。

業(yè)務邏輯層是實現了專利檢索與分析的功能模塊的層。它負責接收前端的HTTP請求與相應的數據庫中數據的提取回饋。

最后一層數據訪問層是實現專利數據檢索與分析系統的數據儲存和數據被訪問功能，在業(yè)務邏輯層得到前端請求響應向數據訪問層提取數據進行響應，實現信息的交互。

2.3 系統模塊設計

根據本文系統框架業(yè)務邏輯層，將專利檢索與分析系統的模塊組成進行劃分，共分為4個模塊，分別為登錄注冊模塊、專利檢索模塊、專利分析模塊和報告打印模塊。系統的模塊設計如圖3所示。

2.4 數據庫結構設計

一個專利由多條信息字段組成，把相同或者相近屬性字段列為一張表，既保證了數據庫表結構的清晰明了，又使在前端調用數據庫信息時SQL語句的結構清晰表達明了。結構化規(guī)范式數據庫不僅在錄入數據時高效快捷，更能加強表間的級聯，在數據量很大的情況下也能提高響應速度。

（1）專利與專利優(yōu)先權信息存在一對一的關系，即一個專利對應著一個專利優(yōu)先權信息，而同時一個專利優(yōu)先權信息對應著一個專利。

（2）專利與引用專利信息存在多對多的關系，即一個專利可以引用多個專利，同時一個專利也可以被多個專利引用。

（3）專利與引用文獻存在多對多的關系，即一個專利可以引用多個文獻信息，而一個文獻信息又可以被多個專利引用。

（4）專利與專利IPC分類信息存在多對一的關系，即一個專利對應著一個IPC分類號，而一個IPC分類號可以有多個專利。

（5）專利基本信息與專利權人信息存在多對一的關系，即一個專利對應著一個專利權人，而一個專利權人可以對應多個專利。

（6）專利和發(fā)明人存在多對多的關系，一個專利對應著多個發(fā)明人，而一個發(fā)明人也對應著多個專利。

（7）專利和專利入藏號存在一對一的關系，一個專利對應著一個入藏號，同時一個入藏號對應著一個專利。

2.5 系統實現

2.5.1 專利檢索模塊實現

專利檢索模塊主要是滿足用戶對專利檢索的需求，在這一模塊用三種檢索方式，專利檢索的流程如圖4所示。

智能檢索是通過搜索主題詞，例如標題或摘要關鍵詞等搜索有關技術領域專利，高級檢索是用戶自己填寫專利的基本信息如標題、申請人等限制性的搜索專利，這樣好處是能夠快捷地搜索到用戶指定的專利數據信息，而分類檢索是按國家的不同搜索用戶想要搜索的某國的相關技術領域的專利信息。實現界面如圖5所示。

2.5.2 專利分析模塊

專利分析模塊是該系統的運轉核心，檢索的內容不加以分析還是無法對企業(yè)或個人做出研究技術領域的預測和指導。設計從滿足用戶的需求出發(fā)，本文在專利分析模塊共實現了專利概況分析、申請人分析、主要機構分析、地域分析、發(fā)明人分析、技術領域分析、技術生命周期分析和聚類分析八個分析，共同來指導和預測用戶所搜索的有關技術領域的專利，為用戶在研究熱點上提供預測或判斷現研究方向上的成長空間。實現頁面如圖6所示。

2.6 系統測試

專利數據檢索與分析系統的主要功能是為了方便申請專利個人或申請專利的企業(yè)提供方便、快捷及有效的專利技術領域檢索以及檢索內容的分析。測試將圍繞系統的四大模塊進行測試，分別是用戶登錄注冊模塊測試、專利信息檢索模塊測試、專利信息分析模塊測試和專利分析報告打印模塊測試。如表1所示。

3 結束語

隨著互聯網的快速發(fā)展，信息的涌現，交流和查閱信息變得快捷高效，研發(fā)人員在專利研究方面日益更新，如果在第一時間能夠查詢和分析出研究熱點那么可以減少很多研究時間和研究費用。

本文系統為用戶提供的服務還有可擴展的空間，未來可在系統上增加專利分析其他方法和專利檢索功能更加快更加準確的方法，通過分析專利相關技術指標為用戶提供技術戰(zhàn)略布局和技術預測。

參考文獻：

[1] Galhard H，Florescu D，Shasha D，et al.An extensible framework for data cleaning[C]//Proceedings of 16th International Conference on Data Engineering （Cat.No.00CB37073）.February 29 - March 3，2000，San Diego，CA，USA.IEEE，2000：312.

[2] 李繼東，王移芝.基于擴展詞典與語義規(guī)則的中文微博情感分析[J].計算機與現代化，2018（2）：89-95.

[3] 朱夢.基于機器學習的中文文本分類算法的研究與實現[D].北京：北京郵電大學，2019.

[4] 張林，錢冠群，樊衛(wèi)國，等.輕型評論的情感分析研究[J].軟件學報，2014，25（12）：2790-2807.

[5] 李瓊，陳利.一種改進的支持向量機文本分類方法[J].計算機技術與發(fā)展，2015，25（5）：78-82.

[6] 朱相麗，譚宗穎.專利組合分析在評價企業(yè)技術競爭力中的應用——以儲氫技術為例[J].情報雜志，2013，32（4）：28-33.

【通聯編輯：梁書】

電腦知識與技術2021年10期

電腦知識與技術的其它文章: 基于Unity3D的船舶機損事故虛擬仿真軟件的開發(fā); 多注意力機制的藏漢機器翻譯方法研究; 基于改進Single-pass算法的新聞話題演化跟蹤算法; 基于分布式框架的城市內澇智慧監(jiān)測系統; 一種面向小學生的嵌入式開發(fā)平臺設計與實現; 面向自動駕駛的室內外統一坐標體系設計

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

專利數據檢索與分析系統的設計與實現