段慶峰+蔣保建
[摘要]SAO三元結(jié)構(gòu)具有易于理解和表達(dá)的語義關(guān)系,將其作為挖掘分析的基本單元,深度分析專利文本蘊(yùn)含的技術(shù)語義有助于揭示技術(shù)功效關(guān)系。從SAO結(jié)構(gòu)的定義及特征出發(fā),提出了基于SAO結(jié)構(gòu)的專利技術(shù)功效圖構(gòu)建的思路、流程及方法,采用基于SAO結(jié)構(gòu)的共現(xiàn)關(guān)系構(gòu)建技術(shù)功效矩陣,探討了基于SAO結(jié)構(gòu)的技術(shù)主題、功效主題分析方法。通過石墨烯傳感器領(lǐng)域?yàn)槔膶?shí)證研究驗(yàn)證了方法的有效性。
[關(guān)鍵詞]專利;技術(shù)功效圖;SAO結(jié)構(gòu);主題聚類
DOI:10.3969/j.issn.1008—0821.2017.06.008
[中圖分類號(hào)]G255.53 (文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008—0821(2017)06—0048—07
作為外界公開的技術(shù)知識(shí)產(chǎn)權(quán)信息載體,專利是目前最常用和有效的有價(jià)值技術(shù)內(nèi)容獲取來源途徑。如何有效分析和理解海量專利大數(shù)據(jù)中的技術(shù)本質(zhì)是科技研發(fā)人員及有關(guān)管理決策者面臨的重要問題。在各種技術(shù)分析和管理工具中,技術(shù)功效圖具有表現(xiàn)直觀、語義清晰的優(yōu)點(diǎn),是應(yīng)用廣泛的專利分析手段。技術(shù)功效圖的完成并不是一件簡單和容易的工作任務(wù),工作量大、依賴專家、技術(shù)的復(fù)雜性等都制約了其繪制的效率和效果。
準(zhǔn)確而高效地界定、識(shí)別專利的技術(shù)和功效維度特征是構(gòu)建技術(shù)功效圖的關(guān)鍵環(huán)節(jié),自然語言處理、專利語義識(shí)別、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù)與工具已經(jīng)成為支撐技術(shù)功效圖自動(dòng)或半自動(dòng)化構(gòu)建的基礎(chǔ)。比如,王麗等提出了基于文本挖掘技術(shù)的主題詞自動(dòng)標(biāo)引方案,以此為基礎(chǔ)說明了具有自動(dòng)化特征的技術(shù)功效圖構(gòu)建系統(tǒng)Patent-TEM。陳穎等從專利文本的結(jié)構(gòu)分析出發(fā),借鑒TRIZ理論中的物一場模型,提出了識(shí)別專利文本中技術(shù)與功效部件的方案,歸納了技術(shù)詞與功效詞的識(shí)別規(guī)則。翟東升等將數(shù)據(jù)倉庫、大數(shù)據(jù)分析框架應(yīng)用于技術(shù)功效圖構(gòu)建,從數(shù)據(jù)組織及計(jì)算框架的角度分析了技術(shù)功效圖中的關(guān)鍵技術(shù)。陳穎等提出了面向技術(shù)功效矩陣構(gòu)建的詞匯模型,能較好滿足專利技術(shù)功效矩陣分析的多技術(shù)主題、分析任務(wù)臨時(shí)性強(qiáng)、主題范圍可選等特點(diǎn)。盡管基于文本挖掘分析的技術(shù)功效分析框架獲得了一定程度進(jìn)展,但如何準(zhǔn)確界定、理解技術(shù)詞匯依然較為困難,需要能夠解析文本詞語背后所表達(dá)的潛在技術(shù)特征及內(nèi)涵。進(jìn)一步,深度的技術(shù)語義分析和理解是提升和優(yōu)化技術(shù)功效分析系統(tǒng)的重要基礎(chǔ)。
近年,學(xué)者開始關(guān)注專利文本中的SAO(Subject-Ac-tion-Object)結(jié)構(gòu)特征,為識(shí)別出隱含的技術(shù)語義提供了一種研究途徑。通常的主題詞標(biāo)注方法將技術(shù)與功效屬性分別抽取與識(shí)別,可能忽略了內(nèi)在的關(guān)聯(lián)性。SAO不但顯式地包含了技術(shù)主題,而且保持了技術(shù)屬性間的內(nèi)在關(guān)聯(lián),蘊(yùn)含了有價(jià)值的技術(shù)性啟發(fā)信息。基于SAO結(jié)構(gòu)的技術(shù)語義分析已被迅速應(yīng)用到多個(gè)應(yīng)用領(lǐng)域,例如R&D合作伙伴識(shí)別、技術(shù)路線分析、技術(shù)形態(tài)識(shí)別、技術(shù)預(yù)測、技術(shù)演化、技術(shù)機(jī)會(huì)等。理論上,TRIZ理論凝練了發(fā)明創(chuàng)新的一般原理,提供了認(rèn)識(shí)技術(shù)內(nèi)在本質(zhì)的思維視角,同SAO語義分析技術(shù)相結(jié)合,形成了面向技術(shù)創(chuàng)新分析的語義TRIZ分析框架,能夠借助于語義關(guān)系映射并揭示出技術(shù)要素間的內(nèi)在關(guān)系和動(dòng)態(tài)。
面對(duì)大數(shù)據(jù)分析的需求,盡管有學(xué)者及分析人員探索技術(shù)功效圖構(gòu)建的自動(dòng)化或半自動(dòng)化解決方案,但依然面臨語義模糊、分析效果不佳的困難。文本分析的范疇中,共現(xiàn)關(guān)系是分析技術(shù)與功效要素之間內(nèi)在關(guān)聯(lián)的常見方法,但簡單的共現(xiàn)關(guān)系并不能等同于兩者之間存在技術(shù)語義聯(lián)系,比如共同出現(xiàn)在一個(gè)句子中的技術(shù)主題詞與功效特征詞可能沒有直接語義關(guān)系。以句子或段落為單元的技術(shù)與功效要素共現(xiàn)計(jì)數(shù)可能會(huì)高估兩者間的語義關(guān)聯(lián)性。而從語義結(jié)構(gòu)的角度開展分析,能夠在很大程度上解決上述問題。一方面,SAO結(jié)構(gòu)為理解深入技術(shù)功效本質(zhì)提供了豐富的語義信息;另一方面,相對(duì)與基于全文或句子的分析,SAO結(jié)構(gòu)提供了一種更為細(xì)粒度的語義結(jié)構(gòu),有助于更為深入地挖掘和理解專利文本中蘊(yùn)含的技術(shù)內(nèi)涵。
縱觀有關(guān)文獻(xiàn),通過SAO技術(shù)語義分析手段指導(dǎo)技術(shù)功效圖構(gòu)建的研究還很缺乏。深入分析數(shù)據(jù)中隱含的技術(shù)語義特征能夠很大程度上提高技術(shù)特征識(shí)別效果。因此,本文擬將語義TRIZ的分析框架應(yīng)用于技術(shù)功效圖的構(gòu)造,通過SAO結(jié)構(gòu)更加準(zhǔn)確地發(fā)現(xiàn)專利數(shù)據(jù)中的技術(shù)一功效關(guān)系,進(jìn)而促進(jìn)該工具的更廣泛應(yīng)用。
1構(gòu)建方法
1.1 SAO語義結(jié)構(gòu)
SAO結(jié)構(gòu)由三元組(Subject、Action、Object)構(gòu)成,從句子語法結(jié)構(gòu)看,SAO三元組可以對(duì)應(yīng)句子中的主語Sub-ject、謂語Verb和賓語Object結(jié)構(gòu);從語義的角度,S和O可以代表系統(tǒng)的組件或技術(shù),A用來描述如何實(shí)現(xiàn)功能。通常,句子中S和O表現(xiàn)為名詞短語,A表現(xiàn)為動(dòng)詞。特定的S-A-O組合反映了技術(shù)系統(tǒng)的內(nèi)在關(guān)系及特征。如果能夠從句子中抽取出的三元結(jié)構(gòu),分析S、A、O在專利句子中的共現(xiàn)模式,則可以進(jìn)一步推斷技術(shù)要素間的關(guān)聯(lián)。
SAO語義分析有助于理解技術(shù)系統(tǒng)的結(jié)構(gòu)及功能。在一些場景下,SAO結(jié)構(gòu)被理解為問題一方案(Problem-So-lution)模式,S代表有待解決的技術(shù)問題,AO代表問題的解決方法和可能,PS語義模式直接地給出了技術(shù)需求與技術(shù)解決方案的線索。進(jìn)一步,有學(xué)者細(xì)分SAO結(jié)構(gòu)的語義類型,比如:問題(Problem)、方案(Solution)、功能(Function)、效果(Effect)。SAO三元結(jié)構(gòu)的組合可能代表了不同的技術(shù)特征模式,例如:問題P或方案s語義類型的SAO結(jié)構(gòu)中,S或O可能代表技術(shù)或系統(tǒng)部件;功能F或效果E語義類型的SAO結(jié)構(gòu)中,AO組合則可能代表技術(shù)的功能、狀態(tài)及效果。
技術(shù)功效圖由技術(shù)和功效構(gòu)成了二維技術(shù)空間,快速而準(zhǔn)確地凝練出技術(shù)主題與功效主題,并發(fā)現(xiàn)二者的語義關(guān)聯(lián)是關(guān)鍵。技術(shù)與功效詞語內(nèi)嵌在SAO結(jié)構(gòu)之中,SAO的語義結(jié)構(gòu)為發(fā)現(xiàn)技術(shù)功效內(nèi)在關(guān)系提供了良好的途徑。技術(shù)詞語與功效詞語的抽取及凝練可以建立在SAO基礎(chǔ)之上,根據(jù)其特定的語義類型,可以解析得到技術(shù)功效關(guān)系。
1.2一般流程
從SAO結(jié)構(gòu)分析出發(fā),本文提出了采用文本挖掘技術(shù)構(gòu)建技術(shù)功效圖構(gòu)建一般流程,劃分為6個(gè)階段,如圖1所示。
1)選取有關(guān)專利數(shù)據(jù)庫,采集專題技術(shù)領(lǐng)域?qū)@谋拘畔?。各個(gè)國家都有相應(yīng)的開放性專利檢索系統(tǒng)可以作為專利數(shù)據(jù)源,例如美國專利數(shù)據(jù)庫USPTO、歐盟專利數(shù)據(jù)庫ESPTO、中國專利數(shù)據(jù)庫SIPO。專利文本中包含豐富的結(jié)構(gòu)化信息,尤其專利摘要包含了重要而精簡的技術(shù)內(nèi)容,是本文中抽取SAO結(jié)構(gòu)的來源。
2)SAO結(jié)構(gòu)的抽取及語義標(biāo)注。采用自然語義處理NLP技術(shù),從專利摘要文本中抽取SAO技術(shù)三元組,通常的軟件包都可以滿足一般應(yīng)用需求。分類并標(biāo)注SAO結(jié)構(gòu)通??梢砸罁?jù)線索詞的特征進(jìn)行識(shí)別,尤其SAO三元結(jié)構(gòu)中的Action的詞性及含義。比如,Increase、Low、Reduce、Great等是常見的表征技術(shù)效果詞語,F(xiàn)unction as、Use as等則表達(dá)了技術(shù)功能。通過線索詞可以初步篩選出SAO結(jié)構(gòu)的語義類型,進(jìn)一步結(jié)合專家意見可以識(shí)別技術(shù)的效果、功能及用途等。
3)建立技術(shù)與功效詞庫。借助于SAO結(jié)構(gòu)的語義標(biāo)簽,從中分別抽取出代表技術(shù)與功效的詞語,過濾后形成詞庫。技術(shù)詞語通常表現(xiàn)為名詞,可以由SAO結(jié)構(gòu)中的S和O中抽取。功效詞通常是動(dòng)詞或形容詞,可以由代表功能或效果的SAO結(jié)構(gòu)中抽取A或AO組合。技術(shù)詞及功效詞的過濾及篩選可以結(jié)合專家意見及語義分析手段,分析備選詞語與技術(shù)領(lǐng)域核心詞語的語義關(guān)系,通過多輪動(dòng)態(tài)優(yōu)化,形成精煉的詞庫。
4)技術(shù)和功效主題凝練。詞庫中的技術(shù)詞語與功效詞語可能數(shù)量龐大而雜亂無章,甚至包含噪聲數(shù)據(jù),需要進(jìn)一步的主題提煉。本文中技術(shù)主題與功效主題采用類似的凝練策略,即基于網(wǎng)絡(luò)關(guān)系的主題聚類;但是,兩者采用了不同的網(wǎng)絡(luò)構(gòu)建技術(shù)。針對(duì)技術(shù)詞語,根據(jù)技術(shù)詞語在SAO結(jié)構(gòu)的分布特點(diǎn),分析技術(shù)詞語在SAO結(jié)構(gòu)中的共現(xiàn)關(guān)系,構(gòu)建技術(shù)共現(xiàn)網(wǎng)絡(luò);針對(duì)功效詞語,根據(jù)功效詞語在WordNet詞典中的語義關(guān)系,分析功效詞語的語義相似度,依據(jù)技術(shù)詞語的語義距離構(gòu)建功效詞網(wǎng)絡(luò)。以技術(shù)詞語和功效詞語為節(jié)點(diǎn)構(gòu)建的網(wǎng)絡(luò)可以為主題聚類分析提供依據(jù)?基于網(wǎng)絡(luò)關(guān)系的聚類分析可以揭示出技術(shù)詞語和功效詞語的內(nèi)部關(guān)系,結(jié)合專家意見,凝練得到技術(shù)和功效主題。
5)技術(shù)功效矩陣構(gòu)建。技術(shù)主題與功效主題分別構(gòu)成了技術(shù)功效矩陣的兩個(gè)維度,矩陣中的每個(gè)單元格內(nèi)容代表了該位置對(duì)應(yīng)的技術(shù)主題、功效主題的共現(xiàn)專利個(gè)數(shù)。這里,共現(xiàn)關(guān)系的計(jì)算借助于SAO結(jié)構(gòu)。如果某技術(shù)主題和功效主題共同出現(xiàn)在同一SAO結(jié)構(gòu)中對(duì)應(yīng)位置,則認(rèn)為有1個(gè)專利的某技術(shù)主題具有相應(yīng)的功效特征。顯然,通過SAO語義結(jié)構(gòu)能夠更為有效地分析技術(shù)和功效的關(guān)系。
6)選取合適的繪圖工具,依據(jù)技術(shù)功效矩陣內(nèi)容,進(jìn)行定制化的技術(shù)功效圖繪制。
1.3關(guān)鍵技術(shù)
1.3.1技術(shù)主題
技術(shù)主題可以借助聚類方法,從數(shù)量龐大的技術(shù)詞語中分析得出。通常認(rèn)為,如果兩個(gè)技術(shù)詞語共同出現(xiàn)的頻率越高,則它們的語義可能越接近。本文中的共現(xiàn)關(guān)系定義以SAO三元結(jié)構(gòu)為基礎(chǔ),相對(duì)于基于專利文本全文的共現(xiàn)關(guān)系,更能細(xì)致而準(zhǔn)確地展現(xiàn)出技術(shù)詞語的語義聯(lián)系。針對(duì)某個(gè)三元組(Subject、Action、Object),如果技術(shù)詞語T1和T2分別出現(xiàn)在同一SAO三元組的Subject和Object中,則定義T1和T2存在共現(xiàn)關(guān)系。
2實(shí)證研究
2.1數(shù)據(jù)準(zhǔn)備
選取石墨烯傳感器為研究技術(shù)領(lǐng)域,采用自編Python程序抽取美國專利數(shù)據(jù)庫USFID中的有關(guān)專利內(nèi)容。專利的檢索策略采用關(guān)鍵詞匹配的方法,檢索專利標(biāo)題及摘要中同時(shí)包含“Graphene”和“Sensor/Sensors”的專利集,檢索表達(dá)式為“ABST/(Graphene AND(Sensor OR Sensors))”。檢索時(shí)間為2016年8月,剔除無關(guān)專利,最終得到51條結(jié)果
2.2 SAO結(jié)構(gòu)語義類型分析
采用斯坦福大學(xué)推出的開源軟件Open IE,對(duì)專利數(shù)據(jù)摘要文本進(jìn)行分析。該軟件包采用Java語言編寫,采用自然語言處理技術(shù),從英文文本中抽取SAO三元結(jié)構(gòu)。運(yùn)行軟件,分析得到158條SAO結(jié)構(gòu),部分結(jié)果如表1所示。根據(jù)三元結(jié)構(gòu)中Action部分的詞語特征,可以對(duì)原始SAO三元結(jié)構(gòu)進(jìn)行初步語義標(biāo)注。例如,專利9178129中分析得到兩條SAO結(jié)構(gòu),其中一條Action屬性為Increase,而Object屬性為Response,反映了響應(yīng)時(shí)間增加的含義,是典型的效果語義類型;而另一條Action屬性為Use as,反映了技術(shù)的用途,表達(dá)了功能語義。通過分析SAO三元結(jié)構(gòu)集合中Ar-tion屬性詞語,基本可以較好地歸納出P、S、F、E 4種語義類型,其中代表E語義類型的SAO結(jié)構(gòu)更適合于功效詞語的研究,其中蘊(yùn)含的語義信息可用于技術(shù)功效圖的構(gòu)建。
2.3技術(shù)、功效主題聚類
借助SAO三元結(jié)構(gòu)的不同語義類型,有助于抽取技術(shù)詞語。對(duì)于體現(xiàn)效果E模式的SAO結(jié)構(gòu),Subject可能代表了技術(shù)或系統(tǒng)部件;對(duì)于其它3種語義類型的SAO結(jié)構(gòu),Subiect和Obiect中可能代表了技術(shù)或系統(tǒng)部件。因此,技術(shù)詞語可以從這些相應(yīng)的語義結(jié)構(gòu)中進(jìn)行抽取和分析。通過自然語義處理NIP方法,技術(shù)詞語可以由這些內(nèi)容中分析得到,通過分詞、詞干還原、去除噪音等處理過程得到技術(shù)詞語。本研究抽取了出現(xiàn)頻率大于4次的詞語,經(jīng)過過濾,得到253條技術(shù)詞語,構(gòu)成技術(shù)詞庫。
為了凝練出技術(shù)主題,對(duì)技術(shù)詞庫中的技術(shù)詞語進(jìn)行可視化聚類分析。技術(shù)詞語作為網(wǎng)絡(luò)節(jié)點(diǎn),技術(shù)詞語在SAO中的共現(xiàn)關(guān)系為邊,構(gòu)建無向加權(quán)圖。網(wǎng)絡(luò)構(gòu)建前,刪去了某些特定的高頻但并缺乏具體技術(shù)語義的詞,例如“Graphene”、“Sensor”等。為了便于展示,刪去了權(quán)重小于0.01的邊,然后提取出最大連通子網(wǎng),選取可視化軟件包Pajek輸出網(wǎng)絡(luò),采用Kamada-Kawai布局算法,最終結(jié)果如圖2所示。
顯然,觀察分析技術(shù)詞語的分布關(guān)系,可以發(fā)現(xiàn)形成了4個(gè)大的技術(shù)聚類。聚類1代表了石墨烯光學(xué)傳感器主題,聚類2代表了石墨烯壓力傳感器主題,聚類3則屬于石墨烯傳感器傳感技術(shù)的一般性原理。相對(duì)其它聚類,聚類4的分布更為稠密和更高的連通性,進(jìn)行一步將其細(xì)分為2個(gè)子聚類。子聚類Ⅰ代表了石墨烯氣體及環(huán)境傳感器主題,子聚類Ⅱ代表了石墨烯電傳感器主題。
聚類分析重點(diǎn)考查了最大連通子網(wǎng),但可能漏掉某些重要的詞語節(jié)點(diǎn)。因此,結(jié)合有關(guān)技術(shù)文獻(xiàn)及專家意見,進(jìn)行一步分析最大連通子網(wǎng)絡(luò)之外其它詞語,新增兩個(gè)主題一石墨烯化學(xué)傳感器和石墨烯磁性傳感器。最終,技術(shù)主題歸納為石墨烯氣體傳感器、石墨烯磁性傳感器、石墨烯化學(xué)傳感器、石墨烯電傳感器、石墨烯壓力傳感器、石墨烯光學(xué)傳感器、材料、通用方法。
為了凝練出合理的功效主題,分別抽取出SAO三元組中的A和AO模式作為網(wǎng)絡(luò)節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)間的語義相似度,進(jìn)行語義聚類分析。
抽取所有SAO三元組中的動(dòng)詞(A)部分,選取高頻率出現(xiàn)的前100個(gè)作為節(jié)點(diǎn),按照公式(2),通過多次實(shí)驗(yàn)選取閾值δ為0.9,計(jì)算它們之間的語義相似度,刪去語義相似度小于0.2的節(jié)點(diǎn)之間的連邊,構(gòu)建功效詞語義距離網(wǎng)絡(luò)。為便于展示,抽取其中的最大連通子圖,采用Kamada-Kawai布局算法,結(jié)果如圖3所示。通過觀察,可以大致歸納出6個(gè)聚類。聚類3凝聚了最多比例的表達(dá)功效含義的詞語,例如降低(be low in)、兼容性(be compara-ble with)等,聚類1中分布了少量的表達(dá)功效的詞語,例如增加(increase in)。其它聚類則更多地包含了表達(dá)問題、方案、結(jié)構(gòu)、整體部分等含義的詞語,例如聚類4代表了系統(tǒng)部件的包含關(guān)系,聚類2、5和6代表了技術(shù)或部件的功能。因此,應(yīng)該重點(diǎn)從聚類1和2中去篩選詞語,進(jìn)而結(jié)合有關(guān)信息分析和凝練出恰當(dāng)?shù)墓πе黝}。
抽取SAO三元組中的AO組合作為節(jié)點(diǎn),按照公式(1)計(jì)算節(jié)點(diǎn)的語義相似度,其它按照與圖3類似的構(gòu)造思路及過程,構(gòu)建語義網(wǎng)絡(luò),結(jié)果如圖4所示。通過觀察,亦可以大致歸納出6個(gè)聚類。圖中的聚類2基本包含了大部分表達(dá)技術(shù)或部件效果的詞語,其它聚類(如聚類1)存在個(gè)別的功效詞語,但基本代表的是技術(shù)的方案、部件間關(guān)系等主題。可以看出,圖3與圖4具有良好的對(duì)應(yīng)性,尤其圖3中的聚類3與圖4中的聚類2具有高度的一致性,說明通過A和AO組合構(gòu)建的兩個(gè)網(wǎng)絡(luò)得到的分析結(jié)果比較穩(wěn)定和可靠。深入分析圖3中聚類2詞語,結(jié)合有關(guān)技術(shù)文獻(xiàn),綜合歸納出9個(gè)功效主題,具體包括高傳導(dǎo)性、低能耗、低成本、體積小、敏感性、可靠性、高性能、易用性、寬頻帶。
2.4技術(shù)功效圖繪制
采用公式(4),計(jì)算8個(gè)技術(shù)主題與9個(gè)功效主題組合的出現(xiàn)頻次,得到技術(shù)-功效矩陣,通過Excel輸出結(jié)果,如圖5所示??傮w上,石墨烯傳感器的發(fā)明創(chuàng)新還處于初始階段,專利申請(qǐng)的數(shù)量不多,研究較多集中在石墨烯傳感器的導(dǎo)電性及高性能方面,尤其在導(dǎo)電膜泵方面的研究最為熱門。更多的專利內(nèi)容集中在石墨烯傳感器的基本原理及方法層面,在特定的具體應(yīng)用實(shí)踐中的研究有限。雖然新型的石墨烯材料在傳感器方面具有顯著的優(yōu)勢(shì)和極大潛力,但作為典型新興技術(shù)領(lǐng)域,技術(shù)還需進(jìn)一步向成熟進(jìn)化.專利的整體布局上還存在很多薄弱甚至空白區(qū)域。通過技術(shù)功效圖,有助于科技決策者從宏觀上理解和把握石墨烯傳感器領(lǐng)域的研發(fā)熱點(diǎn)及技術(shù)機(jī)會(huì)。
3結(jié)論
本文通過分析專利文本中的SAO結(jié)構(gòu),提出了新型的技術(shù)功效圖的構(gòu)建方法。具體地,從思路、流程、方法方面開展了系統(tǒng)探討,并以石墨烯傳感領(lǐng)域?yàn)槔M(jìn)行了實(shí)證分析,驗(yàn)證了方法的有效性。該解決方案綜合了文本挖掘及語義分析手段,能夠從專利大數(shù)據(jù)快速抽取、分析和凝練出技術(shù)和功效的二維屬性特征及關(guān)系,形成的專利深度語義挖掘分析體系不但能夠用于技術(shù)功效圖繪制,而且擴(kuò)展后也可以應(yīng)用于其它技術(shù)創(chuàng)新分析應(yīng)用。
該方法的特點(diǎn)在于將SAO結(jié)構(gòu)分析引入基于文本挖掘的專利分析框架。一方面SAO作為反映技術(shù)特征關(guān)系的基本單元,所蘊(yùn)含的語義信息為深度技術(shù)分析提供了基礎(chǔ);另一方面,相比于全文或句子,SAO結(jié)構(gòu)提供了更為細(xì)粒度的分析單元,引致的共現(xiàn)分析也更為準(zhǔn)確和有效。不足之處在于分析效果一定程度上依賴于自然語義處理NLP的分析結(jié)果,比如SAO結(jié)構(gòu)的抽取分析及主題詞的凝練,而且主題的凝練具有一定主觀性,需要借助專家經(jīng)驗(yàn)。后續(xù)研究需要開展SAO結(jié)構(gòu)的深度語義分析,對(duì)主題的提煉進(jìn)行優(yōu)化。