基于德溫特?cái)?shù)據(jù)庫(kù)的關(guān)鍵共性技術(shù)分析

2016-12-19 09:15:43杜宏巍

中國(guó)市場(chǎng) 2016年31期

關(guān)鍵詞：共詞分析

杜宏巍

[摘要]文章在界定關(guān)鍵共性技術(shù)概念的基礎(chǔ)上，以德溫特?cái)?shù)據(jù)庫(kù)為數(shù)據(jù)來(lái)源，下載了鋼鐵產(chǎn)業(yè)的熱處理領(lǐng)域的相關(guān)數(shù)據(jù)。同時(shí)，開(kāi)發(fā)了分詞系統(tǒng)及數(shù)據(jù)分類(lèi)系統(tǒng)，并結(jié)合陳超美開(kāi)發(fā)的Citespace軟件對(duì)相關(guān)數(shù)據(jù)進(jìn)行了二次螺旋分析。經(jīng)實(shí)驗(yàn)驗(yàn)證，數(shù)據(jù)分析速度快、結(jié)果準(zhǔn)確，具有一定的應(yīng)用及推廣價(jià)值。

[關(guān)鍵詞]關(guān)鍵共性技術(shù)；二次螺旋分析；共詞分析

[DOI]10.13939/j.cnki.zgsc.2016.31.273

重大關(guān)鍵共性技術(shù)在整個(gè)技術(shù)創(chuàng)新鏈條中處于基礎(chǔ)性地位，是跨產(chǎn)業(yè)部門(mén)的關(guān)鍵技術(shù)，能夠?yàn)槎囗?xiàng)其他技術(shù)的進(jìn)步、產(chǎn)業(yè)的發(fā)展提供支撐，具有廣闊的應(yīng)用前景，為眾多用戶(hù)所使用，規(guī)模效用明顯。[1]

1關(guān)鍵共性技術(shù)辨識(shí)系統(tǒng)的構(gòu)建

由關(guān)鍵共性技術(shù)的內(nèi)在構(gòu)成要素及其相互關(guān)系展開(kāi)的邏輯順序，可以把關(guān)鍵共性技術(shù)系統(tǒng)過(guò)程概括為3個(gè)階段。

1.1數(shù)據(jù)準(zhǔn)備確定數(shù)據(jù)源

Derwent Innovations Index（DII）是美國(guó)科學(xué)情報(bào)所（ISI）最新推出的基于因特網(wǎng)環(huán)境的數(shù)據(jù)庫(kù)產(chǎn)品，該數(shù)據(jù)庫(kù)將Derwent World Patents Index（DWPI，德溫特世界專(zhuān)利索引）與Patents Citation Index（PCI，專(zhuān)利引文索引）加以整合，它收錄來(lái)自40多個(gè)專(zhuān)利機(jī)構(gòu)授權(quán)的1000多萬(wàn)基本發(fā)明、3000多萬(wàn)個(gè)專(zhuān)利，數(shù)據(jù)每周更新并已回溯至1963年，為研究人員提供了世界范圍內(nèi)的化學(xué)、電子與電氣以及工程技術(shù)領(lǐng)域內(nèi)綜合全面的發(fā)明信息，是最為全面的國(guó)際專(zhuān)利信息數(shù)據(jù)庫(kù)。符合數(shù)據(jù)源篩選原則，因此確定數(shù)據(jù)源為德溫特世界專(zhuān)利索引數(shù)據(jù)庫(kù)。

1.2數(shù)據(jù)獲取

1.2.1特征詞的識(shí)別

抽取文本特征集的目的是通過(guò)將文本特征項(xiàng)（關(guān)鍵詞、標(biāo)引詞等）的量化，將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息。通過(guò)對(duì)文獻(xiàn)的回顧可以發(fā)現(xiàn)，抽取的文本特征項(xiàng)類(lèi)型經(jīng)歷了從單純選用標(biāo)引詞擴(kuò)展到全文中的自由詞匯這樣一個(gè)發(fā)展過(guò)程。

選擇標(biāo)引詞作為文本特征集時(shí)，詞匯的使用很規(guī)范，也較能反映文獻(xiàn)的主題，一直是共現(xiàn)分析操作過(guò)程中首選的分析單元。選擇自由詞作為文本特征集時(shí)，需要選擇自由詞的抽取位置，從標(biāo)題和摘要中抽取詞匯作為文本特征集時(shí)能夠直接從作者對(duì)文章的認(rèn)識(shí)角度理解文本內(nèi)容，提高對(duì)文本內(nèi)容把握的準(zhǔn)確性。從全文中抽詞的最大優(yōu)點(diǎn)是能夠保留出現(xiàn)頻率不高但非常重要的詞匯，同時(shí)避免了更新詞表、標(biāo)引文獻(xiàn)等不小的工作量。但由于涉及文本切分詞等處理，實(shí)現(xiàn)的復(fù)雜度較高。

總結(jié)起來(lái)，抽取文本特征集時(shí)必須做出兩重選擇，從何處抽?。梢赃x擇標(biāo)題、關(guān)鍵詞、摘要、全文）和抽取哪種類(lèi)型的詞。本研究對(duì)特征詞的識(shí)別包括標(biāo)引詞匯和自由詞匯。

1.2.2特征詞的抽取

從關(guān)鍵詞、標(biāo)題、摘要、全文中抽取，抽取詞匯的質(zhì)量依次增高，操作的復(fù)雜程度也逐個(gè)增強(qiáng)。抽取標(biāo)引詞時(shí)，用詞規(guī)范、詞匯間概念關(guān)系清晰，但存在可能出現(xiàn)標(biāo)引偏差和丟失新興詞匯的缺陷。抽取自由詞匯時(shí)則與上述情況正好相反，該抽取方法能夠科學(xué)地反映文本內(nèi)容、跟蹤新興詞匯的出現(xiàn)，但詞匯的“一詞多義”和“一義多詞”現(xiàn)象導(dǎo)致數(shù)據(jù)預(yù)處理困難，自由詞匯間復(fù)雜的語(yǔ)義關(guān)系影響分析結(jié)果的可解釋性。所以應(yīng)該根據(jù)分析目標(biāo)的不同做出合理選擇。可見(jiàn)，詞匯抽取結(jié)果的有效性和實(shí)現(xiàn)的便捷性始終是相互矛盾的，它們互相制約，實(shí)際操作中必須找到兩者的平衡點(diǎn)，以便利用最簡(jiǎn)便的方法取得最科學(xué)的結(jié)果。

綜上分析，本文特征詞的識(shí)別是根據(jù)具體的科技跟蹤需要，從下載的文本集合中利用我們開(kāi)發(fā)的分詞軟件自動(dòng)抽取“標(biāo)引詞”和“自由詞”作為反映文獻(xiàn)內(nèi)容的特征值，具體包括“標(biāo)題”“關(guān)鍵詞”“標(biāo)引詞”“作者信息”“引文”等。

1.2.3特征詞的選擇

詞是文獻(xiàn)中承載學(xué)術(shù)概念的最小單位。詞頻的波動(dòng)與社會(huì)現(xiàn)象、情報(bào)現(xiàn)象之間具有內(nèi)在的關(guān)系，一定的社會(huì)現(xiàn)象和情報(bào)現(xiàn)象必然引起相應(yīng)的詞頻波動(dòng)現(xiàn)象。[2]因此，通過(guò)統(tǒng)計(jì)關(guān)鍵詞、主題詞、篇名詞等核心詞匯在某一類(lèi)學(xué)術(shù)文獻(xiàn)中所出現(xiàn)的頻次，可以判別該學(xué)術(shù)領(lǐng)域的研究熱點(diǎn)、知識(shí)結(jié)構(gòu)和發(fā)展趨勢(shì)。

本研究特征詞的選擇，就是對(duì)數(shù)據(jù)庫(kù)中的文件進(jìn)行詞頻統(tǒng)計(jì)分析，形成詞頻統(tǒng)計(jì)文件。借助分詞軟件將論文標(biāo)題中使用的單詞按照出現(xiàn)的頻次由高到低進(jìn)行降序排列，然后將一些不完整的單詞及沒(méi)有特殊意義的單詞從詞頻列表中刪除，同時(shí)刪除掉那些在科學(xué)研究中被普遍應(yīng)用的、沒(méi)有代表性的單詞，如研究（study）、分析（analysis）等。[3]

當(dāng)選擇確定的特征詞后，利用我們開(kāi)發(fā)的數(shù)據(jù)分類(lèi)軟件，根據(jù)特征詞將下載數(shù)據(jù)中包含特征詞的數(shù)據(jù)段落歸類(lèi)，歸類(lèi)后的數(shù)據(jù)段落作為一個(gè)完整的數(shù)據(jù)集合，可供Citespace軟件進(jìn)行共詞聚類(lèi)分析。

2共詞分析

從“技術(shù)方法”上看，國(guó)內(nèi)外本階段共詞分析研究注重方法的系統(tǒng)化，將研究對(duì)象納入時(shí)空坐標(biāo)，提高了其應(yīng)用結(jié)果同實(shí)際情況的擬合度和置信度，為拓展共詞分析的應(yīng)用范圍奠定了基礎(chǔ)。同時(shí)，運(yùn)用該階段方法體系所揭示的信息和對(duì)象之間的關(guān)聯(lián)已向深層擴(kuò)展，初步解決了某些利用相關(guān)文獻(xiàn)挖掘內(nèi)隱知識(shí)的問(wèn)題。

從“應(yīng)用領(lǐng)域”上看，基于共詞分析的研究成果可以歸納為：揭示特定科技領(lǐng)域內(nèi)的研究主題、主題的層級(jí)及其關(guān)系以及由研究主題所映射的具體研究方向之間的關(guān)系，區(qū)分科學(xué)子領(lǐng)域，確定學(xué)科結(jié)構(gòu)；揭示研究主題接近所屬領(lǐng)域熱點(diǎn)問(wèn)題的程度；考察特定領(lǐng)域內(nèi)科學(xué)研究主題的變遷和可視化結(jié)果；從內(nèi)聯(lián)和外聯(lián)的角度揭示特定領(lǐng)域內(nèi)研究主題之間以及研究主題同其他主題之間的關(guān)系；通過(guò)科技環(huán)境分析，揭示科技主體的機(jī)會(huì)和威脅；揭示不同子領(lǐng)域的演化模式及其相互關(guān)系，勾畫(huà)出研究主題的生命周期。[5]

建議聚類(lèi)分析采用軟件為由美國(guó)德雷賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美開(kāi)發(fā)的Citespace。采用一種“突發(fā)詞檢測(cè)”算法來(lái)確定研究前沿中的概念，利用3個(gè)網(wǎng)絡(luò)（“研究前沿術(shù)語(yǔ)的共現(xiàn)”“知識(shí)基礎(chǔ)文章的同被引”和“研究前沿術(shù)語(yǔ)引用知識(shí)基礎(chǔ)文章”）隨著時(shí)間演變的情況來(lái)尋找研究熱點(diǎn)及趨勢(shì)，并以可視化的方式展示出來(lái)。

3結(jié)論

本研究依據(jù)德溫特?cái)?shù)據(jù)庫(kù)的分類(lèi)，并開(kāi)發(fā)了分詞系統(tǒng)及數(shù)據(jù)分類(lèi)系統(tǒng)，結(jié)合陳超美開(kāi)發(fā)的Citespace軟件對(duì)相關(guān)數(shù)據(jù)進(jìn)行了二次螺旋分析：利用分詞軟件進(jìn)行特征詞的識(shí)別及抽取，特征詞的選擇，利用數(shù)據(jù)分類(lèi)系統(tǒng)，以特征詞為依據(jù)進(jìn)行數(shù)據(jù)的文本分類(lèi)，利用Citespace軟件對(duì)分類(lèi)后的文本進(jìn)行共詞聚類(lèi)分析，對(duì)得到的共詞進(jìn)行二次文本分析及共詞聚類(lèi)分析。經(jīng)驗(yàn)證，該研究方法的分析速度及準(zhǔn)確度均較理想，可用于研究產(chǎn)業(yè)關(guān)鍵共性技術(shù)領(lǐng)域。

參考文獻(xiàn)：

[1]郭曉林.產(chǎn)業(yè)共性技術(shù)創(chuàng)新體系及共享機(jī)制研究[D].武漢：華中科技大學(xué)，2006.8：28.

[2]鄧珞華.詞頻分析[J].武漢大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版，1987（1）：46.

[3]郭衛(wèi)東.技術(shù)預(yù)見(jiàn)理論方法及關(guān)鍵技術(shù)創(chuàng)新模式研究[D].北京：北京郵電大學(xué)，2007（6）：64.

[4]呂一博，康宇航.基于共現(xiàn)分析的科技監(jiān)測(cè)地圖繪制及實(shí)證研究[J].科學(xué)學(xué)研究，2010，28（10）：1460.

[5]藍(lán)玲，胡煒，易法敏.產(chǎn)業(yè)共性技術(shù)創(chuàng)新與區(qū)域產(chǎn)業(yè)升級(jí)[J].科技管理研究，2009（7）：36.