杜宏巍
[摘要]文章在界定關(guān)鍵共性技術(shù)概念的基礎(chǔ)上,以德溫特?cái)?shù)據(jù)庫(kù)為數(shù)據(jù)來(lái)源,下載了鋼鐵產(chǎn)業(yè)的熱處理領(lǐng)域的相關(guān)數(shù)據(jù)。同時(shí),開(kāi)發(fā)了分詞系統(tǒng)及數(shù)據(jù)分類(lèi)系統(tǒng),并結(jié)合陳超美開(kāi)發(fā)的Citespace軟件對(duì)相關(guān)數(shù)據(jù)進(jìn)行了二次螺旋分析。經(jīng)實(shí)驗(yàn)驗(yàn)證,數(shù)據(jù)分析速度快、結(jié)果準(zhǔn)確,具有一定的應(yīng)用及推廣價(jià)值。
[關(guān)鍵詞]關(guān)鍵共性技術(shù);二次螺旋分析;共詞分析
[DOI]10.13939/j.cnki.zgsc.2016.31.273
重大關(guān)鍵共性技術(shù)在整個(gè)技術(shù)創(chuàng)新鏈條中處于基礎(chǔ)性地位,是跨產(chǎn)業(yè)部門(mén)的關(guān)鍵技術(shù),能夠?yàn)槎囗?xiàng)其他技術(shù)的進(jìn)步、產(chǎn)業(yè)的發(fā)展提供支撐,具有廣闊的應(yīng)用前景,為眾多用戶(hù)所使用,規(guī)模效用明顯。[1]
1關(guān)鍵共性技術(shù)辨識(shí)系統(tǒng)的構(gòu)建
由關(guān)鍵共性技術(shù)的內(nèi)在構(gòu)成要素及其相互關(guān)系展開(kāi)的邏輯順序,可以把關(guān)鍵共性技術(shù)系統(tǒng)過(guò)程概括為3個(gè)階段。
1.1數(shù)據(jù)準(zhǔn)備確定數(shù)據(jù)源
Derwent Innovations Index(DII)是美國(guó)科學(xué)情報(bào)所(ISI)最新推出的基于因特網(wǎng)環(huán)境的數(shù)據(jù)庫(kù)產(chǎn)品,該數(shù)據(jù)庫(kù)將Derwent World Patents Index(DWPI,德溫特世界專(zhuān)利索引)與Patents Citation Index(PCI,專(zhuān)利引文索引)加以整合,它收錄來(lái)自40多個(gè)專(zhuān)利機(jī)構(gòu)授權(quán)的1000多萬(wàn)基本發(fā)明、3000多萬(wàn)個(gè)專(zhuān)利,數(shù)據(jù)每周更新并已回溯至1963年,為研究人員提供了世界范圍內(nèi)的化學(xué)、電子與電氣以及工程技術(shù)領(lǐng)域內(nèi)綜合全面的發(fā)明信息,是最為全面的國(guó)際專(zhuān)利信息數(shù)據(jù)庫(kù)。符合數(shù)據(jù)源篩選原則,因此確定數(shù)據(jù)源為德溫特世界專(zhuān)利索引數(shù)據(jù)庫(kù)。
1.2數(shù)據(jù)獲取
1.2.1特征詞的識(shí)別
抽取文本特征集的目的是通過(guò)將文本特征項(xiàng)(關(guān)鍵詞、標(biāo)引詞等)的量化,將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息。通過(guò)對(duì)文獻(xiàn)的回顧可以發(fā)現(xiàn),抽取的文本特征項(xiàng)類(lèi)型經(jīng)歷了從單純選用標(biāo)引詞擴(kuò)展到全文中的自由詞匯這樣一個(gè)發(fā)展過(guò)程。
選擇標(biāo)引詞作為文本特征集時(shí),詞匯的使用很規(guī)范,也較能反映文獻(xiàn)的主題,一直是共現(xiàn)分析操作過(guò)程中首選的分析單元。選擇自由詞作為文本特征集時(shí),需要選擇自由詞的抽取位置,從標(biāo)題和摘要中抽取詞匯作為文本特征集時(shí)能夠直接從作者對(duì)文章的認(rèn)識(shí)角度理解文本內(nèi)容,提高對(duì)文本內(nèi)容把握的準(zhǔn)確性。從全文中抽詞的最大優(yōu)點(diǎn)是能夠保留出現(xiàn)頻率不高但非常重要的詞匯,同時(shí)避免了更新詞表、標(biāo)引文獻(xiàn)等不小的工作量。但由于涉及文本切分詞等處理,實(shí)現(xiàn)的復(fù)雜度較高。
總結(jié)起來(lái),抽取文本特征集時(shí)必須做出兩重選擇,從何處抽?。梢赃x擇標(biāo)題、關(guān)鍵詞、摘要、全文)和抽取哪種類(lèi)型的詞。本研究對(duì)特征詞的識(shí)別包括標(biāo)引詞匯和自由詞匯。
1.2.2特征詞的抽取
從關(guān)鍵詞、標(biāo)題、摘要、全文中抽取,抽取詞匯的質(zhì)量依次增高,操作的復(fù)雜程度也逐個(gè)增強(qiáng)。抽取標(biāo)引詞時(shí),用詞規(guī)范、詞匯間概念關(guān)系清晰,但存在可能出現(xiàn)標(biāo)引偏差和丟失新興詞匯的缺陷。抽取自由詞匯時(shí)則與上述情況正好相反,該抽取方法能夠科學(xué)地反映文本內(nèi)容、跟蹤新興詞匯的出現(xiàn),但詞匯的“一詞多義”和“一義多詞”現(xiàn)象導(dǎo)致數(shù)據(jù)預(yù)處理困難,自由詞匯間復(fù)雜的語(yǔ)義關(guān)系影響分析結(jié)果的可解釋性。所以應(yīng)該根據(jù)分析目標(biāo)的不同做出合理選擇。可見(jiàn),詞匯抽取結(jié)果的有效性和實(shí)現(xiàn)的便捷性始終是相互矛盾的,它們互相制約,實(shí)際操作中必須找到兩者的平衡點(diǎn),以便利用最簡(jiǎn)便的方法取得最科學(xué)的結(jié)果。
綜上分析,本文特征詞的識(shí)別是根據(jù)具體的科技跟蹤需要,從下載的文本集合中利用我們開(kāi)發(fā)的分詞軟件自動(dòng)抽取“標(biāo)引詞”和“自由詞”作為反映文獻(xiàn)內(nèi)容的特征值,具體包括“標(biāo)題”“關(guān)鍵詞”“標(biāo)引詞”“作者信息”“引文”等。
1.2.3特征詞的選擇
詞是文獻(xiàn)中承載學(xué)術(shù)概念的最小單位。詞頻的波動(dòng)與社會(huì)現(xiàn)象、情報(bào)現(xiàn)象之間具有內(nèi)在的關(guān)系,一定的社會(huì)現(xiàn)象和情報(bào)現(xiàn)象必然引起相應(yīng)的詞頻波動(dòng)現(xiàn)象。[2]因此,通過(guò)統(tǒng)計(jì)關(guān)鍵詞、主題詞、篇名詞等核心詞匯在某一類(lèi)學(xué)術(shù)文獻(xiàn)中所出現(xiàn)的頻次,可以判別該學(xué)術(shù)領(lǐng)域的研究熱點(diǎn)、知識(shí)結(jié)構(gòu)和發(fā)展趨勢(shì)。
本研究特征詞的選擇,就是對(duì)數(shù)據(jù)庫(kù)中的文件進(jìn)行詞頻統(tǒng)計(jì)分析,形成詞頻統(tǒng)計(jì)文件。借助分詞軟件將論文標(biāo)題中使用的單詞按照出現(xiàn)的頻次由高到低進(jìn)行降序排列,然后將一些不完整的單詞及沒(méi)有特殊意義的單詞從詞頻列表中刪除,同時(shí)刪除掉那些在科學(xué)研究中被普遍應(yīng)用的、沒(méi)有代表性的單詞,如研究(study)、分析(analysis)等。[3]
當(dāng)選擇確定的特征詞后,利用我們開(kāi)發(fā)的數(shù)據(jù)分類(lèi)軟件,根據(jù)特征詞將下載數(shù)據(jù)中包含特征詞的數(shù)據(jù)段落歸類(lèi),歸類(lèi)后的數(shù)據(jù)段落作為一個(gè)完整的數(shù)據(jù)集合,可供Citespace軟件進(jìn)行共詞聚類(lèi)分析。
2共詞分析
從“技術(shù)方法”上看,國(guó)內(nèi)外本階段共詞分析研究注重方法的系統(tǒng)化,將研究對(duì)象納入時(shí)空坐標(biāo),提高了其應(yīng)用結(jié)果同實(shí)際情況的擬合度和置信度,為拓展共詞分析的應(yīng)用范圍奠定了基礎(chǔ)。同時(shí),運(yùn)用該階段方法體系所揭示的信息和對(duì)象之間的關(guān)聯(lián)已向深層擴(kuò)展,初步解決了某些利用相關(guān)文獻(xiàn)挖掘內(nèi)隱知識(shí)的問(wèn)題。
從“應(yīng)用領(lǐng)域”上看,基于共詞分析的研究成果可以歸納為:揭示特定科技領(lǐng)域內(nèi)的研究主題、主題的層級(jí)及其關(guān)系以及由研究主題所映射的具體研究方向之間的關(guān)系,區(qū)分科學(xué)子領(lǐng)域,確定學(xué)科結(jié)構(gòu);揭示研究主題接近所屬領(lǐng)域熱點(diǎn)問(wèn)題的程度;考察特定領(lǐng)域內(nèi)科學(xué)研究主題的變遷和可視化結(jié)果;從內(nèi)聯(lián)和外聯(lián)的角度揭示特定領(lǐng)域內(nèi)研究主題之間以及研究主題同其他主題之間的關(guān)系;通過(guò)科技環(huán)境分析,揭示科技主體的機(jī)會(huì)和威脅;揭示不同子領(lǐng)域的演化模式及其相互關(guān)系,勾畫(huà)出研究主題的生命周期。[5]
建議聚類(lèi)分析采用軟件為由美國(guó)德雷賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院陳超美開(kāi)發(fā)的Citespace。采用一種“突發(fā)詞檢測(cè)”算法來(lái)確定研究前沿中的概念,利用3個(gè)網(wǎng)絡(luò)(“研究前沿術(shù)語(yǔ)的共現(xiàn)”“知識(shí)基礎(chǔ)文章的同被引”和“研究前沿術(shù)語(yǔ)引用知識(shí)基礎(chǔ)文章”)隨著時(shí)間演變的情況來(lái)尋找研究熱點(diǎn)及趨勢(shì),并以可視化的方式展示出來(lái)。
3結(jié)論
本研究依據(jù)德溫特?cái)?shù)據(jù)庫(kù)的分類(lèi),并開(kāi)發(fā)了分詞系統(tǒng)及數(shù)據(jù)分類(lèi)系統(tǒng),結(jié)合陳超美開(kāi)發(fā)的Citespace軟件對(duì)相關(guān)數(shù)據(jù)進(jìn)行了二次螺旋分析:利用分詞軟件進(jìn)行特征詞的識(shí)別及抽取,特征詞的選擇,利用數(shù)據(jù)分類(lèi)系統(tǒng),以特征詞為依據(jù)進(jìn)行數(shù)據(jù)的文本分類(lèi),利用Citespace軟件對(duì)分類(lèi)后的文本進(jìn)行共詞聚類(lèi)分析,對(duì)得到的共詞進(jìn)行二次文本分析及共詞聚類(lèi)分析。經(jīng)驗(yàn)證,該研究方法的分析速度及準(zhǔn)確度均較理想,可用于研究產(chǎn)業(yè)關(guān)鍵共性技術(shù)領(lǐng)域。
參考文獻(xiàn):
[1]郭曉林.產(chǎn)業(yè)共性技術(shù)創(chuàng)新體系及共享機(jī)制研究[D].武漢:華中科技大學(xué),2006.8:28.
[2]鄧珞華.詞頻分析[J].武漢大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,1987(1):46.
[3]郭衛(wèi)東.技術(shù)預(yù)見(jiàn)理論方法及關(guān)鍵技術(shù)創(chuàng)新模式研究[D].北京:北京郵電大學(xué),2007(6):64.
[4]呂一博,康宇航.基于共現(xiàn)分析的科技監(jiān)測(cè)地圖繪制及實(shí)證研究[J].科學(xué)學(xué)研究,2010,28(10):1460.
[5]藍(lán)玲,胡煒,易法敏.產(chǎn)業(yè)共性技術(shù)創(chuàng)新與區(qū)域產(chǎn)業(yè)升級(jí)[J].科技管理研究,2009(7):36.