• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      學(xué)術(shù)文摘?jiǎng)?chuàng)新點(diǎn)挖掘的認(rèn)知分析方法

      2021-06-14 02:12:52何茜茹
      情報(bào)學(xué)報(bào) 2021年5期
      關(guān)鍵詞:分詞謂語(yǔ)文摘

      溫 浩,何茜茹

      (西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055)

      1 基于文摘?jiǎng)?chuàng)新點(diǎn)的知識(shí)問(wèn)答服務(wù)

      如何有效利用海量文本學(xué)術(shù)資源為人類(lèi)提供最直接的內(nèi)容知識(shí)問(wèn)答服務(wù),而不僅僅是信息檢索服務(wù),一直是人工智能在自然語(yǔ)言處理領(lǐng)域研究的目標(biāo)。目前的科技學(xué)術(shù)文摘是以文本方式組織而成的,如果想要利用人工智能技術(shù)解決知識(shí)服務(wù)問(wèn)題,就需從科技學(xué)術(shù)文摘內(nèi)容中挖掘出具有獨(dú)立存在的創(chuàng)新點(diǎn)事實(shí)單元,將其分解為問(wèn)題、方法、結(jié)果的實(shí)體和語(yǔ)義關(guān)系,建立以創(chuàng)新點(diǎn)事實(shí)為知識(shí)單元的知識(shí)庫(kù)。文獻(xiàn)[1]對(duì)《計(jì)算機(jī)學(xué)報(bào)》文摘進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,研究了文摘?jiǎng)?chuàng)新點(diǎn)中特征詞匯的句子分布規(guī)律,對(duì)文摘?jiǎng)?chuàng)新點(diǎn)中名詞-動(dòng)詞的語(yǔ)義關(guān)系進(jìn)行了聚類(lèi)分析,構(gòu)建了期刊文摘?jiǎng)?chuàng)新點(diǎn)的語(yǔ)義本體模型,建立了文摘?jiǎng)?chuàng)新點(diǎn)的對(duì)象名詞與語(yǔ)義動(dòng)詞部分詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,研究具有很好的語(yǔ)義識(shí)別與分類(lèi)準(zhǔn)確率,但是這一基于統(tǒng)計(jì)學(xué)習(xí)的方法受到詞庫(kù)數(shù)量、領(lǐng)域變化、寫(xiě)作者風(fēng)格等因素的限制,嚴(yán)重地影響著從中文科技期刊文摘中挖掘表達(dá)創(chuàng)新點(diǎn)的“問(wèn)題、方法、結(jié)果”三元組知識(shí)單元的挖全率,影響著基于三元組建設(shè)智能化知識(shí)創(chuàng)新點(diǎn)問(wèn)答服務(wù)系統(tǒng)需求的急迫性。

      在前期研究的基礎(chǔ)上,本文對(duì)科技文摘?jiǎng)?chuàng)新點(diǎn)的報(bào)道性、詞匯語(yǔ)義分布的一致性、謂語(yǔ)動(dòng)詞的語(yǔ)義理解性、語(yǔ)用功能的分類(lèi)性和句法模型的隱含性五種認(rèn)知分析方法進(jìn)行了深入的研究,期望找到科技文摘?jiǎng)?chuàng)新點(diǎn)挖掘的認(rèn)知分析方法,對(duì)基于創(chuàng)新點(diǎn)知識(shí)庫(kù)的建設(shè)和智能問(wèn)答系統(tǒng)的服務(wù)提供理論和方法的指導(dǎo)作用。

      2 學(xué)術(shù)論文文摘報(bào)道創(chuàng)新點(diǎn)的認(rèn)知分析

      為了規(guī)范文摘編寫(xiě)和便于國(guó)際化信息交流,國(guó)際標(biāo)準(zhǔn)化組織頒布了國(guó)際標(biāo)準(zhǔn)ISO 214-1976(E)(Documentation-Abstracts for Publications and Docu‐mentation)[2];我國(guó)也公布了相應(yīng)的國(guó)家標(biāo)準(zhǔn)《文摘編寫(xiě)規(guī)則》(GB 6447-86)[3]和國(guó)家標(biāo)準(zhǔn)《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫(xiě)格式》(GB 7713-87)[4]。

      國(guó)際標(biāo)準(zhǔn)ISO 214-1976(E)指出,文摘是對(duì)原文獻(xiàn)內(nèi)容準(zhǔn)確、扼要而不附加解釋或評(píng)論的簡(jiǎn)略表述,其規(guī)定:文摘應(yīng)包括目的、方法、結(jié)果與結(jié)論以及附帶信息。國(guó)家標(biāo)準(zhǔn)(GB 7713-87)規(guī)定,摘要是報(bào)告、論文的內(nèi)容不加注釋和評(píng)論的簡(jiǎn)短陳述。摘要應(yīng)具有獨(dú)立性和自含性,即不閱讀報(bào)告、論文的全文,就能獲得必要的信息,要便于檢索。摘要應(yīng)說(shuō)明研究工作的目的、方法、成果和結(jié)論,要突出本論文的新見(jiàn)解,語(yǔ)言精練。

      國(guó)家標(biāo)準(zhǔn)(GB 6447-86)還規(guī)定了文摘編寫(xiě)詳細(xì)規(guī)則的5個(gè)要素:①目的(研究、研制、調(diào)查等的前提、目的和任務(wù),所涉及的主題范圍);②方法(所用的原理、理論、條件、對(duì)象、材料、工藝、結(jié)構(gòu)、手段、裝備、程序等);③結(jié)果(實(shí)驗(yàn)的結(jié)果、研究的結(jié)果、數(shù)據(jù),被確定的關(guān)系,觀察結(jié)果,得到的效果,性能等);④結(jié)論(結(jié)果的分析、研究、比較、評(píng)價(jià)、應(yīng)用,提出的問(wèn)題,今后的課題,假設(shè),啟發(fā),建議,預(yù)測(cè)等);⑤其他(不屬于研究、研制、調(diào)查的主要目的,但就其見(jiàn)識(shí)和情報(bào)價(jià)值而言也是重要的信息)。

      對(duì)于文摘研究的文章有很多,文獻(xiàn)[5]把科技文摘的形式分為4類(lèi):報(bào)道性(informative)、指示性(indicative)、混合性(indicative-informative)和評(píng)論性(review abstract)。并強(qiáng)調(diào)報(bào)道性文摘概述原文內(nèi)容的要點(diǎn),特別是創(chuàng)新點(diǎn),向讀者提供定量和定性信息,反映原文的技術(shù)內(nèi)容,包括研究對(duì)象、工作目的、結(jié)果、性質(zhì)、方法和條件等有關(guān)的各種資料,適用于學(xué)術(shù)論文和技術(shù)報(bào)告。

      本文對(duì)學(xué)術(shù)文摘的認(rèn)知分析方法可以歸納為:①學(xué)術(shù)文摘是論文內(nèi)容要點(diǎn)的概括;②報(bào)道創(chuàng)新點(diǎn)是學(xué)術(shù)文摘的核心;③文摘具有與原文的獨(dú)立性和自含性;④文摘的功能便于信息檢索;⑤文摘報(bào)道創(chuàng)新點(diǎn)的核心內(nèi)容便于今后用于知識(shí)發(fā)現(xiàn)。

      目前,文摘的信息檢索功能已經(jīng)被普遍使用,但由于受到技術(shù)的制約,利用文摘的創(chuàng)新點(diǎn)進(jìn)行知識(shí)發(fā)現(xiàn)還未實(shí)現(xiàn),本文的研究目的就是對(duì)自然語(yǔ)言表述的文摘的創(chuàng)新點(diǎn)語(yǔ)句進(jìn)行詞匯特征統(tǒng)計(jì),語(yǔ)義關(guān)系識(shí)別,語(yǔ)用功能分類(lèi)、句法模式挖掘,建立以“問(wèn)題方法-結(jié)果”為三元組結(jié)構(gòu)的知識(shí)庫(kù),基于三元組知識(shí)庫(kù)開(kāi)展知識(shí)問(wèn)答服務(wù)、加速新知識(shí)的發(fā)現(xiàn)。

      3 文摘?jiǎng)?chuàng)新點(diǎn)詞匯語(yǔ)義分布的認(rèn)知分析

      3.1 文摘?jiǎng)釉~和名詞的詞匯數(shù)量分布

      雖然國(guó)際標(biāo)準(zhǔn)和國(guó)家標(biāo)準(zhǔn)均對(duì)文摘的寫(xiě)作規(guī)范給出了明確的規(guī)定,但作者寫(xiě)作的語(yǔ)言表達(dá)風(fēng)格卻是不一樣的,因此,智能挖掘文摘?jiǎng)?chuàng)新點(diǎn)首先需要進(jìn)行語(yǔ)義識(shí)別。語(yǔ)言學(xué)家認(rèn)為,作為語(yǔ)義分析的基本單位是從詞(比語(yǔ)素高一層的語(yǔ)言單位)開(kāi)始的,因?yàn)樵~是語(yǔ)言中能夠獨(dú)立運(yùn)用的最小單位,所以要找出語(yǔ)義的基本單位必須先從詞入手[6]。為揭示學(xué)術(shù)文摘中作者表達(dá)創(chuàng)新點(diǎn)的詞匯語(yǔ)義分布特征,需要了解文摘的語(yǔ)言特點(diǎn),包括高頻詞匯的分布信息。本文從北京萬(wàn)方數(shù)據(jù)股份有限公司獲得的3410篇《計(jì)算機(jī)學(xué)報(bào)》文摘和8235篇《電子學(xué)報(bào)》文摘,對(duì)這些文摘進(jìn)行動(dòng)詞和名詞的統(tǒng)計(jì)分析工作。統(tǒng)計(jì)方法有:①利用ICTCLAS分詞工具對(duì)文摘進(jìn)行分詞;②統(tǒng)計(jì)文摘?jiǎng)釉~的詞頻和名詞的詞頻;③統(tǒng)計(jì)兩種學(xué)報(bào)文摘的高頻動(dòng)詞和高頻名詞分布的一致性;④統(tǒng)計(jì)文摘?jiǎng)釉~在句子中的分布特征。

      統(tǒng)計(jì)結(jié)果表明,3410篇《計(jì)算機(jī)學(xué)報(bào)》文摘的總字?jǐn)?shù)為226111個(gè),動(dòng)詞的數(shù)量為30944個(gè),平均每篇文摘有9.07個(gè)動(dòng)詞,詞頻最高的動(dòng)詞是“提出”,詞頻高達(dá)到5284次,占總動(dòng)詞30944的17.1%,平均每篇文摘有1.55個(gè)“提出”這個(gè)動(dòng)詞。8235篇《電子學(xué)報(bào)》文摘的總字?jǐn)?shù)為1681116個(gè),動(dòng)詞的總數(shù)為224048個(gè),平均每篇文摘有27.02個(gè)動(dòng)詞,頻率最高的動(dòng)詞是“提出”,頻率高達(dá)到8423次,占動(dòng)詞總數(shù)224048個(gè)3.8%,平均每篇文摘有1.023個(gè)“提出”這個(gè)動(dòng)詞。

      《計(jì)算機(jī)學(xué)報(bào)》文摘和《電子學(xué)報(bào)》文摘的部分高頻動(dòng)詞和高頻名詞統(tǒng)計(jì)結(jié)果如表1所示。

      表1《計(jì)算機(jī)學(xué)報(bào)》文摘和《電子學(xué)報(bào)》文摘的高頻動(dòng)詞和名詞

      3.2 兩種文摘高頻動(dòng)詞和高頻名詞一致性分布

      取兩種學(xué)報(bào)文摘?jiǎng)釉~詞頻最高的前2286個(gè)動(dòng)詞進(jìn)行分析。其中,兩種學(xué)報(bào)共有的動(dòng)詞為1403個(gè),平均一致性為0.61。兩種學(xué)報(bào)文摘共有的動(dòng)詞詞頻最高的是“提出”,兩者前10個(gè)動(dòng)詞共同有的為7個(gè),前50個(gè)動(dòng)詞共同有的為31個(gè),前100個(gè)動(dòng)詞共同有的為61個(gè),前500個(gè)動(dòng)詞共同有的為326個(gè),前1000個(gè)動(dòng)詞共同有的為650個(gè),前2000個(gè)動(dòng)詞共同有的為1262個(gè)。兩種學(xué)報(bào)文摘的高頻動(dòng)詞一致性分布如圖1所示,橫坐標(biāo)為對(duì)數(shù)坐標(biāo)。

      圖1 兩種學(xué)報(bào)文摘的高頻動(dòng)詞一致性分布

      取兩種學(xué)報(bào)文摘名詞最高的前2949個(gè)名詞,兩種學(xué)報(bào)最高詞頻共同有的名詞為1076個(gè),平均一致性為0.36。兩種學(xué)報(bào)文摘共有的最高詞頻名詞為“算法”,兩者前10個(gè)名詞共同有的為7個(gè),前50個(gè)名詞共同有的為34個(gè),前100個(gè)名詞共同有的為54個(gè),前500個(gè)名詞共同有的為263個(gè),前1000個(gè)名詞共同有的為477個(gè),前2000個(gè)名詞共同有的為810個(gè)。兩種學(xué)報(bào)文摘的高頻名詞一致性分布如圖2所示,橫坐標(biāo)為對(duì)數(shù)坐標(biāo)。

      圖2 兩種學(xué)報(bào)文摘的高頻名詞一致性分布

      統(tǒng)計(jì)結(jié)果表明,兩種學(xué)報(bào)文摘的動(dòng)詞一致性為0.61,名詞的一致性為0.36。這說(shuō)明了高頻動(dòng)詞的變化規(guī)律比較平穩(wěn),而高頻名詞隨著專(zhuān)業(yè)的不同和數(shù)量的增大變化比較大。這一結(jié)果說(shuō)明,建立動(dòng)詞庫(kù)比建立名詞庫(kù)更具有分析文摘?jiǎng)?chuàng)新點(diǎn)特征的價(jià)值。然而,實(shí)驗(yàn)結(jié)果表明,僅使用高頻動(dòng)詞的分類(lèi),效果不夠理想,因?yàn)橐粋€(gè)句子中的動(dòng)詞有多個(gè),有的分詞工具會(huì)將名詞分為動(dòng)詞,只采用動(dòng)詞對(duì)文摘進(jìn)行問(wèn)題、方法和結(jié)果分類(lèi)的準(zhǔn)確率只能達(dá)到0.36,因此,還需要考慮動(dòng)詞在句子中的位置分布特征。

      3.3 高頻動(dòng)詞的句子位置分布特征

      動(dòng)詞的詞頻變化規(guī)律對(duì)于文摘?jiǎng)?chuàng)新點(diǎn)的分析具有重要意義,同時(shí),高頻動(dòng)詞的句子位置分布特征信息也具有重要價(jià)值。為了尋找高頻動(dòng)詞的句子位置分布規(guī)律,本文對(duì)《計(jì)算機(jī)學(xué)報(bào)》文摘中的高頻動(dòng)詞句子位置分布特征進(jìn)行統(tǒng)計(jì)分析?!队?jì)算機(jī)學(xué)報(bào)》文摘的句子最多為10句、最少為3句。部分高頻動(dòng)詞的句子位置分布如表2所示,表中列出了前23個(gè)高頻動(dòng)詞在文摘的每個(gè)句子中的分布數(shù)量。

      從表2可以看出,動(dòng)詞不僅有頻率的分布信息,還有位置的分布信息。動(dòng)詞主要集中分布在文摘句的第1~4句上,每個(gè)動(dòng)詞在句子的分布上具有其一定的位置特征。例如,“提出,利用,分析,提高,證明,得到,研究,解決,處理,建立,介紹”在第1句上分布較多,“實(shí)現(xiàn),具有,采用,使用,能夠,求解,設(shè)計(jì),存在”在第2句上分布較多,“表明”在第4、3、5句上較多,“提供”在第4、5句上分布較多。因此,通過(guò)動(dòng)詞在文摘句的位置分布信息可以掌握動(dòng)詞表達(dá)句子的語(yǔ)義信息,但由于位置信息的分布還比較廣泛,通過(guò)動(dòng)詞的詞頻和位置信息還難以對(duì)文摘?jiǎng)?chuàng)新點(diǎn)進(jìn)行有效分類(lèi)。

      為了進(jìn)一步對(duì)文摘的動(dòng)詞進(jìn)行深入分析,本文把文摘句進(jìn)一步細(xì)分為以句號(hào)結(jié)尾的句子和以分號(hào)與逗號(hào)結(jié)尾的子句,分析文摘中的動(dòng)詞在某個(gè)句子的某個(gè)子句中的位置信息。表3給出了前10個(gè)高頻動(dòng)詞在前4個(gè)句子中的子句位置上的分布特征。表3中用x表示句子,y表示子句,如x1y2表示每個(gè)文摘中第1個(gè)句子中的第2個(gè)子句中的動(dòng)詞位置數(shù)量。

      表2 高頻動(dòng)詞的句子位置數(shù)量分布特征

      從表3可以看出,高頻動(dòng)詞在每個(gè)句子和其子句的分布上表現(xiàn)出明顯的個(gè)性化分布特性。例如,“提出”在1個(gè)句子上出現(xiàn)的次數(shù)最高(1932次),在第1句的子句上出現(xiàn)次數(shù)分別是:1047、518、196、92、34、14、5、8、6、3。又如,“表明”在第4句上出現(xiàn)的次數(shù)最高(431次),在第4句的子句上出現(xiàn)的次數(shù)分別是:351、44、23、9、2、0、1、1、0、0。

      表3 高頻動(dòng)詞在子句中的位置數(shù)量分布特征

      本文利用表2和表3文摘中動(dòng)詞在句子和子句中的分布特性,可以為建立創(chuàng)新點(diǎn)的本體結(jié)構(gòu)圖的語(yǔ)義關(guān)系提供理論依據(jù)和技術(shù)方案。例如,通過(guò)問(wèn)題類(lèi)的動(dòng)詞{針對(duì)、存在},方法類(lèi)的動(dòng)詞{提出,利用,采用},結(jié)果類(lèi)的動(dòng)詞{表明,提高,得到,解決}。問(wèn)題類(lèi)的名詞{問(wèn)題,不足,熱點(diǎn),瓶頸,難題},方法類(lèi)的名詞{模型,定義,模式,性質(zhì),誤差,算法,方法,理論},結(jié)果類(lèi)的名詞{策略,效率,優(yōu)點(diǎn),冗余度,指標(biāo),穩(wěn)定性},建立文摘?jiǎng)?chuàng)新點(diǎn)的語(yǔ)義本體結(jié)構(gòu)。

      考慮了動(dòng)詞的位置分布特性后,本文對(duì)文摘的問(wèn)題、方法、結(jié)果分類(lèi)的準(zhǔn)確率可達(dá)到78%,比未考慮動(dòng)詞位置的準(zhǔn)確率提高了1倍。

      研究結(jié)果表明,統(tǒng)計(jì)分析的挖掘方法操作起來(lái)比較簡(jiǎn)單,但從表1和表2可以看出,同一個(gè)詞匯被標(biāo)記成動(dòng)詞和名詞,如“研究、分析、設(shè)計(jì)、應(yīng)用、仿真、影響”,這不僅表現(xiàn)出目前的分詞工具質(zhì)量不高的問(wèn)題,還在于缺乏對(duì)句子的謂語(yǔ)動(dòng)詞的語(yǔ)義識(shí)別,也是影響文摘?jiǎng)?chuàng)新點(diǎn)準(zhǔn)確分類(lèi)的本質(zhì)問(wèn)題。

      4 文摘?jiǎng)?chuàng)新點(diǎn)謂語(yǔ)動(dòng)詞語(yǔ)義理解的認(rèn)知分析

      4.1 中文分詞工具會(huì)扭曲句子的語(yǔ)義理解

      目前,中文分詞工具的準(zhǔn)確性不高會(huì)造成中文句子語(yǔ)義理解的困難。本文采用了三種分詞工具對(duì)《電子學(xué)報(bào)》文摘進(jìn)行分詞實(shí)驗(yàn),下面給出一條文摘(8089號(hào))的分詞結(jié)果。選擇這條文摘是因?yàn)檫@條文摘只有兩句話,第一句話為一條獨(dú)立的句號(hào)句的句子;第二句話是含有14個(gè)逗號(hào)句的句子。這類(lèi)文摘在以后的分類(lèi)中也會(huì)帶來(lái)很多分類(lèi)處理上的麻煩。表4~表6分別給出了三種分詞工具對(duì)這條文摘部分內(nèi)容的分詞處理結(jié)果:表4為采用ICTCLAS分詞工具的分詞結(jié)果,表5為采用Stanford Parser分詞工具的分詞結(jié)果,表6為采用哈工大-SecureCRT.rar分詞工具的分詞結(jié)果。展示的(8089號(hào))文摘部分內(nèi)容帶有6個(gè)逗號(hào)、分號(hào)和句號(hào)。比較幾個(gè)分詞工具可以看出,ICTCLAS分出20個(gè)動(dòng)詞,Stan‐ford Parser分出8個(gè)動(dòng)詞,哈工大-SecureCRT.rar分出18個(gè)動(dòng)詞。其中,哈工大-SecureCRT.rar依存樹(shù)工具對(duì)這條兩個(gè)句號(hào)的文摘句只給出了一個(gè)句子的謂語(yǔ)動(dòng)詞,另一句話沒(méi)有識(shí)別出來(lái)。

      表4 ICTCLAS分詞處理后的文摘句

      表5 Stanford Parser分詞處理后的文摘句

      表6 哈工大-SecureCRT.rar分詞處理后的文摘句

      通過(guò)表4~表6的分詞結(jié)果可以看出,Stanford Parser分詞工具分詞的準(zhǔn)確性相對(duì)較高,對(duì)逗號(hào)句也能給出謂語(yǔ)動(dòng)詞,但仍然有分錯(cuò)的地方。例如,在這一例子中,Stanford Parser分詞處理結(jié)果中的“支持/VV,并行/VV,存在/VV,面臨/VV”,這4個(gè)動(dòng)詞都不是謂語(yǔ)動(dòng)詞。在ICTCLAS分詞處理結(jié)果中的“構(gòu)/v,計(jì)算/v,構(gòu)/v,編程/v,支持/v,應(yīng)用/v,構(gòu)/v,構(gòu)/v,構(gòu)/v,并行/v,優(yōu)化/v,構(gòu)/v,存在/v,面臨/v,挑戰(zhàn)/v”,這15個(gè)動(dòng)詞都不是句子的謂語(yǔ)動(dòng)詞。在哈工大-SecureCRT.rar分詞處理結(jié)果中的“異v,計(jì)算v,發(fā)展v,支持v,應(yīng)用v,發(fā)展v,并行v,編程v,優(yōu)化v存在v,面臨v,挑戰(zhàn)v”,這12個(gè)詞也不是句子的謂語(yǔ)動(dòng)詞。

      目前,常用的分詞工具雖然取得了很大的進(jìn)展,但還存在一些問(wèn)題:①準(zhǔn)確率還需要進(jìn)一步提高;②對(duì)名詞等不起語(yǔ)法和語(yǔ)義作用的詞進(jìn)行了過(guò)細(xì)的劃分。例如,“提出了一種能夠解決現(xiàn)有問(wèn)題的方法?!苯?jīng)過(guò)分詞系統(tǒng)的劃分之后,能夠/解決/有/都被標(biāo)定為動(dòng)詞,那么這些詞就有可能被誤判為這句話的謂詞。然而,這句話的謂語(yǔ)應(yīng)該是“提出了”。所以對(duì)名詞再進(jìn)行細(xì)分有時(shí)候是得不償失的;③有些介詞雖然不是句子的核心成分(謂語(yǔ)),但是卻起到了引導(dǎo)特定類(lèi)別句子、短語(yǔ)的引導(dǎo)詞的作用。例如,“針對(duì)這個(gè)問(wèn)題,提出了一種算法?!痹谶@句話中,“針對(duì)”是個(gè)介詞,當(dāng)然也不是這句話的謂語(yǔ),然而這個(gè)詞卻引出了問(wèn)題句的短語(yǔ),相應(yīng)的該問(wèn)題句應(yīng)該被分離出來(lái)。所以綜合這三個(gè)問(wèn)題,現(xiàn)有的分詞工具還不能被用于進(jìn)行語(yǔ)義單元的提取。

      因此,利用目前的分詞工具進(jìn)行分詞和詞性處理后的句子,仍然達(dá)不到機(jī)器語(yǔ)義理解的要求。

      4.2 文摘句謂語(yǔ)動(dòng)詞語(yǔ)義識(shí)別與主謂賓結(jié)構(gòu)轉(zhuǎn)換

      在對(duì)句法、語(yǔ)義關(guān)系這個(gè)語(yǔ)法學(xué)中心問(wèn)題的研究上,中外許多語(yǔ)法學(xué)家和語(yǔ)法流派都十分強(qiáng)調(diào)動(dòng)詞是敘事句的中心。文獻(xiàn)[7]認(rèn)為,“從語(yǔ)義結(jié)構(gòu)探討句子的形式與意義的關(guān)系,有益于正確認(rèn)識(shí)句子的表層結(jié)構(gòu)(形式結(jié)構(gòu)、結(jié)構(gòu)模式)和深層結(jié)構(gòu)(語(yǔ)義模式)之間的相互聯(lián)系,加深理解句子形式與意義的關(guān)系?!蔽墨I(xiàn)[8]認(rèn)為,“動(dòng)詞是句子的中心、核心、重心,別的成分都跟它掛鉤,被它吸引。”文獻(xiàn)[9]認(rèn)為,“以動(dòng)詞謂語(yǔ)句而言,謂語(yǔ)動(dòng)詞是語(yǔ)義結(jié)構(gòu)的核心(動(dòng)核),而句中的名詞性成分都是這一核心的種關(guān)系(動(dòng)元)。”文獻(xiàn)[10]認(rèn)為,“動(dòng)詞跟受其支配的語(yǔ)義成分可以構(gòu)成一個(gè)最小的語(yǔ)義結(jié)構(gòu)。這些最小的語(yǔ)義結(jié)構(gòu),都具有一定的表述性,能表達(dá)一個(gè)相對(duì)完整的命題或意義,能投射成一個(gè)具有相對(duì)獨(dú)立表述功能的意義自足的最小主謂句?!?/p>

      更為重要的是,因?yàn)橐粋€(gè)漢語(yǔ)句子可以有多個(gè)動(dòng)詞,每個(gè)逗號(hào)短語(yǔ)句都可包含有謂語(yǔ)成分的語(yǔ)義關(guān)系。文獻(xiàn)[11]認(rèn)為,“漢語(yǔ)多動(dòng)詞謂語(yǔ)句是漢語(yǔ)句子基本結(jié)構(gòu)的一個(gè)重要特點(diǎn)。理解這類(lèi)句子時(shí),必須分析這些動(dòng)詞之間的語(yǔ)義聯(lián)系,譯成英語(yǔ)時(shí),常常只將其中的一個(gè)動(dòng)詞譯成英語(yǔ)謂語(yǔ)動(dòng)詞,而將其他動(dòng)詞轉(zhuǎn)換成非謂語(yǔ)動(dòng)詞或其他形式。”文獻(xiàn)[12]認(rèn)為,“在確定一個(gè)句子和基本單元時(shí),把句點(diǎn)顯性標(biāo)識(shí)的一個(gè)語(yǔ)言片段稱為句子,以逗號(hào)分隔的語(yǔ)言片段稱為小句,認(rèn)為小句對(duì)應(yīng)于句子關(guān)系的基本單元?!币虼?,本文認(rèn)為對(duì)于科技文摘?jiǎng)?chuàng)新點(diǎn)句子的謂語(yǔ)動(dòng)詞分析,不僅僅是句子結(jié)構(gòu)的分析,還要從最小的逗號(hào)句進(jìn)行分析,所以識(shí)別句子的謂語(yǔ)動(dòng)詞,挖掘句子的主謂賓結(jié)構(gòu)是文摘?jiǎng)?chuàng)新點(diǎn)句子理解的關(guān)鍵。由此漢語(yǔ)文本語(yǔ)言的語(yǔ)義識(shí)別的核心問(wèn)題可以看作是尋找句子和逗號(hào)子句(或小句)準(zhǔn)確的謂語(yǔ)動(dòng)詞的難題。

      因此,本文提出了通過(guò)句子的謂語(yǔ)動(dòng)詞的識(shí)別來(lái)解決語(yǔ)義理解的認(rèn)知分析方法結(jié)構(gòu),開(kāi)發(fā)了一套《中文科技文摘句謂語(yǔ)動(dòng)詞識(shí)別與句子的主謂賓結(jié)構(gòu)轉(zhuǎn)換軟件工具》,這個(gè)軟件工具能夠?qū)⒅形目萍嘉恼浜芎玫霓D(zhuǎn)換為機(jī)器理解所需要的語(yǔ)義關(guān)系結(jié)構(gòu),并且這種語(yǔ)義結(jié)構(gòu)的句子在后續(xù)建立知識(shí)庫(kù)和謂詞的語(yǔ)義推理中將發(fā)揮重要作用。

      為了建立高準(zhǔn)確率的文摘句的謂語(yǔ)動(dòng)詞的語(yǔ)義識(shí)別率,為今后的謂詞推理建立可靠的基礎(chǔ),本文研究了句子謂語(yǔ)動(dòng)詞的智能識(shí)別問(wèn)題,先利用ICT‐CLAS分詞工具對(duì)《電子學(xué)報(bào)》文摘句進(jìn)行了分詞;然后對(duì)分詞后的文摘句進(jìn)行謂語(yǔ)動(dòng)詞識(shí)別,并將句子的其他標(biāo)記成分取掉,把句子改造成為主謂賓結(jié)構(gòu)。表7給出用中文科技文摘句子謂語(yǔ)動(dòng)詞識(shí)別與主謂賓轉(zhuǎn)換軟件對(duì)文摘(8089號(hào))處理的結(jié)果。

      表7 句子謂語(yǔ)動(dòng)詞識(shí)別與主謂賓轉(zhuǎn)換后的文摘句

      由表7可以看出,文摘(8089號(hào))為2個(gè)句號(hào)句子,14個(gè)逗號(hào)子句,共識(shí)別出16個(gè)謂語(yǔ)動(dòng)詞。每個(gè)由“逗號(hào)、分號(hào)、句號(hào)”組成的句子都包含有謂語(yǔ)動(dòng)詞,這些謂語(yǔ)動(dòng)詞準(zhǔn)確的表達(dá)了句子的語(yǔ)義和語(yǔ)用關(guān)系,去掉了其他多余的詞性標(biāo)記會(huì)更能清晰的表達(dá)句子的語(yǔ)用功能,這對(duì)機(jī)器理解中文文本的語(yǔ)義和語(yǔ)用功能帶來(lái)了更大的好處。

      5 文摘?jiǎng)?chuàng)新點(diǎn)語(yǔ)用分類(lèi)的認(rèn)知分析

      5.1 文摘語(yǔ)用功能的句子分類(lèi)數(shù)量分布

      按照文摘中句子所表達(dá)語(yǔ)用功能的特征,本文把文摘句子分為6種語(yǔ)用類(lèi)型:第1類(lèi)(問(wèn)題句)、第2類(lèi)(方法句)、第3類(lèi)(結(jié)果句)、第4類(lèi)(問(wèn)題句、方法句)、第5類(lèi)(方法句、結(jié)果句)、第6類(lèi)(問(wèn)題句、方法句、結(jié)果句)。先進(jìn)行第一次6分類(lèi),然后將6分類(lèi)中的第4、5、6類(lèi)混合類(lèi)進(jìn)行二次單一類(lèi)分類(lèi),最后與第一次分出的第1、2、3類(lèi)句合并,完成三種語(yǔ)用功能的分類(lèi)任務(wù)。

      本次研究對(duì)象來(lái)自萬(wàn)方數(shù)據(jù)庫(kù)提供的文摘,經(jīng)過(guò)預(yù)處理后為8235條(32686個(gè)句號(hào)句),平均每條文摘3.48句,最長(zhǎng)的一條文摘為13個(gè)句號(hào)句子。表8是本文對(duì)8235條文摘進(jìn)行第一次6分類(lèi)結(jié)果的統(tǒng)計(jì)數(shù)據(jù)。

      表8 語(yǔ)用功能的文摘句子6分類(lèi)數(shù)量分布

      我們把表8分為兩部分,第一部分為可直接分類(lèi)為第1、2、3類(lèi)的單一類(lèi)句子,這類(lèi)句子表達(dá)的語(yǔ)用功能單一。第1、2、3類(lèi)的句子數(shù)為26382,占總句子32686的81%。此外,從表8可以看出,第1類(lèi)主要分布在第一句、第二句、第三句上,第2類(lèi)主要分布在第二句、第一句、第三句上,第3類(lèi)主要分布在第三句、第四句、第二句上。第二部分為第4、5、6類(lèi)句子,這類(lèi)句子的語(yǔ)用功能結(jié)構(gòu)復(fù)雜、有多個(gè)語(yǔ)用關(guān)系,不能直接分為第1、2、3類(lèi)。第4、5、6類(lèi)句子數(shù)量為6304,占總句子32686的19%。第4、5、6類(lèi)句子屬于混合類(lèi)句,需要進(jìn)行二次分類(lèi)。此外,第4類(lèi)主要分布在第一句、第二句上,第5類(lèi)分布在第二句、第三句上,第6類(lèi)分布在第一句、第二句上。

      5.2 二次分類(lèi)與合并的數(shù)量分布

      第4~6類(lèi)句子的二次分類(lèi)結(jié)果如表9所示。

      由表9可以看出,“句子大序號(hào)”是本文對(duì)《電子學(xué)報(bào)》8235條文摘按逗號(hào)分句后建立的數(shù)據(jù)庫(kù)順序號(hào);“文摘號(hào)”是數(shù)據(jù)庫(kù)的文摘編號(hào);“文摘內(nèi)句子號(hào)”是對(duì)每條文摘中句子的編號(hào),其中,1、2分別表示這條文摘的第1個(gè)句號(hào)句和第2個(gè)句號(hào)句,這條文摘只有2個(gè)句號(hào)句子;“原分類(lèi)號(hào)”指的是經(jīng)過(guò)第一次6分類(lèi)后給出的分類(lèi)結(jié)果,其中,6表示這個(gè)文摘的第2句被分為第6類(lèi);“新分類(lèi)號(hào)”是經(jīng)過(guò)二次分類(lèi)后給出的分類(lèi)號(hào),文摘號(hào)為8098文摘的第2句話被第二次分類(lèi)分成了1、2、3類(lèi),并分成了14個(gè)逗號(hào)句。

      經(jīng)過(guò)二次分類(lèi)與一次分類(lèi)的1、2、3類(lèi)合并后,全部文摘分類(lèi)的1、2、3總分類(lèi)句的數(shù)量分布如表10所示。一次分類(lèi)的句子(句號(hào)句)數(shù)量為32685,二次分類(lèi)合并后的句子(逗號(hào)、分號(hào)、句號(hào))為43999。

      由表10可以看出《電子學(xué)報(bào)》文摘?jiǎng)?chuàng)新點(diǎn)的1、2、3類(lèi)的分布有兩個(gè)特點(diǎn):①第1類(lèi)占總句(包括逗號(hào)、分號(hào)、句號(hào))的31.1%,第2類(lèi)占總句的45%,第3類(lèi)占總句的24%,說(shuō)明了文摘表達(dá)第2類(lèi)的句子數(shù)量比較多。②第1類(lèi)主要分布在第1、2、3、4句,第2類(lèi)分布在2、1、3、4句,第3類(lèi)主要分布在第3、2、4、5、1句。

      通過(guò)人工抽查驗(yàn)證,本文提出的按照文摘句的語(yǔ)用功能進(jìn)行6分類(lèi),再二次分類(lèi)方法操作簡(jiǎn)單,且取得的分類(lèi)準(zhǔn)確率較高。經(jīng)過(guò)人工對(duì)300條文摘檢驗(yàn),準(zhǔn)確率高到達(dá)96%以上。

      6 文摘?jiǎng)?chuàng)新點(diǎn)隱含句法模型的認(rèn)知分析

      6.1 文摘中第1類(lèi)數(shù)量缺少問(wèn)題

      參與實(shí)際分類(lèi)的《電子學(xué)報(bào)》文摘數(shù)為8235條,經(jīng)過(guò)二次分類(lèi)合并后每條文摘同時(shí)含有第1、2、3類(lèi)的文摘數(shù)量為6505條,占84%;同時(shí),含有第1、2、3類(lèi)的句子數(shù)為37399句(包括逗號(hào),分號(hào),句號(hào)),占85%。如表11所示。

      表9 二次分類(lèi)(新分類(lèi))與一次分類(lèi)的對(duì)比舉例

      表10 全部文摘的1、2、3類(lèi)句數(shù)量分布

      表11 同時(shí)含有第1、2、3類(lèi)的文摘數(shù)量

      由表11可以看出,①第1類(lèi)占總文摘的84%,第2類(lèi)占總文摘的96.6%,第3類(lèi)占總文摘的91%。②每篇文摘中同時(shí)都含有第1、2、3類(lèi)的文摘只到達(dá)到84%。因此,尋找第1類(lèi)句子缺失的問(wèn)題就變成為文摘寫(xiě)作語(yǔ)言模式的深度認(rèn)知分析方法的任務(wù)。

      6.2 文摘中隱含結(jié)構(gòu)的特征分析

      經(jīng)過(guò)大量統(tǒng)計(jì)分析發(fā)現(xiàn)《電子學(xué)報(bào)》文摘不直接給出表達(dá)問(wèn)題句和結(jié)果句的概率很高。這一特點(diǎn)表現(xiàn)在《電子學(xué)報(bào)》文摘的第一句為第2類(lèi)的文摘達(dá)到25615條,占總文摘8235條的31.1%,而且此類(lèi)文摘沒(méi)有直接的顯性問(wèn)題句,這是《電子學(xué)報(bào)》文摘的特點(diǎn),也是提取問(wèn)題句的難點(diǎn)。為了方便研究,本文把這類(lèi)文摘句稱為“問(wèn)題隱含特殊句”。經(jīng)過(guò)二次分類(lèi)合并后《電子學(xué)報(bào)》文摘的這種“問(wèn)題隱含特殊句”有1571條,占總文摘數(shù)8235的19.0%。

      “問(wèn)題隱含特殊句”的舉例:本文/r提出了/V一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)的在線算法/n。

      為此,本文從語(yǔ)言學(xué)的角度對(duì)這類(lèi)文摘句進(jìn)行語(yǔ)法結(jié)構(gòu)分析。語(yǔ)言學(xué)文獻(xiàn)[13]指出,“謂詞特別是謂語(yǔ)動(dòng)詞是整個(gè)句子的中心,與謂語(yǔ)動(dòng)詞左側(cè)最近的名詞短語(yǔ)鄰居即為主語(yǔ),與名詞左側(cè)最近的形容詞或形容詞性短語(yǔ)鄰居即為定語(yǔ),與動(dòng)詞左側(cè)最近的副詞或副詞短語(yǔ)鄰居為狀語(yǔ),與動(dòng)詞右側(cè)最近的副詞短語(yǔ)、介賓短語(yǔ)、動(dòng)詞短語(yǔ)、孤立形容詞鄰居(不修飾名詞)為補(bǔ)語(yǔ),除此之外的名詞或名詞短語(yǔ)為賓語(yǔ)?!睂?duì)于賓語(yǔ)來(lái)說(shuō),在很多情況下,賓語(yǔ)的核心詞并沒(méi)有包含太多的信息,而賓語(yǔ)前的定語(yǔ)卻包含了很多信息。因此就會(huì)出現(xiàn),“問(wèn)題隱含特殊句”這種情況,即“問(wèn)題隱含特殊句”是由賓語(yǔ)前的定語(yǔ)包含了要解決的問(wèn)題的信息的句子。例如,將一個(gè)文摘的例句表達(dá)成下面的結(jié)構(gòu):

      {[主語(yǔ)]本文/r}||{[謂語(yǔ)]提出了/V}||{[定語(yǔ)]一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)/v與跟蹤/v運(yùn)動(dòng)目標(biāo)的}||{[賓語(yǔ)]在線算法/n}。

      在上述的例子中,“一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)的”是“在線算法”的定語(yǔ)。在這個(gè)定語(yǔ)中,指明了直接賓語(yǔ)“在線算法”的適用范圍、前提條件和適用目的。也就表明了“在線算法”所要解決的問(wèn)題。因此,把這類(lèi)“問(wèn)題隱含特殊句”的寫(xiě)作方式可歸納為如表12所示的模板。

      表12“問(wèn)題隱含特殊句”的句法結(jié)構(gòu)

      按照表12處理“問(wèn)題隱含特殊句”的模板結(jié)構(gòu),本文對(duì)“問(wèn)題隱含特殊句”進(jìn)行模式識(shí)別,并把定語(yǔ)中的“在XXXXXX中”和“處理對(duì)象ZZZZZZ”等抽取出來(lái),為該文摘補(bǔ)充兩條第1類(lèi)短語(yǔ)。這樣上述舉例文摘的第1類(lèi)可以補(bǔ)充為:在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中,運(yùn)動(dòng)目標(biāo)的檢測(cè)與跟蹤。

      通過(guò)對(duì)“問(wèn)題隱含特殊句”的處理,使得總文摘的第1類(lèi)的數(shù)量由84%提高到92%,第1、2、3類(lèi)全有的文摘數(shù)量由80%提高到89%,有效的解決了由于科技文摘寫(xiě)作語(yǔ)言表述的豐富性帶來(lái)的分類(lèi)和挖掘的困難,大大提高了科技文摘?jiǎng)?chuàng)新點(diǎn)的準(zhǔn)確分類(lèi)和有效挖掘的目標(biāo)。為建立“問(wèn)題(p)”“方法(M)”“結(jié)果(R)”三元組知識(shí)庫(kù)的問(wèn)答服務(wù)系統(tǒng)提供了知識(shí)挖掘的理論和方法。

      通過(guò)對(duì)本文提出的學(xué)術(shù)文摘?jiǎng)?chuàng)新點(diǎn)挖掘的5個(gè)認(rèn)知分析方法的實(shí)驗(yàn),驗(yàn)證了這5個(gè)認(rèn)知分析方法在文本挖掘過(guò)程中具有明顯的階段性和遞增性現(xiàn)實(shí)特點(diǎn),其是實(shí)現(xiàn)科技文摘?jiǎng)?chuàng)新點(diǎn)挖掘需要考慮的5個(gè)認(rèn)知分析方法。經(jīng)過(guò)5個(gè)階段的實(shí)驗(yàn),驗(yàn)證了科技文摘中的創(chuàng)新點(diǎn)具有一定的事實(shí)性和動(dòng)詞分布的一致性,謂語(yǔ)動(dòng)詞的語(yǔ)義對(duì)語(yǔ)用分類(lèi)的理解具有重要的決定性作用,科技文摘為了突出其創(chuàng)新點(diǎn)的表達(dá),常常會(huì)采用復(fù)雜的句子和隱含的表達(dá)方式。下面將幾個(gè)認(rèn)知階段的研究結(jié)果匯總在一起,如圖3和圖4所示。

      圖3 識(shí)別率改善的幾個(gè)階段

      圖4 考慮隱含句法的第1、2、3類(lèi)全有的文摘數(shù)量

      7 結(jié)束語(yǔ)

      科技文摘最初設(shè)置的目的不僅是為了快速檢索,其有標(biāo)題和關(guān)鍵詞的檢索功能,更重要的是表達(dá)文章創(chuàng)新點(diǎn)的核心功能。經(jīng)過(guò)上百年來(lái)的發(fā)展,科技文摘的核心功能并沒(méi)有變,但承載科技文摘的介質(zhì)從紙質(zhì)形式上升到了數(shù)字化形式,數(shù)字化的形式使得人們對(duì)科技文摘的利用方式已不再只是人工閱讀的方式了,借助計(jì)算機(jī)技術(shù)和人工智能技術(shù)可能使科技文摘成為智能化的問(wèn)答方式為人們服務(wù)。但是科技文摘?jiǎng)?chuàng)新點(diǎn)內(nèi)容的表現(xiàn)方式不是結(jié)構(gòu)化數(shù)據(jù),而是人類(lèi)使用的自然語(yǔ)言形式。目前的計(jì)算機(jī)技術(shù)和人工智能技術(shù)使用的是機(jī)器語(yǔ)言形式,自然語(yǔ)言形式和機(jī)器語(yǔ)言形式不能直接交流,需要將人類(lèi)自然語(yǔ)言形式通過(guò)智能的模式轉(zhuǎn)換為機(jī)器可以理解的模式。本文對(duì)科技文摘的創(chuàng)新點(diǎn)做了認(rèn)知分析方法的研究,從創(chuàng)新點(diǎn)的報(bào)道功能、詞匯語(yǔ)義分布的一致性、謂語(yǔ)動(dòng)詞的語(yǔ)義理解性、語(yǔ)用功能的分類(lèi)性和句法模型的隱含性五個(gè)方面進(jìn)行了深入研究,期望能夠?yàn)闄C(jī)器處理自然語(yǔ)言的研究提供智能認(rèn)幫助,對(duì)基于創(chuàng)新點(diǎn)知識(shí)庫(kù)建設(shè)和智能問(wèn)答系統(tǒng)建立提供理論和方法的認(rèn)知分析方法。后續(xù)的工作將建立創(chuàng)新點(diǎn)知識(shí)庫(kù),進(jìn)一步研究智能問(wèn)答系統(tǒng)的推理技術(shù),探索文摘?jiǎng)?chuàng)新點(diǎn)的智能化服務(wù)。

      猜你喜歡
      分詞謂語(yǔ)文摘
      非謂語(yǔ)動(dòng)詞
      IAPA文摘
      非謂語(yǔ)動(dòng)詞
      結(jié)巴分詞在詞云中的應(yīng)用
      文摘
      寶藏(2017年2期)2017-03-20 13:16:46
      非謂語(yǔ)動(dòng)詞題不難答 石娟
      值得重視的分詞的特殊用法
      非謂語(yǔ)動(dòng)詞
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      南部县| 洛南县| 思南县| 房产| 聂拉木县| 略阳县| 通渭县| 东阳市| 曲阜市| 嘉善县| 贞丰县| 乌拉特后旗| 隆化县| 固原市| 海门市| 广宁县| 陆川县| 晋宁县| 德保县| 攀枝花市| 禄劝| 榆林市| 大连市| 汝阳县| 佛学| 平塘县| 和田市| 新化县| 宿迁市| 西安市| 聂荣县| 边坝县| 西乌珠穆沁旗| 迁西县| 涟水县| 肥城市| 秦皇岛市| 灵丘县| 外汇| 新沂市| 巩义市|