本文首先介紹了自然語言處理的概念,并給出了自然語言處理模型,與此同時,分析了依存句法的有關(guān)問題,包括其公理以及具體分析方法等,最后闡述了基于依存句法的實體關(guān)系抽取過程。
【關(guān)鍵詞】計算機(jī) 自然語言處理 依存語法 實體關(guān)系抽取
計算機(jī)技術(shù)與人工智能的結(jié)合,形成了自然語言處理,使得人與計算機(jī)的結(jié)合更加緊密,依存句法能夠?qū)崿F(xiàn)對實體關(guān)系的抽取和對自然語言的分析,進(jìn)而使自然語言處理成為可能,這對于信息抽取效率的提高以及人與計算機(jī)之間聯(lián)系的加強(qiáng)意義重大。
1 自然語言處理
1.1 自然語言處理的概念
自然語言處理,是計算機(jī)領(lǐng)域的一種技術(shù),是計算機(jī)技術(shù)發(fā)展到一定階段,與人工智能逐漸結(jié)合的產(chǎn)物。自然語言即人類的常用語言,自然語言處理的意義在于,對上述語言進(jìn)行處理,使其能夠被計算機(jī)所識別,進(jìn)而將其應(yīng)用于計算機(jī)軟件系統(tǒng)當(dāng)中,使軟件的研發(fā)以及修改等得以實現(xiàn)的一種技術(shù)。鑒于語言本身存在復(fù)雜性的特點(diǎn),因此自然語言處理的實現(xiàn)也十分復(fù)雜,建立相應(yīng)的計算模型,是使處理過程能夠有效實現(xiàn)的基礎(chǔ)。
1.2 自然語言處理模型
自然語言處理模型由自然語言(N)、問題(P)、模型(M)、算法( A)、輸入集(I)與輸出集(O)幾種因素組成。自然語言屬于人類的語言,計算機(jī)作為機(jī)器,不能夠?qū)ζ溥M(jìn)行識別,將其轉(zhuǎn)換為問題,能夠使其與計算機(jī)的識別要求相適應(yīng),與此同時,使其以模型的方式體現(xiàn),可以使自然語言處理得以實現(xiàn)。在充分考慮輸入集的前提下,應(yīng)用相應(yīng)的算法,將其與在問題的基礎(chǔ)上所得到的模型相結(jié)合,能夠產(chǎn)生輸出集,最終完成自然語言處理過程。
2 依存句法
依存句法的應(yīng)用,是實現(xiàn)自然語言處理的基礎(chǔ)。在依存句法的基礎(chǔ)上,自然語言能夠以依存樹等形式存在,為語言的處理提供了便利條件。
2.1 依存句法公理
依存句法的公理主要包括以下幾方面內(nèi)容:
(1)一個句子中,必須只有一個獨(dú)立成分,且該成分不依存于其他成分。
(2)在一個句子中,其他成分必須依存與某一成分。
(3)在一個句子中,無論對于任何成分而言,其所依存的成分最高數(shù)量為1,不能超過這一數(shù)量,簡單的說,句子中的任意成分,其所依存的成分量,不能大于等于2。
(4)假設(shè)句子中存在三個成分,分別為1、2和3,在三個成分當(dāng)中,如果1直接依賴于2,而3在1與2中間,那么3既可以依存于1,又可以依存于2,但需要認(rèn)識到的是,一定要堅持第三點(diǎn)公理,3必須單獨(dú)依賴于1或2。除此之外,成分3頁可以既不依賴于1,也不依賴于2,而是依賴于兩者之間的某一成分N。
2.2 依存句法分析方法
2.2.1 依存句法結(jié)構(gòu)
目前計算機(jī)領(lǐng)域主要存在三種依存句法結(jié)構(gòu),分別為依存樹、有向圖以及依存投射樹。依存樹以樹狀的形式存在,是依存句法用于實現(xiàn)自然語言處理的主要結(jié)構(gòu)之一。有向圖充分考慮了句子各個成分之間的關(guān)系,例如主語與謂語的關(guān)系、動詞與賓語之間的關(guān)系以及定語與中心詞之間的關(guān)系等,在分析句子各詞語上述關(guān)系的基礎(chǔ)上,實現(xiàn)自然語言處理,完成對自然語言的分析,使其能夠成為計算機(jī)所能夠識別的語言。依存投射樹指的是與依存樹基本一致,但同時又有所不同,主要體現(xiàn)在投射方面,在應(yīng)用時,需要對兩者加以區(qū)別。
2.2.2 依存句法分析方法
依存句法分析方法有很多種,每一種類所依靠的原理不同。至今為止主要包括基于泰尼埃理論的依存句法分析方法、基于上下文無關(guān)文法的分析方法、基于約束的依存分析方法等。上述方法均根據(jù)依存句法分析方法所依靠的原理的不同來劃分。除此之外,還可以以統(tǒng)計為標(biāo)準(zhǔn),實現(xiàn)對依存句法的劃分。或?qū)⑸鲜鰞煞N劃分方法相結(jié)合,實現(xiàn)依存依據(jù)的分析。
3 基于依存句法的實體關(guān)系抽取
3.1 實體關(guān)系抽取
社會的不斷發(fā)展,使得每一天所產(chǎn)生的信息量也在不斷加大,為計算機(jī)對數(shù)據(jù)以及信息的處理帶來了極大的困難。實體關(guān)系抽取,能夠使不同信息識別的準(zhǔn)確性得到提高,對于信息處理效率的提升極為重要。在實體抽取下,所抽取出的知識要素,會以離散的形式存在,能夠有效的反映出文本中所存在的實體的內(nèi)容,同時也就能夠達(dá)到識別實體的目的,但需要認(rèn)識到的是,實體識別無法判斷不同實體之間的關(guān)系。將實體識別與關(guān)系抽取相結(jié)合,既能夠達(dá)到準(zhǔn)確反映實體情況的目的,又能夠使各實體之間的關(guān)系得以體現(xiàn),將上述過程建立在依存句法的基礎(chǔ)上,能夠極大的提高信息識別的效率以及有效性。
3.2 基于依存句法的實體關(guān)系抽取
依存句法能夠有效的分析出句子中各詞語之間的依存關(guān)系,通過對其這一功能的應(yīng)用,可以使實體關(guān)系抽取成為可能。依存句法結(jié)構(gòu)包括有向圖結(jié)構(gòu),以“他是一個壞人”為例,在上述結(jié)構(gòu)下,“他”與“是”成主謂關(guān)系,“是”與“人”為動賓關(guān)系,“一個”與“人”為定中關(guān)系?!皦摹迸c“人”同樣呈定中關(guān)系。依靠依存句法,上述自然語句中各實體之間的關(guān)系能夠有效的體現(xiàn),同時,也能夠?qū)⒏鱾€實體在語句中所扮演的角色識別,即滿足了實體識別的功能,又滿足了關(guān)系抽取的功能,使得實體關(guān)系抽取得以實現(xiàn)。
由此可見,在考慮依存句法的基礎(chǔ)上,實現(xiàn)實體關(guān)系抽取,能夠使抽取過程更加簡單,因此也就能夠使計算機(jī)更好的識別出自然語言,從長遠(yuǎn)的角度看,這對于人工智能水平的進(jìn)步,具有重要的現(xiàn)實意義。
4 結(jié)論
綜上,自然語言處理是將人與計算機(jī)相聯(lián)系的主要途徑,而處理過程的實現(xiàn),則需要依靠實體關(guān)系抽取過程來完成。實體關(guān)系抽取較為復(fù)雜,以依存句法為基礎(chǔ),將其種種結(jié)構(gòu)圖進(jìn)行應(yīng)用,能夠有效的完成實體識別以及關(guān)系抽取的過程,使得計算機(jī)能夠有效的識別出每一個實體,并分析出其與其他實體之間的關(guān)系,使得自然語言處理效率得到了極大的提高。
參考文獻(xiàn)
[1]徐健,張智雄,吳振新.實體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書情報技術(shù),2014,12(08):12-14.
[2]車萬翔,劉挺,李生.實體關(guān)系自動抽取[J].中文信息學(xué)報,2014,19(02):1-5.
[3]奚斌,錢龍華,周國棟,等.語言學(xué)組合特征在語義關(guān)系抽取中的應(yīng)用[J].中文信息學(xué)報,2013,22(03):14-16.
[4]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關(guān)系抽取[J].中文信息學(xué)報,2014,28(06):183-186.
[5]董靜,孫樂,馮元勇,等.中文實體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報,2013,20(04):70-75.
作者簡介
周亮?。?992-),男,浙江省溫州市人。同濟(jì)大學(xué)碩士研究生。研究方向為自然語言處理。
作者單位
同濟(jì)大學(xué)計算機(jī)科學(xué)與技術(shù)系 上海市 201804