陳佳琳 CHEN Jia-lin
◆摘? 要:向量語義學通過分析單詞在文本中的分布來表征詞的意義,這種語義表征方法被用于自然語言處理的技術之中。通過考察單詞出現(xiàn)的語境來表征詞的語義,而不再是傳統(tǒng)的語言學或邏輯學視角刻畫詞功能意義或模型論語義。
◆Abstract: Vector semantics represents the meaning of words by analyzing the distribution of words in the text, which is used in natural language processing technology. It is no longer the traditional linguistic or logical perspective to describe the functional meaning or model semantics of words.
◆關鍵詞:現(xiàn)代語義學;向量語義學;自然語言處理
◆Key word:Modern semantics; vector semantics; natural language processin
隨著人工智能日益發(fā)展,語義學的研究越來越受到重視。從邏輯的視角來看,語言分為語音、語形、語義和語用,其中,語音、語形為載體,語義和語用關涉內涵。人們交流的時候,既要說清楚自己想表達的意思,同時也要理解他人想表達的意思,所以語義是交流的核心,這也是現(xiàn)在語義學研究價值所在。
一、語義學及其分類
語義學(Semantics)是一個涉及語言學、心理學、邏輯學以及計算機科學等諸多領域的學科。語義學主要研究語言的意義,單詞、短語、句子和篇章都是屬于自然語言的語言單位。研究語義學可以發(fā)現(xiàn)語言表達的規(guī)律,甚至發(fā)現(xiàn)不同語言的語義機制的共同點和不同點。
語義學這個概念細究起來,會有不同的含義。從研究范圍來說,語義學可以分為:語言學的語義學、邏輯學的語義學、普通話的語義學以及哲學的語義學,這四種是廣義的語義學。而平時我們所說的語義學僅僅是指狹義的語義學,也就是語言學的語義學。主要是研究各種自然語言單位的意義及其相互關系,語義的共時變化和歷時演變。這種狹義的語義學又可以分為:詞匯語義學、句法語義學和語義語用學。除此之外,依據(jù)不同的研究興趣,還有形式語義學、解釋語義學、生成語義學、結構語義學、認知語義學等不同的語義學。
二、現(xiàn)代語義學重要性
語義問題非常復雜,傳統(tǒng)語義學的發(fā)展一直相對緩慢。傳統(tǒng)語義學的研究有三個缺陷,第一,傳統(tǒng)語義學只研究詞義,研究形式比較單一。第二,傳統(tǒng)語義學的研究只是靜態(tài)的研究語言中的語義,缺少在動態(tài)語境的研究。第三,傳統(tǒng)語義學由于詞義很多,無法形成一個完整的詞義系統(tǒng)。這些缺陷使得傳統(tǒng)語義學的研究受到阻礙,無法深入到詞的內部進行研究。
現(xiàn)代語義學的研究深入到了詞的內部,把研究范圍從單詞、短語擴大到了句子、篇章。使得語義研究的深度和廣度的大大的加強。
現(xiàn)代語義學研究一方面深入到了詞的內部,重視發(fā)展內部規(guī)律,把研究范圍從單詞、短語擴大到了句子、篇章。另一方面,隨著社會的發(fā)展,對語義學的研究越來越注重在現(xiàn)實生活中的應用。隨著機器翻譯、人工智能以及通訊技術等的迅猛發(fā)展,語義學越來越受到重視。
三、向量語義學及簡單模型
在眾多的現(xiàn)代語義學體系中,向量語義學是非常具有競爭優(yōu)勢的一類。在傳統(tǒng)語義學中,單詞的意義是另一串字符串,或者是詞匯表中的對應的某個索引。這些處理方式有個共同之處,即忽略了單詞的相似性、單詞的關聯(lián)性等。比如在下面的例子中:
A bottle of tesguino is on the table.
Everybody likes tesguino.
Tesguino makes you drunk.
We make tesguino out of corn
雖然讀者可能不理解斜體的“tesguino”的意義,但我們可以通過該單詞出現(xiàn)的語境來識別它的涵義,這便是向量語義學的非形式解讀。
向量語義學的哲學起源,至少可以追溯到20世紀50年代的語言學和哲學著作。比如,哲學家路德維?!ぞS特根斯坦(Ludwig Wittgenstein)認為,為每個單詞都給出一個全面的定義是做不到的,并提出“意義即使用”的口號。[1]簡單的來說,人們不應該使用某種邏輯語言來解釋每一個單詞,而是應該去考察使用這個單詞的語境,即人們在實際生活中,在說話和理解時如何使用這個單詞的表示自己的意思的。
語言學家Joos(1950)、Harris(1954)和Firth(1957)為了實現(xiàn)維特根斯坦的意義理論提出了一個想法:根據(jù)語言使用的環(huán)境或分布來解釋一個單詞。一個單詞的分布是由它發(fā)生語境的集合、相鄰的單詞或語法環(huán)境決定的,這種想法被稱之為“分布假說”。支撐這種理論的語言學證據(jù)有:同義詞(如“oculist”和“eye-doctor”)往往出現(xiàn)在相同的環(huán)境中。也就是說,出現(xiàn)在非常相似分布中的兩個單詞往往具有相同的含義。又如,形近詞“eye”和“examined”這兩個單詞的涵義差別“大致相當于它們在環(huán)境中的差異”
向量語義學將一個單詞表示為某個多維語義空間中的一個點。表示單詞的向量通常稱為“嵌入”,這是因為單詞總是被嵌入到一個特定的向量空間中。向量語義學結合了分布主義思想和向量思想,將一個單詞的意義看作是一個向量,即N維空間中的一個點。盡管向量語義學有很多種版本,但是每種版本都基于單詞的共現(xiàn)矩陣(co-occurrence matrix)。下面簡單介紹自然語言處理中幾種常用的表征方式。
(一)項-文檔矩陣(term-document matrix)
在項-文檔矩陣中,每一個行表示詞匯表中的一個單詞,每一列表示某個具體的文檔。兩個相似的文檔往往具有相似的單詞,如果兩個文檔具有相似的單詞,那么它們的列向量也可能相似。一個真正的項-文檔矩陣通常不會只有幾行幾列,由于詞匯表的大小至少有數(shù)萬個,文檔的數(shù)量可能也非常大。
(二)單詞-單詞矩陣(word-word matrix)
除了項-文檔矩陣外,還存在一種單詞-單詞矩陣,不同于項-文檔矩陣的是,其中的列是單詞,而不再是文檔,所以項-文檔矩陣中的列由單詞構成,可以表示為|V|×|V|。每個值表示某語料庫中某一上下文中行詞和列詞共同出現(xiàn)的次數(shù)。
(三)余弦(cosine)方法
在自然語言處理中使用的向量的相似度的余弦方法基于線性代數(shù)的點積(dot product)算子。如果一個向量越長,點積就會越大,那么每個維度的值也就越大。對于頻繁出現(xiàn)的單詞,原始點積會更高。為了得到兩個單詞的相似性,不考慮頻率,有標準化點積的概念,即將點積除以兩個向量的長度。通過計算向量的余弦,可以比較單詞的相似性。
(四)TF-IDF模型
隨著向量語義學發(fā)展,人們發(fā)現(xiàn),簡單的頻率表征并不是計算單詞之間關聯(lián)的最佳方法,于是提出了TF-IDF模型。其主要思想是:如果某個單詞在一篇文章中出現(xiàn)的頻率高,在其他的文章中出現(xiàn)的頻率少,那么就可以認為這個單詞具有很好的區(qū)分能力,可以用這個單詞用來分類。在這個模型中,單詞的含義是由鄰近單詞的簡單函數(shù)定義的。由于有大多數(shù)的單詞根本不會出現(xiàn)在其他單詞的上下文中,這種方法會產(chǎn)生長的稀疏向量,即大部分包含0。
TF-IDF模型實際是TF*IDF。其中TF表示文檔中單詞的頻率。通常我們希望原始頻率低一點,因為一個單詞在文檔總出現(xiàn)200次并不會使得該單詞與文檔相關的可能性增加200次。所以我們使用頻率權重定義:
在文檔中出現(xiàn)10次的項將有TF=2,在文檔中出現(xiàn)100次TF=3, 1000次TF=4,以此類推。IDF表示逆向文檔頻率,即一個術語出現(xiàn)在越少數(shù)的文檔中,這個權重就越高。但是實際上,如果一個單詞在一個類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選作該類文本的特征詞以區(qū)別于其它類文檔。
四、總結
向量語義學的優(yōu)點很多,首先向量語義學提供了一種細粒度的意義模型,可以實現(xiàn)單詞的相似性和短語的相似性的計算。其次,向量語義學更具有實用性,有助于人工智能程序從文本中自動學習,而無需添加任何復雜的標簽或監(jiān)督。鑒于這些優(yōu)點,向量語義學模型是現(xiàn)在自然語言處理中表征單詞意義的標準方法。
向量語義學可用于查找單詞釋義、跟蹤單詞意義的變化或自動發(fā)現(xiàn)不同語料庫中單詞的含義。此外,還可通過計算余弦來估計兩個文檔的相似性。雖然向量語義學表征單詞的意義方面具備優(yōu)勢,但其在表征句子的意義方面稍微缺乏符合直覺的解釋。
參考文獻
[1]Wittgenstein,L.Philosophical Investigations. (Translated by Anscombe,G.E.M.).New Jersey:Wiley-Blackwell,1953:43.
[2]Harris,Z.S.Distributional structure.Word,1954(10): 146-162.
[3]Osgood,C.E.Suci,G.J. and Tannenbaum, P.H.The Measurement of Meaning. University of Illinois Press.1957.
[4]Luhn, H.P.A statistical approach to the mechanized encoding and searching of literary information.IBM Journal of Research and Development,1957,1(04):309–317.
[5]Sparck Jones, K.A statistical interpretation of term specificity and its application in retrieval.Journal of Documentation,1972,28(01):11–21.
作者簡介
陳佳琳(1995—),女,遼寧沈陽人,湘潭大學碧泉書院哲學與歷史文化學院碩士研究生。研究方向:邏輯學。