摘 要 不同的方位義詞語可以用于表達相同的空間場景。文章考察了漢語空間表達“異形同義”現(xiàn)象的不同類型,并據(jù)此制作測試題,作為“異形同義判別”子任務,成為中文空間語義理解能力SpaCE評測基準的一個組成部分。針對大語言模型的評測結(jié)果顯示,大語言模型在“異形同義判別”任務上與人類水平尚有較大差距,且機器在不同試題上的表現(xiàn)特點也與人類表現(xiàn)有所不同。從空間認知圖式的角度講,大語言模型基于語符分布學習到的人類語言知識,還沒有轉(zhuǎn)化為類人的空間認知圖式理解能力。
關(guān)鍵詞 空間表達 空間認知 異形同義 機器語言能力評測 大語言模型
一、 引 言
語言中有的符號形式跟意義之間的對應關(guān)系相對固定,使用時對語境的依賴性相對較小,比如“汽車、學校、演奏……”;有的符號形式則需要在使用時結(jié)合語境才能確定其具體意義。比如表達物體之間空間方位關(guān)系的詞語“上、下、前、后、上去、下去、這兒、那兒……”。圖1中甲和乙在描述方塊和圓球的位置關(guān)系時,就可能會出現(xiàn)“異形同義”的情況:甲說“圓球K在方塊Q的前面”,乙說“圓球K在方塊Q的后面”,兩人說的句子形式不同(有一詞之差異),但所描述的空間場景是相同的。[1]“前、后”等用于表達空間方位關(guān)系的詞語,屬于指示語(deixis)范疇,相比于形義對應關(guān)系相對固定的語言現(xiàn)象,跟指示范疇相關(guān)的形義對應關(guān)系更為復雜多樣,會給計算機理解文本中的空間信息帶來更大的挑戰(zhàn)。
以深度學習方法訓練的人工神經(jīng)網(wǎng)絡,通過觀察海量文本中語言符號的分布模式,可以掌握類似于語言學研究所追求的“形式—意義”對應關(guān)系的知識。像ChatGPT這樣的大語言模型表現(xiàn)出能與人流暢對話的能力,正是“意義即(形式)分布”這一抽象語言學原理的有效驗證。不過,符號的意義是否完全等同于符號的形式分布呢?再進一步,訓練語料的數(shù)據(jù)盡管是海量的,畢竟還是有限的。計算機在多大程度上,能從有限的語料(形式分布)中學習到具有無限可能的意義呢?
從理論上回答上述問題非常困難,信息處理領域的做法就是不斷通過評測機器的語義理解水平來探索答案。在以往評測計算機空間信息處理能力的研究中,比較有代表性的評測任務是空間語義角色標注,如面向英語文本的空間語義角色標注任務SpRL(2013,2015),多模態(tài)空間語義角色標注任務mSpRL(2017)等。[2]語義角色標注任務是基于語言學理論對文本中的空間信息(包括實體和空間關(guān)系等)進行識別和分類,要求對文本進行細粒度結(jié)構(gòu)化的綜合分析,但這類任務側(cè)重語言學專業(yè)知識,而不是訴諸普通人的語感。從“形式—意義”對應關(guān)系的角度看,自然語言的空間表達中有很多現(xiàn)象會超越符號通常的形義配對關(guān)系,呈現(xiàn)出不同程度的復雜性,對理解主體的認知加工能力提出了更高的要求。從這個角度考慮,我們嘗試在評測任務設計時,實現(xiàn)從“語言學”到“語文學”的擴展(或者說某種程度的轉(zhuǎn)向):測試題的考察意圖應該更直接體現(xiàn)機器對空間語言表達的直觀理解能力,以更接近普通人語感的方式來回答問題。近四年我們依托中國計算語言學大會(CCL)的中文技術(shù)評測平臺,組織了SpaCE系列評測大賽(SpaCE2021~2024),[3]先后設計了六項子任務:文本空間信息正誤判別、文本異??臻g信息識別、缺失參照成分找回、空間語義角色標注、空間表達異形同義判別、空間方位關(guān)系推理。[4]其中除空間語義角色標注、空間方位關(guān)系推理“專業(yè)色彩”較強外,其余四項任務都屬于對一般人來說靠直覺就能回答的問題。比如例(1)是一個缺失參照成分找回任務[5]的例子:
(1) 文本:他們五人推著自行車走到汽車旁,有兩個人爬到了汽車上,接著就翻下來十筐蘋果,下面三個人把筐蓋掀開往他們自己的筐里倒。
問題: ( )下面三個人把筐蓋掀開往他們自己的筐里倒?
顯然,這樣的任務就像是日常對話中的問答,不需要語言學專業(yè)知識參與。對人來說,回答這個問題需要理解整句話的語義,同時重點需要理解在特定場景中出現(xiàn)的實體以及實體間的空間方位關(guān)系。如果計算機也能像人一樣做出正確的回答,就可以認為計算機也像人一樣,是能夠理解這句話中的空間信息的。
本文討論SpaCE系列空間評測基準中的“異形同義判別任務”。第二部分分析“異形同義”現(xiàn)象的不同類型(對應不同復雜程度和不同認知難度的測試任務);第三部分介紹評測數(shù)據(jù)集的制作方法;第四部分簡要介紹大語言模型在這一任務上的表現(xiàn);第五部分對比模型和人類被試在這一任務上的表現(xiàn);第六部分對這項研究做一個總結(jié)。
二、 空間“異形同義”現(xiàn)象的不同類型
空間范疇作為非?;A的語言認知概念,一直受到語言學界關(guān)注,研究成果非常豐富。如果從“異形同義”的視角看漢語語法學界以往的工作,相關(guān)成果在三方面對本文工作有直接的啟發(fā)。(1) 注重區(qū)分不同空間方位參照類型,挖掘空間表達中影響說話人選取參照策略的不同因素。比如對“前、后、左、右”等方位詞造成空間句異形同義現(xiàn)象的考察,可參見方經(jīng)民(1987a,1987b)、林笛(1993)、郭銳(2004)等。(2) 注重分析空間實體本身屬性特征的影響,以及空間實體加上相關(guān)的動作等更復雜的語境信息,對空間表達異形同義的綜合影響。比如對“上—里”可換用現(xiàn)象的分析,可參見高橋彌守彥(1992)、劉寧生(1994);從實體屬性角度討論實體名詞對其后方位詞的選擇限制,提出實體可居點特征分析框架,可參見儲澤祥等(2008)。(3) 對位移場景中的空間異形同義現(xiàn)象的考察,比如對“來—去、上來—下來”異形同義現(xiàn)象[“我馬上就來=我馬上就去”,“(登船場景中)跳上來=跳下來”]的分析,可參見齊滬揚(1996)、童小娥(2009)。
前人尚未對空間表達異形同義現(xiàn)象做系統(tǒng)全面的考察, [6]也未見有從機器空間理解能力評測的角度做相關(guān)語料數(shù)據(jù)的收集和標注工作??紤]到“異形同義”在真實語言使用中屬于低頻分布現(xiàn)象,為了在SpaCE評測基準中實現(xiàn)對機器的空間認知理解能力更為全面和深入的評測,我們設計了基于空間表達異形同義現(xiàn)象的異形同義判別任務。主要的思路是:窮盡性地考察漢語空間義詞語的詞對[7](如“上—里、上—下、上—外、前—后、上來—過來、進來—下來……”),分析這些詞對在表達空間場景時構(gòu)成異形同義句對的可能性,以及造成異形同義的原因是什么。在收集到一定規(guī)模的句對語料基礎上,就可以制作相應的試題(如判斷題或選擇題等),考察機器(或人)是否有能力判斷:特定情境中空間方位義詞語形式不同而其所指的空間場景卻可能相同。
從形成原因角度看,空間表達中的“異形同義”現(xiàn)象有不同情況,大致可以區(qū)分為六類:(A) 兩個方位義詞語本身詞義接近;(B) 兩個方位義詞語的詞義有包含關(guān)系;
(C) 兩個空間義詞語有多個義項,二者在某個義項上,對應的空間圖景相近;(D) 文本中方位詞(f)所依附的參照物名詞(N)缺失,可以有不同的補回方式,異形同義實際上是N1+f1跟N2+f2對應了相同的空間圖景;(E) 實體在文本中有投影物,異形同義實際上是N1+f1+N2和N1+f2+N2之間造成的所指實體跟其影像的“偽同指”;(F) 空間關(guān)系固化語境中的“主賓可逆序”句型,即詞序可逆而空間語義角色(關(guān)系)固定不變。下文分別討論。
(一) 方位義詞語詞義相近(A類)
請看下面的例子:
(2) a. 每年開春,家里總是從地窖里把保存了一個冬季的地瓜種一筐筐運到上面。
b. 每年開春,家里總是從地窖中把保存了一個冬季的地瓜種一筐筐運到上面。
c. 每年開春,家里總是從地窖內(nèi)把保存了一個冬季的地瓜種一筐筐運到上面。
例(2)中三個句子只有一個詞的差異,即“里—中—內(nèi)”在三句中不同,其余部分是完全相同的,三句構(gòu)成最小對立的形式差異,同時,句子所表達的空間場景相同:“地瓜種冬季儲藏在地窖里,開春時從地窖運到外面?!?/p>
詞義相近的方位詞對不多。類似的例子還有“旁—邊”“一邊—旁邊”“旁邊—附近”“旁邊—側(cè)面”等。
(二) 方位義詞語的詞義有包含關(guān)系(B類)
請看下面的例子。
(3) a. 在這個房間里,墻壁上掛著一幅畫,畫的是一片美麗的森林。畫的上端是一片藍天白云。
b. 在這個房間里,墻壁上掛著一幅畫,畫的是一片美麗的森林。畫的頂端是一片藍天白云。
(4) a. 阿姨將肉粽打開,粽葉放在一邊備用。
b. 阿姨將肉粽打開,粽葉放在右邊備用。
例(3)中兩個句子只有一詞之差:上端—頂端,從所指范圍來說,“上端”指的區(qū)域包含了“頂端”,后者是前者的一部分。例(3)a和例(3)b整句所表達的空間場景基本可以看作是相同的。
例(4)中兩個句子也是一詞之差:一邊—右邊,從所指范圍來說,“一邊”指的區(qū)域既可以是“右邊”,也可以是“左邊”,后者是前者的一部分。如果不以精確傳遞信息為標準,例(4)a和例(4)b整句所表達的空間場景就也可以看作是相同的(類似于用“車”稱呼小轎車)。
趨向動詞之間也有類似的詞義包含關(guān)系。請看例子:
(5) a. 三輛警車循著逃犯的逃跑路線,一路追到白石橋下,連日洪水的沖擊,讓平日能過大卡車的石橋看上去像是處在崩塌的邊緣。中隊長猶豫半晌,最終咬牙發(fā)出命令:開過去!
b. 三輛警車循著逃犯的逃跑路線,一路追到白石橋下,連日洪水的沖擊,讓平日能過大卡車的石橋看上去像是處在崩塌的邊緣。中隊長猶豫半晌,最終咬牙發(fā)出命令:開上去!
例(5)中兩個句子只有一詞之差:上去—過去,二者在句中都表示“警車向白石橋的方向移動”。《現(xiàn)代漢語詞典》第7版對“上去”作為趨向動詞用法的釋義是“用在動詞后,表示由低處向高處,或由近處向遠處,或由主體向?qū)ο蟆保粚Α斑^去”作為趨向動詞用法的釋義是“用在動詞后,表示離開或經(jīng)過自己所在的地方”??梢姡吧先ァ睂ξ灰铺卣鞯拿枋龈唧w,“過去”則更籠統(tǒng),從這個意義上講,“過去”跟“上去”的詞義關(guān)系,類似于上面“上端—頂端”“一邊—右邊”的詞義關(guān)系,也屬于包含關(guān)系,即前者的空間方位特征相比于后者更為籠統(tǒng),適用范圍更大,后者相比于前者更為具體,適用范圍更小。
詞義有包含關(guān)系的方位詞詞對和趨向動詞詞對不多。前者主要有“上端—頂端、下端—底端、一邊—右邊、一邊—左邊、旁邊—右邊、旁邊—左邊”等;后者主01048b558e9544f1048c1963613721ca要有“過去—上去、過去—下去、過去—進去、過去—出去、過來—上來、過來—下來、過來—進來、過來—出來”等。
(三) 方位義詞語表示的方位或方向重疊(C類)
兩個方位詞詞義之間即使沒有相近或包含關(guān)系,但在特定上下文中,仍然可以使整句表示相同的空間場景。請看例子:
(6) a. 夜里打麻將,使她根本無法看書做作業(yè),她只好搬個小木凳到小巷邊的路燈下學習。
b. 夜里打麻將,使她根本無法看書做作業(yè),她只好搬個小木凳到小巷邊的路燈旁學習。
(7) a. 沿著木棧道,總書記步入林中。在一棵落葉松下,總書記還特地用手丈量了一番:“長得很好,樹干很直。”
b. 沿著木棧道,總書記步入林中。在一棵落葉松前,總書記還特地用手丈量了一番:“長得很好,樹干很直?!?/p>
例(6)中兩個句子只有一詞之差:下—旁,兩句的空間場景相同,都是“她在路燈下面學習”,“路燈下=路燈旁”。盡管“下”跟“旁”的詞典釋義不同,但在借助路燈光線來學習的事件場景中,把“路燈”作為參照物,“下”和“旁”可以表示相對于參照物“路燈”而言相同的方位,即“路燈燈柱底端附近的位置”。
例(7)中兩句的情況類似,“下”跟“前”的參照物是跟路燈類似的柱狀物“落葉松”,“落葉松下=落葉松前”。圖2是“下—旁—前”這三個方位詞在參照物為柱狀物時指向相同位置的示意圖,S是當前描述的空間實體,S相對于參照物R(柱狀物)的位置,用“下、旁、前”描述,都指向相同的位置,即R底部的附近區(qū)域。
趨向動詞之間也有類似方位詞的這種“異形同義”現(xiàn)象,請看例子:
(8) a. 人的咽喉和食管同胃是相通的,喝下去的醋只會與魚刺接觸,醋的脫鈣作用無法進行。因此,任你喝醋再多,也無濟于事。
b. 人的咽喉和食管同胃是相通的,喝進去的醋只會與魚刺接觸,醋的脫鈣作用無法進行。因此,任你喝醋再多,也無濟于事。
例(8)中兩句的差異是趨向動詞“下去”和“進去”的對立。在食管這一垂直柱狀容積物作為參照物實體的語境中,移動的物體(醋)從食管外進入到食管內(nèi)部,同時也是從食管的頂部往下進入食管下方的位置。在這個場景中,下去(從高到低)=進去(從外到里),不同的兩個趨向動詞,表達了這一場景中相同的位移方向。圖3形象地描述了這一現(xiàn)象。
像例(6)到例(8)這樣的異形同義情況,不是由方位詞或趨向動詞自身的詞義造成的,也不是由文本中相關(guān)的空間實體、參照物實體、位移事件等獨立造成的,而是這些因素共同作用的結(jié)果。如果把具體的復雜多樣的空間場景抽象為有一定幾何共性的示意圖(如圖2、圖3所示),在語言學中稱為空間圖式(Lakoff 1987;Talmy 2000)。從這個角度講,可以說上述例句所呈現(xiàn)的異形同義現(xiàn)象,是因為不同方位詞或趨向動詞激活的“空間圖式”有交集。
空間圖式是從認知角度對物理意義上的空間場景所做的概念抽象,一個方位詞或趨向動詞可能對應一些典型的空間圖式,但不太容易窮盡所有可能的空間圖式,因為決定空間圖式的因素比較多,而且有時不容易離析出來。例如:
(9) a. 昨晚,飯桌上,奶奶、爸爸和我爭著同媽媽說話,直到我雙手將媽媽的臉扳向我為止。
b. 昨晚,飯桌旁,奶奶、爸爸和我爭著同媽媽說話,直到我雙手將媽媽的臉扳向我為止。
例(9)中兩句也是“異形同義”,雖然“上”跟“旁”是不同的方位詞,但在例(9)的語境中,“飯桌上=飯桌旁”。如果要用空間圖式來呈現(xiàn)這個場景中“上”和“旁”所指的位置,就不太容易,在很多場景中,“飯桌上”跟“飯桌旁”是不同的位置,比如“飯桌上的酒瓶”跟“飯桌旁的酒瓶”,肯定是指不同位置的酒瓶。但在多人圍坐桌子吃飯的場景中,“在飯桌旁坐著的這些人”,也可以用“飯桌上的這些人”來指稱。
實際上,我們收集的異形同義句對語料,多數(shù)都是“空間圖式交集”類的(詳見下文第三、第四部分),因為其他類別都有比較明確的形式特征條件或者詞義特征條件,而“空間圖式交集”這類情況,是方位詞、空間實體、參照物實體、位移事件等因素綜合作用的結(jié)果,尚無特別明晰、系統(tǒng)的界定標準,本文暫且把這類異形同義現(xiàn)象的成因歸結(jié)為“空間圖式交集”,更具體的原因分析,還有待將來進一步深入研究。
(四) 方位詞依附的參照物實體缺失(D類)
前面三類方位詞在句中都緊跟在其所依附的參照物實體名詞之后。如果方位詞所依附的參照物名詞省略,在理解空間場景時,理論上就需要補出這個缺失的參照成分。這種情況下,也可能會造成異形同義現(xiàn)象。請看例子:
(10) a. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板?!敖柚W(wǎng)課,我們的學生坐在教室里,就可以跟著里面的名師學習,享受優(yōu)質(zhì)的教育資源?!毙iL興奮地說。
b. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板?!敖柚W(wǎng)課,我們的學生坐在教室里,就可以跟著外面的名師學習,享受優(yōu)質(zhì)的教育資源?!毙iL興奮地說。
c. 在一座小縣城的一間教室里,工人們正在安裝一塊電子白板。“借助網(wǎng)課,我們的學生坐在教室里,就可以跟著上面的名師學習,享受優(yōu)質(zhì)的教育資源?!毙iL興奮地說。
(11) a. 至今菲律賓的土著居民在見面時,握過手后還要轉(zhuǎn)身向前走幾步,意思是向?qū)Ψ奖砻鞅澈鬀]有藏刀。
b. 至今菲律賓的土著居民在見面時,握過手后還要轉(zhuǎn)身向后走幾步,意思是向?qū)Ψ奖砻鞅澈鬀]有藏刀。
例(10)三個句子中只有一詞之差:里面—外面—上面,這三個方位詞依附的參照物名詞沒有跟方位詞緊鄰出現(xiàn),其中例(10)a的“里面”依附的參照物實體名詞是“網(wǎng)課”(或“電子白板”),例(10)b的“外面”依附的是“小縣城”(或“教室”),例(10)c的“上面”依附的是“電子白板”,但這三個句子所表達的空間場景可以說是完全相同的。
例(11)兩句中也只有一詞之差:前—后,這兩個方位詞依附的參照物名詞沒有跟方位詞緊鄰出現(xiàn),兩句表達的空間場景涉及位移動作:例(11)a的“向前”指的是轉(zhuǎn)身之后,人面向的前方;例(11)b的“向后”指的是轉(zhuǎn)身之前、人背向的后方。字面上,“前—后”兩個方向相反,但在這兩句所表達的空間場景中,實際上指向同一個絕對方向(比如“向東”),是相同的空間場景。區(qū)別僅僅在于,例(11)a“向前”方向的參照實體是轉(zhuǎn)身之后的人(該人的面向);例(11)b“向后”方向的參照實體是轉(zhuǎn)身之前的人(該人的
背向)。
例(10)和例(11)代表了兩種參照物實體“缺失—找回”的情形。前者是在“同時”條件下,不同方位詞參照了不同的空間實體;后者是在“歷時”條件下,不同方位詞參照了不同時點的同一個空間實體。二者都可以概括為:(N1)+f1=(N2)+f2,其中N1和N2是缺失的參照成分,可能是句中不同名稱的空間實體,也可能是同一個空間實體在不同時點的變體。后一種情況出現(xiàn)的場景總是伴隨著“轉(zhuǎn)身、扭頭”類轉(zhuǎn)向動作。(孫陳亦待刊)
(五) 空間實體在上下文中有投影(鏡像) 實體(E類)
異形同義現(xiàn)象中,還有一類是實體在文本語境中有投影物,實體與投影物用同一個名詞指稱,即實體跟其影像“偽同指”,從而形成異形同義現(xiàn)象。請看例子:
(12) a. “笑一笑!”每次拍照前,攝影師都會對鏡頭前的人說這句話。甜甜的笑容掛在臉上,幸福感洋溢在鏡頭里。
b. “笑一笑!”每次拍照前,攝影師都會對鏡頭里的人說這句話。甜甜的笑容掛在臉上,幸福感洋溢在鏡頭里。
(13) a. 已經(jīng)很多年沒人這樣叫李光頭了,人們都是叫他“李總”,突然有人在后面叫他“李光頭”,李光頭心想是誰呀?回頭一看是戴著口罩的宋鋼,宋鋼的眼睛在口罩上面的鏡片后微笑。
b. 已經(jīng)很多年沒人這樣叫李光頭了,人們都是叫他“李總”,突然有人在后面叫他“李光頭”,李光頭心想是誰呀?回頭一看是戴著口罩的宋鋼,宋鋼的眼睛在口罩上面的鏡片里微笑。
例(12)和例(13)的共性是都有一個造成投影效果的“道具”,例(12)是通過“鏡頭”提供了投影;例(13)是通過“鏡片”提供了投影。例(12)中,“鏡頭前的人”指真實物理世界中的實體人,“鏡頭里的人”指影像世界中的虛擬人,這兩個實體具有一對一的投影關(guān)系。例(13)中,“宋鋼的眼睛在鏡片后”指真實物理世界的實體眼睛,“宋鋼的眼睛在鏡片里”指鏡像世界中成像的眼睛,這兩個實體也是一對一的投影關(guān)系。這種“偽同指”語境中造成的異形同義可以表示為:N1+f1+N2=N1+f2+N2’。因為N1(道具)的成像功能,使得N2和N2’構(gòu)成投影(鏡像)關(guān)系,進而使得表面形式不同的“N1+f1”和“N1+f2”約束構(gòu)成鏡像關(guān)系的兩個名稱相同的空間實體(N2=N2’)。在例(12)中,N2=N2’=人;在例(13)中,N2=N2’=宋鋼的眼睛。
(六) 主賓可逆序句型(F類)
前五類異形同義都跟詞匯語義有關(guān)。漢語中還有一類異形同義現(xiàn)象,跟特定構(gòu)式有關(guān)。請看例子:
(14) a. 包好的包子在蒸鍋里分三排擺放整齊后,她把鍋蓋上鍋蓋,然后打開計時器。
b. 包好的包子在蒸鍋里分三排擺放整齊后,她把鍋蓋蓋上鍋,然后打開計時器。
(15) a. 我住在與福緣門隔著一條馬路的婁斗橋,去北大食堂很方便。我常在那兒吃飯,婁斗橋就正對著北大西門。
b. 我住在與福緣門隔著一條馬路的婁斗橋,去北大食堂很方便,我常在那兒吃飯,北大西門就正對著婁斗橋。
(16) a. 在吉林長春市一個繁忙路口附近,一輛車前放著一個紙盒,上面寫著:口罩,環(huán)衛(wèi)工人免費?!?/p>
b. 在吉林長春市一個繁忙路口附近,一個紙盒放在一輛車前,上面寫著:口罩,環(huán)衛(wèi)工人免費?!?/p>
上述例句在以往研究中屬于“主賓可逆序句”這個話題。其特征是動詞前后的主賓語可以調(diào)換位置,整句的命題語義基本相同,例(14)“鍋蓋上鍋蓋=鍋蓋蓋上鍋”,例(15)“北大西門正對著婁斗橋=婁斗橋正對著北大西門”,例(16)“一輛車前放著一個紙盒=一個紙盒放在一輛車前”。每個例子的a、b兩句表面形式都有差異,但整句描述的空間場景相同。不過,跟前面五類不同,這一類的表面形式差異不是由替換一個詞形成的最小對立。
顯然,上面六類的情況并不均衡,有的類界定標準相對清晰,內(nèi)部相對勻質(zhì),比如A、B、D、E這四類;有的類內(nèi)部情況不均勻,情況相對復雜,比如C、F這兩類。除F類外,其他五類都跟方位詞、趨向動詞等空間語義功能標記成分直接相關(guān),用于測試和評估機器的空間語義理解能力相對更合適一些。對于存在異形同義現(xiàn)象的句對,歸入前五類中的哪一類,多數(shù)情況是比較清楚的。對于少數(shù)可能存在歸類模糊的情形,我們在工作中明確一個優(yōu)先序原則:A>B>D>E>C,即能歸入前面一個類別,就不歸入后面的類別。這個優(yōu)先序主要考慮的是語義標準和形式標準的清晰性,即語義標準和形式標準越清楚,就越靠前(優(yōu)先)。比如詞義是否相近,最易判斷,其次是詞義之間是否有包含關(guān)系,再次看方位詞在使用中是否有參照成分缺失現(xiàn)象,然后再看文本中是否存在有投影關(guān)系的實體,以上條件都不符合,最后就歸入空間圖式交集類。上文例(10)的語境中也涉及投影實體(電子白板),但從形式上看,方位詞依附的參照成分缺失,因而優(yōu)先歸入D類而不歸入E類。
三、 語料的收集標注和數(shù)據(jù)集的制作
(一) 語料與數(shù)據(jù)集制作流程
在第二部分對異形同義現(xiàn)象進行分類描寫的基礎上,我們可以制作試題,來測試機器對異形同義現(xiàn)象的理解能力。試題制作分為兩步:先是收集異形同義和異形異義(用于對照)的句對語料,在達到一定規(guī)模后,再將語料轉(zhuǎn)換為試題形式。
1. 語料制作階段的工作方式
語料來源主要是兩個途徑:一是來自我們制作的SpaCE2022中文空間語義正誤判斷任務數(shù)據(jù)集[8]中的句對;二是給出詞對表,對表中的方位詞對、趨向動詞對,逐一由人工編寫符合異形同義和異形異義條件的語料。
SpaCE2022中有形如例(17)、例(18)這樣的句對(為節(jié)省篇幅,替換詞寫在括號中)。
(17) 1960年5月25日凌晨,中國登山隊員王富洲、貢布和屈銀華首次從“不可逾越”的北坡登上了珠峰峰頂,首次在珠穆朗瑪峰頂插上(下)五星紅旗,創(chuàng)造了人類歷史上第一次從北坡登上世界第一高峰的壯舉。
(18) 等大家都坐好,聶赫留朵夫也在他們對面(中間)坐下來,臂肘擱在桌上,面前擺著一張紙,他就根據(jù)紙上的提綱開始說明他的方案。
例(17)“插上”是原句用詞,“插下”是替換后的語料,將句中一個趨向動詞“上”替換為“下”后,語句依然合法,且并不改變整句所描述的空間場景,這個例子就構(gòu)成一個“異形同義”句對。例(18)“對面”是原句用詞,“中間”是替換“對面”后形成的新的語料,將句中的方位詞“對面”替換為“中間”后,語句依然合法,但整句所描述的空間場景發(fā)生了改變,這個例子就構(gòu)成一個“異形異義”句對。人工對例(17)標注“異形同義”,對例(18)標注“異形異義”,就完成了兩條語料的收集工作。
可以想見,從自然語料中替換方位詞或趨向動詞形成的對比語料(句對),多數(shù)情況下,要么句子語法或語義異常,要么兩句是異形異義的情況。對于很多詞對,為得到數(shù)量均衡的“異形同義”和“異形異義”語料,就需要人工編寫異形同義的句對。像例(18)中的“對面—中間”這個詞對,要構(gòu)造異形同義句對語料,就比較困難。下面是利用缺失參照物找回這個線索,為“對面—中間”構(gòu)造的兩條符合異形同義要求的語料示例:
(19) 張飛一人立馬在兩軍陣前。曹軍陣營一字排開,距蜀軍陣營也就百步之遙。陣前掛出三面將旗,分別寫著“張”“許”“夏侯”字樣,代表著曹魏軍中戰(zhàn)功赫赫名震一方的三員名將:張遼、許褚、夏侯杰。張飛挺矛直指正對面(中間)的許褚,厲聲大喝:我乃燕人張翼德,誰敢跟我決一死戰(zhàn)?
(20) 鐵路要經(jīng)過很多高山,不得不開鑿隧道,其中居庸關(guān)和八達嶺兩條隧道的工程最艱巨。居庸關(guān)山勢高,巖層厚,詹天佑決定采用從兩端同時向?qū)γ妫ㄖ虚g)鑿進的辦法……把工期縮短了一半。
我們在SpaCE2023和SpaCE2024中都設置了“異形同義判別”任務,SpaCE2023是首次嘗試制作異形同義和異形異義句對語料,生成了355條語料。SpaCE2024擴充了詞對表,收集編寫了更多語料,具體語料規(guī)模如表1所示。
2. 從語料到試題的轉(zhuǎn)換
SpaCE2023任務[10]中,我們直接使用異形同義和異形異義句對語料,以判斷題的形式來考察。一道試題給出兩個對比文本Context1和Context2(文本中有一對方位義詞形成形式對立)。問題(答案)由兩部分構(gòu)成,先是判斷(Judge),即Context1和Context2的關(guān)系屬于“異形同義”還是“異形異義”,其次是釋因(Reason),即給出判斷的理由。試題樣例如表2所示。
以判斷題的形式出題比較直觀,但要求機器在判斷異同之外,還要解釋判斷的理由。這些理由需要人工評分,成本較高。原因是雖然事先給了Reason的模板,僅要求機器填寫表2中陰影部分的文本內(nèi)容(相當于多個填空),但機器在生成文本時有可能沒有嚴格遵循指令,生成的文本不符合模板要求,導致難以依靠程序自動評分。
SpaCE2024的所有任務統(tǒng)一采用選擇題形式命題,“異形同義判別”任務也改為選擇題形式。試題樣例詳見表3。
改為選擇題形式的好處是,語料的利用率相對更高。在一道選擇題中,因為對比選項的增加(從判斷題的1∶1對比變?yōu)檫x擇題1∶4對比),替換對比項后形成的句子要么存在語法或語義錯誤,要么跟原句具有異形同義或異形異義關(guān)系,因而可以同時考察對語義正誤的理解和對形義關(guān)系的判斷。另外,異形同義現(xiàn)象的判斷涉及比較復雜的認知因素,作為判斷題,是二選一,有可能不同人對一個句對的理解差異也會比較大,但如果是選擇題的形式,其他選項(非答案,干擾作用)可能對正確答案選項起到了一定程度的襯托作用。以表3的異形同義題為例,“出來”替換為“回來”,兩句同義的條件是:先進再出=先進再回,要求文中“光腳蹚進了漫水的走廊”跟“出來”是相反的位移方向,這樣,“出來”才能替換為“回來”而不改變空間場景。如果“光腳蹚進了漫水的走廊”中的“進”的位移方向跟“出來”是相同的位移方向,則“出來”跟“回來”就更傾向于理解為對立的方向,不是描述相同的(位移)空間場景。
(二) 數(shù)據(jù)集的整體情況
SpaCE2023中異形同義判別任務是判斷題形式,我們從355個句對中選取了100個語料質(zhì)量較好的句對,制作了100道判斷題,其中54題為異形同義,46題為異形異義,包含了上一節(jié)介紹的全部類型,不過總體數(shù)據(jù)規(guī)模比較小,主要是C類題(81題),其余幾類加起來共19題,A、E、F三類一共才7道題。限于篇幅,這里不再展開介紹。
SpaCE2024數(shù)據(jù)集擴充到710道選擇題,按照機器評測的慣例,這些試題分為3份,其中訓練集5道題,提供給機器學習,讓機器熟悉題目形式;驗證集55題,相當于人類考試中的模擬考試,用于評估機器的學習效果,改進學習策略;測試集650題,相當于人類考試中的正式考試。表4展示了SpaCE2024“異形同義判別”任務數(shù)據(jù)集的語料字數(shù)規(guī)模概況;表5展示了“異形同義判別”任務測試集中單選題及多選題的數(shù)量和比例。
下文表6展示了SpaCE2024“異形同義判別”任務測試集中涉及詞對數(shù)量及對應的題量,并按照上文第二部分提出的類型體系分類計數(shù)。因F類(主賓可逆序句)的性質(zhì)跟其他五類差異較大,且收集的這部分語料數(shù)量較少,故沒有收入SpaCE2024數(shù)據(jù)集中。測試集中C類題最多,表6中進一步細分為C1類(方位詞空間圖式交集)和C2類(趨向動詞空間圖式交集)。相對而言,C1類的異形同義題和異形異義題數(shù)量較為均衡,其他類別異形同義題的數(shù)量都明顯多于異形異義題,顯然,在分布均衡性方面,數(shù)據(jù)集還需要做進一步的改進。比如A、D、E三類異形異義題為0,其中A類是詞義相近詞對,難以構(gòu)造異形異義題,屬于正常的偏置分布,D、E則可以而且需要構(gòu)造數(shù)量相當?shù)漠愋萎惲x對照題。此外,不同詞對在測試題中分布平衡性還存在較大問題,數(shù)據(jù)集規(guī)模還有待提高。上文表1統(tǒng)計了目前數(shù)據(jù)集中詞對類型(type)數(shù)為151對,
表6統(tǒng)計的詞對實例(token)數(shù)為820對,即每個詞對平均在數(shù)據(jù)集中出現(xiàn)5.43次,以測試集650題為單位計,每個詞對平均出現(xiàn)在4.3題中。實際上,出題數(shù)量達到4題以上的詞對僅43個(占28.5%),更多的詞對(108個)僅出現(xiàn)在1到3題中。即便是出題達到4題以上的詞對,在異形同義題和異形異義題的比例上也很不均衡,比如題目頻次前5的詞對:上—里(16∶2)、下—里(15∶2)、上f —下f(8∶8)、下面—里面(12∶1)、上—中(12∶1),只有1個詞對兩類題比例均衡。而在出現(xiàn)4題以上的全部43個詞對中,也僅有8個詞對(18.6%)的異形同義題和異形異義題比例相對均衡:上f —下f(8∶8)、上—旁(3∶4)、上去—下去(4∶3)、后面—外面(3∶3)、下面—外面(3∶2)、中間—對面(2∶3)、內(nèi)—前(2∶2),后邊——外邊(2∶2)。以上情況表明:SpaCE2024“異形同義判別任務”數(shù)據(jù)集在數(shù)據(jù)規(guī)模和試題分布均衡性方面都還存在明顯不足,還有待改進。
四、 大語言模型測試結(jié)果初步分析
本節(jié)介紹參加SpaCE2024評測的參賽系統(tǒng)(均采用大語言模型作為基座)在異形同義判別子任務上的表現(xiàn)。上文表5顯示了SpaCE2024數(shù)據(jù)集區(qū)分單選題和多選題,以單選題為主,這樣設置,主要是從增加試題難度的角度考慮,如果機器在多選題上也達到較高的正確率,就有更大把握認為機器對空間語義有深度理解能力。單選題中還有27道題答案設置為“D.以上選項均不正確”(異形同義題24道,異形異義題3道)。這類單選題和多選題類似,對機器而言難度更大。12支參賽隊伍中總分排名前6的系統(tǒng)在異形同義判別任務上單選題平均正確率是0.62,單選題中答案為“D.以上選項均不正確”的題,平均正確率為0.40。多選題平均正確率是0.30,是單選題的一半。從這個角度看,大語言模型對異形同義判別任務,還沒有達到真正理解的水平。
表6給出了這些系統(tǒng)(以系統(tǒng)1、2……稱名)在6類異形同義現(xiàn)象測試題上的分項計分結(jié)果。[11]SpaCE2024數(shù)據(jù)集異形同義題跟異形異義題的比例不夠均衡,因此表6中同時也給出了各系統(tǒng)在這兩類題上的分項計分。
大語言模型是黑盒模型,其推理過程不可見,很難知道模型對一道題的回答是如何做出的選擇,僅從模型對一道題的作答,也難以確定模型是否掌握了相關(guān)詞對的空間語義知識。而且大語言模型還存在比較明顯的穩(wěn)定性問題,[12]再加上題量不大,因而考察大語言模型在具體詞對和題目上的答題情況,目前還難以形成規(guī)律性的認識。[13]這里僅對大語言模型整體上較為明顯的特點做一些概括說明。表6的分項計分,基本上反映了當前大語言模型基于語言符號的形式分布來學習意義的特點,模型在A類測試題上的表現(xiàn)明顯優(yōu)于其他類別。因為A類異形同義現(xiàn)象的判別主要訴諸方位詞自身的詞義,這類異形同義相關(guān)的“形式—意義”配對關(guān)系制約條件單一,容易被模型捕捉到。模型在D類和E類測試題上表現(xiàn)遠遠低于A類,這兩類異形同義相關(guān)的“形式—意義”配對關(guān)系制約因素復雜,而且在自然語料中屬于低頻分布,模型相對來說不容易學習到判別條件,表現(xiàn)較差,也就在情理之中了。
值得一提的是,SpaCE2023的異形同義判別任務100道判斷題異形同義和異形異義題數(shù)量相當,ChatGPT3.5在這兩類題上的表現(xiàn)存在這樣的情況:在對54道異形同義題做判斷時,做對了43題(77%);對46道異形異義題做判斷時,做對了28題(61%),僅從判斷結(jié)果來說,大語言模型得分都在及格線以上。但在進一步解釋原因時,對異形同義題的解釋,得分為35分,對異形異義題的解釋,得分為47分(由人類專家評分)。前者比后者低12個百分點。這也同樣反映了自然語料中不同類型語言現(xiàn)象的分布模式對模型表現(xiàn)的顯著影響。自然語料中,異形異義無疑是遠遠多于異形同義的更為高頻的語言現(xiàn)象,在總體表現(xiàn)上,模型對異形異義題的理解(成績)自然也就比對異形同義題更好。
五、 人類表現(xiàn)與模型表現(xiàn)的對比
為進一步考察大語言模型在異形同義判別任務上表現(xiàn)的特性,我們從SpaCE2024數(shù)據(jù)集中抽取了100道異形同義判別任務試題,組織了一個小規(guī)模的人類測試。數(shù)據(jù)分類情況如表7所示。其中有10道題是“重復題”用于測試回答穩(wěn)定性,此外,有4題正確答案為“D.以上選項均不正確”。人類被試共8人,其中2名被試答題無效,另外6名被試在重復題上得分超過0.9(是大語言模型得分的2倍),我們選取這6名被試的成績用于跟大語言模型的表現(xiàn)進行對比。大語言模型在4道答案為“D.以上選項均不正確”題上的平均分為0.46,6名人類被試的平均分為0.71。表7展示了單選題和多選題上人機成績的對比;表8展示了不同類型異形同義判別題上人機成績的對比。
表7和表8統(tǒng)計數(shù)據(jù)顯示機器成績顯著低于人類水平,[14]說明空間異形同義判別任務對于大語言模型仍然屬于高挑戰(zhàn)任務。人類與機器得分的共性是:在D、E類任務上的表現(xiàn)明顯低于A、B、C類任務。這一方面可能是D、E類試題數(shù)量少且試題質(zhì)量不高造成了統(tǒng)計偏差,另一方面也提示:D、E這類相對低頻的語言現(xiàn)象,對人類而言,認知加工的難度和個體差異性也可能更大。對此,還需要在改進試題質(zhì)量和規(guī)模后,做更進一步的對比研究。值得一提的是,在A、B、C三類異形同義題上人類被試超過0.9分,且被試之間一致性相對更好。而機器在這三類異形同義題上的表現(xiàn),雖然整體相對其他類表現(xiàn)更好,但不同模型之間仍存在較大差異。請看下面兩例:
(21) 明美的速度慢于同組的其他同學。其他同學足足等了她半個小時,才等到從半山腰的觀景臺走上來的她。
“才等到從半山腰的觀景臺走上來的她”中的“上來”替換為( )形成的新句可以與原句表達相同的空間場景。
A. 起來 B. 下來 C. 過來 D. 進去
(22) 兇手進入房間,殺害了房間內(nèi)包括羅森堡在內(nèi)的三人。每個人的頭部都中了三槍。羅森堡的頭部取出兩顆子彈,枕頭里又找到一顆。
“枕頭里又找到一顆”中的“里”替換為( )形成的新句可以與原句表達相同的空間場景。
A. 中 B. 上 C. 邊 D. 以上選項均不正確
例(21)考察“過來—上來”這對趨向動詞,二者屬于詞義包含關(guān)系(B類題),人類被試全部正確選擇了答案C,但機器6個系統(tǒng)中只有一半選C,另外一半選了B“下來”,而后者顯然在這道題的語境中跟“上來”構(gòu)成異形異義關(guān)系。
例(22)考察“里—中”這對方位詞,二者屬于詞義相近關(guān)系(A類題),人類被試全部正確選擇了答案A,但機器6個系統(tǒng)中有4個選A,總成績第一和第二的兩個系統(tǒng)選擇了B。
上文舉過的例(17)也在這100題中,屬于C2類,選項設置為“A.去、B.下、C.來、D.回”,人類被試全部正確選擇了答案B,但機器6個系統(tǒng)中只有2個選了B,另外4個系統(tǒng)選A、C、D的都有(分別是2、1、1次)。
以上情況顯示,即便是形式和意義對應關(guān)系相對清楚,判別條件容易學習和掌握的空間義詞對,機器目前的理解總體水平也較低,且跟人類表現(xiàn)特點有明顯差異。
六、 結(jié) 語
本文研究了漢語中的空間表達“異形同義”現(xiàn)象(即兩個句子形式不同,僅有一詞之差,而可用于描述相同的空間場景),針對在傳統(tǒng)自然語言處理任務上表現(xiàn)優(yōu)異的大語言模型,本文首次提出了對機器更具挑戰(zhàn)性的“空間異形同義判別任務”,并主要以人工編寫方式制作了“異形同義”和“異形異義”句對語料,并轉(zhuǎn)換為選擇題,形成了空間異形同義判別任務測試數(shù)據(jù)集。我們分別在SpaCE2023和SpaCE2024評測大賽中,加入了這部分測試數(shù)據(jù),進行了大語言模型測試和人類測試。測試結(jié)果顯示:
(1) 在測試數(shù)據(jù)集設計的全部可比項目,比如單選題、多選題、重復題等從純形式角度設置的考察項目上,以及從原因角度對空間異形同義現(xiàn)象所區(qū)分的6個類型上,大語言模型的表現(xiàn)均顯著低于人類平均水平,且大語言模型自身的內(nèi)部一致性(穩(wěn)定性)欠佳。
(2) 大語言模型對自然語言意義的理解,更為顯著地受到語言符號分布形式層面的影響,比如對出現(xiàn)頻次更高的異形同義現(xiàn)象的理解能力要優(yōu)于出現(xiàn)頻次較低的同類現(xiàn)象;對“形式—意義”對應關(guān)系制約條件少的異形同義現(xiàn)象(上文的A、B類),理解能力優(yōu)于制約條件多、需要更深認知能力的異形同義現(xiàn)象(C、D、E類)。
從初步結(jié)果來看,這項任務對考察大語言模型的“空間認知”能力,是有效的。不過,這項高認知難度的任務,對數(shù)據(jù)集的質(zhì)量和規(guī)模,也提出了很高的要求。要讓各個考察項目上的題量更具統(tǒng)計意義,讓不同類別的題目分布更均衡,還需要針對空間異形同義現(xiàn)象,做進一步更細致的理論研究工作(尤其是對C類和D類異形同義現(xiàn)象做深入研究),同時在機器輔助生成語料、設計更好的試題形式、提高數(shù)據(jù)合成效率方面,也還需要更多探索。
附 注
[1] 假如以地圖模式的絕對方位“上北下南左西右東”來說,圖1中K在Q的東邊。
[2] SpRL是“Spatial Role Labeling”(空間角色標注)的縮寫;mSpRL是“Multimodal Spatial Role Labeling”(多模態(tài)空間角色標注)的縮寫。
[3] SpaCE是“Spatial Cognition Evaluation”(空間認知能力評估)的縮寫,有關(guān)SpaCE評測基準(Benchmark)的情況介紹,可訪問SpaCE2024網(wǎng)頁查詢:https://2030nlp.github.io/SpaCE2024/。
[4] 關(guān)于文本空間信息正誤判別,可參看詹衛(wèi)東等(2022),關(guān)于后五項任務的介紹,可參考SpaCE2024網(wǎng)站。另外,空間推理任務相關(guān)研究,還可參看針對英文的SpartQA(2021)。SpartQA是“Spatial Reasoning on Textual Question Answering”(空間推理文本問答)的縮寫。
[5] 這個網(wǎng)頁展示了大語言模型完成參照成分找回任務的測試示例:https://github.com/d0ubtfire/LLM_Evaulation/tree/main/對比大模型/空間信息理解/缺失參照成分找回。
[6] 除調(diào)研大量期刊論文和學位論文外,我們也考察了相關(guān)權(quán)威辭書中對空間表達異形同義現(xiàn)象的描寫情況。主要是《現(xiàn)代漢語詞典》以及像呂叔湘(1999)《現(xiàn)代漢語八百詞》、侯學超(1998)《現(xiàn)代漢語虛詞詞典》、張斌(2001)《現(xiàn)代漢語虛詞詞典》等描寫虛詞(語法功能詞)類的詞典。這些辭書基本上沒有從異形同義這個角度對方位義詞語進行描寫分析。呂叔湘(1999)描寫了常用方位詞和趨向動詞的用法,沒有收錄“左、右、東、南、西、北”;收錄了“旁”,沒有收錄“邊”。張斌(2001)收方位詞“上、下、前、后、里、內(nèi)、中、外”,但沒有收“左、右”。也沒有收趨向動詞。侯學超(1998)沒有收錄方位詞和趨向動詞等表方位義詞語。
[7] 我們整理了一個漢語空間方位義詞語表,詳見https://github.com/2030NLP/SpaCE2024/tree/main/data。
[8] 關(guān)于該數(shù)據(jù)集制作情況,可參看https://2030nlp.github.io/Sp22AnnoOL/task1_guide.html。
[9] 值得補充說明的是,在151個詞對中,方位詞詞對108個;趨向動詞詞對43個。只編寫出“異形同義”語料的詞對23個(如“里—內(nèi)、中—內(nèi)、旁—外、前面—旁邊、對面—附近、下—出、上來—進來、上來—出來、進來—回來……”),只編寫出“異形異義”語料的詞對20個(如“里—外、里—旁、中—外、內(nèi)—外、上面—旁邊、前面—側(cè)面、中間—附近……”)。前者的典型詞對是表空間義詞語中的“同義詞”,很難構(gòu)造異形異義句對語料;后者的典型詞對是“反義詞”,很難構(gòu)造異形同義句對語料。
[10] 可參看https://2030nlp.github.io/SpaCE2023/。
[11] 查看全部參賽系統(tǒng)成績榜,可訪問網(wǎng)頁:https://2030nlp.github.io/SpaCE2024/leaderboard.html。
[12] 大語言模型對同一道題,生成的答案具有一定隨機性。我們在SpaCE2024基準的每個子任務中都加入了30道“重復題”(包括題目和選項完全重復、題目不變但選項換序等形式),用于評估大模型的穩(wěn)定性。在“異形同義判別”子任務上,排名前6的大語言模型,在“重復題”上的平均穩(wěn)定性為0.59(可以理解為100道重復題,只在其中59道題上,大語言模型的答案,無論對錯,都保持穩(wěn)定不變)。
[13] 我們嘗試考察大語言模型在不同詞對題上的表現(xiàn)差異及可能的影響因素,但基于現(xiàn)有的題目和數(shù)據(jù)量,很難得出可靠的結(jié)論。從前6名系統(tǒng)的測試結(jié)果中,我們抽取了在異形同義題和異形異義題上表現(xiàn)均相對較好(平均正確率大于0.6)的詞對,分別是23個和13個,其中交集詞對有6個:“上面—里面(9題)、上v—下v(7題)、下面—里面(13題)、上—中(13題)、上—里(18題)、上去—下去(7題)”,觀察模型在這些詞對題上的具體表現(xiàn),并沒有發(fā)現(xiàn)明顯的規(guī)律。比如盡管“上v—下v”總成績相對靠前,但對于上文例(17)的題,6個模型中只有2個答對(正確率33.33%),很難說大模型對“上v—下v”這對趨向動詞的用法和語義理解掌握得比其他詞對更好或更差。
[14] C2類2道異形異義題是“例外”,人類成績低于機器成績,其中1名被試全部答錯,得0分。
參考文獻
1. 儲澤祥,王寅. 空間實體的可居點與后置方位詞的選擇. 語言研究,2008(4):50-62.
2. 方經(jīng)民. 漢語“左”“右”方位參照中的主視和客視——兼與游順釗先生討論. 語言教學與研究,1987a(3):52-60,154.
3. 方經(jīng)民. 現(xiàn)代漢語方位參照聚合類型. 語言研究,1987b(2):3-13.
4. 高橋彌守彥. 是用“上”還是用“里”.語言教學與研究,1992(2):47-60.
5. 郭銳. 方位詞“前、后、左、右”的參照策略. //黃正德主編 .中國語言學論叢(第三輯). 北京:北京語言大學出版社,2004:1-30.
6. 侯學超. 現(xiàn)代漢語虛詞詞典. 北京大學出版社,1998.
7. 李敏. 現(xiàn)代漢語主賓可互易句的考察. 語言教學與研究,1998(4):51-59.
8. 廖秋忠. 空間方位詞和方位參考點. 中國語文,1989(1):9-19.
9. 林笛(李平). 漢語空間方位詞的語用考察. //北京大學漢語語言研究中心《語言學論叢》編委會編.語言學論叢(第十八輯). 北京:商務印書館,1993:3-37.
10. 劉寧生. 漢語怎樣表達物體的空間關(guān)系. 中國語文,1994(3):169-179.
11. 呂叔湘. 現(xiàn)代漢語八百詞. 北京:商務印書館, 1999.
12. 齊滬揚. 空間位移中主觀參照“來/去”的語用含義. 世界漢語教學,1996(4):56-65.
13. 孫陳亦. 是什么讓“前”與“后”的對立消失,待刊.
14. 童小娥. 從事件的角度看補語“上來”和“下來”的對稱與不對稱. 世界漢語教學,2009(4):495-507.
15. 肖力銘,孫春暉,詹衛(wèi)東,等. SpaCE2022中文空間語義理解評測任務數(shù)據(jù)集分析報告(A Quality Assessment Report of the Chinese Spatial Cognition Evaluation Benchmark). //Proceedings of the 22nd Chinese National Conference on Computational Linguistics. Harbin, China:Chinese Information Processing Society of China, 2023:547-558.
16. 肖力銘,詹衛(wèi)東,穗志方,等. CCL23-Eval任務4總結(jié)報告:第三屆中文空間語義理解評測(Overview of CCL23-Eval Task 4:The 3rd Chinese Spatial Cognition Evaluation). //Proceedings of the 22nd Chinese National Conference on Computational Linguistics(Vol 3:Evaluations), 2023:150-158.
17. 詹衛(wèi)東,孫春暉,岳朋雪,等. 空間語義理解能力評測任務設計的新思路—SpaCE2021數(shù)據(jù)集的研制. 語言文字應用,2022(2):99-110.
18. 張斌. 現(xiàn)代漢語虛詞詞典. 北京:商務印書館,2001.
19. 張其昀. 運動義動詞“上”、“下”用法考辨.語言研究,1995(1):37-43.
20. 中國社會科學院語言研究所詞典編輯室編.現(xiàn)代漢語詞典(第7版). 北京:商務印書館,2016.
21. Clark H H. Space, Time, Semantics and Child. // Moore T E.(ed.)Cognitive Development and the Acquisition of Language, New York:Academic Press, 1973:27-62.
22. Herskovits A. Language and Spatial Cognition:An Interdisciplinary Study of Prepositions in English. Cambridge:Cambridge University Press, 1986.
23. Kolomiyets O, Kordjamshidi P, Bethard S,et al. Semeval-2013 Task 3:Spatial Role Labeling, Proceedings of the Seventh International Workshop on Semantic Evaluation(SemEval 2013),2013:255-262.
24. Kordjamshidi P, Rahgooy T, Marie-Francine M,et al. CLEF 2017:Multimodal Spatial Role Labeling(mSpRL)Task Overview. International Conference of the Cross-Language Evaluation Forum for European Languages, 2017.
25. Lakoff G. Women, Fire and Dangerous Things:What Categories Reveal about the World. Chicago:University of Chicago Press, 1987.
26. Mirzaee R, Faghihi H R, Ning Q,et al. SPARTQA:A Textual Question Answering Benchmark for Spatial Reasoning. //Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, 2021:4582-4598.
27. Pustejovsky J, Kordjamshidi P, Moens M F,et al. SemEval-2015 task 8:SpaceEval. // Proceedings of the 9th International Workshop on Semantic Evaluation, 2015:884-894.
28. Talmy L. Toward a Cognitive Semantics:Concept Structuring Systems. Cambridge:MIT Press, 2000.
29. Xiao Liming, Nan Hu, Weidong Zhan,et al. Overview of CCL24-Eval Task 3:The Fourth Evaluation on Chinese Spatial Cognition. https://github.com/2030NLP/SpaCE2024/tree/main/docs/Overview of SpaCE2024.pdf. 2024.
(北京大學中文系 北京 100871)
(責任編輯 劉 博)