• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      用語圖分析揭示語言系統(tǒng)中的隱性規(guī)律
      ——贏家通吃和贏多輸少算法

      2015-04-21 10:52:08陳振寧陳振宇
      中文信息學(xué)報(bào) 2015年5期
      關(guān)鍵詞:基元贏家人稱

      陳振寧,陳振宇

      (1.浙江大學(xué) 人文學(xué)院,浙江 杭州 310058;2.復(fù)旦大學(xué) 中日語言文學(xué)系,上海 200433)

      ?

      用語圖分析揭示語言系統(tǒng)中的隱性規(guī)律
      ——贏家通吃和贏多輸少算法

      陳振寧1,陳振宇2

      (1.浙江大學(xué) 人文學(xué)院,浙江 杭州 310058;2.復(fù)旦大學(xué) 中日語言文學(xué)系,上海 200433)

      該文用“圖”這一數(shù)學(xué)工具,通過定量分析來揭示語言系統(tǒng)中的隱性規(guī)律,設(shè)計(jì)了“贏家通吃”和“贏多輸少”兩種生成算法,將理想算法“步步競(jìng)爭(zhēng)、擇優(yōu)而行”的博弈論思路貫徹到非理想狀態(tài)。兩種新算法都較前人有更好的概括能力。贏多輸少算法更兼顧了充分概括和適度概括均衡。生成語圖后,該設(shè)計(jì)著重準(zhǔn)確率的最小簡(jiǎn)圖和著重覆蓋率的最大簡(jiǎn)圖歸納算法,挖掘控制的主流規(guī)則、分析語言系統(tǒng)的語言學(xué)規(guī)律。在最小簡(jiǎn)圖基礎(chǔ)上提出控制度公式以評(píng)價(jià)語言系統(tǒng)。

      隱性規(guī)律;圖論;博弈論;規(guī)則挖掘

      1 引論

      類型學(xué)在跨語言比較研究中引入語義地圖(Semantic Maps)理論,它以基元(即所調(diào)查的語言項(xiàng)目)為“點(diǎn)(node)”,根據(jù)這些基元項(xiàng)的共現(xiàn)“關(guān)系(relationship)”連接成“邊(edge)”,生成一個(gè)“圖(graph)”。然后用這一地圖去挖掘各項(xiàng)目間的規(guī)律。[1-3]這種地圖其實(shí)就是“圖論(graph theory)”研究的內(nèi)容[4];這種關(guān)系,是研究在“交際”中形成的“隱性控制”關(guān)系。

      另外,“語義地圖”并不限于狹義的語義?!叭魏涡问健⒄Z義甚至語用項(xiàng)目,只要對(duì)象個(gè)體間具備某種聯(lián)系,或者說相關(guān)性”,就都可以研究[1,3]。因此,本文擴(kuò)展這一術(shù)語為“語圖”(Graphs of Languages)。

      1.1 交際—控制理論

      交際-控制是一個(gè)社會(huì)學(xué)概念?!吧鐣?huì)”(society)是人的集合,但僅僅把人弄到一起還不夠,其中必須有一套內(nèi)在控制機(jī)制,令人群成為有類別有等差、一體運(yùn)行的集體。粗略地講,“社會(huì)=成員集合+控制機(jī)制”。

      社會(huì)存在著兩種控制模式[5]:

      1) 顯性控制: 成員產(chǎn)生明確的關(guān)于某種運(yùn)行規(guī)則的認(rèn)識(shí),這一規(guī)則“外化”于社會(huì),有明確標(biāo)記,相對(duì)獨(dú)立、靜止。

      2) 隱性控制: 未曾事先規(guī)定任何規(guī)則的社會(huì)在其自身的運(yùn)行中,會(huì)自發(fā)地形成運(yùn)行機(jī)制,但它僅僅是現(xiàn)在的、當(dāng)下的、自動(dòng)地形成著。

      隱性控制難以認(rèn)識(shí)與把握,具有模糊性、即時(shí)性、變化性等特征,即難以識(shí)別,又可能產(chǎn)生過強(qiáng)的識(shí)別?!板e(cuò)誤理解”(mis-understanding)和“過度理解”(over-understanding)都是對(duì)事實(shí)的非真實(shí)反映。所以,隱性控制最需要定量的分析。

      “交際-控制理論”把隱性控制機(jī)制看成是一系列交際過程中呈現(xiàn)的即時(shí)的事實(shí),試圖通過對(duì)論域中的交際活動(dòng)的定量分析,來構(gòu)建隱性控制機(jī)制的輪廓。

      在交際的過程中,各個(gè)成員(稱為“基元”)參與交際的程度并不一樣,其中有的參與程度高,從而成為“控制中心”,并形成一定的“控制路徑”,對(duì)整個(gè)系統(tǒng)起著主要的甚至是決定性的作用[5-6]。例如,一個(gè)俱樂部有A、B、C三個(gè)成員,假定他們有兩種共現(xiàn)情況,分別如表1、表2所示(其中“+”號(hào)表示共現(xiàn)關(guān)系,“yes數(shù)”表示共現(xiàn)成員的數(shù)量)。

      表1 三基元的理想控制關(guān)系A(chǔ)BCyes數(shù)++2++2+++3表2 三基元的理想非控制關(guān)系A(chǔ)BCyes數(shù)++2++2++2+++3

      根據(jù)Haspelmath、Haan,Ferdinand提出的理想狀態(tài)下的經(jīng)典繪制算法[3,7](簡(jiǎn)稱理想算法),我們只考慮這些基元之間共現(xiàn)關(guān)系的“有無”: 無共現(xiàn)的點(diǎn)不能連接;有共現(xiàn)的點(diǎn)則加以連接;三以上多元共現(xiàn)要核對(duì)“兩兩排他共現(xiàn)”以避免出現(xiàn)“圈”(cycle)。因此從表1、表2分別生成兩個(gè)關(guān)系圖,如圖1、圖2所示。

      圖1 三基元的理想控制關(guān)系圖2 三基元的理想非控制關(guān)系

      表1、表2都有A、B、C三者共現(xiàn)。但在表1中,B、C之間并無兩兩排他共現(xiàn),所以B與C之間沒有直接關(guān)系,是經(jīng)由A作為“中間人”才能溝通,因此在圖1中有以下隱性規(guī)律: A點(diǎn)作為輻射中心,B、C只能和A點(diǎn)直接交際,A可視為星(star)圖的中心,是典型的隱性控制中心: B與C共現(xiàn)時(shí),一定是A溝通的,因此A一定出現(xiàn)。

      在表2中,A、B、C兩兩之間都有直接關(guān)系,是圖論中的“完全圖”(complete graph),因?yàn)槿我鈨牲c(diǎn)之間都有邊,所以整幅圖的關(guān)系“均勻劃一”,所有成員“人人平等”,沒有任何控制關(guān)系,也稱為“空地圖”。

      圖3是基于上述原理構(gòu)建的不定代詞(indefinite pronoun)各個(gè)功能項(xiàng)之間的關(guān)系地圖[7],可以看到,其中有很好的控制關(guān)系,如(2)控制(1),(6)控制(7),(8)控制(9);但功能項(xiàng)(3)、(4)、(5)之間是完全圖,(4)、(5)、(8)、(6)是“圈”(cycle),都無法找到隱性控制者。

      圖3 世界語言中“不定代詞”各功能項(xiàng)之間的關(guān)系

      注意,排除調(diào)查數(shù)據(jù)有誤,確實(shí)可能有無法去除的圈,說明這一系統(tǒng)局部仍處于“自由競(jìng)爭(zhēng)”狀態(tài),本身不具有穩(wěn)定的隱性規(guī)律[5]。

      1.2 非理想系統(tǒng)已有分析算法: 完全加權(quán)

      現(xiàn)實(shí)中的真實(shí)數(shù)據(jù)并不總是理想的,大多數(shù)情況下,基元之間的共現(xiàn)關(guān)系并不是絕對(duì)的“有無”,而是以不同頻次體現(xiàn)出來的相對(duì)“多少”傾向。Cysouw 研究跨語言人稱語義時(shí)就遇到這個(gè)問題。他將人稱語義分解為八個(gè)基元,調(diào)查了這些基元的跨語言共現(xiàn),如表3所示[7]。

      表3 人稱八個(gè)基元的共現(xiàn)情況表

      注: 人稱八基元含義: 1第一人稱;2第二人稱;3第三人稱;12、123、13第一人稱復(fù)數(shù);23第二人稱復(fù)數(shù);33第三人稱復(fù)數(shù)

      人稱基元的共現(xiàn)很復(fù)雜,光看“有無”無法獲取有價(jià)值信息,但不同共現(xiàn)間的頻次差異很大。Cysouw提出了基于共現(xiàn)頻次高低的加權(quán)算法[8]: n個(gè)基元共現(xiàn),認(rèn)為它們兩兩之間全部存在同一關(guān)系,于是直接兩兩全部連接起來形成n*(n-1)/2條邊,所有n*(n-1)/2條邊都直接加上共現(xiàn)頻次f作為權(quán)重,如表4所示。

      表4 完全加權(quán)生成的人稱語圖權(quán)重矩陣

      這樣,每個(gè)共現(xiàn)記錄局部是完全圖,表4中所有邊的權(quán)重都大于0,所以本文簡(jiǎn)稱其為完全加權(quán)算法。顯然,完全加權(quán)生成的語圖包含大量的圈。Cysouw按主觀判斷刪略一定的“粗邊”得到揭示跨語言人稱語義蘊(yùn)含規(guī)律的簡(jiǎn)圖。全圖如圖4,因?yàn)橹饔^取舍的不確定性,簡(jiǎn)圖有多幅,如圖5、圖6所示。

      圖4 完全加權(quán)生成的人稱全圖

      圖5 簡(jiǎn)圖1圖6 簡(jiǎn)圖2

      完全加權(quán)不兼容理想算法,圖4控制能力差,無法很好地歸納規(guī)律。這就產(chǎn)生了一系列問題,例如,

      問題1 基元3、13、33有共現(xiàn)且頻次為5,這三個(gè)基元的兩兩排他共現(xiàn)見表5。

      表5 3、13、23的兩兩排他共現(xiàn)

      這個(gè)局部共現(xiàn)明明是理想狀態(tài),應(yīng)生成控制鏈(chain)3-33-13,卻被完全加權(quán)處理為圈3-13-33-3,其中本應(yīng)權(quán)重為0的3-13在表4中有權(quán)重5。

      問題2 基元12-13完全加權(quán)后累計(jì)權(quán)重181,是圖4中第三“粗”的,兩幅簡(jiǎn)圖都刪掉了它。邊 1-13權(quán)重68,相對(duì)較“細(xì)”,卻在簡(jiǎn)圖中保留。這樣做不是基于算法而是基于研究者的直覺,其主觀性很難操作。

      國外其他學(xué)者的研究也多以局部完全加權(quán)為基礎(chǔ)[9]。在國內(nèi),郭銳提出的完全關(guān)聯(lián)度算法[2]大體上也是一種完全圖,所以未能避免有關(guān)的問題。

      1.3 本文的研究目標(biāo)與技術(shù)路線

      本研究致力于解決在非理想狀況下系統(tǒng)的隱性控制規(guī)律分析問題。我們認(rèn)為:

      1. 加權(quán)算法引入共現(xiàn)頻次來處理非理想數(shù)據(jù)是合理的。這一點(diǎn)上我們的技術(shù)路線與它相同: 定量分析,按頻次為每條邊逐步累計(jì)加權(quán)[5],按權(quán)重之和確定傾向性,得到一語言系統(tǒng)的控制規(guī)律“主流”(mainstream)。

      2. 我們不同意完全加權(quán),這種在每個(gè)局部生成完全圖的做法反而違背了定量分析的要求,不符合圖論與隱性控制的基本原理,和理想算法在數(shù)學(xué)方法上相悖,最終概括力度太弱。我們的技術(shù)路線修訂為: 每一步計(jì)算累計(jì)都綜合其他記錄提供的競(jìng)爭(zhēng)參數(shù),按競(jìng)爭(zhēng)參數(shù)定量分析,設(shè)計(jì)博弈論(Game Theory)的優(yōu)先決策算法,對(duì)“贏家”和“輸家”邊給予不同的加權(quán)策略。

      另外,隱性控制的探索還要注意兩點(diǎn): 充分概括,建立具有充分概括力的算法,把各基元、各邊之間的不平等關(guān)系充分地體現(xiàn)出來;適度概括: 過強(qiáng)的概括力可能會(huì)把較小的差異“放大”為顯著的區(qū)別,“過猶不及”,需加以壓制。

      就已有的研究看,尚未能找到充分概括的算法是主要矛盾,但也不能忽視次要矛盾,在找到充分概括的道路后應(yīng)關(guān)注適度概括。

      2 我們的方案

      2.1 贏家通吃算法[6]

      贏家通吃將理想算法的基本原則擴(kuò)展到非理想狀態(tài):

      1. 對(duì)每個(gè)n≥3的多元共現(xiàn),提供競(jìng)爭(zhēng)參數(shù)“兩兩獨(dú)立共現(xiàn)頻次”,按參數(shù)大小競(jìng)爭(zhēng)。先計(jì)算局部共現(xiàn)中所有“兩兩對(duì)子”的兩兩獨(dú)立共現(xiàn)頻次,再按從大到小順序排列這些兩兩對(duì)子,選取頻次大的n-1個(gè)對(duì)子為“贏家”,剩下的對(duì)子都是“輸家”;

      2. “優(yōu)勝劣汰”博弈策略: 贏家獲得全部加權(quán),輸家無加權(quán)。

      其中,兩兩獨(dú)立共現(xiàn)包括: 1.兩兩排他共現(xiàn);2.不同多點(diǎn)共現(xiàn)中出現(xiàn)的兩點(diǎn)單獨(dú)共現(xiàn)。

      以表3中人稱12、123、13三者共現(xiàn)100次的記錄為例。12、123、13能形成最多三個(gè)對(duì)子: 12-123、123-13和12-13。這三個(gè)對(duì)子的“兩兩獨(dú)立共現(xiàn)頻次”計(jì)算如表6所示。

      表6 12、123、13的兩兩獨(dú)立共現(xiàn)頻次

      然后,保留n-1=2個(gè)“贏家”: 兩兩獨(dú)立共現(xiàn)頻次相對(duì)大的12-123、123-13全部加權(quán)100;剩下12-13是輸家,無加權(quán)。如圖7所示。

      圖7 贏家通吃生成的12、123、13局部語圖

      對(duì)人稱語義應(yīng)用贏家通吃算法,可得到權(quán)重矩陣如表7,語圖如圖8。因?yàn)榧嫒堇硐胨惴?,理想狀態(tài)下明確可以刪除的邊權(quán)重都為0。

      表7 “贏家通吃”生成的人稱語圖權(quán)重矩陣

      圖8 贏家通吃生成的人稱全圖

      最后,贏家通吃算法設(shè)計(jì)了簡(jiǎn)單的歸納算法: 嚴(yán)格按權(quán)重闕值“刪細(xì)留粗”。如果設(shè)置闕值為35,得到完全加權(quán)主觀簡(jiǎn)化的簡(jiǎn)圖5;設(shè)置闕值為30,得到完全加權(quán)的簡(jiǎn)圖6。

      注意,贏家算法中每個(gè)局部的贏家選擇n-1個(gè),遵循的是圖論的如下定理及其推論[4]。

      定理1 n個(gè)頂點(diǎn)的連通圖是一顆樹,當(dāng)且僅當(dāng)它有n-1條邊。

      推論1 每個(gè)連通圖均包含一棵支撐樹。

      由此,不考慮全圖本身可能是“森林”、圖中有“歧義”、“可恢復(fù)邊”*森林:由幾棵彼此不連通的樹構(gòu)成的圖[4]。歧義和可恢復(fù)邊的數(shù)學(xué)定義見節(jié)3。等特殊情況,選取競(jìng)爭(zhēng)參數(shù)相對(duì)最大的n-1條邊,是為了歸納局部語圖的“最大支撐子樹(max spanning subtree)”。

      這意味著贏家通吃算法局部最大限度地加強(qiáng)概括力度,反過來說可能造成概括過度: 贏家與輸家差別不大時(shí),完全不賦予輸家權(quán)重可能不太合理。

      2.2 贏多輸少算法

      贏多輸少對(duì)贏家通吃可能出現(xiàn)的過度概括進(jìn)行均衡: 博弈采取“優(yōu)多劣少”,按照兩兩共現(xiàn)頻次的“多少”傾向程度,對(duì)贏家輸家按比例加權(quán)。這樣也能在加權(quán)策略上更徹底地貫徹定量分析方法。

      分配比例理論上應(yīng)按“連接所有基元的路”來分配,但這樣算法復(fù)雜度高達(dá)O(n!)*“n個(gè)基元共現(xiàn)于同一語言形式”的數(shù)學(xué)定義: n個(gè)基元共現(xiàn)于同一語言形式,是指基元間至少存在一條能夠連接所有基元的非圈最長(zhǎng)“路(path)”。并有推論: 推論: 每個(gè)局部最多可能有n!/2條連接所有基元的路。于是,比例以“路”為單位來分配,就要計(jì)算n!/2條路,算法復(fù)雜度為O(n!),以階乘增長(zhǎng)。。為降低算法復(fù)雜度,本文采用一個(gè)近似的比例分配算法: 前面n-2個(gè)贏家都直接100%加權(quán);最后一個(gè)(第n-1個(gè))贏家和所有輸家一起按比例分配加權(quán)。這樣連接所有基元的路最多可能有n-1條,算法復(fù)雜度降為O(n)。

      如對(duì)前述12、123、13局部共現(xiàn)運(yùn)用贏多數(shù)少算法生成,結(jié)果如表8和圖9所示。

      表8 贏多輸少按12、123、13的兩兩獨(dú)立共現(xiàn)頻次比例加權(quán)

      圖9 “贏多輸少”生成的12、123、13局部語圖

      贏多輸少算法的概括能力趨向于“均衡”,各邊粗細(xì)差異圖9比圖7小。

      1. 輸家12-13不再“徹底失敗”,多少能分配到一些權(quán)重,劣勢(shì)不那么明顯;

      2. 處于贏家末位的“小贏家”13-123的競(jìng)爭(zhēng)參數(shù)并不比輸家高多少,分到的權(quán)重被“壓低”,優(yōu)勢(shì)不那么明顯。

      贏多輸少算法生成人稱語圖的權(quán)重矩陣如表9,全圖如圖10所示。

      表9 “贏多輸少”算法生成的人稱語圖權(quán)重矩陣

      圖10 “贏多輸少”生成的人稱全圖

      贏多輸少權(quán)重為0的邊比贏家通吃少,如邊 2-33,表7中權(quán)重0,表9中權(quán)重0.33。這是因?yàn)?2-33出現(xiàn)過的局部其實(shí)不是理想狀態(tài),但因?yàn)?2-33的兩兩獨(dú)立共現(xiàn)頻次很低,次次當(dāng)輸家。在贏家通吃算法輸家無法加權(quán),被“偽裝”成了理想狀態(tài)下的斷路。贏多輸少算法對(duì)輸家多少有權(quán)重,剝除了2-33的“偽裝”。

      3 歸納算法和非理想系統(tǒng)的評(píng)價(jià)

      本文前述討論的算法都是語圖的“生成”算法。在理想狀態(tài)或數(shù)據(jù)很少的時(shí)候,研究者很容易看出一個(gè)圖的性質(zhì): 典型的控制?典型的無控制?還是居于其間的狀態(tài)?

      但數(shù)據(jù)量較大的非理想數(shù)據(jù)復(fù)雜性高,使得任何生成算法得到的語圖都太過復(fù)雜,無法主觀評(píng)判全圖性質(zhì),因此: 1.需要用可操作的算法進(jìn)行簡(jiǎn)化,但現(xiàn)有簡(jiǎn)化或者太主觀(等于沒有算法)、或者太簡(jiǎn)單(闕值簡(jiǎn)化)、或者只對(duì)基元分類根本沒有控制關(guān)系(MDS算法等[1-3]);2.也需要提供評(píng)估參數(shù),迄今為止尚未看到有研究者提出這一問題。

      為此本文設(shè)計(jì)了兩種歸納算法做規(guī)律“挖掘(mining)”。根據(jù)挖掘出的規(guī)律,進(jìn)一步評(píng)估不同生成算法的合理性,同時(shí)提出對(duì)非理想系統(tǒng)隱性規(guī)則“強(qiáng)弱”的評(píng)價(jià)參數(shù)。

      3.1 最小簡(jiǎn)圖和控制度

      主要思想: 找到每個(gè)基元“關(guān)聯(lián)性最強(qiáng)”的關(guān)系。

      操作流程: 從任意基元出發(fā),檢查基元P關(guān)聯(lián)的所有邊,保留且只保留權(quán)重最大的一條邊;以此類推,直到遍歷所有基元。

      這一算法保留最少的邊,同時(shí)保證保留下來的邊權(quán)重最大,因此挖掘的是“主流中最簡(jiǎn)約控制規(guī)律”。因?yàn)樽詈?jiǎn)約,所以能最大程度上保證規(guī)則的準(zhǔn)確率。

      在最簡(jiǎn)約的最小簡(jiǎn)圖基礎(chǔ)上,我們引入“控制度”這一概念,其計(jì)算公式為式(1)。

      (1)

      式中∑e∈GminW(e)為最小簡(jiǎn)圖的權(quán)重之和,∑e∈GminamW(e)為最小簡(jiǎn)圖歧義邊的權(quán)重之和,∑e∈GsuperW(e)為全圖的權(quán)重之和。

      其中“歧義”定義為: 點(diǎn)P有歧義邊,指和P關(guān)聯(lián)的邊中,權(quán)重相等的邊數(shù)m大于等于2,這m條邊則是“關(guān)于點(diǎn)P有歧義的邊”。

      簡(jiǎn)化如果遇到點(diǎn)P有“權(quán)重最大的m條歧義邊”,就無法確定點(diǎn)P到底通過誰主要和其他邊相連,因此m條邊都不可刪除,留在簡(jiǎn)圖內(nèi)形成無法簡(jiǎn)化的子圈。無法簡(jiǎn)化的子圈無法預(yù)測(cè)控制路徑,對(duì)控制度無貢獻(xiàn),因此需要減去。

      歸納算法可以獨(dú)立應(yīng)用,我們對(duì)前文各算法生成的人稱語圖應(yīng)用最小簡(jiǎn)圖歸納算法, 得到圖11、

      圖11 完全加權(quán)的人稱最小簡(jiǎn)圖

      圖12、圖13。再根據(jù)最小簡(jiǎn)圖計(jì)算各算法控制度如表10所示。

      圖12 贏家通吃的人稱最小簡(jiǎn)圖

      圖13 贏多輸少的人稱最小簡(jiǎn)圖

      各算法的最小簡(jiǎn)圖拓?fù)浣Y(jié)構(gòu)一致,可見最小簡(jiǎn)圖因?yàn)椤白詈?jiǎn)約”準(zhǔn)確率確實(shí)可觀。

      表10 跨語言人稱系統(tǒng)的各算法控制度

      各算法的最小簡(jiǎn)圖還和前文Cysouw憑主觀簡(jiǎn)化得到的簡(jiǎn)圖1(圖5)拓?fù)湟恢?,可見“語言學(xué)家的直覺”確實(shí)是有數(shù)學(xué)規(guī)律可循的。

      最小簡(jiǎn)圖所揭示的規(guī)律比MDS等基元分類法更全面。

      1. 可以確定分類: 人稱8基元分成三類,第一人稱(1、13、123、12)、第二人稱(2-23)和第三人稱(3-33);

      2. 可以確定最主流的控制路徑: 第一人稱內(nèi)部控制路徑為1-13-123-12;“我”與“我們”間的主要控制中心是排斥聽者13;“我們”中包含三方的123居于主要控制中心位置,各排斥了某一方的12和13之間語義關(guān)系疏遠(yuǎn);

      3. 第二人稱、第三人稱內(nèi)部只包含兩個(gè)基元,談不上控制路徑,只表示各自的單復(fù)數(shù)之間關(guān)系最緊密。

      盡管最小簡(jiǎn)圖拓?fù)浣Y(jié)構(gòu)一致,權(quán)重差異卻很大,各算法所得控制度頗為不同。

      完全加權(quán)所得控制度頗低,近58%的控制度意味人稱系統(tǒng)很“松散”,“最主流”的一、二、三人稱之間混淆得很厲害,但研究者直覺上對(duì)“人稱三分”的規(guī)律性評(píng)價(jià)是較強(qiáng)的[8],這就產(chǎn)生了矛盾。

      兩種贏家算法算出人稱系統(tǒng)控制度高達(dá)80%以上,雖然略有差異而在一個(gè)數(shù)量級(jí)中,因此更加合理。

      3.2 最大簡(jiǎn)圖

      2.1節(jié)論及贏家通吃算法在局部生成“最大支撐子樹”,這正是一種歸納算法: 刪除語圖中任意圈里權(quán)重相對(duì)最小的邊,從而把語圖中每個(gè)圈都“打破”,最后必然得到語圖權(quán)重最大的支撐子樹。

      所謂“最大”支撐子樹,主要是: 1.保留的邊權(quán)重相對(duì)最大;2.子樹支撐全圖,最大限度連通所有基元,挖掘的是“覆蓋率最大的主流控制規(guī)律”,因此稱之為“最大簡(jiǎn)圖”。

      各算法的人稱語圖可生成最大簡(jiǎn)圖如圖14、圖15、圖16所示。

      圖14 完全加權(quán)的人稱最大簡(jiǎn)圖

      圖15 贏家通吃的人稱最大簡(jiǎn)圖

      圖16 贏多輸少的人稱最大簡(jiǎn)圖

      所有最大簡(jiǎn)圖在“主流”上依舊是拓?fù)湟恢碌?,且與Cysouw主觀刪減得出的簡(jiǎn)圖6一致??梢娺@一算法的準(zhǔn)確率還是很高,同時(shí)語言學(xué)家的直覺有數(shù)學(xué)規(guī)律可循。

      但是,圖中有三條不同的虛線邊。虛線邊的權(quán)重比最大簡(jiǎn)圖中的“最細(xì)邊”高,這意味著有些權(quán)重可以躋身“主流”之列的關(guān)系十分“糾結(jié)”,很難概括明晰的控制路徑,由此而成的圈是“可保留的圈”,相應(yīng)的虛線邊本文稱之為“可恢復(fù)邊”。如果硬要?jiǎng)h除不免過度概括。

      問題是語圖的生成算法不同,可恢復(fù)邊的情況就不同。不同算法得到人稱語圖可恢復(fù)邊共計(jì)三條: 1-123、1-12、13-12。

      1. 1-123: “我(1)”和典型的“我們(123)”完全沒有兩兩獨(dú)立共現(xiàn),恰恰是理想的沒有關(guān)聯(lián)的基元。完全加權(quán)不兼容理想算法,因其在1、123、13三點(diǎn)共現(xiàn)中出現(xiàn)過,每次都給1-123完全加權(quán),最終其權(quán)重較高可恢復(fù),是不合適的。贏家二算法在1、123、13中都只連接1-13,保持權(quán)重為0。

      2. 1-12: “我(1)”和“咱們(12)”的兩兩獨(dú)立共現(xiàn)頻次為1,是一個(gè)“非主流”規(guī)律。完全加權(quán)因其在1、12、123、13四點(diǎn)的多點(diǎn)場(chǎng)合里共現(xiàn)過,局部完全圖累計(jì)較高權(quán)重,把“非主流”推成了“主流”,也不大合適。贏家通吃算法把輸家1-12斷開,贏多輸少則保持其為非主流。

      3. 12-13: 兩個(gè)不太典型的“我們”間兩兩獨(dú)立共現(xiàn)頻次為2,相對(duì)較低。但是,它們主要在包含12、123、13三點(diǎn)的多點(diǎn)場(chǎng)合共現(xiàn),“我們”集成12、123、13是極其主流的現(xiàn)象,有關(guān)共現(xiàn)頻次數(shù)百,遠(yuǎn)超其他所有共現(xiàn)。因此,12-13“瘦死的駱駝比馬大”,獲得較高權(quán)重。

      這確實(shí)是非常特殊的情況,贏多輸少也能將其挑選出來。而贏家通吃算法因其生成時(shí)先行局部最大概括,所有輸家都被直接“殺掉”,不免出現(xiàn)概括過度的“誤殺”。

      4 案例分析

      4.1 漢語常用動(dòng)詞和時(shí)間標(biāo)記的搭配

      郭銳調(diào)查的漢語常用動(dòng)詞和時(shí)間標(biāo)記搭配如表11[10]所示。

      表11 漢語動(dòng)詞與時(shí)間標(biāo)記的搭配

      注: “了I”指動(dòng)詞可加“了”表示事件的開始,“了F”表示事件的完結(jié);“時(shí)量I”指動(dòng)詞加時(shí)量成分表示事件持續(xù)的時(shí)量,“時(shí)量F”表示事件完始后的時(shí)量。

      暫不考慮第一行不能和所有時(shí)間標(biāo)記搭配的動(dòng)詞,整理其他各行數(shù)據(jù),各算法生成的最小簡(jiǎn)圖如圖17、圖18、圖19所示,最大簡(jiǎn)圖如圖20、圖21、圖22 所示。

      圖17 完全加權(quán)的時(shí)間標(biāo)記最小簡(jiǎn)圖

      圖18 贏家通吃的時(shí)間標(biāo)記最小簡(jiǎn)圖

      圖19 贏多輸少的時(shí)間標(biāo)記最小簡(jiǎn)圖

      圖20 完全加權(quán)的時(shí)間標(biāo)記最大簡(jiǎn)圖

      圖21 贏家通吃的時(shí)間標(biāo)記最大簡(jiǎn)圖

      圖22 贏多輸少的時(shí)間標(biāo)記最大簡(jiǎn)圖

      所有最小簡(jiǎn)圖拓?fù)湟恢?,“最主流”的?guī)律準(zhǔn)確率高:

      1. 漢語的時(shí)間標(biāo)記統(tǒng)為一類;

      2. 不論歧義,基本上是以“過”為控制中心的星圖;

      語言學(xué)解釋: “過”的語義模型包含事件“開始、持續(xù)、結(jié)束”階段整體,因此分別控制表開始的“了I”、結(jié)束的“了F(結(jié)束)”、持續(xù)的“著、在”。

      3. “時(shí)量I、時(shí)量F”分別只與“了I、了F”關(guān)聯(lián),符合其語言學(xué)定義;

      4. “在”有歧義,“在”和表結(jié)束的“3F”也聯(lián)系緊密。

      “在、著”都表示持續(xù)階段,其中“在”是動(dòng)態(tài)持續(xù),“著”是靜態(tài)持續(xù)。那么,我們是否可以考慮: 動(dòng)態(tài)和靜態(tài)的差異在于,動(dòng)態(tài)更傾向于結(jié)束,而靜態(tài)的結(jié)束點(diǎn)相對(duì)“遙遙無期”?

      各算法最大簡(jiǎn)圖的主流是一致的?!翱蓮?fù)活邊”差異很大。

      贏家二算法沒有可復(fù)活邊,最大簡(jiǎn)圖和最小簡(jiǎn)圖合一了??梢娫谶@兩種算法中,主流控制規(guī)律是很明晰的。

      完全加權(quán)算法卻大大不同,它的可復(fù)活邊極多,各種關(guān)聯(lián)糾結(jié)在一起。似乎“漢語時(shí)間標(biāo)記關(guān)聯(lián)混亂,幾乎難以確定規(guī)律”,但這正是完全加權(quán)違背了理想算法所造成的“誤會(huì)”。

      例如,“了I、了F”,它們的語言學(xué)定義就是分化“了”的兩種情況,不可能出現(xiàn)大量糾纏不清的關(guān)聯(lián)。但完全加權(quán)后邊“了I-了F”的權(quán)重高達(dá)1 463,顯然不合理。

      計(jì)算時(shí)間標(biāo)記系統(tǒng)各算法的控制度,如表12所示。

      表12 時(shí)間標(biāo)記系統(tǒng)的各算法控制度

      完全加權(quán)算法的控制度極低,這與其可復(fù)活邊畸多的現(xiàn)象一致。贏家通吃和贏多輸少的控制度相對(duì)很高,因?yàn)樗鼈儧]有可復(fù)活邊,主流控制規(guī)律明晰。

      確實(shí),漢語是顯性規(guī)律很少的語言,漢語的“時(shí)間標(biāo)記”沒有徹底標(biāo)記化,時(shí)間標(biāo)記系統(tǒng)沒有100%控制度。

      但是,研究者普遍稱之為時(shí)間“標(biāo)記”,將之歸類為“虛詞/功能詞”,漢語時(shí)間標(biāo)記即使沒有完全標(biāo)記化,其標(biāo)記程度還是比較高的,贏家二算法明顯比完全加權(quán)更符合“語言學(xué)家的直覺”。

      值得注意的是時(shí)間標(biāo)記系統(tǒng)里控制度最高的不是贏家通吃,而是贏多輸少。

      究其原因在于歧義: 遇到歧義無法取舍,贏家通吃會(huì)直接給予所有歧義邊都加權(quán)100%,贏多輸少則認(rèn)為“m個(gè)歧義=m條機(jī)會(huì)相當(dāng)比例均等的路”,因此給每條歧義邊1/m加權(quán)。所以歧義邊越多、越“重”的系統(tǒng)中,贏家通吃的歧義會(huì)比贏多輸少“重”得多,按公式1反而減弱了控制度。

      可見,贏家二算法的概括力度高低不可一概而論,有待深入研究。

      4.2 多個(gè)語言系統(tǒng)控制度參數(shù)研究

      對(duì)于不同的系統(tǒng),我們需比較它們的控制度。作為社會(huì)性系統(tǒng),其隱性控制的程度會(huì)有差異,呈現(xiàn)出一種動(dòng)態(tài)的梯級(jí),其中一端是最為嚴(yán)格的控制系統(tǒng),其控制度為1,即最小簡(jiǎn)圖與全圖完全一樣,這種系統(tǒng)就可以直接顯性化了;另一端則是完全沒有隱性控制的自由狀態(tài)的系統(tǒng),控制度為零,即無法抽取出最小簡(jiǎn)圖。

      1.1節(jié)中的表1理想狀態(tài)下控制度為1,表2完全無控制則為0,大部分系統(tǒng)則居于中間。我們對(duì)語言現(xiàn)象做了大量的實(shí)證研究,其控制度如表13所示。

      表13 不同系統(tǒng)控制度參數(shù)舉隅

      上述研究中,同一語言內(nèi)部一般的系統(tǒng)控制度普遍高,跨語言的對(duì)比分析中則有高有低這可能是兩個(gè)原因造成的,

      1. 同一語言內(nèi)部共性普遍較強(qiáng),跨語言間的共性偏弱;

      2. 同一語言內(nèi)部數(shù)據(jù)調(diào)查容易些,數(shù)據(jù)多歧義易分化;跨語言調(diào)查困難,數(shù)據(jù)不足導(dǎo)致歧義畸多。

      5 結(jié)論

      語圖是一種研究系統(tǒng)規(guī)律的工具: 在多基元共現(xiàn)調(diào)查數(shù)據(jù)的基礎(chǔ)上,通過算法生成一張語圖,再從中歸納隱性規(guī)律。

      以“理想數(shù)據(jù)”為出發(fā)點(diǎn)的理想算法遵循圖論的原則,是一種極好的算法。但對(duì)現(xiàn)實(shí)中大量出現(xiàn)的“非理想數(shù)據(jù)”無能為力。而過去采用“完全加權(quán)”或與之本質(zhì)相同的算法(如“完全關(guān)聯(lián)度”等)來處理“非理想數(shù)據(jù)”,導(dǎo)致算法在每個(gè)局部沒有概括力,生成的整個(gè)語圖概括度偏弱。本文的研究即致力于解決這一問題,同時(shí)也注意到需要避免概括過度。

      筆者提出的“贏家”二算法,試圖在非理想數(shù)據(jù)中繼續(xù)貫徹理想算法的策略: 生成時(shí)步步按整體情況統(tǒng)計(jì)的“兩兩獨(dú)立共現(xiàn)”頻次計(jì)算各邊的優(yōu)先順序,對(duì)n基元共現(xiàn)取n-1個(gè)邊為贏家,其余為輸家,通過“優(yōu)勝劣汰”博弈優(yōu)化,大大增加了概括力度。

      其中,贏家通吃把共現(xiàn)頻次只賦予贏家,在每個(gè)局部達(dá)到最大概括,從而使整個(gè)語圖概括力度最大化,缺點(diǎn)是造成過度概括。贏多輸少則更注意兼顧均衡,對(duì)贏家與輸家按比例分配權(quán)重,在保證概括力度的同時(shí)防止出現(xiàn)過度概括。

      本文還提出了前人尚未考慮到的問題,即對(duì)“非理想數(shù)據(jù)”如何評(píng)估其規(guī)律化的程度。為此引入了最小簡(jiǎn)圖,并通過它與全圖的權(quán)重比較計(jì)算出系統(tǒng)的控制度參數(shù)。

      挖掘規(guī)律要兼顧準(zhǔn)確率和覆蓋率。最小簡(jiǎn)圖的“準(zhǔn)確率”最大,但“覆蓋率”不足。為此,本文又構(gòu)建了“最大簡(jiǎn)圖”分析。

      文中對(duì)語言學(xué)若干案例進(jìn)行了研究,贏家二算法較之過去的算法更吻合系統(tǒng)的數(shù)據(jù)表現(xiàn)和語言學(xué)解釋。贏多輸少的歸納更適中,尤其在著重覆蓋率的最大簡(jiǎn)圖算法中所得簡(jiǎn)圖更精確。另外,通過對(duì)若干語言系統(tǒng)的贏家二算法控制度進(jìn)行比較,確實(shí)是參數(shù)取值越大,系統(tǒng)規(guī)律性越高。以上具體研究,還需要更多的檢驗(yàn)和深入研究。

      筆者為本文討論的所有算法編制了程序,可在本文兩位作者建設(shè)的網(wǎng)站“永新語言學(xué)(http://www.newlinguistcs.org)”輸入數(shù)據(jù)自動(dòng)計(jì)算權(quán)重控制度、繪制語圖。據(jù)作者所知,本文研究至少在國內(nèi)尚屬首創(chuàng),雖然具有填補(bǔ)空白的功效,但也難免會(huì)考慮不夠周全。網(wǎng)站的目的既是為廣大同行提供可資運(yùn)用的技術(shù)手段,也是為了請(qǐng)研究者們提出批評(píng)意見。

      [1] 曹晉.語義地圖理論及方法[J].語文研究,2012(2):3-6.

      [2] 郭銳.語義地圖概念的最小關(guān)聯(lián)原則和關(guān)聯(lián)度[A].李小凡,張敏,郭銳.漢語多功能語法形式的語義地圖研究[M].北京:商務(wù)印書館,2015,152-172.

      [3] H.Martin,The geometry of grammatical meaning:semantic maps and cross-linguistic comparison[C]//Proceedings of the New Psychology of Language:Cognitive and Functional Approaches to Language Structure.Mahwah,NJ.Erlbaum.2003:211-242.

      [4] Reinhard Diestel,于青林,王濤譯.圖論(第四版)[M].北京:高等教育出版社,2013.

      [5] 陳振宇,陳振寧.通過地圖分析揭示語法學(xué)中的隱性規(guī)律——“加權(quán)最少邊地圖”[J].中國語文,2015,05:428-438.

      [6] Nooy, Mrvar, Batagelj,等. 蜘蛛: 社會(huì)網(wǎng)絡(luò)分析技術(shù)(第二版)[M].北京:世界圖書出版公司,2012.

      [7] H Martin.Indefinite Pronouns[M].Oxford:Clarendon,1997.

      [8] C Michael.Building Semantic Maps:the Case of Person Marking[M].M Miestamo & B Walchli.New Challenges in typology:Broadening the horizons and redefining the foundations.Berlin:Mouton,2007:225-248.

      [9] Ferdinand de Haan. On Representing Semantic Maps[EB/OL]. URL:http://emeld.org/workshop/2004/deHaan-paper.doc.2004.

      [10] 郭銳.漢語動(dòng)詞的過程結(jié)構(gòu)[J].中國語文,1993,06:410-419.

      [11] 亢世勇.面向信息處理的現(xiàn)代漢語語法研究[M].上海:上海辭書出版社,2004.

      [12] 陸丙甫,屈正林.語義投射連續(xù)性假說:原理和引申——兼論定語標(biāo)記的不同功能基礎(chǔ)[M].語言學(xué)論叢(第四十二輯).北京:商務(wù)印書館,2010:112-128.

      [13] 吳福祥. 從“得”義動(dòng)詞到補(bǔ)語標(biāo)記——東南亞語言的一種語法化區(qū)域[J]. 中國語文,2009,03:195-211,287.

      Revealing Covert Laws in Language Systems Through Graphs——Algorithms of Winner-Get-All & Winner-More-Loser-Less

      CHEN Zhenning1, CHEN Zhenyu2

      (1. School of Humanities, Zhejiang University, Hangzhou, Zhejiang 310058, China;2. Department of Chinese Langage and Literature, Fudan University, Shanghai 200433, China)

      We tried to reveal convert laws with quantitative analysis through graphs and designed two generating algorithms of language graphs: Winner-get-all and Winner-more-loser-less, which extend the game theory used by idea-algorithm to none-perfect state. Compared to previous methods, the proposed two algorithms have better generalization capability. Especially, we balance between full and modest generation in the Winner-more-loser-less algorithm. There are two kinds of inductive algorithms to mine mainstream rules and analyze linguistic laws: Min-Subgraphs for accuracy, as well as Max-Subgraphs for coverage. A formula for control degree based on min-subgraphs is put forward to evaluate language systems.

      covert laws; graph theory; game theory; rules mining

      陳振寧(1977—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。E-mail:706867589@qq.com陳振宇(1968—),通信作者,副教授,主要研究領(lǐng)域?yàn)闈h語句法語義。E-mail:chenzhenyu@fudan.edu.cn

      1003-0077(2015)05-0020-11

      2015-08-10 定稿日期: 2015-09-26

      教育部人文社會(huì)科學(xué)規(guī)劃基金“現(xiàn)代漢語句法與語義計(jì)算研究”(13YJA740005)

      TP391

      A

      猜你喜歡
      基元贏家人稱
      關(guān)注基元反應(yīng)的考查
      拼圖
      沒有贏家的戰(zhàn)斗
      NBA特刊(2018年21期)2018-11-24 02:47:46
      真正的贏家
      人體細(xì)胞內(nèi)存在全新DNA結(jié)構(gòu)
      陽高方言的人稱代詞
      Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*
      廣告語中人稱指示語的語用充實(shí)研究
      面向土地利用/土地覆被的基元產(chǎn)品的研究
      人稱代詞專練
      芷江| 娄烦县| 始兴县| 突泉县| 新和县| 阿拉善右旗| 宁武县| 云安县| 海原县| 将乐县| 民权县| 拜城县| 隆昌县| 楚雄市| 巴里| 二连浩特市| 四子王旗| 洞头县| 丰顺县| 水富县| 陇南市| 三原县| 原平市| 甘谷县| 双牌县| 南靖县| 乌什县| 清水河县| 太白县| 长顺县| 渑池县| 米脂县| 临桂县| 自贡市| 含山县| 鸡东县| 肃北| 县级市| 疏勒县| 兴业县| 江孜县|