• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于UML的小句本體模型研究

      2019-03-30 02:10:42
      四川文理學(xué)院學(xué)報 2019年2期
      關(guān)鍵詞:小句復(fù)句本體

      沈 威

      (華中師范大學(xué) 語言與語言教育研究中心,湖北 武漢430079)

      1 引言

      1.1 目前中文信息處理的現(xiàn)狀

      近年來,中文信息處理技術(shù)取得了一定的成績.總的來講,在字、詞處理方面的技術(shù)比較成熟,而在句子層面的研究則相對薄弱.在字、詞等方面,尤其是上世紀(jì)80年代之后,漢語的字、詞方面的各種研究得到了較快的發(fā)展.比如在分詞算法上,全切分分詞方法、最短路徑分詞方法、N-最短路徑分詞方法、基于隱馬爾科夫模型(HMM)或n元語法(n-gram)的分詞方法等一系列分詞方法相繼提出.而且,還出現(xiàn)了一批有指導(dǎo)性、代表性的文獻(xiàn)和工具,比如《現(xiàn)代漢語語法信息詞典》和“知網(wǎng)”.這些成果的出現(xiàn)顯示出現(xiàn)階段中文信息處理在字、詞方面的研究已經(jīng)相當(dāng)成熟.不過盡管中文信息處理目前取得的成績是巨大的,但還是存在不少問題.

      中文信息處理是一個融合了認(rèn)知科學(xué)、數(shù)學(xué)、邏輯學(xué)、統(tǒng)計學(xué)、語言學(xué)、計算機(jī)科學(xué)等多個學(xué)科知識的綜合性學(xué)科.它所面臨的問題往往是復(fù)雜的.目前仍面臨著許多尚未解決,也不好解決的難題.比如,從目前情況來看,僅僅是歧義的消解就已經(jīng)讓自然語言處理研究者力不從心,更何況在實際的語言運用中,還有諸如隱喻、幽默、夸張、雙關(guān)等修辭手法的運用.[1]

      特別是在中文信息處理領(lǐng)域中,對小句的研究還相對不足.比如現(xiàn)在熱門的各種搜索引擎仍舊是以詞項為主要匹配手段.而漢語中人們交流的形式是小句,各種專家系統(tǒng)中人與機(jī)器的交流形式也是小句,中文信息處理迫切需要對小句有足夠的認(rèn)識,那么首要的問題就是要對小句進(jìn)行準(zhǔn)確、細(xì)致的建模.

      相對于字、詞已經(jīng)取得的豐碩成果,中文信息處理對句子層面的研究就顯得非常不足了.目前對小句進(jìn)行本體建模的文章極少,而且所建的本體模型要么不太完善要么不太準(zhǔn)確,都或多或少存在著這樣那樣的問題.[2]在這個大環(huán)境下,要想中文信息處理在句子層面有所突破,最關(guān)鍵的第一步就是建立一個科學(xué)的小句本體模型.而如何將傳統(tǒng)的小句本體知識應(yīng)用于中文信息處理,首先要解決的就是建立一個以小句為中心的句法標(biāo)注體系.[3]

      1.2 本體的概念

      本體(Ontology)最開始是在哲學(xué)領(lǐng)域中出現(xiàn)的,哲學(xué)中對本體的定義為:“系統(tǒng)地對世界上客觀存在物的描述.”哲學(xué)中的本體關(guān)心的是客觀現(xiàn)實的一種抽象本質(zhì).自哲學(xué)領(lǐng)域?qū)Ρ倔w做了定義之后,其它許多學(xué)科和學(xué)者也都給本體下過定義,其中以Gruber給出的定義影響最大.“本體是概念化的明確的規(guī)范說明”.[4-5]后來Studer等人總結(jié)前人的相關(guān)定義描述,將本體的描述概括為“共享概念化的形式的明確規(guī)范”.[6]

      本體的主要目標(biāo)是對相關(guān)領(lǐng)域的知識進(jìn)行搜集和分類,確定這個領(lǐng)域內(nèi)部人們普遍認(rèn)可的詞匯,并從各個不同層級的形式化模式上標(biāo)明詞匯之間的各種復(fù)雜的聯(lián)系.信息處理領(lǐng)域中本體是人們公認(rèn)的最重要的成分之一.

      1.3 為什么選擇UML對小句進(jìn)行建模

      UML(unifiied modeling language)是一種面向?qū)ο蟮慕UZ言,它是運用統(tǒng)一的、標(biāo)準(zhǔn)化的標(biāo)記和定義實現(xiàn)對任何具有靜態(tài)結(jié)構(gòu)和動態(tài)行為的系統(tǒng)進(jìn)行面向?qū)ο蟮拿枋龊徒?運用UML對小句本體進(jìn)行建??梢员WC模型的通用性,所以本文將利用UML對小句進(jìn)行靜態(tài)的本體建模.

      2 漢語中小句的中樞地位

      2.1 小句的內(nèi)涵

      人們平時說話都會用到小句,或者由小句構(gòu)成的復(fù)句、句群.人們說話就是一種表述.小句是最小的具有表述性和獨立性的語法單位.

      所謂具有表述性,是指能夠闡明言者的表達(dá)意圖,不能含糊不清.所謂獨立性,是指小句作為一個實體不能作為別的小句的組成部分.[5]比如:

      (1)今天星期一.

      (2)我知道今天星期一.

      (3)由于外面在下雨,所以我遲到了.

      這三例中,第一例是小句.第二例也是小句,但是第二例中的“今天星期一”不是小句,因為“今天星期一”被包含在小句“我知道今天星期一”里.第三例是由兩個分句“由于外面在下雨”和“所以我遲到了”組合而成的復(fù)句.

      有時,即使是由一個嘆詞構(gòu)成的疑問句或感嘆句,實際上也跟深層潛在的判斷存在關(guān)系.比如:

      (4)哦?

      (5)哼!

      第一個例子是由一個嘆詞構(gòu)成的疑問句,在特定的語境中可能跟“想不到會這樣”之類的判斷存在聯(lián)系;第二個是由一個嘆詞構(gòu)成的感嘆句,在特定的語境中可能跟“你想得美”之類的判斷存在聯(lián)系.

      2.2 小句的中樞地位

      小句在漢語的各級各類語法單位中占有主導(dǎo)地位,換句話說,居于中樞地位的是小句.[6]小句之所以能夠統(tǒng)領(lǐng)漢語的其他語法單位如詞、短語、復(fù)句、句群等而居于核心地位,是基于以下三個方面的因素:

      2.2.1 小句在各級各類語法實體中,所具備的各種語法因素最為齊全

      相對于句子語氣、語素、詞、短語、復(fù)句、句群等語法單位而言,小句所包含的語法因素種類最多.

      2.2.2 小句在各級各類語法實體中,具有中樞地位

      漢語包含多種語法實體,而只有小句和其他各種語法實體有直接聯(lián)系,處于核心地位.具體來說,人們在說話表達(dá)意圖時,小句和句子的語氣是直接聯(lián)系的;在小句的內(nèi)部構(gòu)成部件上,詞、短語和小句是直接相關(guān)的;在小句之外更大的語法單位來看,復(fù)句和句群也都是由小句構(gòu)成的.

      2.2.3 在漢語的各級各類語法實體中,其它實體均依附于小句,處于從屬地位

      由于小句具有承上啟下的重要功能,使得只有小句能約束其它的語法實體,其它語法實體都必須依附于小句.[7]具體來講:

      2.2.3.1 句子語氣 依附于小句

      準(zhǔn)確一點來講,應(yīng)該是句子語氣粘附于小句直接構(gòu)件,從而形成小句.

      比如“今天星期四”是小句直接構(gòu)件,那么只要陳述語氣粘附于這個構(gòu)件,就會形成陳述句“今天星期四”.倘若是疑問語氣粘附于這個構(gòu)件,就會形成疑問句“今天星期四?”

      2.2.3.2 復(fù)句和句群 依賴于小句

      復(fù)句是由分句和分句聯(lián)結(jié)而成,而分句也可以看做是一種特殊的小句,可以說沒有小句,也就沒有復(fù)句.

      句群是由兩個或兩個以上的句子構(gòu)成.構(gòu)成“句群”的成分“句”既可以是單句成分的小句,也可以是由以小句為基礎(chǔ)的分句聯(lián)結(jié)而成的復(fù)句.

      (6)今天下午老師有事,下午的課取消了.

      (7)學(xué)校里走不開?不認(rèn)識到這里的路?車胎漏氣了?路上出了麻煩?

      這兩例中,前一例是個因果復(fù)句,這個復(fù)句由兩個分句“今天下午老師有事”和“下午的課取消了”聯(lián)結(jié)而成.后一例是個句群,這個句群由四個小句“學(xué)校里走不開?”“不認(rèn)識到這里的路?”“車胎漏氣了?”“路上出了麻煩?”組成.

      總而言之,復(fù)句和句群離不開小句.

      2.2.3.3 詞 受控于小句

      漢語語法系統(tǒng)中的詞獨立存在于小句之外,但是卻是受控于小句的.詞,只有跟小句發(fā)生聯(lián)系之后,才能明確顯示其語法特性和語法職能,才能發(fā)揮特定的語法作用.

      比如:

      (8)這是一個標(biāo)志,標(biāo)志著人類正在走向互相了解,走向互相尊重.(邊霞遐《化劍為犁》)

      這一例中,第一個“標(biāo)志”出現(xiàn)在賓語部分里,受“一個”的修飾,這一語法環(huán)境把它規(guī)約為名詞;第二個“標(biāo)志”出現(xiàn)在謂語部分里,帶了動態(tài)助詞“著”,而且后面出現(xiàn)了賓語“人類正在走向互相了解,走向互相尊重”,這一語法環(huán)境把第二個“標(biāo)志”規(guī)約為動詞.“入句顯類”,這是詞性句規(guī)約的重要表現(xiàn).

      2.2.3.4 短語 從屬于小句.

      絕大多數(shù)的短語,不像詞那樣獨立存在于句子之外.從總體上看,在漢語語法系統(tǒng)中,短語實際上從屬于小句,為小句所管控.這可以從三個方面來觀察.

      ①短語的具體組合,為造句的具體需要所決定.

      絕大多數(shù)的短語,都是自由短語.它們具有組合的臨時性和可變性.也就是說,短語究竟由哪個結(jié)構(gòu)成分跟哪個結(jié)構(gòu)成分組合而成,完全取決于小句表述意旨的臨時需要,非常靈活.比如:

      (9)他這幾天要跑錢.(哪有心思跟你們聊天?。?/p>

      (10)他這幾天要跑票.(哪有心思跟你們聊天?。?/p>

      (11)他這幾天要跑官.(哪有心思跟你們聊天?。?/p>

      單獨說“跑錢”“跑票”“跑官”,聽起來也許不知所云,但出現(xiàn)在“他這幾天要X”的小句中,它們的意思就比較明確了.“跑錢”,為弄到錢而奔跑;“跑票”,為弄到票而奔跑;“跑官”,為弄到官職而奔跑.

      ②短語的結(jié)構(gòu)類型是包容在小句的結(jié)構(gòu)類型之中的.

      短語所具有的的結(jié)構(gòu)類型如“動賓”“主謂”“定心”“狀心”“心補(bǔ)”等,沒有一種不在小句結(jié)構(gòu)類型的包容之中.短語的結(jié)構(gòu)類型在小句中全都可以找到.請看例子:

      (12)買五個蘋果!

      (13)今天我請毓芳同云霖看電影.

      (14)好漂亮的蝴蝶!

      (15)非常不錯!

      (16)累得在床上躺了三天三夜.

      例(12)~例(16)的例子去掉句末標(biāo)點就分別變成了相應(yīng)的動賓、主謂、定心、狀心、心補(bǔ)短語.

      ③短語的語義內(nèi)涵,為小句的結(jié)構(gòu)格局所顯示.[7]

      看兩個例子:

      (17)我們下午學(xué)習(xí)文件.

      (18)我們下午領(lǐng)學(xué)習(xí)文件.

      這兩例中,“學(xué)習(xí)文件”有不同的語義內(nèi)涵.前一例,“學(xué)習(xí)文件”被安置在謂語部分,是動賓結(jié)構(gòu),表示行為.后一例,被安置在動詞“領(lǐng)”的后面作其賓語,是定心結(jié)構(gòu),表示事物.

      3 小句本體建模

      本部分將利用UML對小句進(jìn)行本體建模.先介紹小句建模涉及到的概念以及概念與概念之間的關(guān)系.

      小句本體建模里涉及到的概念有:句子語氣、語素、詞語、短語、成分詞、非成分詞、成分短語、非成分短語、關(guān)系類短語、標(biāo)志類短語.

      小句本體建模里各概念之間涉及到的關(guān)系有:

      ①公共領(lǐng)域本體和小句本體為聚合關(guān)系,且一個公共領(lǐng)域本體可以使用多個小句本體.

      ②小句和句子語氣的關(guān)系為組合關(guān)系,一個小句必須有而且只可以有一種語氣.

      ③句子語氣和陳述語氣、疑問語氣、祈使語氣、感嘆語氣的關(guān)系為繼承關(guān)系.

      ④小句的構(gòu)件有兩個類型:詞語和短語,小句和詞語、短語的關(guān)系為聚合關(guān)系.

      ⑤一個短語由兩個或兩個以上的詞語構(gòu)成,短語和詞語的關(guān)系為聚合關(guān)系.

      ⑥一個詞語由一個或一個以上的語素構(gòu)成,詞語和語素的關(guān)系為聚合關(guān)系.

      ⑦詞語按照能否作句法成分,又可以分為成分詞和非成分詞.詞語與成分詞、非成分詞的關(guān)系為聚合關(guān)系.

      ⑧成分詞分為名詞、動詞、形容詞、副詞、數(shù)詞、量詞、代詞、擬音詞.成分詞和名詞、動詞等詞之間為繼承關(guān)系.

      ⑨非成分詞分為介詞、連詞、助詞.非成分詞和介詞、連詞、助詞之間為繼承關(guān)系.

      ⑩短語根據(jù)是否可做句子成分分為成分短語和非成分短語.短語與成分短語、非成分短語之間為聚合關(guān)系.

      ?成分短語可以從結(jié)構(gòu)的角度和功能的角度分為結(jié)構(gòu)類短語和功能類短語.成分短語和結(jié)構(gòu)類短語、功能類短語之間的關(guān)系為聚合關(guān)系.

      ?結(jié)構(gòu)類短語根據(jù)結(jié)構(gòu)成分之間的語義關(guān)系是否清晰可分為結(jié)構(gòu)關(guān)系類短語和結(jié)構(gòu)標(biāo)志類短語.結(jié)構(gòu)類短語與結(jié)構(gòu)關(guān)系類短語、結(jié)構(gòu)標(biāo)志類短語之間為聚合關(guān)系.

      ?結(jié)構(gòu)關(guān)系類短語又可根據(jù)組成成分之間是否平等分為成分配對式短語和依次排列式短語.結(jié)構(gòu)關(guān)系類短語與成分配對式短語、依次排列式短語之間為聚合關(guān)系.

      ?成分配對式短語的類型有:主謂短語、動賓短語、定心短語、狀心短語、心補(bǔ)短語.成分配對式短語與主謂短語等短語之間為繼承關(guān)系.

      ?依次排列式短語可分為聯(lián)合短語和同位短語.依次排列式短語與聯(lián)合短語和同位短語之間為繼承關(guān)系.

      ?結(jié)構(gòu)標(biāo)志類短語根據(jù)語表上的標(biāo)志可分為:能愿短語、“的”字短語、介詞短語、方位短語、趨向短語、比況短語、數(shù)量短語.結(jié)構(gòu)標(biāo)志類短語和它們之間的關(guān)系為繼承關(guān)系.

      ?功能類短語包括名詞性短語、動詞性短語和形容詞性短語.功能類短語和它們之間的關(guān)系為繼承關(guān)系.

      根據(jù)以上小句的概念以及各概念之間的關(guān)系,可以構(gòu)建圖1所示的小句本體模型圖.

      圖1 小句本體模型

      結(jié) 語

      本文首先介紹了中文信息處理的研究現(xiàn)狀、本體的概念以及為什么選用UML來描述小句的本體模型;其次,本文較為詳細(xì)地介紹了漢語里小句的概念和內(nèi)涵以及小句為什么在漢語的各級各類語法實體里處于中樞地位?最后,本文對小句里包含的各種概念以及概念之間的關(guān)系進(jìn)行了分析,并利用UML對小句進(jìn)行了靜態(tài)的建模.本模型為中文信息處理領(lǐng)域的句處理打下了基礎(chǔ).今后有關(guān)漢語里句子語義的自動理解,小句、復(fù)句乃至句群等方面的研究都可以利用本文所建立的小句本體模型.

      下一步,我們將對小句本體模型圖中各個類的數(shù)據(jù)成員和方法逐一進(jìn)行實現(xiàn)、對小句構(gòu)件內(nèi)部各成員之間隱含的語義、語法關(guān)系進(jìn)行充分地挖掘并將其形式化,這些嘗試將對中文信息處理中的句處理起到推進(jìn)作用.

      猜你喜歡
      小句復(fù)句本體
      Abstracts and Key Words
      連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
      漢語復(fù)句學(xué)說的源流
      韓國語復(fù)句結(jié)構(gòu)的二分說
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      短語
      主述位理論視角下的英漢小句翻譯研究
      話劇《雷雨》的語氣研究
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
      应城市| 潮州市| 吐鲁番市| 拜城县| 富宁县| 扎赉特旗| 边坝县| 吉木乃县| 普兰县| 文安县| 龙南县| 延边| 柳河县| 昭通市| 永川市| 塘沽区| 牙克石市| 渭南市| 鄱阳县| 银川市| 宝兴县| 含山县| 永昌县| 凤城市| 沧州市| 长治市| 治县。| 万州区| 都安| 湖北省| 含山县| 吉安市| 织金县| 哈巴河县| 义乌市| 民勤县| 中阳县| 安义县| 龙里县| 满洲里市| 灵台县|