• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中醫(yī)文獻語料庫建設與頂層設計芻議*

      2018-02-13 16:09:35聞永毅王治梅
      西部中醫(yī)藥 2018年7期
      關(guān)鍵詞:語匯專業(yè)術(shù)語分詞

      聞永毅,王治梅

      陜西中醫(yī)藥大學外語學院,陜西 咸陽 712046

      關(guān)于中醫(yī)文獻語料庫建設的討論已經(jīng)持續(xù)了近20年,研究內(nèi)容既涉及到語料庫的建設目的、標注方法、雙語庫建設等共性問題,也涉及到中醫(yī)文本處理、詞性標注、檢索方式等具體問題[1-3]。然而,這些局部性、個案性研究尚未綜合成為一個完整的中醫(yī)文獻語料庫系統(tǒng),導致庫文件標注、自動處理工具、數(shù)據(jù)分析、信息抽取等子系統(tǒng)互不兼容、難以發(fā)揮應有的作用。本文從頂層設計的視角,分析中醫(yī)古典文獻語料庫建設過程中必然遇到的幾個基礎性問題,指出解決這些問題可能涉及到的相關(guān)要素。然后以此為線索,討論這些要素跟語料庫子系統(tǒng)之間的關(guān)系,說明中醫(yī)語料庫建設過程中了解全局、整體布局的重要性,并提出一些特定問題的解決方案。

      1 中醫(yī)文本的基本特征與自動處理系統(tǒng)的協(xié)調(diào)問題

      1.1文獻的版本問題中醫(yī)古漢語文件跟其他漢語文件比較,最為突出的特征之一就是同一著作多種版本,而且版本不同,內(nèi)容差異較大。據(jù)報道[4],《黃帝內(nèi)經(jīng)》及其注解的各種版本有幾十種,《神農(nóng)本草經(jīng)》也因版本不同而收錄條目、或編排順序會有所差異。版本選擇跟語料庫建設的目的直接相關(guān),以版本考訂、字形變遷為目的的文獻語料庫只能選擇古籍版本。初始庫文件的版本不同,統(tǒng)計出來的基本數(shù)據(jù)如字數(shù)、段落、章節(jié)等必然因之而不同。

      對于重視語義研究的語料庫建設項目來說,深加工庫文件是一個必備環(huán)節(jié)。深加工的庫文件只能存儲為純文本格式,而且使用簡化漢字是我國的基本國策。此種條件下,語料庫的初始文件應該首選權(quán)威機構(gòu)出版的簡體漢字版本,并且所選版本應該盡量跟某種古籍的文本內(nèi)容一致。同時,是否刪除簡體字版本中添加的注解類文字又是一個需要綜合考慮的問題。更改初始文件有違語料庫建設的客觀性準則,但是卻能夠保持中醫(yī)文獻資料的原始風貌,避免現(xiàn)代漢語對古漢語文件的沾染。

      1.2同義詞、異體字問題異體字、通假字、錯訛字、繁體簡體字混用等現(xiàn)象是中醫(yī)文本的另外一個顯著特征。從語義關(guān)系方面看,特定字詞的對應異形符號是嚴格意義上的同義詞,如“臟腑、藏腑、藏府”。再者“潤澤、澤潤”“淺深、深淺”“十二經(jīng)、十二經(jīng)脈”等詞也應該是嚴格的同義詞。就同義關(guān)系而言“皮膚、肌膚、尺膚、膚”或許也可認定為同義關(guān)系。

      根據(jù)粗略調(diào)查,中醫(yī)經(jīng)典五部里“瘈疭”使用了7次,對應的異體詞“瘛疭”出現(xiàn)了8次,“瘛”單獨使用了16次,“瘈”使用了1次,這些詞形是否為同義關(guān)系暫且不論。語料庫建設中這種異體字詞雖然不影響語料庫的文字處理過程,但是,當面臨語料庫檢索或者信息抽取任務時,如果語料庫建設初期沒有考慮同義詞的處理方案,提取“瘈疭”信息時,就只能檢索到7次,而不是15次。如果這幾個形符是同義關(guān)系,那么信息統(tǒng)計量應該是32次,而非7次??梢娡x關(guān)系對語料庫的檢索效度以及對信息分析有重要影響。

      1.3生僻字問題醫(yī)古漢語文獻的另一個突出特征是生僻字、罕見字問題。在純文本格式下,很多生僻字、罕見字無法保存,如何處理這些字詞需要在程序設計和庫文件標注方式之間進行協(xié)調(diào),確保檢索、信息抽取等環(huán)節(jié)所需的標注符號設計到位。有研究報道稱[5]可以使用特定符號替代這些生僻字,這需要語料庫管理系統(tǒng)的內(nèi)外鏈接、檢索方式調(diào)整等復雜問題。

      1.4標點符號問題據(jù)邢玉瑞[3]研究稱《漢語大詞典》中雖然收錄了少量中醫(yī)學方面的詞匯,但是由于缺乏中醫(yī)學知識,存在錯誤的釋義。中醫(yī)學研究的重點是語義概念、醫(yī)理治則等方面,不太關(guān)注文本形式,特別是文本的段落標記、標點符號等問題,其中有一些問題已然成為中醫(yī)文本的一種特色,例如中藥方中,多個組成成分之間沒有標點符號,而且已經(jīng)成為中醫(yī)方劑資料的一種獨特篇章規(guī)范,如:

      “夫大病之主,有中風,傷寒,寒熱,溫瘧,中惡,霍亂,大腹水腫,腸澼,下痢,大小便不通,賁豚,上氣,咳逆,嘔吐,黃疸,消渴,留飲,癖食,堅積,癥瘕,驚邪,癲癇,鬼疰,喉痹,齒痛,耳聾,目盲,金創(chuàng),踒折,癰腫,惡瘡,痔,瘺,癭瘤,男子五勞七傷,虛乏羸瘦,女子帶下,崩中,血閉,陰蝕。”(《神農(nóng)本草經(jīng)·卷第一》)該句是一個典型的存現(xiàn)句,“有”之后的列舉項目雖然很多,但均是并列關(guān)系,標點符號應該使用頓號,而非逗號或者其他。在中醫(yī)學看來,這種標點瑕疵不是問題,但是對于計算機自動句法分析系統(tǒng)而言,標點符號卻是極其重要的參照點,用來區(qū)別句子、短語、并列關(guān)系等復雜句法語義關(guān)系。中醫(yī)文獻中的標點符號問題五花八門,如標點缺失、標點誤用、漢英標點混用等,如何處理文本中非規(guī)范性標點符號,需要在語料庫文件錄入之前,綜合語料庫的建設目的,預先設計出恰當?shù)慕鉀Q方案。

      2 中醫(yī)專業(yè)術(shù)語的分詞與標注方法問題

      漢語語言研究中關(guān)于詞與短語的界定標準及其語法地位問題一直存在爭議,素有字本位、詞本位、甚至短語本位之爭,為了解決這一問題,《暫擬漢語教學語法系統(tǒng)》[6]提出了“分詞單位”概念,即“漢語信息處理使用的具有確定語義或語法功能的基本單位”,可回避相關(guān)的爭論。但就中醫(yī)文本的專業(yè)術(shù)語界定,由于年代久遠,漢字表達的概念古今差異巨大,在今人眼中,古漢語的多字組合體是詞還是短語,已經(jīng)不易判斷。認定一個字符串是詞還是短語,只能依賴理解者的古漢語素養(yǎng),這使中醫(yī)術(shù)語的分詞工作帶上了強烈的主觀性色彩。

      中醫(yī)文件的分詞工作只能分階段實施。首先解決中醫(yī)學的專業(yè)術(shù)語問題,需要中醫(yī)學專家的支持。中醫(yī)學高度關(guān)注的是概念問題,將很多短語認定為術(shù)語,同時又可能忽視介詞、連詞、副詞、語氣詞等語義較虛的詞,也可能混淆動詞和形容詞。因此,在解決了專業(yè)術(shù)語分詞問題之后,還需從語言學的角度對分詞結(jié)果進行第二次處理。總體上看,中醫(yī)專業(yè)術(shù)語分詞過程中經(jīng)常引起爭論的問題主要有以下幾種類型:

      第一,篇章名問題。有人認為,篇章名,特別是經(jīng)典著作如《黃帝內(nèi)經(jīng)》《靈樞經(jīng)》《神農(nóng)本草經(jīng)》等的篇章名稱是一個整體,跟書名一樣,不可分割;方劑名也是專業(yè)術(shù)語,不可分割。如此,《金匱要略》中的“四時加減柴胡飲子”就是一個詞,《難經(jīng)》中的“八十一難”也是一個詞。不過現(xiàn)實應用中漢英翻譯、詞典編寫等方面,把篇章名稱作為術(shù)語的標準并沒有貫徹到底,而是選擇性的[7]。再者,如果堅守篇章名為中醫(yī)專業(yè)術(shù)語的標準,自然而然又會出現(xiàn)章節(jié)名是否為專業(yè)術(shù)語的問題。

      第二,整體與局部問題。對于中醫(yī)學整體而言,有一些語匯只有在特定作品中其語義才是明確的;一旦離開特定作品或者特定篇章的大語境,其語義可能模糊不清。也就是說,語言形式相同但語義受制于具體語境。這方面,“數(shù)詞+X”模式構(gòu)造的語匯最為典型,例如:

      1)已上五失守者,天虛而人虛也,神游失守其位,即有五尸鬼干人,令人暴亡也,謂之曰尸厥。《素問·本病論》(使用頻率為5次,限于篇內(nèi))

      2)經(jīng)言七傳者死,間藏者生,何謂也?《難經(jīng)·五十三難》(4次)

      3)夫十二經(jīng)脈者,皆絡三百六十五節(jié),節(jié)有病必被經(jīng)脈,經(jīng)脈之病皆有虛實,何以合之?《素問·調(diào)經(jīng)論》

      4)凡此十二官者,不得相失也?!端貑枴れ`蘭秘典論》(指五臟六腑)

      在中醫(yī)經(jīng)典著作五部范圍內(nèi),以上語匯所指是清楚的,被一致認定為專業(yè)術(shù)語。然而,“五邪”也被認為是一個術(shù)語。據(jù)統(tǒng)計,中醫(yī)經(jīng)典著作五部中“五邪”總計出現(xiàn)了17次,是頻率較高的一個語匯,《難經(jīng)》中分布 5次,《素問》3次,《靈樞》7次,其他兩部各1次。關(guān)于“五邪”的意思,《難經(jīng)·四十九難》中定義為有中風,有傷暑,有飲食勞倦,有傷寒,有中濕,此之謂五邪?!端貑枴ば魑鍤馄方忉尀榇旱们锩},夏得冬脈,長夏得春脈,秋得夏脈,冬得長夏脈,名曰陰出之陽,病善怒不治,是謂五邪,皆同命,死不治?!鹅`樞·五邪》篇中專門討論五邪問題,但在《靈樞·刺節(jié)真邪》篇中又說:病有持癰者,有容大者,有狹小者,有熱者,有寒者,是謂五邪。由此可見,“五邪”的意思是隨語境而變化的,應該是一個短語,《本草經(jīng)》中的“黃芝味甘,平。主心腹五邪,益脾氣?!焙汀督饏T要略》“五邪中人,各有法度,風中于前,寒中于暮,濕傷于下”兩句中“五邪”的確切所指需依據(jù)語境而定。

      第三,短語規(guī)則與語匯形式問題。很多四字語被中醫(yī)學界普遍認定為術(shù)語,其中有些規(guī)則涉及漢語的基本語法問題,我們暫且不論。這里我們重點討論“之”字結(jié)構(gòu)規(guī)則,例如:

      5)心者,君主之官也,神明出焉。肺者,相傅之官,治節(jié)出焉。肝者,將軍之官,謀慮出焉。《素問·靈蘭秘典論篇》

      運用比喻修辭法把抽象復雜的理論精煉地淺化為通俗易懂的具體事物,導致語言形式凝聚成為一個難以分割的整體。類似的語匯還有很多,如“水谷之府,清凈之府,守邪之神,諸陽之會,五谷之府,中瀆之府,中精之府,傳道之府、太陽之人、五態(tài)之人”等。突破四字語結(jié)構(gòu)的擴展性語匯如“手太陰之正、手陽明之脈、足陽明之脈、手太陽之脈、手厥陰心包絡之脈、手太陰之別”等,它們是詞或是短語,一時難有定論。

      關(guān)于這些語匯是否成詞的問題,可以從不同角度加以考察。從詞典使用者角度看,“將軍之官”作為一個詞條,有助于理解“心”的理論,可以列為詞條。從信息抽取角度看,“足陽明之脈”與“足陽明胃脈”是同義關(guān)系,獲取的信息數(shù)量應該是2條,但2條信息將難以計入“足陽明”的檢索要求中,似乎應該把“足陽明”認定為詞。從計算機程序設計角度看,1條規(guī)則“X+之+Y”,加上幾種限制條件,就可抽取出眾多類似的語匯,無需列為詞條。

      3 非專業(yè)術(shù)語分詞中的困難問題和文本標注方法問題

      除專業(yè)術(shù)語之外,其他語匯是否成詞的界定標準應該按照語言學基本原則進行處理。遺憾的是由于缺乏客觀、操作性強的執(zhí)行標準,我們只能綜合考慮各種要素,采用多個標準作為分詞的依據(jù)。

      第一,語義分詞標準。指幾個構(gòu)詞要素組成的語匯,一旦拆分就會喪失其作為整體所承載的概念意義。這條語義分詞標準需要語感、語文修養(yǎng)等主觀要素的參與,會引起不同程度的爭論,給人以“是、可能、應該、勉強、不會”是詞的感覺,例如:

      1)脈瞥瞥如羹上肥者,陽氣微也?!秱摗け婷}法第一》

      2)三八,腎氣平均,筋骨勁強,故真牙生而長極?!端貑枴ど瞎盘煺嬲撈?/p>

      3)不更衣,內(nèi)實,大便難者,此名陽明也。《傷寒論》

      4)初服湯當更衣,不爾者盡飲之,若更衣者,勿服之。《傷寒論》

      以上4句都是實義詞,“羹上肥、一夫之論”是否為詞,可能存在爭議。對于“更衣、不更衣”而言,由于現(xiàn)代漢語中有“更衣”的說法,為了消除誤解,把兩者均認定為詞似乎更妥當一些。不過反對者也有充足的理由認為“不更衣”是短語。

      以下“可以、不可不、其中、之與、之于、以不”等語匯的語義較虛,可能會引發(fā)一些熱議:

      1)故經(jīng)言補者不可以為瀉,瀉者不可以為補,此之謂也?!峨y經(jīng)》

      2)瞳子高者,太陽不足,戴眼者,太陽已絕,此決死生之要,不可不察也?!端貑枴と烤藕蛘撈?/p>

      3)同陰之脈,令人腰痛,痛如小錘居其中,怫然腫;刺同陰之脈,在外踝上絕骨之端,為三痏?!端貑枴ご萄雌?/p>

      4)形精之動,猶根本之與枝葉也,仰觀其象,雖遠可知也?!端貑枴の暹\行大論篇》

      5)其下者,引而竭之;中滿者,瀉之于內(nèi)?!端貑枴り庩枒蟠笳撈?0次

      6)五藏各有聲、色、臭、味、液,可曉知以不?《難經(jīng)》

      第二,習慣用法標準。這是界定詞的另外一條重要標準,涉及使用頻率、古今概念繼承性、短語規(guī)則等幾個相互關(guān)聯(lián)的要素。例如“目瞑、汗出、腹?jié)M、腹脹、支滿、稽首、生氣”等模式構(gòu)成的詞,其使用頻率高低不等,詞的認定依據(jù)主要是現(xiàn)代漢語中是否繼續(xù)使用,或者歷時文件中是否延續(xù)使用。再如“溫服、不解、生死、死生、盛衰、衰盛、剛?cè)帷①?、拘急、不安、煩躁”等模式?gòu)成的詞也如此。個體語匯使用頻率低,但構(gòu)詞方式顯著的四字結(jié)構(gòu)如“虛者補之、堅者削之、客者除之、塞因塞用、陰平陽秘”等在語義聚類、規(guī)則約束、和諧韻律等語言深層機制的影響下,四個漢字被聚集在一起,形成了難分難舍的字組,已經(jīng)很難說是詞還是短語。這些規(guī)則在缺乏形態(tài)變化的漢語語序中發(fā)揮了獨特作用,把眾多高頻多義的漢字以語義塊的形式從線性序列中分離出來,避免了很多歧義現(xiàn)象的發(fā)生。

      中醫(yī)文本素以用詞精練夸張、誦讀朗朗上口而備受贊譽,這種文風可能跟古代傳授中醫(yī)知識、宣傳治療效果、塑造行業(yè)形象等目的有關(guān)。但在今人眼中,這些語匯就是領域內(nèi)的習慣用語,他們要么表達了一種概念、要么描寫了一種癥狀、要么刻畫了一個過程或者事件,這種情結(jié)使得詞與短語的界定工作變得更加困難。

      第三,多義字消解的成詞問題。這是從有利于自動句法分析角度提出的分詞標準,分離出來的詞多數(shù)僅用于機內(nèi)詞典。一字多義現(xiàn)象在古漢語中遠比現(xiàn)代漢語中豐富多彩,不過在限定語序或者句法結(jié)構(gòu)中,單個字的意思卻是清楚的,如下列句子中的“生、足、上、下”等字。這些字一旦脫離特定的句式結(jié)構(gòu),語義很難確定。為了消除多義字在自動語法分析時引發(fā)的困難,有必要把特定句法條件下的多義字按照詞級單位進行處理,如“心下、腹中、背俞”等,比如:

      1)寅者,正月之生陽也,主左足之少陽;未者,六月,主右足之少陽?!鹅`樞·陰陽系日月》

      2)太陰之為病,腹?jié)M而吐,食不下,自利益甚,時腹自痛。若下之,必胸下結(jié)鞕?!秱摗?/p>

      4 問題的解決方案

      根據(jù)中醫(yī)古漢語文獻的中醫(yī)學特征,建設中醫(yī)文獻語料庫的目的有別于其他類型,要求語料庫不僅能夠服務于語言研究,還能夠服務于中醫(yī)學的字詞語義考證、術(shù)語標準化、信息抽取、中外語言翻譯等研究任務。為了實現(xiàn)建庫目的,必須充分考慮庫文件分詞、語法標注、自動處理工具設計、信息抽取方式等環(huán)節(jié)的協(xié)調(diào)與兼容問題,確保各個環(huán)節(jié)所需的標注符號完整統(tǒng)一、層次分明。文中重點討論了中醫(yī)文獻語料庫建設中常見的幾種困難問題,特別是分詞問題。從現(xiàn)有漢語語法研究的實際情況看,詞的認定標準短期內(nèi)恐怕難有實質(zhì)性突破。但是,高質(zhì)量漢語語料庫建設離不開分詞環(huán)節(jié),離不開自動處理和自動分析工具。對于自動語言處理系統(tǒng)而言,詞就如同全局變量,是一個覆蓋整個運算過程的值;短語則是局部變量,其作用域被嚴格限定在特定的函數(shù)內(nèi)部,兩者截然不同。如何才能既滿足計算機程序設計的嚴格要求,又能夠兼顧主觀性濃烈的中醫(yī)術(shù)語分詞、乃至現(xiàn)代漢語分詞的結(jié)果,是一個緊迫又現(xiàn)實的難題。

      根據(jù)以往研究經(jīng)驗,要解決漢語分詞難題,最佳方案是句法理論層面上實現(xiàn)詞性與句法功能的對應關(guān)系;其次是在庫文件標注技術(shù)方面尋找突破口,把庫文件加工成為一個多層次的數(shù)據(jù)結(jié)構(gòu)(不是簡單的一個詞對應多個標注符號)。具體地說,就是突破詞性標注這個單一參數(shù),增加語法標注的層次參數(shù),在低層面實現(xiàn)語義類型和語法類型相互銜接,以短語規(guī)則約束語義類型;在較高層面實現(xiàn)句法功能與短語規(guī)則的統(tǒng)一,用句法功能約束短語規(guī)則,最終達到句法分析、短語分析、雙語短語及對齊等語料庫建設目標。

      猜你喜歡
      語匯專業(yè)術(shù)語分詞
      感恩
      當代作家(2023年3期)2023-04-23 16:38:12
      福安土白語匯的語言年代學考察
      看懂體檢報告,提前發(fā)現(xiàn)疾病
      健康人生(2019年4期)2019-10-25 08:43:42
      結(jié)巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      用歌劇語匯展示戲劇力量——解讀懸疑歌劇《馬克若普洛斯檔案》
      歌劇(2017年12期)2018-01-23 03:13:13
      《荊楚歲時記》飲食類語匯探析
      超聲及影像學常用專業(yè)術(shù)語中英文對照
      美國航空中英文官網(wǎng)隱私政策翻譯對比分析
      值得重視的分詞的特殊用法
      高考分詞作狀語考點歸納與疑難解析
      红安县| 托克托县| 远安县| 察哈| 辽宁省| 五原县| 河源市| 江达县| 岳池县| 北川| 湖南省| 曲阜市| 济阳县| 咸宁市| 临桂县| 新晃| 三河市| 治多县| 西安市| 繁峙县| 云梦县| 长治市| 治县。| 武定县| 华安县| 平阴县| 郯城县| 灵璧县| 镇康县| 惠来县| 伊金霍洛旗| 鄂温| 汝州市| 启东市| 郓城县| 水富县| 九江市| 班玛县| 万盛区| 广灵县| 齐齐哈尔市|