華危持 張錚
(常州衛(wèi)生高等職業(yè)技術學校江蘇常州213002)
關于關鍵詞的提取與使用
華危持 張錚
(常州衛(wèi)生高等職業(yè)技術學校江蘇常州213002)
高職院校學生信息素質的培養(yǎng)包括關鍵詞的提取和使用。關鍵詞的提取技術包括理解文檔的核心思想,明確關鍵詞的概念內涵,掌握關鍵詞的基本特征,分辨關鍵詞與其他詞之間的上下左右關系等。在此基礎上,通過觀察思考,熟悉方法和規(guī)范應用,堅持關鍵詞標引使用的原則,按照步驟進行聚焦、排序、定量和鑒審操作。
高職;關鍵詞;提??;使用;信息素質
一項簡單的實驗發(fā)現:50名學生5分鐘內閱讀一篇500字不到的短文,每位從中提取5個關鍵詞,結果全班學生答案各不相同。原因如下:一是不懂關鍵詞概念;二是不知關鍵詞提取法;三是不做關鍵詞分析;四是不求關鍵詞質量;五是不會關鍵詞表達。上述情況表明,必須高度重視學生的關鍵詞提取與使用能力的培養(yǎng),以適應信息社會的交際需要。
用非關鍵詞盡管提取的詞來自文檔,但它與文檔的主題內容一般相關而非密切相關,甚至不相關,不能算作關鍵詞。非關鍵詞不是文檔主題內容表達不可或缺的詞,它與文檔主題內容之間的離散度較大,是一般用詞或邊緣用詞,不屬關鍵詞。
用雙詞詞組關鍵詞是代表一個明確概念的最小單元的名詞。關鍵詞可以是單字詞,也可以是多字詞,如血、血管、高血壓等。兩個以上概念的詞序列稱為關鍵詞串,而非關鍵單詞。如“高血壓心臟病”、“肺心病心力衰竭”等,它們是關鍵詞串,而非關鍵單詞。寧可將它們分解成兩個關鍵單詞,如“高血壓”和“心臟病”、“肺心病”和“心力衰竭”,則能夠表達主題概念,使得提取關鍵詞更加準確,使用更加方便。
用新鮮詞語多半學生認為興趣詞(自己感興趣的詞)或新鮮詞(較新出現的詞)是關鍵詞。但興趣詞和新鮮詞大部分是語義概念尚未成熟、大眾認識尚未健全、社會使用尚未穩(wěn)定的詞,不能簡單地將它們提取為關鍵詞。如“超女”、“裸官”等。興趣詞和新鮮詞可能在成為年度新詞幾年后逐步成熟、健全、穩(wěn)定,認可為“關鍵詞”。
用縮略語中文或英文的縮略語一般是指為便利使用,由較長的語詞縮短省略而成的語詞。如政協(xié)(“中國人民政治協(xié)商會議”和“地方各級政治協(xié)商會議”的縮略語)、彩電(“彩色電視機”的縮略語)、WTO(WorldTradeOrganization世界貿易組織的縮略語)。一般提取名詞全稱做關鍵詞,而不用縮略語。應將中英文縮略語寫成全稱,才能作為關鍵詞。
用半禁用或全禁用詞無特殊檢索意義,不能表征文檔所屬專業(yè)學科概念的詞不能獨立作關鍵詞使用,這類詞稱為半禁用詞。最常見的有:概念、規(guī)律、理論、報告、試驗、學習、研究、方法、分析、問題、途徑、特點、目的、發(fā)展、現象等。無實質意義的詞不能作關鍵詞,這類詞稱為全禁用詞,它們有冠詞、虛詞、介詞、連詞、代詞、副詞、形容詞、感嘆詞、某些動詞(連系動詞、情感動詞、助動詞)。關鍵詞一般是實意名詞和部分特征動詞。
關鍵詞是能夠反映或代表一篇文檔(文章、論文、文件、報告等)主要內容的一組詞語或短語。關鍵詞與文檔所在的專業(yè)學科領域密切相關,多個關鍵詞的組合(關鍵詞表)能夠標識一類文檔的核心概念,并呈現出特定專業(yè)學科的認知范疇和研究發(fā)展的關注傾向。關鍵詞具有以下社會價值。
信息資源關鍵詞是信息社會文化科技發(fā)展的寶貴資源,是人類文明的思想結晶。關鍵詞的形成、延伸(衍生)和拓展,證明關鍵詞是循環(huán)資源,它的演變既記錄過去與現在,又預示將來發(fā)展。關鍵詞能夠幫助人們溝通與交流、生存與發(fā)展,因而需要探究與發(fā)掘、開發(fā)與利用。
分類聚合關鍵詞簡短精練,具有限定語義(概念),人們可依據關鍵詞的限定概念將文檔進行分類,或根據關鍵詞的特征傾向(向量)將文檔進行聚類。分類和聚類的本質相同,但切入的方向不同。由于上位關鍵詞可涵蓋下位關鍵詞,下位關鍵詞可歸屬上位關鍵詞,因而分類是從上向下分,聚類是由下向上歸。
知識管理現實世界,信息萬變,唯有經過提煉整理并按照邏輯關系排列組合的結構化信息,才能成為實用知識。關鍵詞能夠方便數據管理,如文檔分類、知識歸類、網頁瀏覽、文獻檢索、專利查新、信息記錄等。
共享使用關鍵詞的共享使用,使得多民族、跨文化之間的信息交流,計算機科學技術領域中的人機對話,現實與虛擬世界的溝通(網購、導游、娛樂),現代職業(yè)教育內容的傳授等,變得十分方便快捷。由于約定俗成、反復多用和簡明扼要的原因,公認的、成熟的、穩(wěn)定的和新生的關鍵詞不斷涌現,它們促進信息社會的形成。
關鍵詞是客觀世界存在的反映世界上的事物是客觀存在的,凡存在的都是可認知的,凡被認知的事物都需要給予名稱,否則無法記錄和交流。因此,世界上的名詞最多,每天層出不窮。有新的認知就要給予新的名稱。盡管世界各地、各民族語言給予的名稱不同,但客觀事物本身是真實存在的,它包括物質的和精神的、具體的和抽象的、現實的和虛擬的存在。它們都需要有確定概念的名稱,關鍵詞能夠反映客觀世界的存在,因此,關鍵詞就是客觀世界存在的一種反映。
關鍵詞是詞匯鏈上的節(jié)點客觀世界的存在不是孤立分割的,而是互相關聯和依存的。關鍵詞和自由詞不同,關鍵詞是人類社會關注的焦點,如果將這些焦點放到整個世界的信息鏈中觀察,關鍵詞就是詞匯鏈上的節(jié)點。抓住關鍵詞節(jié)點,可將整個專業(yè)學科領域的一批信息鏈歸納串聯起來,從而方便深入和拓展研究。這樣的節(jié)點的組合就是關鍵詞表。關鍵詞表是一組密切相關的關鍵詞的有序排列和組合,其中,每個關鍵詞可作為研究的關注焦點,通過它再深化或拓展到其他節(jié)點,開展相關性研究。
關鍵詞隨認識的深化而不斷演變關鍵詞同樣有生長、成熟、發(fā)展、更新、淘汰的生命周期,依人類認識世界的深化而發(fā)展變化。原先的關鍵詞所代表的概念不完全、不準確、不恰當的,經過實踐檢驗可以優(yōu)化、更新、淘汰,替換成新的關鍵詞。因此,關鍵詞表是每年需要調整、充實、提高的。關鍵詞表的演變過程,就是人類認識世界、與世界和諧相處的互動過程。
關鍵詞是人際溝通的有效工具現代社會的信息含量日益龐大,信息交流的形式層出不窮。由于關鍵詞總是代表著人類社會關注的焦點,因此,它可以作為人際溝通的有力工具。經濟生產、文化科技和社會管理的各個方面,均需要借助關鍵詞進行有效溝通??鐕g的文化交流,公共場所的信息化管理,均借助關鍵詞進行人機對話、教育培訓、關系轉移和過境簽證。關鍵詞的提取和使用能力已經成為現代社會國民素質的基本要素之一,也成為職業(yè)院校培養(yǎng)專業(yè)學生職業(yè)技術能力的一項重要內容。
學會提取關鍵詞,需要掌握以下技術。
理解核心思想即從閱讀理解的文獻或講話中分辨主題思想,明確作者的主旨觀點,抓住表述的核心內容。思想的表述不一定是直線的,有時是曲線的,有時是螺旋式的,有時是發(fā)散后匯聚的。務必認真閱聽完整,抓住關鍵要點內容,做第一層次即核心思想內容的提取,為關鍵詞的提取奠定基礎和限定范圍。倘若沒有閱讀明白或聽懂全篇內容,不做核心思想的分辨和提煉,隨機抽取幾個關鍵詞,就會犯偏離主題的技術錯誤。
明確關鍵詞地位關鍵詞概念前文已經表述,此處再與主題詞作一比較。關鍵詞是由作者、讀者或編者提取的能夠表達主題內容的核心單詞,主題詞是由圖書情報、語言專家根據特定標準進行規(guī)范后,提出的表達主題內容的核心單詞。關鍵詞與主題詞的區(qū)別見表1。明確關鍵詞的學術等級地位是大眾性質的,有利于廣大作者、讀者和編者提取關鍵詞。在公共和學術交流中,流行關鍵詞有其重要而深刻的技術基礎。即計算機科學和信息技術的發(fā)展使海量文獻檢索能夠在極短(數秒,數十秒)的時間內完成,而且可以精確檢索到任何單字、單詞、詞組和短語,包括關鍵詞和主題詞。由于信息技術的支持和保障,關鍵詞的使用日益普及,并向學術領域滲透。相反,主題詞的應用范圍主要局限在高層學術領域,且有應用淡化的傾向,遠不及關鍵詞流行。原因很簡單,關鍵詞可以人工提取并實現機器提?。C標關鍵詞),主題詞需要專家嚴審規(guī)范處理,所需人工和周期跟不上信息社會的發(fā)展節(jié)奏。
表1 關鍵詞與主題詞主要區(qū)別一覽表
掌握關鍵詞的特征掌握關鍵詞的基本特征有助于高效提取關鍵詞。一是詞頻特征。詞頻指文檔中某詞序列重復出現的次數。由于作者表達主題思想時,常精心選擇最能表達其思想的詞匯,因此,該詞匯在文檔中出現的頻次較高。二是詞位特征。詞位指文檔中某詞序列經常出現的位置。它們一般位于標題、摘要、目錄、副標題、小標題、緒論、總論、結論和參考文獻的位置上。三是詞性特征。中外語言均有詞性之分,如動詞、名詞、形容詞、副詞、量詞等。關鍵詞的詞性一般為名詞(>82%)。名詞的信息含量大,且名詞在語言表達中比較靈活,可以擔當主語、賓語,也可以充當定語、表語和狀語使用(如名詞性形容詞),或賦予動詞含義即英語中的動名詞。具有特征意義的動詞(<16%)也可作關鍵詞。少量動詞與名詞組成的主謂結構或動賓結構關鍵詞,能改善提取關鍵詞的質量。
分辨關鍵詞關系由于客觀事物的內在關聯,任何關鍵詞均有上下左右的關系。即關鍵詞有上位詞、下位詞、同類詞和等位詞之相互關系。上位詞指概念上外延更廣的詞,如“細菌”的上位詞是“微生物”;下位詞指概念上內涵更窄的詞,如“線粒體”是“細胞”的下位詞;同位詞指地位相同但同屬一類概念的詞,如“高血壓病”和“冠心病”是同位詞,同屬于“心血管疾病”;等同詞指事物概念相同但表達形式不同的詞,如“牛皮癬”和“銀屑病”是等同詞。能夠分辨關鍵詞的上下左右關系,區(qū)別禁用詞和半禁用詞,有助于精確提取關鍵詞。
關鍵詞的使用主要指關鍵詞的標引,它是億萬網民(讀者、作者、編者)每天進行的作業(yè)。普通讀者、作者掌握關鍵詞的正確使用,需要觀察思考,熟悉方法,規(guī)范應用。使用中應注意以下幾點。
基本原則“以實意名詞為主,關鍵單詞為宜,內涵健全為上”。實意名詞指表征文稿主題思想的術語名詞,關鍵單詞指構成最小單元的詞而非多元詞組,內涵健全指選用內涵概念較為成熟、穩(wěn)定和規(guī)范的詞而非近義詞、同義詞或等同詞。
操作步驟第一步提煉主題思想,會聚選詞范圍;第二步研讀文摘和各級標題,候選關鍵詞語;第三步依據專業(yè)名詞術語或學科主題詞表,比對詞語內涵概念;第四步確定標引文稿主題內容的關鍵詞。
逐步聚焦關鍵詞使用從候選到確定是逐步聚焦的過程。筆者開頭所述的實驗,可以引導學生進一步將各自列出的關鍵詞(每人5個)排列,作為第一次聚焦。然后,選用重合度較高的關鍵詞(第二次聚焦),再過濾禁用詞和半禁用詞,消除歧義詞語,增補漏標關鍵詞(第三次聚焦),最終達到使用較全面而正確的關鍵詞的目的。
科學排序關鍵詞排序目前國際國內尚無統(tǒng)一的規(guī)定。一般作者將表征主題思想。反映實質內容的詞語列前,意義密切相關的詞語列近,描述結果意義性質的詞語列后。但行業(yè)、學術團體或期刊編輯部可能根據文獻分類和方便檢索的要求,對關鍵詞排序進行約定,如中國科協(xié)學會學術部《關于在學術論文中規(guī)范關鍵詞選擇的決定(試行)》。讀者應注意觀察,作者應注意應用。
數量控制文稿關鍵詞一般為3-8個。關鍵詞數量過少(少于3個),不能充分表征文稿主題內容;過多(多于8個),可能偏離文稿主題內容而不利分類。
認真鑒審計算機科學和信息技術的發(fā)展使“機標關鍵詞”成為現實。所謂“機標”,就是由計算機進行關鍵詞的提取并自動化標注呈現給讀者,以解決信息量劇增,人工標注周期較長的缺點?!皺C標關鍵詞”速度快、算法多,但也因“機標”文稿對象的文體及表達形式多樣性而存在標引疏漏、標引過度、標引重復或標引偏離的問題。對于“標全率”和“標準率”較高的“機標關鍵詞”,應人工鑒審把關,提高關鍵詞使用質量。
[1]劉霖,葉旭春,姜安麗,等.護理本科生專業(yè)信息能力現狀及啟示[J].護理學報,2010,17(5):24-26.
[2]嚴春風.科技論文關鍵詞抽取技術的研究[D].蘇州:蘇州大學,2009.
[3]李楓林,何洲芳.基于關鍵詞共現分析的檢索結果聚類研究[J].情報學報,2011,30(8):819-825.
[4]劉文森.以“關鍵詞”取代“主題詞”檢索公文信息之我見[J].秘書之友,2010(10):37-39.
[5]羅準辰.關鍵詞抽取的研究與實現[D].北京:國防科學技術大學,2008.
[6]劉大乾.SCI關于關鍵詞的一般選取準則及詞義庫建設[J].中國科技期刊研究,2007,18(6):1073-1074.
[7]李星華.中英文新聞網頁關鍵詞抽取技術研究[D].合肥:合肥工業(yè)大學,2009.
[8]陳文君.跨語言醫(yī)學信息挖掘中關鍵詞提取方法的研究[D].南京:東南大學,2010.
G712
A
1672-5727(2012)12-0129-02
華危持(1951—),男,江蘇常州人,常州衛(wèi)生高等職業(yè)技術學校副主任醫(yī)師,副教授,研究方向為衛(wèi)生信息管理。
張錚(1973—),男,江蘇常州人,常州衛(wèi)生高等職業(yè)技術學校講師,研究方向為英語教學。