• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本數(shù)據(jù)挖掘技術(shù)對速記教學(xué)及語料庫建設(shè)的啟示——以松下幸之助演講數(shù)據(jù)分析為樣例

      2015-07-22 09:35:52丁瀟君高等教育出版社外語與國際漢語出版事業(yè)部北京0009北京青年政治學(xué)院英語系北京000北京工業(yè)大學(xué)經(jīng)管學(xué)院北京004

      閔 閱,老 青,丁瀟君(.高等教育出版社外語與國際漢語出版事業(yè)部,北京0009;.北京青年政治學(xué)院 英語系,北京000;.北京工業(yè)大學(xué)經(jīng)管學(xué)院,北京004)

      文本數(shù)據(jù)挖掘技術(shù)對速記教學(xué)及語料庫建設(shè)的啟示——以松下幸之助演講數(shù)據(jù)分析為樣例

      閔閱1,老青2,丁瀟君3
      (1.高等教育出版社外語與國際漢語出版事業(yè)部,北京100029;2.北京青年政治學(xué)院 英語系,北京100102;3.北京工業(yè)大學(xué)經(jīng)管學(xué)院,北京100124)

      摘要:基于文本數(shù)據(jù)挖掘技術(shù),探討在速記教學(xué)設(shè)計(jì)中如何培養(yǎng)職業(yè)速記人員利用文本數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)潛在的、有用的知識(shí),以更加有效地開展速記前的信息儲(chǔ)備工作。速記筆記符號識(shí)別語料庫能夠解決速記中筆記產(chǎn)出的受阻情況,提升速記筆記記錄源信息的質(zhì)量。

      關(guān)鍵詞:文本數(shù)據(jù);挖掘技術(shù);速記教學(xué);語料庫建設(shè)

      文本數(shù)據(jù)并非數(shù)字型態(tài)的數(shù)據(jù)。以往對這類數(shù)據(jù)的比較常見的分析方法,是通過截取、引用原文的一部分,再添附分析者的說明、研究等。與之相比,被稱為文本數(shù)據(jù)挖掘的計(jì)量分析方法則提出對文本數(shù)據(jù)加以某種數(shù)字化操作,從而進(jìn)行計(jì)量分析。

      對文本進(jìn)行計(jì)量分析的目的主要有兩點(diǎn):提高客觀性和數(shù)據(jù)搜索性。例如,一個(gè)人以肉眼閱讀演講和發(fā)言內(nèi)容后,能夠?qū)ρ葜v或發(fā)言內(nèi)容有一個(gè)大概的印象。但是,怎樣才能將這些印象客觀地展示給第三方呢?當(dāng)文本數(shù)據(jù)數(shù)量龐大,多至無法全部閱讀的時(shí)候又該如何呢?若想如根據(jù)年代、受眾等特征來搜索演講內(nèi)容發(fā)生了什么變化,又該如何呢?這就需要利用文本數(shù)據(jù)挖掘的計(jì)量分析優(yōu)勢,來解決這些問題。

      在實(shí)際運(yùn)用中,文本數(shù)據(jù)挖掘有三大要素:第一是提取數(shù)據(jù);第二是數(shù)據(jù)分析;第三是分析結(jié)果的可視化。也就是說文本數(shù)據(jù)挖掘必須考慮:怎樣減少誤差,正確有效地收集必要的信息;該用什么樣的方法對這些信息進(jìn)行科學(xué)分析;如何以一目了然的形式來說明體現(xiàn)分析結(jié)果。我們可創(chuàng)建數(shù)據(jù)庫、對數(shù)據(jù)進(jìn)行處理分析,并對其結(jié)果進(jìn)行研究,具體流程見圖1。

      圖1 文本數(shù)據(jù)挖掘技術(shù)應(yīng)用研究流程[1]

      一、文本數(shù)據(jù)挖掘技術(shù)應(yīng)用的示范

      我們從日本PHP研究所 (松下幸之助于1946年所創(chuàng)立的研究所及出版社)收錄整理的松下幸之助講演集,包括1940年至1987年之間松下幸之助發(fā)言記錄的文字?jǐn)?shù)據(jù)中,特別選定了以面向松下電器集團(tuán)外部經(jīng)營者為主的對外演講(第1卷~第5卷)(以下簡稱“對外演講”)和面向松下電器集團(tuán)內(nèi)部員工的對內(nèi)講話(第22卷至第24卷)兩個(gè)部分[2]。

      我們將松下幸之助共計(jì)百余次演講、發(fā)言的內(nèi)容收入數(shù)據(jù)庫,之后用文本數(shù)據(jù)挖掘的分析工具在數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建關(guān)鍵詞庫,從整體數(shù)據(jù)和特定關(guān)鍵詞兩個(gè)角度進(jìn)行分析。最后,全面評測分析結(jié)果,進(jìn)行深層解析并討論,從而對松下幸之助的經(jīng)營思想全貌進(jìn)行科學(xué)客觀的理解分析,探索其經(jīng)營思想的特征以及其在不同時(shí)期的變化。

      (一)語素分析與高頻詞

      文本數(shù)據(jù)挖掘法,將文本數(shù)據(jù)進(jìn)行數(shù)字化分析研究,它并沒有具體特定的分析方法與流程。文本數(shù)據(jù)挖掘有多種形式,有的是從文本數(shù)據(jù)中提取高頻詞,匯總敘述統(tǒng)計(jì)量;有的是將觀測數(shù)據(jù)分組;有的是調(diào)研一組句子中兩個(gè)特定詞同時(shí)使用的傾向,等等。這些研究方法均以語素分析為基礎(chǔ)。語素是語言中最小的語音結(jié)合體。語素分析是把一個(gè)個(gè)句子進(jìn)行語素分離,分析出這句話用了哪些詞匯,正確地說是分析每一句話由哪些語素構(gòu)成,從而獲得基本統(tǒng)計(jì)量。

      例如,我們對松下幸之助的所有演講和發(fā)言都進(jìn)行語素分析和糾錯(cuò)處理(排除沒有分析必要的語言和使用頻率較低的詞),在此基礎(chǔ)上,提取排名靠前的高頻詞,統(tǒng)計(jì)使用該詞條的演講、發(fā)言的次數(shù)以及該詞條總共出現(xiàn)的次數(shù),并將對外演講和對內(nèi)講話進(jìn)行對比驗(yàn)證。

      總結(jié)起來,對外演講和對內(nèi)講話的共通點(diǎn)表現(xiàn)在:首先,確認(rèn)了詞條的“出現(xiàn)次數(shù)”(詞條在所有文本數(shù)據(jù)中共出現(xiàn)多少次)和“出現(xiàn)演講場次”(該詞條在多少場演講中被使用過)之間的關(guān)聯(lián)性。也就是說,“出現(xiàn)演講場次”較多的詞,其“出現(xiàn)次數(shù)”也較多。其次,高頻詞涵蓋了經(jīng)營、政治、地域、銷售、勞動(dòng)雇用等多元化領(lǐng)域,同時(shí)還發(fā)現(xiàn)松下幸之助的特征性語言出現(xiàn)頻率并不高。另一方面,與對外演講較為宏觀的視角相比,對內(nèi)講話則更多是從職員、工人、個(gè)人等比較微觀的視角出發(fā)。這便是他講話的一個(gè)基本特征。

      此外,將關(guān)聯(lián)程度較高的關(guān)鍵詞貫穿成線形成關(guān)聯(lián)網(wǎng)絡(luò),不僅能看出詞條與詞條之間的關(guān)系,還能了解詞條與時(shí)代之間的關(guān)系。也就是說,可以研究被提取的關(guān)鍵詞在不同時(shí)期受到松下幸之助本人何種程度的關(guān)注,以及不同時(shí)期和關(guān)鍵詞之間又有怎樣的聯(lián)系。

      從松下幸之助個(gè)人的角度,根據(jù)其生涯經(jīng)歷,將其40多年來的講演發(fā)言,按照三大時(shí)期(社長時(shí)期、會(huì)長時(shí)期、顧問時(shí)期)劃分并進(jìn)行分析。同時(shí)也從另外的角度——經(jīng)濟(jì)景氣與否的角度,劃分為八個(gè)經(jīng)濟(jì)波動(dòng)時(shí)期,結(jié)合經(jīng)濟(jì)的變化解析關(guān)鍵詞所發(fā)生的變化,見表1。

      表1 松下幸之助各時(shí)期演講情況統(tǒng)計(jì)一覽表[2]

      通過分析得出,不同時(shí)期的講話既存在共通的詞條,也存在不同的關(guān)鍵詞組。例如,20世紀(jì)50年代后期的社長時(shí)期,伴隨著事業(yè)的擴(kuò)展、新工廠的建設(shè)、大規(guī)模批量生產(chǎn)開始,這個(gè)時(shí)期的對外演講和對內(nèi)講話兩方面,都時(shí)常提到“工廠”和“生產(chǎn)”這類與制造業(yè)相關(guān)的關(guān)鍵詞。20世紀(jì)60年代,隨著經(jīng)濟(jì)的騰飛,受隨之而來的物價(jià)上漲的影響,“物價(jià)”一詞被多次提及。在同一時(shí)期,開始推行“顧客第一”的銷售戰(zhàn)略和積極建設(shè)服務(wù)網(wǎng)絡(luò)的新銷售制度,這一時(shí)期的發(fā)言,尤其是對內(nèi)講話中,集中出現(xiàn)了“銷售”、“銷售公司”等詞條。20世紀(jì)70年代中期開始,面對艱難而不景氣的日本,如何進(jìn)行反省,并結(jié)合眾人的智慧和力量,建設(shè)理想社會(huì)成為其主要關(guān)注點(diǎn)之一。在該時(shí)期,“不景氣”、“反省”、“智慧”等關(guān)鍵詞頻繁出現(xiàn)。從這些關(guān)聯(lián)網(wǎng)絡(luò)的分析結(jié)果來看,對外演講和對內(nèi)講話同樣都受到了時(shí)代的影響。

      (二)特定關(guān)鍵詞分析

      1.特定關(guān)鍵詞的年代變遷分析

      在他的演講中,松下幸之助的經(jīng)營哲學(xué)大多以格言的形式表現(xiàn)出來。作為經(jīng)營實(shí)踐中的指導(dǎo)思想和思考方法,“智慧集體經(jīng)營”、“適應(yīng)式經(jīng)營”、“自主責(zé)任經(jīng)營”、“共存共榮的經(jīng)營”、“人盡其才”等均是松下幸之助提出的經(jīng)營之道,我們把這些內(nèi)容相關(guān)的詞條進(jìn)行整理,詳細(xì)分析這些詞條在對外演講和對內(nèi)講話中出現(xiàn)頻率的增減情況,并研究與各種經(jīng)營理念有關(guān)的詞條,在不同的年代是如何被運(yùn)用的,其受關(guān)注時(shí)期以及相關(guān)的背景信息又是如何。

      從其演講數(shù)據(jù)分析的結(jié)果來看,“智慧集體經(jīng)營”受關(guān)注的時(shí)期主要集中在20世紀(jì)50年代中期到70年代。50年代初期,受到赴美考察的影響,松下幸之助提出打造合作經(jīng)營的經(jīng)營理念,強(qiáng)調(diào)必須集中全體員工的智慧來開展經(jīng)營活動(dòng)。而“適應(yīng)式經(jīng)營”在1965年前后最受關(guān)注。當(dāng)時(shí)“昭和40年(1965)大蕭條”出現(xiàn)了進(jìn)一步惡化的趨勢,松下幸之助在演講中提出了“水壩式經(jīng)營與適應(yīng)式經(jīng)營”理念。另外“共存共榮”最受關(guān)注的年份也是1965年,松下幸之助向各銷售代理店贈(zèng)送手寫的“共存共榮”題詞,提高代理店組織的向心力。同時(shí),“自主責(zé)任經(jīng)營”的概念在很長一段時(shí)期內(nèi)受到了松下幸之助的關(guān)注。他對于“自主責(zé)任經(jīng)營”的思考,從戰(zhàn)前較早的時(shí)期就已經(jīng)開始并在多次講話中反復(fù)強(qiáng)調(diào)。至于 “人盡其材”的概念,在戰(zhàn)前就已經(jīng)被提出,50年代初期,他去美國考察時(shí)看到了在美國“人盡其材”的實(shí)例,因此再度提出了對這一概念的重視[3]。

      2.特定關(guān)鍵詞的關(guān)聯(lián)語分析

      我們可以對特定關(guān)鍵詞的周邊概念進(jìn)行分析來確認(rèn)和特定關(guān)鍵詞相關(guān)聯(lián)的詞條有哪些。這一關(guān)聯(lián)是從文本數(shù)據(jù)來推測,一般是通過帶有附加條件的概率計(jì)算來進(jìn)行。當(dāng)輸入“出現(xiàn)〇〇特定關(guān)鍵詞”這一條件后,系統(tǒng)會(huì)自動(dòng)搜索滿足該條件的文章,同時(shí)將其中出現(xiàn)頻率特別高的詞語列成表格。之后進(jìn)一步使用列表中的高頻詞構(gòu)建關(guān)聯(lián)性網(wǎng)絡(luò),顧名思義,這是將分析得出的關(guān)聯(lián)性特別強(qiáng)的詞條用線連接起來而形成的一種關(guān)聯(lián)詞的網(wǎng)狀圖,見圖2。

      根據(jù)圖2所示,我們可以獲知如下信息:首先,與“美國”關(guān)聯(lián)最密切的詞條是“美國的民主主義”。尤其在談到經(jīng)營方面時(shí),松下幸之助多次提到美國的民主主義,認(rèn)為民主主義,就是要做到“人盡其用,物盡其材”。其次,提到生產(chǎn)性的時(shí)候,可以得知他赴美考察時(shí)參觀了眾多公司、工場,對美國的高效率生產(chǎn)非常佩服。對于勞工組織問題,他時(shí)常提到美國的工會(huì)與日本工會(huì)不同,組織結(jié)構(gòu)非常透明??偠灾?,可以認(rèn)為“美國”對松下幸之助的經(jīng)營理念產(chǎn)生了不小的影響。

      上述示范僅在對講演資料進(jìn)行文本數(shù)據(jù)定量分析,解析演講話題與關(guān)鍵詞等方面做了相關(guān)展示。作為職業(yè)速記工作者。還可進(jìn)一步從語言含義與深度、地區(qū)變化等其它角度入手開展有助于速記信息儲(chǔ)備工作的更深層次的探索。

      二、文本數(shù)據(jù)挖掘技術(shù)應(yīng)用的相關(guān)啟示

      (一)文本數(shù)據(jù)挖掘技術(shù)引入速記教學(xué)

      圖2 特定關(guān)鍵詞“美國”的關(guān)聯(lián)語分析結(jié)構(gòu)示例

      大多數(shù)情況下,速記活動(dòng)的過程始終處于傾聽狀態(tài),基本上無二次重聽的機(jī)會(huì),職業(yè)速記者在聽準(zhǔn)關(guān)鍵信息的前提下,還要在有限的時(shí)間里將聽取的信息加以分析與整理,迅速地掌握信息言內(nèi)與言外之意,之后及時(shí)地形成有效筆記并加以保存。因此,文本數(shù)據(jù)玩具玩技術(shù)視角下,速記教學(xué)設(shè)計(jì)應(yīng)以源語語言應(yīng)用能力、泛專業(yè)知識(shí)儲(chǔ)備能力為主線展開。具體可分為兩個(gè)層面:

      1.掌握源語語言知識(shí),提高源語語言應(yīng)用能力[4]

      (1)語言分析:側(cè)重言談形態(tài)與邏輯結(jié)構(gòu)的訓(xùn)練,包括基于文本數(shù)據(jù)挖掘技術(shù)的文稿結(jié)構(gòu)分析、語體風(fēng)格分析,等等;

      (2)語言知識(shí):側(cè)重積累多頻詞匯、常套句的訓(xùn)練,包括基于文本數(shù)據(jù)挖掘技術(shù)源語詞語數(shù)據(jù)庫搭建、源語模仿跟述比對,等等;

      (3)語言能力:側(cè)重聽說讀寫記能專項(xiàng)技能及綜合能力應(yīng)用訓(xùn)練,如基于文本數(shù)據(jù)挖掘技術(shù)交互轉(zhuǎn)述訓(xùn)練比對、視錄速讀訓(xùn)練比對,等等。

      2.構(gòu)建泛專業(yè)知識(shí)體系,拓寬基于英語發(fā)言者所屬文化及組織的背景知識(shí)

      (1)泛知識(shí)領(lǐng)域?qū)W習(xí)與整理歸類:一般知識(shí)吸收注重原理與實(shí)務(wù)的理解;專業(yè)知識(shí)吸收注重專業(yè)概念、術(shù)語辨析與詞語的理解。

      (2)知識(shí)與語言并行訓(xùn)練:潛在性訓(xùn)練(限時(shí)網(wǎng)絡(luò)搜索與閱讀)與顯著性訓(xùn)練(源語速讀與視讀)相結(jié)合。

      (3)速記時(shí)(非速錄要求),除了數(shù)詞、術(shù)語、專有名詞以及引用經(jīng)典、法條等之外,一般性內(nèi)容可不采取詞對詞的方式完成記錄,聽取與思考并重并行、傳訊不傳詞、意譯式速記。

      在速記中,我們常常遇到一些直接或間接地影響理解的詞語,首先包括傳達(dá)語言信息重點(diǎn)、表述實(shí)際意義的關(guān)鍵詞,如名詞、動(dòng)詞、形容詞、數(shù)詞等;其次是固定的、約定俗成的、與背景知識(shí)關(guān)系密切的困難詞,如專有名詞和專業(yè)名詞;還有承載一個(gè)國家發(fā)展歷程、社會(huì)習(xí)俗演變與傳承的文化詞,如典故、諺語、成語、俚語、詩歌、口號、影視片名等;異國語言與文化影響下創(chuàng)造出來的、多原創(chuàng)于新事物或新概念的外來詞,等等。

      上述基于文本數(shù)據(jù)挖掘技術(shù)的相關(guān)訓(xùn)練更適合于“慕課”環(huán)境或“翻轉(zhuǎn)課堂”模式的速記教學(xué)。根據(jù)受訓(xùn)人員個(gè)體情況,開展多樣化的 “微技能”培訓(xùn),可拆解的具體“微技能”包括

      頻道詞典:如分析關(guān)鍵詞、困難詞、文化詞、外來詞等在源語中的分布;

      半搭配分析:如搜索關(guān)鍵詞(某一高頻動(dòng)詞)后面的關(guān)聯(lián)與名詞分布;

      詞性排名:基于統(tǒng)計(jì)的某一類詞(如名詞)使用頻率排名;

      詞條比對:對比兩個(gè)源語的詞條超用和少用現(xiàn)象;

      詞性對比:對比兩個(gè)源語(如專有名詞、專業(yè)詞語)的用法分布。

      在速記教學(xué)設(shè)計(jì)中有意提升受訓(xùn)人員的信息化意識(shí),有序培養(yǎng)職業(yè)速記人員利用文本數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)潛在的、有用的知識(shí),使其更加有效地開展速記前的信息儲(chǔ)備工作。

      (二)基于文本數(shù)據(jù)挖掘技術(shù)構(gòu)建速記筆記符號識(shí)別語料庫

      隨著信息通訊技術(shù)與網(wǎng)絡(luò)的迅速發(fā)展,速記筆記符號與網(wǎng)絡(luò)語言及文化、普適技術(shù)(ubiquitous computing,泛在計(jì)算機(jī))產(chǎn)生密切聯(lián)系,并使速記筆記符號具有模態(tài)互轉(zhuǎn)和分享共用的特征。目前,速記模態(tài)(如語音識(shí)別、文語轉(zhuǎn)換)互轉(zhuǎn)輔助技術(shù)已成為現(xiàn)實(shí),研發(fā)基于文本數(shù)據(jù)挖掘技術(shù)的速記筆記符號識(shí)別語料庫已不再是難題。

      針對速記筆記信息速符的形式表征,基于文本數(shù)據(jù)挖掘技術(shù)的速記筆記符號識(shí)別語料庫可根據(jù)其屬性與功能可分為:詞語速符(具有實(shí)質(zhì)意義,以實(shí)體詞為主,如名詞、動(dòng)詞等)、會(huì)意速符①會(huì)意速符與詞語速符所不同的是,它脫離源語形式,即不依附于詞語的形式和讀音,并傳達(dá)偏于思維化、抽象化的信息概念。會(huì)意速符在速記者實(shí)際操作時(shí)是比較普遍的,且似乎頗具共性。(表抽象語意,以不具備實(shí)質(zhì)意義的功能詞為主)、關(guān)系速符(語法意義為主)、區(qū)別速符(顯示信息間的群組關(guān)系);下設(shè)子系統(tǒng)應(yīng)包括速記筆記符號識(shí)別設(shè)置(詞語聯(lián)想、筆勢識(shí)別)、手寫設(shè)置(筆跡顏色、筆跡粗細(xì)、筆跡類型)、顏色設(shè)置(色彩方案)、發(fā)音設(shè)置(音速、音質(zhì))、筆勢瀏覽(退格、空格、刪除、回車)等,確保速記人員可連續(xù)以行草連筆字、英文、數(shù)字、符號等方式輸入或搜尋速記筆記符號,在無須切換界面的情況下“一筆到底”,輸入內(nèi)容還可直接對PPT、WORD、EXCEL等文件進(jìn)行批注,勾畫出示意圖標(biāo)注重點(diǎn),遇到會(huì)讀不會(huì)寫的字詞,可通過書寫同音字詞速符找到[5]。應(yīng)該注意的是,在構(gòu)建基于文本數(shù)據(jù)挖掘技術(shù)的速記筆記符號識(shí)別語料庫中,其最基本的符號識(shí)別功能應(yīng)包括:

      1.在詞庫模式下,輸入詞語的首尾字母(或字母組合)后,計(jì)算機(jī)即可呈現(xiàn)出相關(guān)詞語的列表,如圖3所示:

      圖3 速記首尾字母速寫筆記符號識(shí)別結(jié)構(gòu)

      2.在詞庫模式下,計(jì)算機(jī)可按文章中選定詞語的出現(xiàn)頻率并排序,生成關(guān)鍵詞詞語的列表,如圖4所示:

      圖4 關(guān)鍵詞速記詞語識(shí)別結(jié)構(gòu)

      速記的根本目的是記錄源信息,速記的內(nèi)容是對源信息內(nèi)容和結(jié)構(gòu)的采集記錄,構(gòu)建基于文本數(shù)據(jù)挖掘技術(shù)的速記筆記符號識(shí)別語料庫的出發(fā)點(diǎn)是解決速記中筆記產(chǎn)出的受阻情況,如源語信息關(guān)鍵詞輸出密度過大、源語信息專業(yè)性、學(xué)術(shù)性、專有名詞密集并列程度過高等,有助于提升速記筆記記錄源信息的質(zhì)量,尤其在提高信息完整性(Faithfulness)、筆記詮釋性(Reformulation)和筆記可識(shí)率(Recognition)等方面取得顯著成效。

      參考文獻(xiàn):

      [1]KH Coder.文本挖掘技術(shù)軟件操作介紹[EB/OL].[2013-04-30].http://khc.sourceforge.net/.

      [2]日本PHP研究所.松下幸之助發(fā)言集[M].京都:日本PHP研究所出版社,1991.

      [3]經(jīng)營哲學(xué)學(xué)會(huì).經(jīng)營哲學(xué)的實(shí)踐[M].東京:文真堂出版社,2008.

      [4]楊承淑.口譯信息處理過程研究[M].天津:南開大學(xué)出版社,2010.

      [5]劉幺和,宋庭新.語音識(shí)別與控制技術(shù)[M].北京:科學(xué)出版社,2008.

      (責(zé)任編輯:明遠(yuǎn))

      中圖分類號:H 026.1

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號:1007-5348(2015)07-0170-05

      [收稿日期]2015-05-11

      [基金項(xiàng)目]2015年北京市高職學(xué)生培養(yǎng)——高端技術(shù)技能人才培養(yǎng)模式改革子項(xiàng)目“旅游英語專業(yè)實(shí)踐教學(xué)研究與實(shí)訓(xùn)資源建設(shè)”(PXM2015-014208-000023)

      [作者簡介]閔閱(1974-),女,北京人,高等教育出版社外語與國際漢語出版事業(yè)部副編審;研究方向:英語語言文學(xué)、國際出版。

      The Enlightment of Text Data M ining to Stenography Teaching and Its Corpus Construction:Taking the Data Analysis of Konosuke M atsushita’s Speeches as an Exam p le

      (1.Foreign Language Publications,Higher Education Press,Beijing,100029; 2.Department of English Language,Beijing Youth Politics College,Beijing 100102; 3.School of Economics and Management,Beijing University of Technology,Beijing 100124)

      Abstact:‘Text Data Mining’(TDM)is a kind of technology for analyzing a large amount of text data by dozens ofmeasures,with which people could find out patterns and laws,as well as gain useful knowledge and information.Also,we are discussing how to cultivate such ability in the design of shorthand teaching so that professional stenographers could utilize TDM to discover the underlying and valuable knowledge in order tomake a better and more effective preparation before taking shorthand.And we think that notation recognition corpus based on TDM for shorthand purpose could be helpful for notation-output and improve quality of shorthand.

      Key W ords:text data Mining;shorthand training;corpus;design

      深水埗区| 乌拉特前旗| 萝北县| 怀来县| 永兴县| 芦山县| 永寿县| 翁牛特旗| 株洲县| 合阳县| 凤城市| 祁东县| 东乌珠穆沁旗| 莒南县| 新龙县| 伊吾县| 津南区| 抚松县| 景德镇市| 平乐县| 田东县| 晴隆县| 峨眉山市| 手游| 东港市| 美姑县| 福海县| 苏州市| 台北县| 精河县| 河西区| 临清市| 巴彦县| 石景山区| 清新县| 喀什市| 灵璧县| 汨罗市| 乌兰察布市| 安岳县| 衡阳县|