馬秀麟 金海燕
【摘要】隨著網絡交互平臺在教學活動中的普及,論壇、Blog等成為教學活動中實現知識分享的重要手段。然而,論壇和Blog中帖子的無序性、同類帖子之間缺乏聯(lián)系等問題日益凸顯,成為知識進一步共享的桎梏。因此,以分詞和文本聚類的相關理論為指導,研究論壇帖子內容的內在聯(lián)系,探索在教學平臺上對帖子進行分詞并通過關鍵詞實現標注,進而把論壇中的所有帖子歸納到知識體系中,對于提高教學平臺的服務質量,實現大范圍的知識分享和建構具有重要意義。
【關鍵詞】中文分詞;知識體系;關鍵詞標注
【中圖分類號】G420 【文獻標識碼】A【論文編號】1009—8097(2009)12—0087—04
一 問題的發(fā)現
隨著教育技術的發(fā)展,教學服務平臺在教學活動中發(fā)揮著越來越重要的作用,論壇、Blog等成為學習者進行知識分享的重要平臺。教育技術的相關研究證明:學習者在論壇(或Blog)中按照自己對知識的理解撰寫帖子、參與討論,有利于學習者按照個體思維習慣對知識點及其內在聯(lián)系進行梳理,使之規(guī)范化、條理化,是一種重要的知識重構過程。在這一過程中,學習者能夠使自己的隱性知識顯性化,并通過Blog或個人網頁與其他同學分享自己對知識的理解。同學之間通過相互分享不同語言形式、不同理解風格的知識樹,有助于他們從不同的角度探討知識,深化個體對知識的理解。因此,學習者參與論壇并組織專題討論的過程本身就是一個知識建構、知識遷移和知識創(chuàng)新的過程[1]。
然而,在開展具體研究的過程中,筆者發(fā)現:隨著論壇(或Blog)中帖子數量的增加,帖子的無序性、同類帖子之間缺乏聯(lián)系的缺陷逐步暴露出來。當論壇(或Blog)中帖子的數量達到一定規(guī)模時,學習者常常難以從帖子的海洋中獲取所需的內容。這一問題導致學習者在閱讀其他同學的帖子和回帖的過程中,只能就當前的主題帖和回帖進行討論,很難獲取針對同一知識點的其他主題帖及相關回帖,使知識的分享和重構受到限制。
針對教學論壇(或Blog)中同類帖子之間缺乏聯(lián)系、不利于知識分享和社會知識建構的狀況,筆者進行了如下設想:“如果以學科教學中的知識點為鏈接結點,建構教學論壇(或Blog)中各類帖子之間的聯(lián)系,建立以知識體系為核心的導航系統(tǒng),過濾掉一些與學科教學相關性低的帖子,就能提高優(yōu)質帖子的利用率,使學習者在參與討論的過程中,能夠快速地獲取相關的帖子。通過論壇中的這種橫向鏈接關系,引導學習者在參與討論的過程中展開聯(lián)想,逐步擴大知識面,從而促進學習者從不同的層次和維度思考問題,促使學習者從多個角度實現意義建構?!?/p>
盡管Web2.0已經提出了對信息標記和管理的方法、思想,而且Tag和RSS的思路也已在某些Blog中有所體現。然而,由于其標注關鍵詞和超級鏈接管理都非常注重普適性,并不是面向學科教學的,因此在實際的教學應用中仍存在標注不夠便利、對普通學生要求較高、其關鍵詞并沒有完全面向學科教學等缺點。
為此,筆者認為:在對教學平臺論壇(或Blog)的管理過程中融入知識科學的文本聚類思想,使教學平臺能夠針對學科知識特點,選取特定的詞匯作為特征向量,探討知識點之間的聯(lián)系,自動形成基于知識點聯(lián)系的知識網絡圖,對于提高教學平臺的服務水平、促進學習者積極地進行意義建構是具有重要意義的。
二 系統(tǒng)設計的指導思想
探求解決上述問題的方法,其關鍵是解決對帖子的分析、聚類問題,即探索一種算法,解決如何依據帖子所反應的知識內容,為大量帖子建立基于知識體系的橫向關聯(lián)的問題。
1 指導思想
鑒于中文信息處理的特點,借鑒中文信息處理的最新成果,在這一任務中,首先要解決的是中文文檔的分詞問題,其次是如何使文本聚類、并使相關文檔建立鏈接關系等問題。因此,需要解決好以下子任務:
(1)選擇適當的詞匯庫作為基礎語料庫,并要求學科教師根據學科的特點組織專有名詞、專業(yè)術語豐富基礎語料庫,作為實現分詞的依據。
(2)選擇有效的分詞算法,對平臺內尚未處理的帖子進行分詞處理,并重點關注與學科關系密切的專業(yè)術語在帖子中出現的頻率和位置。
(3)分析帖子內學科專業(yè)術語的作用、頻率和權重,利用文本聚類的相關理論,計算帖子與關鍵詞之間的相關度,并把計算結果填寫到相關度表格中。
(4)利用動態(tài)網站設計的有關技術(ASP.Net或JSP),以可視化的方式呈現帖子之間的邏輯關系。
2 相關研究綜述
從當前文本聚類分析的技術發(fā)展來看,文本聚類分析已經發(fā)展成為一項具有較大實用價值的技術,其目標是在分析文本內容的基礎上,按照預先定義的文本類別,使多篇文本被自動歸類。由于英文以單詞作為語言的基本單位,每個單詞表示一個固定的語義,每兩個單詞之間都有相對固定的分隔符號。因此基于英語文本的聚類分析不需要考慮單詞的劃分問題。與英文的聚類研究不同,中文以漢字作為文字的基本單位,以詞語作為語義的基本單位,不同的漢字被組織起來形成語義不同的詞匯,而且在漢語形態(tài)的句子中詞匯之間沒有專門分隔符號。因此在中文環(huán)境下實現文本聚類分析的前提是分詞,即把一個句子分隔成為若干個詞匯,然后再通過分析、計算詞匯描述的語義,實現文本的聚類。
從分詞算法來看,現有的分詞算法有三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。比較上述三種方法,基于詞表最大匹配的分詞方法具有程序實現簡單、開發(fā)周期短的特點,盡管其分詞準確率僅有95%左右,但已基本能夠滿足本研究的要求[2]。因此,筆者決定采用這種分詞方案。
從文本聚類算法來看,常用的算法有VSM(空間向量模型)、RBF(徑向基函數方法)、參考上下文計算相關度的聚類算法(基于本體論詞典的發(fā)展而形成的)等等[3]。上述算法在文本聚類的研究中各有特色,都產生了重要影響。
由于傳統(tǒng)的VSM在舍棄了各關鍵詞匯在文檔中的順序關系之后,可以把文檔簡單地表征為由關鍵詞匯表示的向量空間中的點的集合。因此,只需通過計算兩個文檔的向量集內部點之間的距離就能確定文檔類別的歸屬。然而研究發(fā)現,以文本向量空間模型對文檔進行初步表示以后,用于表達文本內容的向量空間的維數很大,甚至可以達到幾萬維,導致分類算法的計算量太大,而且過高的維數導致無法準確地提取文檔的分類信息。因此,降維是提高分類算法效率并提高其分類準確率的重要手段。在這一思想的指導下,選擇特征項并設置特征項在分類算法中的權重是文本聚類中常見的手段。其中文檔頻率、X2統(tǒng)計(CHI)是其常用的算法,而互信息算法(MI)的理論研究也有重要的應用價值[4]。
基于上述指導思想,針對學科的特點,采取以專業(yè)術語和專有名詞為特征項的文本挖掘技術,開展知識點與論壇文本之間的相關度研究是完全可行的。
三 系統(tǒng)算法與實施
1 傳統(tǒng)論壇的數據結構
論壇中的帖子一般可分為兩大類,一類是主帖,一類是針對主帖的回帖。在傳統(tǒng)的論壇中,僅需保存帖子的內容及其與回帖之間的關系即可,因此其數據存儲結構非常簡單。論壇帖子表的存儲結構通常如表1所示。
表1 論壇帖子的存儲結構
在論壇中,所有帖子都有一個唯一的主ID號,主ID由DBMS自動生成,用于唯一地標記這個帖子。主帖的副ID號為0,用于標記這是一個主帖。而所有的回帖都直接使用被回復帖的“ID號 & 副ID號”作為自己的副ID號。由于副ID號采用不定長的特征碼表示方法,因此可利用副ID號區(qū)分當前帖子是對主帖的直接回帖,還是對回帖的回帖。
2 對傳統(tǒng)論壇數據結構的改進
為了能夠實現對論壇內容的分詞處理并記錄帖子之間的內在聯(lián)系,擬在傳統(tǒng)數據結構的基礎上,增加兩個數據表。
(1)帖子關聯(lián)度表
為了能有效地表示出各個帖子之間的知識關系,把他們組織到一個知識體系中,在上述數據結構的基礎上,首先要增加一個新數據表:帖子關聯(lián)度表。其結構如表2所示。
表2 帖子關聯(lián)度的存儲結構
帖子關聯(lián)度表的作用是記錄帖子與各個關鍵詞之間的關聯(lián)度情況。
(2)詞表
在文本分詞和聚類過程中,基礎性的工具是分詞所依據的語料庫。在本研究中,筆者設計了如表3所示的數據表,作為詞表的基本結構。
其中,詞匯ID可由系統(tǒng)自動生成,是詞匯的唯一性標記;詞匯內容項用于保存常用的詞匯、學科的專業(yè)術語和專業(yè)名詞;頻度項用于記載當前研究的文本中對應詞匯出現的頻度,默認值為0;詞匯的權重項則用于說明該詞匯在學科中的重要性程度,默認值為1,最高值為5。
另外,為了標明帖子是否已經被分詞處理或關聯(lián)度標注,在帖子表中增加一個新字段“處理狀況”。對于已經進行過關聯(lián)度標注的帖子,標記為“已處理”。
3 準備詞表
(1)構造基礎詞表。構造基礎詞表的首要任務是選擇一個應用較廣泛的語料庫內容作為基礎詞匯,并把語料庫的內容填寫到詞表(表3)的詞匯字段中。
(2)豐富詞表。要求學科教師根據學科的知識體系、教學內容構成、知識點的重要程度等要素,把學科教學中常用的術語、專有名詞、具有特定語義的描述方法,添加到詞表中。
(3)優(yōu)化調整詞表。為了保證系統(tǒng)標注的效率和專用術語的完整性,首先調整一些虛詞、助詞的權重為0;然后強化專業(yè)術語的權重級別,使專業(yè)術語能夠優(yōu)先被標注。因此可根據專業(yè)詞匯的重要性程度,分別給予2~5級的權重。最后按照“權重(升序)”+“字符串順序(降序)”對詞表排序。
通過上述處理,能保證專業(yè)術語和長字符串被優(yōu)先標注,保證了諸如“北京師范大學”之類的專有名詞不會被拆分為“北京”、“師范”、“大學”等多個詞匯。
4 文本分析與標注算法
在基于匹配的算法中,相關理論證明,逆向匹配算法的精度較高,出現二義性的概率較低,因此本研究采用了逆向匹配算法[5]。即對一個發(fā)帖的內容與詞表進行逆向匹配,并把成功匹配的結果記錄到詞表的相應詞匯的“頻度”字段中。
(1)獲取待處理數據
首先從表1所示的帖子表中獲取一條“處理狀況”為空的記錄,從中提取其字段“內容”的值,存儲到變量X中,并記下該帖子的主ID號和副ID號。
(2)逆向匹配處理
按照如圖1所示的算法,實現對文檔的逆向匹配處理。
圖1 逆向匹配處理算法的N-S圖
(3)登記匹配結果
首先按照公式“計算值=權重×頻度”對詞匯表進行計算,求取本帖內容中用到的各個詞匯的最終重要性程度,把計算結果存儲到詞表的“計算值”字段中,最后按照計算結果對詞表進行降序排列。通常需要根據帖子的長度、反應詞匯重要性程度的計算值等數據,確定哪些詞匯及其頻度值需要納入到關聯(lián)度表(表2)中。在本研究中,筆者選擇了公式“文本長度×0.01+詞條重要性程度×0.2”作為衡量詞條關聯(lián)度水平的標準。最后在帖子表(表1)中,把本帖的字段“處理狀況”標記為“已處理”。
(4)顯示分析結果
根據關聯(lián)度表格中記錄的帖子與關鍵詞條的關聯(lián)度狀況,在動態(tài)網頁中通過文本超級鏈接、圖像Map技術等建立帖子與知識點之間的鏈接關系,從而把師生在教學服務平臺中的討論情況納入到教學知識體系中,以可視化的形態(tài)提供給學習者。
四 系統(tǒng)運行與評價
1 系統(tǒng)運行說明
由于本算法的目的是對教學平臺中的討論內容進行標注并建立各個發(fā)帖與知識點之間的鏈接,從而有利于學習者在使用教學平臺學習過程中開展聯(lián)想,獲取相關知識,所以對信息反饋的實時性要求并不高。因此,為減輕教學服務平臺的負擔,并不需要實時地分析和運行本程序,只需在系統(tǒng)負荷較低時執(zhí)行本模塊,實現對未處理帖子的標注與鏈接。事實上,在實際的應用環(huán)境中,可把這一工作指定為服務器系統(tǒng)的一個任務,要求這個任務在每天0點左右自動執(zhí)行一次。
2 運行效果
為了更清晰地說明本算法的運行狀況,本文僅以高中物理教學的學生論壇為例進行簡要說明。圖2是進行關鍵字標注前的論壇的討論界面。圖3是已經進行了關鍵字標注后的論壇討論界面。
圖2 沒有進行關鍵字標注前的論壇界面
圖3 已經進行了關鍵字標注后的論壇界面
從圖2和圖3的對比可以發(fā)現,圖3的每個發(fā)帖后都生成了相應的關鍵詞。通過每個關鍵詞對應的超級鏈接,可以很快地跳轉到對應的頁面上,進行相關知識的學習或者參與對相關問題的討論。另外,為了更清晰地表示知識的層次關系,在本案例中,已經根據主帖中的關鍵詞“勻變速直線運動”把圖3所示的帖字鏈接到了如圖4所示的知識網絡圖內,以便學習者在參與討論時能夠方便地獲取其他類型的學習資源,進行相關內容的學習。
圖4 勻變速直線運動的直線網絡圖
3 算法運行狀況評價
在實際教學過程中,本算法能夠自動地把師生的討論情況納入到學科知識體系中,使原本凌亂無序的各類帖子從知識結構的角度被組織起來,從而使學習者可以更容易地獲取與自己當前關注的知識點密切相關的各類帖子和各種學習資源,對于促進學習者在個體原有知識結構的基礎上進行意義建構是非常有效的。
由于算法基于數據庫實現,因此在算法實現中可以充分地利用DBMS自身提供的各類優(yōu)化算法提高程序的執(zhí)行效率,從而有效地降低程序開發(fā)的復雜度。
本算法允許教師用戶在應用系統(tǒng)過程中不斷優(yōu)化其知識體系結構。首先,教師可以在使用系統(tǒng)過程中不斷地調整和完善詞表,在教師認為必要的情況下,允許他們清除所有帖子的處理狀況信息,從而重建所有的關聯(lián)信息。其次,由于本算法建立在分詞算法的基礎上,能夠在系統(tǒng)運行過程中不斷地收集沒有匹配成功的單字,研究單字之間是否存在聯(lián)系,進而發(fā)現針對該學科遺漏的重點詞匯,并利用它們逐步地完善詞表。
4 本研究的不足
盡管在研究本算法的過程中,筆者閱讀了大量關于分詞和文本聚類分析的文獻,但大多數文獻的算法都是基于統(tǒng)計學的,算法比較復雜,計算量很大,不能適應教學論壇中并發(fā)用戶數大、發(fā)帖量高而短小的特點。因此筆者對相關算法進行了簡化,使之符合以教學平臺開展學科教學的特點。然而,這種簡化也帶來了一系列的問題,導致算法中出現了許多需要完善的地方。與大型的文本聚類算法相比,本算法①在解決系統(tǒng)學習、補充新詞,完善詞表方面仍有不足,需要教師的人工干預;②僅僅實現了對論壇內容的關鍵詞檢索與標注,實現了帖子與帖子、帖子與知識點之間的關聯(lián),但對于大型文檔之間的關聯(lián)、分類缺乏更深入的探索;在呈現給學習者的視圖中,反應鏈接關系的表示方式也略顯粗糙。
五 總結
對教學服務平臺中學習資源的組織與管理不僅僅是信息科學的研究范疇,更需要教育科學、心理科學的指導,使學習資源內含的知識點及其邏輯關系能夠體現出知識體系結構及其層次關系,有利于學習者通過聯(lián)想、圖式、平衡等手段實現意義建構。本算法的目的在于解決教學平臺中論壇帖子的無序問題,在算法的應用實踐中,通過專業(yè)術語和專業(yè)名詞為關鍵詞標注每一個帖子,并自動把帖子掛接到系統(tǒng)的知識體系樹內,較好地實現了預期目標。本算法的實施為學習者在參與討論過程中快速地獲取其他相關信息提供了重要支持,無疑在提高學習者的學習效率,促使學習者通過聯(lián)想、同化、平衡等手段快速建構知識體系等方面都是非常有益的。
——————————
參考文獻
[1] 馬秀麟,白鳳鳳.基于知識管理的網絡學習資源的組織[J].中國教育信息化,2007,19:60-62.
[2] 賀艷艷.基于詞表結構的中文分詞算法研究[D].北京:中國地質大學,2007.
[3] 丘志宏,宮雷光.利用上下文提高文本聚類效果[J].中文信息學報,2007,(11):109-115.
[4] 李小紅,許少華.基于模糊向量和BP網絡的Web文本自動分類方法[J].福建電腦,2006,(2):94-95.
[5] 劉新,劉任任.一種基于逆向匹配算法的中文文本分類技術[J].計算機應用,2008,(4):945-947.