薄 瑋
(陜西學前師范學院,西安,710100)
基于社會計算的科普教育平臺是一個面向科普領域的開放平臺,主要由社會化科普信息搜索和科普Wiki兩大部分構成,如圖1。面向科普領域的社會化搜索旨在向用戶提供精準的科普信息檢索,具體包括用戶查詢、科普信息檢索、和社會化結果展示三部分??破誛iki模塊利用Wiki技術,允許平臺中科普領域任何人添加和修改科普領域的術語詞條,從而日積月累逐漸形成一個完整嚴密的和相對權威的專業(yè)科普領域知識庫。該模塊包含用戶管理、問題提交、學習討論、協(xié)作共創(chuàng)、頁面管理、科普知識編輯等六部分。此平臺為用戶提供了網(wǎng)上學習交流、協(xié)作共創(chuàng)和問題解決的環(huán)境,更為透明的搜索服務,允許用戶對搜索結果進行評價,通過對搜索結果進行評分能夠影響對結果的排序。
圖1 平臺功能結構圖
本文提出的社會化科普搜索引擎主要強調兩方面設計:(1)科普領域數(shù)據(jù)采集器的設計;(2)社會化檢索機制設計。
2.1.1 科普數(shù)據(jù)采集器
科普數(shù)據(jù)采集器主要完成從網(wǎng)絡中抓取科普領域信息并入庫的工作,是一種面向領域的主題爬蟲。圖2所示為采集器架構圖。其中,科普領域信息分類器是采集器的核心組件,負責主要的科普網(wǎng)頁分類工作。為提高爬取效率,本文同時添加種子域名判斷組件,用以實現(xiàn)站內頁面預判,減少分類器開銷。
2.1.2 科普領域信息分類算法
科普領域信息覆蓋度大,內容繁雜,比如天文、地理、自然、科技等類別均屬于科普信息。為處理如此粗粒度的分類問題,本文將科普領域信息進行細粒度劃分,提出多細粒度分類器融合的集成分類方法。其基本思想是:給定一待分樣本,由科普領域細粒度分類器為其打分(0或1),最后匯總得分,分值高于某一閾值則認為該樣本屬于科普領域。本文選擇支持向量機(SVM)作為細粒度分類器的分類算法,該算法是目前已知分類效果非常好的一種文本分類算法,具體實現(xiàn)上本文選用開源的LibSVM。
2.1.3 分類器準確率實驗
本文選擇百度百科作為細分科普領域信息的依據(jù)和訓練樣本數(shù)據(jù)源。本次實驗選擇其開放分類中的天文、歷史、地理、自然、科技等幾個大類作為科普細分類別,從百度百科中抽取各類別下子類的top-50的詞條用作訓練樣本,共得到10000篇科普類樣本。對于細分非科普類,本文以搜狗互聯(lián)網(wǎng)分類語料庫中的非科普類子類目錄為依據(jù),從各子類中隨機選取非科普訓練樣本,同樣得到 10000篇語料作為非科普類樣本集。兩者合計共20000篇用作實驗的開放測試數(shù)據(jù)集。
本文選擇保持(Holdout)方法對各細分分類器進行訓練,其中訓練集和檢驗集的劃分比為2:1。選擇常用的準確率、召回率和F-Measure作為科普分類器的評價指標。經(jīng)計算,本系統(tǒng)科普領域分類器的各項指標結果如下:
由此可知,本文基于多細粒度分類器融合的集成分類器具有較高的分類性能,準確率和召回率均達90%以上。
2.1.4 基于Lucene的社會化檢索機制
Lucene是一個開放源代碼的全文檢索引擎工具包,提供了完整的查詢引擎和索引引擎,具有索引文件格式獨立于應用平臺、優(yōu)秀的面向對象架構、分塊索引、語言和文件格式易于擴展等諸多優(yōu)點?;贚ucene的檢索框架,本系統(tǒng)將社會化搜索的概念引入到科普信息檢索中,在Lucene的相關度評分機制上引入社會因子,使搜索結果更加社會化。社會因子起到人為調節(jié)結果權重的作用,允許用戶對搜索結果打分。這種評分機制,使得社會化科普信息搜索能夠更個性化地對結果排序,從而為用戶提供更好的檢索體驗。
基于維基百科的理念,本系統(tǒng)采用JSPWiki引擎設計并實現(xiàn)科普Wiki模塊。JSPWiki本身自帶了身份認證、版本控制等基本功能。在其基礎上,本文添加各項教育相關的子功能,如科普教學中的問題提交功能,允許注冊用戶提交各種科普問題,其他注冊或非注冊用戶可以對所瀏覽問題進行回答。本系統(tǒng)以文本文件的形式存儲用戶產生的各種數(shù)據(jù),為了方便用戶權限管理,采用MySQL存儲用戶信息。
基于社會計算,本文綜合運用社會化搜索技術及Wiki技術,設計并實現(xiàn)了一個面向科普領域的教育平臺。該平臺主要包括社會化科普信息搜索和科普Wiki兩大模塊。在科普領域數(shù)據(jù)采集中,本文設計采用人工干預與先采集后過濾相結合的爬取策略,提出多細粒度分類器融合的集成分類方法進行數(shù)據(jù)過濾。實驗表明,該方法對于科普領域具有較高的分類性能。本文在檢索部分引入社會因子,允許用戶對搜索結果打分,從而為用戶提供更個性化的搜索服務。同時基于維基百科的理念,采用JSPWiki引擎實現(xiàn)一個科普Wiki,可供用戶添加、編輯、評論科普信息,自創(chuàng)科普資源,提升自主學習能力。本平臺對于推進全民科普、提升素質教育具有重要意義。
[1]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.
[2]Linda Schwartz,Sharon Clork,Mary Cossarin et al.Educational Wikis:Features and selection criteria.Technical Education Report 27-International Review of Research in Open and Distance Learning,Vol.5(1),2004.4.
[3]Anja Ebersbach,Markus Glaser,Richard Heigl.Wiki Web Collaboration.Springer.Verlag Berlin Heidelberg,2006.
[4]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1--27:27,2011.