• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于社會計算的科普教育平臺的設計與實現(xiàn)

      2014-11-15 02:08:34
      電子測試 2014年4期
      關鍵詞:細粒度采集器分類器

      薄 瑋

      (陜西學前師范學院,西安,710100)

      1 平臺的功能結構設計

      基于社會計算的科普教育平臺是一個面向科普領域的開放平臺,主要由社會化科普信息搜索和科普Wiki兩大部分構成,如圖1。面向科普領域的社會化搜索旨在向用戶提供精準的科普信息檢索,具體包括用戶查詢、科普信息檢索、和社會化結果展示三部分??破誛iki模塊利用Wiki技術,允許平臺中科普領域任何人添加和修改科普領域的術語詞條,從而日積月累逐漸形成一個完整嚴密的和相對權威的專業(yè)科普領域知識庫。該模塊包含用戶管理、問題提交、學習討論、協(xié)作共創(chuàng)、頁面管理、科普知識編輯等六部分。此平臺為用戶提供了網(wǎng)上學習交流、協(xié)作共創(chuàng)和問題解決的環(huán)境,更為透明的搜索服務,允許用戶對搜索結果進行評價,通過對搜索結果進行評分能夠影響對結果的排序。

      圖1 平臺功能結構圖

      2 關鍵技術

      2.1 社會化科普搜索引擎設計

      本文提出的社會化科普搜索引擎主要強調兩方面設計:(1)科普領域數(shù)據(jù)采集器的設計;(2)社會化檢索機制設計。

      2.1.1 科普數(shù)據(jù)采集器

      科普數(shù)據(jù)采集器主要完成從網(wǎng)絡中抓取科普領域信息并入庫的工作,是一種面向領域的主題爬蟲。圖2所示為采集器架構圖。其中,科普領域信息分類器是采集器的核心組件,負責主要的科普網(wǎng)頁分類工作。為提高爬取效率,本文同時添加種子域名判斷組件,用以實現(xiàn)站內頁面預判,減少分類器開銷。

      2.1.2 科普領域信息分類算法

      科普領域信息覆蓋度大,內容繁雜,比如天文、地理、自然、科技等類別均屬于科普信息。為處理如此粗粒度的分類問題,本文將科普領域信息進行細粒度劃分,提出多細粒度分類器融合的集成分類方法。其基本思想是:給定一待分樣本,由科普領域細粒度分類器為其打分(0或1),最后匯總得分,分值高于某一閾值則認為該樣本屬于科普領域。本文選擇支持向量機(SVM)作為細粒度分類器的分類算法,該算法是目前已知分類效果非常好的一種文本分類算法,具體實現(xiàn)上本文選用開源的LibSVM。

      2.1.3 分類器準確率實驗

      本文選擇百度百科作為細分科普領域信息的依據(jù)和訓練樣本數(shù)據(jù)源。本次實驗選擇其開放分類中的天文、歷史、地理、自然、科技等幾個大類作為科普細分類別,從百度百科中抽取各類別下子類的top-50的詞條用作訓練樣本,共得到10000篇科普類樣本。對于細分非科普類,本文以搜狗互聯(lián)網(wǎng)分類語料庫中的非科普類子類目錄為依據(jù),從各子類中隨機選取非科普訓練樣本,同樣得到 10000篇語料作為非科普類樣本集。兩者合計共20000篇用作實驗的開放測試數(shù)據(jù)集。

      本文選擇保持(Holdout)方法對各細分分類器進行訓練,其中訓練集和檢驗集的劃分比為2:1。選擇常用的準確率、召回率和F-Measure作為科普分類器的評價指標。經(jīng)計算,本系統(tǒng)科普領域分類器的各項指標結果如下:

      由此可知,本文基于多細粒度分類器融合的集成分類器具有較高的分類性能,準確率和召回率均達90%以上。

      2.1.4 基于Lucene的社會化檢索機制

      Lucene是一個開放源代碼的全文檢索引擎工具包,提供了完整的查詢引擎和索引引擎,具有索引文件格式獨立于應用平臺、優(yōu)秀的面向對象架構、分塊索引、語言和文件格式易于擴展等諸多優(yōu)點?;贚ucene的檢索框架,本系統(tǒng)將社會化搜索的概念引入到科普信息檢索中,在Lucene的相關度評分機制上引入社會因子,使搜索結果更加社會化。社會因子起到人為調節(jié)結果權重的作用,允許用戶對搜索結果打分。這種評分機制,使得社會化科普信息搜索能夠更個性化地對結果排序,從而為用戶提供更好的檢索體驗。

      2.2 科普Wiki的實現(xiàn)

      基于維基百科的理念,本系統(tǒng)采用JSPWiki引擎設計并實現(xiàn)科普Wiki模塊。JSPWiki本身自帶了身份認證、版本控制等基本功能。在其基礎上,本文添加各項教育相關的子功能,如科普教學中的問題提交功能,允許注冊用戶提交各種科普問題,其他注冊或非注冊用戶可以對所瀏覽問題進行回答。本系統(tǒng)以文本文件的形式存儲用戶產生的各種數(shù)據(jù),為了方便用戶權限管理,采用MySQL存儲用戶信息。

      3 小結

      基于社會計算,本文綜合運用社會化搜索技術及Wiki技術,設計并實現(xiàn)了一個面向科普領域的教育平臺。該平臺主要包括社會化科普信息搜索和科普Wiki兩大模塊。在科普領域數(shù)據(jù)采集中,本文設計采用人工干預與先采集后過濾相結合的爬取策略,提出多細粒度分類器融合的集成分類方法進行數(shù)據(jù)過濾。實驗表明,該方法對于科普領域具有較高的分類性能。本文在檢索部分引入社會因子,允許用戶對搜索結果打分,從而為用戶提供更個性化的搜索服務。同時基于維基百科的理念,采用JSPWiki引擎實現(xiàn)一個科普Wiki,可供用戶添加、編輯、評論科普信息,自創(chuàng)科普資源,提升自主學習能力。本平臺對于推進全民科普、提升素質教育具有重要意義。

      [1]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.

      [2]Linda Schwartz,Sharon Clork,Mary Cossarin et al.Educational Wikis:Features and selection criteria.Technical Education Report 27-International Review of Research in Open and Distance Learning,Vol.5(1),2004.4.

      [3]Anja Ebersbach,Markus Glaser,Richard Heigl.Wiki Web Collaboration.Springer.Verlag Berlin Heidelberg,2006.

      [4]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2:27:1--27:27,2011.

      猜你喜歡
      細粒度采集器分類器
      融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
      紅外技術(2022年11期)2022-11-25 03:20:40
      COVID-19大便標本采集器的設計及應用
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      高技術通訊(2021年1期)2021-03-29 02:29:24
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于雙線性卷積網(wǎng)絡的細粒度圖像定位
      基于ZigBee的大型公共建筑能耗采集器設計
      基于LabVIEW的多數(shù)據(jù)采集器自動監(jiān)控軟件設計與開發(fā)
      支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      西昌市| 五原县| 旅游| 武汉市| 锡林浩特市| 绍兴县| 清河县| 韶关市| SHOW| 普陀区| 年辖:市辖区| 寿宁县| 宝鸡市| 砚山县| 敦化市| 岐山县| 和顺县| 卢湾区| 临湘市| 姚安县| 台湾省| 渭南市| 孟连| 北辰区| 逊克县| 景德镇市| 虞城县| 龙川县| 定安县| 九寨沟县| 扶风县| 汝州市| 奉贤区| 南郑县| 甘肃省| 敦煌市| 澄江县| 色达县| 上栗县| 阿鲁科尔沁旗| 雅安市|