賴 茹 楊 勇 任 鴿
(新疆師范大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院 新疆 烏魯木齊 830054)
隨著維吾爾語自然語言處理技術(shù)的發(fā)展,維吾爾語的語義知識庫作為一種自然語言處理重要資源,直接影響計算機(jī)進(jìn)行維吾爾語語義理解和分析的準(zhǔn)確性。相對于國內(nèi)外類型眾多的語義知識庫來說,維吾爾語現(xiàn)有的語義知識庫資源規(guī)模小、類型缺乏。從知識庫的構(gòu)建方法來說,傳統(tǒng)的維吾爾語語義知識庫構(gòu)建通常是由領(lǐng)域?qū)<襾硗瓿蒣1],雖具有信息準(zhǔn)確、權(quán)威的特點,但知識庫建設(shè)周期長、工作量大,知識庫的規(guī)模受限于語義專家有限的時間和精力,并且面對迅速增長的網(wǎng)絡(luò)信息,很難保證知識庫的及時更新。因此,利用高效語義知識庫構(gòu)建方式,建立一個大規(guī)模、高質(zhì)量的綜合型維吾爾語語義知識庫尤為重要。相比較而言,眾包作為一種分布式的模式,通過互聯(lián)網(wǎng)高效地調(diào)用分布全球的人力資源[2],對于處理語義知識庫構(gòu)建任務(wù)有很大優(yōu)勢。本文提供了一種通過利用基于互聯(lián)網(wǎng)的眾多志愿者的眾包方式來構(gòu)建維吾爾語語義知識庫的模式。該模式避免由語義專家編輯更新知識庫周期長、速度慢的問題,且可以解決語義知識庫的及時更新問題。本文對眾包模式下的質(zhì)量控制及激勵機(jī)制進(jìn)行理論探索,設(shè)計了一個維吾爾語多源語義知識庫在線構(gòu)建平臺,支持對用戶協(xié)作的并發(fā)編輯功能,并能保證大數(shù)據(jù)量并發(fā)編輯下數(shù)據(jù)的一致性、完整性。建立一種基于互聯(lián)網(wǎng)用戶協(xié)作、知識共享的維吾爾語多源語義知識庫,為維吾爾語自然語言處理的發(fā)展提供語料支持和技術(shù)支持,同時也對維吾爾語其他知識庫的構(gòu)架提供理論和方法的借鑒。
眾包是由美國《連線》雜志的記者Jeff Howe于2006年6月提出的用來形容一種新型的基于互聯(lián)網(wǎng)的工作模式。該模式將一個公司或機(jī)構(gòu)過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式包給非特定的大眾網(wǎng)絡(luò)用戶[3]。簡單地說,眾包就是社會生產(chǎn)力,匯集群體智慧來完成曾經(jīng)是由某個領(lǐng)域的企業(yè)雇員或?qū)<彝瓿傻娜蝿?wù)。眾包借助互聯(lián)網(wǎng)力量,借社會資源為己用,最大范圍地利用人力資源,可以節(jié)約大量的成本,突破了固定工作地點和工作時間的限制[4],將難以完成的工作量大的任務(wù)分解為若干個工作量小的任務(wù)來完成,極大地提高效率。
眾包從提出之日起,就開始在互聯(lián)網(wǎng)中發(fā)揮巨大作用。例如:亞馬遜通過經(jīng)濟(jì)獎勵報酬的方式讓大眾解決實際難題的Mechanical Turk平臺[5];將眾包與微博結(jié)合形成關(guān)于食品的即時問答的Foodpickle平臺[6];開源共享的維基百科、百度百科、互動百科等百科類眾包平臺;高德地圖、大眾點評等分享傳播類眾包平臺[7]。此外,利用眾包平臺完成命名實體識別、英文單詞翻譯、詞義消歧等工作,使得眾包技術(shù)在學(xué)術(shù)和工業(yè)的相關(guān)評測方面廣泛應(yīng)用。
眾包平臺采用任務(wù)發(fā)布者(企業(yè)或擁有工作任務(wù)需要解決的個人)、中介機(jī)構(gòu)(連接、溝通發(fā)包者和接包著的橋梁)、任務(wù)接受者[8](數(shù)量眾多的互聯(lián)網(wǎng)用戶)三位一體的模式,其架構(gòu)如圖1所示。任務(wù)發(fā)布者或管理者創(chuàng)建任務(wù)(即任務(wù)的描述信息),將知識需求連同任務(wù)的獎勵發(fā)布到眾包平臺,任務(wù)接受者或用戶對任務(wù)進(jìn)行篩選,選擇并完成自己感興趣的任務(wù)創(chuàng)造知識,提交任務(wù)的解決方案。通過眾包平臺的質(zhì)量控制機(jī)制最終由任務(wù)發(fā)布者對答案進(jìn)行確認(rèn),最終被選中答案對應(yīng)的工作者會得到相應(yīng)的獎勵,而眾包平臺在其中起著重要的中介傳遞作用。
圖1 眾包平臺工作模式
本文使用眾包方式來進(jìn)行語義知識庫的構(gòu)建主要原因為:(1)通過匯聚廣大互聯(lián)網(wǎng)用戶的眾包方式能降低知識庫構(gòu)建成本,提高效率。眾多互聯(lián)網(wǎng)用戶同時進(jìn)行操作,可以短時間獲取大量用戶的結(jié)果,有利于知識庫的快速構(gòu)建。(2)當(dāng)今信息時代,知識增長速度較快,知識的內(nèi)容會隨著時間進(jìn)行變化或增加,使得知識庫需要具有快速更新的功能,而使用眾包的方式,用戶可通過眾包平臺對知識庫的內(nèi)容及時進(jìn)行補(bǔ)充,對新增的詞語內(nèi)容進(jìn)行更新,有利于知識庫的快速更新和擴(kuò)充。將眾包技術(shù)應(yīng)用到知識庫建設(shè)當(dāng)中,彌補(bǔ)了維吾爾語自然語言處理領(lǐng)域資源匱乏問題,且能夠使知識庫資源具備鮮明的時代特征,符合現(xiàn)代人們的語言習(xí)慣。
基于眾包的維吾爾語多源語義知識庫平臺分為網(wǎng)頁端應(yīng)用程序和后臺管理系統(tǒng)兩個部分。前臺主要為用戶提供語義詞條的瀏覽、創(chuàng)建、修改等操作;后臺管理系統(tǒng)主要為管理者進(jìn)行任務(wù)發(fā)布、語義詞條管理、用戶管理等操作,具體功能細(xì)節(jié)如下:
網(wǎng)頁應(yīng)用程序面向廣大互聯(lián)網(wǎng)用戶,系統(tǒng)界面設(shè)計要求交互性強(qiáng)、簡潔友好,用戶可快速查找所需信息,包括任務(wù)領(lǐng)取、詞條創(chuàng)建、我的空間、禮品商店等模塊,具體功能包括:
(1) 任務(wù)領(lǐng)取 用戶可通過平臺查看任務(wù)詳細(xì)信息,如任務(wù)開始時間、任務(wù)參與人數(shù)、任務(wù)積分獎勵數(shù)額等,用戶參與管理者發(fā)布的詞條審核任務(wù),并按要求完成任務(wù)通過審核后可獲得相應(yīng)積分獎勵。
(2) 我的空間 用戶登錄后,可查看自己的信息,如積分值、創(chuàng)建的歷史詞條、修改的歷史詞條等??梢詫€人的基本信息進(jìn)行編輯,包括昵稱、頭像等,同時也可以對密碼進(jìn)行重置。用戶可以對系統(tǒng)信息進(jìn)行管理,可以查看系統(tǒng)消息,如創(chuàng)建、修改的詞條版本是否通過,具體原因等。
(3) 詞條創(chuàng)建 用戶可以通過平臺創(chuàng)建新的詞條或?qū)σ延性~條進(jìn)行完善,在輸入詞條名稱,選擇詞條類別后即可進(jìn)行詞條創(chuàng)建、編輯工作,提交詞條并通過審核后可獲得相應(yīng)積分獎勵。
(4) 禮品商店 平臺用戶可以查看禮品商店的禮品信息,同時可以按條件搜索禮品,擁有一定積分的用戶可以兌換等價禮品。
(5) 語義分類 該平臺的維吾爾語語義分類通過樹形結(jié)構(gòu)清晰展示,方便用戶查看分類,了解平臺的分類結(jié)構(gòu)。同時也可以通過分類樹快速查找分類下的詞條。
后臺管理系統(tǒng)面向系統(tǒng)管理者,是系統(tǒng)的核心所在,其包含用戶管理模塊、內(nèi)容管理模塊、禮品管理模塊、平臺統(tǒng)計模塊,具體功能包括:
(1) 用戶管理 用戶管理包括用戶管理、權(quán)限管理、用戶組管理三個模塊。其中用戶管理功能是對平臺用戶進(jìn)行增加、刪除、修改、查看、審核等管理操作,同時可以為不同的用戶分配不同的用戶組,按用戶組來進(jìn)行管理。權(quán)限管理可對系統(tǒng)權(quán)限進(jìn)行基本操作。用戶組管理功能是對用戶組進(jìn)行基本操作,每個用戶組包括若干用戶,能對不同用戶組授予不同權(quán)限。
(2) 內(nèi)容管理 內(nèi)容管理為后臺管理系統(tǒng)中最為重要的功能,分為分類管理、詞條管理、詞條過濾、任務(wù)管理、詞典管理、語料庫管理六個模塊。分類管理可以對平臺語義知識庫的類別進(jìn)行添加、修改等基本操作,同時在添加的過程中確定類別的基本屬性信息。詞條管理可對語義知識庫平臺中用戶創(chuàng)建的詞條進(jìn)行管理,可以按條件查找、刪除詞條,管理員需要對用戶提交的待審核詞條進(jìn)行審核,審核時可以通過版本對比來清晰對比用戶對詞條進(jìn)行了哪些修改。若詞條審核通過可對用戶進(jìn)行一定的積分獎勵,若詞條審核不通過,管理員發(fā)送系統(tǒng)消息告知詞條編輯者。詞條過濾可以設(shè)置敏感詞條的過濾條件和替代詞語,防止敏感詞條的出現(xiàn),當(dāng)敏感詞條出現(xiàn)時自動用替代詞語進(jìn)行替換。任務(wù)管理主要是將部分待審核的詞條作為任務(wù)發(fā)布,由大眾用戶來審核,減輕管理員的審核工作,可以設(shè)置任務(wù)開始與結(jié)束的時間、最大參與人數(shù)、獎勵積分、任務(wù)描述等信息。同時可以查看任務(wù)進(jìn)度、參與人數(shù)等,還可對任務(wù)進(jìn)行刪除、修改等基本操作,最終將任務(wù)發(fā)布在Web服務(wù)器上,供用戶接收。詞典管理可以對維吾爾語詞典詞條進(jìn)行管理,可以對詞典內(nèi)容進(jìn)行增加、修改、刪除、按條件查詢等操作,同時支持Excel批量導(dǎo)入操作,方便大規(guī)模詞典內(nèi)容的添加。語料庫管理可以對維吾爾語語料進(jìn)行管理,可以對現(xiàn)有語料進(jìn)行增、刪、改、查等基本操作。
(3) 禮品管理 禮品管理可以對平臺禮品進(jìn)行添加、修改等基本操作。兌換日志可以記錄用戶兌換禮品的日志信息,并對日志信息中禮品是否寄送進(jìn)行標(biāo)注,以便禮品的發(fā)放及核查。
(4) 平臺統(tǒng)計 平臺統(tǒng)計主要對用戶創(chuàng)建詞條、完成任務(wù)的進(jìn)度和質(zhì)量兩方面統(tǒng)計。對進(jìn)度的統(tǒng)計:顯示平臺所有用戶詞條瀏覽、創(chuàng)建詞條、領(lǐng)取并完成任務(wù)的數(shù)量,同時對用戶登錄平臺的時間進(jìn)行統(tǒng)計,直觀地顯示用戶工作量。對質(zhì)量的統(tǒng)計:對平臺用戶的用戶貢獻(xiàn)值、用戶積分值、詞條審核通過數(shù)量進(jìn)行按時間排序,方便對用戶的獎勵。
2.2.1 基本流程
本平臺的功能依據(jù)角色進(jìn)行劃分,包括平臺管理員(任務(wù)發(fā)布者)、用戶(任務(wù)接收者、詞條創(chuàng)建者),平臺的基本工作流程如圖2所示。
圖2 平臺基本工作流程圖
用戶登錄平臺后可以選擇創(chuàng)建詞條或完成任務(wù)。
詞條創(chuàng)建:在完成創(chuàng)建詞條的操作后,將詞條詳情提交至后臺由管理員審核,詞條審核通過后,可下發(fā)創(chuàng)建詞條的獎勵積分至用戶信息界面,用戶可通過用戶信息界面查看積分詳情。同時,若詞條審核不通過,發(fā)送審核不通過原因至用戶信息界面,用戶可通過用戶信息界面查看原因,進(jìn)行修改。
完成詞條審核任務(wù):管理員可將待審核的詞條作為用戶任務(wù)發(fā)布,在發(fā)布任務(wù)時,發(fā)布者要為該任務(wù)設(shè)置參與人數(shù)、有效時間段、獎勵積分?jǐn)?shù)量等信息,任務(wù)的承接用戶可通過平臺任務(wù)界面了解任務(wù)的詳細(xì)信息,參與完成詞條審核任務(wù)。若任務(wù)參與人數(shù)達(dá)到要求或任務(wù)時間到期,則任務(wù)結(jié)束,系統(tǒng)自動計算判斷詞條是否通過審核,提交至管理員,管理員可下發(fā)獎勵至用戶信息界面。
2.2.2 詞條創(chuàng)建流程
如圖3所示,用戶選擇創(chuàng)建詞條后,首先要判斷用戶是否登錄平臺,若未登錄,則為游客身份,該身份下無創(chuàng)建、編輯詞條的權(quán)限,只能在平臺上瀏覽、查找詞條。若已登錄,則可進(jìn)行創(chuàng)建、編輯詞條的行為,當(dāng)用戶進(jìn)行創(chuàng)建詞條時首先輸入詞條名稱,選擇詞條類別,根據(jù)詞條名稱判斷該詞條名在后臺維吾爾語詞典數(shù)據(jù)庫或維吾爾語語料庫中是否存在,若存在,則從后臺數(shù)據(jù)庫中抽取相應(yīng)屬性內(nèi)容,顯示在用戶詞條創(chuàng)建界面,用戶只需對該詞條其余屬性進(jìn)行完善即可。若詞條名稱在后臺數(shù)據(jù)庫中不存在,則根據(jù)類別抽取該詞條的屬性模板,由用戶根據(jù)屬性模板進(jìn)行內(nèi)容填充。詞條創(chuàng)建完畢后,由用戶提交,等待審核,若審核通過則可獲取相應(yīng)積分獎勵。
圖3 創(chuàng)建詞條流程圖
基于眾包的維吾爾語多源語義知識庫平臺目標(biāo)是允許任何組織或個人通過平臺在任意時間、任意地點完成語義知識庫的詞條創(chuàng)建工作,平臺包括網(wǎng)頁端應(yīng)用程序和后臺管理系統(tǒng)兩部分。網(wǎng)頁端應(yīng)用程序主要針對接受任務(wù)、創(chuàng)建詞條的廣大互聯(lián)網(wǎng)用戶,界面設(shè)計友好美觀,流程設(shè)計簡潔,使用戶能迅速發(fā)現(xiàn)適合的任務(wù),以此提高用戶編輯效率。后臺管理系統(tǒng)主要針對發(fā)任務(wù)發(fā)布者(系統(tǒng)管理員),用來管理平臺用戶、編輯的詞條等內(nèi)容。
基于眾包的維吾爾語多源語義知識庫平臺是基于Web的服務(wù)平臺,總體架構(gòu)如圖4所示,采用瀏覽器/服務(wù)器(Browse/Server)模式,用戶通過瀏覽器訪問平臺,進(jìn)行平臺上的各項操作。在Windows操作系統(tǒng)下配合Apache服務(wù)器和Mysql數(shù)據(jù)庫,該平臺的數(shù)據(jù)庫分為:存放維吾爾語詞典數(shù)據(jù)的詞典數(shù)據(jù)庫、存放維吾爾語料的語料數(shù)據(jù)庫、存放用戶創(chuàng)建詞條的用戶數(shù)據(jù)庫及存放基礎(chǔ)數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)庫。網(wǎng)頁應(yīng)用前端框架選用AngularJS克服了HTML在構(gòu)建應(yīng)用上的不足,后臺管理界面框架選用Spring、Hibernate、MyBatis,解決業(yè)務(wù)邏輯層和其他各層的松耦合問題,自動生成SQL語句,自動執(zhí)行,消除了幾乎所有的JDBC代碼和參數(shù)的手工設(shè)置以及結(jié)果集的檢索。
圖4 系統(tǒng)總體架構(gòu)
眾包平臺根植于一個平等主義原則[9]:每個人都擁有對別人有價值的知識或才華,而眾包平臺作為橋梁將個人和他人聯(lián)系起來,每個人都擁有自己的特質(zhì),每個個人都站在眾包的中心,個體的獨(dú)特性存在于一大群人中,構(gòu)成了多樣化。正是這種大眾工作的多樣性,導(dǎo)致眾包結(jié)果的質(zhì)量難以控制,具有較大的不確定性。另一方面,在眾包平臺中,普遍存在為使自己利益最大化而沒有認(rèn)真完成工作的惡意用戶[10],其提交的知識內(nèi)容不可靠,甚至違背了任務(wù)發(fā)布者發(fā)布任務(wù)的初衷。因此,眾包平臺的質(zhì)量控制機(jī)制設(shè)計尤為重要,其目的是通過各種方法對用戶提交的結(jié)果進(jìn)行評估,以此來識別惡意工作者,并將評估結(jié)果作為觸發(fā)對工作者進(jìn)行獎懲的重要條件。此平臺采用了以下幾種質(zhì)量控制機(jī)制:
(1) 編輯指導(dǎo)及編輯規(guī)范:
在應(yīng)用眾包的維吾爾語語義知識庫系統(tǒng)中,建立詞條編輯相關(guān)指導(dǎo)頁面,并將詞條編輯指導(dǎo)頁面的相關(guān)入口放在首頁非常顯眼的地方,以此來方便新用戶了解,來規(guī)避用戶因不熟悉操作流程造成的非必要錯誤,提高新用戶編輯詞條的質(zhì)量。此詞條編輯指導(dǎo)運(yùn)用了視頻、圖片、文字等多種方式,針對創(chuàng)建詞條、編輯詞條、積分兌換等內(nèi)容進(jìn)行了詳細(xì)的操作說明,用于指導(dǎo)用戶正確編輯詞條。
(2) 保存歷史版本:
在用戶修改該平臺語義知識庫中的詞條時,系統(tǒng)會自動保存該詞條的歷史版本,并以不同顏色清楚展示兩個版本的差別,使得兩個版本之間有相對明顯的比對。一方面,可以方便管理者的詞條審核工作;另一方面,當(dāng)詞條版本遭到惡意破壞或詞條內(nèi)容遭到惡意篡改時,系統(tǒng)可以快速、方便地從歷史版本中恢復(fù)相對正確的版本,以此來保證詞條的質(zhì)量。
(3) 詞條結(jié)果審核:
① 用戶交叉審核 為充分發(fā)揮眾包短時間、低成本的優(yōu)勢[11],可將審核用戶提交的詞條作為任務(wù)分發(fā)給其他注冊用戶來完成,即采用大眾投票策略來實現(xiàn)用戶結(jié)果的交叉審核,以此來去除由于理解錯誤而造成的錯誤結(jié)果,或惡意工作者故意提供的錯誤結(jié)果,保證詞條的質(zhì)量。也許一兩個人的評定結(jié)果不能夠讓人信服,但是眾人拾柴火焰高,大量用戶對同一詞條的審查結(jié)果可以提高審查質(zhì)量。交叉審核使用EM算法進(jìn)行評估,采用多數(shù)人的判斷作為詞條審核的結(jié)果。
本平臺的交叉審核具體做法是:將用戶提交的待審核詞條作為任務(wù),逐條在任務(wù)界面中發(fā)布,并在發(fā)布任務(wù)時設(shè)置審核任務(wù)參與人數(shù),除編輯者本人,任意用戶隨機(jī)參與詞條審核任務(wù),讓參與用戶來評判詞條的質(zhì)量。在每個待審核詞條后,設(shè)置“審核通過”、“審核不通過”兩個選項,被“審核通過”的結(jié)果越就表明詞條正確的可能性越大,當(dāng)參與審核人數(shù)達(dá)到閾值后,結(jié)果由系統(tǒng)保存至數(shù)據(jù)表中,任務(wù)結(jié)束。每個詞條由N個人進(jìn)行審核,如果“審核通過”結(jié)果≥N/2,則認(rèn)為詞條正確;如果“審核不通過”結(jié)果≤N/2則認(rèn)為詞條不正確,需要修改。
② 管理員審核 管理員審核是平臺詞條質(zhì)量控制中重要的環(huán)節(jié),該平臺的系統(tǒng)管理員都是由維吾爾語自然語言處理領(lǐng)域?qū)I(yè)人員擔(dān)任,對知識有著較強(qiáng)的把控能力,能更好地實現(xiàn)資源的控制。系統(tǒng)管理員負(fù)責(zé)對用戶提交的待審核詞條進(jìn)行評審,判斷內(nèi)容的正誤,保留詞條內(nèi)容正確的結(jié)果,刪除詞條內(nèi)容有誤的結(jié)果。同時,為提高用戶的參與度,系統(tǒng)管理員可以由資深用戶來擔(dān)任,在激勵機(jī)制設(shè)計中將詳細(xì)介紹。
(4) 良好的激勵機(jī)制設(shè)計:
激勵機(jī)制和詞條結(jié)果質(zhì)量之間有很強(qiáng)的依賴現(xiàn)象[12],良好的激勵機(jī)制設(shè)計,可以在一定程度上提高平臺的詞條質(zhì)量。
成功的大眾參與需要滿足“馬斯洛需求層次理論”最高層次的需求:尊重和自我實現(xiàn)。參與者總是需要滿足一定心理、物質(zhì)或情感上的需求[13],如果沒有被滿足,他們就不會參與了。因此為使大眾積極參與,就要著重考慮參與者的動機(jī),研究發(fā)現(xiàn),影響眾包中社會大眾參與的動機(jī)既有個人層面的物質(zhì)需求也有社會層面的社會認(rèn)同感,大眾參與不僅需要收獲知識和經(jīng)驗,也需要實實在在的報酬[14]。合適的激勵機(jī)制,可以保證工作者的動力,以此來保障眾包平臺的性能。為了聚集維吾爾語自然語言處理相關(guān)領(lǐng)域的研究人員或?qū)ρ芯糠较蚋信d趣的人員,來保證平臺的創(chuàng)造性,本平臺的激勵機(jī)制設(shè)計如下:
(1) 等級制度,根據(jù)積分來提升等級 為了讓平臺的每一位參與者都了解自己在為科學(xué)研究貢獻(xiàn)力量,在參與過程中擁有一種使命感和滿足感,進(jìn)而貢獻(xiàn)更為優(yōu)質(zhì)的結(jié)果,本平臺以積分累計來劃分等級,用來劃分、標(biāo)記平臺用戶。平臺中的用戶可以通過創(chuàng)建、編輯詞條,完成詞條審核任務(wù)等來獲得積分,若在創(chuàng)建、編輯或完成任務(wù)的過程中,有惡意違規(guī)行為,也會降低積分來處罰。平臺根據(jù)用戶的積分情況,將用戶劃分為不同等級,不同等級享有不同操作權(quán)限。平臺根據(jù)用戶對任務(wù)的完成情況(即積分累計情況),將不同用戶提升安排到不同的等級,承擔(dān)不同的任務(wù),獲得更多權(quán)限。而平臺管理員是由專業(yè)的維吾爾語自然語言處理領(lǐng)域人員來擔(dān)任,擁有平臺的最高權(quán)限,在平臺中具有較大的自由性,但當(dāng)用戶的積分達(dá)到一定標(biāo)準(zhǔn)時,也有機(jī)會成為平臺管理員,來維護(hù)知識庫。因此獲取積分和更高的等級是用戶參與任務(wù)的動機(jī),促使用戶自覺和自愿地為知識庫貢獻(xiàn)知識。
(2) 按時間段選取積分排名高者派發(fā)禮物 平臺會在一定時間段內(nèi)對用戶的積分進(jìn)行統(tǒng)計、排名,按照時間段內(nèi)用戶積分排名情況評選積分排名最高的用戶(即對平臺貢獻(xiàn)最大的用戶)。這些用戶會得到精美的小禮物作為鼓勵,同時該段時間的排名表會顯示在平臺首頁,這能夠在一定程度上滿足用戶的心理和物質(zhì)需求,從而激發(fā)參與者的創(chuàng)作欲望。同時也使頁面的內(nèi)容日趨豐富和完善,大大加快知識庫的編輯速度。
(3) 在線商城積分兌換 除了虛擬積分、等級形式的鼓勵,平臺還搭建了在線商城,讓用戶使用通過參與創(chuàng)建詞條、編輯詞條等任務(wù)獲得的積分,在平臺商城中兌換相應(yīng)的物品。平臺商城中的物品包括虛擬物品和實物:虛擬物品如頭像、徽章、道具等,實物包含文具、電子產(chǎn)品、圖書等。
本文設(shè)計的基于眾包的維吾爾語多源語義知識庫平臺,采用AngularJS、Spring、Hibernate、MyBatis等架構(gòu)開發(fā),實現(xiàn)了維吾爾語詞條創(chuàng)建、詞條瀏覽、詞條編輯、詞條查詢、用戶管理、詞條審核、詞條管理、禮品管理等功能。
圖5為網(wǎng)頁應(yīng)用界面中,用戶創(chuàng)建詞條的界面,用戶輸入詞條名稱,選擇詞條分類后,進(jìn)入詞條創(chuàng)建界面,創(chuàng)建詞條時,用戶可使用工具欄中的工具為詞條插入圖片、鏈接等。詞條創(chuàng)建完成通過審核后,用戶可在平臺界面查找、查看詞條,同時可對詞條的內(nèi)容進(jìn)行添加、完善。
圖5 創(chuàng)建詞條界面
圖6為后臺管理界面中,管理人員對用戶編輯的詞條進(jìn)行管理的界面,管理人員可以對詞條進(jìn)行編輯、刪除、按條件查詢等操作。同時,管理人員可以對待審核的詞條進(jìn)行審核,可對修改的詞條進(jìn)行版本對比,不同之處可用不同顏色顯示,方便審評。如圖7所示,管理人員對詞條的版本進(jìn)行獎勵或懲罰,審核結(jié)果會及時告知詞條編輯用戶。
圖6 詞條管理界面
圖7 詞條審核界面
隨著計算機(jī)技術(shù)的發(fā)展,維吾爾語自然語言處理得到越來越多的應(yīng)用,維吾爾語的語義知識庫作為重要的自然語言處理資源也得到重視[15]。而互聯(lián)網(wǎng)的迅速發(fā)展,使得眾包平臺的優(yōu)勢得以充分展現(xiàn),成為語義知識庫構(gòu)建的一種新技術(shù)、新方法。本文在研究大量眾包模式的應(yīng)用基礎(chǔ)上進(jìn)行探索,對眾包模式及其現(xiàn)狀進(jìn)行總結(jié),針對平臺構(gòu)建中面臨的質(zhì)量控制、激勵機(jī)制等問題進(jìn)行研究,建立了一個公眾可以高效協(xié)作的維吾爾語多源語義知識庫構(gòu)建平臺,避免了目前維吾爾語的語義知識庫構(gòu)建中周期長、效率低、更新慢等缺點。本文構(gòu)建的維吾爾語多源語義知識庫平臺,從功能上看,該平臺能夠為互聯(lián)網(wǎng)大眾用戶提供自由編輯的平臺,充分發(fā)揮眾包優(yōu)勢,并能融合詞典及語料庫中的語義資源;從理論意義上看,利用眾包強(qiáng)大的優(yōu)勢帶來了一定科研模式的改變,為知識庫構(gòu)建提供有力支撐。