• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)絡(luò)眾包模式的海量歷史文獻(xiàn)數(shù)字化處理方法研究

      2019-03-18 02:14席運(yùn)江林瑤瑤廖曉俞寬
      現(xiàn)代情報(bào) 2019年2期

      席運(yùn)江 林瑤瑤 廖曉 俞寬

      摘要:[目的/意義]針對海量歷史文獻(xiàn)數(shù)字化所面臨的文獻(xiàn)數(shù)量龐大、耗時(shí)長、成本過高等問題,本文將眾包理念引入傳統(tǒng)文獻(xiàn)數(shù)字化工作中,形成基于網(wǎng)絡(luò)眾包模式的海量歷史文獻(xiàn)數(shù)字化處理方法。[方法/過程]該模式根據(jù)歷史文獻(xiàn)特點(diǎn),將網(wǎng)絡(luò)大眾自發(fā)知識(shí)生產(chǎn)模式與專家定向模式相結(jié)合,提出了相應(yīng)的用戶激勵(lì)和質(zhì)量控制方案,從而保證眾包任務(wù)的高效率、低成本、質(zhì)量可控。此外,以粵海關(guān)清末歷史文獻(xiàn)為試點(diǎn)驗(yàn)證眾包模式在大規(guī)模文獻(xiàn)數(shù)字化處理工作中的可行性、高效性。[結(jié)果/結(jié)論]該模式為處理歷史文獻(xiàn)處理提供了新的思路與方法,且具有廣闊的應(yīng)用前景。

      關(guān)鍵詞:眾包模式;定向眾包;粵海關(guān)歷史文獻(xiàn);數(shù)字化處理;PDCA

      DOI:10.3969/j.issn.1008-0821.2019.02.019

      〔中圖分類號(hào)〕G250.76〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)02-0161-08

      歷史文獻(xiàn)作為國家歷史文化的物質(zhì)載體,記錄著各個(gè)階段的社會(huì)發(fā)展?fàn)顩r,內(nèi)容涵蓋史、經(jīng)、哲等多個(gè)方面,反映著我國數(shù)千年歷史文化傳承與發(fā)展。歷史文獻(xiàn)的數(shù)字化處理逐漸取代原有的純紙質(zhì)文獻(xiàn)整理,從而解決紙質(zhì)文獻(xiàn)不易存儲(chǔ)、查閱標(biāo)注及難以深入分析等問題。但對于海量歷史文獻(xiàn)的數(shù)字化處理工作,目前尚存在較多亟待克服的困難:歷史文獻(xiàn)數(shù)量龐大、種類形式多樣、專業(yè)性強(qiáng),因而人、物、財(cái)力成本巨大,嚴(yán)重制約了歷史文獻(xiàn)的數(shù)字化處理及應(yīng)用。

      針對這一問題,本文提出了基于網(wǎng)絡(luò)眾包模式的海量歷史文獻(xiàn)數(shù)字化處理方法,將眾包理念與傳統(tǒng)文獻(xiàn)數(shù)字化處理工作相結(jié)合,以實(shí)現(xiàn)海量歷史文獻(xiàn)的數(shù)字化處理問題。

      1文獻(xiàn)綜述

      1.1眾包概念及主要內(nèi)容

      眾包(Crowdsourcing)[1]一詞最早由美國《連線》(Wired)雜志記者杰夫·豪(Jeff Howe)于2006年提出,并在維基百科上將其定義為:“一個(gè)公司或機(jī)構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法”。Surowiecki J(2006)曾在《群體的智慧》中提出“群眾比少數(shù)人更聰明”這一觀點(diǎn),認(rèn)為團(tuán)體基于群體智慧所做出的決策往往要好于個(gè)體的單獨(dú)決策[2]。而基于互聯(lián)網(wǎng)的眾包模式作為一種以網(wǎng)絡(luò)作為共享平臺(tái),廣泛吸收整合企業(yè)內(nèi)外創(chuàng)新資源的合作模式,實(shí)際上就是對這種“群體智慧”的創(chuàng)新應(yīng)用。

      眾包的興起得益于互聯(lián)網(wǎng)的普及、網(wǎng)絡(luò)技術(shù)的發(fā)展、網(wǎng)絡(luò)一代的出現(xiàn)以及個(gè)性消費(fèi)者的崛起[3]。仲秋雁[4]等認(rèn)為眾包實(shí)際上是將軟件開發(fā)領(lǐng)域中開放源代碼的方法應(yīng)用到其他領(lǐng)域中。Panchal等將眾包分為基于競爭和基于合作兩種不同的眾包創(chuàng)新模式[5]。

      眾包不同于外包,外包強(qiáng)調(diào)的是將企業(yè)非核心的業(yè)務(wù)以一對一的形式外包給具備專業(yè)性的特定用戶;而眾包更傾向于資源共享、用戶共創(chuàng)的生產(chǎn)方式,吸引外部非特定用戶自愿參與企業(yè)事務(wù)中,倡導(dǎo)的是多樣化及差異化[6]帶來的創(chuàng)新潛力,利用群體智慧來實(shí)現(xiàn)企業(yè)競爭力的提升。

      1.2眾包平臺(tái)及應(yīng)用

      眾包問題的研究對象包括發(fā)包方、參與者和眾包平臺(tái)。發(fā)包方和參與方通過眾包中介平臺(tái)聯(lián)系在一起,后者利用自身資源為前者提供任務(wù)解決方案并獲得相應(yīng)報(bào)酬。眾包平臺(tái)通常被分為解決問題和創(chuàng)意產(chǎn)生平臺(tái)[7],例如亞馬遜推出的土耳其機(jī)器人網(wǎng)站[8]和Dell的“創(chuàng)意風(fēng)暴”[9]。

      近年來,越來越多公司認(rèn)識(shí)到眾包的重要價(jià)值:IBM投入10億美元開發(fā)眾包模型;搜狗輸入法、豬八戒網(wǎng)借助眾包的思維和形式,成功獲取了數(shù)以萬計(jì)的皮膚設(shè)計(jì)和詞庫及超過700萬的“線上工人”;2014年在馬航MH370的搜救過程中,美國衛(wèi)星地圖公司Digital Globe旗下眾包平臺(tái)Tomnod也曾采用眾包方式招募大眾參與處理其拍攝的高清海域衛(wèi)星照,以加快搜尋效率。盛芳[10]等在其研究中展示了眾包模式在圖書館界的成功應(yīng)用,其中紐約公共圖書館利用眾包模式,成功借助大眾的力量將館藏的4萬多份菜單圖片轉(zhuǎn)換為可供檢索的文本。以上案例都充分說明了眾包模式在生產(chǎn)效率和成本方面的優(yōu)勢,也為本文眾包模式的設(shè)計(jì)提供了有價(jià)值的參考。

      2海量歷史文獻(xiàn)數(shù)字化處理工作分析

      2.1海量歷史文獻(xiàn)數(shù)字化處理難點(diǎn)

      歷史文獻(xiàn)數(shù)字化雖在一定程度改善了傳統(tǒng)紙質(zhì)文獻(xiàn)的整理、查閱、存儲(chǔ)及分析工作,但對于海量古籍的數(shù)字化處理方面,目前尚存在較多亟待克服的困難:其一,歷史文獻(xiàn)數(shù)量龐大且種類形式繁多,給文獻(xiàn)全文識(shí)別、翻譯等數(shù)字化工作帶來很大困難。海量文獻(xiàn)通常涉及多種匯編語言,同時(shí)手寫紙質(zhì)文獻(xiàn)還易出現(xiàn)紙質(zhì)老化、字體繁雜、字跡模糊涂改等現(xiàn)象,無法完全借助OCR等工具進(jìn)行快速識(shí)別,依賴大量人工識(shí)別;其二,專業(yè)性較強(qiáng)的古籍要求翻譯人員具備相關(guān)的專業(yè)及背景知識(shí)儲(chǔ)備,見圖1。以上這些都表明,海量歷史文獻(xiàn)的數(shù)字掃描、信息獲取、圖像處理計(jì)算機(jī)輔助設(shè)計(jì)等諸多步驟都需要耗費(fèi)大量的人力、物力、財(cái)力,若單單依靠館藏機(jī)構(gòu)內(nèi)少數(shù)專業(yè)人士,往往事倍功半。因此,若要高效保質(zhì)的解決海量歷史文獻(xiàn)數(shù)字化的問題,就需要解決海量文獻(xiàn)和專業(yè)性兩個(gè)問題。

      本文所研究的基于網(wǎng)絡(luò)眾包的海量歷史文獻(xiàn)數(shù)字化系統(tǒng)正是從以上兩個(gè)問題的角度入手,借由網(wǎng)絡(luò)眾包平臺(tái),非定向招募普通用戶參與到海量古籍

      數(shù)字化工作中,以提高文獻(xiàn)數(shù)字化的整體效率;此外,針對歷史文獻(xiàn)中強(qiáng)專業(yè)性的核心文獻(xiàn),采用“定向眾包”的形式招募一定數(shù)量的領(lǐng)域?qū)<?,從而形成“網(wǎng)絡(luò)大眾+領(lǐng)域?qū)<摇钡暮献髂J?,利用多方資源以實(shí)現(xiàn)海量文獻(xiàn)的高效數(shù)字化。

      2.2基于WBS的工作分解

      針對海量歷史文獻(xiàn)數(shù)字化處理工作,本文采用WBS方法對眾包工作進(jìn)行結(jié)構(gòu)分解,逐步細(xì)化任務(wù)目標(biāo),依次確定各層級(jí)順序及相應(yīng)工作內(nèi)容,使整體眾包工作更為清晰明確。海量歷史文獻(xiàn)數(shù)字化處理核心工作分為以下4部分:歷史文獻(xiàn)數(shù)字化存儲(chǔ)、歷史文獻(xiàn)文本化、歷史文獻(xiàn)翻譯及歷史文獻(xiàn)挖掘與分析,見圖2。

      3眾包模式設(shè)計(jì)

      本文所設(shè)計(jì)的雙向眾包模式將是非定向眾包和定向眾包模式相結(jié)合,嵌入在難度系數(shù)較高的歷史文獻(xiàn)文本化和歷史文獻(xiàn)翻譯兩個(gè)部分,實(shí)現(xiàn)網(wǎng)絡(luò)大眾自發(fā)知識(shí)生產(chǎn)和領(lǐng)域?qū)<业亩ㄏ蛑R(shí)服務(wù),從而兼顧海量歷史文獻(xiàn)數(shù)字化處理的效率和專業(yè)性要求,為后續(xù)的文獻(xiàn)挖掘與分析提供堅(jiān)實(shí)基礎(chǔ)。

      3.1非定向眾包模式設(shè)計(jì)

      非定向眾包模式主要適用于非專業(yè)性任務(wù)。針對數(shù)量龐大、難度系數(shù)和專業(yè)性要求偏低的文獻(xiàn)數(shù)字化任務(wù),借由網(wǎng)絡(luò)平臺(tái)非定向眾包給普通用戶,利用“群體智慧”及資源實(shí)現(xiàn)海量歷史文獻(xiàn)的高效低成本數(shù)字化。同時(shí)借助質(zhì)量控制策略在一定程度上解決眾包用戶知識(shí)儲(chǔ)備、能力素質(zhì)差異及所貢獻(xiàn)成果質(zhì)量參差不齊等問題。

      3.2定向眾包模式設(shè)計(jì)

      定向眾包模式適用于強(qiáng)專業(yè)性任務(wù)。針對部分難度系數(shù)及專業(yè)性要求較高的核心文獻(xiàn)的數(shù)字化任務(wù),普通用戶往往在能力等多個(gè)方面無法勝任。此時(shí)就要根據(jù)實(shí)際需要定向招募一定數(shù)量的領(lǐng)域?qū)<覅⑴c眾包工作,可借助豬八戒等眾包網(wǎng)站或是通過內(nèi)推形式招募。借助領(lǐng)域?qū)<业膶I(yè)知識(shí)服務(wù),以保障眾包文獻(xiàn)的專業(yè)性和準(zhǔn)確性。另外,領(lǐng)域?qū)<乙材軌驗(yàn)槠胀ㄓ脩舻谋姲ぷ骷昂罄m(xù)眾包任務(wù)的質(zhì)量審核提供一定的指導(dǎo),從而提高整體的工作效率和質(zhì)量。

      3.3眾包模式總體架構(gòu)設(shè)計(jì)

      海量歷史文獻(xiàn)數(shù)字化處理眾包模式的總體架構(gòu)設(shè)計(jì)分為以下3層:基礎(chǔ)層、眾包運(yùn)作層及應(yīng)用服務(wù)層,各層之間相互獨(dú)立,功能上層層遞進(jìn),如圖3所示。

      基礎(chǔ)層負(fù)責(zé)海量原始?xì)v史文獻(xiàn)的初步數(shù)字化處理及存儲(chǔ)工作,即將原始文獻(xiàn)拍攝為微縮膠片,再轉(zhuǎn)化為數(shù)字圖像存儲(chǔ)于基礎(chǔ)層,是整個(gè)雙向眾包模式得以順利進(jìn)行的資源保證和根基所在;眾包運(yùn)作層是以非定向大眾知識(shí)生產(chǎn)為核心,輔以領(lǐng)域?qū)<覅f(xié)同的定向眾包模式,依托網(wǎng)絡(luò)平臺(tái)及眾包資源庫支撐進(jìn)行海量文獻(xiàn)資料的上傳整理、用戶招募篩選和任務(wù)分發(fā)審核,從而實(shí)現(xiàn)海量文獻(xiàn)的數(shù)字化進(jìn)程,具體涵蓋眾包資料管理、眾包用戶管理、眾包質(zhì)量管理及眾包薪酬管理4個(gè)板塊,各板塊間相互關(guān)聯(lián),形成運(yùn)作閉環(huán),與基礎(chǔ)層相互支撐,確保眾包模式的順利運(yùn)作;應(yīng)用服務(wù)層則主要面向?qū)<覍W(xué)者、歷史知識(shí)愛好者,用戶可根據(jù)個(gè)人需求下載或購買相應(yīng)的數(shù)字文獻(xiàn)資源,以進(jìn)行深入地分析和挖掘。

      3.4眾包模式的組織形式

      本文眾包模式采用傳統(tǒng)組織形式和新型網(wǎng)絡(luò)社區(qū)形式相結(jié)合的組織模式。傳統(tǒng)組織模式偏重職能性,按職能將人員分類并負(fù)責(zé)指定的工作內(nèi)容;新型網(wǎng)絡(luò)社區(qū)形式即基于眾包網(wǎng)站構(gòu)建社區(qū),即“眾包社區(qū)”,實(shí)現(xiàn)眾包參與者的知識(shí)共享、工作經(jīng)驗(yàn)交流等。眾包模式組織模式參考圖4。

      由管理員負(fù)責(zé)社區(qū)及用戶維護(hù)和管理。將眾包社區(qū)中的用戶分為眾包用戶和非眾包用戶,各類用戶之間均可進(jìn)行相互交流。眾包用戶包含普通用戶和定向招募的領(lǐng)域?qū)<?,所有的眾包用戶均從管理員處領(lǐng)取眾包任務(wù),提交后由校審員進(jìn)行審核評(píng)估,最終根據(jù)評(píng)估結(jié)果由管理員下發(fā)薪酬。

      3.5眾包模式業(yè)務(wù)流程設(shè)計(jì)

      基于雙向眾包模式的總體架構(gòu)設(shè)計(jì),進(jìn)一步確定具體工作流程以保證文獻(xiàn)數(shù)字化工作順利開展。眾包模式流程具體分為:海量歷史文獻(xiàn)整理分包流程、雙向眾包實(shí)施流程、眾包任務(wù)校審及薪酬分發(fā)流程和文獻(xiàn)資源存儲(chǔ)發(fā)布流程。

      3.5.1海量歷史文獻(xiàn)整理分包流程

      從基礎(chǔ)層調(diào)取存儲(chǔ)的初步數(shù)字化的文獻(xiàn)圖片資源和待翻譯的任務(wù)包,根據(jù)難度系數(shù)判別進(jìn)行文本化和翻譯任務(wù)分包,都區(qū)分核心和一般任務(wù)包,以便下一步雙向眾包流程的實(shí)施。參見圖5。

      3.5.2雙向眾包實(shí)施流程

      雙向眾包實(shí)施流程包括眾包用戶招募與眾包任務(wù)分發(fā),其中眾包用戶招募包括非定向招募普通用戶和定向招募領(lǐng)域?qū)<摇1疚谋姲J搅鞒袒诰W(wǎng)站設(shè)計(jì):首先,依托網(wǎng)絡(luò)進(jìn)行眾包任務(wù)發(fā)布及宣傳、眾包用戶招募,并根據(jù)報(bào)名者個(gè)人素質(zhì)能力評(píng)估進(jìn)行眾包用戶篩選;其次,通過篩選的眾包用戶,可在眾包網(wǎng)站上瀏覽并選取感興趣的眾包任務(wù)。每個(gè)用戶單次領(lǐng)取任務(wù)包不得超過3個(gè),且難度系數(shù)在7及7以上的眾包任務(wù)僅限領(lǐng)域?qū)<矣脩纛I(lǐng)取,即由領(lǐng)域?qū)<叶ㄏ蛱幚肀姲ぷ髦泻诵那译y度較大的文獻(xiàn),以避免眾包任務(wù)堆積而降低眾包效率和確保眾包結(jié)果的專業(yè)性。參見圖5。

      3.5.3眾包任務(wù)校審及薪酬分發(fā)流程

      眾包用戶完成相應(yīng)任務(wù)包后可在平臺(tái)提交個(gè)人眾包結(jié)果,校審員將會(huì)對其進(jìn)行審核。未通過質(zhì)量審核的眾包文件將進(jìn)行返工或取消該用戶眾包資質(zhì);針對通過審核的眾包結(jié)果將根據(jù)質(zhì)量進(jìn)行薪酬評(píng)估,再由管理員進(jìn)行薪酬支付。參見圖6。

      3.5.4文獻(xiàn)資源存儲(chǔ)及發(fā)布流程

      最后,審核通過的文本化及翻譯眾包結(jié)果將管理員存儲(chǔ)于基礎(chǔ)層,并及時(shí)發(fā)布在網(wǎng)站上,以便后續(xù)的查閱研究。參見圖6。

      3.6眾包用戶激勵(lì)及質(zhì)量控制

      3.6.1眾包用戶激勵(lì)。

      合理的激勵(lì)機(jī)制能夠有效激發(fā)參與者的積極性,并激勵(lì)其持續(xù)輸出高質(zhì)量且具備創(chuàng)新性的成果。常見的激勵(lì)形式有精神激勵(lì)和物質(zhì)激勵(lì),而對大多數(shù)用戶來說,單純的精神激勵(lì)并不能持續(xù)性地

      激勵(lì)用戶[11]參與。線性激勵(lì)機(jī)制較固定薪酬激勵(lì)機(jī)制來說,也更能夠激發(fā)用戶的參與積極性[12]。

      1)眾包激勵(lì)機(jī)制

      本文所提出的眾包激勵(lì)機(jī)制以物質(zhì)激勵(lì)(線性激勵(lì)機(jī)制)為主,并輔以精神激勵(lì)(如可接觸優(yōu)質(zhì)歷史資源等),激勵(lì)眾包用戶輸出高質(zhì)量成果。因此,眾包薪酬體系即眾包任務(wù)定價(jià)將是眾包激勵(lì)機(jī)制的核心部分。這里設(shè)眾包任務(wù)薪酬為:

      Y=γ(a.0+λn)

      其中,γ為質(zhì)量控制系數(shù)(根據(jù)眾包成果達(dá)標(biāo)與否,取γ=0,1;若γ=0,將該眾包成果無效,需退回處理),a.0為固定薪酬,λ為激勵(lì)系數(shù),n為線性薪酬基數(shù)。激勵(lì)系數(shù)取決于眾包任務(wù)難度、眾包質(zhì)量及其他未知因素;而眾包質(zhì)量與受眾包用戶能力水平、努力程度相關(guān)[12]。

      2)眾包任務(wù)定價(jià)

      基于以上,本文采用分級(jí)薪酬體系,根據(jù)具體的眾包任務(wù)難度和眾包質(zhì)量、以及相應(yīng)的激勵(lì)系數(shù),從而確定最終的眾包薪酬,如表1。其中,q為任務(wù)質(zhì)量,q=∑3.i=1q.i/3,分為不及格、及格、良好、優(yōu)秀4個(gè)等級(jí);d為任務(wù)難度d=∑2.i=1d.i/2,分為高、低兩個(gè)等級(jí);因此,共可得出7個(gè)薪酬激勵(lì)等級(jí)(若q為不及格時(shí),任務(wù)難度高低均為同一等級(jí)),可根據(jù)實(shí)際眾包實(shí)施情況對具體激勵(lì)系數(shù)設(shè)置進(jìn)行自定義調(diào)整。

      3.6.2眾包質(zhì)量控制

      由于眾包面向的是非特定的網(wǎng)絡(luò)大眾,參與者能力、素質(zhì)等多方面的不確定性導(dǎo)致最終眾包任務(wù)完成質(zhì)量不一,往往事倍功半。因此,完善的質(zhì)量控制體系是眾包系統(tǒng)設(shè)計(jì)中必須考慮的重點(diǎn)之一。鑒于整個(gè)眾包過程是動(dòng)態(tài)變化的,本文考慮引入基于監(jiān)測點(diǎn)的多層嵌套PDCA質(zhì)量模型對眾包質(zhì)量進(jìn)行階段式動(dòng)態(tài)控制,具體模型見圖7。

      首先將眾包過程劃分為眾包準(zhǔn)備、眾包實(shí)施、眾包質(zhì)量審核及反饋改進(jìn)4個(gè)階段性進(jìn)行質(zhì)量控制,并各階段選取相應(yīng)監(jiān)測點(diǎn),嵌套PDCA進(jìn)行階段式

      質(zhì)量反饋,以便及時(shí)發(fā)現(xiàn)并排除質(zhì)量異常點(diǎn),確保眾包工作順利進(jìn)行。

      主要質(zhì)量監(jiān)測點(diǎn)選取如下:眾包用戶篩選和眾包質(zhì)量審核。首先,將眾包用戶篩選作為首個(gè)質(zhì)量控制點(diǎn),通過控制用戶質(zhì)量以確保眾包工作能夠兼顧質(zhì)量與專業(yè)性。借助個(gè)人信息審查和能力測驗(yàn)等形式篩選合適的普通用戶并定向招募一定數(shù)量的領(lǐng)域?qū)<?,以開展后續(xù)的眾包工作。其次,眾包任務(wù)執(zhí)行階段,注意控制眾包任務(wù)的分發(fā),避免單個(gè)用戶單次領(lǐng)取的任務(wù)數(shù)量過多而導(dǎo)致眾包計(jì)劃超時(shí)。再次,將任務(wù)質(zhì)量審核作為第二個(gè)監(jiān)測點(diǎn),校審人員對所有眾包用戶提交的結(jié)果進(jìn)行審核,通過審核的用戶可重新領(lǐng)取新任務(wù)。質(zhì)量未達(dá)標(biāo)的任務(wù)將被退回修改或取消該用戶眾包參與資質(zhì),遺留任務(wù)將回到第二階段重新進(jìn)行分發(fā),從而形成閉環(huán),循環(huán)迭代以實(shí)現(xiàn)整體眾包質(zhì)量的提升。

      4粵海關(guān)歷史文獻(xiàn)數(shù)字化眾包試點(diǎn)及效果評(píng)估

      本文以廣東省檔案館館藏粵海關(guān)歷史文獻(xiàn)為數(shù)據(jù)源,通過小規(guī)模試點(diǎn)形式驗(yàn)證眾包模式在海量歷史文獻(xiàn)數(shù)字化工作中的可行性并評(píng)估其實(shí)際效果。廣東省檔案館約有藏檔共321個(gè)全宗,其中的粵海關(guān)檔案涉及1860-1949年的檔案共13 260卷,內(nèi)容涉及海關(guān)業(yè)務(wù)、貿(mào)易協(xié)定、社情民意等,以英文文獻(xiàn)居多。

      此次試點(diǎn)工作中,我們選取部分粵海關(guān)歷史文獻(xiàn),人工將微縮膠片的掃描件按照章節(jié)編號(hào)整合成PDF文檔,并將其錄入上傳至數(shù)據(jù)庫作為待領(lǐng)任務(wù)包,以便后續(xù)試點(diǎn)眾包工作運(yùn)作。

      4.1基于試點(diǎn)的眾包模式運(yùn)作

      首先抽取500份左右粵海關(guān)英文文獻(xiàn)整合成文本化任務(wù)包50個(gè),其中標(biāo)準(zhǔn)件任務(wù)包46個(gè)、文本化后的待翻譯任務(wù)包預(yù)計(jì)118個(gè),具體分包及定價(jià)見表2。此外,每個(gè)任務(wù)包中都有必要的任務(wù)說明、操作流程、質(zhì)量審核標(biāo)準(zhǔn)、保密協(xié)議等。

      通過線上渠道結(jié)合E-mail的形式替代網(wǎng)站作為眾包模式運(yùn)作平臺(tái),將上述眾包任務(wù)包通過線上渠道發(fā)布以招募眾包用戶,以高校學(xué)生為主要群體。少量核心、難度較大的任務(wù)包則通過專業(yè)網(wǎng)站(如豬八戒網(wǎng))進(jìn)行懸賞招募或定向招募專家進(jìn)行處理。眾包用戶領(lǐng)取相應(yīng)任務(wù)包后,在1~2周內(nèi)提交個(gè)人完成結(jié)果。之后由校審員進(jìn)行質(zhì)量審核評(píng)估,經(jīng)審核無誤后將薪酬打入眾包用戶支付寶賬戶。同時(shí)將眾包用戶個(gè)人信息登記表、工作量及工作質(zhì)量評(píng)估表、信譽(yù)度評(píng)價(jià)等進(jìn)行整理歸檔,以建立眾包用戶資源庫,可作為人才儲(chǔ)備供今后使用。

      4.2基于試點(diǎn)的眾包模式完成情況及效果評(píng)估

      經(jīng)過為期1個(gè)月的眾包試點(diǎn)運(yùn)行,50個(gè)文本化任務(wù)包和118個(gè)翻譯任務(wù)包均被領(lǐng)取,完成率都接近100%,較少出現(xiàn)退訂,具體試點(diǎn)完成情況見表3。

      基于以上粵海關(guān)歷史文獻(xiàn)眾包試點(diǎn)的結(jié)果反饋,驗(yàn)證了本文設(shè)計(jì)的眾包模式在歷史文獻(xiàn)數(shù)字化處理方面具備較大優(yōu)勢。

      4.2.1用戶參與度高

      眾包模式使得文獻(xiàn)數(shù)字化工作難度得以拆解,從而降低了普通大眾的參與門檻。非定向的招募形式為文獻(xiàn)數(shù)字化工作帶來了源源不斷的人力資源,同時(shí)借由定向招募領(lǐng)域?qū)<业男问綇浹a(bǔ)普通大眾在知識(shí)儲(chǔ)備和專業(yè)性上的缺陷,極大提高了用戶的參與度。

      4.2.2時(shí)間優(yōu)勢明顯

      針對約500份粵海關(guān)歷史文獻(xiàn)眾包試點(diǎn)的耗時(shí)分析(見圖8)可得,相較于傳統(tǒng)模式,眾包模式的應(yīng)用使得原來文本化和翻譯任務(wù)耗時(shí)從原來的2~3天和8~10天縮短至1天和3天,具備較大的時(shí)間優(yōu)勢。同時(shí)當(dāng)眾包模式應(yīng)用在海量歷史文獻(xiàn)的數(shù)字化工作時(shí),其人才、時(shí)間優(yōu)勢和規(guī)模效應(yīng)也就越強(qiáng)。

      4.2.3定向眾包模式成本優(yōu)勢明顯

      基于試點(diǎn)結(jié)果統(tǒng)計(jì)得,文本化眾包用戶時(shí)薪約為9~12元/時(shí),低于市場平均兼職價(jià)格13~18元;翻譯工作用戶每個(gè)任務(wù)包薪酬為40元,即時(shí)薪為15元/時(shí),25元/千詞,遠(yuǎn)低于市場價(jià)格。故眾包模式通過其規(guī)模優(yōu)勢降低了對單個(gè)用戶投入的成本,具有低成本性。具體如圖9。

      4.2.4定向眾包模式質(zhì)量可保證

      基于眾包模式的全流程質(zhì)量控制,普通粵海關(guān)歷史文獻(xiàn)文本化及翻譯試點(diǎn)工作各項(xiàng)關(guān)鍵指標(biāo)平均分均在8分以上。標(biāo)準(zhǔn)件識(shí)別、翻譯工作全部合格,優(yōu)秀率分別達(dá)65%、60%以上,結(jié)合專家定向處理核心手寫件,以保證眾包質(zhì)量。

      綜上,雙向眾包模式在整體運(yùn)作上是完全可行的,且具有高效的、低成本的特點(diǎn),同時(shí)擁有較高的參與度、專業(yè)性與完成質(zhì)量,完全可以持續(xù)應(yīng)用于海量歷史文獻(xiàn)數(shù)字化處理項(xiàng)目,可大規(guī)模開展與實(shí)施,且規(guī)模化優(yōu)勢明顯。

      5結(jié)論

      本文針對海量歷史文獻(xiàn)數(shù)字化過程中所面臨的文獻(xiàn)數(shù)量龐大、耗時(shí)長、成本過高等問題,將眾包理念引入傳統(tǒng)文獻(xiàn)數(shù)字化工作中,采用WBS方法分解海量歷史文獻(xiàn)處理工作,從基礎(chǔ)層、眾包運(yùn)作層和應(yīng)用服務(wù)層三方面構(gòu)建基于網(wǎng)絡(luò)平臺(tái)的雙向眾包模式,創(chuàng)新性的將網(wǎng)絡(luò)大眾自發(fā)知識(shí)生產(chǎn)模式與專家定向模式相結(jié)合,實(shí)現(xiàn)高效、低成本的歷史文獻(xiàn)價(jià)值挖掘。本文從組織構(gòu)建和流程設(shè)計(jì)兩大模塊剖析眾包模式的運(yùn)作,針對用戶激勵(lì)和質(zhì)量控制提出了具體的解決方案,并通過粵海關(guān)歷史文獻(xiàn)試點(diǎn)驗(yàn)證眾包模式在大規(guī)模文獻(xiàn)數(shù)字化處理工作中的可行性、高效性,具有較高的應(yīng)用前景。但同時(shí)也存在一些不足,具體如下:其一,本文中僅大致描述整個(gè)眾包系統(tǒng)及功能需求,尚未實(shí)現(xiàn)眾包系統(tǒng)建設(shè),在今后研究工作中需進(jìn)一步完善;其二,本文的眾包激勵(lì)機(jī)制以物質(zhì)激勵(lì)為主,較為單一,日后可考慮根據(jù)用戶反饋優(yōu)化激勵(lì)方案,以達(dá)到更好的激勵(lì)效果;其三,眾包模式的質(zhì)量控制體系雖然通過了試點(diǎn)驗(yàn)證,當(dāng)考慮到試點(diǎn)文獻(xiàn)數(shù)量有限,如何確保大規(guī)模文獻(xiàn)數(shù)字化處理的高質(zhì)量依舊是未來探索的重點(diǎn)。

      參考文獻(xiàn)

      [1]Howe J.The Rise of Crowdingsourcing[J].Wired Magazine,2006,14(6):1-4

      [2]Surowiecki J.The Wisdom of Crowds:Why the Many are Smarter than the Few and How Collective Wisdom Shapes Business,Economies,Societies,and Nations.[J].Personnel Psychology,2006,59(4):982-985.

      [3]張利斌,鐘復(fù)平,涂慧.眾包問題研究綜述[J].科技進(jìn)步與對策,2012,29(6):154-160.

      [4]仲秋雁,王彥杰,裘江南.眾包社區(qū)用戶持續(xù)參與行為實(shí)證研究[J].大連理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011,32(1):1-6.

      [5]Le Q,Panchal J H.Modeling the Effect of Product Architecture on Mass-Collaborative Processes[J].Journal of Computing & Information Science in Engineering,2011,11(1):1-12.

      [6]馬衛(wèi),方麗,屠建洲.從外包到眾包的商業(yè)模式變革及啟示[J].商業(yè)時(shí)代,2008,(1):13-14.

      [7]Howe J,Booksx I.Crowdsourcing:Why the Power of the Crowd is Driving the Future of Business[C]//Crown Publishing Group,2008:1565-1566.

      [8]Bloodgood M,Callison-Burch C.Using Mechanical Turk to Build Machine Translation Evaluation Sets[C]//NAACL Hlt 2010 Workshop on Creating Speech and Language Data with Amazons Mechanical Turk.Association for Computational Linguistics,2010:208-211.

      [9]Jeppesen L B,Lakhani K R.Marginality and Problem-Solving Effectiveness in Broadcast Search[J].Organization Science,2010,21(5):1016-1033.

      [10]盛芳,李正龍,焦坤,等.眾包與眾包館員制度:助推圖書館服務(wù)轉(zhuǎn)型[J].圖書情報(bào)知識(shí),2012,(4):95-102.

      [11]張志強(qiáng),逄居升,謝曉芹,等.眾包質(zhì)量控制策略及評(píng)估算法研究[J].計(jì)算機(jī)學(xué)報(bào),2013,36(8):1636-1649..

      [12].張鵬,魯若愚.眾包式創(chuàng)新激勵(lì)機(jī)制研究——基于委托代理理論[J].技術(shù)經(jīng)濟(jì)與管理研究,2012,2012(6):45-48.

      (責(zé)任編輯:郭沫含)

      余庆县| 莆田市| 嘉义市| 合阳县| 冕宁县| 蒲江县| 钟祥市| 浦江县| 延庆县| 且末县| 隆昌县| 玉环县| 沾化县| 论坛| 弋阳县| 博兴县| 合川市| 洪洞县| 平山县| 仁布县| 罗源县| 阜阳市| 呼玛县| 兰州市| 临泉县| 靖江市| 旺苍县| 微博| 商河县| 开远市| 长白| 苏尼特左旗| 盐源县| 芜湖市| 任丘市| 辽阳县| 铁力市| 天台县| 彭水| 龙游县| 兴海县|