• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      星塵數(shù)據(jù):做數(shù)據(jù)標(biāo)注領(lǐng)域的羅賽塔石碑

      2023-05-30 09:09:28陳秀娟
      汽車(chē)觀察 2023年2期
      關(guān)鍵詞:星塵閉環(huán)工具

      陳秀娟

      通過(guò)自動(dòng)標(biāo)注算法技術(shù)、數(shù)據(jù)策略專(zhuān)家服務(wù)和數(shù)據(jù)閉環(huán)系統(tǒng)服務(wù),最終實(shí)現(xiàn)行業(yè)AI的平民化。

      在古老的埃及,考古學(xué)家在金字塔旁發(fā)現(xiàn)了一塊羅塞塔石碑Rosetta?Stone,這塊石碑上同時(shí)刻有古埃及法老托勒密五世詔書(shū)的三種不同語(yǔ)言版本,讓近代的考古學(xué)家得以有機(jī)會(huì)對(duì)照各語(yǔ)言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu)。

      如今,在中國(guó),有一家創(chuàng)業(yè)型科技公司解決了人類(lèi)語(yǔ)言和機(jī)器語(yǔ)言之間的轉(zhuǎn)譯鴻溝,立志于做數(shù)據(jù)標(biāo)注領(lǐng)域的羅塞塔石碑,讓大規(guī)模訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)成為可能。近日,AI數(shù)據(jù)服務(wù)商星塵數(shù)據(jù)在京舉行春季媒體開(kāi)放日暨Rosetta3.0平臺(tái)上線發(fā)布會(huì),Rosetta3.0平臺(tái)正式上線。

      發(fā)布會(huì)上,星塵數(shù)據(jù)創(chuàng)始人、CEO章磊提出了標(biāo)注行業(yè)認(rèn)知天梯,即初級(jí)認(rèn)知是標(biāo)注行業(yè)是“人力工廠”,服務(wù)商用相對(duì)初級(jí)的標(biāo)注工具、項(xiàng)目管理和海量人力就能干活,招標(biāo)時(shí)低價(jià)者中標(biāo),存在交付風(fēng)險(xiǎn);中級(jí)認(rèn)知是,對(duì)項(xiàng)目管理的難度和標(biāo)注工具的復(fù)雜度有一定認(rèn)知,投入工具研發(fā)和項(xiàng)目管理成本,研發(fā)周期長(zhǎng),管理難度大,數(shù)據(jù)迭代效率低;高級(jí)認(rèn)知是,重視平臺(tái)的技術(shù)實(shí)力,使用高度自動(dòng)化的標(biāo)注平臺(tái),且與數(shù)據(jù)服務(wù)商一起迭代數(shù)據(jù)閉環(huán)和數(shù)據(jù)策略。

      “做一款工具好用的平臺(tái)讓每個(gè)標(biāo)注員都來(lái)用”

      星塵數(shù)據(jù)是一家提供AI數(shù)據(jù)標(biāo)注和數(shù)據(jù)管理服務(wù)的企業(yè),成立于2017年5月,其創(chuàng)始人、CEO章磊是海歸數(shù)據(jù)科學(xué)家,先后在華爾街、硅谷工作十余年,曾在硅谷開(kāi)發(fā)過(guò)世界首款股權(quán)投資機(jī)器人,在華爾街工作期間開(kāi)發(fā)的底層風(fēng)控算法曾被美國(guó)聯(lián)邦儲(chǔ)蓄局作為壓測(cè)標(biāo)準(zhǔn)。

      接受《汽車(chē)觀察》記者采訪時(shí),章磊向記者談起了創(chuàng)辦星塵數(shù)據(jù)的初衷,是想做一款工具好用的平臺(tái)讓每個(gè)標(biāo)注員都來(lái)用。原來(lái)章磊回國(guó)后創(chuàng)辦的第一家創(chuàng)業(yè)公司是做自動(dòng)化投資,需要做NLP(自然語(yǔ)言處理)算法,在與數(shù)據(jù)堂、龍貓、百度這些數(shù)據(jù)標(biāo)注公司打交道過(guò)程中發(fā)現(xiàn),這些供應(yīng)商都不能滿足他們的需求?!耙?yàn)樽詣?dòng)化投資需要數(shù)據(jù)側(cè)和算法側(cè)能夠進(jìn)行深入交流,也就是數(shù)據(jù)閉環(huán),僅僅按每人每天進(jìn)行數(shù)據(jù)標(biāo)注并不能解決算法工程師的問(wèn)題。另外,由于標(biāo)注工具簡(jiǎn)陋不好用,標(biāo)注員產(chǎn)能也不高,既無(wú)法滿足企業(yè)的工期需求,也無(wú)法提高標(biāo)注員的個(gè)人收入?!闭吕谡f(shuō)。

      章磊指出,中國(guó)數(shù)據(jù)標(biāo)注行業(yè)進(jìn)入門(mén)檻較低,主導(dǎo)工具開(kāi)發(fā)的人員通常并非算法科學(xué)家出身,因此很難開(kāi)發(fā)出高效的預(yù)標(biāo)注、輔助標(biāo)注算法,更加困難的是設(shè)計(jì)相應(yīng)的產(chǎn)品去承接算法思維,需要真正懂算法的人去帶領(lǐng)團(tuán)隊(duì)開(kāi)發(fā)標(biāo)注工具和平臺(tái),提供數(shù)據(jù)策略咨詢,打通數(shù)據(jù)閉環(huán),真正滿足自動(dòng)駕駛算法側(cè)的需求。

      基于以上原因,章磊創(chuàng)辦了星塵數(shù)據(jù),在創(chuàng)立之初就確立了三個(gè)目標(biāo):首先,通過(guò)自動(dòng)化標(biāo)注提高標(biāo)注效率;其次,通過(guò)提供數(shù)據(jù)策略專(zhuān)家服務(wù),為客戶創(chuàng)造更多的價(jià)值;第三,通過(guò)數(shù)據(jù)閉環(huán)讓模型訓(xùn)練效果更好,數(shù)據(jù)標(biāo)注量更少,提高標(biāo)注性價(jià)比。

      為此,星塵數(shù)據(jù)推出國(guó)內(nèi)首個(gè)自動(dòng)化標(biāo)注平臺(tái)Rosetta平臺(tái),平臺(tái)提供數(shù)百個(gè)標(biāo)注功能,可支持圖像、點(diǎn)云、文本、語(yǔ)音、采集等在內(nèi)的100+種主流標(biāo)注場(chǎng)景。

      第三方服務(wù)商優(yōu)勢(shì)會(huì)越來(lái)越明顯

      標(biāo)注行業(yè)之所以會(huì)給人留下“人力工廠”的印象,是因?yàn)樵缙诘臄?shù)據(jù)標(biāo)注自動(dòng)化很低,以人力外包為主。人力標(biāo)注具有隨意性高、人與人能力有差別的問(wèn)題,數(shù)據(jù)量很大的時(shí)候,很容易出錯(cuò),返工率非常高,不能保證工時(shí)。

      隨著行業(yè)的發(fā)展,目前標(biāo)注行業(yè)存在企業(yè)自建標(biāo)注平臺(tái)和人力基地、自建平臺(tái)并通過(guò)外包人力工廠進(jìn)行標(biāo)注、企業(yè)與平臺(tái)供應(yīng)商合作等三種模式。在章磊看來(lái),隨著行業(yè)的不斷發(fā)展,第三種模式將逐漸成為主流,專(zhuān)業(yè)的SaaS(自助建站)平臺(tái)供應(yīng)商角色也將越來(lái)越突出。因?yàn)?,無(wú)論在自建標(biāo)注平臺(tái)還是標(biāo)注團(tuán)隊(duì)管理方面,與優(yōu)秀的第三方服務(wù)商相比,企業(yè)均不占優(yōu)勢(shì)。

      具體看來(lái),首先,這是由基礎(chǔ)設(shè)施云平臺(tái)化的大趨勢(shì)決定的。在全球科技企業(yè)大規(guī)模裁員的背景下,數(shù)據(jù)工具鏈相關(guān)的infra部門(mén)往往是最先被裁減的。曾有知乎用戶表示:“隨著云平臺(tái)和微服務(wù)的興起,各家公司對(duì)infra工程師的需求是只減不增的。互聯(lián)網(wǎng)公司自研基礎(chǔ)設(shè)施的時(shí)代已經(jīng)快要結(jié)束了,未來(lái)是云計(jì)算搭積木的時(shí)代?!?/p>

      其次,自動(dòng)化標(biāo)注工具設(shè)計(jì)細(xì)節(jié)較多,需要不斷完善。例如,自動(dòng)化標(biāo)注不僅需要拉框,還需要具備旋轉(zhuǎn)功能;在進(jìn)行2D/3D融合標(biāo)注時(shí),需要注意標(biāo)注細(xì)節(jié);開(kāi)發(fā)BEV標(biāo)注工具時(shí),需要切換BEV空間和攝像頭視角;開(kāi)發(fā)4D標(biāo)注功能,需要考慮時(shí)間維度等。因此,需要專(zhuān)業(yè)的供應(yīng)商來(lái)提供標(biāo)注工具的設(shè)計(jì)和開(kāi)發(fā)。

      再次,標(biāo)注員學(xué)歷普遍不高,參差不齊,可靠性差,需要流程管控。而專(zhuān)業(yè)的SaaS平臺(tái)供應(yīng)商則能夠提供完善的供應(yīng)商管理體系保障,Rosetta3.0平臺(tái)上有精細(xì)的多維度數(shù)據(jù)統(tǒng)計(jì)功能、每日匯報(bào)功能、自動(dòng)考試上崗功能,僅質(zhì)檢就有6種質(zhì)檢方法、100多種質(zhì)檢規(guī)則。對(duì)于質(zhì)量控制問(wèn)題,章磊舉了一個(gè)例子:“如果算法置信度為0.51的錯(cuò)誤怎么處理?如果算法質(zhì)檢不合格就駁回,會(huì)導(dǎo)致罷工。我們不僅有機(jī)器人質(zhì)檢,還有多維度的質(zhì)檢依據(jù)。”

      最后,對(duì)于自動(dòng)駕駛研發(fā)企業(yè)和機(jī)構(gòu)來(lái)說(shuō),標(biāo)注平臺(tái)開(kāi)發(fā)是成本中心,而對(duì)于平臺(tái)服務(wù)商來(lái)說(shuō),則能夠帶來(lái)顯著的利潤(rùn)。這種導(dǎo)向的不同也導(dǎo)致了雙方的成本投入存在天壤之別,未來(lái)這種差距將會(huì)越來(lái)越大。據(jù)業(yè)內(nèi)大廠評(píng)估,從零開(kāi)始自建平臺(tái),要達(dá)到像星塵數(shù)據(jù)平臺(tái)一樣先進(jìn)的水平,需要40名工程師投入兩年的時(shí)間才能完成開(kāi)發(fā)?!伴_(kāi)發(fā)平臺(tái)和工具非常耗費(fèi)時(shí)間和成本,而這不是客戶的核心競(jìng)爭(zhēng)力,客戶沒(méi)有必要自己來(lái)做?!闭吕谶M(jìn)一步說(shuō)。正因如此,章磊提出了標(biāo)注行業(yè)的認(rèn)知天梯。

      標(biāo)注行業(yè)的“救火隊(duì)員”

      星塵數(shù)據(jù)花了大量的時(shí)間和成本去開(kāi)發(fā)平臺(tái)和工具、打通端到端的數(shù)據(jù)閉環(huán)流程,在這期間,競(jìng)爭(zhēng)對(duì)手把更多成本和精力放在銷(xiāo)售上面,不惜低價(jià)搶單。但章磊認(rèn)為,好的產(chǎn)品具有自傳播性,用過(guò)星塵數(shù)據(jù)工具的標(biāo)注員黏性很高,不愿切換平臺(tái)再使用其他平臺(tái)的工具;客戶也是如此,供應(yīng)商在競(jìng)標(biāo)過(guò)程中以最低價(jià)中標(biāo),但在交付時(shí)卻無(wú)法按時(shí)交付或者標(biāo)注質(zhì)量不符合要求,這時(shí)候只能找星塵數(shù)據(jù)來(lái)解決問(wèn)題。盡管在商務(wù)方面起步較慢,但領(lǐng)先的技術(shù)優(yōu)勢(shì)符合標(biāo)注需求越來(lái)越復(fù)雜化的趨勢(shì),星塵數(shù)據(jù)開(kāi)始呈現(xiàn)反超特點(diǎn)。

      章磊強(qiáng)調(diào),星塵數(shù)據(jù)存在的目的不是要解決100%的數(shù)據(jù)標(biāo)注,而是解決那部分難的、行業(yè)前沿的大規(guī)模的數(shù)據(jù)標(biāo)注,這也是那些具有付費(fèi)能力的大客戶最大的痛點(diǎn)。他舉例表示:“常規(guī)的激光雷達(dá)點(diǎn)云對(duì)空間描繪能力的細(xì)節(jié)程度在30萬(wàn)~80萬(wàn)點(diǎn),星塵數(shù)據(jù)Rosetta平臺(tái)的4D重建點(diǎn)云標(biāo)注能力超過(guò)500萬(wàn)點(diǎn),在標(biāo)注處理能力上超出同行一個(gè)數(shù)量級(jí),因此,在南方某家自動(dòng)駕駛企業(yè)的4D標(biāo)注招標(biāo)項(xiàng)目中,多家供應(yīng)商通過(guò)試標(biāo)的方式進(jìn)行競(jìng)標(biāo)。在一張500萬(wàn)點(diǎn)的4D點(diǎn)云圖面前,同行全軍覆沒(méi),卡到藍(lán)屏,星塵系統(tǒng)絲毫沒(méi)有壓力,仍在絲滑順暢地進(jìn)行標(biāo)注。”

      此次上線的Rosetta3.0平臺(tái)進(jìn)一步升級(jí)了平臺(tái)能力。在算法層面,Rosetta3.0?提升了算法加持能力,新增?20+自研算法,點(diǎn)云標(biāo)注效率較純?nèi)斯?biāo)注提升5倍+,支持機(jī)器人標(biāo)注及質(zhì)檢,支持交互式標(biāo)注以及算法實(shí)時(shí)反饋;增強(qiáng)了自動(dòng)駕駛數(shù)據(jù)標(biāo)注能力,3D?渲染50幀/秒以上,支持超長(zhǎng)連續(xù)幀2?000+?流暢標(biāo)注,支持2?000W?點(diǎn)點(diǎn)云平滑標(biāo)注,支持?BEV標(biāo)注、3D重建標(biāo)注、4D標(biāo)注、毫米波標(biāo)注;增強(qiáng)數(shù)據(jù)閉環(huán)支持能力,打通Data?Ops和ML?Ops?鏈路,通過(guò)API對(duì)接實(shí)時(shí)發(fā)現(xiàn)難例,幫助客戶實(shí)現(xiàn)主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí);持續(xù)增強(qiáng)全方位、精細(xì)化質(zhì)檢能力,提供上百個(gè)行業(yè)通用質(zhì)檢規(guī)則服務(wù)和自研質(zhì)檢算法,為數(shù)據(jù)質(zhì)量保駕護(hù)航,標(biāo)注準(zhǔn)確率可達(dá)99.9%;強(qiáng)化數(shù)據(jù)管理能力,支持多源異構(gòu)數(shù)據(jù)管理、版本管理、標(biāo)簽管理、場(chǎng)景管理,支持?jǐn)?shù)據(jù)可視化、數(shù)據(jù)場(chǎng)景挖掘、多模態(tài)檢索等

      在平臺(tái)底層,Rosetta3.0采用微服務(wù)架構(gòu)模式,系統(tǒng)具備更高擴(kuò)展性和可用性,可支持?jǐn)?shù)萬(wàn)人同時(shí)作業(yè),并引入流式計(jì)算等大數(shù)據(jù)技術(shù),提升平臺(tái)數(shù)據(jù)實(shí)時(shí)處理能力;提供面向第三方的開(kāi)放服務(wù)能力,通過(guò)Open?API方式,和客戶建立靈活的數(shù)據(jù)通路和算法服務(wù)通路,加速客戶算法迭代速度;構(gòu)建?5A?數(shù)據(jù)安全保障體系,從產(chǎn)品、技術(shù)雙層面落地?5A?數(shù)據(jù)安全架構(gòu),實(shí)現(xiàn)端到端存儲(chǔ)傳輸使用安全、信息隱私保護(hù)、數(shù)據(jù)隔離等。

      據(jù)章磊介紹,除Rosetta?數(shù)據(jù)標(biāo)注平臺(tái)外,星塵數(shù)據(jù)還為客戶提供Rosetta標(biāo)注軟件基礎(chǔ)版、Rosetta標(biāo)注軟件高級(jí)版、Rosetta標(biāo)注軟件旗艦版、Rosetta?App、Rosetta獨(dú)立標(biāo)注工具、開(kāi)放平臺(tái)Open?API等眾多產(chǎn)品形態(tài),支持私有化部署和定制化軟件,滿足客戶多樣性需求。

      推動(dòng)AI平民化

      談及數(shù)據(jù)標(biāo)注行業(yè)的痛點(diǎn),章磊指出,在傳統(tǒng)的數(shù)據(jù)標(biāo)注流程中,算法人員制定數(shù)據(jù)標(biāo)注規(guī)則,標(biāo)注公司消化后再提供給標(biāo)注團(tuán)隊(duì)。然而,在執(zhí)行過(guò)程中,算法的思路并不能一次性達(dá)到最優(yōu)化。另外,數(shù)據(jù)標(biāo)注人員僅僅是一個(gè)“干活的”角色,并不能幫助更好地迭代算法效果。因此,算法側(cè)時(shí)常會(huì)有一些不合理的規(guī)則導(dǎo)致成本飆升或難度大增導(dǎo)致難以執(zhí)行。

      此外,數(shù)據(jù)管理也是企業(yè)頭痛的問(wèn)題。如,數(shù)據(jù)通過(guò)硬盤(pán)傳輸,效率低且無(wú)法管理。還存在數(shù)據(jù)批次多、臟數(shù)據(jù)多、清洗后有效數(shù)據(jù)少、同類(lèi)型數(shù)據(jù)重復(fù)標(biāo)注的問(wèn)題。“同一批數(shù)據(jù),雖然L2和L4模型訓(xùn)練都用得上,但企業(yè)缺乏數(shù)據(jù)策略意識(shí),數(shù)據(jù)復(fù)用性低,無(wú)形中增加了成本。”章磊進(jìn)一步說(shuō)。

      在服務(wù)90%頭部自動(dòng)駕駛客戶、經(jīng)歷上千個(gè)項(xiàng)目打磨后,星塵數(shù)據(jù)不僅沉淀出了行業(yè)領(lǐng)先的標(biāo)注平臺(tái)和工具,還培養(yǎng)出了經(jīng)驗(yàn)豐富的數(shù)據(jù)策略專(zhuān)家。

      章磊表示,數(shù)據(jù)策略中涉及大量前沿技術(shù),既包括算法和數(shù)據(jù)相關(guān)的技術(shù),如領(lǐng)域遷移、時(shí)空融合、數(shù)據(jù)增強(qiáng)、弱監(jiān)督學(xué)習(xí)等,也包括以數(shù)據(jù)為中心的反饋迭代技術(shù),如主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、數(shù)據(jù)檢索、數(shù)據(jù)安全、場(chǎng)景化數(shù)據(jù)生成、模型測(cè)試等。數(shù)據(jù)策略專(zhuān)家既要了解相關(guān)技術(shù),也要熟悉產(chǎn)品,以專(zhuān)業(yè)性來(lái)服務(wù)客戶。

      章磊指出,星塵數(shù)據(jù)的數(shù)據(jù)閉環(huán)解決方案是Rosetta3.0平臺(tái)的一大亮點(diǎn)?!叭鞒涕]環(huán)式AI數(shù)據(jù)系統(tǒng)將成為主流,星塵數(shù)據(jù)為此提早進(jìn)行研發(fā)布局。”

      在一個(gè)完整的數(shù)據(jù)閉環(huán)訓(xùn)練中,客戶可使用星塵數(shù)據(jù)提供的離線數(shù)據(jù)包進(jìn)行基礎(chǔ)版模型訓(xùn)練,星塵數(shù)據(jù)標(biāo)注系統(tǒng)通過(guò)API與客戶算法系統(tǒng)進(jìn)行交互,動(dòng)態(tài)感知客戶模型效果,基于模型各版本迭代,在經(jīng)歷幾次迭代后,不僅沉淀了有效數(shù)據(jù),還節(jié)省了數(shù)據(jù)成本。同時(shí),星塵數(shù)據(jù)還可以在海量數(shù)據(jù)中找到真正有價(jià)值的數(shù)據(jù)幫助客戶訓(xùn)練模型,并利用自有數(shù)據(jù)集評(píng)測(cè)模型效果。模型上線后,行車(chē)數(shù)據(jù)可用于模型迭代,形成數(shù)據(jù)閉環(huán)。該方案通過(guò)打通星塵數(shù)據(jù)標(biāo)注系統(tǒng)和客戶算法系統(tǒng),實(shí)現(xiàn)主動(dòng)學(xué)習(xí)、分批訓(xùn)練和動(dòng)態(tài)發(fā)掘有價(jià)值數(shù)據(jù),從而降低數(shù)據(jù)標(biāo)注規(guī)模,節(jié)省標(biāo)注成本。以Chat?GPT語(yǔ)言模型為例,通過(guò)星塵數(shù)據(jù)的Rosetta3.0數(shù)據(jù)標(biāo)注系統(tǒng),客戶可以將模型快速接入系統(tǒng),通過(guò)API實(shí)時(shí)將結(jié)果顯示在標(biāo)注平臺(tái)上,星塵數(shù)據(jù)專(zhuān)屬基地的NLP標(biāo)注員可以快速給出反饋。同時(shí),獎(jiǎng)勵(lì)強(qiáng)化模型實(shí)時(shí)接收到反饋并進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)模型的高效訓(xùn)練并及時(shí)發(fā)現(xiàn)缺陷。據(jù)悉,該解決方案目前已進(jìn)入POC測(cè)試環(huán)節(jié)。

      對(duì)于未來(lái),章磊表示,星塵數(shù)據(jù)希望做人類(lèi)語(yǔ)言和機(jī)器語(yǔ)言之間的羅塞塔石碑,通過(guò)自動(dòng)標(biāo)注算法(auto-labeling)技術(shù)、數(shù)據(jù)策略專(zhuān)家服務(wù)和數(shù)據(jù)閉環(huán)系統(tǒng)服務(wù),為全球人工智能企業(yè)特別是自動(dòng)駕駛行業(yè)提供“燃料”,最終實(shí)現(xiàn)AI的平民化。

      猜你喜歡
      星塵閉環(huán)工具
      波比的工具
      波比的工具
      星塵
      星塵
      少年文藝(2019年2期)2019-03-01 02:30:04
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      單周期控制下雙輸入Buck變換器閉環(huán)系統(tǒng)設(shè)計(jì)
      黑龍江電力(2017年1期)2017-05-17 04:25:05
      雙閉環(huán)模糊控制在石化廢水處理中的研究
      星塵雙肩包
      最優(yōu)價(jià)格與回收努力激勵(lì)的閉環(huán)供應(yīng)鏈協(xié)調(diào)
      一種基于全閉環(huán)實(shí)時(shí)數(shù)字物理仿真的次同步振蕩阻尼控制
      呼和浩特市| 潜山县| 四会市| 尚志市| 梓潼县| 芮城县| 正安县| 阿拉善左旗| 铜梁县| 共和县| 兴隆县| 佳木斯市| 阳信县| 洪雅县| 荃湾区| 寿阳县| 郯城县| 炉霍县| 青铜峡市| 大港区| 突泉县| 北宁市| 木里| 和田县| 水富县| 博客| 米林县| 乌拉特前旗| 黔江区| 观塘区| 二手房| 安康市| 阳原县| 伊吾县| 新沂市| 临漳县| 静海县| 内黄县| 乌兰察布市| 新田县| 邳州市|