• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      ChatGPT背后的數(shù)據(jù)標注產(chǎn)業(yè)鏈

      2023-03-31 09:52:00孫媛媛
      小康 2023年9期
      關鍵詞:小康機器人力

      孫媛媛

      數(shù)據(jù)決定了AI落地程度,基礎數(shù)據(jù)服務是商業(yè)化過程中重要的一環(huán)。

      制作于公元前196年的羅塞塔石碑(Rosetta?Stone),刻有古埃及國王托勒密五世登基的詔書。

      石碑上用古希臘文、古埃及象形文以及當時埃及平民使用的通俗體文字刻了同樣的內(nèi)容,這讓考古學家解讀出失傳千余年的埃及象形文的意義與結構,找到讀懂古埃及的密碼。在AI領域,為了讓機器讀懂人類世界,同樣有一塊“羅塞塔石碑”——數(shù)據(jù)標注,它的存在讓大規(guī)模訓練數(shù)據(jù)的機器學習成為可能。

      人工智能在變得更聰明更有人情味的過程中,離不開數(shù)據(jù)標注這個產(chǎn)業(yè)鏈。ChatGPT的火爆,會帶動數(shù)據(jù)標注行業(yè)的高增長嗎?我國數(shù)據(jù)標注產(chǎn)業(yè)目前的發(fā)展狀況如何?為此,《小康》雜志、中國小康網(wǎng)采訪了業(yè)內(nèi)資深從業(yè)者一探究竟。

      數(shù)字經(jīng)濟的發(fā)展底座

      所謂數(shù)據(jù)標注,指的是對未經(jīng)處理的語音、圖片、文本、視頻等原始數(shù)據(jù)進行加工處理,?使其成為結構化數(shù)據(jù)讓機器可識別的過程。

      算力、算法和數(shù)據(jù)被稱為是人工智能的“三駕馬車”。過去的十多年時間里,數(shù)據(jù)、算力、算法等技術的創(chuàng)新和迭代,可以說是“大爆炸”式的發(fā)展。這里的數(shù)據(jù),更精確地表述為數(shù)據(jù)集,用于人工智能算法模型訓練,被公認為人工智能算法的“燃料”,是實現(xiàn)人工智能技術與產(chǎn)業(yè)結合能力的必要條件。

      近年來,人工智能產(chǎn)業(yè)的發(fā)展帶動了數(shù)據(jù)標注行業(yè)的快速發(fā)展。數(shù)據(jù)標注作為人工智能的基礎層,也為人工智能產(chǎn)業(yè)高速發(fā)展打下堅實的基礎,催生了一批圍繞人工智能產(chǎn)業(yè)鏈、大數(shù)據(jù)產(chǎn)業(yè)的新模式、新業(yè)態(tài),成為數(shù)字經(jīng)濟發(fā)展的“數(shù)據(jù)”底座。

      數(shù)據(jù)在AI發(fā)展過程中極為重要,業(yè)內(nèi)甚至將數(shù)據(jù)稱為“新的石油”來體現(xiàn)它作為將人類智能轉(zhuǎn)化為機器智能原材料的重要性。但放眼整個AI行業(yè),數(shù)據(jù)的受關注度遠沒有AI三元素的另外兩個元素——算法和算力高。

      造成這個結果的最主要原因就是數(shù)據(jù)標注行業(yè)是一個勞動密集型的產(chǎn)業(yè),“足夠廉價的勞動力”是數(shù)據(jù)標注公司的一大標簽。

      整數(shù)智能信息技術(杭州)有限責任公司致力于為AI領域企業(yè)提供數(shù)據(jù)服務。其聯(lián)合創(chuàng)始人趙子健接受《小康》雜志、中國小康網(wǎng)采訪時表示:“目前人工智能商業(yè)化在算力、算法和技術方面基本達到階段性成熟,想要更加落地,解決行業(yè)具體痛點,需要大量經(jīng)過標注處理的相關數(shù)據(jù)做算法訓練支撐,可以說數(shù)據(jù)決定了AI的落地程度。AI的發(fā)展離不開海量的數(shù)據(jù)去做訓練和喂養(yǎng)。如果說人工智能是一片礦,不管哪一塊需要挖礦,都需要有礦工和挖礦的機器,而數(shù)據(jù)就可以理解為是挖礦的機器。作為底層的基礎設施,每一波的人工智能發(fā)展,作為提供數(shù)據(jù)服務的公司都能從中獲益,同時也面臨著更多的挑戰(zhàn)、機遇、發(fā)展前景和更大的市場。”

      《小康》雜志、中國小康網(wǎng)了解到數(shù)據(jù)標注行業(yè)有一套分工流程:巨頭把任務交給中游的數(shù)據(jù)標注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”,比如兼職學生。一單生意幾經(jīng)轉(zhuǎn)手,就造成了行業(yè)眾包中介層疊越來越嚴重,利潤所剩無幾。然而,實際情況是怎樣的呢?

      趙子健說:“不同公司定位不一樣。有些公司沒有產(chǎn)品技術研發(fā)的實力,能做的事情類似倒賣。一些小的城市,可能薪資較低,他們就適合做人力型團隊,提供數(shù)據(jù)標注員?!?/p>

      《小康》雜志、中國小康網(wǎng)進一步了解到,做標注和外包審核這部分業(yè)務的公司人員流動性很大,因為這個業(yè)務比較枯燥,做的是純一線的重復性勞動,加之其他一些不穩(wěn)定因素,一般公司會優(yōu)先保證重要項目不出現(xiàn)人員斷檔。

      國內(nèi)做數(shù)據(jù)標注業(yè)務的公司很少有單業(yè)務鏈,比如內(nèi)容審核集中在二三線甚至更小的城市,給的薪資相對會低。而做內(nèi)容審核、內(nèi)容標注等這類業(yè)務的公司集中在天津、成都、重慶、西安……相對消費水準低,投入成本也低。

      一位不愿具名的業(yè)內(nèi)資深從業(yè)人士告訴《小康》雜志、中國小康網(wǎng),ChatGPT國產(chǎn)化有個非常大的風險,通過大量的數(shù)據(jù)訓練機器人,跟所有的人對話,這個過程中其接觸到的數(shù)據(jù)有很多可能是有問題的。有很多信息需要進行攔截,比如一些非法的信息。沒有經(jīng)過攔截的信息一經(jīng)流出,就有可能變成變相的宣傳渠道。如果沒有專門的人力對這方面的內(nèi)容加以把控的話,就會成為被利用的渠道。

      為了方便管理,比如擔心內(nèi)容外泄,較大的互聯(lián)網(wǎng)公司都早早開始自建基地或者子公司,在安全和管理上更好把控,但成本會更高。字節(jié)跳動很早就自己建設基地,全國各地大概有六七個城市都有基地。以子公司來做數(shù)據(jù)標注,更多是基于安全的考慮,比如涉及黃賭毒的內(nèi)容,有很多是不能流出的。必須承認外包業(yè)務泄露的風險要比自己公司泄露的風險大。然而,從成本上考量一定是外包公司更好。

      中國數(shù)據(jù)標注產(chǎn)業(yè)崛起中

      數(shù)據(jù)標注是計算機感知世界的起點,全球數(shù)據(jù)標注行業(yè)是伴隨全球人工智能產(chǎn)業(yè)發(fā)展而生的。最早可以追溯到上世紀90年代,深藍戰(zhàn)勝國際象棋世界冠軍加里·卡斯帕羅夫,全球人工智能產(chǎn)業(yè)發(fā)展進入新的探索期,1996年澳鵬(Appen)誕生并開始布局數(shù)據(jù)服務領域業(yè)務。2007年數(shù)據(jù)標注行業(yè)正式拉開序幕,始于斯坦福大學教授李飛飛等人的ImageNet項目,該項目要通過亞馬遜的勞務眾包平臺Mechanical?Turk(AMT)來完成圖片的標注和處理,得到的數(shù)據(jù)集供機器算法訓練和學習。此后,全球開始涌現(xiàn)出眾多的數(shù)據(jù)標注企業(yè),全球數(shù)據(jù)標注行業(yè)也進入成長期。

      從行業(yè)供給情況來看,全球數(shù)據(jù)標注行業(yè)企業(yè)主要分布在美國、中國、澳大利亞和非洲等國家和地區(qū),但具有一定規(guī)模的企業(yè)數(shù)量相對較少。在美國,數(shù)據(jù)標注企業(yè)較多,突出的特點是技術驅(qū)動導向,數(shù)據(jù)標注服務供給能力和質(zhì)量較高,代表性企業(yè)有Scale?AI、Mighty?AI、Mturk、Supervise.ly等;歐洲地區(qū)代表性企業(yè)有塞浦路斯的Mindy?Support等。

      數(shù)據(jù)標注行業(yè)不被關注由來已久,直到美國數(shù)據(jù)標注企業(yè)Scale?AI,用5年時間(2016—2021)實現(xiàn)超73億美元的估值,才為國內(nèi)數(shù)據(jù)標注行業(yè)注入了一針強心劑。

      此后,隨著特斯拉在2022?AI?DAY上推出Auto?Labelling標注平臺,并推出4D標注技術,讓更多人知道了自動化標注的存在,也讓更多專業(yè)的數(shù)據(jù)標注企業(yè)走到臺前。

      當前,全球數(shù)據(jù)量仍在飛速增長的階段。根據(jù)IDC發(fā)布的《數(shù)據(jù)時代2025》測算,到2025年,全球的數(shù)據(jù)生產(chǎn)量將達到175ZB。目前市場上90%以上的數(shù)據(jù)是非結構化數(shù)據(jù),得到有效利用的不足10%,對于這些非結構化的數(shù)據(jù)只有經(jīng)過標注處理才能激活其價值,這就產(chǎn)生了源源不斷的數(shù)據(jù)標注處理需求,可以將數(shù)據(jù)標注處理理解為結構化數(shù)據(jù)的生產(chǎn)處理,而這些標注企業(yè)就是數(shù)字經(jīng)濟時代下的新型生產(chǎn)制造企業(yè),生產(chǎn)出來的是“數(shù)據(jù)集”屬性的產(chǎn)品。

      在全球數(shù)據(jù)量指數(shù)級的增長過程中,從非結構化到結構化的數(shù)據(jù)生產(chǎn),需要大量的數(shù)據(jù)標注服務,數(shù)據(jù)標注將大大激活數(shù)據(jù)價值,提高數(shù)據(jù)質(zhì)量和發(fā)揮數(shù)據(jù)要素的作用。

      “目前相對來說,人力成本比較便宜,國內(nèi)數(shù)據(jù)標注業(yè)發(fā)展的時間節(jié)點會比美國機器替代人力的時間晚一些,業(yè)內(nèi)已經(jīng)開始有公司用自動化的方式去替代人力,去提高數(shù)據(jù)生產(chǎn)的自動化效果?!壁w子健介紹說,數(shù)據(jù)標注業(yè)務分不同的標準和不同的難度。比如做人臉識別的場景,數(shù)據(jù)標注的任務要求并不高,對人力要求也不高。一些特殊領域,比如自動駕駛領域,還有一些小語種領域,或者專業(yè)知識性較強比如法律、金融這樣的場景任務對從業(yè)人員的知識儲備、綜合能力要求就特別高。薪水也會根據(jù)任務的復雜程度而有所區(qū)分。

      趙子健所在的整數(shù)智能核心定位是產(chǎn)品型公司,做了一套自動化的數(shù)據(jù)標注工具,把很多人力的工作用自動化的算法替代,以提升整體標注速度和效率。“轉(zhuǎn)包最大的問題就在于無法保證數(shù)據(jù)生產(chǎn)的質(zhì)量和速度,數(shù)據(jù)如果沒法保障,就會影響研發(fā)的進程,進一步影響商業(yè)化的進程,這是一個非常大的行業(yè)痛點?!彼f,“我們要做的事就是盡可能促進行業(yè)規(guī)范化?!痹摴就瞥龅淖詣踊瘶藴使ぞ呖商嵝?、替代70%的人力。此外,該公司自有供應鏈穩(wěn)定持續(xù)產(chǎn)出,以此拓展科研機構和企業(yè)客戶。

      “勞動密集”邁向“技術密集”

      根據(jù)《數(shù)據(jù)時代2025》測算,到2025年我國擁有的數(shù)據(jù)量在全球的占比將從2018年的23.4%提升到27.8%,位居全球首位。2015年以來,隨著國家的大力推動,我國大數(shù)據(jù)產(chǎn)業(yè)加速發(fā)展。一大批大數(shù)據(jù)產(chǎn)業(yè)園相繼落地,大數(shù)據(jù)產(chǎn)業(yè)生態(tài)加速完善,相關標準和技術體系持續(xù)完善,應用市場日益壯大,產(chǎn)業(yè)國際影響力不斷提升。根據(jù)工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》產(chǎn)業(yè)規(guī)模測算,到2025年底,大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將突破3萬億元。在此背景下,數(shù)據(jù)標注需求隨數(shù)據(jù)量增長而上升。長期來看,我國大數(shù)據(jù)支出整體呈穩(wěn)步增長態(tài)勢,市場總量有望在2024年超過200億美元。

      在大多數(shù)人看來,人工智能是高大上的奢侈品,離實際生活太遠,而ChatGDP最大特點就在于,它讓每個人都真實地體驗到了高質(zhì)量的人工智能,這意味著它會調(diào)動社會的高關注度、積極性與熱情,也會使人工智能變成生活中的基礎設施,意味著會有更多人投入到這一領域,更多的資本追加、更多的市場關注度,以及更多的產(chǎn)品推出……這種情況下,AI與各行各業(yè)深度結合,數(shù)據(jù)標注的業(yè)務量會進一步提升。

      不少業(yè)內(nèi)人士表示,ChatGPT的火爆,對于數(shù)據(jù)標注行業(yè)是利好的。ChatGPT國產(chǎn)化,數(shù)據(jù)標注在整個市場里占據(jù)很大份額,因為它非常依賴于訓練結果,機器可以訓練底層的數(shù)據(jù),但是要想和人進行更人性化的溝通,以及要符合國家的一些規(guī)定,單靠機器很難做到,需要大量的人的主觀判斷,人工智能大發(fā)展也會為數(shù)據(jù)標注行業(yè)帶來更好的發(fā)展。

      互聯(lián)網(wǎng)內(nèi)容安全從業(yè)者表示,數(shù)據(jù)標注10年內(nèi)不太可能被替代?!昂芏鄡?nèi)容,機器再怎么訓練它的算法,也很難完全替代人,因為很多東西非常主觀、隱晦,機器很難通過算法識別出來,需要人力去做相應的識別?!?/p>

      趙子健則表示:“現(xiàn)在數(shù)據(jù)標注行業(yè)已經(jīng)到了變革的時刻,傳統(tǒng)意義上,大家覺得數(shù)據(jù)標注是人力密集型的行業(yè),但未來發(fā)展一定是技術密集型,以技術的自動化替代人力這條路其實在美國走得更快。美國相對來說人力成本較高,所以更早地使用機器替代人力,美國已有大型自動化的數(shù)據(jù)標注公司,國內(nèi)也一定會誕生一批這樣的公司,真正實現(xiàn)提效,這是對于未來的行業(yè)預判?!彼芸隙ㄎ磥泶蠓较蛏先斯ぶ悄芤欢〞c各產(chǎn)業(yè)深度結合,而每個行業(yè),比如智慧醫(yī)療、智能制造、自動駕駛……這些場景都是海量的數(shù)據(jù)量級,數(shù)據(jù)已經(jīng)成為一個新的生產(chǎn)要素。工業(yè)的發(fā)展需要水電煤,新的經(jīng)濟產(chǎn)業(yè)基礎設施則需要有數(shù)據(jù)支持,所以,未來它會是整體經(jīng)濟發(fā)展的基礎設施。

      猜你喜歡
      小康機器人力
      我家的小康
      黃河之聲(2022年6期)2022-08-26 06:46:12
      機器狗
      機器狗
      人事檔案管理在人力資源管理中的作用
      人力資源管理促進企業(yè)績效提升
      我家的小康
      心聲歌刊(2021年6期)2021-02-16 01:12:34
      以非常之功,赴小康之路
      金橋(2020年9期)2020-10-27 02:00:02
      海外并購中的人力資源整合之道
      中國外匯(2019年19期)2019-11-26 00:57:32
      小康之路
      金橋(2019年10期)2019-08-13 07:15:26
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      衡南县| 潞西市| 黄大仙区| 溧阳市| 成安县| 长乐市| 敖汉旗| 昂仁县| 弋阳县| 报价| 游戏| 宁乡县| 甘孜| 郸城县| 元朗区| 永新县| 米脂县| 舞阳县| 乌拉特前旗| 高唐县| 长治县| 商河县| 阳曲县| 龙井市| 榆树市| 徐州市| 云浮市| 永登县| 安岳县| 阳谷县| 崇明县| 潞城市| 徐州市| 台山市| 瑞金市| 博野县| 台南市| 松潘县| 张掖市| 沽源县| 社旗县|