智研咨詢 - 產(chǎn)業(yè)信息門戶

智研產(chǎn)業(yè)百科

一、定義及分類
二、商業(yè)模式
1、眾包模式
2、外包模式
三、行業(yè)政策
四、行業(yè)壁壘
1、技術能力壁壘
2、場景資源壁壘
3、行業(yè)經(jīng)驗壁壘
五、產(chǎn)業(yè)鏈
六、行業(yè)現(xiàn)狀
七、發(fā)展因素
1、有利因素
2、不利因素
八、競爭格局
九、發(fā)展趨勢

數(shù)據(jù)標注

摘要:數(shù)據(jù)加工包含數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過程,數(shù)據(jù)資源的質(zhì)量越高其價值越大。由于非結(jié)構(gòu)化數(shù)據(jù)占比越來越大,對于數(shù)據(jù)標注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個穩(wěn)定成長的行業(yè),市場標注行業(yè)市場規(guī)模不斷擴大,圖像類和語音類需求占比超八成。2022年中國數(shù)據(jù)標注行業(yè)市場規(guī)模約為51億元。


一、定義及分類


數(shù)據(jù)標注是指借助特定軟件標注工具以人工的方式將圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容打上特征標簽,使計算機通過大量學習這些帶有特征標簽的數(shù)據(jù),最終具備自主識別特征的一種行為。數(shù)據(jù)標注技術作為提供訓練數(shù)據(jù)的必經(jīng)環(huán)節(jié),促進了人工智能的快速發(fā)展。常見的數(shù)據(jù)標注按照數(shù)據(jù)類型可以分為圖像標注、文本標注及語音標注。

數(shù)據(jù)標注的分類及描述示意圖


二、商業(yè)模式


1、眾包模式


現(xiàn)在數(shù)據(jù)標注通常采取眾包的模式,眾包模式的優(yōu)點就是成本較低響應較快。這種式適用較簡單的項目如點點拉框等項目。發(fā)布者往往將任務詳細介紹和題目一同發(fā)送到平臺上供廣大數(shù)據(jù)標注兼職人員作答。但眾包模式有一個很明顯的問題就是質(zhì)量較難把控,每個人對規(guī)則的理解不盡相同且不可避免的會有一部分對任務亂答一通,影響項目質(zhì)量。為此各平臺也會使用一些方式減少問題的產(chǎn)生提高項目質(zhì)量。比如增加改判環(huán)節(jié)一道題在答完之后會由他人進行改判如若判錯則不獲得任務報酬,此外為防止錯判維護答題人員利益還會設置申訴環(huán)節(jié)使答題人員對有疑問的題目進行申訴。設置標注人員級別,標注人員任務正確率較高答題數(shù)較多則能慢慢提高等級解鎖更多任務獲得更多的任務報酬且有機會進入改判環(huán)節(jié)成為改判員。


2、外包模式


外包模式與眾包模式相對是將任務外包給專門的數(shù)據(jù)標注公司和團隊,在項目一開始會對項目整體進行評估然后針對項目整體進行報價由數(shù)據(jù)標注公司自行安排培訓安排人手,只需要保證在項目截止日期前保質(zhì)保量交付數(shù)據(jù)即可。這種模式的優(yōu)勢就是數(shù)據(jù)質(zhì)量和項目周期有保證。但是響應速度較慢成本較高,因為一開始需要安排競標且平臺需要安排專門的項目人員進行項目對接和項目跟進?,F(xiàn)如今國內(nèi)專門做數(shù)據(jù)標注的團隊較多,但是大多數(shù)只是以工作室和幾十人的小團隊為主且業(yè)務類型集中在簡單的拉框圖像標注上。也有一些的較大型的公司如貴州的夢動科技已經(jīng)形成產(chǎn)業(yè)化帶動了當?shù)氐陌l(fā)展。又或者是“點我科技”他們自建有平臺可以自研工具同時擔任著數(shù)據(jù)標注平臺和數(shù)據(jù)標注公司兩種角色。


三、行業(yè)政策


隨著數(shù)據(jù)要素市場不斷壯大,數(shù)據(jù)要素市場的各個參與主體都投入到市場運作中。政府作為數(shù)據(jù)要素市場的管理者,將發(fā)揮政策扶持和積極引導作用,推動公共數(shù)據(jù)擴大開放,構(gòu)建數(shù)據(jù)開放平臺。相關政策文件的密集出臺推動我國數(shù)據(jù)產(chǎn)業(yè)迅速發(fā)展,技術不斷進步,基礎設施不斷完善,融合應用不斷深入。2024年1月國家數(shù)據(jù)局等17部門發(fā)布《“數(shù)據(jù)要素×”三年行動計劃(2024-2026年)》中指出:《行動計劃》選取工業(yè)制造、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運輸、金融服務、科技創(chuàng)新、文化旅游、醫(yī)療健康、應急管理、氣象服務、城市治理、綠色低碳等12個行業(yè)和領域,推動發(fā)揮數(shù)據(jù)要素乘數(shù)效應,釋放數(shù)據(jù)要素價值。

中國數(shù)據(jù)標注行業(yè)相關政策梳理


四、行業(yè)壁壘


1、技術能力壁壘


隨著大模型時代的到來,數(shù)據(jù)標注行業(yè)對技術能力的要求越來越高。企業(yè)需要具備強大的數(shù)據(jù)處理能力,包括數(shù)據(jù)閉環(huán)工具鏈的智能化水平、對大模型/AI算法的理解、數(shù)據(jù)工程化能力以及基礎設施建設等。這些技術能力的缺乏會限制企業(yè)的發(fā)展,尤其是在自動化標注和處理復雜數(shù)據(jù)集方面。


2、場景資源壁壘


數(shù)據(jù)標注服務需要緊密結(jié)合具體的應用場景,這意味著企業(yè)必須擁有高質(zhì)量的場景數(shù)據(jù)和相應的領域?qū)<一蛏疃扔脩?。這些資源的獲取和維護需要大量的時間和成本投入,對于新進入者來說,缺乏這些資源會成為進入市場的障礙。


3、行業(yè)經(jīng)驗壁壘


數(shù)據(jù)標注行業(yè)的發(fā)展需要積累豐富的行業(yè)經(jīng)驗,這包括對客戶需求的深刻理解、數(shù)據(jù)標注流程的優(yōu)化以及與客戶的長期合作關系建立。新進入者缺乏這些經(jīng)驗,難以快速適應市場變化和客戶需求,從而在競爭中處于不利地位。


五、產(chǎn)業(yè)鏈


數(shù)據(jù)標注位于產(chǎn)業(yè)鏈中游,是AI商業(yè)化應用中重要的一環(huán)。行業(yè)的上游為數(shù)據(jù)源與數(shù)據(jù)產(chǎn)能,多元數(shù)據(jù)包括個人數(shù)據(jù)、企業(yè)數(shù)據(jù)、政府數(shù)據(jù)等,產(chǎn)能醫(yī)院供應方包括標注自愿提供方和硬件資源供應商。中游為數(shù)據(jù)標注廠商,包括AI基礎數(shù)據(jù)服務商,如海天瑞聲等。下游則是人工智能的應用,涉及智慧政務、金融、工業(yè)、自動駕駛等領域。其中,處于中游的AI基礎數(shù)據(jù)服務商主要進行數(shù)據(jù)的采集與標注,面向AI的數(shù)據(jù)治理平臺服務商則使用數(shù)據(jù)治理的各組件管治多源異構(gòu)數(shù)據(jù),使其形成數(shù)據(jù)資產(chǎn),提高數(shù)據(jù)質(zhì)量。二者處理后的數(shù)據(jù)可直接提供給下游用于AI訓練,從而加速AI落地。

數(shù)據(jù)標注行業(yè)產(chǎn)業(yè)鏈
AI基礎數(shù)據(jù)服務商
甲骨文(中國)軟件系統(tǒng)有限公司
微軟(中國)有限公司
北京人大金倉信息技術股份有限公司
北京聚源銳思數(shù)據(jù)科技有限公司
萬得信息技術股份有限公司
杭州安恒信息技術股份有限公司
廣州巨杉軟件開發(fā)有限公司
北京安信通網(wǎng)絡技術有限公司
北京奧星貝斯科技有限公司
天津南大通用數(shù)據(jù)技術股份有限公司
服務器
紫光股份有限公司
浪潮電子信息產(chǎn)業(yè)股份有限公司
四川長虹電子控股集團有限公司
曙光信息產(chǎn)業(yè)股份有限公司
軟通動力信息技術(集團)股份有限公司
拓維信息系統(tǒng)股份有限公司
IDC廠商
上游
北京云測信息技術有限公司
北京深度搜索科技有限公司
數(shù)據(jù)堂(北京)科技股份有限公司
北京安捷智合科技有限公司
中游
計算機視覺
智能語音
自然語言
下游


六、行業(yè)現(xiàn)狀


數(shù)據(jù)加工包含數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過程,數(shù)據(jù)資源的質(zhì)量越高其價值越大。具體分環(huán)節(jié)看:企業(yè)標配的能力,基本在數(shù)據(jù)收集存儲環(huán)節(jié)就已經(jīng)完成;數(shù)據(jù)標注:由于非結(jié)構(gòu)化數(shù)據(jù)占比越來越大,對于數(shù)據(jù)標注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個穩(wěn)定成長的行業(yè),市場標注行業(yè)市場規(guī)模不斷擴大,圖像類和語音類需求占比超八成。2022年中國數(shù)據(jù)標注行業(yè)市場規(guī)模約為51億元。

2017-2022年中國數(shù)據(jù)標注行業(yè)市場規(guī)模變化情況


七、發(fā)展因素


1、有利因素


(1)人工智能技術的飛速發(fā)展


隨著人工智能(AI)技術的不斷進步,尤其是計算機視覺和自然語言處理等領域的應用日益廣泛,對高質(zhì)量、專業(yè)化的數(shù)據(jù)標注需求急劇增加。數(shù)據(jù)標注作為AI技術發(fā)展的基礎,其市場需求隨之增長。例如,圖像和視頻標注的復合年增長率接近17%,預計到2024年數(shù)據(jù)標注市場的價值將達到486億美元。


(2)大模型時代的來臨


大模型(如GPT-3等)的開發(fā)和應用需要大量的高質(zhì)量數(shù)據(jù)作為訓練基礎。數(shù)據(jù)標注服務貫穿大模型的全生命周期,上下游合作關系更為緊密,這為數(shù)據(jù)標注行業(yè)帶來了新的增長點。大模型范式的涌入使得自動化標注效率進一步提升,同時也對標注人才提出了更高的要求,如高學歷多領域成為硬指標。


(3)政策支持和市場需求


中國政府對人工智能產(chǎn)業(yè)的大力支持,以及各行各業(yè)對智能化轉(zhuǎn)型的需求,為數(shù)據(jù)標注行業(yè)提供了廣闊的市場空間。例如,智能駕駛、醫(yī)療健康、金融科技等領域?qū)?shù)據(jù)標注的需求不斷增長,推動了行業(yè)的擴張。此外,合成數(shù)據(jù)作為新興賽道,其增速最高,為數(shù)據(jù)標注行業(yè)帶來了新的增長動力。例如《數(shù)據(jù)經(jīng)濟促進共同富裕實施方案》、《深入實施“東數(shù)西算”工程加快構(gòu)建全國一體化算力網(wǎng)的實施意見》、《“數(shù)據(jù)要素×”三年行動計劃(2024-2026年)》等政策。


2、不利因素


(1)行業(yè)洗牌與競爭加劇


隨著市場規(guī)模的擴大,更多的參與者進入數(shù)據(jù)標注行業(yè),導致市場競爭日益激烈。由于行業(yè)準入門檻相對較低,許多中小規(guī)模的數(shù)據(jù)服務供應商涌現(xiàn),這導致市場飽和,使得中小型供應商面臨嚴峻的生存壓力。同時,行業(yè)內(nèi)部會出現(xiàn)一波“洗牌期”,那些無法適應市場變化、提升技術水平和服務質(zhì)量的企業(yè)會被淘汰。


(2)技術門檻提升與人力成本增加


隨著AI企業(yè)對數(shù)據(jù)標注的需求變得更加高質(zhì)量、精細化和定制化,數(shù)據(jù)標注行業(yè)的技術門檻也在提高。這要求數(shù)據(jù)服務供應商具備更強的技術實力和精細化管理能力。同時,人力成本的上升也對數(shù)據(jù)標注企業(yè)構(gòu)成了壓力,尤其是在勞動力密集型的標注任務中,成本控制成為企業(yè)需要重點關注的問題。


(3)數(shù)據(jù)安全與隱私保護問題


數(shù)據(jù)標注涉及大量敏感信息的處理,如何確保數(shù)據(jù)的安全性和隱私保護成為行業(yè)的一個重要挑戰(zhàn)。在眾包、轉(zhuǎn)包模式下,數(shù)據(jù)的安全性難以得到充分保障,存在數(shù)據(jù)泄露的風險。此外,對于金融機構(gòu)和政府部門等特殊行業(yè)的需求方來說,數(shù)據(jù)的安全性尤為重要,數(shù)據(jù)標注企業(yè)需要建立完善的數(shù)據(jù)安全防護機制,以避免潛在的法律風險和信譽損失。


八、競爭格局


AI行業(yè)的蓬勃發(fā)展,對數(shù)據(jù)的需求呈井噴式增長,數(shù)據(jù)標注行業(yè)是伴隨著AI的興起而產(chǎn)生的一個新興行業(yè)。目前,我國國內(nèi)市場越來越多的互聯(lián)網(wǎng)巨頭公司開始組建自己的數(shù)據(jù)標注平臺,京東(京東眾智)、百度(百度眾測)都已經(jīng)擁有自己的標注平臺和工具。頭部公司之外,國內(nèi)近年興起眾多數(shù)據(jù)標注公司,如龍貓數(shù)據(jù)、Testin云測、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司僅次于第一梯隊,都具有相當?shù)囊?guī)模。

中國數(shù)據(jù)標注行業(yè)市場競爭格局


海天瑞聲是我國領先的訓練數(shù)據(jù)專業(yè)提供商。自2005年成立以來,公司致力于為AI產(chǎn)業(yè)鏈上的各類機構(gòu)提供算法模型開發(fā)訓練所需的專業(yè)數(shù)據(jù)集。公司所提供的訓練數(shù)據(jù)覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個核心領域,全面服務于人機交互、智能駕駛、智能家居、智慧城市等多種創(chuàng)新應用場景。2023年上半年公司收入為0.74億元。

2019-2023年上半年海天瑞聲營業(yè)收入變化


九、發(fā)展趨勢


置信度分數(shù)最高的片段用于對標簽的初始化,呈現(xiàn)給標注者。標注者可以從機器生成的多個候選標簽中為當前片段選擇合適的標簽,或者對機器未覆蓋到的對象添加分割段。AI輔助標注技術的應用,能夠極大地降低人力成本并使標注速度大幅提升。目前,已經(jīng)有一些數(shù)據(jù)標注公司開發(fā)了相應的半自動化工具,但是從標注比例來看,機器標注占30%左右,而人工標注占比達到70%左右。因此,數(shù)據(jù)標注工具的發(fā)展趨勢是開發(fā)以人工標注為主機器標注為輔的半自動化標注工具,同時減少人工標注的比例,并逐步提高機器標注的占比。

中國數(shù)據(jù)標注行業(yè)發(fā)展趨勢

版權(quán)提示

智研咨詢倡導尊重與保護知識產(chǎn)權(quán),對有明確來源的內(nèi)容注明出處。如發(fā)現(xiàn)本站文章存在版權(quán)、稿酬或其它問題,煩請聯(lián)系我們,我們將及時與您溝通處理。聯(lián)系方式:gaojian@chyxx.com、010-60343812。

擴展閱讀
2024年中國數(shù)據(jù)標注行業(yè)發(fā)展現(xiàn)狀及趨勢研判:數(shù)據(jù)標注發(fā)展?jié)摿薮?,細化?shù)據(jù)標注成為行業(yè)未來發(fā)展趨勢[圖]
2024年中國數(shù)據(jù)標注行業(yè)發(fā)展現(xiàn)狀及趨勢研判:數(shù)據(jù)標注發(fā)展?jié)摿薮?,細化?shù)據(jù)標注成為行業(yè)未來發(fā)展趨勢[圖]

數(shù)據(jù)標注是指借助特定軟件標注工具以人工的方式將圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容打上特征標簽,使計算機通過大量學習這些帶有特征標簽的數(shù)據(jù),最終具備自主識別特征的一種行為。數(shù)據(jù)標注技術作為提供訓練數(shù)據(jù)的必經(jīng)環(huán)節(jié),促進了人工智能的快速發(fā)展。常見的數(shù)據(jù)標注按照數(shù)據(jù)類型可以分為圖像標注、文本標注及語音標注。

預見2022:中國數(shù)據(jù)標注與審核行業(yè)產(chǎn)業(yè)鏈全景、發(fā)展歷程、市場規(guī)模、競爭格局及發(fā)展趨勢分析[圖]
預見2022:中國數(shù)據(jù)標注與審核行業(yè)產(chǎn)業(yè)鏈全景、發(fā)展歷程、市場規(guī)模、競爭格局及發(fā)展趨勢分析[圖]

2015-2021年,我國數(shù)據(jù)標注與審核行業(yè)市場規(guī)模保持穩(wěn)步增長態(tài)勢,2021年達到44.40億元。2015年以來,我國AI行業(yè)尚處在啟動期,預計在之后的幾年里,伴隨AI戰(zhàn)略被更多企業(yè)認同,更多資金和資源的投入,以及各項技術的實際應用落地,我國數(shù)據(jù)標注與審核行業(yè)將延續(xù)高速增長態(tài)勢。

在線咨詢
微信客服
微信掃碼咨詢客服
電話客服

咨詢熱線

400-700-9383
010-60343812
返回頂部
在線咨詢
研究報告
可研報告
專精特新
商業(yè)計劃書
定制服務
返回頂部