近日,在ICVS中國(guó)自動(dòng)駕駛年會(huì)—火山引擎 X NVIDIA云上創(chuàng)新專(zhuān)場(chǎng)上,火山引擎首次面向智駕行業(yè)集中展示了AI數(shù)據(jù)服務(wù)的能力。據(jù)了解,火山引擎AI數(shù)據(jù)服務(wù)提供高質(zhì)量的數(shù)據(jù)采集、標(biāo)注服務(wù),平均交付準(zhǔn)確率已經(jīng)可以實(shí)現(xiàn)99%以上。
對(duì)于自動(dòng)駕駛領(lǐng)域的研發(fā)來(lái)說(shuō),將大量標(biāo)注過(guò)的數(shù)據(jù)“投喂”給算法,通過(guò)訓(xùn)練讓模型具備感知能力并達(dá)到一定識(shí)別準(zhǔn)確率的一過(guò)程,早已成為“行業(yè)標(biāo)配”。
所謂“數(shù)據(jù)標(biāo)注”,是指對(duì)未經(jīng)處理的語(yǔ)音、圖片、文本、視頻等原始數(shù)據(jù)進(jìn)行加工處理, 并轉(zhuǎn)換為機(jī)器可識(shí)別的信息的過(guò)程。不過(guò),隨著應(yīng)用場(chǎng)景的不斷豐富,自動(dòng)駕駛所需標(biāo)注的數(shù)據(jù)類(lèi)型越來(lái)越呈現(xiàn)天量、多樣化,數(shù)據(jù)標(biāo)注的準(zhǔn)確性難以保證,且綜合成本較高。造成這一結(jié)果的原因,除了需求的不確定性、標(biāo)注標(biāo)準(zhǔn)較為單一化等之外,人力成本和返工成本較高也是很重要的原因。
當(dāng)前,許多數(shù)據(jù)標(biāo)注企業(yè)仍停留在勞動(dòng)密集型產(chǎn)業(yè)的定位中,在面對(duì)現(xiàn)階段自動(dòng)駕駛所需要處理的巨量數(shù)據(jù)時(shí),就顯得捉襟見(jiàn)肘。
從趨勢(shì)上來(lái)看,行業(yè)正在向AI輔助+精細(xì)化管理的方向轉(zhuǎn)變。通過(guò)AI輔助標(biāo)注算法的升級(jí),減少人力、提升標(biāo)注效率,是未來(lái)數(shù)據(jù)標(biāo)注創(chuàng)新的路徑之一。需要大規(guī)模堆人力的魔咒,正在不斷被技術(shù)所打破。
據(jù)介紹,火山引擎數(shù)據(jù)標(biāo)注平臺(tái)中集成了多種標(biāo)注模板、預(yù)標(biāo)注與邊標(biāo)邊訓(xùn)算法,同時(shí)具有保障數(shù)據(jù)安全、平臺(tái)操作便捷、可定制化、可與火山引擎云產(chǎn)品打通的特性。通過(guò)模版工具豐富多樣、人工與算法靈活配合、數(shù)據(jù)服務(wù)專(zhuān)業(yè)高效靈活將持續(xù)為客戶(hù)的數(shù)據(jù)處理工作保駕護(hù)航。
圖:火山引擎數(shù)據(jù)標(biāo)注平臺(tái)的優(yōu)勢(shì)
另外,平臺(tái)支持系統(tǒng)部署到企業(yè)自有服務(wù)器上,企業(yè)的所有系統(tǒng)數(shù)據(jù)均在自主管理下,私密數(shù)據(jù)的安全性有保障。同時(shí)還可根據(jù)企業(yè)自身需求與業(yè)務(wù)場(chǎng)景,定制個(gè)性化產(chǎn)品方案,讓產(chǎn)品更好地被企業(yè)使用,實(shí)現(xiàn)業(yè)務(wù)發(fā)展與標(biāo)注需求的一比一完美適配。
在標(biāo)注工具方面,則實(shí)現(xiàn)了對(duì)各類(lèi)常見(jiàn)的文本、圖像、視頻、語(yǔ)音、3D點(diǎn)云數(shù)據(jù)的自定義處理需求,降低了模板冗余,幫助客戶(hù)快速獲取低成本、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。
在算法賦能方面,火山引擎的數(shù)據(jù)標(biāo)注平臺(tái)的AI預(yù)標(biāo)注與邊標(biāo)邊訓(xùn)的算法能力,大幅提高了標(biāo)注效率與準(zhǔn)確率,可輔助和代替部分人工操作,并根據(jù)項(xiàng)目類(lèi)型,選擇適合的模型能力在相應(yīng)項(xiàng)目階段接入。
圖:標(biāo)注平臺(tái)的模型能力
模型過(guò)濾階段:由模型進(jìn)行原始數(shù)據(jù)的分析,過(guò)濾掉不需要人工標(biāo)注的數(shù)據(jù),只留下需要人工標(biāo)注的數(shù)據(jù)。
模型預(yù)標(biāo)階段:用模型進(jìn)行數(shù)據(jù)的預(yù)先標(biāo)注,標(biāo)注員只需進(jìn)行確認(rèn)或修改。
模型糾錯(cuò)階段:在標(biāo)注作業(yè)時(shí),模型可以實(shí)時(shí)進(jìn)行智能糾錯(cuò),避免標(biāo)注員提交低質(zhì)量任務(wù)。
模型質(zhì)檢環(huán)節(jié):在質(zhì)檢作業(yè)時(shí),模型可以輔助篩選需重點(diǎn)質(zhì)檢任務(wù)或直接完成數(shù)據(jù)的驗(yàn)收。
火山引擎利用邊標(biāo)邊訓(xùn)的數(shù)據(jù)標(biāo)注模型,智能化地學(xué)習(xí)作業(yè)內(nèi)容與標(biāo)注尺度,通過(guò)“自學(xué)習(xí)”方式驅(qū)動(dòng)完成算法迭代,“智能+無(wú)感知”地學(xué)習(xí)人工標(biāo)注習(xí)慣,帶來(lái)更高的準(zhǔn)確率和更好的數(shù)據(jù)標(biāo)注體驗(yàn)。
在接到長(zhǎng)周期、大批量類(lèi)型項(xiàng)目時(shí),模型偏向于“特定業(yè)務(wù)類(lèi)型”,高準(zhǔn)確率帶來(lái)更高的人效收益;在處理短周期、小批量類(lèi)型項(xiàng)目時(shí),系統(tǒng)可快速切入并賦能業(yè)務(wù),節(jié)省前期人工準(zhǔn)備的時(shí)間。最終可實(shí)現(xiàn)30%-100%的效率提升和10%-30%的質(zhì)量提升。
在業(yè)務(wù)快速發(fā)展的當(dāng)下,AI數(shù)據(jù)服務(wù)業(yè)務(wù)對(duì)工時(shí)精細(xì)化管理的需求愈發(fā)迫切。
圖:工時(shí)管理平臺(tái)
為了更好的服務(wù)業(yè)務(wù),火山引擎還推出工時(shí)管理系平臺(tái)。該管理平臺(tái)將實(shí)現(xiàn)工時(shí)精細(xì)化管理,推進(jìn)工時(shí)管理系統(tǒng)化進(jìn)程,提高工時(shí)數(shù)據(jù)的準(zhǔn)確性,為高效實(shí)現(xiàn)項(xiàng)目工時(shí)管理和人效管理提供有力支持。
AI數(shù)據(jù)服務(wù)負(fù)責(zé)人金亮表示,“當(dāng)前,AI算法對(duì)訓(xùn)練數(shù)據(jù)維度和樣本復(fù)雜性的要求變得越來(lái)越高,這對(duì)數(shù)據(jù)標(biāo)注技術(shù)、標(biāo)注平臺(tái)能力、數(shù)據(jù)安全、不同維度數(shù)據(jù)協(xié)同標(biāo)注等都提出了挑戰(zhàn)。火山引擎AI數(shù)據(jù)服務(wù)通過(guò)打造智能化數(shù)據(jù)平臺(tái),輔以交互式人工標(biāo)注和質(zhì)量控制措施,將有效降低數(shù)據(jù)標(biāo)注復(fù)雜度,提升整體數(shù)據(jù)質(zhì)量,最終解決自動(dòng)駕駛模型訓(xùn)練的痛點(diǎn),快速地部署AI。”(作者:董凌)
關(guān)鍵詞: