99在线精品视频高潮喷吹网站_艾草无码视频网站_2023国产区精华品_18禁片无遮挡免_鲁丝一区鲁丝二区鲁丝去

當(dāng)前位置: 首頁 >  綜合 > 正文

ChatGPT背后的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈

2023-03-31 10:56:13 來源:中國小康網(wǎng)

制作于公元前196年的羅塞塔石碑(Rosetta Stone),刻有古埃及國王托勒密五世登基的詔書。

石碑上用古希臘文、古埃及象形文以及當(dāng)時埃及平民使用的通俗體文字刻了同樣的內(nèi)容,這讓考古學(xué)家解讀出失傳千余年的埃及象形文的意義與結(jié)構(gòu),找到讀懂古埃及的密碼。在AI領(lǐng)域,為了讓機器讀懂人類世界,同樣有一塊“羅塞塔石碑”——數(shù)據(jù)標(biāo)注,它的存在讓大規(guī)模訓(xùn)練數(shù)據(jù)的機器學(xué)習(xí)成為可能。


(資料圖)

人工智能在變得更聰明更有人情味的過程中,離不開數(shù)據(jù)標(biāo)注這個產(chǎn)業(yè)鏈。ChatGPT的火爆,會帶動數(shù)據(jù)標(biāo)注行業(yè)的高增長嗎?我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)目前的發(fā)展?fàn)顩r如何?為此,《小康》雜志、中國小康網(wǎng)采訪了業(yè)內(nèi)資深從業(yè)者一探究竟。

數(shù)字經(jīng)濟的發(fā)展底座

所謂數(shù)據(jù)標(biāo)注,指的是對未經(jīng)處理的語音、圖片、文本、視頻等原始數(shù)據(jù)進行加工處理, 使其成為結(jié)構(gòu)化數(shù)據(jù)讓機器可識別的過程。

算力、算法和數(shù)據(jù)被稱為是人工智能的“三駕馬車”。過去的十多年時間里,數(shù)據(jù)、算力、算法等技術(shù)的創(chuàng)新和迭代,可以說是“大爆炸”式的發(fā)展。這里的數(shù)據(jù),更精確地表述為數(shù)據(jù)集,用于人工智能算法模型訓(xùn)練,被公認(rèn)為人工智能算法的“燃料”,是實現(xiàn)人工智能技術(shù)與產(chǎn)業(yè)結(jié)合能力的必要條件。

近年來,人工智能產(chǎn)業(yè)的發(fā)展帶動了數(shù)據(jù)標(biāo)注行業(yè)的快速發(fā)展。數(shù)據(jù)標(biāo)注作為人工智能的基礎(chǔ)層,也為人工智能產(chǎn)業(yè)高速發(fā)展打下堅實的基礎(chǔ),催生了一批圍繞人工智能產(chǎn)業(yè)鏈、大數(shù)據(jù)產(chǎn)業(yè)的新模式、新業(yè)態(tài),成為數(shù)字經(jīng)濟發(fā)展的“數(shù)據(jù)”底座。

數(shù)據(jù)在AI發(fā)展過程中極為重要,業(yè)內(nèi)甚至將數(shù)據(jù)稱為“新的石油”來體現(xiàn)它作為將人類智能轉(zhuǎn)化為機器智能原材料的重要性。但放眼整個AI行業(yè),數(shù)據(jù)的受關(guān)注度遠(yuǎn)沒有AI三元素的另外兩個元素——算法和算力高。

造成這個結(jié)果的最主要原因就是數(shù)據(jù)標(biāo)注行業(yè)是一個勞動密集型的產(chǎn)業(yè),“足夠廉價的勞動力”是數(shù)據(jù)標(biāo)注公司的一大標(biāo)簽。

整數(shù)智能信息技術(shù)(杭州)有限責(zé)任公司致力于為AI領(lǐng)域企業(yè)提供數(shù)據(jù)服務(wù)。其聯(lián)合創(chuàng)始人趙子健接受《小康》雜志、中國小康網(wǎng)采訪時表示:“目前人工智能商業(yè)化在算力、算法和技術(shù)方面基本達到階段性成熟,想要更加落地,解決行業(yè)具體痛點,需要大量經(jīng)過標(biāo)注處理的相關(guān)數(shù)據(jù)做算法訓(xùn)練支撐,可以說數(shù)據(jù)決定了AI的落地程度。AI的發(fā)展離不開海量的數(shù)據(jù)去做訓(xùn)練和喂養(yǎng)。如果說人工智能是一片礦,不管哪一塊需要挖礦,都需要有礦工和挖礦的機器,而數(shù)據(jù)就可以理解為是挖礦的機器。作為底層的基礎(chǔ)設(shè)施,每一波的人工智能發(fā)展,作為提供數(shù)據(jù)服務(wù)的公司都能從中獲益,同時也面臨著更多的挑戰(zhàn)、機遇、發(fā)展前景和更大的市場?!?/p>

《小康》雜志、中國小康網(wǎng)了解到數(shù)據(jù)標(biāo)注行業(yè)有一套分工流程:巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”,比如兼職學(xué)生。一單生意幾經(jīng)轉(zhuǎn)手,就造成了行業(yè)眾包中介層疊越來越嚴(yán)重,利潤所剩無幾。然而,實際情況是怎樣的呢?

趙子健說:“不同公司定位不一樣。有些公司沒有產(chǎn)品技術(shù)研發(fā)的實力,能做的事情類似倒賣。一些小的城市,可能薪資較低,他們就適合做人力型團隊,提供數(shù)據(jù)標(biāo)注員?!?/p>

《小康》雜志、中國小康網(wǎng)進一步了解到,做標(biāo)注和外包審核這部分業(yè)務(wù)的公司人員流動性很大,因為這個業(yè)務(wù)比較枯燥,做的是純一線的重復(fù)性勞動,加之其他一些不穩(wěn)定因素,一般公司會優(yōu)先保證重要項目不出現(xiàn)人員斷檔。

國內(nèi)做數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司很少有單業(yè)務(wù)鏈,比如內(nèi)容審核集中在二三線甚至更小的城市,給的薪資相對會低。而做內(nèi)容審核、內(nèi)容標(biāo)注等這類業(yè)務(wù)的公司集中在天津、成都、重慶、西安……相對消費水準(zhǔn)低,投入成本也低。

一位不愿具名的業(yè)內(nèi)資深從業(yè)人士告訴《小康》雜志、中國小康網(wǎng),ChatGPT國產(chǎn)化有個非常大的風(fēng)險,通過大量的數(shù)據(jù)訓(xùn)練機器人,跟所有的人對話,這個過程中其接觸到的數(shù)據(jù)有很多可能是有問題的。有很多信息需要進行攔截,比如一些非法的信息。沒有經(jīng)過攔截的信息一經(jīng)流出,就有可能變成變相的宣傳渠道。如果沒有專門的人力對這方面的內(nèi)容加以把控的話,就會成為被利用的渠道。

為了方便管理,比如擔(dān)心內(nèi)容外泄,較大的互聯(lián)網(wǎng)公司都早早開始自建基地或者子公司,在安全和管理上更好把控,但成本會更高。字節(jié)跳動很早就自己建設(shè)基地,全國各地大概有六七個城市都有基地。以子公司來做數(shù)據(jù)標(biāo)注,更多是基于安全的考慮,比如涉及黃賭毒的內(nèi)容,有很多是不能流出的。必須承認(rèn)外包業(yè)務(wù)泄露的風(fēng)險要比自己公司泄露的風(fēng)險大。然而,從成本上考量一定是外包公司更好。

中國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)崛起中

數(shù)據(jù)標(biāo)注是計算機感知世界的起點,全球數(shù)據(jù)標(biāo)注行業(yè)是伴隨全球人工智能產(chǎn)業(yè)發(fā)展而生的。最早可以追溯到上世紀(jì)90年代,深藍戰(zhàn)勝國際象棋世界冠軍加里·卡斯帕羅夫,全球人工智能產(chǎn)業(yè)發(fā)展進入新的探索期,1996年澳鵬(Appen)誕生并開始布局?jǐn)?shù)據(jù)服務(wù)領(lǐng)域業(yè)務(wù)。2007年數(shù)據(jù)標(biāo)注行業(yè)正式拉開序幕,始于斯坦福大學(xué)教授李飛飛等人的ImageNet項目,該項目要通過亞馬遜的勞務(wù)眾包平臺Mechanical Turk(AMT)來完成圖片的標(biāo)注和處理,得到的數(shù)據(jù)集供機器算法訓(xùn)練和學(xué)習(xí)。此后,全球開始涌現(xiàn)出眾多的數(shù)據(jù)標(biāo)注企業(yè),全球數(shù)據(jù)標(biāo)注行業(yè)也進入成長期。

從行業(yè)供給情況來看,全球數(shù)據(jù)標(biāo)注行業(yè)企業(yè)主要分布在美國、中國、澳大利亞和非洲等國家和地區(qū),但具有一定規(guī)模的企業(yè)數(shù)量相對較少。在美國,數(shù)據(jù)標(biāo)注企業(yè)較多,突出的特點是技術(shù)驅(qū)動導(dǎo)向,數(shù)據(jù)標(biāo)注服務(wù)供給能力和質(zhì)量較高,代表性企業(yè)有Scale AI、Mighty AI、Mturk、Supervise.ly等;歐洲地區(qū)代表性企業(yè)有塞浦路斯的Mindy Support等。

數(shù)據(jù)標(biāo)注行業(yè)不被關(guān)注由來已久,直到美國數(shù)據(jù)標(biāo)注企業(yè)Scale AI,用5年時間(2016—2021)實現(xiàn)超73億美元的估值,才為國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)注入了一針強心劑。

此后,隨著特斯拉在2022 AI DAY上推出Auto Labelling標(biāo)注平臺,并推出4D標(biāo)注技術(shù),讓更多人知道了自動化標(biāo)注的存在,也讓更多專業(yè)的數(shù)據(jù)標(biāo)注企業(yè)走到臺前。

當(dāng)前,全球數(shù)據(jù)量仍在飛速增長的階段。根據(jù)IDC發(fā)布的《數(shù)據(jù)時代2025》測算,到2025年,全球的數(shù)據(jù)生產(chǎn)量將達到175ZB。目前市場上90%以上的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),得到有效利用的不足10%,對于這些非結(jié)構(gòu)化的數(shù)據(jù)只有經(jīng)過標(biāo)注處理才能激活其價值,這就產(chǎn)生了源源不斷的數(shù)據(jù)標(biāo)注處理需求,可以將數(shù)據(jù)標(biāo)注處理理解為結(jié)構(gòu)化數(shù)據(jù)的生產(chǎn)處理,而這些標(biāo)注企業(yè)就是數(shù)字經(jīng)濟時代下的新型生產(chǎn)制造企業(yè),生產(chǎn)出來的是“數(shù)據(jù)集”屬性的產(chǎn)品。

在全球數(shù)據(jù)量指數(shù)級的增長過程中,從非結(jié)構(gòu)化到結(jié)構(gòu)化的數(shù)據(jù)生產(chǎn),需要大量的數(shù)據(jù)標(biāo)注服務(wù),數(shù)據(jù)標(biāo)注將大大激活數(shù)據(jù)價值,提高數(shù)據(jù)質(zhì)量和發(fā)揮數(shù)據(jù)要素的作用。

“目前相對來說,人力成本比較便宜,國內(nèi)數(shù)據(jù)標(biāo)注業(yè)發(fā)展的時間節(jié)點會比美國機器替代人力的時間晚一些,業(yè)內(nèi)已經(jīng)開始有公司用自動化的方式去替代人力,去提高數(shù)據(jù)生產(chǎn)的自動化效果。”趙子健介紹說,數(shù)據(jù)標(biāo)注業(yè)務(wù)分不同的標(biāo)準(zhǔn)和不同的難度。比如做人臉識別的場景,數(shù)據(jù)標(biāo)注的任務(wù)要求并不高,對人力要求也不高。一些特殊領(lǐng)域,比如自動駕駛領(lǐng)域,還有一些小語種領(lǐng)域,或者專業(yè)知識性較強比如法律、金融這樣的場景任務(wù)對從業(yè)人員的知識儲備、綜合能力要求就特別高。薪水也會根據(jù)任務(wù)的復(fù)雜程度而有所區(qū)分。

趙子健所在的整數(shù)智能核心定位是產(chǎn)品型公司,做了一套自動化的數(shù)據(jù)標(biāo)注工具,把很多人力的工作用自動化的算法替代,以提升整體標(biāo)注速度和效率?!稗D(zhuǎn)包最大的問題就在于無法保證數(shù)據(jù)生產(chǎn)的質(zhì)量和速度,數(shù)據(jù)如果沒法保障,就會影響研發(fā)的進程,進一步影響商業(yè)化的進程,這是一個非常大的行業(yè)痛點?!彼f,“我們要做的事就是盡可能促進行業(yè)規(guī)范化?!痹摴就瞥龅淖詣踊瘶?biāo)準(zhǔn)工具可提效、替代70%的人力。此外,該公司自有供應(yīng)鏈穩(wěn)定持續(xù)產(chǎn)出,以此拓展科研機構(gòu)和企業(yè)客戶。

“勞動密集”邁向“技術(shù)密集”

根據(jù)《數(shù)據(jù)時代2025》測算,到2025年我國擁有的數(shù)據(jù)量在全球的占比將從2018年的23.4%提升到27.8%,位居全球首位。2015年以來,隨著國家的大力推動,我國大數(shù)據(jù)產(chǎn)業(yè)加速發(fā)展。一大批大數(shù)據(jù)產(chǎn)業(yè)園相繼落地,大數(shù)據(jù)產(chǎn)業(yè)生態(tài)加速完善,相關(guān)標(biāo)準(zhǔn)和技術(shù)體系持續(xù)完善,應(yīng)用市場日益壯大,產(chǎn)業(yè)國際影響力不斷提升。根據(jù)工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》產(chǎn)業(yè)規(guī)模測算,到2025年底,大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將突破3萬億元。在此背景下,數(shù)據(jù)標(biāo)注需求隨數(shù)據(jù)量增長而上升。長期來看,我國大數(shù)據(jù)支出整體呈穩(wěn)步增長態(tài)勢,市場總量有望在2024年超過200億美元。

在大多數(shù)人看來,人工智能是高大上的奢侈品,離實際生活太遠(yuǎn),而ChatGDP最大特點就在于,它讓每個人都真實地體驗到了高質(zhì)量的人工智能,這意味著它會調(diào)動社會的高關(guān)注度、積極性與熱情,也會使人工智能變成生活中的基礎(chǔ)設(shè)施,意味著會有更多人投入到這一領(lǐng)域,更多的資本追加、更多的市場關(guān)注度,以及更多的產(chǎn)品推出……這種情況下,AI與各行各業(yè)深度結(jié)合,數(shù)據(jù)標(biāo)注的業(yè)務(wù)量會進一步提升。

不少業(yè)內(nèi)人士表示,ChatGPT的火爆,對于數(shù)據(jù)標(biāo)注行業(yè)是利好的。ChatGPT國產(chǎn)化,數(shù)據(jù)標(biāo)注在整個市場里占據(jù)很大份額,因為它非常依賴于訓(xùn)練結(jié)果,機器可以訓(xùn)練底層的數(shù)據(jù),但是要想和人進行更人性化的溝通,以及要符合國家的一些規(guī)定,單靠機器很難做到,需要大量的人的主觀判斷,人工智能大發(fā)展也會為數(shù)據(jù)標(biāo)注行業(yè)帶來更好的發(fā)展。

互聯(lián)網(wǎng)內(nèi)容安全從業(yè)者表示,數(shù)據(jù)標(biāo)注10年內(nèi)不太可能被替代?!昂芏鄡?nèi)容,機器再怎么訓(xùn)練它的算法,也很難完全替代人,因為很多東西非常主觀、隱晦,機器很難通過算法識別出來,需要人力去做相應(yīng)的識別?!?/p>

趙子健則表示:“現(xiàn)在數(shù)據(jù)標(biāo)注行業(yè)已經(jīng)到了變革的時刻,傳統(tǒng)意義上,大家覺得數(shù)據(jù)標(biāo)注是人力密集型的行業(yè),但未來發(fā)展一定是技術(shù)密集型,以技術(shù)的自動化替代人力這條路其實在美國走得更快。美國相對來說人力成本較高,所以更早地使用機器替代人力,美國已有大型自動化的數(shù)據(jù)標(biāo)注公司,國內(nèi)也一定會誕生一批這樣的公司,真正實現(xiàn)提效,這是對于未來的行業(yè)預(yù)判?!彼芸隙ㄎ磥泶蠓较蛏先斯ぶ悄芤欢〞c各產(chǎn)業(yè)深度結(jié)合,而每個行業(yè),比如智慧醫(yī)療、智能制造、自動駕駛……這些場景都是海量的數(shù)據(jù)量級,數(shù)據(jù)已經(jīng)成為一個新的生產(chǎn)要素。工業(yè)的發(fā)展需要水電煤,新的經(jīng)濟產(chǎn)業(yè)基礎(chǔ)設(shè)施則需要有數(shù)據(jù)支持,所以,未來它會是整體經(jīng)濟發(fā)展的基礎(chǔ)設(shè)施。(孫媛媛)

標(biāo)簽:

<  上一篇

股市為什么要回調(diào)?什么是股票回調(diào)?

下一篇 >

數(shù)字生活場景日益增多 支付安全形勢嚴(yán)峻|天天精選