人工智能技術(shù)的突破性進(jìn)展正深刻重塑全球產(chǎn)業(yè)格局,而高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,已成為國(guó)家科技發(fā)展的核心要素。高質(zhì)量數(shù)據(jù)集不僅是技術(shù)創(chuàng)新的“燃料”,更是推動(dòng)超級(jí)人工智能、具身智能、自動(dòng)駕駛等未來(lái)產(chǎn)業(yè)落地的關(guān)鍵引擎。
中國(guó)信息通信研究院副院長(zhǎng)魏亮在“2025人民數(shù)據(jù)大會(huì)”發(fā)表主旨演講。人民網(wǎng)記者 翁奇羽攝
8月26日,中國(guó)信息通信研究院副院長(zhǎng)魏亮在“2025人民數(shù)據(jù)大會(huì)”發(fā)表主旨演講時(shí)表示,在大模型為代表的人工智能技術(shù)發(fā)展過(guò)程中,數(shù)據(jù)是大模型智慧的來(lái)源,任何一個(gè)高性能大模型,都離不開(kāi)高質(zhì)量的數(shù)據(jù)集。多模態(tài)數(shù)據(jù)、具身智能數(shù)據(jù)、推理思維鏈數(shù)據(jù)和長(zhǎng)視頻數(shù)據(jù)是下一步高質(zhì)量數(shù)據(jù)集建設(shè)的重點(diǎn)。
隨著人工智能加速迭代,大模型如雨后春筍般不斷涌現(xiàn),大模型需要的數(shù)據(jù)集增速遠(yuǎn)遠(yuǎn)高于高質(zhì)量數(shù)據(jù)集生產(chǎn)和生成的速度,高質(zhì)量、高價(jià)值密度的數(shù)據(jù)集將撐起一個(gè)企業(yè)差異化競(jìng)爭(zhēng),成為企業(yè)人工智能業(yè)務(wù)發(fā)展的護(hù)城河。
“誰(shuí)有高質(zhì)量數(shù)據(jù),就可以訓(xùn)練出一個(gè)好用的垂類模型。當(dāng)垂類大模型在生產(chǎn)中規(guī)模使用,會(huì)生成更多高質(zhì)量數(shù)據(jù)再反饋到該模型中,從而實(shí)現(xiàn)‘數(shù)據(jù)飛輪’效應(yīng)。”魏亮認(rèn)為,高質(zhì)量數(shù)據(jù)的供給有三個(gè)方面的措施,即數(shù)據(jù)技術(shù)、數(shù)據(jù)工程以及數(shù)據(jù)治理:
數(shù)據(jù)技術(shù)包含新一代標(biāo)注技術(shù)與合成技術(shù)。當(dāng)前,有高技術(shù)含量、高知識(shí)密度、高價(jià)值的應(yīng)用,行業(yè)頂尖專家的高水平數(shù)據(jù)可能需要幾十美元甚至上百美元,成為新一代標(biāo)注技術(shù)的方向。合成技術(shù)從最初用來(lái)解決流通中隱私問(wèn)題,如今也在應(yīng)對(duì)訓(xùn)練集不足,包括用物理仿真、統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)等領(lǐng)域發(fā)揮更大作用。數(shù)據(jù)工程旨在提升模型數(shù)據(jù)集管理和效率,即能夠規(guī)?;?、高效生成好用的數(shù)據(jù)集,圍繞管理體系、開(kāi)發(fā)維護(hù)、質(zhì)量控制、資源運(yùn)行和合規(guī)可用五大要素搭建數(shù)據(jù)工程。數(shù)據(jù)治理即在控制數(shù)據(jù)過(guò)程中實(shí)現(xiàn)高質(zhì)量和可靠,以及安全與合規(guī),倫理要求都需要在數(shù)據(jù)治理中得到體現(xiàn),從而使數(shù)據(jù)治理更好地服務(wù)數(shù)據(jù)集建設(shè)。
魏亮表示,高質(zhì)量數(shù)據(jù)集的建設(shè)是提高人工智能性能的關(guān)鍵,也是推動(dòng)“人工智能+”行動(dòng)落地的保證。隨著“人工智能+”行動(dòng)的發(fā)布,標(biāo)志著人工智能進(jìn)入一個(gè)數(shù)據(jù)驅(qū)動(dòng)的新階段。要通過(guò)AI的數(shù)據(jù)技術(shù)、數(shù)據(jù)工程、數(shù)據(jù)治理,能夠共同推動(dòng)高質(zhì)量數(shù)據(jù)要素的高效能的供給。
來(lái)源:人民網(wǎng) 記者栗翹楚
評(píng)論