5月26日,2023數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會(huì)在蘇州舉辦,騰訊云首席存儲(chǔ)技術(shù)專家溫濤受邀出席并分享了騰訊云領(lǐng)先的存儲(chǔ)技術(shù)在AIGC場(chǎng)景中的應(yīng)用,通過對(duì)AIGC業(yè)務(wù)流程和場(chǎng)景的提煉,從內(nèi)容生成、內(nèi)容審核和內(nèi)容智理三要素介紹了如何智能的存儲(chǔ)和管理數(shù)據(jù)。下面我們一起回顧下溫濤的精彩分享。
從去年年底到今年年初,由新版本的ChatGPT發(fā)布開始,全球掀起了一股AIGC的話題狂潮。AIGC觸發(fā)了內(nèi)容生成的革命,也引爆了眾多行業(yè)顛覆式的創(chuàng)新。人工智能突然就從高科技研究課題,演進(jìn)為滲透到我們每個(gè)人生活中的商業(yè)產(chǎn)品。
AIGC是使用人工智能技術(shù)生成內(nèi)容的工具,它包含了文本、音頻、圖像、視頻的生成,以及這幾者之間的跨模態(tài)生成。我認(rèn)為AIGC的商業(yè)化落地節(jié)奏,大致可以分為三個(gè)階段:
(資料圖)
通用場(chǎng)景的應(yīng)用落地
垂直行業(yè)的應(yīng)用落地
創(chuàng)新型綜合場(chǎng)景的應(yīng)用落地
通用場(chǎng)景是基于單純的文本、圖片、音視頻的AI生產(chǎn)內(nèi)容技術(shù),提供給設(shè)計(jì)、媒體、娛樂、客服咨詢等沒有太強(qiáng)行業(yè)屬性的企業(yè)和個(gè)人,解決相對(duì)基礎(chǔ)的AI市場(chǎng)需求。代表性的應(yīng)用包括了ChatGPT和Midjourney。這個(gè)場(chǎng)景依賴的技術(shù)相對(duì)比較成熟,已經(jīng)具有很多實(shí)際的商業(yè)化落地。
垂直行業(yè)是進(jìn)一步把AIGC的能力和具體行業(yè)特點(diǎn)相結(jié)合,提供給強(qiáng)行業(yè)屬性的企業(yè),來提升技術(shù)和服務(wù)水平,提高行業(yè)生產(chǎn)效率。比如自動(dòng)駕駛和醫(yī)療生物基因。這類應(yīng)用目前還處于商業(yè)化前的基于預(yù)訓(xùn)練基礎(chǔ)之上的Fine Tuning階段,技術(shù)方面的問題基本上能夠得到解決,商業(yè)模式也比較明確,商業(yè)化落地節(jié)奏屬于正在進(jìn)行時(shí)。
創(chuàng)新型綜合場(chǎng)景所對(duì)應(yīng)的行業(yè),是比較新興的具有前瞻性和實(shí)驗(yàn)性的場(chǎng)景,以機(jī)器人和元宇宙為代表。在這類場(chǎng)景,AIGC只是核心技術(shù)的一部分,還依賴硬件和商業(yè)模式等方案的創(chuàng)新。這類場(chǎng)景還處于技術(shù)儲(chǔ)備和商業(yè)落地探索階段。目前騰訊云AIGC存儲(chǔ)解決方案,聚焦在通用場(chǎng)景和垂直行業(yè)這兩類AIGC應(yīng)用的支持。尤其是在圖片、音視頻和自動(dòng)駕駛領(lǐng)域有了很多嘗試、驗(yàn)證和落地。我們?cè)趯?shí)際項(xiàng)目中對(duì)AIGC業(yè)務(wù)處理流程進(jìn)行了梳理。按照順序,流程主要分為數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、應(yīng)用推理這幾個(gè)環(huán)節(jié),也可以聚合為模型訓(xùn)練和應(yīng)用推理兩個(gè)階段。
在實(shí)際的項(xiàng)目中,我們了解到客戶對(duì)訓(xùn)練場(chǎng)景的存儲(chǔ)能力有幾個(gè)要求:
由于在每一個(gè)環(huán)節(jié)的前后,都涉及對(duì)數(shù)據(jù)的存儲(chǔ)、加工、管理和流動(dòng),所以需要一種數(shù)據(jù)湖形態(tài)的統(tǒng)一存儲(chǔ)來簡(jiǎn)化對(duì)數(shù)據(jù)的管理,提高數(shù)據(jù)流動(dòng)的效率,并減低數(shù)據(jù)流動(dòng)所帶來的成本大模型訓(xùn)練需要極高的算力,算力越大,訓(xùn)練速度越快,綜合成本越優(yōu)。訓(xùn)練過程中需要對(duì)數(shù)據(jù)進(jìn)行讀取和寫入,需要存儲(chǔ)性能和算力形成匹配,否則容易成為整個(gè)處理流程的短木板。鑒于對(duì)AIGC生成物的侵權(quán)和合規(guī)性要求,在推理階段需要對(duì)生產(chǎn)的內(nèi)容進(jìn)行審核和治理。通過對(duì)業(yè)務(wù)流程和場(chǎng)景訴求的總結(jié)提煉,AIGC的核心要素,可以歸結(jié)為內(nèi)容生成、內(nèi)容審核和內(nèi)容智理三個(gè)要素。其中內(nèi)容生成包括大模型訓(xùn)練和推理平臺(tái)構(gòu)建;內(nèi)容審核包括對(duì)圖片、文本和音視頻等生成物的內(nèi)容審核和數(shù)據(jù)處理;內(nèi)容智理包括對(duì)生成物的內(nèi)容分類、標(biāo)注、內(nèi)容特征的生產(chǎn)和查詢...騰訊云在AIGC場(chǎng)景的存儲(chǔ)解決方案,就是依據(jù)這三個(gè)核心要素來進(jìn)行設(shè)計(jì)的。接下來,我會(huì)圍繞這三個(gè)核心要素,從數(shù)據(jù)存儲(chǔ)與管理的角度,分別介紹騰訊云的解決之道。內(nèi)容生成之道
我們使用了數(shù)據(jù)湖存儲(chǔ)來滿足場(chǎng)景的要求,利用對(duì)象存儲(chǔ)COS實(shí)現(xiàn)了通過一種存儲(chǔ)類型,來滿足各個(gè)環(huán)節(jié)對(duì)存儲(chǔ)的需求,無需數(shù)據(jù)遷移,即可實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一接入,和數(shù)據(jù)的自由流動(dòng)。同時(shí)利用數(shù)據(jù)加速器GooseFS的緩存加速能力,大幅度提升了數(shù)據(jù)處理和訓(xùn)練性能。使用COS+GooseFS的數(shù)據(jù)湖存儲(chǔ)方案,也大大降低了AIGC系統(tǒng)的存儲(chǔ)成本。
什么是GooseFS?
GooseFS是一種利用計(jì)算側(cè)資源實(shí)現(xiàn)數(shù)據(jù)緩存加速的存儲(chǔ)服務(wù),適用于大數(shù)據(jù)分析、AI、HPC、基因測(cè)序、渲染等多種場(chǎng)景,配合COS對(duì)象存儲(chǔ),為客戶提供低成本高性能的存儲(chǔ)能力。
GooseFS有以下幾個(gè)特點(diǎn):
多協(xié)議支持:可以對(duì)接HDFS、FUSE和S3等多種協(xié)議;支持云原生部署:可以通過容器化部署,也可以和Hadoop進(jìn)行集成;可以使用內(nèi)存和SSD等不同性能的介質(zhì)作為緩存介質(zhì),實(shí)現(xiàn)多級(jí)緩存,根據(jù)不同的緩存介質(zhì),GooseFS可以提供2~10倍的性能提升。如何實(shí)現(xiàn)多級(jí)緩存加速?
面向不同的業(yè)務(wù)場(chǎng)景,會(huì)有不同的數(shù)據(jù)量和不同的性能要求。以AIGC場(chǎng)景為例,對(duì)于NLP和GPT場(chǎng)景,訓(xùn)練所需的數(shù)據(jù)量通常在10100TB,所需的存儲(chǔ)空間不大,但是IO模型屬于每次字節(jié)級(jí)的讀操作,對(duì)時(shí)延要求很高。使用GPU節(jié)點(diǎn)自帶內(nèi)存的剩余空間作為緩存的存儲(chǔ)介質(zhì)比較合適,不需要額外配置SSD。而對(duì)于ViT和Diffusion這類圖片模型訓(xùn)練場(chǎng)景,數(shù)據(jù)量通常在100T1PB,就不適合放在內(nèi)存里,選用本地的SSD介質(zhì)可以達(dá)到更優(yōu)的性價(jià)比。對(duì)于需要長(zhǎng)期存放的原始數(shù)據(jù),就可以放在COS里做持久化,從而降低成本。通過GooseFS多級(jí)緩存加速機(jī)制,就能夠精細(xì)化的滿足各種不同場(chǎng)景的性能要求。
因?yàn)橛?xùn)練場(chǎng)景需要讀取海量文件,就需要緩存系統(tǒng)支持對(duì)海量文件規(guī)模的管理能力。我們來看看GooseFS在水平和垂直兩個(gè)方向分別是如何實(shí)現(xiàn)的。水平方向上,也就是在跨節(jié)點(diǎn)方向上,GooseFS 采用分布式元數(shù)據(jù)架構(gòu),通過分布式KV管理元數(shù)據(jù),元數(shù)據(jù)規(guī)模可以按需橫向線性擴(kuò)展。垂直方向上,也就是在節(jié)點(diǎn)內(nèi)部,GooseFS利用Numa綁核綁內(nèi)存來部署KV進(jìn)程,從而使單節(jié)點(diǎn)可以部署多個(gè)分布式KV進(jìn)程。
通過上述兩個(gè)方向上的技術(shù),GooseFS可以支持管理百億文件規(guī)模的元數(shù)據(jù),滿足單集群管理海量訓(xùn)練數(shù)據(jù)集的需求。
AIGC訓(xùn)練時(shí)到底能夠支持多大的體量的文件數(shù)?如何保障存儲(chǔ)系統(tǒng)性能?關(guān)鍵的點(diǎn)就是元數(shù)據(jù)管理。
GooseFS支持Master的多機(jī)并發(fā)讀,元數(shù)據(jù)服務(wù)由一個(gè)Leader Master和若干Follower Master構(gòu)成,F(xiàn)ollower Master承載跟Leader一樣的讀流量,元數(shù)據(jù)QPS性能隨著Master節(jié)點(diǎn)的數(shù)量呈線性增加。從而可以提供百萬級(jí)QPS的元數(shù)據(jù)訪問能力。
GooseFS也支持私有化部署,來構(gòu)建混合云緩存方案。基于數(shù)據(jù)湖搭建混合云大模型訓(xùn)練平臺(tái),做到一份Dataset,多地訓(xùn)練。通過這個(gè)方案,在數(shù)據(jù)湖上保存一份數(shù)據(jù),可以通過緩存的機(jī)制把數(shù)據(jù)帶到任何計(jì)算相關(guān)的地點(diǎn)去。
除了數(shù)據(jù)加速以外,騰訊云面向AIGC訓(xùn)練場(chǎng)景提供了端到端的解決方案?;隍v訊云高性能計(jì)算集群HCC、TACO訓(xùn)練加速、TCCL網(wǎng)絡(luò)加速、GooseFS數(shù)據(jù)加速,構(gòu)建了AIGC大模型訓(xùn)練和推理應(yīng)用平臺(tái)。存儲(chǔ)方面,依靠COS的海量存儲(chǔ)能力+GooseFS的數(shù)據(jù)加速能力,提供高性能低成本的存儲(chǔ),可為AI集群訓(xùn)練快速提供數(shù)據(jù)。計(jì)算方面,高性能計(jì)算集群HCC通過自研服務(wù)器提供最新代次A800、H800實(shí)例。通過TACO Train加速套件,提供軟硬件協(xié)同優(yōu)化,支持訓(xùn)練性能提升30%以上。網(wǎng)絡(luò)方面,基于自研星脈網(wǎng)絡(luò)架構(gòu),提供最高3.2Tbps RDMA網(wǎng)絡(luò),結(jié)合自研擁塞控制算法及TCCL集合通信庫加速分布式訓(xùn)練通信效率。內(nèi)容審核之道騰訊云數(shù)據(jù)萬象CI基于深度學(xué)習(xí)的文本、圖片、音視頻檢測(cè)技術(shù),結(jié)合騰訊深耕內(nèi)容領(lǐng)域積累的海量訓(xùn)練數(shù)據(jù),可以精準(zhǔn)高效識(shí)別出生成數(shù)據(jù)中的敏感信息。提供包括色情、涉政、暴恐、廣告等多種合規(guī)問題的審核能力。對(duì)AIGC的輸入和輸出環(huán)節(jié)進(jìn)行把控,幫助客戶規(guī)避運(yùn)營(yíng)風(fēng)險(xiǎn)。
CI整合了騰訊多個(gè)前沿實(shí)驗(yàn)室的技術(shù)能力,包括了AI實(shí)驗(yàn)室的基礎(chǔ)算法能量流、優(yōu)圖實(shí)驗(yàn)室的圖像識(shí)別能力、多媒體實(shí)驗(yàn)室對(duì)編解碼的研究,以及天御實(shí)驗(yàn)室的安全風(fēng)控算法。同時(shí)具備騰訊多年在泛互行業(yè)的實(shí)踐經(jīng)驗(yàn)。此外CI還打造了無代碼,0基礎(chǔ)入門,無需下載,省時(shí)好用的智能處理工具-智能工具箱,降低技術(shù)接入門檻。
內(nèi)容智理之道
AIGC存儲(chǔ)解決方案復(fù)用了騰訊企業(yè)網(wǎng)盤的一些能力,可以對(duì)AI生成物提供權(quán)限劃分、在線編輯、協(xié)同辦公等企業(yè)化文件管理能力,助力終端用戶和企業(yè)客戶更好的對(duì)AI生成物進(jìn)行管理,提升工作效率。
總結(jié)
騰訊云存儲(chǔ)解決方案,圍繞AIGC,提供了涵蓋內(nèi)容生成、內(nèi)容審核和內(nèi)容智理的全生命周期的數(shù)據(jù)存儲(chǔ)與管理解決方案,很好的做到了高性能和低成本兩個(gè)目標(biāo)方向的兼顧,為基于海量數(shù)據(jù)的AI訓(xùn)練提供了堅(jiān)實(shí)的存儲(chǔ)與管理的數(shù)據(jù)底座。
關(guān)鍵詞:
質(zhì)檢
推薦