5月26日,2023數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會在蘇州舉辦,騰訊云首席存儲技術(shù)專家溫濤受邀出席并分享了騰訊云領(lǐng)先的存儲技術(shù)在AIGC場景中的應(yīng)用,通過對AIGC業(yè)務(wù)流程和場景的提煉,從內(nèi)容生成、內(nèi)容審核和內(nèi)容智理三要素介紹了如何智能的存儲和管理數(shù)據(jù)。下面我們一起回顧下溫濤的精彩分享。
從去年年底到今年年初,由新版本的ChatGPT發(fā)布開始,全球掀起了一股AIGC的話題狂潮。AIGC觸發(fā)了內(nèi)容生成的革命,也引爆了眾多行業(yè)顛覆式的創(chuàng)新。人工智能突然就從高科技研究課題,演進為滲透到我們每個人生活中的商業(yè)產(chǎn)品。
AIGC是使用人工智能技術(shù)生成內(nèi)容的工具,它包含了文本、音頻、圖像、視頻的生成,以及這幾者之間的跨模態(tài)生成。我認為AIGC的商業(yè)化落地節(jié)奏,大致可以分為三個階段:
(資料圖)
通用場景的應(yīng)用落地
垂直行業(yè)的應(yīng)用落地
創(chuàng)新型綜合場景的應(yīng)用落地
通用場景是基于單純的文本、圖片、音視頻的AI生產(chǎn)內(nèi)容技術(shù),提供給設(shè)計、媒體、娛樂、客服咨詢等沒有太強行業(yè)屬性的企業(yè)和個人,解決相對基礎(chǔ)的AI市場需求。代表性的應(yīng)用包括了ChatGPT和Midjourney。這個場景依賴的技術(shù)相對比較成熟,已經(jīng)具有很多實際的商業(yè)化落地。
垂直行業(yè)是進一步把AIGC的能力和具體行業(yè)特點相結(jié)合,提供給強行業(yè)屬性的企業(yè),來提升技術(shù)和服務(wù)水平,提高行業(yè)生產(chǎn)效率。比如自動駕駛和醫(yī)療生物基因。這類應(yīng)用目前還處于商業(yè)化前的基于預(yù)訓(xùn)練基礎(chǔ)之上的Fine Tuning階段,技術(shù)方面的問題基本上能夠得到解決,商業(yè)模式也比較明確,商業(yè)化落地節(jié)奏屬于正在進行時。
創(chuàng)新型綜合場景所對應(yīng)的行業(yè),是比較新興的具有前瞻性和實驗性的場景,以機器人和元宇宙為代表。在這類場景,AIGC只是核心技術(shù)的一部分,還依賴硬件和商業(yè)模式等方案的創(chuàng)新。這類場景還處于技術(shù)儲備和商業(yè)落地探索階段。目前騰訊云AIGC存儲解決方案,聚焦在通用場景和垂直行業(yè)這兩類AIGC應(yīng)用的支持。尤其是在圖片、音視頻和自動駕駛領(lǐng)域有了很多嘗試、驗證和落地。我們在實際項目中對AIGC業(yè)務(wù)處理流程進行了梳理。按照順序,流程主要分為數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、應(yīng)用推理這幾個環(huán)節(jié),也可以聚合為模型訓(xùn)練和應(yīng)用推理兩個階段。
在實際的項目中,我們了解到客戶對訓(xùn)練場景的存儲能力有幾個要求:
由于在每一個環(huán)節(jié)的前后,都涉及對數(shù)據(jù)的存儲、加工、管理和流動,所以需要一種數(shù)據(jù)湖形態(tài)的統(tǒng)一存儲來簡化對數(shù)據(jù)的管理,提高數(shù)據(jù)流動的效率,并減低數(shù)據(jù)流動所帶來的成本大模型訓(xùn)練需要極高的算力,算力越大,訓(xùn)練速度越快,綜合成本越優(yōu)。訓(xùn)練過程中需要對數(shù)據(jù)進行讀取和寫入,需要存儲性能和算力形成匹配,否則容易成為整個處理流程的短木板。鑒于對AIGC生成物的侵權(quán)和合規(guī)性要求,在推理階段需要對生產(chǎn)的內(nèi)容進行審核和治理。通過對業(yè)務(wù)流程和場景訴求的總結(jié)提煉,AIGC的核心要素,可以歸結(jié)為內(nèi)容生成、內(nèi)容審核和內(nèi)容智理三個要素。其中內(nèi)容生成包括大模型訓(xùn)練和推理平臺構(gòu)建;內(nèi)容審核包括對圖片、文本和音視頻等生成物的內(nèi)容審核和數(shù)據(jù)處理;內(nèi)容智理包括對生成物的內(nèi)容分類、標注、內(nèi)容特征的生產(chǎn)和查詢...騰訊云在AIGC場景的存儲解決方案,就是依據(jù)這三個核心要素來進行設(shè)計的。接下來,我會圍繞這三個核心要素,從數(shù)據(jù)存儲與管理的角度,分別介紹騰訊云的解決之道。內(nèi)容生成之道
我們使用了數(shù)據(jù)湖存儲來滿足場景的要求,利用對象存儲COS實現(xiàn)了通過一種存儲類型,來滿足各個環(huán)節(jié)對存儲的需求,無需數(shù)據(jù)遷移,即可實現(xiàn)數(shù)據(jù)的統(tǒng)一接入,和數(shù)據(jù)的自由流動。同時利用數(shù)據(jù)加速器GooseFS的緩存加速能力,大幅度提升了數(shù)據(jù)處理和訓(xùn)練性能。使用COS+GooseFS的數(shù)據(jù)湖存儲方案,也大大降低了AIGC系統(tǒng)的存儲成本。
什么是GooseFS?
GooseFS是一種利用計算側(cè)資源實現(xiàn)數(shù)據(jù)緩存加速的存儲服務(wù),適用于大數(shù)據(jù)分析、AI、HPC、基因測序、渲染等多種場景,配合COS對象存儲,為客戶提供低成本高性能的存儲能力。
GooseFS有以下幾個特點:
多協(xié)議支持:可以對接HDFS、FUSE和S3等多種協(xié)議;支持云原生部署:可以通過容器化部署,也可以和Hadoop進行集成;可以使用內(nèi)存和SSD等不同性能的介質(zhì)作為緩存介質(zhì),實現(xiàn)多級緩存,根據(jù)不同的緩存介質(zhì),GooseFS可以提供2~10倍的性能提升。如何實現(xiàn)多級緩存加速?
面向不同的業(yè)務(wù)場景,會有不同的數(shù)據(jù)量和不同的性能要求。以AIGC場景為例,對于NLP和GPT場景,訓(xùn)練所需的數(shù)據(jù)量通常在10100TB,所需的存儲空間不大,但是IO模型屬于每次字節(jié)級的讀操作,對時延要求很高。使用GPU節(jié)點自帶內(nèi)存的剩余空間作為緩存的存儲介質(zhì)比較合適,不需要額外配置SSD。而對于ViT和Diffusion這類圖片模型訓(xùn)練場景,數(shù)據(jù)量通常在100T1PB,就不適合放在內(nèi)存里,選用本地的SSD介質(zhì)可以達到更優(yōu)的性價比。對于需要長期存放的原始數(shù)據(jù),就可以放在COS里做持久化,從而降低成本。通過GooseFS多級緩存加速機制,就能夠精細化的滿足各種不同場景的性能要求。
因為訓(xùn)練場景需要讀取海量文件,就需要緩存系統(tǒng)支持對海量文件規(guī)模的管理能力。我們來看看GooseFS在水平和垂直兩個方向分別是如何實現(xiàn)的。水平方向上,也就是在跨節(jié)點方向上,GooseFS 采用分布式元數(shù)據(jù)架構(gòu),通過分布式KV管理元數(shù)據(jù),元數(shù)據(jù)規(guī)模可以按需橫向線性擴展。垂直方向上,也就是在節(jié)點內(nèi)部,GooseFS利用Numa綁核綁內(nèi)存來部署KV進程,從而使單節(jié)點可以部署多個分布式KV進程。
通過上述兩個方向上的技術(shù),GooseFS可以支持管理百億文件規(guī)模的元數(shù)據(jù),滿足單集群管理海量訓(xùn)練數(shù)據(jù)集的需求。
AIGC訓(xùn)練時到底能夠支持多大的體量的文件數(shù)?如何保障存儲系統(tǒng)性能?關(guān)鍵的點就是元數(shù)據(jù)管理。
GooseFS支持Master的多機并發(fā)讀,元數(shù)據(jù)服務(wù)由一個Leader Master和若干Follower Master構(gòu)成,F(xiàn)ollower Master承載跟Leader一樣的讀流量,元數(shù)據(jù)QPS性能隨著Master節(jié)點的數(shù)量呈線性增加。從而可以提供百萬級QPS的元數(shù)據(jù)訪問能力。
GooseFS也支持私有化部署,來構(gòu)建混合云緩存方案。基于數(shù)據(jù)湖搭建混合云大模型訓(xùn)練平臺,做到一份Dataset,多地訓(xùn)練。通過這個方案,在數(shù)據(jù)湖上保存一份數(shù)據(jù),可以通過緩存的機制把數(shù)據(jù)帶到任何計算相關(guān)的地點去。
除了數(shù)據(jù)加速以外,騰訊云面向AIGC訓(xùn)練場景提供了端到端的解決方案?;隍v訊云高性能計算集群HCC、TACO訓(xùn)練加速、TCCL網(wǎng)絡(luò)加速、GooseFS數(shù)據(jù)加速,構(gòu)建了AIGC大模型訓(xùn)練和推理應(yīng)用平臺。存儲方面,依靠COS的海量存儲能力+GooseFS的數(shù)據(jù)加速能力,提供高性能低成本的存儲,可為AI集群訓(xùn)練快速提供數(shù)據(jù)。計算方面,高性能計算集群HCC通過自研服務(wù)器提供最新代次A800、H800實例。通過TACO Train加速套件,提供軟硬件協(xié)同優(yōu)化,支持訓(xùn)練性能提升30%以上。網(wǎng)絡(luò)方面,基于自研星脈網(wǎng)絡(luò)架構(gòu),提供最高3.2Tbps RDMA網(wǎng)絡(luò),結(jié)合自研擁塞控制算法及TCCL集合通信庫加速分布式訓(xùn)練通信效率。內(nèi)容審核之道騰訊云數(shù)據(jù)萬象CI基于深度學(xué)習(xí)的文本、圖片、音視頻檢測技術(shù),結(jié)合騰訊深耕內(nèi)容領(lǐng)域積累的海量訓(xùn)練數(shù)據(jù),可以精準高效識別出生成數(shù)據(jù)中的敏感信息。提供包括色情、涉政、暴恐、廣告等多種合規(guī)問題的審核能力。對AIGC的輸入和輸出環(huán)節(jié)進行把控,幫助客戶規(guī)避運營風(fēng)險。
CI整合了騰訊多個前沿實驗室的技術(shù)能力,包括了AI實驗室的基礎(chǔ)算法能量流、優(yōu)圖實驗室的圖像識別能力、多媒體實驗室對編解碼的研究,以及天御實驗室的安全風(fēng)控算法。同時具備騰訊多年在泛互行業(yè)的實踐經(jīng)驗。此外CI還打造了無代碼,0基礎(chǔ)入門,無需下載,省時好用的智能處理工具-智能工具箱,降低技術(shù)接入門檻。
內(nèi)容智理之道
AIGC存儲解決方案復(fù)用了騰訊企業(yè)網(wǎng)盤的一些能力,可以對AI生成物提供權(quán)限劃分、在線編輯、協(xié)同辦公等企業(yè)化文件管理能力,助力終端用戶和企業(yè)客戶更好的對AI生成物進行管理,提升工作效率。
總結(jié)
騰訊云存儲解決方案,圍繞AIGC,提供了涵蓋內(nèi)容生成、內(nèi)容審核和內(nèi)容智理的全生命周期的數(shù)據(jù)存儲與管理解決方案,很好的做到了高性能和低成本兩個目標方向的兼顧,為基于海量數(shù)據(jù)的AI訓(xùn)練提供了堅實的存儲與管理的數(shù)據(jù)底座。
關(guān)鍵詞:
質(zhì)檢
推薦