久久亚洲国产精品视频,中国AV片,最近中文字幕免费大全,国产亚洲精品久久久999功能介绍,欧美色女人

金融情報(bào)局網(wǎng)_中國金融門戶網(wǎng)站 讓金融財(cái)經(jīng)離的更近

【天天新要聞】驚人的算力成本背后,自動駕駛公司如何加速研發(fā)創(chuàng)新

【摘要】 AI算法模型的開發(fā),測試和訓(xùn)練是自動駕駛公司最重要的工作之一,它們都需要大量GPU算力來支撐。然而,“一人一卡”的簡單獨(dú)占式GPU分配方式會導(dǎo)致GPU分配率高但實(shí)際利用率低,造成大量算力的浪費(fèi)?;谶h(yuǎn)程GPU的GPU池化技術(shù)能夠做到動態(tài)分配和自動釋放GPU資源,是解決這個(gè)問題的關(guān)鍵方法。

當(dāng)前業(yè)界在GPU虛擬化和池化方面的實(shí)踐主要集中在三個(gè)層次:(1)硬件層;(2)內(nèi)核層;(3)運(yùn)行時(shí)層。在硬件層實(shí)現(xiàn)GPU虛擬化的主要代表是英偉達(dá)的MIG,它的優(yōu)點(diǎn)是性能損失小,缺點(diǎn)是只支持固定比例的GPU切分,只支持部分英偉達(dá)高端GPU。在內(nèi)核層實(shí)現(xiàn)GPU虛擬化的主要代表是英偉達(dá)的vGPU,騰訊的qGPU,以及阿里的cGPU。英偉達(dá)的vGPU的優(yōu)點(diǎn)是支持全部企業(yè)級GPU,支持虛擬機(jī)(如KVM,VMware)和容器環(huán)境,缺點(diǎn)是只支持固定比例的GPU切分。因?yàn)橛ミ_(dá)并未開放其GPU驅(qū)動(內(nèi)核態(tài)和用戶態(tài))的所有接口,騰訊的qGPU和阿里的cGPU只能支持容器環(huán)境,不能支持虛擬機(jī)環(huán)境。此外,英偉達(dá)的MIG和vGPU,騰訊的qGPU和阿里的cGPU都不支持基于遠(yuǎn)程GPU的GPU池化,不支持動態(tài)分配和自動釋放GPU資源,不支持GPU資源的超分超售。本質(zhì)上,英偉達(dá)的MIG和vGPU,騰訊的qGPU和阿里的cGPU都是站在單張GPU卡的角度來實(shí)現(xiàn)GPU切分,而不是站在整個(gè)數(shù)據(jù)中心的角度來實(shí)現(xiàn)對所有GPU資源的池化管理,因此并非完整的GPU池化方案。

在運(yùn)行時(shí)層實(shí)現(xiàn)GPU虛擬化和池化的主要代表是趨動科技的OrionX GPU池化軟件。OrionX的優(yōu)點(diǎn)是(1)兼容性好,支持市面上所有型號的英偉達(dá)GPU;(2)功能完備,支持虛擬機(jī)和容器環(huán)境;(3)性能優(yōu)異,即便是遠(yuǎn)程GPU也只引入了非常小的性能損失;(4)使用靈活,支持基于遠(yuǎn)程GPU的GPU池化,支持動態(tài)分配和自動釋放GPU資源,支持GPU資源超分超售;(5)管理簡單,具有完整的控制面,支持通過GUI,命令行以及RESTFUL API來管理整個(gè)數(shù)據(jù)中心中的所有物理和虛擬GPU資源,提供GUI界面來可視化所有物理和虛擬GPU的監(jiān)控和告警信息等;(6)企業(yè)級功能完備,支持故障卡自動隔離,GPU任務(wù)熱遷移,軟件自動灰度升級等。


(資料圖)

OrionX的主要缺點(diǎn)是,由于需要支持已公開的英偉達(dá)用戶態(tài)驅(qū)動和庫接口,同時(shí)還要實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心GPU池化所需的管理平面,自身的研發(fā)工作量非常巨大,同時(shí)遠(yuǎn)程GPU的性能優(yōu)化難度很高。作為自動駕駛領(lǐng)域的深耕者,文遠(yuǎn)知行通過對當(dāng)前主要技術(shù)路線和產(chǎn)品的仔細(xì)分析,認(rèn)為運(yùn)行時(shí)虛擬化是GPU池化技術(shù)的基礎(chǔ),并選擇了趨動科技OrionX GPU池化軟件來建設(shè)彈性GPU資源池,更從容地開展自動駕駛技術(shù)的研發(fā)工作,加快在該領(lǐng)域內(nèi)開拓創(chuàng)新的步伐。

作者 | 文遠(yuǎn)知行 陳飛, 趨動科技 陳飛 責(zé)編 | 夢依丹

在新一輪科技革命背景下,汽車智能化發(fā)展已成必然趨勢。 這當(dāng)中,作為“智能化”核心之一的自動駕駛,在監(jiān)管、技術(shù)和商業(yè)化方面持續(xù)積累、不斷完善,即將邁入發(fā)展快車道。 據(jù)麥肯錫預(yù)計(jì),中國未來很可能成為全球最大的自動駕駛市場。 至2030年,自動駕駛相關(guān)的新車銷售及出行服務(wù)創(chuàng)收將超過5000億美元。

自動駕駛實(shí)現(xiàn)的過程,簡單的來說是從感知、決策到執(zhí)行,即依據(jù)特定的算法來分析當(dāng)前場景下從各種傳感器采集到的車輛本身及外部數(shù)據(jù),做出決策后進(jìn)行執(zhí)行。這個(gè)過程實(shí)現(xiàn)對于人工智能(AI)/機(jī)器學(xué)習(xí)(ML)有著很深的應(yīng)用和依賴。因此,自動駕駛發(fā)展的瓶頸主要在于這些AI算法模型上的突破。為了找到最佳的AI算法模型,算法工程師需要不斷地調(diào)整超參數(shù),對每天的路測數(shù)據(jù)進(jìn)行處理,反復(fù)訓(xùn)練優(yōu)化自動駕駛模型,并進(jìn)行大量驗(yàn)證測試工作,以迭代出更準(zhǔn)確的算法。這些工作的背后需要大量算力資源(GPU資源),且隨著自動駕駛企業(yè)的業(yè)務(wù)發(fā)展、研發(fā)團(tuán)隊(duì)規(guī)模的擴(kuò)大,企業(yè)不僅對GPU資源的需求在快速上升,在這些GPU資源使用上也逐漸面臨著一些新的難題。

文遠(yuǎn)知行在自動駕駛研發(fā)中的資源挑戰(zhàn)和運(yùn)維需求

作為國內(nèi)知名的L4級自動駕駛技術(shù)公司,成立于2017年的文遠(yuǎn)知行WeRide總部位于廣州,在中國北京、上海、深圳、無錫、南京、圣何塞、阿布扎比、新加坡等地設(shè)研發(fā)和運(yùn)營分部,團(tuán)隊(duì)規(guī)模超過1000人,其中大部分為研發(fā)工程師,在技術(shù)研發(fā)、商業(yè)模式和企業(yè)運(yùn)營等方面都擁有豐富的海內(nèi)外實(shí)踐經(jīng)驗(yàn)。

AI算法模型開發(fā)測試工作是文遠(yuǎn)知行最重要的工作內(nèi)容之一。公司AI研發(fā)團(tuán)隊(duì)負(fù)責(zé)包括camseg(圖像分割)、lidetect(激光雷達(dá)檢測)、camdetect(攝像頭檢測)等在內(nèi)的多種自動駕駛AI算法開發(fā)、模型訓(xùn)練以及測試。AI算法工程師需要獨(dú)立的開發(fā)環(huán)境進(jìn)行算法開發(fā)、訓(xùn)練、測試等工作,并且在算法開發(fā)與訓(xùn)練方面,盡管算法模型日益龐大和復(fù)雜,但依然要保障訓(xùn)練效率和計(jì)算性能。因此,最初文遠(yuǎn)知行采取為一個(gè)算法工程師固定分配1-2塊GPU卡的方式來滿足開發(fā)調(diào)試的需求。但這種方式也帶來很大的不便:

1.資源分配不夠靈活,難以快速滿足每個(gè)算法工程師的用卡需求

文遠(yuǎn)知行數(shù)據(jù)中心內(nèi)GPU資源需要支撐所有進(jìn)行中AI項(xiàng)目開發(fā)、測試、訓(xùn)練等場景的使用。公司內(nèi)部,不同階段、不同類型的多個(gè)項(xiàng)目并存,這些項(xiàng)目所處的周期可能會不一樣,模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小也不一樣,對于資源的需求也不一樣;同時(shí)每個(gè)算法工程師需要獨(dú)立的開發(fā)測試環(huán)境來開展工作,以及隨著文遠(yuǎn)知行后期上線新的自研開發(fā)平臺后,算法工程師人數(shù)和資源需求的增長都要求資源的分配要具備彈性和伸縮性,能夠?yàn)椴煌?xiàng)目、不同算法工程師快速配置所需的資源環(huán)境。而文遠(yuǎn)知行當(dāng)前這種單人單卡的使用方式,不僅無法為資源靈活分配賦能,且會影響到算法工程師的工作效率以及研發(fā)項(xiàng)目的進(jìn)度。因此,如何實(shí)現(xiàn)GPU資源的彈性伸縮和動態(tài)調(diào)度成為了迫切的需求。

2.低GPU利用率,導(dǎo)致硬件成本高昂

AI開發(fā)測試的工作過程中本身就需要耗費(fèi)大量GPU資源。文遠(yuǎn)知行現(xiàn)有的GPU資源分配方式,即GPU卡一旦被分配出去即被獨(dú)占,即使GPU卡閑置也無法共享給其他任務(wù)使用,會造成數(shù)據(jù)中心內(nèi)GPU資源 占用 分配 率高但 實(shí)際 利用率低,資源閑置情況 頻繁 嚴(yán)重 ,增加 了 企業(yè)在算力使用上的成本。另外, 如果 按照 50-60人的研發(fā)團(tuán)隊(duì)規(guī)模來計(jì)算,要滿足每個(gè)算法工程師的需求,最終總量上需要提供70~80張GPU卡才夠用。這無疑會加劇文遠(yuǎn)知行在算力資源上的成本支出。因此,對文遠(yuǎn)知行來說,迫切需要設(shè)計(jì)和實(shí)現(xiàn)一種任務(wù)之間 靈活動態(tài) 共享 GPU資源 的 管理方式,提高 GPU資源的使用效率,降低算力使用成本。

3.缺乏統(tǒng)一資源管理監(jiān)控能力,導(dǎo)致管理復(fù)雜

文遠(yuǎn)知行研發(fā)團(tuán)隊(duì)日常工作涉及到大量AI開發(fā)訓(xùn)練工作流程,且隨著算法工程師人數(shù)和資源需求的增長,如果缺少平臺級的管理工具,會出現(xiàn)資源管理難、利用率低、沒有統(tǒng)一監(jiān)控告警等問題。 文遠(yuǎn)知行意識到需要一個(gè)統(tǒng)一的GPU管理工具,全面掌控服務(wù)器內(nèi)CPU、GPU、內(nèi)存、網(wǎng)絡(luò)I/O、任務(wù)負(fù)載、磁盤健康狀況、資源使用情況等信息,通過監(jiān)控告警規(guī)則設(shè)置快速發(fā)現(xiàn)問題并給予通知,幫助運(yùn)維團(tuán)隊(duì)高效完成GPU資源運(yùn)維管理工作。

綜上,文遠(yuǎn)知行亟需一個(gè)行之有效的方案,來賦予開發(fā)場景下GPU資源彈性伸縮和統(tǒng)一管理的能力,提高其利用率的同時(shí)為每個(gè)算法工程師按需分配資源,并幫助團(tuán)隊(duì)高效完成GPU資源的運(yùn)維管理工作。

文遠(yuǎn)知行對GPU池化技術(shù)的探索

針對GPU資源在使用過程中的問題,我們進(jìn)行了技術(shù)探索,期待利用GPU虛擬化或GPU池化的技術(shù)去解決AI算法開發(fā)和運(yùn)維的問題。

GPU作為一類外部設(shè)備,往往通過PCIe接口(或其它接口如SXM4等)和計(jì)算機(jī)系統(tǒng)連接。計(jì)算機(jī)上運(yùn)行的軟件,包括內(nèi)核態(tài)、用戶態(tài)代碼對GPU硬件的訪問經(jīng)過硬件(包括CPU、PCIe橋片等)進(jìn)行硬件執(zhí)行處理之后,都會轉(zhuǎn)化成PCIe的TLP報(bào)文發(fā)送到GPU硬件上,由GPU硬件進(jìn)行解析并處理。PCIe的TLP報(bào)文格式是國際標(biāo)準(zhǔn),是公開的,但是報(bào)文承載的信息是GPU硬件廠商自己定義的,一般都是非公開的。

出于系統(tǒng)安全、功能方面的需求,從CPU硬件到操作系統(tǒng)設(shè)計(jì)上明確劃分了代碼執(zhí)行的兩個(gè)運(yùn)行態(tài):內(nèi)核態(tài)和用戶態(tài)。在內(nèi)核態(tài)中運(yùn)行的代碼受到操作系統(tǒng)以及CPU硬件的特殊保護(hù),用戶態(tài)的代碼只能通過操作系統(tǒng)預(yù)先定義好的標(biāo)準(zhǔn)接口,調(diào)用內(nèi)核態(tài)的代碼。和設(shè)備相關(guān)的有 ioctl,mmap,read,write 等少量接口,而通過這些接口被調(diào)用的內(nèi)核態(tài)代碼一般是預(yù)先安裝好的設(shè)備的內(nèi)核態(tài)驅(qū)動。這樣保證內(nèi)核態(tài)和用戶態(tài)的安全隔離,防止不安全的用戶態(tài)代碼破壞整個(gè)計(jì)算機(jī)系統(tǒng)。

圖1: GPU應(yīng)用全棧邏輯架構(gòu)

各種各樣的使用英偉達(dá)GPU的應(yīng)用(程序),包括聊天機(jī)器人,也包括深度學(xué)習(xí)的各種框架,以及使用GPU的Photoshop,都運(yùn)行在用戶態(tài)。但是所有這些應(yīng)用都并不能通過上面說的ioctl、read、write等接口直接和GPU的內(nèi)核態(tài)驅(qū)動、GPU設(shè)備進(jìn)行交互,原因在于英偉達(dá)并沒有公開這些接口的使用方法。英偉達(dá)通過提供一層由GPU用戶態(tài)驅(qū)動和GPU運(yùn)行庫構(gòu)成的廠商用戶態(tài)軟件層來 允許各種英偉達(dá)GPU應(yīng)用使用GPU設(shè)備。這層對外提供的接口包括英偉達(dá)自家定義的 CUDA,也包括由社區(qū)共同制訂的OpenGL、Vulkan接口等。

總結(jié)來看,從硬件到上層應(yīng)用,有三層接口可以用來實(shí)現(xiàn)GPU虛擬化或者GPU池化,一是PCIe硬件接口層(硬件層),二是OS內(nèi)核暴露的 ioctl、read、write等設(shè)備驅(qū)動接口層(內(nèi)核層),三是用戶態(tài)的CUDA、OpenGL、Vulkan等應(yīng)用運(yùn)行時(shí)接口層(運(yùn)行時(shí)層)。從原理上,由于這三層接口都在業(yè)內(nèi)各種應(yīng)用層之下,所以無論在那一層做GPU虛擬化和GPU池化都可以覆蓋GPU應(yīng)用需求,具有很好的通用性。

針對當(dāng)前的深度學(xué)習(xí)類型的應(yīng)用,可以進(jìn)一步把應(yīng)用分為兩層,一層是例如TensorFlow、PyTorch、PaddlePaddle、Mindspore等這樣的深度學(xué)習(xí)框架,它們具有一定的通用性,但是各種框架之間并沒有定義統(tǒng)一的接口,所以針對某一個(gè)深度學(xué)習(xí)框架定義的接口做GPU虛擬化或GPU池化是不具有通用性的。而且人工智能應(yīng)用僅僅是整個(gè)GPU應(yīng)用的一個(gè)細(xì)分領(lǐng)域,還有例如云桌面、云游戲、超算、模擬仿真等細(xì)分領(lǐng)域。因此在深度學(xué)習(xí)框架(框架層)做GPU虛擬化和GPU池化的通用性很局限??蚣軐釉偻鲜且粋€(gè)個(gè)垂直應(yīng)用的細(xì)分領(lǐng)域(AI應(yīng)用層),例如ChatGPT這樣的聊天機(jī)器人,做圖像識別的 OCR等。在這樣的AI應(yīng)用層做GPU虛擬化和GPU池化的通用性就更差了。

圖2: 不同層級虛擬化技術(shù)的通用性比較

上圖直觀展示了上面各層的通用性。不過雖然硬件層、內(nèi)核層、運(yùn)行時(shí)層都有很好的通用性,但是每一層都有自己的特點(diǎn),在支撐GPU虛擬化、GPU池化上都有其優(yōu)缺點(diǎn)。

1)硬件層虛擬化:也就是基于例如PCIe接口上實(shí)現(xiàn)GPU虛擬化。要在這一層做GPU虛擬化,由于涉及到硬件設(shè)計(jì),因此只能由GPU廠商來做,例如英偉達(dá)的MIG就是在這一層支持GPU的虛擬化。優(yōu)點(diǎn)是硬件直接支持所以理論上對性能的影響最小。缺點(diǎn)是由于硬件設(shè)計(jì)的復(fù)雜度,所以只支持固定的GPU切分,只支持部分英偉達(dá)的高端GPU(如A100等),而且只支持同一個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)部的容器和虛擬機(jī)使用,不支持遠(yuǎn)程GPU以及基于遠(yuǎn)程GPU的GPU池化,不支持動態(tài)分配和自動釋放GPU資源,不支持GPU資源的超分超售。

2)內(nèi)核層虛擬化:也就是基于ioctl 等內(nèi)核態(tài)接口來實(shí)現(xiàn)GPU虛擬化,工作在操作系統(tǒng)內(nèi)核里面,英偉達(dá)的 vGPU方案就是一個(gè)典型的基于GPU內(nèi)核態(tài)驅(qū)動的GPU虛擬化方案。由于使用了軟件來實(shí)現(xiàn)GPU虛擬化,相對硬件虛擬化方案會引入一定的性能損失,但是相對有較好的靈活性,而且不依賴于GPU硬件,可以在所有企業(yè)級GPU上使用。不過由于英偉達(dá)GPU內(nèi)核態(tài)驅(qū)動的接口以及用戶態(tài)驅(qū)動的代碼都是不開放的,因此只有英偉達(dá)自己可以在這層支持完備的GPU虛擬化能力。目前業(yè)內(nèi)還有騰訊的qGPU和阿里的cGPU也工作在這層,但是由于缺少完整的接口細(xì)節(jié),目前這兩個(gè)方案都只能支持基于容器虛擬化的環(huán)境,而不能在非容器化環(huán)境以及KVM虛擬化環(huán)境中使用。此外,不論是英偉達(dá)的vGPU,騰訊的qGPU,還是阿里的cGPU,都不支持遠(yuǎn)程GPU以及基于遠(yuǎn)程GPU的GPU池化,不支持動態(tài)分配和自動釋放GPU資源,不支持GPU資源的超分超售。

3)運(yùn)行時(shí)虛擬化:利用CUDA、OpenGL、Vulkan等標(biāo)準(zhǔn)接口實(shí)現(xiàn)GPU虛擬 化和GPU池化。這也是一種軟件的實(shí)現(xiàn)方案。趨動科技的OrionX GPU池化軟 件選擇的正是這個(gè)路線,這種技術(shù)方案擁有幾個(gè)特點(diǎn):

1、CUDA、OpenGL、Vulkan等接口都是公開的標(biāo)準(zhǔn)化接口,具有開放性和穩(wěn)定性。所以基于這些接口的實(shí)現(xiàn)方案具有很好的兼容性和可持續(xù)性;

2、因?yàn)樵摲桨高\(yùn)行在用戶態(tài),因此符合內(nèi)核態(tài)代碼不應(yīng)承載過于復(fù)雜功能的工程實(shí)踐,可以通過復(fù)雜的網(wǎng)絡(luò)協(xié)議棧,復(fù)雜的操作系統(tǒng)支持來實(shí)現(xiàn)遠(yuǎn)程GPU的能力,從而支持GPU池化;

3、由于該方案工作在用戶態(tài),從部署形態(tài)上對用戶環(huán)境的侵入性是最小的,也是最安全的,即使發(fā)生故障也可以迅速被操作系統(tǒng)隔離,而通過一些軟件工程的設(shè)計(jì)可以具有很強(qiáng)的自恢復(fù)能力;

4、當(dāng)然在運(yùn)行時(shí)實(shí)現(xiàn)GPU虛擬化和池化方案的研發(fā)工作量相對前面兩種方案(硬件層和內(nèi)核層)要巨大得多,有數(shù)量級上的差異。其原因在于越是上層的接口,越是允許定義參數(shù)復(fù)雜的接口,接口功能越豐富、數(shù)量越大。

總結(jié)來說,趨動科技的OrionX GPU池化軟件的主要優(yōu)點(diǎn)有:

1、兼容性好,支持市面上所有型號的英偉達(dá)GPU;

2、功能完備,支持虛擬機(jī)和容器環(huán)境;

3、性能優(yōu)異,即便是遠(yuǎn)程GPU也只引入了非常小的性能損失(在典型場景下性能損失小于5%);

4、使用靈活,支持基于遠(yuǎn)程GPU的GPU池化,支持動態(tài)分配和自動釋放GPU資源,支持GPU資源超分超售;

5、管理簡單,具有完整的控制面,支持通過GUI,命令行以及RESTFUL API來管理整個(gè)數(shù)據(jù)中心中的所有物理和虛擬GPU資源,提供GUI界面來可視化所有物理和虛擬GPU資源的監(jiān)控和告警信息等;

6、企業(yè)級功能完備,支持故障卡自動隔離,GPU任務(wù)熱遷移,軟件自動灰度升級等。

OrionX GPU池化軟件的主要缺點(diǎn)是,由于需要支持已公開的英偉達(dá)用戶態(tài)驅(qū)動和庫接口,同時(shí)還要 實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心GPU池化所需的管理平面,自身的研發(fā)工作量非常巨大,同時(shí)遠(yuǎn)程GPU的性能優(yōu)化難度很高。

從以上三種主流方案比較來看,硬件層的虛擬化(例如:MIG)帶來的好處是性能損失小,但是分配是靜態(tài)的,配置變更較為復(fù)雜,解決的還是單塊卡的共享問題。

內(nèi)核層的虛擬化方案,例如英偉達(dá)的vGPU主要滿足的是為虛擬機(jī)提供vGPU的需求,本質(zhì)上還是解決單卡的共享問題,同樣存在性能開銷,靜態(tài)分配,配置變更復(fù)雜的問題。好處是兼容性好,支持英偉達(dá)全部企業(yè)級GPU,使用感受和使用物理GPU較為類似,與物理卡相比,除了少量Profilers工具不支持外,基本一致(參考:https://docs.nvidia.com/grid/13.0/grid-vgpu-user-guide/index.html)。文遠(yuǎn)的大多數(shù)場景都是基于容器的,所以這類方案也不是首選。在內(nèi)核層工作的還有針對容器的qGPU和cGPU方案,其本質(zhì)上也還是通過單卡的細(xì)顆粒度切分來滿足GPU共享的需求,使用范圍較為有限,同時(shí)由于其依賴于設(shè)備驅(qū)動程序,工作在內(nèi)核態(tài),出問題時(shí)往往影響面較大,難以分析解決和長期維護(hù),在文遠(yuǎn)大范圍使用存在著運(yùn)維維護(hù)的障礙。

可以看到,以上二大類(硬件層和內(nèi)核層) 方案的思路類似:把物理卡通過虛擬化技術(shù)轉(zhuǎn)化成小卡,將小卡分配給虛擬機(jī),容器或應(yīng)用。一旦分配完成,其分配率往往為100%,但是其實(shí)際利用率往往依然較低。這兩類方案的弊端是:無法做到GPU資源的動態(tài)分配和自動釋放,不支持GPU資源的超分超售;不支持遠(yuǎn)程GPU及GPU池化,也不具備管理整個(gè)數(shù)據(jù)中心GPU資源的管理平面。本質(zhì)上,英偉達(dá)的MIG和vGPU,騰訊的qGPU和阿里的cGPU都是站在單張GPU卡的角度來實(shí)現(xiàn)GPU切分,而不是站在整個(gè)數(shù)據(jù)中心的角度來實(shí)現(xiàn)對所有GPU資源的池化管理,因此并非完整的GPU池化方案。

最后,我們從運(yùn)行時(shí)層方案中看到了GPU池化的希望,利用運(yùn)行時(shí)的虛擬化,除了能實(shí)現(xiàn)將大卡轉(zhuǎn)化成小卡,支持GPU細(xì)顆粒度共享,還能支持GPU資源的動態(tài)分配和自動釋放,利用遠(yuǎn)程GPU功能打破物理服務(wù)器的邊界,將GPU的管理和使用從單臺服務(wù)器擴(kuò)展到整個(gè)數(shù)據(jù)中心,實(shí)現(xiàn)了數(shù)據(jù)中心級GPU資源池需要的管理平面,能對整個(gè)數(shù)據(jù)中心的所有GPU統(tǒng)一納管,統(tǒng)一監(jiān)控告警,統(tǒng)一運(yùn)維。運(yùn)行時(shí)層方案的特點(diǎn)和軟件定義網(wǎng)絡(luò)SDN或軟件定義存儲SDS的理念類似,有完整的數(shù)據(jù)面和控制面,形成了完備的軟件定義GPU方案SD-GPU(Software Defined GPU),是較為成熟的技術(shù)路線和方向。

GPU池化技術(shù)的運(yùn)行和分析

之后經(jīng)過對當(dāng)前主要技術(shù)路線和產(chǎn)品的選型,我們認(rèn)為運(yùn)行時(shí)虛擬化是GPU池化技術(shù)的基礎(chǔ),趨動科技的OrionX GPU池化軟件是更適合文遠(yuǎn)的方案。 作為國內(nèi)領(lǐng)先的AI算力池化技術(shù)企業(yè),趨動科技致力于通過先進(jìn)的技術(shù)解決客戶的實(shí)際痛點(diǎn)。 其數(shù)據(jù)中心級GPU池化軟件OrionX,把GPU當(dāng)作分布式存儲那樣的全局統(tǒng)一運(yùn)維、管理和使用的抽象資源,融合了GPU共享、聚合和遠(yuǎn)程使用等多種硬核能力,打造全能型軟件定義GPU。

借助于OrionX GPU池化軟件,將多臺GPU服務(wù)器上分散的物理GPU資源打造成一個(gè)統(tǒng)一的GPU資源池,算法工程師不僅可以按需使用GPU資源,靈活滿足日常自動駕駛多種算法研發(fā)和訓(xùn)練需求,同時(shí)運(yùn)維工程師可以通過OrionX的圖形化管理界面(GUI)對資源進(jìn)行調(diào)度和管理。

圖3: GPU池化解決方案拓?fù)鋱D

資源彈性調(diào)度,以有限資源滿足更多算法工程師需求

文遠(yuǎn)知行采用OrionX GPU池化軟件,將昂貴GPU資源實(shí)現(xiàn)池化,實(shí)現(xiàn)AI開發(fā)測試任務(wù)與GPU資源分離部署,而OrionX vGPU資源池內(nèi)的虛擬GPU算力即取即用,并對其他上層軟件保持資源管理的透明性,顯著提高了GPU的利用率。資源池中的虛擬GPU支持動態(tài)申請釋放,能夠自動根據(jù)調(diào)度算法使用整個(gè)數(shù)據(jù)中心的空閑GPU資源,不僅用同樣的GPU資源數(shù)量支撐了數(shù)倍的開發(fā)人員,還可以快速為不同AI研發(fā)項(xiàng)目分配所需資源,在AI開發(fā)環(huán)境上實(shí)現(xiàn)GPU資源的降本增效。

遠(yuǎn)程調(diào)用,優(yōu)化研發(fā)生產(chǎn)力

基于OrionX GPU池化軟件對于遠(yuǎn)程GPU功能的支持,加上數(shù)據(jù)中心內(nèi)部署了RDMA高速網(wǎng)絡(luò), AI開發(fā)環(huán)境不再被局限在某一臺GPU服務(wù)器上運(yùn)行。因此,文遠(yuǎn)知行的研發(fā)人員可以在無GPU的服務(wù)器上進(jìn)行開發(fā)工作,配置好開發(fā)環(huán)境后,通過RDMA網(wǎng)絡(luò)動態(tài)掛載和調(diào)用其他服務(wù)器上的GPU資源即可。

通過這個(gè)功能,算法工程師的應(yīng)用可以無障礙地被部署到數(shù)據(jù)中心內(nèi)的任意服務(wù)器之上,并且透明地使用任何服務(wù)器之上的GPU資源。面臨訓(xùn)練大模型任務(wù)時(shí),也能夠快速調(diào)集多個(gè)GPU卡完成訓(xùn)練任務(wù),且一鍵解決AI開發(fā)人員面臨的訓(xùn)練模型中GPU/CPU配比和多機(jī)多卡模型拆分問題,為算法工程師節(jié)省大量寶貴時(shí)間,有效提高了研發(fā)效率。

統(tǒng)一管理界面,實(shí)行資源監(jiān)控、管理和調(diào)配

文遠(yuǎn)知行通過OrionX將CPU、物理GPU、虛擬GPU實(shí)現(xiàn)統(tǒng)一納管,在統(tǒng)一的圖形化界面上對資源實(shí)現(xiàn)統(tǒng)一調(diào)度分配,實(shí)時(shí)監(jiān)控。同時(shí),OrionX還與Kubernetes環(huán)境實(shí)現(xiàn)無縫集成,可在K8S中實(shí)現(xiàn)對GPU資源池中資源的統(tǒng)一管理調(diào)度,簡化了運(yùn)維工作。此外,OrionX具備的大量企業(yè)級功能(如支持故障卡自動隔離,軟件自動灰度升級等),都顯著提高了運(yùn)維工作的效率。

收益分析

從2021年構(gòu)建起GPU資源池化之后,文遠(yuǎn)知行已經(jīng)打破了一人一卡占用的模式,對GPU資源實(shí)現(xiàn)按需分配、靈活調(diào)度、彈性使用和自動回收,顯著提升了物效人效,從而實(shí)現(xiàn)以少量GPU資源支撐大量算法工程師對獨(dú)立開發(fā)環(huán)境的需求。

物理GPU資源利用率提升約4倍 。通過OrionX GPU池化軟件對GPU 資源的按需分配、自動調(diào)度和釋放,算法工程師按需使用GPU資源,在AI開發(fā)環(huán)境上實(shí)現(xiàn)了GPU資源的降本增效。從整體來看,物理GPU使用率提升約4倍。

提升研發(fā)效率 。面對本地服務(wù)器上GPU卡資源不足甚至沒有的情況,算法工程師可通過OrionX遠(yuǎn)程調(diào)用+RDMA網(wǎng)絡(luò)能力,直接調(diào)用其他服務(wù)器上的GPU資源,縮短了GPU卡資源調(diào)整和配置的時(shí)間周期,節(jié)省時(shí)間。

簡化運(yùn)維管理 。運(yùn)維工程師可借助圖形化管理界面,對GPU資源池進(jìn)行實(shí)時(shí)監(jiān)控,統(tǒng)一調(diào)度和管理,有效提升了GPU集群管理效率,同時(shí)降低了運(yùn)維復(fù)雜性。

削減成本投入 。文遠(yuǎn)知行通過采用OrionX GPU池化軟件,充分利用了現(xiàn)有GPU資源,原來需要為每一個(gè)算法工程師固定分配1-2物理卡,以至于需要70-80張卡才能滿足一支50-60人的研發(fā)團(tuán)隊(duì)的需求,如今只需要16張卡就可以支撐該研發(fā)團(tuán)隊(duì)日常開發(fā)、測試需求,有效控制了對GPU新增采購的需求,從而降低了硬件成本的投入。

滿足未來發(fā)展需求 。面對研發(fā)團(tuán)隊(duì)人數(shù)的增長,以及后期還計(jì)劃上線一個(gè)自研的開發(fā)平臺的情況,文遠(yuǎn)知行可憑借OrionX對于主流GPU卡的兼容性,支持從單臺到整個(gè)數(shù)據(jù)中心所有GPU服務(wù)器納管,能輕松實(shí)現(xiàn)GPU資源池的橫向擴(kuò)展等 功能特性,高效地實(shí)現(xiàn)“算力就緒”來支撐未來發(fā)展。

伴隨自動駕駛進(jìn)入高速發(fā)展階段,作為自動駕駛領(lǐng)域深耕者的文遠(yuǎn)知行,在趨動科技OrionX GPU池化軟件幫助下,可以更從容地開展自動駕駛技術(shù)的研發(fā)工作,加快在該領(lǐng)域內(nèi)開拓創(chuàng)新的步伐。

關(guān)鍵詞:

相關(guān)內(nèi)容