一个人www在线视频免费,一个人看的www高清免费完整版,中文无码字幕

【摘要】 AI算法模型的開發(fā)，測試和訓(xùn)練是自動駕駛公司最重要的工作之一，它們都需要大量GPU算力來支撐。然而，“一人一卡”的簡單獨(dú)占式GPU分配方式會導(dǎo)致GPU分配率高但實(shí)際利用率低，造成大量算力的浪費(fèi)?；谶h(yuǎn)程GPU的GPU池化技術(shù)能夠做到動態(tài)分配和自動釋放GPU資源，是解決這個(gè)問題的關(guān)鍵方法。

當(dāng)前業(yè)界在GPU虛擬化和池化方面的實(shí)踐主要集中在三個(gè)層次：（1）硬件層；（2）內(nèi)核層；（3）運(yùn)行時(shí)層。在硬件層實(shí)現(xiàn)GPU虛擬化的主要代表是英偉達(dá)的MIG，它的優(yōu)點(diǎn)是性能損失小，缺點(diǎn)是只支持固定比例的GPU切分，只支持部分英偉達(dá)高端GPU。在內(nèi)核層實(shí)現(xiàn)GPU虛擬化的主要代表是英偉達(dá)的vGPU，騰訊的qGPU，以及阿里的cGPU。英偉達(dá)的vGPU的優(yōu)點(diǎn)是支持全部企業(yè)級GPU，支持虛擬機(jī)（如KVM，VMware）和容器環(huán)境，缺點(diǎn)是只支持固定比例的GPU切分。因?yàn)橛ミ_(dá)并未開放其GPU驅(qū)動（內(nèi)核態(tài)和用戶態(tài)）的所有接口，騰訊的qGPU和阿里的cGPU只能支持容器環(huán)境，不能支持虛擬機(jī)環(huán)境。此外，英偉達(dá)的MIG和vGPU，騰訊的qGPU和阿里的cGPU都不支持基于遠(yuǎn)程GPU的GPU池化，不支持動態(tài)分配和自動釋放GPU資源，不支持GPU資源的超分超售。本質(zhì)上，英偉達(dá)的MIG和vGPU，騰訊的qGPU和阿里的cGPU都是站在單張GPU卡的角度來實(shí)現(xiàn)GPU切分，而不是站在整個(gè)數(shù)據(jù)中心的角度來實(shí)現(xiàn)對所有GPU資源的池化管理，因此并非完整的GPU池化方案。

在運(yùn)行時(shí)層實(shí)現(xiàn)GPU虛擬化和池化的主要代表是趨動科技的OrionX GPU池化軟件。OrionX的優(yōu)點(diǎn)是（1）兼容性好，支持市面上所有型號的英偉達(dá)GPU；（2）功能完備，支持虛擬機(jī)和容器環(huán)境；（3）性能優(yōu)異，即便是遠(yuǎn)程GPU也只引入了非常小的性能損失；（4）使用靈活，支持基于遠(yuǎn)程GPU的GPU池化，支持動態(tài)分配和自動釋放GPU資源，支持GPU資源超分超售；（5）管理簡單，具有完整的控制面，支持通過GUI，命令行以及RESTFUL API來管理整個(gè)數(shù)據(jù)中心中的所有物理和虛擬GPU資源，提供GUI界面來可視化所有物理和虛擬GPU的監(jiān)控和告警信息等；（6）企業(yè)級功能完備，支持故障卡自動隔離，GPU任務(wù)熱遷移，軟件自動灰度升級等。

(資料圖)

OrionX的主要缺點(diǎn)是，由于需要支持已公開的英偉達(dá)用戶態(tài)驅(qū)動和庫接口，同時(shí)還要實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心GPU池化所需的管理平面，自身的研發(fā)工作量非常巨大，同時(shí)遠(yuǎn)程GPU的性能優(yōu)化難度很高。作為自動駕駛領(lǐng)域的深耕者，文遠(yuǎn)知行通過對當(dāng)前主要技術(shù)路線和產(chǎn)品的仔細(xì)分析，認(rèn)為運(yùn)行時(shí)虛擬化是GPU池化技術(shù)的基礎(chǔ)，并選擇了趨動科技OrionX GPU池化軟件來建設(shè)彈性GPU資源池，更從容地開展自動駕駛技術(shù)的研發(fā)工作，加快在該領(lǐng)域內(nèi)開拓創(chuàng)新的步伐。

作者 | 文遠(yuǎn)知行陳飛，趨動科技陳飛責(zé)編 | 夢依丹

在新一輪科技革命背景下，汽車智能化發(fā)展已成必然趨勢。這當(dāng)中，作為“智能化”核心之一的自動駕駛，在監(jiān)管、技術(shù)和商業(yè)化方面持續(xù)積累、不斷完善，即將邁入發(fā)展快車道。據(jù)麥肯錫預(yù)計(jì)，中國未來很可能成為全球最大的自動駕駛市場。至2030年，自動駕駛相關(guān)的新車銷售及出行服務(wù)創(chuàng)收將超過5000億美元。

自動駕駛實(shí)現(xiàn)的過程，簡單的來說是從感知、決策到執(zhí)行，即依據(jù)特定的算法來分析當(dāng)前場景下從各種傳感器采集到的車輛本身及外部數(shù)據(jù)，做出決策后進(jìn)行執(zhí)行。這個(gè)過程實(shí)現(xiàn)對于人工智能（AI）/機(jī)器學(xué)習(xí)（ML）有著很深的應(yīng)用和依賴。因此，自動駕駛發(fā)展的瓶頸主要在于這些AI算法模型上的突破。為了找到最佳的AI算法模型，算法工程師需要不斷地調(diào)整超參數(shù)，對每天的路測數(shù)據(jù)進(jìn)行處理，反復(fù)訓(xùn)練優(yōu)化自動駕駛模型，并進(jìn)行大量驗(yàn)證測試工作，以迭代出更準(zhǔn)確的算法。這些工作的背后需要大量算力資源（GPU資源），且隨著自動駕駛企業(yè)的業(yè)務(wù)發(fā)展、研發(fā)團(tuán)隊(duì)規(guī)模的擴(kuò)大，企業(yè)不僅對GPU資源的需求在快速上升，在這些GPU資源使用上也逐漸面臨著一些新的難題。

文遠(yuǎn)知行在自動駕駛研發(fā)中的資源挑戰(zhàn)和運(yùn)維需求

作為國內(nèi)知名的L4級自動駕駛技術(shù)公司，成立于2017年的文遠(yuǎn)知行WeRide總部位于廣州，在中國北京、上海、深圳、無錫、南京、圣何塞、阿布扎比、新加坡等地設(shè)研發(fā)和運(yùn)營分部，團(tuán)隊(duì)規(guī)模超過1000人，其中大部分為研發(fā)工程師，在技術(shù)研發(fā)、商業(yè)模式和企業(yè)運(yùn)營等方面都擁有豐富的海內(nèi)外實(shí)踐經(jīng)驗(yàn)。

AI算法模型開發(fā)測試工作是文遠(yuǎn)知行最重要的工作內(nèi)容之一。公司AI研發(fā)團(tuán)隊(duì)負(fù)責(zé)包括camseg（圖像分割）、lidetect（激光雷達(dá)檢測）、camdetect（攝像頭檢測）等在內(nèi)的多種自動駕駛AI算法開發(fā)、模型訓(xùn)練以及測試。AI算法工程師需要獨(dú)立的開發(fā)環(huán)境進(jìn)行算法開發(fā)、訓(xùn)練、測試等工作，并且在算法開發(fā)與訓(xùn)練方面，盡管算法模型日益龐大和復(fù)雜，但依然要保障訓(xùn)練效率和計(jì)算性能。因此，最初文遠(yuǎn)知行采取為一個(gè)算法工程師固定分配1-2塊GPU卡的方式來滿足開發(fā)調(diào)試的需求。但這種方式也帶來很大的不便：

1.資源分配不夠靈活，難以快速滿足每個(gè)算法工程師的用卡需求

文遠(yuǎn)知行數(shù)據(jù)中心內(nèi)GPU資源需要支撐所有進(jìn)行中AI項(xiàng)目開發(fā)、測試、訓(xùn)練等場景的使用。公司內(nèi)部，不同階段、不同類型的多個(gè)項(xiàng)目并存，這些項(xiàng)目所處的周期可能會不一樣，模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小也不一樣，對于資源的需求也不一樣；同時(shí)每個(gè)算法工程師需要獨(dú)立的開發(fā)測試環(huán)境來開展工作，以及隨著文遠(yuǎn)知行后期上線新的自研開發(fā)平臺后，算法工程師人數(shù)和資源需求的增長都要求資源的分配要具備彈性和伸縮性，能夠?yàn)椴煌?xiàng)目、不同算法工程師快速配置所需的資源環(huán)境。而文遠(yuǎn)知行當(dāng)前這種單人單卡的使用方式，不僅無法為資源靈活分配賦能，且會影響到算法工程師的工作效率以及研發(fā)項(xiàng)目的進(jìn)度。因此，如何實(shí)現(xiàn)GPU資源的彈性伸縮和動態(tài)調(diào)度成為了迫切的需求。

2.低GPU利用率，導(dǎo)致硬件成本高昂

AI開發(fā)測試的工作過程中本身就需要耗費(fèi)大量GPU資源。文遠(yuǎn)知行現(xiàn)有的GPU資源分配方式，即GPU卡一旦被分配出去即被獨(dú)占，即使GPU卡閑置也無法共享給其他任務(wù)使用，會造成數(shù)據(jù)中心內(nèi)GPU資源占用分配率高但實(shí)際利用率低，資源閑置情況頻繁嚴(yán)重，增加了企業(yè)在算力使用上的成本。另外，如果按照 50-60人的研發(fā)團(tuán)隊(duì)規(guī)模來計(jì)算，要滿足每個(gè)算法工程師的需求，最終總量上需要提供70~80張GPU卡才夠用。這無疑會加劇文遠(yuǎn)知行在算力資源上的成本支出。因此，對文遠(yuǎn)知行來說，迫切需要設(shè)計(jì)和實(shí)現(xiàn)一種任務(wù)之間靈活動態(tài) 共享 GPU資源的管理方式，提高 GPU資源的使用效率，降低算力使用成本。

3.缺乏統(tǒng)一資源管理監(jiān)控能力，導(dǎo)致管理復(fù)雜

文遠(yuǎn)知行研發(fā)團(tuán)隊(duì)日常工作涉及到大量AI開發(fā)訓(xùn)練工作流程，且隨著算法工程師人數(shù)和資源需求的增長，如果缺少平臺級的管理工具，會出現(xiàn)資源管理難、利用率低、沒有統(tǒng)一監(jiān)控告警等問題。文遠(yuǎn)知行意識到需要一個(gè)統(tǒng)一的GPU管理工具，全面掌控服務(wù)器內(nèi)CPU、GPU、內(nèi)存、網(wǎng)絡(luò)I/O、任務(wù)負(fù)載、磁盤健康狀況、資源使用情況等信息，通過監(jiān)控告警規(guī)則設(shè)置快速發(fā)現(xiàn)問題并給予通知，幫助運(yùn)維團(tuán)隊(duì)高效完成GPU資源運(yùn)維管理工作。

綜上，文遠(yuǎn)知行亟需一個(gè)行之有效的方案，來賦予開發(fā)場景下GPU資源彈性伸縮和統(tǒng)一管理的能力，提高其利用率的同時(shí)為每個(gè)算法工程師按需分配資源，并幫助團(tuán)隊(duì)高效完成GPU資源的運(yùn)維管理工作。

文遠(yuǎn)知行對GPU池化技術(shù)的探索

針對GPU資源在使用過程中的問題，我們進(jìn)行了技術(shù)探索，期待利用GPU虛擬化或GPU池化的技術(shù)去解決AI算法開發(fā)和運(yùn)維的問題。

GPU作為一類外部設(shè)備，往往通過PCIe接口（或其它接口如SXM4等）和計(jì)算機(jī)系統(tǒng)連接。計(jì)算機(jī)上運(yùn)行的軟件，包括內(nèi)核態(tài)、用戶態(tài)代碼對GPU硬件的訪問經(jīng)過硬件（包括CPU、PCIe橋片等）進(jìn)行硬件執(zhí)行處理之后，都會轉(zhuǎn)化成PCIe的TLP報(bào)文發(fā)送到GPU硬件上，由GPU硬件進(jìn)行解析并處理。PCIe的TLP報(bào)文格式是國際標(biāo)準(zhǔn)，是公開的，但是報(bào)文承載的信息是GPU硬件廠商自己定義的，一般都是非公開的。

出于系統(tǒng)安全、功能方面的需求，從CPU硬件到操作系統(tǒng)設(shè)計(jì)上明確劃分了代碼執(zhí)行的兩個(gè)運(yùn)行態(tài)：內(nèi)核態(tài)和用戶態(tài)。在內(nèi)核態(tài)中運(yùn)行的代碼受到操作系統(tǒng)以及CPU硬件的特殊保護(hù)，用戶態(tài)的代碼只能通過操作系統(tǒng)預(yù)先定義好的標(biāo)準(zhǔn)接口，調(diào)用內(nèi)核態(tài)的代碼。和設(shè)備相關(guān)的有 ioctl，mmap，read，write 等少量接口，而通過這些接口被調(diào)用的內(nèi)核態(tài)代碼一般是預(yù)先安裝好的設(shè)備的內(nèi)核態(tài)驅(qū)動。這樣保證內(nèi)核態(tài)和用戶態(tài)的安全隔離，防止不安全的用戶態(tài)代碼破壞整個(gè)計(jì)算機(jī)系統(tǒng)。

圖1: GPU應(yīng)用全棧邏輯架構(gòu)

各種各樣的使用英偉達(dá)GPU的應(yīng)用（程序），包括聊天機(jī)器人，也包括深度學(xué)習(xí)的各種框架，以及使用GPU的Photoshop，都運(yùn)行在用戶態(tài)。但是所有這些應(yīng)用都并不能通過上面說的ioctl、read、write等接口直接和GPU的內(nèi)核態(tài)驅(qū)動、GPU設(shè)備進(jìn)行交互，原因在于英偉達(dá)并沒有公開這些接口的使用方法。英偉達(dá)通過提供一層由GPU用戶態(tài)驅(qū)動和GPU運(yùn)行庫構(gòu)成的廠商用戶態(tài)軟件層來允許各種英偉達(dá)GPU應(yīng)用使用GPU設(shè)備。這層對外提供的接口包括英偉達(dá)自家定義的 CUDA，也包括由社區(qū)共同制訂的OpenGL、Vulkan接口等。

總結(jié)來看，從硬件到上層應(yīng)用，有三層接口可以用來實(shí)現(xiàn)GPU虛擬化或者GPU池化，一是PCIe硬件接口層（硬件層），二是OS內(nèi)核暴露的 ioctl、read、write等設(shè)備驅(qū)動接口層（內(nèi)核層），三是用戶態(tài)的CUDA、OpenGL、Vulkan等應(yīng)用運(yùn)行時(shí)接口層（運(yùn)行時(shí)層）。從原理上，由于這三層接口都在業(yè)內(nèi)各種應(yīng)用層之下，所以無論在那一層做GPU虛擬化和GPU池化都可以覆蓋GPU應(yīng)用需求，具有很好的通用性。

針對當(dāng)前的深度學(xué)習(xí)類型的應(yīng)用，可以進(jìn)一步把應(yīng)用分為兩層，一層是例如TensorFlow、PyTorch、PaddlePaddle、Mindspore等這樣的深度學(xué)習(xí)框架，它們具有一定的通用性，但是各種框架之間并沒有定義統(tǒng)一的接口，所以針對某一個(gè)深度學(xué)習(xí)框架定義的接口做GPU虛擬化或GPU池化是不具有通用性的。而且人工智能應(yīng)用僅僅是整個(gè)GPU應(yīng)用的一個(gè)細(xì)分領(lǐng)域，還有例如云桌面、云游戲、超算、模擬仿真等細(xì)分領(lǐng)域。因此在深度學(xué)習(xí)框架（框架層）做GPU虛擬化和GPU池化的通用性很局限?？蚣軐釉偻鲜且粋€(gè)個(gè)垂直應(yīng)用的細(xì)分領(lǐng)域（AI應(yīng)用層），例如ChatGPT這樣的聊天機(jī)器人，做圖像識別的 OCR等。在這樣的AI應(yīng)用層做GPU虛擬化和GPU池化的通用性就更差了。

圖2: 不同層級虛擬化技術(shù)的通用性比較

上圖直觀展示了上面各層的通用性。不過雖然硬件層、內(nèi)核層、運(yùn)行時(shí)層都有很好的通用性，但是每一層都有自己的特點(diǎn)，在支撐GPU虛擬化、GPU池化上都有其優(yōu)缺點(diǎn)。

1）硬件層虛擬化：也就是基于例如PCIe接口上實(shí)現(xiàn)GPU虛擬化。要在這一層做GPU虛擬化，由于涉及到硬件設(shè)計(jì)，因此只能由GPU廠商來做，例如英偉達(dá)的MIG就是在這一層支持GPU的虛擬化。優(yōu)點(diǎn)是硬件直接支持所以理論上對性能的影響最小。缺點(diǎn)是由于硬件設(shè)計(jì)的復(fù)雜度，所以只支持固定的GPU切分，只支持部分英偉達(dá)的高端GPU（如A100等），而且只支持同一個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)部的容器和虛擬機(jī)使用，不支持遠(yuǎn)程GPU以及基于遠(yuǎn)程GPU的GPU池化，不支持動態(tài)分配和自動釋放GPU資源，不支持GPU資源的超分超售。

2）內(nèi)核層虛擬化：也就是基于ioctl 等內(nèi)核態(tài)接口來實(shí)現(xiàn)GPU虛擬化，工作在操作系統(tǒng)內(nèi)核里面，英偉達(dá)的 vGPU方案就是一個(gè)典型的基于GPU內(nèi)核態(tài)驅(qū)動的GPU虛擬化方案。由于使用了軟件來實(shí)現(xiàn)GPU虛擬化，相對硬件虛擬化方案會引入一定的性能損失，但是相對有較好的靈活性，而且不依賴于GPU硬件，可以在所有企業(yè)級GPU上使用。不過由于英偉達(dá)GPU內(nèi)核態(tài)驅(qū)動的接口以及用戶態(tài)驅(qū)動的代碼都是不開放的，因此只有英偉達(dá)自己可以在這層支持完備的GPU虛擬化能力。目前業(yè)內(nèi)還有騰訊的qGPU和阿里的cGPU也工作在這層，但是由于缺少完整的接口細(xì)節(jié)，目前這兩個(gè)方案都只能支持基于容器虛擬化的環(huán)境，而不能在非容器化環(huán)境以及KVM虛擬化環(huán)境中使用。此外，不論是英偉達(dá)的vGPU，騰訊的qGPU，還是阿里的cGPU，都不支持遠(yuǎn)程GPU以及基于遠(yuǎn)程GPU的GPU池化，不支持動態(tài)分配和自動釋放GPU資源，不支持GPU資源的超分超售。

3）運(yùn)行時(shí)虛擬化：利用CUDA、OpenGL、Vulkan等標(biāo)準(zhǔn)接口實(shí)現(xiàn)GPU虛擬化和GPU池化。這也是一種軟件的實(shí)現(xiàn)方案。趨動科技的OrionX GPU池化軟件選擇的正是這個(gè)路線，這種技術(shù)方案擁有幾個(gè)特點(diǎn)：

1、CUDA、OpenGL、Vulkan等接口都是公開的標(biāo)準(zhǔn)化接口，具有開放性和穩(wěn)定性。所以基于這些接口的實(shí)現(xiàn)方案具有很好的兼容性和可持續(xù)性；

2、因?yàn)樵摲桨高\(yùn)行在用戶態(tài)，因此符合內(nèi)核態(tài)代碼不應(yīng)承載過于復(fù)雜功能的工程實(shí)踐，可以通過復(fù)雜的網(wǎng)絡(luò)協(xié)議棧，復(fù)雜的操作系統(tǒng)支持來實(shí)現(xiàn)遠(yuǎn)程GPU的能力，從而支持GPU池化；

3、由于該方案工作在用戶態(tài)，從部署形態(tài)上對用戶環(huán)境的侵入性是最小的，也是最安全的，即使發(fā)生故障也可以迅速被操作系統(tǒng)隔離，而通過一些軟件工程的設(shè)計(jì)可以具有很強(qiáng)的自恢復(fù)能力；

4、當(dāng)然在運(yùn)行時(shí)實(shí)現(xiàn)GPU虛擬化和池化方案的研發(fā)工作量相對前面兩種方案（硬件層和內(nèi)核層）要巨大得多，有數(shù)量級上的差異。其原因在于越是上層的接口，越是允許定義參數(shù)復(fù)雜的接口，接口功能越豐富、數(shù)量越大。

總結(jié)來說，趨動科技的OrionX GPU池化軟件的主要優(yōu)點(diǎn)有：

1、兼容性好，支持市面上所有型號的英偉達(dá)GPU；

2、功能完備，支持虛擬機(jī)和容器環(huán)境；

3、性能優(yōu)異，即便是遠(yuǎn)程GPU也只引入了非常小的性能損失（在典型場景下性能損失小于5%）；

4、使用靈活，支持基于遠(yuǎn)程GPU的GPU池化，支持動態(tài)分配和自動釋放GPU資源，支持GPU資源超分超售；

5、管理簡單，具有完整的控制面，支持通過GUI，命令行以及RESTFUL API來管理整個(gè)數(shù)據(jù)中心中的所有物理和虛擬GPU資源，提供GUI界面來可視化所有物理和虛擬GPU資源的監(jiān)控和告警信息等；

6、企業(yè)級功能完備，支持故障卡自動隔離，GPU任務(wù)熱遷移，軟件自動灰度升級等。

OrionX GPU池化軟件的主要缺點(diǎn)是，由于需要支持已公開的英偉達(dá)用戶態(tài)驅(qū)動和庫接口，同時(shí)還要實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心GPU池化所需的管理平面，自身的研發(fā)工作量非常巨大，同時(shí)遠(yuǎn)程GPU的性能優(yōu)化難度很高。

從以上三種主流方案比較來看，硬件層的虛擬化（例如：MIG）帶來的好處是性能損失小，但是分配是靜態(tài)的，配置變更較為復(fù)雜，解決的還是單塊卡的共享問題。

內(nèi)核層的虛擬化方案，例如英偉達(dá)的vGPU主要滿足的是為虛擬機(jī)提供vGPU的需求，本質(zhì)上還是解決單卡的共享問題，同樣存在性能開銷，靜態(tài)分配，配置變更復(fù)雜的問題。好處是兼容性好，支持英偉達(dá)全部企業(yè)級GPU，使用感受和使用物理GPU較為類似，與物理卡相比，除了少量Profilers工具不支持外，基本一致（參考：https://docs.nvidia.com/grid/13.0/grid-vgpu-user-guide/index.html）。文遠(yuǎn)的大多數(shù)場景都是基于容器的，所以這類方案也不是首選。在內(nèi)核層工作的還有針對容器的qGPU和cGPU方案，其本質(zhì)上也還是通過單卡的細(xì)顆粒度切分來滿足GPU共享的需求，使用范圍較為有限，同時(shí)由于其依賴于設(shè)備驅(qū)動程序，工作在內(nèi)核態(tài)，出問題時(shí)往往影響面較大，難以分析解決和長期維護(hù)，在文遠(yuǎn)大范圍使用存在著運(yùn)維維護(hù)的障礙。

可以看到，以上二大類（硬件層和內(nèi)核層) 方案的思路類似：把物理卡通過虛擬化技術(shù)轉(zhuǎn)化成小卡，將小卡分配給虛擬機(jī)，容器或應(yīng)用。一旦分配完成，其分配率往往為100%，但是其實(shí)際利用率往往依然較低。這兩類方案的弊端是：無法做到GPU資源的動態(tài)分配和自動釋放，不支持GPU資源的超分超售；不支持遠(yuǎn)程GPU及GPU池化，也不具備管理整個(gè)數(shù)據(jù)中心GPU資源的管理平面。本質(zhì)上，英偉達(dá)的MIG和vGPU，騰訊的qGPU和阿里的cGPU都是站在單張GPU卡的角度來實(shí)現(xiàn)GPU切分，而不是站在整個(gè)數(shù)據(jù)中心的角度來實(shí)現(xiàn)對所有GPU資源的池化管理，因此并非完整的GPU池化方案。

最后，我們從運(yùn)行時(shí)層方案中看到了GPU池化的希望，利用運(yùn)行時(shí)的虛擬化，除了能實(shí)現(xiàn)將大卡轉(zhuǎn)化成小卡，支持GPU細(xì)顆粒度共享，還能支持GPU資源的動態(tài)分配和自動釋放，利用遠(yuǎn)程GPU功能打破物理服務(wù)器的邊界，將GPU的管理和使用從單臺服務(wù)器擴(kuò)展到整個(gè)數(shù)據(jù)中心，實(shí)現(xiàn)了數(shù)據(jù)中心級GPU資源池需要的管理平面，能對整個(gè)數(shù)據(jù)中心的所有GPU統(tǒng)一納管，統(tǒng)一監(jiān)控告警，統(tǒng)一運(yùn)維。運(yùn)行時(shí)層方案的特點(diǎn)和軟件定義網(wǎng)絡(luò)SDN或軟件定義存儲SDS的理念類似，有完整的數(shù)據(jù)面和控制面，形成了完備的軟件定義GPU方案SD-GPU（Software Defined GPU)，是較為成熟的技術(shù)路線和方向。

GPU池化技術(shù)的運(yùn)行和分析

之后經(jīng)過對當(dāng)前主要技術(shù)路線和產(chǎn)品的選型，我們認(rèn)為運(yùn)行時(shí)虛擬化是GPU池化技術(shù)的基礎(chǔ)，趨動科技的OrionX GPU池化軟件是更適合文遠(yuǎn)的方案。作為國內(nèi)領(lǐng)先的AI算力池化技術(shù)企業(yè)，趨動科技致力于通過先進(jìn)的技術(shù)解決客戶的實(shí)際痛點(diǎn)。其數(shù)據(jù)中心級GPU池化軟件OrionX，把GPU當(dāng)作分布式存儲那樣的全局統(tǒng)一運(yùn)維、管理和使用的抽象資源，融合了GPU共享、聚合和遠(yuǎn)程使用等多種硬核能力，打造全能型軟件定義GPU。

借助于OrionX GPU池化軟件，將多臺GPU服務(wù)器上分散的物理GPU資源打造成一個(gè)統(tǒng)一的GPU資源池，算法工程師不僅可以按需使用GPU資源，靈活滿足日常自動駕駛多種算法研發(fā)和訓(xùn)練需求，同時(shí)運(yùn)維工程師可以通過OrionX的圖形化管理界面（GUI）對資源進(jìn)行調(diào)度和管理。

圖3: GPU池化解決方案拓?fù)鋱D

資源彈性調(diào)度，以有限資源滿足更多算法工程師需求

文遠(yuǎn)知行采用OrionX GPU池化軟件，將昂貴GPU資源實(shí)現(xiàn)池化，實(shí)現(xiàn)AI開發(fā)測試任務(wù)與GPU資源分離部署，而OrionX vGPU資源池內(nèi)的虛擬GPU算力即取即用，并對其他上層軟件保持資源管理的透明性，顯著提高了GPU的利用率。資源池中的虛擬GPU支持動態(tài)申請釋放，能夠自動根據(jù)調(diào)度算法使用整個(gè)數(shù)據(jù)中心的空閑GPU資源，不僅用同樣的GPU資源數(shù)量支撐了數(shù)倍的開發(fā)人員，還可以快速為不同AI研發(fā)項(xiàng)目分配所需資源，在AI開發(fā)環(huán)境上實(shí)現(xiàn)GPU資源的降本增效。

遠(yuǎn)程調(diào)用，優(yōu)化研發(fā)生產(chǎn)力

基于OrionX GPU池化軟件對于遠(yuǎn)程GPU功能的支持，加上數(shù)據(jù)中心內(nèi)部署了RDMA高速網(wǎng)絡(luò)， AI開發(fā)環(huán)境不再被局限在某一臺GPU服務(wù)器上運(yùn)行。因此，文遠(yuǎn)知行的研發(fā)人員可以在無GPU的服務(wù)器上進(jìn)行開發(fā)工作，配置好開發(fā)環(huán)境后，通過RDMA網(wǎng)絡(luò)動態(tài)掛載和調(diào)用其他服務(wù)器上的GPU資源即可。

通過這個(gè)功能，算法工程師的應(yīng)用可以無障礙地被部署到數(shù)據(jù)中心內(nèi)的任意服務(wù)器之上，并且透明地使用任何服務(wù)器之上的GPU資源。面臨訓(xùn)練大模型任務(wù)時(shí)，也能夠快速調(diào)集多個(gè)GPU卡完成訓(xùn)練任務(wù)，且一鍵解決AI開發(fā)人員面臨的訓(xùn)練模型中GPU/CPU配比和多機(jī)多卡模型拆分問題，為算法工程師節(jié)省大量寶貴時(shí)間，有效提高了研發(fā)效率。

統(tǒng)一管理界面，實(shí)行資源監(jiān)控、管理和調(diào)配

文遠(yuǎn)知行通過OrionX將CPU、物理GPU、虛擬GPU實(shí)現(xiàn)統(tǒng)一納管，在統(tǒng)一的圖形化界面上對資源實(shí)現(xiàn)統(tǒng)一調(diào)度分配，實(shí)時(shí)監(jiān)控。同時(shí)，OrionX還與Kubernetes環(huán)境實(shí)現(xiàn)無縫集成，可在K8S中實(shí)現(xiàn)對GPU資源池中資源的統(tǒng)一管理調(diào)度，簡化了運(yùn)維工作。此外，OrionX具備的大量企業(yè)級功能（如支持故障卡自動隔離，軟件自動灰度升級等），都顯著提高了運(yùn)維工作的效率。

收益分析

從2021年構(gòu)建起GPU資源池化之后，文遠(yuǎn)知行已經(jīng)打破了一人一卡占用的模式，對GPU資源實(shí)現(xiàn)按需分配、靈活調(diào)度、彈性使用和自動回收，顯著提升了物效人效，從而實(shí)現(xiàn)以少量GPU資源支撐大量算法工程師對獨(dú)立開發(fā)環(huán)境的需求。

物理GPU資源利用率提升約4倍。通過OrionX GPU池化軟件對GPU 資源的按需分配、自動調(diào)度和釋放，算法工程師按需使用GPU資源，在AI開發(fā)環(huán)境上實(shí)現(xiàn)了GPU資源的降本增效。從整體來看，物理GPU使用率提升約4倍。

提升研發(fā)效率。面對本地服務(wù)器上GPU卡資源不足甚至沒有的情況，算法工程師可通過OrionX遠(yuǎn)程調(diào)用+RDMA網(wǎng)絡(luò)能力，直接調(diào)用其他服務(wù)器上的GPU資源，縮短了GPU卡資源調(diào)整和配置的時(shí)間周期，節(jié)省時(shí)間。

簡化運(yùn)維管理。運(yùn)維工程師可借助圖形化管理界面，對GPU資源池進(jìn)行實(shí)時(shí)監(jiān)控，統(tǒng)一調(diào)度和管理，有效提升了GPU集群管理效率，同時(shí)降低了運(yùn)維復(fù)雜性。

削減成本投入。文遠(yuǎn)知行通過采用OrionX GPU池化軟件，充分利用了現(xiàn)有GPU資源，原來需要為每一個(gè)算法工程師固定分配1-2物理卡，以至于需要70-80張卡才能滿足一支50-60人的研發(fā)團(tuán)隊(duì)的需求，如今只需要16張卡就可以支撐該研發(fā)團(tuán)隊(duì)日常開發(fā)、測試需求，有效控制了對GPU新增采購的需求，從而降低了硬件成本的投入。

滿足未來發(fā)展需求。面對研發(fā)團(tuán)隊(duì)人數(shù)的增長，以及后期還計(jì)劃上線一個(gè)自研的開發(fā)平臺的情況，文遠(yuǎn)知行可憑借OrionX對于主流GPU卡的兼容性，支持從單臺到整個(gè)數(shù)據(jù)中心所有GPU服務(wù)器納管，能輕松實(shí)現(xiàn)GPU資源池的橫向擴(kuò)展等功能特性，高效地實(shí)現(xiàn)“算力就緒”來支撐未來發(fā)展。

伴隨自動駕駛進(jìn)入高速發(fā)展階段，作為自動駕駛領(lǐng)域深耕者的文遠(yuǎn)知行，在趨動科技OrionX GPU池化軟件幫助下，可以更從容地開展自動駕駛技術(shù)的研發(fā)工作，加快在該領(lǐng)域內(nèi)開拓創(chuàng)新的步伐。

關(guān)鍵詞：

久久亚洲国产精品视频,中国AV片,最近中文字幕免费大全,国产亚洲精品久久久999功能介绍,欧美色女人

【天天新要聞】驚人的算力成本背后，自動駕駛公司如何加速研發(fā)創(chuàng)新

相關(guān)內(nèi)容

久久亚洲国产精品视频,中国AV片,最近中文字幕免费大全,国产亚洲精品久久久999功能介绍,欧美色女人

【天天新要聞】驚人的算力成本背后，自動駕駛公司如何加速研發(fā)創(chuàng)新

相關(guān)內(nèi)容

【天天新要聞】驚人的算力成本背后，自動駕駛公司如何加速研發(fā)創(chuàng)新