4月24日,浙江大學(xué)召開OpenKS(知目)知識(shí)計(jì)算引擎開源項(xiàng)目發(fā)布會(huì),宣布浙大與合作單位研發(fā)的OpenKS知識(shí)計(jì)算引擎取得重大進(jìn)展。中國(guó)工程院院士、國(guó)家新一代人工智能戰(zhàn)略咨詢委員會(huì)組長(zhǎng)、浙江大學(xué)計(jì)算機(jī)學(xué)院教授潘云鶴說,本次發(fā)布的OpenKS,作為知識(shí)計(jì)算引擎項(xiàng)目中的基礎(chǔ)軟件架構(gòu),定義并豐富了知識(shí)計(jì)算的內(nèi)涵,是我國(guó)在大數(shù)據(jù)人工智能方向的又一次有益嘗試。
“可泛化的領(lǐng)域知識(shí)學(xué)習(xí)與計(jì)算引擎”是以莊越挺教授作為首席科學(xué)家的科技創(chuàng)新2030“新一代人工智能”首批重大項(xiàng)目,該項(xiàng)目由浙江大學(xué)牽頭,聯(lián)合北京大學(xué)、北京航空航天大學(xué)、哈爾濱工業(yè)大學(xué)、西北工業(yè)大學(xué)、之江實(shí)驗(yàn)室等頂尖學(xué)術(shù)機(jī)構(gòu)、百度等行業(yè)領(lǐng)軍企業(yè)聯(lián)合建設(shè),旨在建立一整套可服務(wù)于知識(shí)密集型行業(yè)共性需求的知識(shí)計(jì)算工具、算法與系統(tǒng),幫助這些行業(yè)快速地構(gòu)建行業(yè)知識(shí)圖譜,提供行業(yè)相關(guān)的智能規(guī)劃與決策支持。經(jīng)過各課題組的深入研究和課題間的緊密協(xié)作,共同研發(fā)了可用于支撐各行業(yè)知識(shí)服務(wù)系統(tǒng)構(gòu)建的OpenKS知識(shí)計(jì)算引擎算法庫(kù)。
OpenKS基于百度飛槳,可實(shí)現(xiàn)模型的大規(guī)模分布式訓(xùn)練與圖計(jì)算,解決了從數(shù)據(jù)到知識(shí),從知識(shí)到?jīng)Q策中的三大問題。OpenKS集成大量算法和解決方案,提供了一系列知識(shí)學(xué)習(xí)與計(jì)算的多層級(jí)接口標(biāo)準(zhǔn),可供各機(jī)構(gòu)研發(fā)人員以統(tǒng)一的形式進(jìn)行算法模型研究成果的封裝、集成與服務(wù),并通過開源機(jī)制支持企業(yè)和社區(qū)開發(fā)者根據(jù)不同的場(chǎng)景需求對(duì)接口服務(wù)進(jìn)行調(diào)用和進(jìn)一步開發(fā)。各行各業(yè)可以選擇引擎中的算法,快速地搭建行業(yè)系統(tǒng)應(yīng)用,以應(yīng)對(duì)多變的決策需求。當(dāng)行業(yè)與需求發(fā)生變化,系統(tǒng)能夠及時(shí)地提供算力、算法支撐,以縮短行業(yè)智能化改造的時(shí)間。
以工程科技教育行業(yè)為例,目前我國(guó)存在很大的工程人才缺口,然而工程科技門類眾多、知識(shí)體系繁復(fù)、知識(shí)點(diǎn)之間關(guān)聯(lián)復(fù)雜、教材層次各異導(dǎo)致自學(xué)門檻較高。不僅如此,學(xué)生背景各異、學(xué)習(xí)目的各異,也導(dǎo)致統(tǒng)一培訓(xùn)效率較低。OpenKS知識(shí)計(jì)算引擎包含的知識(shí)抽取算法API、知識(shí)表征學(xué)習(xí)API、分布式知識(shí)計(jì)算API、知識(shí)圖譜應(yīng)用API等可為工程科教行業(yè)構(gòu)建知識(shí)圖譜,并基于圖譜為不同學(xué)生設(shè)計(jì)個(gè)性化教育路線,滿足差異化學(xué)習(xí)的需要。
深度學(xué)習(xí)框架助力OpenKS智能化加速
知識(shí)圖譜技術(shù)的研發(fā)應(yīng)用需要海量數(shù)據(jù)、龐大算力以及復(fù)雜的模型算法,而構(gòu)建知識(shí)圖譜底層平臺(tái)所需的技術(shù)要求高、周期長(zhǎng)、投入大、收益慢?;谏疃葘W(xué)習(xí)框架開展人工智能科學(xué)實(shí)驗(yàn)或產(chǎn)品研發(fā),則可以避免在知識(shí)圖譜系統(tǒng)搭建中重復(fù)造輪子。
百度飛槳自2016年開源,是我國(guó)首個(gè)自主研發(fā)、功能完備、開源開放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)?;诎俣蕊w槳平臺(tái),OpenKS可實(shí)現(xiàn)模型的大規(guī)模分布式訓(xùn)練與圖計(jì)算,解決了從數(shù)據(jù)到知識(shí),從知識(shí)到?jīng)Q策中的三大問題。
飛槳助力OpenKS實(shí)現(xiàn)模型大規(guī)模分布式訓(xùn)練
面對(duì)超大規(guī)模知識(shí)圖譜訓(xùn)練,隨著圖譜規(guī)模增大,數(shù)據(jù)量增多,對(duì)訓(xùn)練框架要求越來越高。針對(duì)分布式知識(shí)計(jì)算,OpenKS系統(tǒng)采用飛槳超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練技術(shù),支持百億圖譜分布式存儲(chǔ)和檢索,還支持百節(jié)點(diǎn)數(shù)據(jù)并行訓(xùn)練萬億稀疏參數(shù),進(jìn)而學(xué)習(xí)大規(guī)模的知識(shí)圖譜。
針對(duì)知識(shí)圖譜應(yīng)用,如知識(shí)問答,模型比較復(fù)雜,OpenKS采用飛槳集合通信多機(jī)多卡訓(xùn)練;知識(shí)推薦任務(wù),訓(xùn)練數(shù)據(jù)比較大,稀疏特征比較多,OpenKS除了采用飛槳萬億稀疏參數(shù)服務(wù)器外,隨著模型越來越復(fù)雜,還引入純GPU參數(shù)服務(wù)器來提升稀疏模型的計(jì)算性能,把100臺(tái)CPU機(jī)器才能訓(xùn)練的模型只用1臺(tái)多卡GPU設(shè)備即可完成訓(xùn)練,不僅節(jié)約了成本,還保障了集群的穩(wěn)定性和擴(kuò)展性。同時(shí),在知識(shí)圖譜應(yīng)用場(chǎng)景里,如知識(shí)圖譜問答和推薦,飛槳不僅提供了相應(yīng)的算法,還針對(duì)推薦場(chǎng)景提供了工業(yè)級(jí)數(shù)據(jù)處理和萬億稀疏模型訓(xùn)練能力。
考慮到在純GPU的參數(shù)服務(wù)器下,當(dāng)模型網(wǎng)絡(luò)層比較復(fù)雜時(shí),GPU利用率很難被打滿,飛槳框架2.0版又創(chuàng)新性地推出了業(yè)內(nèi)首個(gè)通用異構(gòu)參數(shù)服務(wù)器功能,可以同時(shí)使用不同的硬件進(jìn)行混合異構(gòu)訓(xùn)練,兼容了多款CPU、AI專用芯片(如百度昆侖XPU)、GPU(如V100、P40、K40),讓用戶可以在硬件異構(gòu)集群中部署分布式訓(xùn)練任務(wù),實(shí)現(xiàn)對(duì)不同算力芯片高效利用,為用戶提供更高吞吐、更低資源消耗的訓(xùn)練能力。
對(duì)于大規(guī)模稠密參數(shù)模型,飛槳分布式訓(xùn)練技術(shù)同樣與業(yè)務(wù)緊密結(jié)合,通過模型并行策略、分組參數(shù)切片組合、流水線并行策略和數(shù)據(jù)并行策略的多層疊加,發(fā)揮合力作用,誕生了業(yè)內(nèi)第一個(gè)4D混合并行策略。通過測(cè)試驗(yàn)證,如此創(chuàng)新性提出的4D混合并行策略的訓(xùn)練速度的確高于3D混合并行策略,進(jìn)一步優(yōu)化訓(xùn)練性能和顯存占比,再次走到了技術(shù)的前沿。
飛槳PGL助力OpenKS實(shí)現(xiàn)圖計(jì)算
針對(duì)圖學(xué)習(xí)算法通用性與性能兼顧的挑戰(zhàn),OpenKS以飛槳圖學(xué)習(xí)PGL作為知識(shí)表示學(xué)習(xí)以及知識(shí)存儲(chǔ)的重要模塊之一。在知識(shí)圖譜表征學(xué)習(xí)中,需要在線高性能圖引擎查詢,因此會(huì)面對(duì)大規(guī)模異構(gòu)關(guān)系存儲(chǔ)以及在線高性能查詢問題,OpenKS采用PGL的大規(guī)模分布式異構(gòu)圖引擎來進(jìn)行知識(shí)表征學(xué)習(xí)的在線服務(wù),來支撐日益增長(zhǎng)的知識(shí)關(guān)系。
此外,高效的圖神經(jīng)網(wǎng)絡(luò)算法,也是知識(shí)圖譜先進(jìn)性的保證,PGL是業(yè)界首個(gè)提出通用消息并行傳遞機(jī)制的圖神經(jīng)網(wǎng)絡(luò)框架,原生支持異構(gòu)圖消息傳遞聚合等多種功能,并內(nèi)置多種高效圖神經(jīng)網(wǎng)絡(luò)模型。因此,OpenKS項(xiàng)目中集成了PGL的GCN、TransE、TransR等多種圖表征學(xué)習(xí)算法,并且同時(shí)采用了PGL的高效消息傳遞接口作為圖神經(jīng)網(wǎng)絡(luò)的編程接口之一。
百度飛槳深度學(xué)習(xí)平臺(tái)于2019年開源的分布式圖學(xué)習(xí)框架PGL,是業(yè)界首個(gè)提出通用消息并行傳遞機(jī)制,支持百億規(guī)模巨圖的工業(yè)級(jí)圖學(xué)習(xí)框架。原生支持圖學(xué)習(xí)中較為獨(dú)特的分布式圖存儲(chǔ)(Distributed Graph Storage)和分布式采樣(Distributed Sampling),可以方便地通過上層Python接口,將圖的特征(如Side Feature等)存儲(chǔ)在不同的Server上,也支持通用的分布式采樣接口,將不同子圖的采樣分布式處理,并基于PaddlePaddle Fleet API來完成分布式訓(xùn)練(Distributed Training),實(shí)現(xiàn)在大規(guī)模圖學(xué)習(xí)分布式的上加速計(jì)算。
PGL基于飛槳?jiǎng)討B(tài)圖全新升級(jí),極大提升了易用性,原生支持異構(gòu)圖,覆蓋30+圖學(xué)習(xí)模型,包括圖語義理解模型ERNIESage等,歷經(jīng)大量真實(shí)工業(yè)應(yīng)用驗(yàn)證,可全流程服務(wù)產(chǎn)業(yè)應(yīng)用項(xiàng)目,為開發(fā)者提供充分的實(shí)踐案例投射進(jìn)行技術(shù)選型。另外,基于飛槳深度學(xué)習(xí)框架的分布式Fleet API,建立分布式圖存儲(chǔ)及分布式學(xué)習(xí)算法,可實(shí)現(xiàn)靈活、高效地搭建前沿的大規(guī)模圖學(xué)習(xí)算法。
展望
未來,在充滿了機(jī)遇與挑戰(zhàn)的大時(shí)代背景中,飛槳將持續(xù)在技術(shù)上不斷創(chuàng)新進(jìn)步,探索分布式訓(xùn)練技術(shù)等的邊界,擴(kuò)展AI賦能的領(lǐng)域,與開發(fā)者共同成長(zhǎng)進(jìn)步,為產(chǎn)學(xué)研智能化進(jìn)程貢獻(xiàn)著自己的力量。(辛文)
關(guān)鍵詞: 大數(shù)據(jù) 人工智能
質(zhì)檢
推薦