伊利諾伊大學(xué)香檳分校和加州大學(xué)洛杉機(jī)分校的科研團(tuán)隊(duì)正在研發(fā)一臺(tái)晶圓級(jí)計(jì)算機(jī)架構(gòu),其目標(biāo)旨在構(gòu)建多GPU芯片以芯片數(shù)據(jù)內(nèi)連連接(interconnect)的高效計(jì)算系統(tǒng),實(shí)現(xiàn)內(nèi)部數(shù)據(jù)互連的速率和能效,突破數(shù)據(jù)鏈路導(dǎo)致的性能瓶頸。
超級(jí)計(jì)算機(jī)中通常將一個(gè)任務(wù)應(yīng)用負(fù)載分散至單獨(dú)的印刷電路板的多GPU計(jì)算單元,這些GPU單元通過(guò)長(zhǎng)途數(shù)據(jù)鏈路相互通信。數(shù)據(jù)鏈路成為了主要的瓶頸,因?yàn)樗鼈兊膫鬏斔俣缺刃酒瑑?nèi)部數(shù)據(jù)互連要慢得多。
此外,“芯片和印刷電路板的存在機(jī)械性的不匹配”。意味著這些處理器必須包含在芯片封裝內(nèi),但這些封裝在輸入/輸出次數(shù)上是有限制的。
綜合起來(lái)數(shù)據(jù)鏈路就會(huì)產(chǎn)生顯著的性能瓶頸。如果是在理想情況下,多GPU模塊間數(shù)據(jù)通信可以和芯片內(nèi)部數(shù)據(jù)互連的速度/能效一樣高。
一種方法是把所有GPU都整合入同一塊硅晶圓的計(jì)算機(jī),并且用芯片內(nèi)連連接它們。從規(guī)模生產(chǎn)上來(lái)看這種方法不現(xiàn)實(shí),如果整合40個(gè)GPU入一個(gè)晶圓就足夠制造工藝災(zāi)難,很難保證如此規(guī)模項(xiàng)目中不存在某個(gè)制造瑕疵。
研究團(tuán)隊(duì)采用了另一種方法:他們稱之為硅互連結(jié)構(gòu)(SiIF)的新技術(shù),使用通過(guò)質(zhì)量測(cè)試的標(biāo)準(zhǔn)GPU芯片,并用緊密集成的SiIF結(jié)構(gòu)更好地連接它們。從工程師的角度來(lái)看,其性能就是一個(gè)巨型的怪獸級(jí)GPU芯片,而非40個(gè)獨(dú)立GPU芯片并聯(lián)計(jì)算。
這種多GPU性能怪物的模擬計(jì)算速度提升19倍,并將綜合能耗和信號(hào)延遲的削減了140多倍。
伊利諾伊的計(jì)算機(jī)工程助理教授Rakesh Kumar和他的同事們已經(jīng)開(kāi)始建造晶圓級(jí)原型,有望在2月IEEE國(guó)際高性能計(jì)算機(jī)體系結(jié)構(gòu)研討會(huì)上展示他們的研究成果。
質(zhì)檢要聞
推薦
月排行榜