国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

  • 正文
    • D1處理器架構(gòu)
    • D1核心的架構(gòu)
    • D1訓(xùn)練塊架構(gòu)
    • D1訓(xùn)練網(wǎng)格與訓(xùn)練矩陣
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

從2022新公開的特斯拉機器人Dojo芯片架構(gòu)解析到存算一體

2022/08/29
1199
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

ICVIEWS智庫專家:陳巍 博士

D1處理器特斯拉人形機器人的核心,意義重大。ICVIEWS邀請到千芯科技董事長陳巍博士深入介紹D1架構(gòu)、D1訓(xùn)練模塊、D1訓(xùn)練網(wǎng)格以及訓(xùn)練矩陣整體架構(gòu)。

在Hot Chips 34(2022)大會上,Emil Talpes公開了特斯拉Dojo處理器的關(guān)鍵細節(jié)。

Emil Talpes 本人在 AMD 工作了近 17 年,曾研究各種 Opteron 處理器以及 “K12”Arm服務(wù)器芯片。

D1處理器由臺積電制造,采用7納米制造工藝,擁有500億個晶體管,芯片面積為645mm²,小于英偉達的A100(826 mm²)和AMD Arcturus(750 mm²)。要知道,這個D1處理器可是特斯拉人形機器人的核心,意義重大。

千芯科技陳巍博士就D1架構(gòu)、D1訓(xùn)練模塊、D1訓(xùn)練網(wǎng)格以及訓(xùn)練矩陣整體架構(gòu)做了解析。

D1處理器架構(gòu)

D1處理器結(jié)構(gòu)

 

每個D1處理器由 18 x 20 的D1核心構(gòu)成。每個D1處理器中有354個D1核心可用。估計是出于良率和處理器核心穩(wěn)定考慮,D1處理器由臺積電制造,采用7nm制造工藝,擁有500億個晶體管,芯片面積為645mm²。

這個尺寸小于英偉達的A100(826 mm²)和AMD Arcturus(750 mm²)。但是每個核心都是一個完整的帶矩陣計算能力的CPU,其計算靈活性是遠超眾核架構(gòu)的GPU的,這也會帶來極高的成本。這個架構(gòu)有點類似于SambaNova。

D1芯片運行在2GHz,擁有巨大的440MB SRAM,是存算一體架構(gòu)(近存計算)。

D1核心的架構(gòu)

D1核心結(jié)構(gòu)

 

從18x20陣列中每個D1核心的結(jié)構(gòu)上看,每個D1核心是帶有向量計算/矩陣計算能力的處理器,具有完整的取指、譯碼、執(zhí)行部件。處理器運行在2GHz,具有4個8x8x4矩陣乘法計算單元。

D1處理器指令集

 

據(jù)稱D1以RISC-V架構(gòu)ISA為基礎(chǔ)進行擴展。

D1核心具備FP32和FP16這兩個標準的計算格式,同時還具備更適合Inference的BFP16格式。為了達到混合精度計算提升性能的目的,D1還采用了用于較低精度和更高吞吐量的 8 位 CFP8 格式。Dojo 編譯器可以在尾數(shù)精度附近滑動,以涵蓋更廣泛的范圍和精度。在任何給定時間,最多可以使用 16 種不同的矢量格式,靈活提升算力

D1處理器的數(shù)據(jù)格式

D1訓(xùn)練塊架構(gòu)

D1訓(xùn)練模塊展開圖

 

在D1訓(xùn)練模塊方面,每個D1訓(xùn)練模塊由5x5的 D1芯片陣列排布而成,以二維Mesh結(jié)構(gòu)互連。片上跨內(nèi)核SRAM達到驚人的11GB,這也算是一個非常典型的近存計算架構(gòu)了。當(dāng)然耗電量也達到了15kW的驚人指標。能效比為0.6TFLOPS/W@BF16/CFP8。對于CPU架構(gòu)來說,這一能效比非常不錯。顯然存算一體架構(gòu)帶來的優(yōu)勢非常大。外部32GB共享HBM內(nèi)存。(HBM2e或HBM3)

每個訓(xùn)練模塊外部邊緣的 40 個 I/O 芯片達到了 36 TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。

數(shù)據(jù)傳輸方向與芯片平面平行,供電及水冷卻方向與芯片平面垂直。這是一個非常優(yōu)美的結(jié)構(gòu)設(shè)計,不同的訓(xùn)練模塊之間還可以互連。可想而知,這是一個可以橫向擴展的超級計算機架構(gòu)。

當(dāng)然,一開始的那個圖是展開圖。實際的D1訓(xùn)練塊像是個扁扁的披薩餅盒子。

D1訓(xùn)練模塊

D1訓(xùn)練網(wǎng)格與訓(xùn)練矩陣

D1訓(xùn)練網(wǎng)格

D1擴展的方式就好像自家鋪地磚一樣。在 D1 網(wǎng)格的邊緣有Dojo 接口處理器(DIP)。

每個DIP包括了32GB HBM(800GB/s存儲帶寬),以及900GB/s的對外傳輸帶寬(特斯拉自定義的TTP協(xié)議),32GB/s PCIe Gen4接口,以及50GB/s的以太網(wǎng)帶寬(特斯拉自定義的TTPoE協(xié)議)

Dojo V1訓(xùn)練矩陣

Dojo V1 訓(xùn)練矩陣由 6 個訓(xùn)練塊、4 個主機服務(wù)器上(裝有20個 DIP),以及一組連接到以太網(wǎng)交換結(jié)構(gòu)的輔助服務(wù)器構(gòu)成。

這樣算下來,Dojo V1 系統(tǒng)有 53,100 個D1 內(nèi)核,在 BF16 和 CFP8 格式下算力 1 Exaflop,1.3 TB 的SRAM 內(nèi)存,以及 DIP 上的 13 TB 的 HBM內(nèi)存。

與其一同被揭秘的還有特斯拉ExaPod超算。

總的來說,特斯拉D1芯片有以下幾個特點:

1)2D Mesh架構(gòu);

2)具備向量及矩陣計算加速單元的眾核架構(gòu);

3)存算一體架構(gòu)(近存計算)。

據(jù)Dojo項目負責(zé)人Ganesh Venkataramanan介紹,特斯拉Dojo是史上最快的AI訓(xùn)練計算機。相比于業(yè)內(nèi)其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節(jié)省5倍。而使得Dojo完成訓(xùn)練AI算法的重任,就是特斯拉自研神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片。

馬斯克透露,不久后,特斯拉即將開始Dojo超級計算機的首批組裝,特斯拉Dojo超級計算機將于明年投用。

 ICVIEWS智庫專家   陳巍博士

 

千芯科技董事長,存算一體/GPU架構(gòu)和AI專家,高級職稱。中關(guān)村云計算產(chǎn)業(yè)聯(lián)盟、中國光學(xué)工程學(xué)會專家。曾任AI企業(yè)首席科學(xué)家、存儲芯片大廠3D NAND設(shè)計負責(zé)人,領(lǐng)軍大陸首個3D NAND閃存設(shè)計團隊、eFlash IP核編譯器、RISC-V/x86/arm兼容AI加速編譯器,相關(guān)工作對標三星、臺積電、SST。畢業(yè)于清華大學(xué),中美發(fā)明專利與軟著70+。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國半導(dǎo)體產(chǎn)業(yè),我們一直在路上。

永安市| 瑞丽市| 新余市| 新闻| 霍林郭勒市| 海兴县| 阳泉市| 安国市| 望谟县| 灵寿县| 金沙县| 阳春市| 林西县| 梨树县| 临海市| 肥西县| 远安县| 吉木萨尔县| 通山县| 满洲里市| 庆元县| 清水河县| 桓仁| 延川县| 永善县| 孝感市| 彭州市| 长宁县| 扶余县| 霍山县| 阿合奇县| 龙山县| 广昌县| 锡林浩特市| 凌云县| 建平县| 宜昌市| 漠河县| 岳阳市| 上栗县| 西乌珠穆沁旗|