實(shí)習(xí)生作者:王華斌?上海紐約大學(xué)在讀
本文中表格內(nèi)容詳細(xì)數(shù)據(jù)的原始文檔,我放到了知識(shí)星球的云盤上供會(huì)員使用。如果您對此類數(shù)據(jù)有興趣,歡迎加入我的知識(shí)星球后獲取 -- 文章最后有加入方式
特別申明:本文數(shù)據(jù)系作者個(gè)人從各種網(wǎng)絡(luò)渠道獲取,可能存在部分信息錯(cuò)誤,與事實(shí)有出入,需要讀者謹(jǐn)慎參考
前言:
AI大模型能力的快速提升(如Qwen3、Llama4的多模態(tài)升級與邏輯推理優(yōu)化)正推動(dòng)AI從輔助工具向核心生產(chǎn)力滲透。而算力芯片的性能對大模型的訓(xùn)練、推理至關(guān)重要。本文通過統(tǒng)計(jì)全球主要算力芯片的算力、顯存和互聯(lián)帶寬指標(biāo),對比海外第三方設(shè)計(jì)公司、海外大廠自研和國產(chǎn)芯片的單卡性能。不考慮軟件(如CUDA)、Scale out架構(gòu)(如華為CloudMatrix超節(jié)點(diǎn))和成本。華為芯片缺少官方公布數(shù)據(jù),所有暫時(shí)沒有收錄。
英偉達(dá)的芯片覆蓋最廣,包括高性能的H100、H200和B200,以及較早的V100、P100等,其產(chǎn)品線在算力和迭代速度均占據(jù)領(lǐng)先地位。英特爾的AI芯片為Guadi系列(如Guadi3),而AMD是MI系列(如MI325X、MI250X)。從時(shí)間線看,英偉達(dá)迭代速度最快,2023年后密集發(fā)布新品;AMD的MI300系列和英特爾的Guadi3則瞄準(zhǔn)了同期的英偉達(dá)B200競爭。功耗設(shè)計(jì)上,英偉達(dá)B200的圓圈顯著更大,凸顯其高功耗高性能定位。
美國互聯(lián)網(wǎng)大廠
谷歌的TPU系列最為成熟,從v2到v7p逐步提升算力,其中v5p和v7p的能效比設(shè)計(jì)突出;亞馬遜的Trainium3、Meta的MTIA v2和微軟的Maia 100是較新的競爭者,發(fā)布時(shí)間集中在2023-2024年。這些芯片的算力普遍低于英偉達(dá)旗艦(如TPU v7p的FP16性能接近B200),但功耗更低(圓圈較小),反映其優(yōu)化能效的特點(diǎn)。谷歌的TPU發(fā)布時(shí)間跨度大,顯示其長期投入,而Meta、亞馬遜和微軟的布局更晚但速度迅猛。
國產(chǎn)芯片
寒武紀(jì)的思元590、海光信息的BW100和沐曦科技的曦云C500在算力和功耗上領(lǐng)先,發(fā)布時(shí)間集中于2023-2024年。整體來看,國產(chǎn)芯片的算力水平與英偉達(dá)中端產(chǎn)品(如A100)接近,但功耗控制更分散(圓圈大小差異大),反映技術(shù)路線多樣性。發(fā)布時(shí)間顯示2020年后中國AI芯片進(jìn)入爆發(fā)期,但國際巨頭仍保持性能代差。
一、算力指標(biāo)
1.?制程:
海外:
第三方設(shè)計(jì)公司:為后續(xù)產(chǎn)品制程的升級預(yù)留了空間。英偉達(dá)最新的Blackwell系列使用了TSMC 4NP,相當(dāng)于4nm高性能版本。AMD、英特爾最新產(chǎn)品的制程都是5nm。Groq為了追求性價(jià)比,使用GlobalFoundries的14nm。
大廠自研:谷歌最新的TPU Ironwood(TPU v7p)和亞馬遜的Trainium3都使用了最先進(jìn)的3nm,Meta和微軟使用了5nm。
中國大陸:
國內(nèi)廠商在受到制裁之前,旗艦產(chǎn)品絕大多數(shù)都是使用TSMC 7nm。目前正在轉(zhuǎn)向中芯國際7nm。燧原科技的所有產(chǎn)品都采用GlobalFoundries?的12nm工藝。
2.?晶體管數(shù)量/芯片面積/晶體管密度:
芯片面積:由于掩膜版的尺寸,單個(gè)芯片最大曝光區(qū)面積限制為858mm2,可以通過Chiplet構(gòu)建更大的芯片。
晶體管密度:更高的晶體管密度允許在相同芯片面積內(nèi)集成更多計(jì)算核心,直接提升并行計(jì)算能力。
海外:
第三方設(shè)計(jì)公司:英偉達(dá)的B200首次使用了Chiplet技術(shù),包含了兩個(gè)B100 Die,兩個(gè)Die通過NV-HBI互聯(lián),芯片面積達(dá)到1600mm2,晶體管密度達(dá)到130百萬/mm2。AMD的芯片一直都采用Chiplet,由許多小芯粒組成大芯片,芯粒之間通過Infinity Fabric互聯(lián).
大廠自研:谷歌最新的TPU Ironwood(TPU v7p)晶體管密度達(dá)到了308?百萬/mm2,是英偉達(dá)Blackwell的兩倍多。TPU v6e和微軟的Maia 100分別達(dá)到110百萬/mm2和128百萬/mm2。
中國大陸:
國內(nèi)廠商多使用Chiplet技術(shù),增強(qiáng)算力、降低成本。燧原科技2021年發(fā)布的邃思2.0的芯片面積3306 mm2,采用GlobalFoundries 12nm工藝,號(hào)稱中國最大AI單芯片,達(dá)到了日月光?2.5D?封裝的極限。
3.?各浮點(diǎn)運(yùn)算次數(shù)
海外:
第三方設(shè)計(jì)公司:英偉達(dá)Blackwell系列的推出,鞏固了其在深度學(xué)習(xí)訓(xùn)練和推理的領(lǐng)導(dǎo)地位。GB200的FP16算力達(dá)到5000TFLOPS,相比于H200提升了5倍以上。AMD的MI325X為1300TFLOPS,英特爾Gaudi3為1835TFLOPS,谷歌TPU Ironwood(TPU v7p)為2307TFLOPS,與GB200都有明顯差距。同時(shí),Blackwell通過第二代Transformer引擎和定制Tensor Core,首次在硬件上實(shí)現(xiàn)了FP4數(shù)據(jù)類型的直接處理。
H20/H800:H20基于H200進(jìn)行性能裁剪,通過犧牲計(jì)算性能換取合規(guī)性。H20的FP16算力為148 TFLOPS,F(xiàn)P8算力為296 TFLOPS,僅為H200的15%左右。H800與H100算力指標(biāo)保持一致,根據(jù)美國商務(wù)部2023年10月17日發(fā)布的出口管制新規(guī),H800?被列入禁售名單。
大廠自研:多數(shù)ASIC聚焦于低精度領(lǐng)域,除谷歌外都處于起步階段。谷歌最新的TPU Ironwood(TPU v7p)是首款專為推理而設(shè)計(jì)的加速器,F(xiàn)P16算力達(dá)2307TFLOPS,比前代提升了兩倍多。亞馬遜的Trainium3預(yù)計(jì)FP16算力達(dá)1310TFLOPS,是Trainium2的兩倍。
中國大陸:
除華為外,F(xiàn)P16算力能達(dá)到300TFLOPS以上的國產(chǎn)芯片,只有寒武紀(jì)的思元590和海光信息的BW100。壁仞科技在2022年推出的BR100的FP16算力能達(dá)到1024TFLOPS,但因受到制裁,無法量產(chǎn)落地。
4.?功耗/能效比
能效比:FP16運(yùn)算次數(shù)/功耗(TFLOPS/W)
海外:
第三方設(shè)計(jì)公司:英偉達(dá)Blackwell的能效比在所有架構(gòu)里面最高,體現(xiàn)英偉達(dá)超強(qiáng)的硬件設(shè)計(jì)能力。盡管GB200的功耗達(dá)到了2700W,但能效比仍能達(dá)到1.9,在業(yè)內(nèi)處于領(lǐng)先地位。
大廠自研:多數(shù)ASIC的功耗在700W以下,達(dá)到降本目的。但能效比仍低于英偉達(dá)的GPGPU。
中國大陸:
根據(jù)不完全統(tǒng)計(jì),國產(chǎn)芯片的功耗絕大多數(shù)都在500W以下,能效比低于1。
二、顯存指標(biāo)
1.?顯存/顯存帶寬/顯存容量
海外:
絕大多數(shù)海外廠商最新產(chǎn)品都配備HBM3e,因堆疊層數(shù)、頻率和HBM堆棧數(shù)量的配置不同,顯存帶寬和容量不同。英偉達(dá)從H200開始使用HBM3e。GB200的顯存帶寬達(dá)16TB/s,容量達(dá)384GB,是H200的三倍多。H20和H800的顯存分別與H200和H100保持一致,遠(yuǎn)高于國產(chǎn)芯片。
中國大陸:
因受到制裁,絕大多數(shù)國產(chǎn)芯片最新產(chǎn)品使用HBM2e。除采用HBM外,還有國產(chǎn)芯片使用GDDR和LPDDR。如昆侖芯二代芯片和摩爾線程S4000、S3000均使用GDDR6,寒武紀(jì)MLU370系列均使用LPDDR5。
2.?算術(shù)強(qiáng)度
算術(shù)強(qiáng)度:總浮點(diǎn)運(yùn)算次數(shù)/內(nèi)存帶寬(FLOPS/Byte) 算術(shù)強(qiáng)度過高,說明內(nèi)存帶寬過低,芯片運(yùn)行有內(nèi)存瓶頸。
海外:
英偉達(dá)H100的算術(shù)強(qiáng)度較高,接近600FLOPS/Byte,隨著HBM3e的使用,算術(shù)強(qiáng)度在H200和Blackwell系列逐漸降低。其他廠商因使用HBM3e且算力不高,算術(shù)強(qiáng)度都較低。
中國大陸:
國產(chǎn)芯片的算力水平較低,所以盡管顯存帶寬低,算術(shù)強(qiáng)度都較低,不存在帶寬瓶頸。
三、互聯(lián)帶寬
雙向互聯(lián)帶寬=每條鏈路單向帶寬x鏈路數(shù)x 2
海外:
絕大多數(shù)廠商都開發(fā)了專有協(xié)議,帶寬普遍在500GB/s以上。英偉達(dá)的NVLink5相比于NVLink4帶寬翻倍,達(dá)到了1800GB/s。英偉達(dá)的NVLink依然有較強(qiáng)壁壘。AMD的Infinity Fabric4達(dá)到896GB/s。谷歌的ICI Links最高能達(dá)到672GB/s。H20使用NVLink4,帶寬達(dá)到900GB/s,相較于國產(chǎn)芯片有較大優(yōu)勢。H800和A800都使用特供版NVLink,帶寬只有400GB/s。
?中國大陸:
國產(chǎn)芯片的互聯(lián)能力普遍較弱,除華為外,帶寬普遍在400GB/s以下。寒武紀(jì)思元270和思元590采用的MLU-Link,帶寬分別達(dá)到600GB/s和372GB/s。海光信息BW100和沐曦科技的曦云C500的互聯(lián)帶寬能達(dá)到400GB/s。
References:
[1]英偉達(dá):公司官網(wǎng)https://www.nvidia.cn/
CSDN博客https://blog.csdn.net/qq_39815222/article/details/136897603
墨天輪https://www.modb.pro/db/1830075219425452032
[2]AMD:公司官網(wǎng)https://www.amd.com/zh-cn.html
[3]英特爾:公司官網(wǎng)https://www.intel.cn/content/www/cn/zh/homepage.html
[4]Groq:Sacra.comhttps://sacra.com/c/groq/
[5]谷歌:The Next Platform?https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/
[6]亞馬遜:Semianalysis?https://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/
[7]Meta:公司官網(wǎng)?https://ai.meta.com/blog/next-generation-meta-training-inference-accelerator-AI-MTIA/
[8]微軟:Semianalysishttps://semianalysis.com/2023/11/15/microsoft-infrastructure-ai-and-cpu/
[9]寒武紀(jì):公司官網(wǎng)https://www.cambricon.com/
格隆匯https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml
北方算網(wǎng)https://zhuanlan.zhihu.com/p/18044815862
[10]昆侖芯:電子元件采購網(wǎng)https://www.ameya360.com/hangye/108036.html
電子元器件采購網(wǎng)https://www.ameya360.com/hangye/108036.html
知乎https://zhuanlan.zhihu.com/p/603925398
捷睿星云http://www.jieruixingyun.com/busniess/intro/
百度昆侖芯Product Briefhttps://paddlelite-demo.bj.bcebos.com/devices/baidu/K100_K200_spec.pdf
[11]平頭哥:公司官網(wǎng)https://img.102.alibaba.com/1622193035686/9898014ba4eb8adfd3f31db3b2cf26f3.pdf?spm=a2ouz.12987056.0.0.68229352l5LGSa&file=9898014ba4eb8adfd3f31db3b2cf26f3.pdf
集微網(wǎng)https://www.sohu.com/a/374479009_166680
[12]海光信息:鯨起Studiohttps://mp.weixin.qq.com/s/Oq3HZxFwOJuLTuwzj9RYQw
北方算網(wǎng)https://zhuanlan.zhihu.com/p/18044815862
華西證券研究所http://www.qdatis.com/files/20250207/447df7d38b08845b0b7fdf376030fd19.pdf
格隆匯https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml
[13]燧原科技:?美通社https://www.prnasia.com/story/296402-1.shtml
與非網(wǎng)http://www.tpylr.cn/article/498969.html
智東西https://chedongxi.com/news/21214.html
IT之家https://news.qq.com/rain/a/20211208A02G3B00
[14]摩爾線程:公司官網(wǎng)https://www.mthreads.com/product/S3000
TechPowerUphttps://www.techpowerup.com/316881/moore-threads-launches-mtt-s4000-48-gb-gpu-for-ai-training-inference-and-presents-1000-gpu-cluster
[15]沐曦科技:CSDN博客https://blog.csdn.net/qq_23934063/article/details/132473834
飛槳https://www.paddlepaddle.org.cn/support/news?action=detail&id=3334
[16]壁仞科技:第一財(cái)經(jīng)https://m.yicai.com/news/101501217.html
電子工程專輯https://www.eet-china.com/mp/a152602.html
[17]天數(shù)智芯:電子發(fā)燒友https://www.elecfans.com/d/2253998.html
安信力http://www.anssionic.com/sgproducts_view.asp?main_id=20&small_id=71&id=244