国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

3nm賽道，擠滿了ASIC芯片

03/13 09:52 作者：半導體產業(yè)縱橫

2583

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者：九林

最近，市場關注的兩家ASIC企業(yè)都發(fā)布了自家的財報。

博通2025財年第一季度財報顯示，營收149.16億美元，同比增長25%，凈利潤55.03億美元，同比增長315%。其中，第一季度與AI有關的收入同比增長77%至41億美元。

Marvell預計第一財季銷售額約為18.8億美元，同比增長27%。其中，AI業(yè)務收入達7億美元左右，主要是亞馬遜等客戶定制ASIC等產品需求增長的帶動。

ASIC，越發(fā)豐富

今年以來，大模型的更迭越發(fā)的激烈。DeepSeek研究團隊再放大招，公開NSA算法。同日，馬斯克發(fā)布Grok 3模型，號稱拳打DeepSeek腳踢OpenAI。

DeepSeep之風正盛，將全球科技產業(yè)的重心從訓練推向推理階段。由于DeepSeek是MOE模型，能夠實現(xiàn)更低的激活比。算力、內存、互聯(lián)原有平衡發(fā)生劇變，新算力架構機會再次進入同一起跑線。

這種條件下，定制化芯片ASIC似乎越來越適合AI時代。

ASIC芯片的主要根據(jù)運算類型分為了TPU、DPU和NPU芯片，分別對應了不同的基礎計算功能，也有不同的優(yōu)勢。

TPU

先來看TPU。TPU的核心是矩陣乘法單元，它采用脈動陣列架構，這意味著數(shù)據(jù)以類似心臟跳動的方式在芯片內流動。這種架構允許高度并行的乘法和加法操作，使得TPU能夠在每個時鐘周期內處理大量的矩陣運算。

如果把TPU比作一個工廠，這個工廠的任務是把兩堆數(shù)字（矩陣）相乘。每個工人（脈動陣列的小格子）只需要做簡單的乘法和加法，然后把結果傳給下一個工人。這樣，整個工廠就能高效地完成任務，而且速度比普通的工廠（比如CPU或GPU）快很多。

TPU的優(yōu)勢是能夠高效處理大規(guī)模矩陣運算，支持神經網(wǎng)絡的訓練和推理任務。所以，更加適合用在數(shù)據(jù)中心的AI訓練和推理任務，如自然語言處理、計算機視覺和語音識別。

DPU

其次來看DPU。DPU能夠處理大量的網(wǎng)絡數(shù)據(jù)包，包括接收、分類、轉發(fā)和過濾等。它通過硬件加速引擎（如網(wǎng)絡處理引擎）來加速網(wǎng)絡操作，減少CPU在網(wǎng)絡處理上的負載。

DPU就像是一個快遞中心，它負責接收包裹（數(shù)據(jù)），快速分揀，然后把包裹送到正確的地方。它有自己的小助手（加速器），這些小助手很擅長處理特定的任務，比如快速識別包裹的地址或者檢查包裹是否完好。這樣，DPU就能讓整個快遞系統(tǒng)（數(shù)據(jù)中心）運行得更高效。

DPU的優(yōu)勢是可以卸載CPU的部分任務，減少CPU的負擔。優(yōu)化了數(shù)據(jù)傳輸路徑，從而提高系統(tǒng)的整體效率。所以，它的應用場景是數(shù)據(jù)中心的網(wǎng)絡加速、存儲管理、安全處理等。

NPU

再來看NPU。NPU是專門為神經網(wǎng)絡計算設計的芯片，采用“數(shù)據(jù)驅動并行計算”的架構。它能夠高效執(zhí)行大規(guī)模矩陣運算，特別是卷積神經網(wǎng)絡（CNN）中的卷積操作。

如果把NPU比作一個廚房，這個廚房有很多廚師（計算單元），每個廚師都能同時做自己的菜（處理數(shù)據(jù)）。比如，一個廚師負責切菜，一個廚師負責炒菜，另一個廚師負責擺盤。這樣，整個廚房就能同時處理很多道菜，效率非常高。NPU就是這樣，通過并行處理，讓神經網(wǎng)絡的計算變得更快。

NPU的優(yōu)勢就是執(zhí)行AI任務時功耗較低，適合邊緣設備。并且，專為神經網(wǎng)絡設計，適合處理深度學習任務。所以，NPU的應用場景是人臉識別、語音識別、自動駕駛、智能相機等需要進行深度學習任務的領域。

簡而言之，TPU適合深度學習、DPU適合數(shù)據(jù)中心的數(shù)據(jù)管理、NPU通過并行計算快速完成神經網(wǎng)絡任務，適合各種AI應用。

最近，還出現(xiàn)了LPU，一種專門為處理語言任務而設計的芯片。它的推出就是專門針對語言處理優(yōu)化的架構和指令集，能夠更高效地處理文本、語音等數(shù)據(jù)，從而加速大語言模型的訓練和推理過程。

摩根士丹利預測AI ASIC的總可用市場將從2024年的120億美元增長到2027年的300億美元，期間英偉達的AI GPU存在強烈的競爭。

現(xiàn)在，在ASIC賽道上的玩家，已經越來越多。

擁擠的ASIC賽道

3nm ASIC芯片的賽道上擠滿了大廠。

亞馬遜一直在致力于自研芯片以降低數(shù)據(jù)中心成本。

2022年，AWS發(fā)布了Trainium 1和 Inferentia 2芯片。當時，Trainium1在訓練方面表現(xiàn)不是很好，更加適合AI推理工作。

之后，AWS又發(fā)布了當前的Trainium 2，采用5nm工藝。單個Trainium 2芯片提供650 TFLOP/s的BF16性能。Trn2實例的能效比同類GPU實例高出25%，Trn2 UltraServer的能效比Trn1實例高三倍。

去年12月，亞馬遜宣布要推出全新 Trainium3，采用的是3nm工藝。與上代 Trainium2 相比，計算能力增加2倍，能源效率提升40%，預計2025年底問世。

據(jù)了解，在AWS的3nm Trainium項目中，世芯電子（Alchip）和Marvell展開了激烈的競爭。

世芯電子（Alchip）是第一家宣布其3nm設計和生產生態(tài)系統(tǒng)準備就緒的ASIC公司，支持臺積電的N3E工藝。Marvell則在Trainium 2項目中已經取得了顯著進展，并有望繼續(xù)參與Trainium 3的設計。

當前的競爭焦點在于：后端設計服務和CoWoS產能分配上?？凑l能夠在Trainium項目爭取到更多的份額。

之前我們提到的TPU，以谷歌的TPU最具有代表性。谷歌的TPU系列芯片從v1到最新的Trillium TPU。TPU為Gemini 2.0的訓練和推理提供了100%的支持。據(jù)谷歌這邊說，Trillium 的早期客戶AI21 Labs認為是有顯著改進的。AI21 Labs首席技術官Barak Lenz表示：“Trillium在規(guī)模、速度和成本效益方面的進步非常顯著?！爆F(xiàn)在谷歌的TPU v7正在開發(fā)階段，同樣采用的是3nm工藝，預計量產時間是在2026年。

據(jù)產業(yè)鏈相關人士透露，谷歌TPU芯片去年的生產量已經達到280萬到300萬片之間，成為全球第三大數(shù)據(jù)中心芯片設計廠商。

從合作對象來說，谷歌和博通始終是在深度合作的。谷歌從TPU v1開始，就和博通達成了深度合作，它與博通共同設計了迄今為止已公布的所有TPU，而博通在這方面的營收也因谷歌水漲船高。

微軟在ASIC方面也在發(fā)力。Maia 200是微軟為數(shù)據(jù)中心和AI任務定制的高性能加速器，同樣采用3nm工藝，預計在2026年進入量產階段，至于現(xiàn)在Maia 100，也是專為在Azure中的大規(guī)模AI工作負載而設計。支持大規(guī)模并行計算，特別適合自然語言處理（NLP）和生成式AI任務。從現(xiàn)在的信息來看，這款產品微軟選擇和Marvell 合作。

早在今年1月就有消息傳出，美國推理芯片公司Groq已經在自己的LPU芯片上實機運行DeepSeek，效率比最新的H100快上一個量級，達到每秒24000token。值得關注的是，Groq曾于2024 年12月在沙特阿拉伯達曼構建了中東地區(qū)最大的推理集群，該集群包括了19000個Groq LPU。

Open AI首款AI ASIC芯片即將完成，會在未來幾個月內完成其首款內部芯片的設計，并計劃送往臺積電進行制造，以完成流片（taping out）。最新消息是，OpenAI會在2026年實現(xiàn)在臺積電實現(xiàn)量產的目標。

ASIC真的劃算嗎？

谷歌、AWS、Open AI都在加大對自研ASIC的投入。那么，ASIC真的劃算嗎？

先從性能上來看，ASIC是為特定任務定制的芯片，其核心優(yōu)勢在于高性能和低功耗。在同等預算下，AWS的Trainium 2可以比英偉達的H100 GPU更快速完成推理任務，且性價比提高了30%～40%。Trainium3計劃于2025年下半年推出，計算性能提高2 倍，能效提高40%。

并且，GPU由于架構的特性，一般會在AI計算中保留圖形渲染、視頻編解碼等功能模塊，但在AI計算中這些模塊大部分處于閑置狀態(tài)。有研究指出，英偉達H100 GPU上有大約15%的晶體管是未在AI計算過程中被使用的。

從成本上來看，ASIC在大規(guī)模量產時，單位成本顯著低于GPU。ASIC在規(guī)模量產的情況下可以降至GPU的三分之一。但一次性工程費用NRE（Non-Recurring Engineering）非常高。

以定制一款采用5nm制程的ASIC為例，NRE費用可以高達1億至2億美元。然而一旦能夠大規(guī)模出貨，NRE費用就可以很大程度上被攤薄。

此前有業(yè)內人士分析，中等復雜程度的ASIC盈虧平衡點在10萬片左右，這對于很多廠商來說已經是遙不可及。

但對于大規(guī)模部署的云計算大廠或AI應用提供商，ASIC的定制化優(yōu)勢能夠顯著降低運營成本，從而更快地實現(xiàn)盈利。

算力走向推理，ASIC的需求只多不少

在溫哥華NeurIPS大會上，OpenAI聯(lián)合創(chuàng)始人兼前首席科學家Ilya Sutskever曾作出“AI預訓練時代將終結”的判斷。

巴克萊的一份報告預計，AI推理計算需求將快速提升，預計其將占通用人工智能總計算需求的70%以上，推理計算的需求甚至可以超過訓練計算需求，達到后者的4.5倍。

英偉達GPU目前在推理市場中市占率約80%，但隨著大型科技公司定制化ASIC芯片不斷涌現(xiàn)，這一比例有望在2028年下降至50%左右。

不過，在博通的觀察中，AI訓練仍然是會占據(jù)主流。博通CEO陳福陽最近表示：“公司把推理作為一個獨立的產品線，推理與訓練芯片的架構非常不同。公司預計三個客戶未來需求市場總量將達600億～900億美元，這個需求總量既包含了訓練，又包含了推理，但其中訓練的部分更大。”

對于第二季度來講，博通對于ASIC的預期仍舊保持樂觀。預計第二季度博通的AI半導體收入將繼續(xù)保持強勁增長勢頭，達到44億美元。

Marvell在電話會議上，同樣也展示了對于ASIC的信心。透露其定制的ARM CPU，將在客戶的數(shù)據(jù)中心中得到更廣泛的應用。并且定制的人工智能 XPU，其表現(xiàn)也非常出色，未來將有大量的量產。

原創(chuàng)聲明：本文為半導體產業(yè)縱橫原創(chuàng)內容，未經書面授權，不得以任何方式加以使用。轉載合作

人工客服
（售后/吐槽/合作/交友）

相關推薦

展銳T770安卓核心板_5G安卓智能模塊
方案深圳市智物通訊科技有限公司
3552
2024/04/22
廣州眺望 | 基于Rockchip新一代旗艦RK3588處理器設計的arm核心板datasheet
方案 Talowe 眺望電子
7645
2024/01/29
廣州眺望 | 基于NXP的i.MX8M PLUS設計的arm核心板datasheet
方案 Talowe 眺望電子
4712
2024/01/29
NXP i.MX8M Plus 系列核心板及開發(fā)板-米爾電子高端NPU芯片
方案米爾電子
2873
2023/11/09
LAT1494 STM32N6 平臺如何使用 MCO2 輸出 Clock
資料意法半導體(ST)
694
03/06 15:05
STM32N6 的 FSBL 基本流程介紹
資料意法半導體(ST)
1631
03/06 15:02
LAT1489 STM32N6平臺STM32CubeIDE下printf IO重定向到SWV-ITM
資料意法半導體(ST)
1126
03/06 14:53

登錄即可解鎖

海量技術文章
設計資源下載
產業(yè)鏈客戶資源
寫文章/發(fā)需求

創(chuàng)作中心去發(fā)布

半導體產業(yè)縱橫

公眾號：半導體產業(yè)縱橫。立足產業(yè)視角，提供及時、專業(yè)、深度的前沿洞見、技術速遞、趨勢解析，鏈接產業(yè)資源，構建IC生態(tài)圈，賦能中國半導體產業(yè)，我們一直在路上。

TA的熱門作品

余庆县| 婺源县| 乳源| 富源县| 社会| 玉屏| 九龙城区| 钟山县| 北海市| 龙游县| 新津县| 铜川市| 惠州市| 天气| 湘乡市| 长治市| 兴海县| 达尔| 武城县| 南岸区| 武城县| 大渡口区| 汝城县| 隆德县| 宜城市| 商丘市| 集贤县| 石泉县| 锡林浩特市| 淳化县| 大余县| 邹平县| 宁都县| 台南市| 卢龙县| 秀山| 广汉市| 定边县| 阳江市| 博爱县| 新宁县|