在當今這個被AI重塑的時代,算力早已成為推動創(chuàng)新發(fā)展的核心動力。毫不夸張地說,算力就是生產(chǎn)力,誰掌握了強大的算力,誰就能在AI賽道上搶占先機,引領(lǐng)未來科技發(fā)展的潮流。然而,對于國內(nèi)的 AI 產(chǎn)業(yè)而言,一場算力危機正悄然降臨。
2025年4月15日,美國商務(wù)部宣布對出口至中國的英偉達H20、AMD MI308等AI芯片實施無限期出口許可限制。該操作直接戳中行業(yè)痛點,讓國內(nèi)AI產(chǎn)業(yè)陷入“缺芯”困局。
要知道,雖然H20性能僅有英偉達H100芯片的三分之一,但卻是中國公司目前合法能買到的,性能最強的AI芯片。如今,這一關(guān)鍵來源被美國無情地掐斷,使得國內(nèi)AI產(chǎn)業(yè)面臨著巨大的挑戰(zhàn)。
阿里、騰訊、字節(jié)跳動等科技巨頭首當其沖,此前它們訂購的160億美元H20芯片,占了英偉達全球AI芯片銷售額的相當比例,如今訂單卻化為泡影。這些科技巨頭在AI領(lǐng)域的布局廣泛,對算力的需求極為龐大,H20芯片的斷供,無疑讓它們的AI項目進展受到了極大的阻礙。
算力短缺所帶來的影響,絕不僅僅局限于這些科技巨頭,而是波及到了整個 AI 產(chǎn)業(yè)。更為嚴峻的是,算力短缺還可能讓我們在全球 AI 競爭的賽道上被遠遠甩開。
不過好消息也來了!外媒爆料,多位消息人士證實:華為計劃下個月就開始向國內(nèi)客戶大規(guī)模出貨昇騰910C,部分產(chǎn)品甚至已經(jīng)悄然發(fā)貨。更重磅的是,華為預(yù)計在2025年下半年正式推出下一代AI芯片——昇騰920,并且今年下半年就將開啟量產(chǎn)。
從外媒報道的知情人士內(nèi)容看,昇騰910C采用了中芯國際的7nm工藝制造,通過先進的chiplets雙芯片整合封裝技術(shù),將兩顆昇騰910B處理器巧妙地集成到一個封裝里 ,實現(xiàn)了算力的跨越式突破。這種創(chuàng)新的設(shè)計,不僅突破了單芯片物理限制,還將昇騰910B的256個AICore人工智能核心擴展至512個,使得單卡FP16運算性能躍升至640 TFLOPS,較英偉達H100提升20%,達到H200性能的80%,計算能力和內(nèi)存容量相對于910B提升了一倍。
不僅如此,昇騰910C在推理任務(wù)中的表現(xiàn)也十分出色,性能達到英偉達H100的60%-80%,能夠高效地處理各種復(fù)雜的AI任務(wù)。而且,它還對各種AI工作負載數(shù)據(jù)支持更好,無論是深度學(xué)習(xí)、自然語言處理,還是計算機視覺等領(lǐng)域,都能發(fā)揮出強大的算力優(yōu)勢,為AI應(yīng)用的開發(fā)和部署提供了堅實的硬件基礎(chǔ)。
在功耗控制方面,昇騰910C同樣延續(xù)了華為的技術(shù)優(yōu)勢。在310瓦功耗條件下,其算力密度較H100提升40%,較H200降低25%。這意味著,采用該芯片的數(shù)據(jù)中心在同等算力需求下,能耗成本可縮減30%以上,既能滿足大規(guī)模AI計算的需求,又能符合全球碳中和戰(zhàn)略。
更值得一提的是,昇騰910C的Scale Out擴展帶寬已與英偉達最新GB200持平,徹底突破了國產(chǎn)芯片集群互聯(lián)的技術(shù)瓶頸。
從成本角度來看,昇騰910C也展現(xiàn)出了卓越的性價比。當前單顆售價約2萬元,僅為英偉達H100市場價的20%,在性能大幅提升的同時,成本卻大幅降低,這無疑將大大降低國內(nèi)AI企業(yè)的研發(fā)和運營成本,提高它們在市場中的競爭力。
在華為昇騰910C即將大規(guī)模出貨的利好消息之后,一個更加振奮人心的消息傳來:華為預(yù)計在2025年下半年正式推出下一代AI芯片——昇騰920,并且今年下半年就將開啟量產(chǎn)。
昇騰920將基于中芯國際的6nm(N+3 節(jié)點)工藝技術(shù)打造,單芯片算力將提供超過900 TFLOPS的BF16精度算力性能,同時內(nèi)存將升級到HBM3,單卡提供4000GB/s的帶寬。與之前的昇騰910C相比,昇騰920針對Transformer和MoE模型進行了進一步優(yōu)化,效率提高了30%-40%,整體性能也大幅超越了英偉達H20(BF16算力為148 TFLOPS)。除此之外,昇騰920支持PCIe5.0及下一代高吞吐互聯(lián)協(xié)議,這將使得昇騰920和其他硬件配合得更默契。
值得一提的是,除了昇騰920,華為還展示了其AI算力集群解決方案CloudMatrix 384(簡稱“CM384”),憑借其顛覆性的系統(tǒng)架構(gòu)設(shè)計與全棧技術(shù)創(chuàng)新,在多項關(guān)鍵指標上實現(xiàn)對英偉達旗艦產(chǎn)品GB200 NVL72的超越。
據(jù)半導(dǎo)體研究機構(gòu)SemiAnalysis披露,華為CM384基于384顆昇騰芯片構(gòu)建,通過全互連拓撲架構(gòu)實現(xiàn)芯片間高效協(xié)同,可提供高達300 PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統(tǒng)算力的兩倍。此外,CM384在內(nèi)存容量和帶寬方面同樣占據(jù)優(yōu)勢,總內(nèi)存容量超出英偉達方案3.6倍,內(nèi)存帶寬也達到2.1倍,為大規(guī)模AI訓(xùn)練和推理提供了更高效的硬件支持。
對此,SemiAnalysis認為,盡管單顆昇騰芯片性能約為英偉達Blackwell GPU的三分之一,但是華為通過規(guī)?;到y(tǒng)設(shè)計,成功實現(xiàn)整體算力躍升,并在超大規(guī)模模型訓(xùn)練、實時推理等場景中展現(xiàn)更強競爭力。
需要指出的是,華為CM384性能及各項指標上的領(lǐng)先,主要憑借的是384顆昇騰芯片數(shù)量上的優(yōu)勢,而英偉達GB200 NVL72則只有144顆Blackwell GPU,因此華為CM384在整體占用空間和功耗上也將會更高。
據(jù)相關(guān)數(shù)據(jù)顯示,CM384系統(tǒng)機柜密度達到42kW/rack,是英偉達GB200方案的1.7倍,這對數(shù)據(jù)中心供電和散熱提出更高要求。
不過,此時正值美國進一步收緊對華AI芯片的出口管制之際,華為昇騰920及CM384的推出將有望實現(xiàn)對于無法繼續(xù)對華出口的英偉達H20、AMD MI308等AI芯片及相關(guān)AI集群系統(tǒng)的替代,為國內(nèi)AI產(chǎn)業(yè)的自主發(fā)展提供了有力保障。
據(jù)相關(guān)消息稱,華為這套完全自主的解決方案已獲得字節(jié)跳動、科大訊飛等企業(yè)的批量訂單。某云計算廠商技術(shù)負責(zé)人透露,其正在測試的昇騰920集群在千卡規(guī)模下訓(xùn)練穩(wěn)定性突破28天,基本達到CUDA生態(tài)的工程化水平。