国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

<address id="dgsbo"></address>

“DeepSeek甚至繞過了CUDA”，論文細(xì)節(jié)再引熱議，工程師靈魂提問：英偉達(dá)護(hù)城河還在嗎？

02/05 17:40 作者：量子位

2512

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

夢(mèng)晨西風(fēng) 發(fā)自凹非寺，量子位 | 公眾號(hào) QbitAI

英偉達(dá)剛剛從DeepSeek-R1引發(fā)的4萬(wàn)億元暴跌中緩過勁來(lái)，又面臨新的壓力？

硬件媒體Tom‘s Hardware帶來(lái)開年最新熱議：

DeepSeek甚至繞過了CUDA，使用更底層的編程語(yǔ)言做優(yōu)化。

這一次是DeepSeek-V3論文中的更多細(xì)節(jié)，被人挖掘出來(lái)。

來(lái)自Mirae Asset Securities Research（韓國(guó)未來(lái)資產(chǎn)證券）的分析稱，V3的硬件效率之所以能比Meta等高出10倍，可以總結(jié)為“他們從頭開始重建了一切”。

在使用英偉達(dá)的H800 GPU訓(xùn)練DeepSeek-V3時(shí)，他們針對(duì)自己的需求把132個(gè)流式多處理器（SMs）中的20個(gè)修改成負(fù)責(zé)服務(wù)器間的通信，而不是計(jì)算任務(wù)。

變相繞過了硬件對(duì)通信速度的限制。

這種操作是用英偉達(dá)的PTX（Parallel Thread Execution）語(yǔ)言實(shí)現(xiàn)的，而不是CUDA。

PTX在接近匯編語(yǔ)言的層級(jí)運(yùn)行，允許進(jìn)行細(xì)粒度的優(yōu)化，如寄存器分配和Thread/Warp級(jí)別的調(diào)整。

這種編程非常復(fù)雜且難以維護(hù)，所以行業(yè)通用的做法是使用CUDA這樣的高級(jí)編程語(yǔ)言。

換句話說，他們把優(yōu)化做到了極致。

有網(wǎng)友表示，如果有一群人嫌CUDA太慢而使用PTX，那一定是前量化交易員。

一位亞馬遜工程師提出靈魂質(zhì)問：CUDA是否還是護(hù)城河？這種頂尖實(shí)驗(yàn)室可以有效利用任何GPU。

甚至有網(wǎng)友開始暢想，如果“新源神”DeepSeek開源了一個(gè)CUDA替代方案……

那么事情是否真會(huì)如此？

DeepSeek真的繞過了CUDA？

首先要明確的是，PTX仍然是英偉達(dá)GPU架構(gòu)中的技術(shù)，它是CUDA編程模型中的中間表示，用于連接CUDA高級(jí)語(yǔ)言代碼和GPU底層硬件指令。

PTX類似匯編語(yǔ)言，代碼大概長(zhǎng)這樣：

在實(shí)際編譯流程中，CUDA代碼首先被編譯為PTX代碼，PTX代碼再被編譯為目標(biāo)GPU架構(gòu)的機(jī)器碼（SASS,Streaming ASSembler）。

CUDA起到了提供高級(jí)編程接口和工具鏈的作用，可以簡(jiǎn)化開發(fā)者的工作。而PTX作為中間層，充當(dāng)高級(jí)語(yǔ)言和底層硬件之間的橋梁。

另外，這種兩步編譯流程也使得CUDA程序具有跨架構(gòu)的兼容性和可移植性。

反過來(lái)說，像DeepSeek這種直接編寫PTX代碼的做法，首先不僅非常復(fù)雜，也很難移植到不同型號(hào)的GPU。

有從業(yè)者表示，針對(duì)H100優(yōu)化的代碼遷移到其他型號(hào)上可能效果打折扣，也可能根本不工作了。

所以說，DeepSeek做了PTX級(jí)別的優(yōu)化不意味著完全脫離了CUDA生態(tài)，但確實(shí)代表他們有優(yōu)化其他GPU的能力。

事實(shí)上，我們也能看到DeekSeek已經(jīng)與AMD、華為等團(tuán)隊(duì)緊密合作，第一時(shí)間提供了對(duì)其他硬件生態(tài)的支持。

One More Thing

還有人提出，如此一來(lái)，讓AI擅長(zhǎng)編寫匯編語(yǔ)言是AI自我改進(jìn)的一個(gè)方向。

我們不知道DeepSeek內(nèi)部是否使用AI輔助編寫了PTX代碼——

但是確實(shí)剛剛見證DeepSeek-R1編寫的代碼顯著提升大模型推理框架的運(yùn)行速度。

Llama.cpp項(xiàng)目中的一個(gè)新PR請(qǐng)求，使用SIMD指令（允許一條指令同時(shí)處理多個(gè)數(shù)據(jù)）顯著提升WebAssembly在特定點(diǎn)積函數(shù)上的運(yùn)行速度，提交者表示：

這個(gè)PR中的99%的代碼都是由DeekSeek-R1編寫的。我唯一做的就是開發(fā)測(cè)試和編寫提示（經(jīng)過一些嘗試和錯(cuò)誤）。

是的，這個(gè)PR旨在證明大模型現(xiàn)在能夠編寫良好的底層代碼，甚至能夠優(yōu)化自己的代碼。

llama.cpp項(xiàng)目的創(chuàng)始人檢查了這段代碼后表示“比預(yù)期的更爆炸”。

參考鏈接：
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[2]https://x.com/bookwormengr/status/1883355712191123666
[3]https://tinkerd.net/blog/machine-learning/cuda-basics/
[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
[5]https://x.com/ggerganov/status/1883888097185927311

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點(diǎn)僅代表作者本人，不代表與非網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有侵權(quán)或者其他問題，請(qǐng)聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）

相關(guān)推薦

2024研華智能設(shè)備新品發(fā)布會(huì)
直播研華科技
1.3萬(wàn)
2024/03/05
獨(dú)家提問黃仁勛：CUDA不會(huì)受到開源沖擊；英偉達(dá)不再是“賣芯片的”，它是全世界的根基
文章硅星人
538
03/20 13:48
從Tesla到Blackwell，英偉達(dá)如何改寫HPC規(guī)則
文章半導(dǎo)體產(chǎn)業(yè)縱橫
1048
03/19 09:40
“宇宙最重要財(cái)報(bào)”來(lái)襲！英偉達(dá)能否化解DeepSeek沖擊？
文章 TechSugar
946
02/26 11:30
黃仁勛首次公開回應(yīng)DeepSeek影響，原因是……
文章中國(guó)電子報(bào)
1503
02/24 12:50
CUDA：英偉達(dá)最深的護(hù)城河，加速計(jì)算行業(yè)發(fā)展的時(shí)代引擎！
文章芯片那些事兒
7497
2024/05/20
英偉達(dá)，和“科技公司”說再見
文章汽車公社
408
05/22 10:40

登錄即可解鎖

海量技術(shù)文章
設(shè)計(jì)資源下載
產(chǎn)業(yè)鏈客戶資源
寫文章/發(fā)需求

創(chuàng)作中心去發(fā)布

追蹤人工智能新趨勢(shì)，報(bào)道科技行業(yè)新突破

TA的熱門作品

岳阳市| 永福县| 贵德县| 临潭县| 南木林县| 洪湖市| 沙雅县| 眉山市| 扎兰屯市| 丰城市| 蓝山县| 清水县| 介休市| 三原县| 洛川县| 永春县| 丁青县| 红桥区| 达日县| 翼城县| 吴旗县| 霍林郭勒市| 宜阳县| 时尚| 阿巴嘎旗| 三明市| 黄冈市| 漯河市| 平江县| 阳东县| 利津县| 武邑县| 科技| 富民县| 余姚市| 东乡| 南昌市| 金阳县| 全南县| 吉隆县| 昂仁县|

<object id="irevp"></object>