国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

  • 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

“DeepSeek甚至繞過了CUDA”,論文細(xì)節(jié)再引熱議,工程師靈魂提問:英偉達(dá)護(hù)城河還在嗎?

02/05 17:40
2512
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

夢(mèng)晨 西風(fēng) 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI

英偉達(dá)剛剛從DeepSeek-R1引發(fā)的4萬(wàn)億元暴跌中緩過勁來(lái),又面臨新的壓力?

硬件媒體Tom‘s Hardware帶來(lái)開年最新熱議:

DeepSeek甚至繞過了CUDA,使用更底層的編程語(yǔ)言做優(yōu)化。

這一次是DeepSeek-V3論文中的更多細(xì)節(jié),被人挖掘出來(lái)。

來(lái)自Mirae Asset Securities Research(韓國(guó)未來(lái)資產(chǎn)證券)的分析稱,V3的硬件效率之所以能比Meta等高出10倍,可以總結(jié)為“他們從頭開始重建了一切”。

在使用英偉達(dá)的H800 GPU訓(xùn)練DeepSeek-V3時(shí),他們針對(duì)自己的需求把132個(gè)流式多處理器(SMs)中的20個(gè)修改成負(fù)責(zé)服務(wù)器間的通信,而不是計(jì)算任務(wù)。

變相繞過了硬件對(duì)通信速度的限制。

這種操作是用英偉達(dá)的PTX(Parallel Thread Execution)語(yǔ)言實(shí)現(xiàn)的,而不是CUDA。

PTX在接近匯編語(yǔ)言的層級(jí)運(yùn)行,允許進(jìn)行細(xì)粒度的優(yōu)化,如寄存器分配和Thread/Warp級(jí)別的調(diào)整。

這種編程非常復(fù)雜且難以維護(hù),所以行業(yè)通用的做法是使用CUDA這樣的高級(jí)編程語(yǔ)言。

換句話說,他們把優(yōu)化做到了極致。

有網(wǎng)友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易員。

一位亞馬遜工程師提出靈魂質(zhì)問:CUDA是否還是護(hù)城河?這種頂尖實(shí)驗(yàn)室可以有效利用任何GPU。

甚至有網(wǎng)友開始暢想,如果“新源神”DeepSeek開源了一個(gè)CUDA替代方案……

那么事情是否真會(huì)如此?

DeepSeek真的繞過了CUDA?

首先要明確的是,PTX仍然是英偉達(dá)GPU架構(gòu)中的技術(shù),它是CUDA編程模型中的中間表示,用于連接CUDA高級(jí)語(yǔ)言代碼和GPU底層硬件指令。

PTX類似匯編語(yǔ)言,代碼大概長(zhǎng)這樣:

在實(shí)際編譯流程中,CUDA代碼首先被編譯為PTX代碼,PTX代碼再被編譯為目標(biāo)GPU架構(gòu)的機(jī)器碼(SASS,Streaming ASSembler)。

CUDA起到了提供高級(jí)編程接口和工具鏈的作用,可以簡(jiǎn)化開發(fā)者的工作。而PTX作為中間層,充當(dāng)高級(jí)語(yǔ)言和底層硬件之間的橋梁。

另外,這種兩步編譯流程也使得CUDA程序具有跨架構(gòu)的兼容性和可移植性。

反過來(lái)說,像DeepSeek這種直接編寫PTX代碼的做法,首先不僅非常復(fù)雜,也很難移植到不同型號(hào)的GPU。

有從業(yè)者表示,針對(duì)H100優(yōu)化的代碼遷移到其他型號(hào)上可能效果打折扣,也可能根本不工作了。

所以說,DeepSeek做了PTX級(jí)別的優(yōu)化不意味著完全脫離了CUDA生態(tài),但確實(shí)代表他們有優(yōu)化其他GPU的能力。

事實(shí)上,我們也能看到DeekSeek已經(jīng)與AMD華為等團(tuán)隊(duì)緊密合作,第一時(shí)間提供了對(duì)其他硬件生態(tài)的支持。

One More Thing

還有人提出,如此一來(lái),讓AI擅長(zhǎng)編寫匯編語(yǔ)言是AI自我改進(jìn)的一個(gè)方向。

我們不知道DeepSeek內(nèi)部是否使用AI輔助編寫了PTX代碼——

但是確實(shí)剛剛見證DeepSeek-R1編寫的代碼顯著提升大模型推理框架的運(yùn)行速度。

Llama.cpp項(xiàng)目中的一個(gè)新PR請(qǐng)求,使用SIMD指令(允許一條指令同時(shí)處理多個(gè)數(shù)據(jù))顯著提升WebAssembly在特定點(diǎn)積函數(shù)上的運(yùn)行速度,提交者表示:

這個(gè)PR中的99%的代碼都是由DeekSeek-R1編寫的。我唯一做的就是開發(fā)測(cè)試和編寫提示(經(jīng)過一些嘗試和錯(cuò)誤)。

是的,這個(gè)PR旨在證明大模型現(xiàn)在能夠編寫良好的底層代碼,甚至能夠優(yōu)化自己的代碼。

llama.cpp項(xiàng)目的創(chuàng)始人檢查了這段代碼后表示“比預(yù)期的更爆炸”。

參考鏈接:
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[2]https://x.com/bookwormengr/status/1883355712191123666
[3]https://tinkerd.net/blog/machine-learning/cuda-basics/
[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
[5]https://x.com/ggerganov/status/1883888097185927311

相關(guān)推薦

岳阳市| 永福县| 贵德县| 临潭县| 南木林县| 洪湖市| 沙雅县| 眉山市| 扎兰屯市| 丰城市| 蓝山县| 清水县| 介休市| 三原县| 洛川县| 永春县| 丁青县| 红桥区| 达日县| 翼城县| 吴旗县| 霍林郭勒市| 宜阳县| 时尚| 阿巴嘎旗| 三明市| 黄冈市| 漯河市| 平江县| 阳东县| 利津县| 武邑县| 科技| 富民县| 余姚市| 东乡| 南昌市| 金阳县| 全南县| 吉隆县| 昂仁县|