国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

  • 正文
    • 01.GPT-4.5兩年前已啟動,項目耗時遠超預期
    • 02.如今訓練GPT-4級別模型,僅需5-10人即可完成
    • 03.數(shù)據(jù)效率是大模型突破關鍵,新一代硬件帶來諸多挑戰(zhàn)
    • 04.計算資源不再是主要瓶頸,算法尚未觸及理論上限
    • 05.模型整體性能提升可預測,智能提升路徑難以預測
    • 06.機器學習與系統(tǒng)團隊合作密切,不會“自掃門前雪”
    • 07.GPT-4.5預訓練是最周密的計劃,絕不放過任何異常
    • 08.我們離理想系統(tǒng)還很遠
    • 09.算法改進產(chǎn)生疊加效應,推動數(shù)據(jù)效率提高
    • 10.智能的本質(zhì)是壓縮,數(shù)據(jù)長尾效應讓Scaling Law持續(xù)有效
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

OpenAI揭秘GPT-4.5訓練:10萬塊GPU,幾乎全員上陣,出現(xiàn)“災難性問題”

04/14 10:00
379
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編譯 | ?陳駿達 陳家陽,編輯 | ?Panken

我們離理想中的訓練系統(tǒng)還很遙遠。

智東西4月13日消息,近日,在OpenAI史上最貴模型GPT-4.5發(fā)布1個多月后,OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆·阿爾特曼(Sam Altman)與GPT-4.5的3位核心技術人員進行了一場45分鐘的高信息量對談,首次披露了這款模型研發(fā)耗時嚴重超期、計算集群頻繁故障、提升路徑難以預測等諸多不為人知的細節(jié)。

GPT-4.5項目啟動于兩年前,是OpenAI迄今為止最周密的計劃,涉及數(shù)百人團隊協(xié)作,阿爾特曼稱OpenAI為了這一項目幾乎是“全員上陣”。研發(fā)過程中,OpenAI團隊遇到了不少“災難性問題”。10萬卡集群暴露了基礎設施的隱藏的小概率、深層次故障,為了權衡時效與性能,OpenAI的系統(tǒng)團隊不得不“邊修邊訓”。其中,有一個隱藏的小bug讓集群頻繁報錯,直到訓練進度條走過約40%才被揪出。

不過,這也幫助OpenAI打造了更為強大的技術棧:如今可以僅用5-10人便復刻出GPT-4級別的大模型。GPT-4至GPT-4.5的性能提升約為10倍,獲得了“難以量化但全方位增強的智能”,這點讓OpenAI員工們都感到意外。

OpenAI團隊已經(jīng)意識到,要實現(xiàn)下一個10倍乃至百倍的性能提升,算力已不是瓶頸,關鍵在于數(shù)據(jù)效率,即開發(fā)出能夠利用更多算力,從同樣數(shù)量的數(shù)據(jù)中學到更多知識的方法。同時,系統(tǒng)正從單集群轉向多集群架構,未來的訓練可能涉及1000萬塊GPU規(guī)模的協(xié)作學習,其容錯能力需要進一步提升。對談中,OpenAI員工們還分享了數(shù)據(jù)長尾效應與Scaling Law之間的關系、機器學習與系統(tǒng)團隊深度協(xié)同設計(co-design)模式的優(yōu)勢、無監(jiān)督學習的本質(zhì)與“絕不放過任何異?!钡膯栴}排查文化,全方位展現(xiàn)了GPT-4.5研發(fā)期間的OpenAI的思考與收獲。除了阿爾特曼之外,參與本次對談的3位OpenAI員工分別為Alex Paino(負責GPT-4.5的預訓練機器學習算法)、Amin Tootoonchian(OpenAI首席系統(tǒng)架構師)與Daniel Selsam(研究數(shù)據(jù)效率與算法)。以下是阿爾特曼與OpenAI GPT-4.5團隊對談視頻的完整編譯(為提高可讀性,智東西在不違背原意的前提下進行了一定的增刪修改):

01.GPT-4.5兩年前已啟動,項目耗時遠超預期

Sam Altman:打造一個如此龐大的模型(GPT-4.5),究竟需要什么呢?

Alex Paino:大約兩年前,我們開啟了這一項目。當時,OpenAI即將上線一個新的大型計算集群,我們團隊看到了這個機會,做了一系列工作來確定模型需要包含的功能,進行了大量降低風險的運行測試。我們?yōu)榇酥贫艘粋€很長的計劃,涉及從系統(tǒng)到機器學習的整個技術棧。為了降低風險和為訓練做準備是一個漫長的執(zhí)行過程,而訓練本身也是一個非常大的工程。

Amin Tootoonchian:我認為這個過程從一開始,就需要機器學習團隊和系統(tǒng)團隊密切合作,直到我們明確了想要訓練什么模型,然后開始訓練。我們已經(jīng)在機器學習和系統(tǒng)方面都做了預測,試圖盡量縮小預期和現(xiàn)實之間的差距。但由于我們的工作節(jié)奏很快,還要利用最新的計算資源,模型訓練就成了難以提前完美規(guī)劃的事情。我們幾乎總是帶著許多未解決的問題開啟訓練,并試圖在運行過程中克服挑戰(zhàn),取得進展。主要解法就是增加更多的計算資源。最后階段是執(zhí)行,這需要很多人長期投入大量精力和動力,才能完成訓練過程。

Sam Altman:你覺得我們的預期和現(xiàn)實的差距到底有多少?

Amin Tootoonchian:系統(tǒng)方面,在開始的時候,我們通常離預期的狀態(tài)很遠。我們總是面臨一個選擇:到底是推遲啟動,等待問題解決,還是提早啟動并在過程中解決問題。這總是需要權衡,要避免不合理地延遲進程。但幾乎總是會遇到一些意想不到的問題,我們要做的就是盡可能地處理好這些節(jié)點,處理好未知因素,并為模型訓練制定計劃。

Alex Paino:在這個項目中,我們的目標是做出GPT-4.5,這意味著其能力要比GPT-4聰明10倍。這是我們大約2年前設定的初始目標。這個過程中發(fā)生了很多事情,我們在思考到底能做得更好,還是會不如預期?這是一條非常復雜的過程,但最終,就我們投入的有效計算而言,我們得到了一個我們認為達到了比GPT-4聰明10倍的模型。

Amin Tootoonchian:在執(zhí)行方面,GPT-4.5項目的耗時與我們一開始預計的相去甚遠。

02.如今訓練GPT-4級別模型,僅需5-10人即可完成

Sam Altman:集群在從1萬卡拓展到10萬卡的時候,為什么遇到了這么多問題?

Amin Tootoonchian:我認為,如果系統(tǒng)開發(fā)者足夠敏銳,大部分問題是能在小規(guī)模階段就觀察出來的。還有些問題并不是大規(guī)模訓練階段獨有的,而是原本就經(jīng)常出現(xiàn),但規(guī)模提升后就會變成災難性問題,特別是當團隊并未提前預料到這些問題會惡化到如此程度。

Sam Altman:有哪些事情造成了災難性的后果?

Amin Tootoonchian:我認為基礎設施的問題是眾所周知的,無論是故障率、故障類型還是故障總量都很高。10萬卡集群是一個大規(guī)模的樣本池,因此我們也發(fā)現(xiàn)了算力供應商都沒有觀察到的問題。網(wǎng)絡是其中一環(huán),單個加速器也會出問題。不過這也是這種系統(tǒng)的美妙之處——幾乎所有組件都需要按預期工作,才能產(chǎn)生預期結果。我們的工作就是要盡量減少這種問題。

Sam Altman:在集群規(guī)模的極限上開展工作的確很困難,但我也注意到,做那些不再是技術前沿的事情變得容易多了,訓練GPT-4.5需要數(shù)百人,OpenAI幾乎全員上陣。但今天如果讓你們從OpenAI中挑選出一個最小的團隊,用我們所知道的一切知識和所有的系統(tǒng)工作從頭開始重新訓練GPT-4,需要多少人?

Alex Paino:我認為現(xiàn)在要做出GPT-4級別的模型,可能需要5到10人左右。在完成GPT-4.5的過程中,技術棧已經(jīng)有了很大改進。其實,在我們在訓練GPT-4.5的過程中已經(jīng)做了類似的事情——我們訓練了GPT-4o,這是一個GPT-4級別的模型,使用了很多來自GPT-4.5研究項目的相同內(nèi)容重新訓練。進行那次訓練所用的人要少得多。

03.數(shù)據(jù)效率是大模型突破關鍵,新一代硬件帶來諸多挑戰(zhàn)

Sam Altman:從你的角度來看呢,Dan?為什么訓練大模型很難?

Daniel Selsam:我認為做任何新事物都很難。我認為即使只是發(fā)現(xiàn)別人做了某事,它也會變得容易得多,因為最難的部分是一開始就有做某事的信念。我覺得僅僅是知道某事是可行的,就是一個超強的作弊碼,讓事情變得容易許多。

Alex Paino:我們正在將GPT預訓練運行擴展到之前的10倍,總是會發(fā)現(xiàn)一些有趣的新東西,這些東西你不一定能預料到。

Sam Altman:在預訓練規(guī)模上實現(xiàn)下一個10倍或100倍的增長需要什么?Daniel Selsam:數(shù)據(jù)效率。Transformer架構(也就是GPT)在利用數(shù)據(jù)方面非常高效,它能很好地吸收和壓縮信息,并實現(xiàn)泛化。它最大的特點就是能用計算資源高效地吸收信息。但是,它從數(shù)據(jù)中獲得洞察力的深度是有限的。當計算能力快速增長,而數(shù)據(jù)增長相對緩慢時,數(shù)據(jù)就會成為這種標準模式的瓶頸。這就需要算法創(chuàng)新,開發(fā)出能夠利用更多算力從同樣數(shù)量的數(shù)據(jù)中學到更多知識的方法。Sam Altman:你們認為除此之外我們還需要什么來保持擴展?

Amin Tootoonchian:我的答案是關于系統(tǒng)的。我認為GPT-4.5所需的巨大工作量,本質(zhì)上是模型規(guī)格帶來的必然結果。我們無法用與GPT-4完全相同的技術架構來訓練GPT-4.5。在狀態(tài)管理方面,由于所需計算資源已超出單集群承載能力,我們不得不轉向多集群訓練架構。為了實現(xiàn)這一目標,我們必須在短時間內(nèi)整合多個不同的工作流。雖然這確實幫助我們?nèi)〉昧穗A段性突破,但要實現(xiàn)下一個數(shù)量級的性能提升,仍需解決若干已知但被暫時擱置的技術難題——這些問題是無法回避的。正是這類技術權衡不斷延長著完美系統(tǒng)的研發(fā)周期,我們始終在追求最優(yōu)實施方案的過程中做出策略性取舍。需要明確的是,系統(tǒng)本身并非終極目標,其實際產(chǎn)出價值才是核心考量。就下一個10倍性能提升而言,我認為容錯能力的突破至關重要。我們需要構建與工作負載深度協(xié)同的容錯機制,以顯著降低運維焦慮。當前超大規(guī)模系統(tǒng)的運維復雜度,與既往系統(tǒng)存在本質(zhì)差異。

Sam Altman:你知道在GPT-4.5訓練中,由于某些組件導致失敗的比例是多少嗎?

Amin Tootoonchian:我沒有具體數(shù)字可供分享,但一般而言,在新一代硬件部署初期,系統(tǒng)運行往往面臨諸多未被充分認知的技術挑戰(zhàn)。我們選擇在問題尚未完全明確的情況下推進項目,這導致初期運行失敗率居高不下。但經(jīng)驗表明,隨著根本原因的識別和解決,故障率會顯著降低。這一現(xiàn)象本質(zhì)上反映了我們對基礎設施認知的深化過程——有些人稱之為基礎設施的清理或理解基礎設施的基本問題。執(zhí)行的早期階段幾乎總是相當痛苦,我們在推進項目的同時,也在持續(xù)發(fā)現(xiàn)和解決新型故障模式,但最終失敗率會逐漸下降,正常運行的時間變多。這本質(zhì)上是個優(yōu)先級權衡的問題:在基礎設施生命周期的早期階段,其故障風險往往難以準確預估;而如果過度追求終極理想狀態(tài)(原文為“City Estate”,理想城邦式設計),反而可能導致系統(tǒng)在初期階段的可用性表現(xiàn)極差。

04.計算資源不再是主要瓶頸,算法尚未觸及理論上限

Sam Altman:雖然推理模型是我們未來技術棧的關鍵組成部分,但讓我們暫時聚焦于傳統(tǒng)預訓練模型的發(fā)展邊界。假設我們擁有無限的GPU算力、無限的網(wǎng)絡帶寬和無限的電力供應,但仍受限于當前存在的技術瓶頸——包括系統(tǒng)可靠性問題、容錯訓練方法的缺失,以及現(xiàn)有數(shù)據(jù)集的限制。按照我們每個主要GPT版本號實現(xiàn)100倍規(guī)模提升的演進規(guī)律,基于當前的技術邊界,預訓練模型的發(fā)展究竟能達到什么水平?具體到GPT系列模型,以我們現(xiàn)有的知識體系,理論上究竟能夠訓練出什么樣的模型?能做出GPT-5.5嗎?

Alex Paino:從機器學習和算法發(fā)展的角度來看,我們尚未觸及明確的理論上限。事實上,我們才剛剛開始探索數(shù)據(jù)效率更高的算法,以及如何更充分地利用現(xiàn)有數(shù)據(jù)資源。這個現(xiàn)狀非常有趣——即便是像GPT-4這樣的模型,很大程度上仍是在計算資源受限的條件下開發(fā)的,這也決定了此前大多數(shù)研究的方向。但現(xiàn)在的局面已經(jīng)完全不同。自GPT-4.5以來,在某些關鍵維度上,數(shù)據(jù)而非計算正成為主要的制約因素。這種轉變讓相關研究變得不那么令人興奮。

Sam Altman:不過這確實是一個驚人的進展,而世界可能還沒完全意識到:在我們能夠構建的最佳模型上,計算資源已不再是主要瓶頸。這個轉變意味深長,畢竟我們已經(jīng)在計算受限的環(huán)境中生活了太久太久。

05.模型整體性能提升可預測,智能提升路徑難以預測

Sam Altman:在訓練GPT-4.5過程中,我們學到的最有意思的機器學習經(jīng)驗是什么?說說你們想分享的就行。

Amin Tootoonchian:總的來說,最引人深思的是那些偏離我們預測的情況——特別是當我們試圖理解為什么實際表現(xiàn)會偏離預期曲線時。

Alex Paino:最讓我們驚訝的發(fā)現(xiàn)之一是:不同機器學習組件的擴展性表現(xiàn)差異巨大。有些部分能很好地擴展,有些則不行。這是我們在實際訓練過程中才真正認識到的。這段經(jīng)歷給了我們很多啟發(fā)。

Daniel Selsam:我認為GPT范式的兩大核心特征在于:其一,測試損失(衡量模型在未見過的測試數(shù)據(jù)上表現(xiàn)好壞的指標)可被準確預測;其二,模型性能隨規(guī)模擴大呈現(xiàn)可預測的提升。更神奇的是,測試損失的降低會以種種難以量化卻又令人驚嘆的神秘方式,轉化為全方位增強的智能水平。

Sam Altman:你是否對此持絕對樂觀態(tài)度?完全認同這一觀點嗎?

Daniel Selsam:其實我想說的是,從GPT-4.5測試中我們發(fā)現(xiàn)了特別有趣的現(xiàn)象——重新測試后,模型展現(xiàn)出的諸多精妙能力完全超出了所有人的預期。我們確信它會以各種難以預先定義的方式變得更智能,而實際部署后,從用戶滿意度中就能觀察到這些微妙層面的提升:更強的常識儲備、更精準的語境理解能力、更細膩的語義把握——這正是那些額外測試損失帶來的魔力。在我看來,Scaling Law在這一維度上得到了完美驗證。

06.機器學習與系統(tǒng)團隊合作密切,不會“自掃門前雪”

Sam Altman:整個訓練過程中最積極的時刻是什么?最喜歡的記憶是什么?顯然有很多痛苦,但希望那些痛苦已經(jīng)有所緩解了。

Alex Paino:我確實有一個這樣的時刻。我們在訓練期間做了很多機器學習方面的工作,我認為我們在運行過程中做出的一些改變產(chǎn)生了相當好的影響,可能比預期的還要好,這對我們來說是一個非常令人興奮的時刻。

Amin Tootoonchian:對我來說,在訓練的同時,我們也同時在構建基礎設施。我們堅信能越過這個性能懸崖,且我們有計劃,每個人都在執(zhí)行,但這需要很長時間。這是艱苦的工作,絕對比我想象的要難。我的預測是錯的,我低估了解決這些問題需要的時間。當團隊終于攻克了那些關鍵問題,性能得到顯著提升的那一刻,至今讓我記憶猶新。你能明顯感受到整個團隊的能量轉變——所有人突然充滿了干勁,帶著全新的動力向最終目標沖刺。

最神奇的是,我們狀態(tài)跟蹤器上顯示的預計完成時間從最初的兩年開始不斷縮短,最終鎖定在一個明確的時間節(jié)點上。這種可見的進展對團隊士氣的提振是難以估量的。我認為這就是它的美妙之處。我想特別強調(diào)的是,機器學習的工作從未停滯。即使在訓練啟動后,這種機器學習協(xié)同設計的過程仍在持續(xù)。機器學習團隊不僅主動跟進那些曾被標記為“后續(xù)處理”的問題,還持續(xù)交付了真正優(yōu)化訓練時間的改進。這完美體現(xiàn)了我們的團隊精神——這里不存在“各人自掃門前雪”的工作界限,而是一種真正無縫的協(xié)作,這種凝聚力正是我們最強大的優(yōu)勢。

07.GPT-4.5預訓練是最周密的計劃,絕不放過任何異常

Daniel Selsam:外界對于這次訓練本身的挑戰(zhàn)性和預測準確性已經(jīng)討論很多。但事實上,這一切都建立在極其周密的規(guī)劃基礎上——你要不再詳細談談這方面?Alex Paino:這絕對是我們迄今為止最周密的計劃。正如我所說,早在正式啟動訓練前一年,我們就已經(jīng)開始籌備這個項目。期間我們進行了多次大規(guī)模的風險控制測試運行。我們特別注重循序漸進地引入所有改進:從高置信度的基礎配置開始——可以理解為類似GPT-4的成熟架構,這個配置在機器學習層面我們已經(jīng)完全掌握——然后像疊積木般層層疊加新特性。

關鍵是要嚴格驗證每個改進在不同規(guī)模下的擴展性:不僅要看到性能提升,更要確保這些提升能隨著模型規(guī)模擴大而持續(xù)有效。很多改進在小規(guī)模測試時表現(xiàn)良好,但在大規(guī)模應用中就會失效。因此整個過程中我們都保持著高度警惕,不斷迭代完善我們的擴展定律方法論。通過這次風險控制實踐,我們積累了大量寶貴經(jīng)驗,這些經(jīng)驗將繼續(xù)指導未來GPT系列模型的開發(fā)。

Amin Tootoonchian:我記得有個特別有趣的瞬間讓我很是懷念。要知道我們每次啟動訓練任務幾乎都免不了遇到各種bug,這已經(jīng)是家常便飯了。但關鍵是要確保進展不受阻,得時刻確認當前進度是否確實在正軌上,這些bug會不會對訓練健康度造成致命影響。雖然我們最初非常確信存在重大缺陷,但通過搭建的整套監(jiān)控體系,我們已經(jīng)能夠精準區(qū)分問題根源:是硬件故障?哪類硬件故障?是數(shù)據(jù)損壞?還是機器學習模型本身的bug?或者是代碼中的競態(tài)條件?當時的情況是,我們同時開著多個問題討論區(qū),各種癥狀五花八門。

經(jīng)過一系列bug修復后,我們陷入了僵局:眼前堆疊著多個未解問題,所有人都在苦思冥想——這些是不同bug導致的?還是某一個bug在作祟?后來我們搞了個投票,讓團隊成員票選最可能的根源。結果最不被看好的選項反而命中真相:竟然是PyTorch上游的torch.sum函數(shù)出了問題,一個簡單的求和運算。這個bug特別有意思。要知道我們主要使用Triton內(nèi)核,只有在某些無關緊要的邊緣場景才會回退到torch運算。而我們的特定代碼路徑觸發(fā)的這個torch.sum函數(shù)bug,會因數(shù)據(jù)分布特性極偶然地引發(fā)非法內(nèi)存訪問——它在計算內(nèi)存偏移量時出了差錯。

最戲劇性的是,當某位工程師終于定位到問題并提交修復后,所有癥狀各異的報錯竟然全部消失了。大家興奮地把Slack頻道從“多bug理論”集體改名為“單bug理論”,場面特別歡樂。這個bug潛伏了多久呢?從訓練早期就存在,直到進度條走過約40%才被揪出來。發(fā)現(xiàn)過程也充滿戲劇性:當時有個復雜內(nèi)核連續(xù)調(diào)用序列,第二個調(diào)用觸發(fā)了非法內(nèi)存訪問。雖然這種崩潰頻率極低(每幾百甚至上千步訓練才出現(xiàn)一次),很容易被當作偶發(fā)故障忽略,但我們的團隊準則就是:絕不放過任何異常。這個故事最精彩的部分就在于這種不輕言放棄的堅持。

08.我們離理想系統(tǒng)還很遠

Sam Altman:GPT-4.5預訓練啟動后,大家還要做哪些工作?

Alex Paino:我們所有人都需要經(jīng)常觀察損失曲線。除此之外,還要持續(xù)優(yōu)化系統(tǒng),改進在訓練啟動前未能完成的協(xié)同設計(co-design)。我們密切監(jiān)控訓練過程中的各類統(tǒng)計指標,確保沒有出現(xiàn)預期外的異常趨勢。同時從機器學習角度探索可能的改進方案。雖然預訓練啟動后數(shù)據(jù)層面的工作會暫時減少,但仍有大量任務需要處理。

Amin Tootoonchian:我認為機器學習很大程度上依賴于正確性判斷。預訓練啟動后,面對大量噪聲信號,我們就像解讀茶葉渣的占卜師,需要判斷系統(tǒng)是否健康,這就是我們的職責所在。

Sam Altman:在系統(tǒng)層面,什么會限制我們進行模型訓練?是芯片、處理器、內(nèi)存、網(wǎng)絡還是電源?

Amin Tootoonchian:系統(tǒng)的美妙之處在于,在進行協(xié)同設計時,工作負載可以適應你構建的基礎設施。這里沒有普遍的說法說網(wǎng)絡是瓶頸,或者內(nèi)存帶寬是瓶頸之類的。即使是對于同一規(guī)格的模型,我們可以選擇轉移資源需求,我們可以選擇創(chuàng)建一個更加平衡的系統(tǒng),但擁有更多的內(nèi)存帶寬總是有益的。在沒有限定條件的情況下很難回答這一問題。在設計GPT-4.5時,我們可能系統(tǒng)方面要具備某種屬性,這種屬性要經(jīng)過人的引導才能產(chǎn)生。所以協(xié)同設計對形成模型架構和架構元素很重要,某種程度上將系統(tǒng)和機器學習方面聯(lián)系在一起。如果系統(tǒng)有一種我們不太希望擁有的屬性。我理想的情況是,一切都應該是解耦的,以給彼此最大的空間。有時候事情會聯(lián)系在一起,我們需要滿足基礎設施的要求,或者說事情本應如此。很多時候,我們需要一個平衡的系統(tǒng)、平衡的通信。而我們擁有的最好的調(diào)節(jié)手段就是所有這些協(xié)同設計。

Sam Altman:我們距離這樣理想的系統(tǒng)目標還有多遠?

Amin Tootoonchian:離那個目標還很遠。構建系統(tǒng)的過程總是這樣的:先有一個關于事物應該如何運作的理想化觀點,然后用現(xiàn)有資源去調(diào)和那些差異。我認為我們并不是為了理論而理論,只是為了討論我們希望它變成什么樣子,讓它實現(xiàn),并盡可能地接近那個理想。這可能是系統(tǒng)領域中最令人興奮的部分。以前人們會說這是一個優(yōu)雅的系統(tǒng)設計,而最終歷史會告訴我們這個選擇是正確還是錯誤的。

Sam Altman:如果能在下次大型訓練前獲得一個機器學習問題的答案,你們最想知道什么?

Alex Paino:我想知道在有限數(shù)據(jù)和特定領域下,我們應該采用哪些算法。這雖然是個寬泛的問題,但確實是最關鍵的。

Sam Altman:今后會進行1000萬塊GPU或更大的同步預訓練嗎?Alex Paino:我認為會有,但未必是傳統(tǒng)預訓練模式,它的形式可能與現(xiàn)有技術截然不同,但仍會保留無監(jiān)督學習的內(nèi)核。

Amin Tootoonchian:我傾向于半同步模式。受物理規(guī)律限制,完全同步不太現(xiàn)實。

Daniel Selsam:我認為這更可能是去中心化的。肯定會有1000萬塊GPU共同工作在一個學習和執(zhí)行任務的AI系統(tǒng)上,但像大腦的各個部分一樣,彼此并不一定會相互交流

09.算法改進產(chǎn)生疊加效應,推動數(shù)據(jù)效率提高

Sam Altman:當前最先進的算法和人類的數(shù)據(jù)效率相差多少?未來有望追趕上嗎?

Daniel Selsam:兩者很難直接比較。語言學習層面上的差距肯定是巨大的,關鍵在于如何定義人類視覺神經(jīng)接收的信息量。我認為總體上算法的數(shù)據(jù)效率比人類低許多。幾十年來,深度學習一直關注算力效率。除了數(shù)據(jù)和算力的增長,真正讓人驚喜的是算法改進產(chǎn)生的疊加效應。算法性能每次提高10%或20%,疊加在數(shù)據(jù)效率上就會有顯著效果。到目前為止,還沒有圍繞數(shù)據(jù)效率進行這樣的動員,因為在數(shù)據(jù)不流通且計算能力受限時,這一做法并不值得?,F(xiàn)在,我們正在進入AI研究的新階段,我們將開始積累數(shù)據(jù)效率的勝利。我認為,現(xiàn)在就預測我們會遇到無法逾越的障礙是有些愚蠢的。人類大腦的運行方式肯定與我們算法改進不同,在這方面我們要保持謹慎。但我認為要對算法未來發(fā)展保持樂觀。

Sam Altman:更大規(guī)模的預訓練與模型更強的學習推理能力之間有什么相關性嗎?

Alex Paino:我們觀察到的是,更好的預訓練和無監(jiān)督學習往往會提升模型的整體智能,并在泛化方面有很大幫助,這與推理能力是相輔相成的,而推理在提高智能方面可能會更遲鈍一些。我認為它們是互補的關系。

Sam Altman:預訓練似乎在很多事情上能夠通用,而訓練一個模型只能讓它在某一類事情上做得很好,是這樣嗎?

Alex Paino:這點很有趣,不過當你看到訓練它們的數(shù)據(jù)時,就不會對這種情況驚訝了。預訓練的數(shù)據(jù)集范圍非常大,我們追求的是廣度和多樣性。而當談到模型強化學習并讓它可以清晰地獲得良好獎勵信號和良好的訓練環(huán)境時,我認為很難兼顧數(shù)據(jù)集的廣度。

Daniel Selsam:我同意,但我認為還有一個因素,預訓練本質(zhì)上是在壓縮數(shù)據(jù),從而發(fā)現(xiàn)不同事物之間的聯(lián)系。它關乎類比,更加抽象。推理是在特定問題上需要謹慎思考的一種技能,也能夠獲得許多類型問題的解決方法。但在預訓練過程中,在跨越不同領域進行數(shù)據(jù)壓縮時,可以學到更抽象層面的知識。

10.智能的本質(zhì)是壓縮,數(shù)據(jù)長尾效應讓Scaling Law持續(xù)有效

Sam Altman:無監(jiān)督學習為什么有效呢?

Daniel Selsam:關鍵是壓縮。理想的智能形態(tài)是所羅門諾夫歸納(Solomonov induction),一般而言,機器學習會考慮所有的可能性,但傾向從更簡單的程序開始檢驗。當前預訓練的本質(zhì)正是一個壓縮的過程,通過找到一個最簡程序來解釋人類迄今為止產(chǎn)生的所有數(shù)據(jù),以此實現(xiàn)近似表達。

Sam Altman:下一個Token預測如何協(xié)助實現(xiàn)壓縮?Daniel Selsam:統(tǒng)計學里有一個悖論——為什么深度網(wǎng)絡看似無法壓縮卻能實現(xiàn)泛化?正常來講,當擁有大量數(shù)據(jù)和一些小模型時,這些模型一定要經(jīng)歷壓縮才學到了東西。在預訓練中,數(shù)據(jù)和模型的規(guī)模都很大,有些人就認為這種訓練只是記憶和插值學習,其實他們忽視了壓縮的另一種理解視角——序貫壓縮(pre-quential compression),它像一個壓縮器,即使數(shù)據(jù)權重很大,二進制也無需存儲這些信息,利用下一個Token預測的結果可以快速檢索出有用信息,提高壓縮效率。

Sam Altman:訓練GPT-4.5的過程耗費了大量人力、時間和金錢,這其實可以看做是一次驗證Scaling Law的實驗,而結果證明它是有效的,并且還會持續(xù)很長時間。Scaling Law為什么可以被稱之為宇宙規(guī)律?

Daniel Selsam:壓縮程度越高,智能就越強大,這具有很深刻的哲學內(nèi)涵。為什么訓練更大的模型時間越長,壓縮率就越高?這涉及到很多理論,其中我喜歡的是稀疏表示(Sparse Representations)?,F(xiàn)實中的關鍵概念遵循冪律分布(power law),比如第100個重要概念可能在每100個文檔里才出現(xiàn)一次,存在明顯的長尾效應。這種分布特性導致需要大規(guī)模數(shù)據(jù)和算力來有效捕捉所有關鍵概念,也決定了Scaling Law長期有效存在。

(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權,禁止隨意轉載。)

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄
淮安市| 兴隆县| 边坝县| 扬州市| 南澳县| 平和县| 濮阳县| 庆元县| 巫溪县| 喜德县| 涡阳县| 姜堰市| 嘉善县| 梧州市| 灌南县| 盈江县| 邢台市| 大渡口区| 耒阳市| 深圳市| 朔州市| 博客| 内乡县| 磴口县| 香港| 湟源县| 雷山县| 武宣县| 会泽县| 务川| 崇礼县| 双鸭山市| 弥勒县| 年辖:市辖区| 建德市| 镇平县| 贵阳市| 前郭尔| 扶风县| 平阴县| 陆良县|