国产久操视频-国产久草视频-国产久热精品-国产久热香蕉在线观看-青青青青娱乐-青青青青在线成人视99

  • 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

紅帽推出llm-d社區(qū),賦能大規(guī)模分布式生成式AI推理

05/22 17:32
116
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

該項(xiàng)目讓生產(chǎn)型生成式AILinux一樣無(wú)處不在,與創(chuàng)始貢獻(xiàn)者CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,攜手行業(yè)領(lǐng)導(dǎo)者AMD、思科、Hugging Face、英特爾、Lambda和Mistral AI,并獲得了來(lái)自加州大學(xué)伯克利分校和芝加哥大學(xué)的支持

全球領(lǐng)先的開源解決方案提供商紅帽公司近日宣布啟動(dòng)全新開源項(xiàng)目llm-d,以滿足生成式AI(gen AI)未來(lái)最關(guān)鍵的需求:大規(guī)模推理。llm-d采用原生Kubernetes架構(gòu)、基于vLLM的分布式推理和智能AI感知網(wǎng)絡(luò)路由,利用突破性的大規(guī)模生成式AI推理技術(shù),讓強(qiáng)大的大語(yǔ)言模型(LLM)推理云能夠滿足最苛刻的生產(chǎn)服務(wù)級(jí)目標(biāo)(SLO)。

雖然訓(xùn)練仍然至關(guān)重要,但生成式AI的真正影響取決于更高效和可擴(kuò)展的推理——將AI模型轉(zhuǎn)化為可操作洞察和用戶體驗(yàn)的引擎。根據(jù)Gartner[1]數(shù)據(jù),“到2028年,隨著市場(chǎng)的成熟,80%以上的數(shù)據(jù)中心工作負(fù)載加速器將專門部署用于推理,而不是訓(xùn)練用途?!边@強(qiáng)調(diào)了生成式AI的未來(lái)在于執(zhí)行能力。隨著推理模型日益復(fù)雜和規(guī)模不斷擴(kuò)大,其對(duì)資源需求的持續(xù)攀升限制了集中式推理的可行性,并有可能因成本過(guò)高和延遲過(guò)長(zhǎng)而使AI創(chuàng)新陷入瓶頸。

通過(guò)llm-d滿足可擴(kuò)展生成式AI的推理需求

紅帽及其行業(yè)合作伙伴正通過(guò)llm-d應(yīng)對(duì)這一挑戰(zhàn)。llm-d是一個(gè)前瞻性項(xiàng)目,它能增強(qiáng)vLLM的能力,從而超越單臺(tái)服務(wù)器的限制,為AI推理解鎖大規(guī)模生產(chǎn)。使用Kubernetes久經(jīng)考驗(yàn)的編排能力,llm-d將先進(jìn)的推理能力集成到現(xiàn)有的企業(yè)IT基礎(chǔ)設(shè)施中。該統(tǒng)一平臺(tái)使IT團(tuán)隊(duì)能夠滿足關(guān)鍵業(yè)務(wù)工作負(fù)載的各種服務(wù)需求,同時(shí)部署創(chuàng)新技術(shù)以最大限度地提高效率,并顯著降低與高性能AI加速器相關(guān)的總體擁有成本(TCO)。

llm-d提供了一套強(qiáng)大的創(chuàng)新,其中包括:

  • vLLM已迅速成為開源領(lǐng)域的事實(shí)標(biāo)準(zhǔn)推理服務(wù)器,為新興的前沿模型提供Day 0模型支持,并支持各種加速器,現(xiàn)已包括Google Cloud張量處理器單元(TPU)。
  • 預(yù)填充和解碼分離將AI的輸入上下文和token生成階段分離成離散操作,然后將它們分布到多個(gè)服務(wù)器上。
  • 鍵值緩存卸載,基于LMCache,將鍵值緩存的內(nèi)存負(fù)擔(dān)從GPU內(nèi)存轉(zhuǎn)移到更具成本效益且容量更大的標(biāo)準(zhǔn)存儲(chǔ),如CPU內(nèi)存或網(wǎng)絡(luò)存儲(chǔ)。
  • 由Kubernetes驅(qū)動(dòng)的集群和控制器可在工作負(fù)載需求波動(dòng)時(shí)更高效地調(diào)度計(jì)算和存儲(chǔ)資源,同時(shí)確保性能和較低的延遲。
  • AI感知網(wǎng)絡(luò)路由,用于將傳入請(qǐng)求調(diào)度到最有可能擁有過(guò)去推理計(jì)算熱緩存的服務(wù)器和加速器。
  • 高性能通信API可實(shí)現(xiàn)服務(wù)器之間更快、更高效的數(shù)據(jù)傳輸,支持NVIDIA推理傳輸庫(kù)(NIXL)。

llm-d:受到行業(yè)領(lǐng)導(dǎo)者的支持

該全新開源項(xiàng)目已經(jīng)獲得了由領(lǐng)先的生成式AI模型提供商、AI加速器先驅(qū)和主要AI云平臺(tái)組成的強(qiáng)大聯(lián)盟的支持。CoreWeave、Google Cloud、IBM Research和NVIDIA是該項(xiàng)目的創(chuàng)始貢獻(xiàn)者,而AMD、思科、Hugging Face、英特爾、Lambda和Mistral AI是該項(xiàng)目的合作伙伴,這也表明,業(yè)界在構(gòu)建大規(guī)模LLM服務(wù)的未來(lái)方面開展了深入合作。加州大學(xué)的Sky Computing Lab(vLLM的發(fā)起者)和芝加哥大學(xué)的LMCache Lab(LMCache的發(fā)起者)作為創(chuàng)始支持者加入llm-d社區(qū)。

基于對(duì)開放合作的堅(jiān)定承諾,紅帽認(rèn)識(shí)到,在快速發(fā)展的生成式AI推理領(lǐng)域,充滿活力且易于訪問(wèn)的社區(qū)至關(guān)重要。紅帽將積極推動(dòng)llm-d社區(qū)的發(fā)展,為新成員營(yíng)造一個(gè)包容的環(huán)境,并促進(jìn)其持續(xù)發(fā)展。

紅帽的愿景:任意模型,任意加速器,任意云,自由部署

AI的未來(lái)應(yīng)當(dāng)充滿無(wú)限機(jī)遇,而不應(yīng)受到基礎(chǔ)設(shè)施孤島的限制。紅帽認(rèn)為,未來(lái),企業(yè)可以在任意云環(huán)境中的任意加速器上部署任意模型,提供卓越且更加一致的用戶體驗(yàn),而無(wú)需高昂的成本。為了釋放生成式AI投資的真正潛力,企業(yè)需要一個(gè)通用推理平臺(tái)——一個(gè)用以推動(dòng)當(dāng)下以及未來(lái)數(shù)年中,更加無(wú)縫、更高性能AI創(chuàng)新的標(biāo)準(zhǔn)。

正如紅帽通過(guò)將Linux轉(zhuǎn)變?yōu)楝F(xiàn)代IT的基石,開創(chuàng)了開源企業(yè)先河,如今紅帽正構(gòu)建AI推理的未來(lái)。vLLM擁有成為標(biāo)準(zhǔn)化生成式AI推理核心的潛力,紅帽致力于構(gòu)建一個(gè)繁榮的生態(tài)系統(tǒng),不僅圍繞vLLM社區(qū),還包括用于大規(guī)模分布式推理的llm-d。紅帽的愿景非常清晰:無(wú)論采用何種AI模型、底層加速器或部署環(huán)境,vLLM都能成為新型跨混合云環(huán)境推理的開放標(biāo)準(zhǔn)權(quán)威。

支持證言

紅帽高級(jí)副總裁兼AI首席技術(shù)官Brian Stevens

“由AI領(lǐng)域先鋒力量共同發(fā)起的llm-d社區(qū)正式成立,這一事件標(biāo)志著解決規(guī)?;墒紸I推理難題的關(guān)鍵突破——該挑戰(zhàn)正是阻礙企業(yè)AI大規(guī)模落地的核心障礙。通過(guò)融合vLLM的創(chuàng)新架構(gòu)與Kubernetes的成熟編排能力,llm-d開創(chuàng)了跨混合云環(huán)境實(shí)現(xiàn)分布式、可擴(kuò)展且高性能AI推理的新范式。其支持任意模型、任意加速器、任意云環(huán)境的特性,正在推動(dòng)‘無(wú)限AI潛能’愿景的實(shí)現(xiàn)?!?/p>

AMD AI產(chǎn)品管理企業(yè)副總裁Ramine Roane

“AMD很榮幸能成為llm-d社區(qū)的創(chuàng)始成員,貢獻(xiàn)我們?cè)诟咝阅蹽PU方面的專業(yè)知識(shí),助力推進(jìn)AI推理,滿足不斷發(fā)展的企業(yè)AI需求。企業(yè)正在應(yīng)對(duì)生成式AI日益增長(zhǎng)的復(fù)雜性,以實(shí)現(xiàn)更大的規(guī)模和更高的效率,AMD期待通過(guò)llm-d項(xiàng)目滿足這一行業(yè)需求?!?/p>

思科開源項(xiàng)目辦公室副總裁兼思科DevNet主管Shannon McFarland

“l(fā)lm-d項(xiàng)目是實(shí)用型生成式AI領(lǐng)域的一項(xiàng)重要進(jìn)展。llm-d賦能開發(fā)者以編程方式集成和擴(kuò)展生成式AI推理,從而將現(xiàn)代AI領(lǐng)域的創(chuàng)新和效率提升到新的水平。思科很榮幸能成為llm-d社區(qū)的一員,我們?cè)诖斯餐剿髡鎸?shí)世界的用例,幫助企業(yè)更有效、更高效地應(yīng)用AI。”

CoreWeave工程高級(jí)副總裁 Chen Goldberg

“CoreWeave很榮幸能成為llm-d項(xiàng)目的創(chuàng)始貢獻(xiàn)者,并加深我們對(duì)開源AI的長(zhǎng)期承諾。從我們?cè)缙谂cEleutherAI的合作,到目前推進(jìn)大規(guī)模推理的工作,我們一直致力于使強(qiáng)大的AI基礎(chǔ)設(shè)施更易于訪問(wèn)。很高興能與一群出色的合作伙伴以及更廣泛的開發(fā)者社區(qū)攜手合作,共同建立一個(gè)靈活、高性能的推理引擎,加速創(chuàng)新,為開放、可互操作的AI奠定基礎(chǔ)?!?/p>

Google Cloud AI與計(jì)算基礎(chǔ)設(shè)施副總裁兼總經(jīng)理Mark Lohmeyer

“在企業(yè)大規(guī)模部署AI,并為用戶創(chuàng)造價(jià)值的過(guò)程中,高效的AI推理至關(guān)重要。在我們進(jìn)入推理的新時(shí)代之際,Google Cloud很榮幸能夠作為llm-d項(xiàng)目的創(chuàng)始貢獻(xiàn)者,在我們開源貢獻(xiàn)傳統(tǒng)的基礎(chǔ)上再接再厲。這個(gè)新社區(qū)將成為大規(guī)模分布式AI推理的關(guān)鍵催化劑,幫助用戶增加基礎(chǔ)設(shè)施資源的可選擇性,實(shí)現(xiàn)更高的工作負(fù)載效率?!?/p>

Hugging Face產(chǎn)品主管Jeff Boudier

“我們相信,每家公司都應(yīng)該能夠建立和運(yùn)行自己的模型。vLLM利用Hugging Face transformers庫(kù)作為模型定義的事實(shí)來(lái)源,提供了大大小小的各種模型,為文本、音頻、圖像和視頻AI應(yīng)用提供支持。有800萬(wàn)AI建設(shè)者使用Hugging Face就全球社區(qū)中開放共享的超過(guò)200萬(wàn)個(gè)AI模型和數(shù)據(jù)集開展合作。我們很高興能為llm-d項(xiàng)目提供支持,使開發(fā)者能夠?qū)⑦@些應(yīng)用推向更大規(guī)模。”

IBM Research混合云與AI平臺(tái)副總裁Priya Nagpurkar

“IBM認(rèn)為,AI的下一階段聚焦于效率和規(guī)模。我們專注于通過(guò)企業(yè)能夠有效部署的AI解決方案為企業(yè)釋放價(jià)值。作為llm-d的創(chuàng)始貢獻(xiàn)者,IBM很榮幸能夠在構(gòu)建差異化的硬件無(wú)關(guān)分布式AI推理平臺(tái)中發(fā)揮關(guān)鍵作用。我們期待著繼續(xù)為這個(gè)社區(qū)的發(fā)展和成功做出貢獻(xiàn),以改變AI推理的未來(lái)。”

英特爾數(shù)據(jù)中心與AI軟件解決方案及生態(tài)系統(tǒng)副總裁Bill Pearson

“l(fā)lm-d的推出將成為行業(yè)推動(dòng)大規(guī)模AI轉(zhuǎn)型的關(guān)鍵拐點(diǎn),英特爾很高興能作為創(chuàng)始支持者參與其中。英特爾參與llm-d是我們與紅帽數(shù)十年合作的最新里程碑,通過(guò)能夠在任意位置的企業(yè)所選平臺(tái)上部署的開源解決方案,為企業(yè)賦能。我們期待通過(guò)llm-d社區(qū)進(jìn)一步擴(kuò)展和構(gòu)建AI創(chuàng)新?!?/p>

Lambda ML平臺(tái)高級(jí)員工工程師Eve Callicoat

“推理是AI真正發(fā)揮實(shí)際價(jià)值的地方,而llm-d代表了一個(gè)重大進(jìn)展。Lambda很榮幸能支持這樣一個(gè)項(xiàng)目,它使最先進(jìn)的推理變得易于獲取、高效和開放?!?/p>

NVIDIA工程AI框架副總裁Ujval Kapasi

“l(fā)lm-d項(xiàng)目是對(duì)開源AI生態(tài)系統(tǒng)的重要補(bǔ)充,體現(xiàn)了NVIDIA對(duì)合作推動(dòng)生成式AI創(chuàng)新的支持??蓴U(kuò)展、高性能的推理是下一波生成式AI和代理式AI的關(guān)鍵。我們正在與紅帽和其他支持合作伙伴合作,促進(jìn)llm-d社區(qū)的參與和行業(yè)采用,利用NIXL等NVIDIA Dynamo創(chuàng)新幫助加速llm-d的發(fā)展?!?/p>

加州大學(xué)伯克利分校教授兼Sky Computing Lab總監(jiān)Ion Stoica

“我們很高興看到紅帽在vLLM既有成功的基礎(chǔ)上繼續(xù)發(fā)展,vLLM起源于我們的實(shí)驗(yàn)室,幫助解決運(yùn)行大型AI模型所帶來(lái)的速度和內(nèi)存挑戰(zhàn)。像vLLM這樣的開源項(xiàng)目,以及現(xiàn)在以vLLM為基礎(chǔ)的llm-d,都處于AI創(chuàng)新的前沿,可以滿足最苛刻的AI推理要求,并推動(dòng)整個(gè)行業(yè)的發(fā)展?!?/p>

芝加哥大學(xué)LMCache Lab CS教授Junchen Jiang

“分布式鍵值緩存優(yōu)化,如卸載、壓縮和混合,一直是我們實(shí)驗(yàn)室的關(guān)注重點(diǎn),我們很高興看到llm-d利用LMCache作為核心組件,縮短了到第一個(gè)token的時(shí)間,并提高了吞吐量,尤其是在長(zhǎng)上下文推理中?!?/p>

 

相關(guān)推薦

富裕县| 健康| 瓦房店市| 安阳县| 无极县| 泽库县| 湘潭县| 九台市| 尼木县| 南澳县| 太保市| 福安市| 安义县| 宣恩县| 湟源县| 曲周县| 浪卡子县| 尼玛县| 化德县| 民权县| 营口市| 永宁县| 苍溪县| 金乡县| 洪湖市| 微山县| 娱乐| 兖州市| 江永县| 永德县| 黄山市| 雷山县| 淅川县| 曲沃县| 福鼎市| 湖北省| 兴安盟| 邢台市| 和平区| 桂阳县| 孟连|