作者 |??三北,編輯?|??漠影
AI基礎(chǔ)設(shè)施新戰(zhàn)場(chǎng),曙光把軟硬兩把寶刀都磨好了。
隨著大模型發(fā)展中的硬件瓶頸凸顯,軟件優(yōu)化成為一條必由之路。在近日舉辦的2024中國(guó)生成式AI大會(huì)上,國(guó)產(chǎn)算力龍頭中科曙光亮出AI軟件“肌肉”,推出曙光AI基礎(chǔ)軟件系統(tǒng)DAS,為大模型遷移和優(yōu)化提供了一條新捷徑。
眾所周知,中科曙光是國(guó)產(chǎn)算力之光的代表。在大模型的驅(qū)動(dòng)下,曙光又建立起了軟硬一體和AI全鏈路能力,展現(xiàn)了算力玩家能力擴(kuò)圈的新趨勢(shì)。
大模型的發(fā)展勢(shì)不可擋。國(guó)際數(shù)據(jù)公司IDC的報(bào)告預(yù)測(cè),2024年企業(yè)在AI上的投入增長(zhǎng)將高達(dá)250%。大模型發(fā)展對(duì)算力服務(wù)提出了什么新要求?曙光AI基礎(chǔ)軟件系統(tǒng)DAS能提供什么樣的升級(jí)服務(wù)和真實(shí)價(jià)值?通過(guò)對(duì)話中科曙光智能計(jì)算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東,本文對(duì)此進(jìn)行了深入探討。
01.大模型催生AI新戰(zhàn)場(chǎng),國(guó)產(chǎn)算力龍頭“變軟”
大模型產(chǎn)業(yè)正進(jìn)入高速發(fā)展期,所需的不再是單項(xiàng)算力能力,而是多維綜合能力。根據(jù)IDC中國(guó)副總裁鐘振山在近期中國(guó)ICT市場(chǎng)趨勢(shì)論壇上的發(fā)言,2024年大模型發(fā)展出現(xiàn)五大趨勢(shì):中國(guó)大模型在2024年“卷”向產(chǎn)業(yè);開(kāi)源和閉源共同促進(jìn)應(yīng)用生態(tài)繁榮;大模型走向手機(jī)、PC等端側(cè);多模態(tài)將促使殺手級(jí)應(yīng)用出現(xiàn);新一代AI基礎(chǔ)設(shè)施成為下一個(gè)戰(zhàn)場(chǎng)。
在AI基礎(chǔ)設(shè)施新戰(zhàn)場(chǎng),以曙光為代表的核心基礎(chǔ)設(shè)施領(lǐng)軍企業(yè)已經(jīng)提前布局。胡曉東告訴智東西:“我們深知算力是AI技術(shù)發(fā)展的核心驅(qū)動(dòng)力。然而,僅擁有強(qiáng)大的硬件算力是不夠的,需要軟硬一體化的能力支撐AI技術(shù)的落地應(yīng)用,并聯(lián)合伙伴一起打造完整的AI生態(tài)圈?!?/p>
在與客戶深入交流的過(guò)程中,胡曉東和他的團(tuán)隊(duì)發(fā)現(xiàn)許多客戶在AI應(yīng)用過(guò)程中面臨著種種挑戰(zhàn),如模型訓(xùn)練效率低下、算法部署困難、算力資源利用率不高等問(wèn)題。這些問(wèn)題嚴(yán)重影響了AI技術(shù)的普及和應(yīng)用。為了解決這些問(wèn)題,曙光在今年推出了DAS人工智能基礎(chǔ)軟件系統(tǒng),幫助客戶更快速、更高效地實(shí)現(xiàn)AI技術(shù)的落地應(yīng)用。
曙光深耕算力底座基礎(chǔ)能力幾十年,自1993年研發(fā)出國(guó)內(nèi)首臺(tái)全對(duì)稱共享存儲(chǔ)多處理機(jī)系統(tǒng)曙光一號(hào)之后,逐步完成了對(duì)算力產(chǎn)業(yè)的全產(chǎn)業(yè)鏈覆蓋,近年來(lái)還推出了國(guó)內(nèi)首款規(guī)?;慨a(chǎn)液冷服務(wù)器等核心高端硬件,成為核心硬件實(shí)力擔(dān)當(dāng)。DAS人工智能基礎(chǔ)軟件系統(tǒng),是這家算力龍頭向全棧AI階段邁出的關(guān)鍵歷史性一步。
配合曙光基礎(chǔ)硬件及開(kāi)發(fā)工具棧等能力,DAS人工智能基礎(chǔ)軟件系統(tǒng)聚焦打造一套完整的人工智能軟硬件生態(tài)體系,幫助用戶抵達(dá)AI應(yīng)用遷移、開(kāi)發(fā)及迭代的“最后一公里”。胡曉東談道,DAS人工智能基礎(chǔ)軟件系統(tǒng)是從2019年就基于曙光過(guò)往的技術(shù)及項(xiàng)目積累開(kāi)始投入研發(fā)的,經(jīng)多年不斷發(fā)展,近期逐步產(chǎn)品化并對(duì)外發(fā)布:
1、首先,打造算力基礎(chǔ)設(shè)施是曙光在全國(guó)產(chǎn)化能力上構(gòu)建的一個(gè)最堅(jiān)實(shí)的基礎(chǔ)。
2、第二個(gè)是軟件生態(tài),只有通過(guò)軟件才能真正將算力發(fā)揮出來(lái)。
3、第三方面是平臺(tái)層,應(yīng)該是能將底層的硬件能力、軟件能力實(shí)現(xiàn)打包統(tǒng)一化交付的能力,依托平臺(tái)將整個(gè)算力以服務(wù)的形式交付到用戶手上。
可以看到,大模型催生了AI算力新需求,而國(guó)產(chǎn)算力之光主動(dòng)選擇“變軟”,背后是對(duì)AI產(chǎn)業(yè)需求和痛點(diǎn)的深入洞察。
02.軟件扛著硬件跑,曙光全棧AI亮劍
當(dāng)下,市面上已經(jīng)出現(xiàn)了昇騰MindSpore、阿里魔搭等AI開(kāi)發(fā)平臺(tái)及社區(qū),而曙光打造的DAS人工智能基礎(chǔ)軟件系統(tǒng)的一大差異化是國(guó)產(chǎn)化自主可控屬性。胡曉東告訴智東西,圍繞過(guò)往的產(chǎn)品及技術(shù)的儲(chǔ)備,曙光希望拉通算力底層、軟件棧、平臺(tái)、內(nèi)容側(cè),共同打通一套賦能機(jī)制,將所有的產(chǎn)品及服務(wù)能力化地交付到用戶手上,構(gòu)建出一套國(guó)產(chǎn)AI能力化輸出流程。
站在大模型閉環(huán)角度來(lái)看,從模型開(kāi)發(fā)到場(chǎng)景適配、應(yīng)用部署,從基礎(chǔ)訓(xùn)練到準(zhǔn)備資源、準(zhǔn)備不同的庫(kù)去微調(diào),再到壓縮、推理、服務(wù),到把這個(gè)模型輸出,曙光都結(jié)合項(xiàng)目經(jīng)驗(yàn)和伙伴交流情況進(jìn)行了分析。
AI賽道性能為王?!懊總€(gè)層級(jí)有不同的關(guān)注點(diǎn),對(duì)于硬件、軟件棧有不同的需求。從算力來(lái)講,通用大模型需要更高算力,很多細(xì)分領(lǐng)域則需要更精細(xì)的數(shù)據(jù),每個(gè)環(huán)節(jié)有不同的關(guān)注特性。”胡曉東在DAS人工智能基礎(chǔ)軟件系統(tǒng)的發(fā)布時(shí)說(shuō)。
曙光如何幫企業(yè)快速把高吞吐率的模型訓(xùn)練出來(lái)?DAS人工智能基礎(chǔ)軟件系統(tǒng)從AI組件的納管、性能組件的優(yōu)化、軟件工程化能力的建設(shè)等多方面來(lái)打造AI模型的“發(fā)射臺(tái)”,助力用戶更輕松應(yīng)對(duì)AI領(lǐng)域工作應(yīng)用場(chǎng)景。
1、AI組件納管:廣泛覆蓋框架及加速庫(kù),保持高速迭代一方面,AI組件需要廣泛的基礎(chǔ)。曙光DAS人工智能基礎(chǔ)軟件系統(tǒng)盡可能適配了市面已經(jīng)有的不同的框架、加速庫(kù),包括訓(xùn)練、推理或者通信,從而獲得廣泛的基礎(chǔ)。另一方面,軟件組件需要高速迭代。比如PyTorch、TensorFlow、PaddlePaddle等主流深度學(xué)習(xí)框架都會(huì)快速迭代,為此曙光開(kāi)發(fā)了快速適配工具,從而形成快速適配、快速遷移、快速優(yōu)化的基礎(chǔ)體系。
2、性能組件優(yōu)化:提高計(jì)算訪存密度,保障組件性能釋放性能組件層面涉及更多“慢工細(xì)活”。首先第一個(gè)層面需要做基礎(chǔ)計(jì)算庫(kù),保證它有一個(gè)基礎(chǔ)能力的運(yùn)行;同時(shí),對(duì)于很多訪存密集型算子,曙光會(huì)做手動(dòng)的融合,去提高計(jì)算訪存密度。對(duì)于高階開(kāi)發(fā)者,曙光打造了算子模板庫(kù)Composable Kernel,提供Tile級(jí)精細(xì)的算力能力,便于去快速地生成算子模板。在編譯器層面,DAS人工智能基礎(chǔ)軟件系統(tǒng)則有Triton、OpenXLA、TVM做整體編譯集成,幫助開(kāi)發(fā)者形成快速整體優(yōu)化的工具,保障所有的組件快速使用,同時(shí)保障性能發(fā)揮到極致。
3、軟件工程化能力建設(shè):不同組件及策略整合,大規(guī)模異構(gòu)算力加速比達(dá)70%在軟件工程化能力的建設(shè)階段,曙光把各樣的組件、不同的策略進(jìn)行了整合。以大模型訓(xùn)練為例,一方面曙光結(jié)合像Megatron-DeepSpeed這樣的庫(kù)以及各種不同策略的組合,用冗余重計(jì)算等手段進(jìn)行整合,提高大模型訓(xùn)練效應(yīng)。對(duì)于推理層面,曙光通過(guò)FlashDecoding、FlashAttention等機(jī)制進(jìn)行優(yōu)化,去提高模型的吞吐量,降低延遲。在基于24000張卡進(jìn)行大模型訓(xùn)練案例中,DAS人工智能基礎(chǔ)軟件系統(tǒng)使得大規(guī)模異構(gòu)算力保持了70%以上的加速比。
總的來(lái)說(shuō),曙光在性能層面構(gòu)建了一整套開(kāi)放的AI全棧優(yōu)化能力,實(shí)現(xiàn)AI全場(chǎng)景框架組件的全面適配,滿足AI場(chǎng)景快速變化的需求。而在軟件之上,曙光打造了開(kāi)發(fā)中臺(tái)、內(nèi)容平臺(tái)、云服務(wù)等一整套平臺(tái)能力,實(shí)現(xiàn)各種能力的快速遷移調(diào)度,提供完整的云化的服務(wù)環(huán)境??梢钥吹?,曙光已經(jīng)率先“亮劍”,打造國(guó)產(chǎn)大模型的AI基礎(chǔ)軟件“發(fā)射臺(tái)”。胡曉東談道,在軟件開(kāi)發(fā)的過(guò)程中團(tuán)隊(duì)遇到的問(wèn)題有很多,包括技術(shù)難點(diǎn)的攻克,關(guān)鍵項(xiàng)目的交付,他們和技術(shù)團(tuán)隊(duì),和最終客戶、合作伙伴一起,克服了一個(gè)個(gè)技術(shù)難題,慢慢完善了現(xiàn)在的DAS體系。
03.培育軟硬一體AI生態(tài),加速大模型落地千行百業(yè)
“亮劍”AI大模型時(shí)代,中科曙光已涉足行業(yè)實(shí)戰(zhàn)。過(guò)去一年以來(lái),曙光逐步完善了集“研發(fā)、應(yīng)用、生產(chǎn)、運(yùn)營(yíng)”于一體的完整AI生態(tài)鏈,已經(jīng)為數(shù)字金融、智能駕駛、生物醫(yī)療、智慧通信等領(lǐng)域全景賦能。
近日,某公司自主研發(fā)的算力管理平臺(tái)與中科曙光智能計(jì)算產(chǎn)品成功適配,通過(guò)高效管理、智能調(diào)度和穩(wěn)定性觀測(cè)等能力,實(shí)現(xiàn)計(jì)算資源的最優(yōu)化管理和利用,顯著提升穩(wěn)定性,降低運(yùn)維成本。
某知名產(chǎn)業(yè)大模型已在近日與中科曙光智能計(jì)算產(chǎn)品成功適配,結(jié)合中科曙光智能計(jì)算產(chǎn)品卓越的計(jì)算能力和性價(jià)比,在智慧城市領(lǐng)域、時(shí)空信息領(lǐng)域、企業(yè)智能服務(wù)等領(lǐng)域提供全國(guó)產(chǎn)化行業(yè)應(yīng)用智能體基座,實(shí)現(xiàn)全面降本增效。曙光人工智能基礎(chǔ)軟件系統(tǒng)DAS在某工業(yè)檢測(cè)領(lǐng)域的應(yīng)用涉及圖像識(shí)別、模式分析和數(shù)據(jù)預(yù)測(cè)等方面,大大提高了數(shù)據(jù)處理的效率,降低了人為錯(cuò)誤的風(fēng)險(xiǎn),并且極大地提升了該領(lǐng)域工業(yè)檢測(cè)的準(zhǔn)確性和科學(xué)性。
為了推進(jìn)AI能力化實(shí)踐,曙光與產(chǎn)學(xué)研合作落地,包括與國(guó)內(nèi)外主流模型適配并探索商業(yè)模式,把AI能力輸出去用作AI集群的設(shè)計(jì),與行業(yè)伙伴的業(yè)務(wù)做結(jié)合等,以此把智能算力-大模型-行業(yè)AI化的流程走通。大模型產(chǎn)業(yè)發(fā)展目前正處于迅猛發(fā)展的階段。大模型在各個(gè)領(lǐng)域的應(yīng)用日益廣泛,產(chǎn)業(yè)面臨著多重利好因素,包括政府層面的有力支持、用戶提升生活和工作效率的需求激增,以及科技公司對(duì)AI領(lǐng)域的加大投入。胡曉東說(shuō),作為國(guó)產(chǎn)算力的領(lǐng)軍企業(yè),曙光將持續(xù)打造并完善AI計(jì)算產(chǎn)業(yè)生態(tài),為大模型產(chǎn)業(yè)的發(fā)展提供了堅(jiān)實(shí)的算力底座。同時(shí),曙光也積極探索大模型在各行業(yè)的應(yīng)用場(chǎng)景,推動(dòng)AI技術(shù)的普及和應(yīng)用。
04.結(jié)語(yǔ):國(guó)產(chǎn)大模型破曉時(shí),算力龍頭全棧AI亮劍
隨著“百模大戰(zhàn)”進(jìn)入深水區(qū),模型參數(shù)量增長(zhǎng)和模型增多帶來(lái)了底層算力的爆發(fā)式需求,也為基礎(chǔ)設(shè)施廠商帶來(lái)巨大的機(jī)遇。透過(guò)中科曙光在大模型時(shí)代的AI新布局,我們看到這家算力龍頭已將AI生態(tài)建設(shè)升級(jí)為一大戰(zhàn)略舉措,亮劍全棧AI。
國(guó)產(chǎn)大模型破曉時(shí),國(guó)外對(duì)中國(guó)的算力進(jìn)行禁運(yùn),為產(chǎn)業(yè)發(fā)展帶來(lái)了嚴(yán)峻挑戰(zhàn)。如果我們把大模型的浪潮比作淘金,首先淘到淘不到不知道,鏟子就不夠用了。而要解決“鏟子”問(wèn)題,僅靠堆硬件是無(wú)法勝任的,而是需要軟件加持、軟硬結(jié)合的閉環(huán)思路。奔赴使命,算力龍頭開(kāi)始打造全棧AI能力。
以人工智能基礎(chǔ)軟件系統(tǒng)DAS為抓手,曙光正將其幾十年的算力積累與大模型的時(shí)代需求和痛點(diǎn)結(jié)合,為產(chǎn)業(yè)打造優(yōu)質(zhì)模型及應(yīng)用的“發(fā)射臺(tái)”,加速國(guó)產(chǎn)AI生態(tài)建設(shè),推動(dòng)國(guó)產(chǎn)大模型產(chǎn)業(yè)發(fā)展的進(jìn)程。