作者:李寧遠
在NVIDIA對AI技術(shù)進化路徑梳理中,AI從感知型AI演進為生成式AI,再到代理型AI,最終將實現(xiàn)Physical物理AI。在物理AI終局,人形機器人、移動機器人、智能攝像頭和AI智能體等等任何能感知并執(zhí)行任務(wù)的設(shè)備都會由AI賦能釋放應(yīng)用潛力。
在物理AI最具落地前景的工業(yè)領(lǐng)域,雖然此前數(shù)字化轉(zhuǎn)型智能制造升級的變革已滲透多年,但大多數(shù)工廠場景仍停留在自動化而非智能化階段,離真正實現(xiàn)感知到認知到?jīng)Q策的閉環(huán)智能相去甚遠。而現(xiàn)在,物理AI的進步,終于讓工業(yè)場景的智能化變革迎來了轉(zhuǎn)折點。
物理AI在工業(yè)場景的落地生根催生出前所未有的智能化躍遷。從早期以PLC為核心構(gòu)建的機械自動化基石,到物聯(lián)網(wǎng)與云計算掀起的數(shù)據(jù)互聯(lián)化浪潮,工業(yè)系統(tǒng)完成了從孤立運算到云端協(xié)同的歷史性跨越。
現(xiàn)在,物理AI帶來的閉環(huán)智能,突破了傳統(tǒng)規(guī)則引擎的邏輯桎梏,將工業(yè)系統(tǒng)的決策模式從“經(jīng)驗驅(qū)動”推向“自主智能”。這種變革不僅是效率的提升,更是工業(yè)生產(chǎn)力本質(zhì)的重塑。
以世界模型為引擎,釋放物理AI工業(yè)應(yīng)用潛力
在此前物聯(lián)網(wǎng)智庫探討端側(cè)AI的文章中,曾表達過這樣一個觀點,“端側(cè)硬件設(shè)備借力智能模型通過多模態(tài)能力增強智能理解和決策是現(xiàn)今產(chǎn)業(yè)鏈正在推進的方向,其目的是通過硬件與模型的深度融合將AI從數(shù)字世界帶入物理世界?!?/p>
物理AI設(shè)備其實可以看作是端側(cè)AI設(shè)備的終極形態(tài),在基礎(chǔ)的算力、感知、運控硬件配置上,物理AI在模型配置上向前更進一步,即使用世界模型將人工智能與物理世界的規(guī)律、機理深度融合,通過數(shù)據(jù)驅(qū)動與物理建模的協(xié)同,實現(xiàn)對物理系統(tǒng)的精準模擬、預(yù)測、控制與優(yōu)化。
以最具代表性的物理AI設(shè)備人形機器人為例,工規(guī)級機器人硬件配置雖然會有差異,但基礎(chǔ)能力是完備的,拉不開太大差距,機器人能否在動態(tài)且復雜的工廠環(huán)境下對空間與物理過程進行精準建模、理解與推理決策,很大程度上取決于其配置的世界模型大腦。世界模型是實現(xiàn)物理AI的前提,也是機器人實現(xiàn)具身智能的前提。
在早些時候的CES上,NVIDIA發(fā)布過面向物理AI開發(fā)的Cosmos。NVIDIA Cosmos是一個世界基礎(chǔ)模型(WFM)開發(fā)平臺,用于推動物理AI的發(fā)展。其核心是Cosmos WFM,這些開放可用的預(yù)訓練多模態(tài)模型可供開發(fā)者直接使用,用于生成視頻形式的世界狀態(tài)和物理AI推理,或通過后訓練開發(fā)專門的物理AI模型。NVIDIA Cosmos還包括先進的視覺標記器(tokenizers)、護欄(guardrails)、加速視頻數(shù)據(jù)處理平臺以及后訓練框架。
而后在GTC2025上,NVIDIA推出了全新NVIDIA Cosmos世界基礎(chǔ)模型的重大更新,在基礎(chǔ)模型上引入了開放式、可完全定制的物理AI開發(fā)推理模型。黃仁勛表示,“正如大語言模型改變了生成式和代理式AI,Cosmos世界基礎(chǔ)模型是物理AI的一項重大突破,它為物理AI帶來了一個開放式、可完全定制的推理模型,為機器人和物理工業(yè)領(lǐng)域的突破性發(fā)展帶來了機遇?!?/p>
據(jù)了解,Cosmos Predict是通用模型,用于從多模態(tài)輸入生成世界狀態(tài)和運動預(yù)測,專為后訓練開發(fā)專門的物理AI模型而設(shè)計。Cosmos Predict作為NIM提供,可以隨處部署以實現(xiàn)更快推理。Cosmos Reason是完全可定制的多模態(tài)模型,用于思維鏈推理以規(guī)劃最佳響應(yīng)。而Cosmos Transfer基于結(jié)構(gòu)輸入或來自NVIDIA Omniverse的真實數(shù)據(jù),可根據(jù)提示,生成不同場景風格的視頻。
同時NVIDIA還推出了與Cosmos世界基礎(chǔ)模型相連接的新NVIDIA Omniverse Blueprint,一個將全球物理數(shù)據(jù)與物理AI領(lǐng)域連接起來的操作系統(tǒng)。產(chǎn)業(yè)鏈可以借助Omniverse,實現(xiàn)用于物理AI開發(fā)的機器人就緒設(shè)施和大規(guī)模合成數(shù)據(jù)生成,快速統(tǒng)一工業(yè)生態(tài)系統(tǒng)并構(gòu)建新應(yīng)用,助力AI工廠的實現(xiàn)。
這些世界模型為物理AI提供“認知底座”,提供對物理世界的結(jié)構(gòu)化理解;物理AI則作為世界模型的“應(yīng)用載體”,通過工程化設(shè)計使其適應(yīng)真實場景的嚴苛要求。二者的深度整合,正從數(shù)據(jù)驅(qū)動的效率優(yōu)化邁向認知驅(qū)動的智能重構(gòu),這將明顯提升工業(yè)系統(tǒng)的自主決策能力與復雜場景適應(yīng)性。
在AI工廠內(nèi),物理AI基于物理原理能夠充分理解并精準模擬工業(yè)設(shè)備的運行狀態(tài)與未來狀態(tài),大幅提升生產(chǎn)效率與設(shè)備智能化程度。例如基于過往運行數(shù)據(jù)和物理規(guī)律,工廠能進行更精準的預(yù)測性維護,機器人等設(shè)備則能實時感知環(huán)境變化并基于物理規(guī)律做出精準動作調(diào)整,增強生產(chǎn)靈活性與協(xié)同性,全方位提升工業(yè)智能化程度。
物理AI以世界模型為數(shù)字引擎,正在賦予工業(yè)系統(tǒng)完整智能閉環(huán),推動工業(yè)智能化從“被動響應(yīng)”向“主動進化”躍遷。
Omniverse加速物理AI訓練,推進AI工廠制造升級
不論是基礎(chǔ)的生成式AI模型、VLA多模態(tài)模型還是推進物理AI實現(xiàn)的世界模型,都需要大量的數(shù)據(jù)進行訓練優(yōu)化。這就涉及真實數(shù)據(jù)與合成數(shù)據(jù),特別是在工業(yè)場景,采集大量用于訓練的真實數(shù)據(jù)存在一定難度,且場景的多模態(tài)數(shù)據(jù)很難統(tǒng)一在同一個標定尺度內(nèi),而這些數(shù)據(jù)不經(jīng)過精確統(tǒng)一標定就無法被用來訓練學習。這也是為什么來自傳統(tǒng)系統(tǒng)的海量數(shù)字和物理世界數(shù)據(jù)容易形成多個孤島,無法被充分利用起來。
對齊部分真實數(shù)據(jù)生成大量可控的符合物理規(guī)律的合成數(shù)據(jù),在物理AI模型部署到現(xiàn)實世界之前進行仿真測試和調(diào)試,成為提高開發(fā)效率的一條路徑。這也是NVIDIA推出Omniverse的原因之一,幫助開發(fā)者統(tǒng)一物理世界的數(shù)據(jù)和應(yīng)用,實現(xiàn)物理AI的大規(guī)模合成數(shù)據(jù)生成。
根據(jù)不同的任務(wù),Omniverse聚合現(xiàn)實世界中的傳感器數(shù)據(jù),隨后對世界模型進行調(diào)控,將原始采集數(shù)據(jù)拓展生成為大量高度逼真且多樣的數(shù)據(jù),借助被Cosmos與Omniverse增強后的數(shù)據(jù)集,設(shè)備運營策略能夠在數(shù)字孿生中進行充分的模擬訓練。
Cosmos與Omniverse提供了一個在真實世界可采集的數(shù)據(jù)之外,擴展逼真訓練數(shù)據(jù)的機會。據(jù)了解,領(lǐng)先的工業(yè)軟件和服務(wù)提供商如Ansys、Databricks、Dematic、Omron、SAP、Schneider Electric with ETAP、西門子等正在將NVIDIA Omniverse平臺集成到他們的解決方案中,利用Omniverse加速物理AI訓練推動工業(yè)數(shù)字化。
在GTC2025的主題演講中,黃仁勛就展示了如何基于Omniverse Blueprint開發(fā)應(yīng)用,以規(guī)劃、優(yōu)化和模擬一座AI工廠。Omniverse使用OpenUSD庫,使來自不同來源的3D數(shù)據(jù)得以聚合在一起,為所有數(shù)據(jù)源提供通用語言。在合成數(shù)據(jù)與部分真實數(shù)據(jù)的實時仿真下,AI工廠配置能夠?qū)崟r調(diào)整,并立即看到影響,進而繼續(xù)改進。可以說Omniverse既打破了工程團隊中的設(shè)計壁壘,還加速了工廠決策制定與基礎(chǔ)設(shè)施建設(shè),同時降低了在現(xiàn)實世界中測試所產(chǎn)生的成本和風險。
其實在工業(yè)制造走向物理AI的過程中,工業(yè)代理式AI與工業(yè)智能體概念已經(jīng)呼之欲出。在GTC上NVIDIA就提到過正在將AI智能體集成到Omniverse中,并展示了工業(yè)視覺AI智能體的應(yīng)用。
在工業(yè)智能化升級的轉(zhuǎn)折點上,AI智能體不再是被動的算法工具,而是被賦予了理解能力與協(xié)作能力的智能工作節(jié)點。從單個應(yīng)用節(jié)點來說,在場景感知與物理推理的基礎(chǔ)上,智能體能應(yīng)用到極其細分的工業(yè)應(yīng)用上,如上面提到的視覺應(yīng)用。從工業(yè)全局場景來看,智能體能夠聚合場景內(nèi)IT與OT信息并提供自主運營決策,這也是傳統(tǒng)工廠向AI工廠升級的可預(yù)見方向。
從代理式AI到物理AI,工業(yè)世界正在向軟硬共生軟件定義轉(zhuǎn)型,圍繞物理AI體系搭建的模型與平臺,為AI快速進入到工業(yè)應(yīng)用提供了一條路徑。
寫在最后
隨著物理AI與世界模型技術(shù)進一步迭代,有望打破物理世界與數(shù)字世界的最后壁壘。特別是在工業(yè)領(lǐng)域,二者融合正在讓每一臺工業(yè)設(shè)備都成為智能節(jié)點,讓每一條工廠產(chǎn)線都成為進化單元,最終構(gòu)建起自感知、自決策、自執(zhí)行、自優(yōu)化的下一代智能工業(yè)體系。