松岛枫作品 英伟达“天下基础模子”降生,引爆物理AI转变!75页阐述出炉,GitHub狂飙2k星
发布日期:2025-01-09 17:52 点击次数:183
【新智元导读】昨天,英伟达官宣了首个「天下基础模子」Cosmos。从此,物理AI数据不够的问题将有望处置!而就在刚刚,75页时代阐生气热出炉松岛枫作品,GitHub神气更是迫害了2k星。
CES大会上,老黄称,「AI下一个前沿就是物理AI」。
为此,英伟达重磅官宣了天下基础模子斥地平台——Cosmos,其模子基于在200万小时视频上完成锻真金不怕火。
它一共包含了四大功能模块:扩散模子、自考究模子、视频分词器,以及视频处理与剪辑经过。
用英伟达高等科学家Jim Fan的话来总结:
两种体式:扩散模子(生成连气儿的token);自考究模子(生成破碎的token)
两种生成花样: 文本->视频;文本+视频->视频
Cosmos降生就是为了调停物理AI数据不够的问题!现如今,斥地者们不错顺利生成合成数据,将其用于自动驾驶和机器东谈主推敲中。
它一共包含了三种规格的模子:Nano、Super、Ultra。
与VideoLDM基准比拟,Cosmos天下模子在几何准确性方面施展更优,并且在视觉一致性方面连接高出VLDM,姿态臆想告成率最高飙升14倍。
GitHub神气仅开源不到一天的时分,星标飙升至2k。
与此同期,对于Cosmos 75页最详备的时代阐述也发布了。
开源神气:https://github.com/NVIDIA/Cosmos
论文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
Cosmos,定制天下模子
成人游戏本文先容了Cosmos天下基础模子平台,旨在匡助斥地者构建定制化的天下模子。
在预锻真金不怕火中,推敲者诈欺大界限的视频数据集,让模子斗争到各样化的视觉数据,锻真金不怕火一个通用型模子。预锻真金不怕火的Cosmos天下基础模子(WFM)概况生成高质料、具有一致性的3D视频。
在后锻真金不怕火中,推敲者从特定环境采集数据集,对预锻真金不怕火模子进行微调,从而得到适用于特定办法的专用WFM。
预锻真金不怕火的天下基础模子(WFM)是通用的天下模子,通过大界限、各样化的视频数据集进行锻真金不怕火。后锻真金不怕火的数据集是从办法环境中采集的教导-视频对。教导不错是动作指示、轨迹、评释等体式。
预锻真金不怕火和后锻真金不怕火相结整个谋为构建物理AI系统提供了一种高效的步伐。由于预锻真金不怕火WFM提供了邃密的基础,后锻真金不怕火的数据集不错相对较小。
天下基础模子平台
设𝑥_0:𝑡为从时分0到𝑡的信得过天下视觉不雅测序列。
设𝑐为对天下的扰动。如图3所示,WFM是一种模子𝒲,它凭证昔日的不雅测𝑥_0:𝑡和刻下扰动𝑐𝑡,瞻望时分𝑡+1的改日不雅测值
。
在本案例中,𝑥_0:𝑡是一个RGB视频(即彩色图像视频),而𝑐𝑡是不错遴荐多种体式的扰动。举例,物理AI的动作、当场扰动或描述扰动的文本等。
天下基础模子(WFM)𝒲是一种模子,它凭证昔日的不雅测𝑥_0:𝑡和刻下扰动𝑐𝑡生成天下的改日情状𝑥_𝑡+1
视频剪辑
推敲者斥地了一条可膨胀的视频数据剪辑经过。
其中,每段视频被分割为无场景变化的颓落镜头。通过过滤才略定位高质料、动态且信息丰富的片断用于锻真金不怕火。
这些高质料镜头随后通过VLM(视觉言语模子)进行标注。接着履行语义去重,以构建一个各样但紧凑的数据集。
视频分词
推敲者斥地了一系列具有不同压缩比的视频分词器。这些分词器是因果性的(即刻下帧的token规画不依赖改日帧)。
这种因果性假想带来了多个克己。在锻真金不怕火方面,它使得聚合图像和视频锻真金不怕火成为可能,因为当输入为单张图像时,因果性视频分词器也不错当作图像分词器。
这对于视频模子诈欺图像数据集进行锻真金不怕火非常热切,因为图像数据集包含丰富的天下外不雅信息,且频繁愈加各样化。
在应用方面,因果性视频分词器更符合糊口在因果天下中的物理AI系统。
WFM预锻真金不怕火
推敲者探索了两种可膨胀的预锻真金不怕火天下基础模子的步伐——扩散模子和自考究模子。他们使用了Transformer架构,以竣事可膨胀性。
对于基于扩散的WFM,预锻真金不怕火包括两个才略:
1. 文本到天下生成预锻真金不怕火(Text2World generation pre-training)
2. 视频到天下生成预锻真金不怕火(Video2World generation pre-training)
具体来说,他们锻真金不怕火了模子凭证输入的文本教导词生成一个视频天下。然后对其进行微调,使其概况凭证昔日的视频和输入的文本教导词生成改日的视频天下,这被称为视频到天下生成任务(Video2World generation task)。
对于基于自考究的 WFM,预锻真金不怕火包括两个才略:
1. 基本的下一个token生成(vanilla next token generation)
2. 文本要求的视频到天下生成(text-conditioned Video2World generation)
他们率先锻真金不怕火模子凭证昔日的视频输入生成改日的视频天下(前瞻生成)。然后对其进行微调,使其概况凭证昔日的视频和文本教导词生成改日的视频天下。
视频到天下生成模子是一种基于刻下不雅测和教导词瞻望改日的预锻真金不怕火天下模子。
对于扩散模子和自考究模子的WFM,推敲者构建了一系列具有不同容量的模子,并推敲了其在各样下流应用中的有用性。
他们进一步微调了预锻真金不怕火的扩散WFM,以斥地一个扩散解码器来增强自考究模子的生成赶走。
为了更好地限度WFM,他们还基于LLM构建了一个教导词上采样器。
WFM后锻真金不怕火
团队展示了预锻真金不怕火WFM在多个下流物理AI应用中的应用。
他们将预锻真金不怕火的WFM微调为以相机姿态当作输入教导词,这让他们概况在创建的天下中摆脱导航。此外他们还展示了如何微调预锻真金不怕火的WFM,以用于东谈主形机器东谈主和自动驾驶任务。
安全机制
为了安全使用斥地的天下基础模子,推敲者斥地了一个安全机制,用于按捺无益的输入和输出。
Cosmos天下基础模子平台由几个主要组件构成:视频剪辑器、视频分词器、预锻真金不怕火的天下基础模子、天下基础模子后锻真金不怕火样本,以及安全机制
他们肯定,WFM对物理AI构建者有多种用途,包括(但不限于):
计谋评估
与其通过在信得过天下中运行物理AI系统来评估锻真金不怕火后的计谋,不如让物理AI系统的数字副本与天下基础模子交互。基于WFM的评估愈加经济高效且节俭时分。
通过WFM,构建者不错在未见过的环境中部署计谋模子,这些环境在现实中可能无法获取。WFM匡助斥地者快速摒除分歧格的计谋,聚焦于后劲更大的计谋。
计谋启动化
计谋模子凭证刻下不雅测和给定任务,生成物理AI系统需要履行的动作。建模天下动态花样的高质料WFM,不错当作计谋模子的邃密启动化。
这有助于处置物理AI中的数据稀缺问题。
计谋锻真金不怕火
在强化学习确立中,WFM与奖励模子配对,不错当作物理天下的代理,为计谋模子提供反映。智能体通过与WFM的交互,安谧掌执处置任务的才调。
野心或模子瞻望限度
WFM可用于模拟物理AI系统在履行不同动作序列后,可能出现的改日情状,然后通过资本/奖励模块量化这些不同动作序列的施展。
物理AI不错凭证合座模拟赶走履行最好动作序列(如在野心算法中),或以递归视界的容貌履行(如在模子瞻望限度中)。
天下模子的准确性决定了这些有筹商计谋的性能上限。
合成数据生成
WFM不仅可用于生成用于锻真金不怕火的合成数据,还不错微调为基于渲染元数据(如深度图或语义图)进行要求生成。要求 WFM可用于Sim2Rea 场景。
数据剪辑
推敲者提议了一种视频处理经过,用于为分词器和WFM生成高质料锻真金不怕火数据集。
如下图所示,经过包括5个主要才略:1)分割,2)过滤,3)标注,4)去重,以及5)分片。
这些才略均经过特意的优化,从而扶直数据质料并抖擞模子锻真金不怕火的需求。
预锻真金不怕火数据集
推敲者积贮了梗概2000万小时的原始视频,分辨率从720p到4k不等,并为预锻真金不怕火生成了梗概10^8个视频片断,为微调生成了梗概10^7个视频片断。
其中,涵盖了各样物理AI应用,并将锻真金不怕火视频数据集差异为以下类别:
驾驶(11%)
手部动作和物体操作(16%)
东谈主体动作和活动(10%)
空间意志和导航(16%)
第一东谈主称视角(8%)
当然动态(20%)
动态相机畅通(8%)
合成渲染(4%)
其他(7%)
Tokenizer(分词器)
分词器是大模子的基础构建模块,它通过学习瓶颈式的潜空间,以无监督容貌将原始数据转机为更高效的线路体式。
下图以线路图体式展示了分词锻真金不怕火经过,其办法是锻真金不怕火编码器妥协码器,使瓶颈式token线路概况最猛进程保留输入的视觉信息。
视频分词经过:输入视频被编码为token,解码器随后从这些token中重建输入视频。分词器的锻真金不怕火办法是学习编码器妥协码器,尽可能保留token中的视觉信息
连气儿分词器将视觉数据编码为连气儿的潜镶嵌,并用于通过从连气儿分散中采样生成数据的模子。
破碎分词器将视觉数据编码为破碎的潜代码,并将其映射为量化索引。这种破碎线路对于使用交叉熵蚀本锻真金不怕火的模子(如GPT)是必要的。
分词器的告成很猛进程上取决于其在不挫伤后续视觉重建质料的情况下提供高压缩率的才调。
在此,推敲者提议了一套视觉分词器——包括用于图像和视频的连气儿和破碎分词器。它们不错提供不凡的视觉重建质料和推理遵循,并维持多种压缩率,以安妥不同的规画扫尾和应用需求。
连气儿和破碎分词器的可视化:(左)连气儿潜镶嵌,镶嵌大小为C;(右)量化索引,每种表情代表一个破碎的潜编码
具体来说,Cosmos分词器遴荐轻量化且规画高效的架构,并衔尾时分因果机制。
通过使用因果时分卷积层和因果时分正经力层,不错保留视频帧的当然时分律例,从而通过单一结伴的相聚架构竣事图像和视频的无缝分词。
通过在高分辨率图像和永劫视频上顺利锻真金不怕火分词器,不错不受类别或宽高比的扫尾,包括1:1、3:4、4:3、9:16和16:9等。
在推理阶段,它对时分长度不解锐,概况处理超出锻真金不怕火时时间长度的视频分词。
不同视觉分词器偏执功能的比较
评估赶走标明,Cosmos分词器在性能上权贵高出了现存分词器——不仅质料更高,并且运行速率最高可快12 倍。
此外,它还不错在单块NVIDIA A100 GPU(80GB显存)上一次性编码长达8秒的1080p视频和10秒的720p视频,且不会破费内存。
连气儿分词器(左)和破碎分词器(右)在时空压缩率(对数刻度)与重建质料(PSNR)上的比较。每个实心点线路一种分词器配置,展示了压缩率与质料之间的量度相干
天下基础模子预锻真金不怕火
推敲者诈欺两种不同的深度学习范式——扩散模子和自考究模子——来构建两类WFM。
本文中整个WFM模子齐是在一个包含10,000个NVIDIA H100 GPU的集群上锻真金不怕火的,锻真金不怕火周期为三个月。
基于扩散模子和自考究模子的天下基础模子(WFM)
自考究天下基础模子生成的视频
推敲者展示了如何将Cosmos WFM进行微调,以维持多种场景,包括3D视觉导航,让不同的机器东谈主履行任务,以及自动驾驶。
天下基础模子后锻真金不怕火
用于机器东谈主的WFM后锻真金不怕火
天下模子具有维持机器东谈主操作的强劲后劲,这里展示了两个任务:(1)基于指示的视频瞻望,(2)基于动作的下一帧瞻望。
对于基于指示的视频瞻望,输入是机器东谈主刻下视频帧以及文本指示,输出是瞻望的视频。基于动作的下一帧瞻望,输入是机器东谈主确刻下视频帧以及刻下帧与下一帧之间的动作向量,输出是瞻望的下一帧,展示机器东谈主履行指定动作的赶走。
对于基于指示的视频瞻望,推敲者创建了一个名为Cosmos-1X的数据集。该数据集包含梗概200小时的由EVE(1x.Tech公司的一款东谈主形机器东谈主)捕捉的第一视角视频,包括导航、折叠衣物、清洁桌面、拾取物体等。
对于基于动作的下一帧生成,团队使用了一个名为Bridge的公开数据集。Bridge数据集包括梗概20,000个第三东谈主称视角的视频,展示了机器东谈主手臂在厨房环境中履行不同任务的过程。
用于自动驾驶的后锻真金不怕火
推敲者展示了如何对预锻真金不怕火的WFM进行微调,从而创建一个适用于自动驾驶任务的多视角天下模子。
推敲者计议了一个里面数据集,称为信得过驾驶场景(RDS)数据集。该数据集包含梗概360万个20秒的环顾视频片断,这些视频是通过英伟达的里面驾驶平台录制的。
推敲者使用RDS数据集对Cosmos-1.0-Diffusion-7B-Text2World进行微调,打造出一个多视角的天下模子。
Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond模子赶走
一些演示
从GitHub主页中,咱们概况看到Cosmos家眷的整个模子系列:扩散模子和自考究模子各4个。
扩散模子7B和14B(Text2World)凭证团结教导,生成后果如下:
扩散模子7B和14B(Video2World)凭证团结教导,生成后果如下:
自考究模子4B和12B生成后果如下:
自考究模子5B和13B凭证团结教导,生成后果如下:
此外,后锻真金不怕火天下基础模子还能竣事「相机限度」,如下机器东谈主在车厂的生成视频中,通过挪动概况看到四周环境全貌。
教导:这段视频展示了一座先进的制造设施,其中多台机器东谈主手臂协同职责。这些机器东谈主配备了荒谬的抓取安装,正在中央平台上处理和拼装组件。环境干净且鱼贯而入,布景中不错看到各样机械和缔造。通盘机器东谈主系统高度自动化,体现了高技术的分娩经过。
更惊喜的是,Cosmos还能凭证教导,生成出各样机器东谈主在不同环境中的瞻望场景。比如,把书放在书架上,煮咖啡、分拣物品......
也就是说,以后机器东谈主的模拟锻真金不怕火,顺利在物理天下就能实操了!
还有针对自动驾驶场景,Cosmos进行的多视图视频生成。
要知谈,以下这些场景是十足不存在的。
有网友捉弄谈,咱们一定糊口在模拟天下中,99%情况下是由英伟达撑着这个系统。
物理AI,不成莫得WFM
为什么说天下模子,对于物理AI的竣事非常关节?
老黄在大会上,从大模子职责旨趣天真地阐释了天下模子的热切性——
大模子频繁是凭证教导一次生成一个token,但也仅限推行token的输出。若要竣事从「推行token」转向「动作token」的输出,言语模子早已无法抖擞。
咱们需要的是,一个概况相识物理天下的模子,简之WFM。
昨天,英伟达推敲副总Ming-Yu Liu在最新播客中相同线路,WFM是一种概况模拟物理天下的强劲神级相聚。
它不错从文本/图像输入数据,生成详备的视频,并通过将其确刻下情状(图像/视频)与动作(教导/限度信号)相衔尾来瞻望场景的演变。
WFM概况念念象好多不同的环境,并不错模拟改日,匡助物理AI斥地者作念出更好的有筹商。
另一方面,构建天下模子频繁需要巨额的数据集。
数据采集不仅耗时,资本也高,WFM便不错生成合成数据,从而增强锻真金不怕火的过程。
此外,物理测试风险宏大,比如一台价值数十万好意思元的机器东谈主原型的任何时弊齐可能带来首要蚀本。
有了WFM模拟的3D环境,推敲者就不错在受控环境中锻真金不怕火和测试物理AI系统。
物理模拟天下的一切,英伟达Cosmos齐能帮你生成出来。
假定你要测试一台机器东谈主,长传一个原视频,然后输入:
「以东谈主形机器东谈主的第一东谈主称视角拍摄在一个老旧工场中职责的场景。机器东谈主周围有好多工业机械缔造。地板是老旧的木质地板,破旧且具有丰富的纹理。录像机在距离大地2米的高度向右平移。像片作风要求传神」。
然后,一个机器东谈主在工场职责的臆造画面就出现了。
包括如下自动驾驶场,齐是由Cosmos十足生成。
不仅如斯,英伟达还将Cosoms与Omniverse搭配使用,虚实衔尾,让臆造天下的假想搬到现实天下锻真金不怕火。
一直以来,老黄齐在强调一个新办法「三台规画机」:一台是DGX用来锻真金不怕火AI,另一台AGX用来部署AI,临了一台就是Omniverse+Cosmos。
要是赓续前两者,咱们就需要一个数字孪生。
老黄以为,「改日,每一个工场齐罕有字孪生,你不错将Omniverse和Cosoms衔尾,生成一宽广改日场景」。
- 上一篇:白虎 porn 徐海东为何会离开他亲手创建的344旅?黄克诚的回忆录说了什么?
- 下一篇:没有了