英伟达发布Cosmos Reason 2,为物理AI带来高级推理能力

3 天前·来源:Hugging Face Blog
英伟达Cosmos Reason 2视觉语言模型物理AI推理AI

英伟达发布了Cosmos Reason 2,这是一个开源的推理视觉语言模型,专为物理AI设计。该模型在物理AI基准测试中排名第一,支持256K输入令牌和多种视觉感知能力。它适用于视频分析和数据标注等用例,帮助AI代理在物理世界中执行复杂任务。

英伟达于2026年1月5日发布了Cosmos Reason 2,这是物理AI领域开源推理视觉语言模型的最新进展。Cosmos Reason 2在准确性上超越了前代版本,并在Physical AI Bench和Physical Reasoning排行榜上排名第一,成为视觉理解领域的顶级开源模型。

Cosmos Reason 2是一个先进的推理视觉语言模型,旨在使机器人和AI代理能够像人类一样在物理世界中观察、理解、规划和行动。它利用常识、物理知识和先验知识来识别物体在时空中的运动,以处理复杂任务、适应新情况并逐步解决问题。

该模型的关键特性包括改进的时空理解和时间戳精度,支持从边缘到云的灵活部署,提供2B和8B参数模型大小。它还扩展了空间理解和视觉感知能力,包括2D/3D点定位、边界框坐标、轨迹数据和OCR支持。输入令牌从Cosmos Reason 1的16K提升到256K,增强了长上下文理解能力。

Cosmos Reason 2适用于多种用例,如视频分析AI代理,可以从大量视频数据中提取有价值见解以优化流程。例如,它支持OCR、2D/3D点定位和标记理解。Salesforce正在使用Cosmos Reason作为VLM,通过分析Cobalt机器人捕获的视频片段来改变工作场所安全和合规性。

另一个用例是数据标注和批判,使开发者能够自动化高质量标注和批判大规模多样化训练数据集。Cosmos Reason为真实或合成生成的训练视频提供时间戳和详细描述。Uber正在探索使用Cosmos Reason 2为自动驾驶车辆训练数据提供准确、可搜索的视频字幕,以高效识别关键驾驶场景。

背景阅读

视觉语言模型是人工智能领域的一个重要分支,结合了计算机视觉和自然语言处理技术,使AI能够理解和生成与图像或视频相关的文本。近年来,随着深度学习的发展,VLM在物体识别、图像描述等任务上取得了显著进步,但在复杂推理和物理世界交互方面仍面临挑战。物理AI旨在将AI能力扩展到现实环境,要求模型具备常识推理、时空理解和适应能力。英伟达的Cosmos系列模型专注于这一方向,通过开源方式推动物理AI的发展。Cosmos Reason 2的发布标志着在提升AI代理的推理能力和实际应用方面迈出了重要一步,特别是在机器人、自动驾驶和视频分析等领域。

评论 (0)

登录后参与评论

加载评论中...