英伟达于2026年1月5日发布了Cosmos Reason 2,这是物理AI领域开源推理视觉语言模型的最新进展。Cosmos Reason 2在准确性上超越了前代版本,并在Physical AI Bench和Physical Reasoning排行榜上排名第一,成为视觉理解领域的顶级开源模型。
Cosmos Reason 2是一个先进的推理视觉语言模型,旨在使机器人和AI代理能够像人类一样在物理世界中观察、理解、规划和行动。它利用常识、物理知识和先验知识来识别物体在时空中的运动,以处理复杂任务、适应新情况并逐步解决问题。
该模型的关键特性包括改进的时空理解和时间戳精度,支持从边缘到云的灵活部署,提供2B和8B参数模型大小。它还扩展了空间理解和视觉感知能力,包括2D/3D点定位、边界框坐标、轨迹数据和OCR支持。输入令牌从Cosmos Reason 1的16K提升到256K,增强了长上下文理解能力。
Cosmos Reason 2适用于多种用例,如视频分析AI代理,可以从大量视频数据中提取有价值见解以优化流程。例如,它支持OCR、2D/3D点定位和标记理解。Salesforce正在使用Cosmos Reason作为VLM,通过分析Cobalt机器人捕获的视频片段来改变工作场所安全和合规性。
另一个用例是数据标注和批判,使开发者能够自动化高质量标注和批判大规模多样化训练数据集。Cosmos Reason为真实或合成生成的训练视频提供时间戳和详细描述。Uber正在探索使用Cosmos Reason 2为自动驾驶车辆训练数据提供准确、可搜索的视频字幕,以高效识别关键驾驶场景。