NeoBeta - AI 科技资讯

英伟达于2026年1月5日发布了Cosmos Reason 2，这是物理AI领域开源推理视觉语言模型的最新进展。Cosmos Reason 2在准确性上超越了前代版本，并在Physical AI Bench和Physical Reasoning排行榜上排名第一，成为视觉理解领域的顶级开源模型。

Cosmos Reason 2是一个先进的推理视觉语言模型，旨在使机器人和AI代理能够像人类一样在物理世界中观察、理解、规划和行动。它利用常识、物理知识和先验知识来识别物体在时空中的运动，以处理复杂任务、适应新情况并逐步解决问题。

该模型的关键特性包括改进的时空理解和时间戳精度，支持从边缘到云的灵活部署，提供2B和8B参数模型大小。它还扩展了空间理解和视觉感知能力，包括2D/3D点定位、边界框坐标、轨迹数据和OCR支持。输入令牌从Cosmos Reason 1的16K提升到256K，增强了长上下文理解能力。

Cosmos Reason 2适用于多种用例，如视频分析AI代理，可以从大量视频数据中提取有价值见解以优化流程。例如，它支持OCR、2D/3D点定位和标记理解。Salesforce正在使用Cosmos Reason作为VLM，通过分析Cobalt机器人捕获的视频片段来改变工作场所安全和合规性。

另一个用例是数据标注和批判，使开发者能够自动化高质量标注和批判大规模多样化训练数据集。Cosmos Reason为真实或合成生成的训练视频提供时间戳和详细描述。Uber正在探索使用Cosmos Reason 2为自动驾驶车辆训练数据提供准确、可搜索的视频字幕，以高效识别关键驾驶场景。

背景阅读

视觉语言模型是人工智能领域的一个重要分支，结合了计算机视觉和自然语言处理技术，使AI能够理解和生成与图像或视频相关的文本。近年来，随着深度学习的发展，VLM在物体识别、图像描述等任务上取得了显著进步，但在复杂推理和物理世界交互方面仍面临挑战。物理AI旨在将AI能力扩展到现实环境，要求模型具备常识推理、时空理解和适应能力。英伟达的Cosmos系列模型专注于这一方向，通过开源方式推动物理AI的发展。Cosmos Reason 2的发布标志着在提升AI代理的推理能力和实际应用方面迈出了重要一步，特别是在机器人、自动驾驶和视频分析等领域。

英伟达发布Cosmos Reason 2，为物理AI带来高级推理能力

背景阅读

相关阅读

英伟达在CES发布Rubin平台与开放模型，推动AI多领域应用

Artificial Analysis 全面改革 AI 智能指数，用真实世界测试取代传统基准

NVIDIA RTX 加速 PC 端 4K AI 视频生成，LTX-2 与 ComfyUI 升级

评论 (0)