DeepMind 发布前沿安全框架第三版,新增有害操纵风险评估

2 天前·来源:DeepMind Blog
DeepMindAI安全前沿安全框架风险评估有害操纵

DeepMind 发布了前沿安全框架的第三版更新,这是其识别和缓解先进 AI 模型严重风险的最全面方法。更新引入了针对有害操纵的关键能力级别,并扩展了框架以应对未来 AI 模型可能干扰操作者控制能力的场景。该框架旨在根据风险严重程度进行比例管理,并详细描述了风险评估流程。

DeepMind 发布了前沿安全框架的第三版更新,这是其识别和缓解先进 AI 模型严重风险的最全面方法。该更新基于与行业、学术界和政府专家的持续合作,并整合了先前版本实施经验和前沿 AI 安全最佳实践的教训。

更新引入了针对有害操纵的关键能力级别,重点关注具有强大操纵能力的 AI 模型,这些模型可能被滥用于在识别的高风险情境中系统性地改变信念和行为,导致大规模额外伤害。这一新增基于 DeepMind 在识别和评估生成式 AI 驱动操纵机制方面的研究。

框架还扩展了以应对未来潜在场景,即未对齐的 AI 模型可能干扰操作者指导、修改或关闭其操作的能力。此外,更新提供了针对可能加速 AI 研发至潜在不稳定水平的模型的机器学习研发关键能力级别的进一步协议。

为应对关键能力级别带来的风险,DeepMind 在达到相关级别时进行外部发布前的安全案例审查,包括详细分析以展示风险如何降至可管理水平。对于高级机器学习研发关键能力级别,大规模内部部署也可能构成风险,因此该方法现已扩展至包括此类部署。

框架旨在根据风险严重程度进行比例管理,并优化了关键能力级别定义以识别需要最严格治理和缓解策略的关键威胁。DeepMind 在达到特定阈值前和作为标准模型开发方法的一部分,持续应用安全和安全缓解措施。

更新还详细描述了风险评估流程,包括系统风险识别、模型能力全面分析和风险可接受性明确确定。

背景阅读

前沿安全框架是 DeepMind 为应对先进 AI 模型潜在风险而制定的治理工具,旨在随着 AI 能力向通用人工智能发展,采取科学和基于证据的方法跟踪和领先于风险。该框架最初于 2022 年推出,旨在识别和缓解如自主复制、欺骗性行为和武器化等严重风险。随着 AI 技术的快速进步,特别是生成式 AI 的广泛应用,操纵风险成为新兴关注点,涉及模型可能被用于影响人类信念和行为。DeepMind 通过关键能力级别量化风险,这些级别基于模型在特定任务上的表现,如代码生成或推理能力,以触发更严格的安全评估。此次更新反映了 AI 安全领域的演进,强调从理论框架转向可操作协议,以应对实际部署中的挑战,如模型对齐和滥用预防。行业趋势显示,AI 公司正加强安全治理,以应对监管压力和公众关切,确保技术负责任发展。

评论 (0)

登录后参与评论

加载评论中...