DeepMind发布新论文《技术AGI安全与安全方法》,概述了在开发通用人工智能(AGI)过程中的安全风险领域。论文详细探讨了四个主要风险领域:滥用、错位、事故和结构性风险,特别关注滥用和错位。DeepMind表示,正在采取系统全面的方法应对AGI安全挑战,包括识别和限制危险能力的访问。公司强调,随着AGI可能在几年内实现,主动规划、准备和行业合作至关重要。DeepMind此前在《AGI级别框架》论文中介绍了AGI分类方法,新论文旨在为行业对话提供起点,确保AGI安全负责任地发展。
DeepMind发布新论文《技术AGI安全与安全方法》,概述AGI安全风险领域。论文聚焦滥用、错位、事故和结构性风险,强调主动规划与行业合作。DeepMind探索前沿AGI技术,旨在负责任地开发通用人工智能。
DeepMind发布新论文《技术AGI安全与安全方法》,概述了在开发通用人工智能(AGI)过程中的安全风险领域。论文详细探讨了四个主要风险领域:滥用、错位、事故和结构性风险,特别关注滥用和错位。DeepMind表示,正在采取系统全面的方法应对AGI安全挑战,包括识别和限制危险能力的访问。公司强调,随着AGI可能在几年内实现,主动规划、准备和行业合作至关重要。DeepMind此前在《AGI级别框架》论文中介绍了AGI分类方法,新论文旨在为行业对话提供起点,确保AGI安全负责任地发展。
通用人工智能(AGI)指在大多数认知任务上至少与人类能力相当的AI系统,被视为AI发展的前沿目标。近年来,随着大型语言模型和代理能力的进步,AGI的讨论日益增多,但伴随而来的是对安全、伦理和监管的担忧。DeepMind作为Google旗下的AI研究实验室,长期致力于AGI研究,此前已发布多篇相关论文,如《AGI级别框架》,旨在为AGI能力分类和风险评估提供标准。行业普遍认为,AGI可能带来革命性应用,如医疗诊断、教育个性化,但也存在滥用、错位等风险,需要全球协作确保其安全发展。
Meta 发布了 Llama Guard 4,这是一个 120 亿参数的多模态安全模型。该模型旨在检测图像和文本中的不当内容,支持多语言输入。同时发布的还有两个新的 Llama Prompt Guard 2 模型,专注于检测提示注入和越狱攻击。
谷歌推出了Gemini 2.5 Flash模型,这是其首款全混合推理模型。该模型允许开发者根据需要开启或关闭推理功能。这一发布旨在为开发者提供更灵活的AI工具选择。
Protect AI 与 Hugging Face 自 2024 年 10 月起合作,使用 Guardian 技术扫描机器学习模型安全。截至 2025 年 4 月 1 日,已扫描 447 万个模型版本,识别出 35.2 万个安全问题。合作期间,Protect AI 推出了四个新的威胁检测模块,增强了对模型漏洞的检测能力。
登录后参与评论