英伟达发布了Nemotron-Personas-India,这是首个面向印度的开源合成数据集,基于真实世界的人口、地理和文化分布。该数据集采用CC BY 4.0许可,为反映印度社会的AI系统提供了隐私保护且符合法规的数据基础,无需依赖敏感个人数据。数据集包含2100万个人物角色,支持英语和印地语,涵盖印度所有36个州和640个地区。它使用NeMo Data Designer构建,可与Nemotron模型和其他开源LLM无缝集成,便于针对印度用例微调AI系统。
英伟达发布了首个面向印度的开源合成数据集Nemotron-Personas-India。该数据集基于真实人口统计和文化分布,包含2100万个人物角色和多语言支持。它旨在为印度AI系统提供隐私保护的数据基础,支持从聊天机器人到专业助手等应用。
英伟达发布了Nemotron-Personas-India,这是首个面向印度的开源合成数据集,基于真实世界的人口、地理和文化分布。该数据集采用CC BY 4.0许可,为反映印度社会的AI系统提供了隐私保护且符合法规的数据基础,无需依赖敏感个人数据。数据集包含2100万个人物角色,支持英语和印地语,涵盖印度所有36个州和640个地区。它使用NeMo Data Designer构建,可与Nemotron模型和其他开源LLM无缝集成,便于针对印度用例微调AI系统。
合成数据生成是AI领域的关键技术,旨在通过算法创建模拟真实数据分布的虚拟数据,以解决数据稀缺、隐私和偏见问题。在印度,AI发展面临多语言、多脚本环境的挑战,现有开放数据集多反映西方规范和英语语境,导致数据鸿沟。英伟达此前已发布美国和日本的人物角色数据集,作为其主权AI计划的一部分,旨在支持各国开发本土化AI系统。NeMo Data Designer是英伟达的企业级合成数据生成微服务,用于高效创建大规模、高质量的数据集。印度拥有超过7亿互联网用户和快速增长的开发者生态系统,被视为全球最大的AI机遇之一,但缺乏本地化数据限制了AI应用。此数据集的发布旨在填补这一空白,促进印度AI生态系统的全面发展。
英伟达在Rubin GPU中采用仿真技术提升双精度浮点计算性能,以增强高性能计算和科学计算应用。该技术通过CUDA库实现,可将FP64矩阵性能提升至200 teraFLOPS,是Blackwell加速器的4.4倍。AMD研究人员认为仿真技术在某些基准测试中表现良好,但在实际物理科学模拟中效果尚不明确,仍需进一步研究。
Signal 联合创始人 Moxie Marlinspike 于 2023 年 12 月推出了 AI 服务 Confer。Confer 旨在提供类似 ChatGPT 的体验,但通过加密和可信执行环境确保用户隐私。该服务免费版每天限制 20 条消息,付费版每月 35 美元提供无限访问。
VaultGemma 是一款从头开始训练的差分隐私大语言模型。该模型在隐私保护方面表现出色,是目前全球最强大的同类模型。VaultGemma 的发布旨在推动 AI 在隐私敏感领域的应用。
登录后参与评论