英伟达发布印度合成数据集Nemotron-Personas-India

1 天前·来源：Hugging Face Blog

英伟达合成数据AI数据集印度AI多语言AI

英伟达发布了首个面向印度的开源合成数据集Nemotron-Personas-India。该数据集基于真实人口统计和文化分布，包含2100万个人物角色和多语言支持。它旨在为印度AI系统提供隐私保护的数据基础，支持从聊天机器人到专业助手等应用。

英伟达发布了Nemotron-Personas-India，这是首个面向印度的开源合成数据集，基于真实世界的人口、地理和文化分布。该数据集采用CC BY 4.0许可，为反映印度社会的AI系统提供了隐私保护且符合法规的数据基础，无需依赖敏感个人数据。数据集包含2100万个人物角色，支持英语和印地语，涵盖印度所有36个州和640个地区。它使用NeMo Data Designer构建，可与Nemotron模型和其他开源LLM无缝集成，便于针对印度用例微调AI系统。

阅读原文

背景阅读

合成数据生成是AI领域的关键技术，旨在通过算法创建模拟真实数据分布的虚拟数据，以解决数据稀缺、隐私和偏见问题。在印度，AI发展面临多语言、多脚本环境的挑战，现有开放数据集多反映西方规范和英语语境，导致数据鸿沟。英伟达此前已发布美国和日本的人物角色数据集，作为其主权AI计划的一部分，旨在支持各国开发本土化AI系统。NeMo Data Designer是英伟达的企业级合成数据生成微服务，用于高效创建大规模、高质量的数据集。印度拥有超过7亿互联网用户和快速增长的开发者生态系统，被视为全球最大的AI机遇之一，但缺乏本地化数据限制了AI应用。此数据集的发布旨在填补这一空白，促进印度AI生态系统的全面发展。

英伟达发布印度合成数据集Nemotron-Personas-India

背景阅读

相关阅读

英伟达利用仿真技术提升AI芯片HPC性能以对抗AMD

Signal 联合创始人推出注重隐私的 AI 助手 Confer

VaultGemma：全球最强大的差分隐私大语言模型

评论 (0)