英伟达发布印度合成数据集Nemotron-Personas-India

1 天前·来源:Hugging Face Blog
英伟达合成数据AI数据集印度AI多语言AI

英伟达发布了首个面向印度的开源合成数据集Nemotron-Personas-India。该数据集基于真实人口统计和文化分布,包含2100万个人物角色和多语言支持。它旨在为印度AI系统提供隐私保护的数据基础,支持从聊天机器人到专业助手等应用。

英伟达发布了Nemotron-Personas-India,这是首个面向印度的开源合成数据集,基于真实世界的人口、地理和文化分布。该数据集采用CC BY 4.0许可,为反映印度社会的AI系统提供了隐私保护且符合法规的数据基础,无需依赖敏感个人数据。数据集包含2100万个人物角色,支持英语和印地语,涵盖印度所有36个州和640个地区。它使用NeMo Data Designer构建,可与Nemotron模型和其他开源LLM无缝集成,便于针对印度用例微调AI系统。

背景阅读

合成数据生成是AI领域的关键技术,旨在通过算法创建模拟真实数据分布的虚拟数据,以解决数据稀缺、隐私和偏见问题。在印度,AI发展面临多语言、多脚本环境的挑战,现有开放数据集多反映西方规范和英语语境,导致数据鸿沟。英伟达此前已发布美国和日本的人物角色数据集,作为其主权AI计划的一部分,旨在支持各国开发本土化AI系统。NeMo Data Designer是英伟达的企业级合成数据生成微服务,用于高效创建大规模、高质量的数据集。印度拥有超过7亿互联网用户和快速增长的开发者生态系统,被视为全球最大的AI机遇之一,但缺乏本地化数据限制了AI应用。此数据集的发布旨在填补这一空白,促进印度AI生态系统的全面发展。

评论 (0)

登录后参与评论

加载评论中...