Inception与MBZUAI合作推出阿拉伯语AI排行榜空间,整合了AraGen-03-25和阿拉伯语指令遵循评估。AraGen基准更新至03-25版本,数据集扩展至340个问答对,涵盖问答、推理、安全和语法分析。阿拉伯语指令遵循排行榜基于首个公开的阿拉伯语IFEval基准,旨在评估模型遵循指令的能力。
谷歌发布了EmbeddingGemma,这是一款高效的多语言嵌入模型。该模型拥有308M参数和2K上下文窗口,支持超过100种语言。在MTEB基准测试中,它是500M参数以下排名最高的纯文本多语言嵌入模型。
Hugging Face 发布了检索嵌入基准 RTEB 的测试版,旨在可靠评估嵌入模型的检索准确性。RTEB 采用开放和私有数据集的混合策略,以解决现有基准在衡量模型泛化能力方面的不足。该基准专注于为现实应用提供公平、透明的评估标准。
英伟达今日发布新开源模型、数据与工具,旨在加速各行业AI应用。这些模型涵盖代理AI、物理AI、自动驾驶、机器人和生物医学等领域。英伟达还贡献了开源训练框架和大量多模态数据,包括10万亿语言训练令牌和500,000个机器人轨迹。
MongoDB发布了四款新的嵌入和重排模型,包括Voyage 4系列。这些模型旨在解决AI系统在生产环境中检索质量下降的问题。Voyage-4-nano是该公司首款开源权重模型,所有模型可通过API和Atlas平台使用。
DeepSeek发布条件记忆研究,解决大语言模型静态信息检索的GPU计算浪费问题。该研究引入Engram模块,将静态模式检索与动态推理分离。实验显示,在复杂推理基准测试中准确率从70%提升至74%。
Databricks发布了Instructed Retriever新架构,专为复杂企业问答任务设计。该架构通过整合用户指令和元数据,改进传统RAG检索流程。在指令密集型任务中,性能提升高达70%。