rag

技术7 篇资讯

2026年1月20日

阿拉伯语AI排行榜更新：引入指令遵循评估并升级AraGen基准

Inception与MBZUAI合作推出阿拉伯语AI排行榜空间，整合了AraGen-03-25和阿拉伯语指令遵循评估。AraGen基准更新至03-25版本，数据集扩展至340个问答对，涵盖问答、推理、安全和语法分析。阿拉伯语指令遵循排行榜基于首个公开的阿拉伯语IFEval基准，旨在评估模型遵循指令的能力。

2026年1月19日

谷歌发布EmbeddingGemma，高效多语言嵌入模型

谷歌发布了EmbeddingGemma，这是一款高效的多语言嵌入模型。该模型拥有308M参数和2K上下文窗口，支持超过100种语言。在MTEB基准测试中，它是500M参数以下排名最高的纯文本多语言嵌入模型。

Hugging Face 推出检索评估新标准 RTEB

Hugging Face 发布了检索嵌入基准 RTEB 的测试版，旨在可靠评估嵌入模型的检索准确性。RTEB 采用开放和私有数据集的混合策略，以解决现有基准在衡量模型泛化能力方面的不足。该基准专注于为现实应用提供公平、透明的评估标准。

2026年1月17日

英伟达发布新开源模型、数据与工具，推动各行业AI发展

英伟达今日发布新开源模型、数据与工具，旨在加速各行业AI应用。这些模型涵盖代理AI、物理AI、自动驾驶、机器人和生物医学等领域。英伟达还贡献了开源训练框架和大量多模态数据，包括10万亿语言训练令牌和500,000个机器人轨迹。

2026年1月16日

MongoDB发布Voyage 4嵌入模型，提升企业AI检索质量

MongoDB发布了四款新的嵌入和重排模型，包括Voyage 4系列。这些模型旨在解决AI系统在生产环境中检索质量下降的问题。Voyage-4-nano是该公司首款开源权重模型，所有模型可通过API和Atlas平台使用。

2026年1月14日

DeepSeek提出条件记忆机制，解决LLM静态查询的GPU资源浪费问题

DeepSeek发布条件记忆研究，解决大语言模型静态信息检索的GPU计算浪费问题。该研究引入Engram模块，将静态模式检索与动态推理分离。实验显示，在复杂推理基准测试中准确率从70%提升至74%。

2026年1月13日

Databricks推出Instructed Retriever，企业元数据提升检索性能70%

Databricks发布了Instructed Retriever新架构，专为复杂企业问答任务设计。该架构通过整合用户指令和元数据，改进传统RAG检索流程。在指令密集型任务中，性能提升高达70%。