普林斯顿大学研究人员发布了HELMET基准,旨在全面评估长上下文语言模型。该基准改进了现有评估方法的多样性、可控性和可靠性。研究团队评估了59个最新长上下文语言模型,发现前沿模型在复杂任务上仍有局限。HELMET已被社区采用,例如微软的Phi-4和AI21的Jamba 1.6模型。研究结果将在ICLR 2025会议上展示。HELMET的代码和数据已在GitHub上开源,并提供了与HuggingFace的快速入门指南。
普林斯顿大学研究人员发布了HELMET基准,用于全面评估长上下文语言模型。该基准改进了现有评估方法的多样性、可控性和可靠性。研究评估了59个最新模型,发现前沿模型在复杂任务上仍有局限。
普林斯顿大学研究人员发布了HELMET基准,旨在全面评估长上下文语言模型。该基准改进了现有评估方法的多样性、可控性和可靠性。研究团队评估了59个最新长上下文语言模型,发现前沿模型在复杂任务上仍有局限。HELMET已被社区采用,例如微软的Phi-4和AI21的Jamba 1.6模型。研究结果将在ICLR 2025会议上展示。HELMET的代码和数据已在GitHub上开源,并提供了与HuggingFace的快速入门指南。
长上下文语言模型是自然语言处理领域的重要发展方向,能够处理更长的文本序列,如法律文档总结或即时任务学习。传统语言模型的上下文窗口通常限制在2K到8K标记,例如ChatGPT和Llama系列。近年来,模型开发者不断扩展上下文窗口,如GPT-4o、Claude-3和Gemini-1.5支持数百万标记的上下文。然而,随着上下文窗口的延长,现有自然语言基准如Scrolls不再适用,导致评估方法转向困惑度或合成任务如“大海捞针”,但这些方法往往不能反映真实世界性能。模型评估的碎片化也使得比较变得复杂。HELMET基准的发布旨在解决这些问题,提供更全面的评估框架,帮助研究者和开发者更好地理解和比较不同模型的能力。
Google 提前发布了 Gemini 2.5 Pro 预览版,旨在让开发者更早体验。该版本在编程性能方面有所改进,基于开发者使用反馈进行优化。
谷歌推出了Gemini 2.5 Flash模型,这是其首款全混合推理模型。该模型允许开发者根据需要开启或关闭推理功能。这一发布旨在为开发者提供更灵活的AI工具选择。
Google 宣布 Gemini 2.5 Pro 模型继续受开发者青睐,成为最佳编程模型。Gemini 2.5 Flash 模型通过新更新得到进一步改进。模型新增 Deep Think 功能,这是一个针对 2.5 Pro 的实验性增强推理模式。
登录后参与评论