普林斯顿大学发布HELMET：全面评估长上下文语言模型

7 小时前·来源：Hugging Face Blog

长上下文语言模型AI评估自然语言处理普林斯顿大学HELMET

普林斯顿大学研究人员发布了HELMET基准，用于全面评估长上下文语言模型。该基准改进了现有评估方法的多样性、可控性和可靠性。研究评估了59个最新模型，发现前沿模型在复杂任务上仍有局限。

普林斯顿大学研究人员发布了HELMET基准，旨在全面评估长上下文语言模型。该基准改进了现有评估方法的多样性、可控性和可靠性。研究团队评估了59个最新长上下文语言模型，发现前沿模型在复杂任务上仍有局限。HELMET已被社区采用，例如微软的Phi-4和AI21的Jamba 1.6模型。研究结果将在ICLR 2025会议上展示。HELMET的代码和数据已在GitHub上开源，并提供了与HuggingFace的快速入门指南。

阅读原文

背景阅读

长上下文语言模型是自然语言处理领域的重要发展方向，能够处理更长的文本序列，如法律文档总结或即时任务学习。传统语言模型的上下文窗口通常限制在2K到8K标记，例如ChatGPT和Llama系列。近年来，模型开发者不断扩展上下文窗口，如GPT-4o、Claude-3和Gemini-1.5支持数百万标记的上下文。然而，随着上下文窗口的延长，现有自然语言基准如Scrolls不再适用，导致评估方法转向困惑度或合成任务如“大海捞针”，但这些方法往往不能反映真实世界性能。模型评估的碎片化也使得比较变得复杂。HELMET基准的发布旨在解决这些问题，提供更全面的评估框架，帮助研究者和开发者更好地理解和比较不同模型的能力。

普林斯顿大学发布HELMET：全面评估长上下文语言模型

背景阅读

相关阅读

Gemini 2.5 Pro 预览版发布，编程性能进一步提升

谷歌发布Gemini 2.5 Flash：首款全混合推理模型

Gemini 2.5 模型更新：引入 Deep Think 增强推理模式

评论 (0)