BigCodeArena:首个通过代码执行端到端评估AI代码生成的平台

1 天前·来源:Hugging Face Blog
BigCodeArenaAI代码生成代码评估大型语言模型编程平台

BigCodeArena是一个人类参与循环的平台,用于通过执行来评估代码生成模型。该平台允许用户提交编程任务,比较不同模型生成的代码,并实际运行代码以查看输出结果。BigCodeArena支持多种编程语言和框架,包括Python、JavaScript、React和Vue等。

BigCodeArena是首个通过代码执行来端到端评估代码生成模型的人类参与循环平台。该平台允许用户提交编程任务,比较不同模型生成的代码,并实际运行代码以查看输出结果。用户可以投票选择哪个模型产生了更好的结果,这些结果被组织成一个排行榜,显示社区评分最高的模型。BigCodeArena扩展了Chatbot Arena框架,专门为代码评估设计。每个模型生成的代码片段都会在隔离的沙盒环境中自动执行,支持Python、JavaScript、TypeScript、HTML、C、C++、Java、Go、Rust和Markdown等10种语言,以及React、Vue、Streamlit、Gradio、PyGame和Mermaid等8个执行环境。用户可以与生成的应用程序交互,例如点击按钮测试UI元素、玩游戏、编辑代码并重新运行以测试修改,以及查看图表和图形等视觉输出。BigCodeArena还支持多轮对话,允许用户细化需求、请求添加功能或修复错误。自2025年2月推出以来,BigCodeArena已收集了超过500名用户的14,000多次对话,并获得了4,700多个高质量偏好投票,比较了10个前沿大型语言模型。

背景阅读

AI代码生成是人工智能领域的一个重要应用,涉及使用大型语言模型(LLM)自动生成编程代码。评估AI生成的代码质量一直是一个挑战,因为传统基准测试(如HumanEval)仅使用预定义的测试用例,难以覆盖现实世界编程任务的复杂性。人类评估平台虽然存在,但对于代码评估来说,阅读源代码并模拟执行是认知负担重且容易出错的,特别是对于长程序或复杂UI应用。BigCodeArena的推出旨在解决这一问题,通过提供执行反馈来帮助人类更可靠地判断代码质量。该平台基于Chatbot Arena框架,后者是用于评估聊天机器人的平台,但BigCodeArena专注于代码生成,增加了实时执行、多语言支持和交互测试等功能。在AI代码生成领域,其他相关工具包括GitHub Copilot、Amazon CodeWhisperer和Google的Codey,但BigCodeArena是首个专注于通过社区投票和代码执行进行端到端评估的平台。

评论 (0)

登录后参与评论

加载评论中...