BigCodeArena是首个通过代码执行来端到端评估代码生成模型的人类参与循环平台。该平台允许用户提交编程任务,比较不同模型生成的代码,并实际运行代码以查看输出结果。用户可以投票选择哪个模型产生了更好的结果,这些结果被组织成一个排行榜,显示社区评分最高的模型。BigCodeArena扩展了Chatbot Arena框架,专门为代码评估设计。每个模型生成的代码片段都会在隔离的沙盒环境中自动执行,支持Python、JavaScript、TypeScript、HTML、C、C++、Java、Go、Rust和Markdown等10种语言,以及React、Vue、Streamlit、Gradio、PyGame和Mermaid等8个执行环境。用户可以与生成的应用程序交互,例如点击按钮测试UI元素、玩游戏、编辑代码并重新运行以测试修改,以及查看图表和图形等视觉输出。BigCodeArena还支持多轮对话,允许用户细化需求、请求添加功能或修复错误。自2025年2月推出以来,BigCodeArena已收集了超过500名用户的14,000多次对话,并获得了4,700多个高质量偏好投票,比较了10个前沿大型语言模型。