英特尔与Hugging Face合作,在英特尔酷睿Ultra处理器上加速Qwen3-8B智能体模型。Qwen3-8B是Qwen系列最新模型,具备原生智能体能力,支持工具调用、多步推理和长上下文处理,适合复杂智能体工作流。通过OpenVINO.GenAI框架,使用推测解码技术结合轻量级Qwen3-0.6B草稿模型,推理速度提升约1.3倍。推测解码利用较小、较快的草稿模型在一次前向传递中预测多个令牌,由较大目标模型验证,从而加速自回归生成。进一步应用深度剪枝优化草稿模型,减少层数以降低延迟,速度提升达到约1.4倍。这些优化集成到smolagents框架中,实现本地AI智能体快速运行。