Qwen3.6‑35B‑A3B:30B 激活参数的“全能编码智能体”来了!
Qwen3.6‑35B‑A3B 深度解析一、前言Qwen3.6‑35B‑A3B 是什么Qwen3.6‑35B‑A3B 是阿里巴巴通义千问团队在 Hugging Face 上开源的Qwen3.6 系列首款中型 MoE 视觉语言模型模型权重与配置文件均以Hugging Face Transformers 格式提供可与 Transformers、vLLM、SGLang、KTransformers 等主流推理框架无缝兼容适合本地部署与云服务集成。作为 Qwen3.5‑35B‑A3B 的升级版本Qwen3.6‑35B‑A3B 在稳定性、智能体编程能力与实际工程适用性上做了重点优化目标是在仅激活约 30B 参数的条件下实现接近甚至超越更大稠密模型如 Qwen3.5‑27B、Gemma4‑31B在编码、多模态与 Agent 任务上的表现。二、核心亮点为何值得关注1. 智能体编程与编码能力大幅提升Qwen3.6‑35B‑A3B 的一大亮点是Agentic Coding智能体编码能力的增强尤其在多轮、多工具、长上下文的开发场景中表现突出在SWE‑bench Verified、SWE‑bench Multi‑language、SWE‑bench Pro等仓库级代码修复任务中得分显著高于 Qwen3.5‑35B‑A3B部分指标接近或超过 Qwen3.5‑27B 和 Gemma4‑31B。在Terminal‑bench 2.0测试中Qwen3.6‑35B‑A3B 的表现优于前代说明其在多步终端操作、代码仓库搜索、自动化测试与部署等长周期任务上更稳定。此外该模型在前端工程、多文件协同、多语言项目如 JS/TS Python SQL 的组合中具备更强的上下文理解与生成一致性可作为“问题拆解 → 多轮修复 → 自动测试 → 部署”这类工作流的核心推理引擎。2. 思维保留preserve_thinking历史推理链可复用Qwen3.6‑35B‑A3B 默认在生成最终响应前会先输出“思考”内容即 Thinking 模式并保留最近一条消息的推理链在此基础上Qwen 引入了preserve_thinking选项允许在多轮对话中保留并复用历史消息中的推理轨迹通过 API 配置chat_template_kwargs{preserve_thinking: True}模型可以在后续消息中复用之前的推理路径这一特性特别适合长周期的调试、代码重构、多轮迭代Code Agent 工作流如 Qwen‑Agent、Qwen‑Code可减少重复推理消耗提升多步决策一致性。三、模型架构与关键技术细节Qwen3.6‑35B‑A3B 是一个带视觉编码器的因果语言模型采用Gated Delta‑Network MoE 混合结构关键参数如下总参数量约350 亿推理时仅激活约30 亿35B‑A3B 中的“3B 激活”隐藏维度 2048Token 词表248,320已填充 Padded共 40 层每层结构为10 组3×(Gated DeltaNet → MoE)1×(Gated Attention → MoE)MoE 部分特点专家总数 256每次激活 8 个路由专家与 1 个共享专家专家中间层维度 512该结构保证在较低激活参数量下依然维持 MoE 路由的稀疏性与高表达能力。此外Qwen3.6‑35B‑A3B 采用旋转位置编码RoPE支持262,144 原生上下文并可通过 YaRN 等 RoPE‑scaling 技术扩展至 1,010,000 tokens适合长周期代码、文档、视频等多模态任务。四、性能概览编码、多模态与通用能力官方发布的 Benchmark 中Qwen3.6‑35B‑A3B 在多个维度上表现优秀下面选取几个关键指标加以说明。在这里插入图片描述1. 编码与智能体任务部分示例基准 / 任务Qwen3.6‑35B‑A3B前代 Qwen3.5‑35B‑A3BQwen3.5‑27B / Gemma4‑31BSWE‑bench Verified~73.4~70.075.0 / 52.0SWE‑bench Multi‑language~67.2~60.369.3 / 51.7Terminal‑bench 2.0~51.5~40.541.6 / 42.9QwenClawBench真实用户 Agent~52.6~47.752.2 / 41.7QwenWebBench前端多模态生成~1397~9781068 / 1197从上表可以看出Qwen3.6‑35B‑A3B 在SWE‑bench 系列、Terminal‑bench 2.0、QwenClawBench等代理任务中不仅大幅领先前代中型 MoE甚至与更大规模的稠密模型处于同一水平是“30B 激活参数接近 27B–31B 能力”的典型代表。2. 知识与长程推理能力MMLU‑Pro约85.2GPQA钻石级约86.0AIME 202692.7在知识与复杂推理、数学竞赛题上Qwen3.6‑35B‑A3B 与 Qwen3.5‑27B 基本处于同一梯队远超 Gemma4 系列适用于需要较强学术与工程能力的场景。3. 多模态与视觉理解作为带视觉编码器的多模态模型Qwen3.6‑35B‑A3B 在视觉理解与视频任务中也表现不俗MMMU / MMMU‑Pro在多模态理解与视觉‑文本推理任务中分数接近并略优于 Qwen3.5‑27B显著高于 Gemma4‑31B 等纯文本模型RealWorldQA、MMBench‑EN 等真实世界 VQA 任务中得分在 80–90 区间适合 UI 截图、表格、图表理解等场景视频理解VideoMME、VideoMMMU、MLVU 等中模型可对一小时左右的长视频实现事件定位与问答支持视频帧率自适应采样如通过 vLLM/SGLang 配置fps与do_sample_frames。五、快速部署与推理框架实战Qwen3.6‑35B‑A3B 支持多种主流推理框架官方推荐在生产环境使用SGLang、vLLM、KTransformers等高性能服务引擎。1. 使用 SGLang 启动服务推荐版本sglang0.5.10安装命令uv pipinstallsglang[all]启动标准服务8 GPU262K 上下文启用思考模式python-msglang.launch_server\--model-path Qwen/Qwen3.6-35B-A3B\--port8000\--tp-size8\--mem-fraction-static0.8\--context-length262144\--reasoning-parser qwen3工具调用Agent 场景增加--tool-call-parser qwen3_coder多 Token 预测MTP启用--speculative-algo NEXTN等流水线解码选项可显著提升吞吐量。2. 使用 vLLM 部署推荐版本vllm0.19.0安装命令uv pipinstallvllm --torch-backendauto启动命令vllm serve Qwen/Qwen3.6-35B-A3B\--port8000\--tensor-parallel-size8\--max-model-len262144\--reasoning-parser qwen3工具调用--enable-auto-tool-choice --tool-call-parser qwen3_coder仅文本模式跳过视觉编码器节省显存--language-model-only3. Transformers 与 KTransformers通过transformers serve可在单节点快速搭建本地测试与中等负载服务transformers serve Qwen/Qwen3.6-35B-A3B\--port8000\--continuous-batchingKTransformers 提供更灵活的 CPU‑GPU 混合推理方案适合边缘设备与资源受限环境其 Qwen3.5 部署文档可作为 Qwen3.6‑35B‑A3B 配置的参考。六、采样参数与最佳实践建议官方为不同场景提供了采样参数推荐开发者可按需选择思考模式一般任务temperature1.0, top_p0.95, top_k20, min_p0.0, presence_penalty1.5, repetition_penalty1.0精确编码任务如 Web 开发temperature0.6, top_p0.95, top_k20, min_p0.0, presence_penalty0.0, repetition_penalty1.0指令非思考模式通用任务temperature0.7, top_p0.8, top_k20, min_p0.0, presence_penalty1.5, repetition_penalty1.0推理任务非思考temperature1.0, top_p1.0, top_k40, min_p0.0, presence_penalty2.0, repetition_penalty1.0此外建议一般查询输出长度为32,768 tokens复杂数学/编程/长周期任务可设置为81,920 tokens以保留充足空间供模型逐步推理与生成代码。七、适用场景与开发者建议若你是本地或私有化部署开发者希望在有限算力如 2–4 张 20–24GB 显存卡下获得接近 Qwen3.5‑27B 的能力Qwen3.6‑35B‑A3B 是一个非常有性价比的选择。若你正在构建 Code Agent、终端自动化、RAG 与代码知识库、多模态 UI 智能体等系统可将 Qwen3.6‑35B‑A3B 作为“核心推理引擎”配合工具调用与长上下文管理搭建更复杂的智能工作流。如果你有具体的部署平台如 Docker、K8s、vLLM 集群或与 Qwen‑Agent / Qwen‑Code 的集成需求也可以基于此模型进一步定制服务架构。