Google 开源旗舰 Gemma 4 家族在各大榜单上声势浩大Arena AI 排名直逼闭源巨头。但当gemma-4-26b-a4b-it和gemma-4-31b-it两款模型走进我们的表格识别评测场——一个 39%一个 32%双双跌入榜单下半区。开源新贵遇上结构化识别成色几何以下为最新完整排名表* 评测标准表格结构与内容须与原图完全一致任一不符即判错。gemma-4-26b-a4b-itGoogleGemma 4 是 Google DeepMind 于 2026 年 4 月发布的最新开源模型家族基于与 Gemini 3 相同的技术底座采用 Apache 2.0 开源协议。gemma-4-26b-a4b-it 是其中的 MoE混合专家版本总参数 26B 但仅激活约 4B 参数。官方定位以极低的推理资源消耗实现前沿级能力擅长推理、编码和 Agent 工作流。准确率39%落后于所有闭源旗舰与同门 gemini-3-flash-preview53%差距达 14 个百分点。同为中型模型qwen3.5-27B56%高出 17 个百分点。以下测试的badcase案例每张图片左边是表格的原始图右边是大模型生成的HTML主要短板水印干扰严重水印覆盖区域直接导致内容误识别或漏识别表头结构混乱分不清表头和标题容易多生成符号、网址等冗余内容多层表头失败复杂合并单元格结构无法正确还原内容错乱表格结构错乱或凭空生成原表不存在的内容细节错误个别文字、数字错误小数点被生成为逗号多表格漏识别原图含两个表格时直接丢失一个小结Arena AI 第 6 的开源 MoE 之星在表格识别中却几乎垫底——MoE 架构的稀疏激活在结构化感知上代价明显4B 的激活参数量不足以支撑复杂表格的精细还原。gemma-4-31b-itGooglegemma-4-31b-it是 Gemma 4 家族中的 Dense模型gemma-4-31b-it 参数全量激活支持 256K 上下文窗口在 AIME 2026 数学基准上从 Gemma 3 的 20.8% 飙升至 89.2%编码和科学推理同样大幅跃升。官方称其为「同尺寸最强开源模型」。准确率32%仅领先 gpt-5.4-nano11%反而比 MoE 版的 gemma-4-26b-a4b-it39%还低 7 个百分点。同为开源第一梯队的 gemma-4-31b-it 密集模型表格识别却倒数第二。以下测试的badcase案例每张图片左边是表格的原始图右边是大模型生成的HTML主要短板内容识别错误频发文字和数值识别准确度差错误率高表格结构识别错乱行列对应关系还原失败表头缺失或错误表头内容识别不出、部分缺失或内容错误水印干扰同样受水印影响导致内容错误标题处理不佳省略标题内容或标题个别文字识别错误小结数学推理暴涨 4 倍的Dense开源模型表格识别却不如自家 MoE 小弟——参数量并非万能表格这种需要精细视觉-结构对齐的任务对模型的多模态感知能力提出了完全不同的要求。核心发现1. 反直觉Dense 不如 MoE按常理gemma-4-31b-it 全密集激活应优于 gemma-4-26b-a4b-it 仅 4B 活跃参数的 MoE 版本。但实际上 gemma-4-31b-it32%反而低于 gemma-4-26b-a4b-it39%说明 Gemma 4 的 Dense 变体在多模态结构化任务上存在额外短板。2. Google 系全线偏弱Google 目前 4 款模型上榜——gemini-3.1-pro-preview63%和 gemini-3-flash-preview53%表现尚可而两款开源 Gemma 4 均低于 40%。闭源 Gemini 与开源 Gemma 在表格识别上差距巨大印证了「开源和闭源在多模态精细任务上仍有代差」。当前排行榜榜首仍由阿里 qwen3.5-plus 以 66% 领跑。