大模型表格识别能力实测：Gemma 4排名倒数，开源之王也有软肋

张

张建站

2026/4/15 8:58:14

10分钟阅读

Google 开源旗舰 Gemma 4 家族在各大榜单上声势浩大Arena AI 排名直逼闭源巨头。但当gemma-4-26b-a4b-it和gemma-4-31b-it两款模型走进我们的表格识别评测场——一个 39%一个 32%双双跌入榜单下半区。开源新贵遇上结构化识别成色几何以下为最新完整排名表* 评测标准表格结构与内容须与原图完全一致任一不符即判错。gemma-4-26b-a4b-itGoogleGemma 4 是 Google DeepMind 于 2026 年 4 月发布的最新开源模型家族基于与 Gemini 3 相同的技术底座采用 Apache 2.0 开源协议。gemma-4-26b-a4b-it 是其中的 MoE混合专家版本总参数 26B 但仅激活约 4B 参数。官方定位以极低的推理资源消耗实现前沿级能力擅长推理、编码和 Agent 工作流。准确率39%落后于所有闭源旗舰与同门 gemini-3-flash-preview53%差距达 14 个百分点。同为中型模型qwen3.5-27B56%高出 17 个百分点。以下测试的badcase案例每张图片左边是表格的原始图右边是大模型生成的HTML主要短板水印干扰严重水印覆盖区域直接导致内容误识别或漏识别表头结构混乱分不清表头和标题容易多生成符号、网址等冗余内容多层表头失败复杂合并单元格结构无法正确还原内容错乱表格结构错乱或凭空生成原表不存在的内容细节错误个别文字、数字错误小数点被生成为逗号多表格漏识别原图含两个表格时直接丢失一个小结Arena AI 第 6 的开源 MoE 之星在表格识别中却几乎垫底——MoE 架构的稀疏激活在结构化感知上代价明显4B 的激活参数量不足以支撑复杂表格的精细还原。gemma-4-31b-itGooglegemma-4-31b-it是 Gemma 4 家族中的 Dense模型gemma-4-31b-it 参数全量激活支持 256K 上下文窗口在 AIME 2026 数学基准上从 Gemma 3 的 20.8% 飙升至 89.2%编码和科学推理同样大幅跃升。官方称其为「同尺寸最强开源模型」。准确率32%仅领先 gpt-5.4-nano11%反而比 MoE 版的 gemma-4-26b-a4b-it39%还低 7 个百分点。同为开源第一梯队的 gemma-4-31b-it 密集模型表格识别却倒数第二。以下测试的badcase案例每张图片左边是表格的原始图右边是大模型生成的HTML主要短板内容识别错误频发文字和数值识别准确度差错误率高表格结构识别错乱行列对应关系还原失败表头缺失或错误表头内容识别不出、部分缺失或内容错误水印干扰同样受水印影响导致内容错误标题处理不佳省略标题内容或标题个别文字识别错误小结数学推理暴涨 4 倍的Dense开源模型表格识别却不如自家 MoE 小弟——参数量并非万能表格这种需要精细视觉-结构对齐的任务对模型的多模态感知能力提出了完全不同的要求。核心发现1. 反直觉Dense 不如 MoE按常理gemma-4-31b-it 全密集激活应优于 gemma-4-26b-a4b-it 仅 4B 活跃参数的 MoE 版本。但实际上 gemma-4-31b-it32%反而低于 gemma-4-26b-a4b-it39%说明 Gemma 4 的 Dense 变体在多模态结构化任务上存在额外短板。2. Google 系全线偏弱Google 目前 4 款模型上榜——gemini-3.1-pro-preview63%和 gemini-3-flash-preview53%表现尚可而两款开源 Gemma 4 均低于 40%。闭源 Gemini 与开源 Gemma 在表格识别上差距巨大印证了「开源和闭源在多模态精细任务上仍有代差」。当前排行榜榜首仍由阿里 qwen3.5-plus 以 66% 领跑。

AIAgent模型蒸馏到底该不该做？——基于17个工业级Agent项目的蒸馏ROI数据对比分析

第一章：AIAgent模型蒸馏的工业级价值再审视 2026奇点智能技术大会(https://ml-summit.org) 在大规模AI Agent部署落地过程中，模型蒸馏已从学术优化手段跃升为决定系统可用性、合规性与商业可持续性的核心工程杠杆。工业场景对延迟敏感（如金融…...

2026/4/15 8:55:18 阅读更多 →

崩坏星穹铁道全自动助手终极指南：从零开始解放你的游戏时间

崩坏星穹铁道全自动助手终极指南：从零开始解放你的游戏时间【免费下载链接】March7thAssistant 崩坏：星穹铁道全自动三月七小助手项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 你是否曾因《崩坏：星穹铁道》的日…...

2026/4/15 8:54:16 阅读更多 →

3个技巧快速掌握DesktopNaotu：离线思维导图如何重塑你的工作流？

3个技巧快速掌握DesktopNaotu：离线思维导图如何重塑你的工作流？ 【免费下载链接】DesktopNaotu 桌面版脑图 (百度脑图离线版，思维导图) 跨平台支持 Windows/Linux/Mac OS. (A cross-platform multilingual Mind Map Tool) 项目地址: https:…...

2026/4/15 8:53:27 阅读更多 →