CVPR 2026 | IBISAgent:国产多模态智能体拿下医学分割SOTA!
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐IBISAgent团队 投稿转载自量子位QbitAI这个生物医学视觉推理框架被CVPR 2026接收了人类专家在标注医学图像时从不是“看一眼就画出来”。他们会先扫视全图、锁定可疑区域随后在分割工具上反复点击正负样本根据每一步生成的mask形态重新判断不断调整策略——这是一个多轮交互、边看边想、边想边做的迭代推理过程。然而现有的医学多模态大模型普遍采用“单次前向推理”范式输入图像输出mask一步到位。这种方式面对生物医学图像中细微的病灶边界、复杂的解剖结构、模糊的视觉语义时往往力不从心。更深层的问题在于为了赋予MLLM分割能力现有方法普遍引入隐式分割token如SEG 并与外部pixel decoder联合微调——这一设计破坏了大模型原有的文本输出空间导致语言推理能力退化泛化能力大打折扣。上述范式存在四个核心瓶颈单次推理无法自我纠错一旦第一步定位出现偏差错误持续累积最终影响分割质量。隐式token破坏推理能力 SEG等token侵占文本空间导致灾难性遗忘细粒度视觉推理被严重压制。缺乏自主决策机制模型只能被动执行单次指令无法像人类专家一样主动观察、反思、调整。训练数据瓶颈现有数据集只有最终mask缺乏逐步交互的推理轨迹难以直接监督多步行为。鉴于上述问题浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开等人联合提出了IBISAgent——一个将分割重新定义为多步视觉决策过程的Agentic MLLM框架。具体方法概括而言IBISAgent的主要创新点如下将分割任务建模为多步马尔可夫决策过程MDP以交错的文本推理与点击动作替代隐式token保留MLLM完整的语言推理能力同时实现自主多轮迭代精化。提出两阶段训练框架。首先通过冷启动SFT在自动生成的推理轨迹上建立像素级推理先验随后引入Agentic强化学习以细粒度奖励信号驱动模型自主探索更优决策策略超越对轨迹的简单模仿。构建包含456K条高质量推理轨迹的冷启动数据集覆盖正常标注与自我反思纠错两类轨迹为多步视觉推理提供系统化的训练基础。具体方法为IBISAgent将整个分割过程建模为一条多步推理轨迹每一步由三个核心元素构成闭环推理Textual Thinking 模型对当前分割图像的状态进行推理分析如“当前mask偏左需要在右侧肿瘤边缘补充正向点击”。行动Action 模型输出结构化的空间点击指令包含三个要素分割目标类别Target、点击属性正/负Attribute、归一化图像坐标Coordinate_2d。模型可在一步中同时输出多个点击。观测Observation 点击被传入交互式分割工具MedSAM2生成更新后的mask并叠加到原图上作为下一步的视觉输入反馈给模型。这一设计的关键在于模型每一步都能“看到”自己上一步分割的结果形成视觉感知与语言推理的闭环。整个过程不引入任何新的模型组件或隐式token分割能力完全从MLLM内在的视觉推理中涌现并天然支持从头分割与mask精化两类任务。与此同时IBISAgemt采用两阶段训练方案第一阶段冷启动SFT。现有生物医学分割数据集只有最终mask没有逐步点击轨迹。研究团队利用BiomedParseData340万图像-mask对 9种成像模态开发了自动轨迹生成算法通过规则化的点击模拟策略自动推导点击序列再用Gemini- 2.5-Pro为每步生成对应的自然语言推理。为增强鲁棒性额外合成两类自我反思轨迹1错误自纠正——检测到错误动作后回溯并重新推理2指令不一致纠正——遇到与初始mask不符的指令时主动丢弃并重新分割。最终构建出包含456K样本的高质量冷启动数据集。第二阶段Agentic强化学习。SFT之后模型仍在模仿已有轨迹研究团队进一步引入RL设计细粒度奖励框架在每个交互步骤提供密集反馈其中区域点击奖励与渐进式分割改进奖励是核心创新——前者引导模型将每次点击落在语义有效的区域后者强制每步行动必须带来实质性的分割改善从而彻底杜绝冗余操作与来回震荡。RL训练使用GRPO算法在888KVQA样本上进行优化。实验结果实验结果显示IBISAgemt在域内测试集、域外泛化集MeCOVQA-G涵盖5种成像模态和自建私有数据集1K CT/MRI/病理 7类癌症三个benchmark上 均大幅领先所有对比方法。相比医学专用MLLM基线平均IoU提升35.13% DSC提升37.58% F1提升29.79%。值得注意的是 Citrus-V和UniBiomed均在比本方法更大规模的数据集上训练 IBISAgent仍能一致超越说明性能提升来自方法设计本身而非数据优势。与工具增强Agent的对比实验相比同样调用MedSAM2的工具增强型AgentGPT-4o 、LLaVA-Med 、HuatuoGPT-Vision等 IBISAgent在域外集和私有数据集上仍保持显著领先充分说明多轮交互式推理带来的增益远超简单的工具调用。两阶段训练消融实验消融实验证明冷启动SFT、自我反思轨迹和RL三个方案缺一不可逐级叠加均带来明显收益。RL阶段提供最大的性能跃升说明强化学习的探索-利用机制对激发真正自主的像素级推理至关重要。细粒度奖励设计消融实验对于RL阶段的奖励设计研究团队同样进行了逐项验证。以仅使用格式奖励与答案奖励为基线在域外集MeCOVQA-G上的IoU仅为73.77逐步引入区域点击奖励后 IoU提升至76.60 mask定位准确性显著改善加入渐进式分割改进奖励后进一步跃升至80.61同时平均交互步数从11.29步压缩至8.12步模型学会了更高效的分割路径最终叠加轨迹长度奖励后交互效率继续提升步数降至4.26步同时分割质量维持在最高水平。这一结果表明细粒度的逐步反馈信号是驱动模型在质量与效率之间取得最优平衡的关键单纯依赖最终结果奖励无法达到同等效果。小结一下这项研究将生物医学图像分割从“单次推理输出”推进到“自主多轮交互决策”。针对现有方法依赖隐式token导致的推理能力退化问题 IBISAgent以交错的文本推理与点击动作完全替代SEGtoken保留了MLLM完整的语言能力并通过多步MDP建模实现真正的自主迭代精化。进一步地冷启动SFT结合自动轨迹生成建立稳健的推理先验Agentic强化学习与细粒度奖励驱动模型超越模仿、探索最优决策策略最终实现了细粒度的视觉推理。广泛的实验验证了IBISAgent在多模态、多疾病场景下的一致性优势为未来面向真实临床的智能医学图像分析系统奠定了重要基础。论文链接 https://arxiv.org/abs/2601.03054代码链接 https://github.com/Yankai96/IBISAgent本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看