本周国内外AI领域密集发布多项重磅成果大模型方面稀宇、京东、阿里、OpenAI、火山引擎、Google、腾讯、阶跃星辰、Kimi、Anthropic等先后推出音乐、具身、图像、视频、量子、机器人、3D、语音、编程、安全等各类模型AI Agent领域字节、MiniMax、Anthropic等升级智能体系统与桌面能力实现跨端操控与自我进化AI工具与技术上面壁智能、Google、阿里、OpenAI推出文档、浏览器、低代码开发、Agent开发等工具市场层面斯坦福AI指数显示中美差距仅2.7%Anthropic推出Claude强制实名引发争议一起来回顾本周发生的AI新鲜事儿吧AI 大模型稀宇科技推出新一代AI音乐生成模型「MiniMax Music 2.6」4月10日稀宇科技正式推出新一代AI音乐生成模型「MiniMax Music 2.6」通过优化国风演奏细节、中低频声学表现、人声律动与段落理解力首包延迟降至20秒内新增精准Cover功能实现生成速度、指令控制与音质全面升级同步开源三款音乐Skill支持Agent原生调用音乐生成能力开启全球创作内测并提供14天限免体验助力普通用户与开发者低成本完成高质量音乐创作。参考MiniMax Music 2.6我们想讲四个人的故事灵初智能推出「Psi-R2」与「Psi-W0」双系统具身模型4月11日灵初智能凭借10万小时大规模人类操作全模态数据集含1000小时开源推出「Psi-R2」与「Psi-W0」双系统具身模型登顶MolmoSpace全球权威榜单任务成功率远超同类模型通过人类数据训练、双模型协同与数据飞轮实现机器人高效落地同步推进数采厂建设与生态合作以开源共建加速具身智能商业化。参考中国具身模型狂揽全球第一机器人的人类数据时代来了京东开源240亿参数的图像模型「JoyAI-Image-Edit」4月11日京东开源240亿参数的图像模型「JoyAI-Image-Edit」将空间智能纳入图像理解与编辑让AI开始处理真实世界中的空间关系让模型真正“理解空间编辑空间”。是业内首个内置空间智能的一体化多模态模型可精准实现相机控制、物体旋转与空间关系操控兼顾15类通用编辑能力性能超越同类产品采用Apache 2.0协议开源适配电商与具身智能场景是京东聚焦实体场景、深耕产业落地的AI布局重要成果。参考重磅开源240亿参数力压Nano Banana 2阿里视频大模型「HappyHorse」内测登顶行业榜单4月12日消息阿里ATH旗下创新事业部研发的视频大模型「HappyHorse」目前处于内测阶段尚未正式上线网传官网均非官方渠道近期将开放API该模型在AI视频评测平台中文生视频无音频榜单位列第一、含音频榜单与Seedance2.0 720p并列第一是阿里ATH成立后推出的重要AI产品属于全新交互方式探索计划的一部分。参考阿里HappyHorse正式与大家见面还需要一点时间稀宇科技开源「MiniMax M2.7」模型全球生态首日全面适配4月12日稀宇科技正式开源「MiniMax M2.7」模型支持自我进化与复杂Agent任务是Hermes Agent、OpenClaw等智能体工具中广受好评的模型开源首日已完成与华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA等芯片厂商及Together AI、Ollama等海内外推理平台的适配接入未来将持续联合生态伙伴推进模型优化与生态建设。参考MiniMax M2.7开源携手全球伙伴加速AI生态繁荣OpenAI发布代号“Spud”的「GPT-6」200万上下文6万亿MoE参数全新升级4月14日OpenAI正式发布代号“Spud”的「GPT-6」采用Symphony原生多模态统一架构支持文本、图像、音频、视频、3D五大模态底层统一编码幻觉率降至0.1%以下搭载约6万亿MoE参数推理仅激活10%-15%专家网络成本大降上下文窗口达200万Token综合性能较GPT-5.4提升40%代码生成、数学推理等能力大幅增强将深刻变革编程、专业服务、内容创作等领域同时也带来安全治理新挑战。参考突发GPT-6将发布 Symphony 多模态架构200 万 Token 上下文、6万亿 MoE参数性能较提升 40%智在无界正式发布第三代通用具身世界模型「Being‑H0.7」4月14日BeingBeyond智在无界正式发布第三代通用具身世界模型「Being‑H0.7」基于20万小时人类视频预训练创新采用潜空间推理范式兼顾物理世界理解与交互能力训练成本低、推理速度快可在端侧实时部署在6项国际权威评测中综合全球第一全面覆盖七大物理交互关键维度能完成动态轨迹预测、流体与柔性物体操控等复杂任务重新定义了具身世界模型的技术方向。参考BeingBeyond正式发布下一代通用具身世界模型Being-H0.7火山引擎正式上线「Seedance 2.0」系列API服务4月14日火山引擎正式上线全球SOTA级AI视频生成模型「Seedance 2.0」系列API服务并同步登陆海外BytePlus支持文字、图片、音频、视频四种模态输入并集成最全面的多模态内容参考与编辑能力复杂场景可用率、物理准确度、逼真度与可控性显著提升同时建立肖像与版权安全标准并配套人脸验证、海量虚拟人像等合规创作能力已在总台春晚、北京国际电影节、上美影IP活化、漫短剧、品牌营销、机器人训练等多领域落地应用。参考Seedance 2.0全面开放API服务NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」4月14日NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」包含校准与解码模型可实现量子处理器快速自动校准、量子纠错解码速度提升2.5倍且精度提高3倍有效解决量子计算噪声与扩展性瓶颈推动量子计算工程化落地该消息引发美股量子计算概念集体大涨。参考昨天英伟达开源个量子AI拉爆美股量子计算概念Google发布「Gemini Robotics-ER 1.6」机器人模型4月15日Google发布「Gemini Robotics-ER 1.6」机器人模型升级视觉空间理解、任务规划与成功判断能力新增与波士顿动力合作开发的仪表读数功能借助Agentic Vision技术使读数成功率从23%升至93%、飙升300%支持Spot机器人自主工业巡检同时安全性能全面提升是Google当前最安全的机器人专用模型已开放API调用。参考谷歌深夜大招机器人学会看仪表盘干活成功率飙升300%OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型4月15日OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型可无源码分析恶意软件同时升级网络安全信赖访问计划TAC遵循准入民主化、迭代式部署、生态韧性投资三大原则配套的Codex Security工具已自动修复3000余个高危漏洞此举是对标Anthropic的Claude Mythos将强AI能力定向开放给防御方构建AI安全防御体系。参考突发GPT-6将发布 Symphony 多模态架构200 万 Token 上下文、6万亿 MoE参数性能较提升 40%腾讯混元正式发布并开源「混元3D世界模型2.0」4月16日腾讯混元正式发布并开源「混元3D世界模型2.0」HY-World 2.0这是可通过文字、图片、视频多模态输入自动生成、重建与模拟3D世界的多模态模型能输出可二次编辑的Mesh、3DGS等3D资产无缝对接Unity、UE等游戏引擎与工作流支持角色漫游与物理碰撞还可基于视频或多视角图片构建高精度数字孪生空间其架构全面升级大幅提升画面精细度与真实感已开放体验申请并同步开源代码与技术报告。参考腾讯混元3D世界模型2.0发布无缝对接游戏工作流阿里推出可实时构建和交互的的开放式世界模型产品「HappyOyster」4月16日阿里巴巴ATH创新事业部推出可实时构建和交互的的开放式世界模型产品「HappyOyster」并开放内测支持Directing实时导演、Wandering世界漫游两种核心玩法用户可实时构建、交互与探索无限生成的虚拟世界官网已开放Waitlist报名与产品详情查阅。参考HappyOyster可实时构建和交互的开放式世界模型产品开放内测阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」4月16日阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」具备全局语境控制、文中语境控制、零样本复刻与全音色控制三大核心能力支持用自然语言精细调节语音情绪、语气、节奏等细节降低配音创作门槛已全量上线阶跃星辰开放平台与Step Plan可满足多场景高品质语音生成需求。参考阶跃 StepAudio 2.5 TTS 上线人人都能是配音导演蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」4月16日蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」仅需普通RGB摄像头即可实现实时流式三维重建以纯自回归式建模与几何上下文Transformer为核心兼顾几何精度、时序一致性与运行效率推理速度达20FPS、支持10000帧以上长视频稳定推理在多项权威基准测试中全面领先现有流式与离线方法已在Hugging Face、魔搭社区及GitHub开源进一步补齐具身智能实时空间感知技术拼图。参考LingBot-Map 正式开源仅用普通摄像头让机器人实现实时流式三维重建「Kimi K2.6-code-preview」上线Kimi编程能力大幅提升4月16日消息月之暗面推出「Kimi K2.6-code-preview」编程大模型基于K2.5万亿参数MoE架构上下文达256K Tokens核心提升推理深度、代理规划与多步工具调用稳定性社区自测编程评分升至89分达第一梯队水准支持多Agent并发不限流、运行稳定39元/月订阅制性价比突出但存在推理速度较慢、周额度消耗快的问题是面向开发者的高实用性国产编程模型。参考Kimi K2.6-code上线国产编程大模型终于找到自己的节奏Anthropic发布「Claude Opus 4.7」视觉拉满实现核心能力跨越式升级4月17日Anthropic发布「Claude Opus 4.7」定位为当前可广泛使用的最强Claude模型核心升级聚焦复杂任务执行、高清视觉理解与长链路工作流稳定性视觉能力近乎满分、长上下文与多步骤任务表现大幅提升编程、生物分子推理等多项基准测试成绩显著领先超越GPT-5.4与Gemini 3.1 Pro指令遵循更精准、输出更接近成品同时安全合规性有保障但图像与分词器调整会使Token消耗增加成本上升该模型让大模型从擅长聊天转向高效完成实际工作对开发者、分析师等知识工作者助力显著。参考Claude Opus 4.7连夜突袭或将抢走全球7亿打工人饭碗AI Agent字节「扣子2.5」版本重磅升级Agent生态与生产力能力全面革新4月12日消息字节「扣子2.5」版本重磅升级无需复杂配置开箱即用搭载云电脑、云手机、长期记忆、专属邮箱、日程系统与共享文件系统支持7×24小时后台运行可通过手机对话实现Vibe Coding编程、视频创作、工作流搭建等能力同时推出AI社交生态「Agent World」包含技能评测、虚拟酒馆、智能体匹配、博弈娱乐等功能打造全能型数字生产力伙伴。参考本养虾人看哭了字节扣子2.5出生即满级手机对话就能Vibe CodingNous Research推出的「Hermes Agent」热度全面超越「OpenClaw」4月13日Nous Research旗下产品爱马仕智能体「Hermes Agent」热度全面超越「OpenClaw」GitHub斩获6.6万星登顶全球编程应用榜首生产力榜第二原生接入微信基于腾讯 iLink Bot API并覆盖国内主流IM平台3.99美元即可低成本部署开箱即用且具备自我进化能力其团队发布顶会级论文提出「Autoreason」推理方法指出传统自我优化的缺陷通过三方锦标赛与盲评机制实现更稳定高效的迭代在写作与编程任务中表现突出推动AI推理从盲目迭代走向结构化高效优化。参考龙虾让位硅谷顶流AI「爱马仕」一夜闯进微信冲上全球第一MiniMax Agent更新推出「Pocket」与「Computer Use」两大功能4月14日MiniMax发布Agent桌面端更新推出「Pocket」Beta与「Computer Use」两大功能「Pocket」支持在飞书、微信等主流IM中远程唤起Agent执行电脑任务「Computer Use」可让Agent像人一样操控鼠标键盘、操作图形界面软件与系统设置同时通过拆分工具域、统一视觉坐标系统、截图-验证-行动循环及IM端授权管控提升操作精度、稳定性与安全性覆盖远程查文件、筛选简历生成文档、调整系统设置等场景扩展了Agent对电脑桌面的操作能力。参考MiniMax Agent 更新这次我们重新设计了 Agent 操作电脑的方式Anthropic重构桌面端「Claude Code」上线Routines功能4月15日Anthropic重磅重构桌面端「Claude Code」支持多实例并行运行、内置终端与文件编辑新增云端自动化Routines功能可通过定时、API、GitHub Webhook三路触发实现7×24小时自动执行任务对应此前泄露的KAIROS功能同时消息称「Claude Opus 4.7」将于本周发布并推出可一键生成网页、演示文稿的AI设计工具直接对标Figma、Adobe。参考Claude Opus 4.7刚刚曝光Claude Code一夜重构7x24小时替你打工MiniMax推出全球首个云端沙箱Hermes「MaxHermes」4月16日MiniMax推出全球首个云端沙箱Hermes「MaxHermes」是可自我进化的AI智能体能自主生成并迭代Skills具备跨会话记忆、定时任务与多子代理并行能力零门槛无需本地部署、适配多IM渠道、成本可控后续还将连通Skillhub并支持MaxClaw一键迁移让用户轻松使用持续成长的AI助手。参考MaxHermes全球首个云端沙箱 Hermes一键养“马”AI 工具面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」4月14日面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」以Vibedocing人机协同范式打造“导航区、工作区、对话区”三合一界面支持多格式批量文档处理、本地文件夹双向同步、内置浏览器查资料、语音办公等全流程功能具备低幻觉、可溯源的专业能力与数据不上云的高安全性专为法律、金融、文学等高严谨文档工作者设计。参考Lantay 官宣重度文档人迎来超强外挂Google Chrome推出「Gemini Skills」功能浏览器迈入AI助手时代4月15日Google Chrome推出「Gemini Skills」功能可将提示词保存为可复用技能支持一键调用、跨设备同步能读取多标签页完成对比、分析等任务内置50余个预设技能且免费使用标志着传统浏览器向Agent化转型掀起新一轮浏览器智能竞争。参考浏览器原地变龙虾Chrome上线Skills技能一键复用Agent帮你干活阿里发布AI开发工具「Meoo」零代码一键生成完整应用4月15日阿里ATH事业群发布AI开发工具「Meoo」秒悟集成千问、Kimi、GLM、MiniMax四大模型内置阿里云多项核心服务支持蜂群Agent并行处理用户无需编程基础用自然语言描述即可1分钟快速生成前后端完整应用并一键部署上线可快速制作网站、H5页面等。参考AI开发工具秒悟Meoo来了0门槛、一键部署上线OpenAI重写「Agents SDK」推出原生Harness并实现与沙盒分离4月16日OpenAI对「Agents SDK」进行架构重写推出原生Codex同款Harness并实现与沙盒分离接入七家头部沙盒厂商新增快照恢复、多沙盒并行等能力将SDK从聊天机器人工具升级为生产级Agent底座大幅提升安全与长任务稳定性已实现900页保险单100%提取、代码量减少6倍等效果同时挤压LangChain、CrewAI等第三方Agent框架生存空间目前仅支持Python标志着GPT-5.4正式迈向工业级Agent时代。参考OpenAI祭出GPT-5.4神装Codex同款Harness全面开放技术突破YC CEO开源个人第二大脑系统「GBrain」专供OpenClaw与Hermes4月11日YC CEO Garry Tan开源个人第二大脑系统「GBrain」专为OpenClaw与Hermes Agent打造可汇聚多源信息构建可检索、可持续成长的AI知识底座通过“读取-应答-写入”循环实现复利式记忆采用混合搜索与本地嵌入式数据库无需服务器即可快速部署支持三种接入路径与数据自动同步能让Agent具备全息记忆与深度上下文理解能力助力打造迷你AGI。参考YC CEO把自己第二大脑系统开源了专供OpenClaw与Hermes全息记忆打造迷你AGIWorld Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎4月15日李飞飞旗下World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎基于THREE.js与WebGL2打造通过连续LoD树、.RAD流式加载格式、GPU虚拟内存三项核心技术实现手机浏览器流畅运行亿级粒子3D场景支持多对象渲染与自定义操作可广泛应用于游戏、交互艺术、实景展示等场景还与Marble创作平台打通降低3D世界生成与交付门槛。参考刚刚李飞飞最新成果发布手机也能跑亿级粒子的 3D 世界了附体验地址市场动态斯坦福2026 AI指数中美差距仅2.7%中国多项指标全球领先4月14日斯坦福发布423页2026 AI指数报告显示中美AI模型性能差距仅2.7%清华、DeepSeek等中国机构跻身全球前十中国在公共AI超算、职场AI使用率等方面领先全球全球AI能力飞速提升90%顶尖模型来自产业界代码等基准近乎封顶但存在能力不均衡的“锯齿前沿”现象AI投资、算力规模大幅增长同时美国AI人才流入锐减、年轻开发者就业岗位下滑全球AI模型透明度下降专家与公众对AI认知存在明显撕裂。参考斯坦福423页AI报告出炉中美差距仅2.7%清华DeepSeek冲进全球前十Anthropic正式宣布在Claude平台推出强制身份验证KYC4月16日Anthropic正式宣布在Claude平台推出强制身份验证KYC用户访问特定功能或触发风控时需通过合作方Persona完成实体政府证件实时自拍的核验复印件、数字证件等均不被接受即便完成验证账号仍可能因违规、地区不支持等原因被封禁该举措引发用户强烈不满尤其国内用户与重度付费用户面临极高账号风险第三方中转、反向代理等玩法更易被精准打击。参考突发Claude引入强实名制验证必须真人手持证件自拍否则直接封号