神秘模型「大象」：仅100B拿下SOTA，Token效率超高！

张

张建站

2026/4/23 20:52:18

10分钟阅读

金磊发自凹非寺量子位 | 公众号 QbitAI神秘模型Elephant的面纱终于被揭开了。事情是这样的。前一阵子OpenRouters在自家官方上提到了一个神秘模型Elephant Alpha并且给到的评价是这样的仅100B大小在同规模模型里是SOTA还巨省Token。话题一出立即引来不少网友们的围观他们纷纷开始猜测这又是哪家的模型。不过非常微妙的一点是这次网友们猜测的对象统一地指向了中国大模型是MiniMax、Kimi、DeepSeek还是什么新黑马量子位独家获悉了答案只能说网友们猜对了一半——确实是来自中国的模型但玩家并未在他们给的选项里。因为这头「大象」出自蚂蚁Inclusion AI 团队之手。很反差的一点是「大象」不大自带的只是100B大小、256K上下文窗口、32K输出的敏捷属性。并且在整体体验下来之后很直观的感受就是它有点国产版Grok 4 Fast的味道天生干活圣体。来咱们这就展开一波深度实测~干活圣体很省Token针对「大象」的实测我们是在OpenRouters上的网页端来展开。并且会取日常工作较高频的工作内容来进行测试只为证明一件事「大象」干活到底行不行。实测1修Bug没有多余废话对于程序员群里来说AI写代码已经不是什么新鲜事了。但现在比较头疼的就是怕AI唰唰唰地写了几百行代码一跑全报错再让它改它又给你唰唰唰地重新生成几百行……不仅效率低还很费Token。为此我们在这个实测环节中给「大象」先安排了一个接地气的任务用HTML和原生JS写一个带表单校验的活动报名页要求包含姓名、手机号、邮箱并且手机号必须符合中国大陆格式。△原速度展示可以看到「大象」在思考片刻后以极快的速度将代码给生成了出来。把整段代码保存为.html文件后也是可以成功运行。但这并不是重点重点在于「大象」是否做到修复。于是乎我们接下来给刚才生成好的代码来一波投毒的操作把JS逻辑里定义提交按钮的变量 const submitBtn document.getElementById(‘submitBtn’) 直接删掉。如此投毒之后控制台必定会爆出 Uncaught ReferenceError: submitBtn is not defined 的错误。然后我们把这份代码再喂给「大象」并简单地附上一句运行报错了找不到变量。不同于其它大模型「大象」特别精准地找到了问题所在然后用极简的方式给出了解法。也正因为这种没有多余废话的回答直接省去了Token的无用消耗。实测2杂乱文档会抓重点代码生成和修复还只能说是程序员工作圈子里的任务但像会议内容整理几乎是所有职场人都需要经历的事儿。在这项测试中我们特意准备了一份大约3000字的会议纪要里面充满了口语化的表述毫无意义的重复强调、部门之间关于排期的互相扯皮甚至还有中途某人跑题聊起中午吃什么的外卖讨论然后我们把文件丢给「大象」并附上一句Prompt忽略所有寒暄和跑题内容。请基于这3000字严格按照以下JSON 格式包含结论摘要、待办清单及责任人、一封用于抄送全员的跟进邮件草稿输出结果。「大象」给出的整理结果可以说是一目了然。在剔除了无用信息之后严格按照Prompt要求的那样把会议内容给呈现了出来。或许单看「大象」的结果不够明显我们为此特意拿了Gemini-2.5-Flash-Lite做了下对比正所谓没有对比就没有伤害。Gemini-2.5-Flash-Lite虽然也是实现了Prompt里的结构但很明显一点就是太长也就意味着更多Token的消耗。所以「大象」在会议整理任务上Win Again。实测3Agent任务也是够快最后的实测我们来上一道硬菜——大火的Agent。我们用「大象」来模拟一个轻量级的Agent Loop读取一份包含四个月度数据的CSV销售报表 → 计算季度同比需要调用数学逻辑 → 写一段简练的分析结论 → 自检数字是否准确。上下滑动查看从内容上来看「大象」先是对数据做了快速分析和推理并给出了初步结论而后又完成了自检的工作最终输出最终结论。但更重要的还是速度只思考了10秒钟、输出2秒钟。由此可见这个只有100B大小的「大象」是真的做到了快、准、省。而这一点同样体现在权威榜单的评测中。作为开发者圈层公认的模型测谎仪AI BENCHY不看厂商宣传跑分只聚焦指令遵循、响应速度、Token效率三大实战指标。从AI BENCHY给出的结果来看「大象」输出Token维持在了2500左右说明每一分钱的API算力都用在了刀刃上。平均响应时间方面「大象」平均时延被压制在了1秒左右而其它选手则均是10-30秒的水平。并且在最重要的输出质量上它的一致性分数达到了9.6分满分10分因此不论是从实测的体验亦或是权威榜单的评测来看「大象」已然是可以胜任日常绝大多数的工作了。但也有不擅长的事正所谓人无完人、模无完模。「大象」毕竟走的是一条快、准、省的路线所以它定然是在某些领域里有所妥协。在我们的实测中也发现了「大象」一些不太擅长的工作。例如复杂长链规划就是其中之一帮我主导一个出海东南亚市场的战略项目。请从市场调研开始接着做竞品分析然后给出渠道策略建议最后帮我排一个半年的执行甘特图。对于这个任务「大象」直言无法执行。因为它没有数据采集工具、没有分析工具、没有策略生成工具也没有项目管理工具。所以对于这类任务我们不妨用大模型规划「大象」执行的方式来操作。再如对于非常非常新的知识「大象」也可能会心有余而力不足。以及要求生成React 18新特性或刚更新的SDK代码时「大象」可能会基于旧知识产生API幻觉。所以如果你有这方面的需求可以在Prompt中注入最新文档来解决。最后Prompt过于模糊也会影响输出的质量。例如跟「大象」说帮我写个好看的网页。因此在用「大象」的时候我们还需切记Prompt一定要细致、要有足够的约束力。Agent 时代“快、好、省”的小模型同样重要其实在这个时间节点发布这样一款主打智效比的模型本身就是一种信号。过去几年时间里AI圈似乎都在比拼谁的模型更大、谁的训练成本更贵、谁在榜单上刷的分更高。但行业走到今天做加法的人太多了需要有人站出来做减法。因为Token浪费已然成了行业高度重视的关键内容之一。《财经》报道全球企业级AI应用中约有50%的Token正在被浪费。AI应用从对话转向执行后Agent在复杂多轮任务中会不断累积历史文件、对话记录大量冗余信息导致Token消耗指数级增长。每一块钱都要花出响动这是工程落地的铁律。而践行这条路线的远不止百灵。就在前不久OpenAI连续发布了GPT-5.4 mini和GPT-5.4 nano两款小型模型专为高频且对延迟敏感的任务设计。它们在保持了GPT-5系列优秀推理基因的前提下实现了极高的吞吐量、极低的延迟和极具竞争力的性价比。谷歌则通过开源小模型Gemma 4以低成本、高推理力打入低端AI市场。Gemma 4的参数规模仅为同智力水平大模型的约二十分之一过去需要花费上千万GPU成本才能跑动的模型现在大概一张高阶显卡就能跑得动成本差距将近十倍。尤其是对于预算有限、算力资源匮乏、追求极致投入产出比的中小企业而言无需为冗余Token支付高额算力成本无需采购昂贵硬件部署大模型轻量化的「大象」就能无缝承接代码开发、文档处理、数据复盘、轻量Agent执行等高频刚需工作。在动辄消耗几十万Token的长文本办公场景中响应压制在1秒内、少说废话的高效模型正在成为AI从玩具跨越到生产力工具的坚实底座。快、准、省这三个看似接地气的字眼正在成为AI高效上岗的标准。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标科技前沿进展每日见

开题报告一次通过率低？虎贲等考 AI：开题全模块一键生成，导师看了直接过

开题报告，是毕业论文真正的第一道门槛。题目不新颖、框架不合理、文献不达标、研究方法写不清、技术路线不清晰…… 随便一个问题，都可能被导师反复打回，耽误整个论文进度。很多同学熬了几晚，依然逻辑混乱、格式不规范、内容不专业…...

2026/4/23 20:49:37 阅读更多 →

手把手教你用Arduino和ESP32绕过nRF52840的APPROTECT锁（附完整代码与PCB定位技巧）

基于ESP32的nRF52840固件提取实战：从硬件定位到自动化流程设计在物联网设备安全研究中，固件提取往往是逆向工程的第一步。nRF52840作为Nordic Semiconductor旗下广受欢迎的蓝牙低功耗SoC，其内置的APPROTECT机制本应有效阻止未经授权的固件读…...

2026/4/23 20:44:01 阅读更多 →

社交机器人检测：构建可信社交生态的技术方案

社交机器人检测：构建可信社交生态的技术方案【免费下载链接】botometer-python A Python API for Botometer by OSoMe 项目地址: https://gitcode.com/gh_mirrors/bo/botometer-python 在数字化社交时代，虚假账户和自动化机器人的泛滥已成为平台…...

2026/4/23 20:42:49 阅读更多 →