很开心GLM-5V-Turbo 到手了。智谱的效率还是挺高的其实昨天已经发我了我没发现。看到这个邮件就像是拿到了一个新玩具马上就想拆开玩一玩。但是……如果玩具不够硬核很容易被我玩坏。我是出了名的只给里子不给面子。我今天随手一测略微一出手好像就翻车了。具体是个什么情况呢往下看。其实今天这个测试一点都不复杂结果是让我有点“意外”的。1、配置模型以防有人还不会配置我先说一下如何配置新模型。官方在通知邮件中非常贴心的提供了配置方法只要修改你用户名下的 .claude 目录下的 settings.json 文件就可以了。我嘛当然是用自己手搓的 JCode 了只要在图标上停留 3 秒钟就会跳出修改图标。点击修改模型即可。如果还没有添加智谱这个供应商就选择右下角的添加。模型 ID 是glm-5v-turbo。别写错一个字母都不能差。 配置完保存一下然后点击图标就可以自动载入 GLM-5V 的配置然后自动打开 Claude Code自动创建独立的配置文件自动定位到设置好的项目路径了。2、创建测试环境为了做到很好的隔离和对比我会给每个模型创建一个单独的测试目录然后每次的对话记录全部会单独保存到文件中方便后期调阅和对比。测试工具的话还是 Claude Code这也是官方推荐的工具。然后我们找一个“小个子”陪练——Opus 4.6因为智谱在基准测试中对标的就是 Opus 4.6。从这张图来看GLM-5V 全方位“吊打” Opus 4.6 了。13 项基准有 10 项领先而且分数都很高了。3、测试例子因为从基准测试来看GLM-5V 非常厉害所以我有点紧张。我主要是怕太简单的例子测不出它的极限。这个问题愁死我了……想了很久都没想好。我就想着先随便搞一搞练练手吧。所以我第一个例子是让它帮我识别上图中的数据并制作网页测着测着就发现问题了。然后我就拉上 Opus 4.6 来做对比了。4、识别图片并制作网页既然作为多模态内容测试一下它对图片文字的识别能力应该合情合理吧而且日常工作中这种场景非常多。单纯做识别好像有点无趣我就加了一句让它把识别的内容制作成网页。然后我们就可以来看它们的执行过程和结果了。第一轮[Image #1] 帮我把图片转换成MD表格并制作成一个网页先来看 GLM-5V上面是完整的回答过程。下面是网页效果从这个网页可以看出来识别效果是很好的应该是一字不差。多了一个“类别”这个是没啥毛病的。而且表格的排版也是没有乱。甚至连加粗都还原了。这个识别和还原能力已经非常好了Opus 4.6这是 Opus 的回答过程。下面是它的网页效果Opus 这个识别也是全对的排版也没啥问题同样考虑到了加粗的问题。样式很好但是它核心列的数据不对齐不知道是什么逻辑是为了区分不同类目么每个大类的第一行位置不一样。这一轮大家都差不多啊都是表现还不错的。当然这也是当前多模态模型的基操了。5、100%复刻上面的测试看起来太简单了下面就上点强度了GLM-5V-Turbo官方宣传视频中的大量例子和基准中都大量提到了设计图转网页、图片转代码的例子。其中 Design2Code 这个基准高达 94.8Opus 4.6 只有 77.3。证明他这方面应该很厉害。设计转成代码最关键的就是还原度就是“抄作业”的能力。所以我就提出了要 100% 复刻图片效果的要求。第二轮刚才我只是叫你制作网页没有提出样式要求你可以 100% 还原截图中样式么制作一个网页用单独的名字保存不修改当前的网页。GLM-5V网页效果如下这这这就有点过分了。这个不能说不像只能说完全不一样吧。尤其是 GLM-5V-Turbo 这一列出现了奇怪的样式而且还和 Kimi 2.5 重叠了。这复刻能力是不太行的。线条、颜色、空间布局的理解和还原能力都不行。Opus 4.6网页效果如下Opus 的设计感还可以大圆圈的形状和颜色比较接近原图了整体能看。但是要说 100% 复刻的话其实小问题也很多。比如加粗样式丢了然后 GLM-5V-Turbo 这个标题的颜色也不对。看来即使一个简单的表格要一比一复刻都有难度。从结果来看GLM-5V 主要是整体样式有点崩了。6、威胁重做我对上面的结果都不是太满意我决定再给它们一次机会。坊间传闻给 AI 一点压力它会很努力。所以我在描述中加了“给你最后一次机会”。第三轮相似度不够我最后给你一次机会请重点分析布局、颜色、内容对齐、文字粗细等因素优化复刻效果最好能做到 100% 的还原。保存到一个新的网页文件中。GLM-5V 结果如下这已经是全面崩溃了乱的一塌糊涂数字跑前面来了选框也漂移了。Opus 4.6 结果如下Opus 整体结构还没崩但是选框也是乱飞了。看来 AI 能力无法通过威胁压迫来提升反而会影响它们发挥。哈全部都不太理想只有看谁更差一点了。这不需要评了吧这种视觉问题谁都能评你们觉得谁更差一点你们说我这个问题复杂么应该不复杂吧看来时至今日复制效果还是有难度即便是一个简单表格好消息是识别率都很高识别完也不乱能覆盖一大批场景。今天只是端上一碟小菜后续我们整点有难度的如果你们有啥好的测试项目速速分享要能区分实力的那种不能是常规基准中的题目避免刷题。